일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 산노루
- 이분탐색
- 제주 올레 7
- 맨드롱국수
- 카페 제라
- 선형분석
- 코로나 바이러스
- 신한 레버리지 wti 원유 선물 ETN
- 미국 증시
- 올레 13코스
- 모바일 올레 패스
- 알고리즘
- 안뜨르
- 트럼프
- 올레 스테이
- 코스피
- 셀레니움
- 폭락
- S&P 500
- 나스닥
- Quant
- 수리 키친
- 사우디
- 카페 우다
- 제주 올레 7-1
- 원유
- 제주 올레
- 러시아
- 주식
- 올레 14-1 코스
- Today
- Total
생각이 담아두는 곳
1. 선형회귀분석 - 실습 본문
plt.scatter 은 점을 찍을 때(산포 그래프) , 주로 쓴다.
아까 전 불러온 linearregression 모델을 fit 함수를 이용해 학습에 이용한다.
-> 단순선형회귀
coef_와 intercept_ 는 각각 전에 배운 선형식(Y= b+ aX)에서 각각 a, b 를 의미한다.
당연하지만, y= 2x+1 이라는 식이므로, 15가 주어지면 결과예측값으로 31을 내뱉는다.
predict 함수 안에 굳이 이차 배열로 15라는 값을 넣은 이유는 sklearn 패키지에서 가져온 모델들의 경우, 인자로 이차 배열만을 받는다. (지금은 단순선형분석이라 독립변수가 한 개이지만 보통은 2개 이상이므로 그런 것 같다.)
이런 식으로 나타낼 수 있다.
toy data 가 아닌 실제 데이터로 ml을 해보자.
빨간 색으로 뜨는 경고문구는 plt.legend() 때문인데, 이 경우 굳이 해당 코드는 필요 없다.
i의 값을 바꾸면 feature name의 순서에 맞게 들어간다.
위 단순선형회귀와 비슷하지만, 위에서는 독립변수의 수가 한 개였던 반면,
이처럼 8개의 독립변수가 들어가므로, coef_ 의 원소개수 또한 8개이다. (각각, 해당하는 feature 에 대응)
i=0, 즉, Medinc 이라는 feature에 대해서 만든 선형식이다. ( 앞서 소개한 coef_ 에서 Medinc에 대응하는 값을 뽑아내어 직선식을 만듬)
아까 만든 데이터 프레임에서 각 feature 별 평균.
아까 toy data와 같게, 이번에는 8개의 원소를 담은 리스트를 넣은 것이다. 마찬가지로 2차원 배열이 필요하므로, DF.mean() 에 리스트를 씌워준다.
즉, 각 feature 별 평균을 넣으면, 2.06855817 이라는 값이 나오는 것이다.
우리가 도출해낸 , target variable은 캘리포니아 집값의 중앙값이다. (평균 아님)
'CS > ML' 카테고리의 다른 글
2. 선형회귀분석(2) - 실습 (0) | 2020.09.10 |
---|---|
2. 선형회귀분석(2) (0) | 2020.09.08 |
1. 선형회귀분석 (0) | 2020.09.03 |
Introduction to Trading, Machine learning&GCP [5] (0) | 2020.04.28 |
Introduction to Trading, Machine learning&GCP [4] (0) | 2020.04.20 |