생각이 담아두는 곳

1. 선형회귀분석 - 실습 본문

CS/ML

1. 선형회귀분석 - 실습

Chang_Tree 2020. 9. 4. 14:05

plt.scatter 은 점을 찍을 때(산포 그래프) , 주로 쓴다. 

아까 전 불러온 linearregression 모델을 fit 함수를 이용해 학습에 이용한다. 

-> 단순선형회귀 

coef_와 intercept_ 는 각각 전에 배운 선형식(Y= b+ aX)에서 각각 a, b 를 의미한다.

당연하지만, y= 2x+1 이라는 식이므로, 15가 주어지면 결과예측값으로 31을 내뱉는다.

predict 함수 안에 굳이 이차 배열로 15라는 값을 넣은 이유는 sklearn 패키지에서 가져온 모델들의 경우, 인자로 이차 배열만을 받는다. (지금은 단순선형분석이라 독립변수가 한 개이지만 보통은 2개 이상이므로 그런 것 같다.)

 

이런 식으로 나타낼 수 있다. 

 

toy data 가 아닌 실제 데이터로 ml을 해보자.

 

빨간 색으로 뜨는 경고문구는 plt.legend() 때문인데, 이 경우 굳이 해당 코드는 필요 없다. 

i의 값을 바꾸면 feature name의 순서에 맞게 들어간다.  

위 단순선형회귀와 비슷하지만, 위에서는 독립변수의 수가 한 개였던 반면, 

이처럼 8개의 독립변수가 들어가므로, coef_ 의 원소개수 또한 8개이다. (각각, 해당하는 feature 에 대응)

 

i=0, 즉, Medinc 이라는 feature에 대해서 만든 선형식이다. ( 앞서 소개한 coef_ 에서 Medinc에 대응하는 값을 뽑아내어 직선식을 만듬)

아까 만든 데이터 프레임에서 각 feature 별 평균. 

아까 toy data와 같게, 이번에는 8개의 원소를 담은 리스트를 넣은 것이다. 마찬가지로 2차원 배열이 필요하므로, DF.mean() 에 리스트를 씌워준다. 

즉, 각 feature 별 평균을 넣으면, 2.06855817 이라는 값이 나오는 것이다.

 

https://scikit-learn.org/stable/datasets/index.html#california-housing-dataset

우리가 도출해낸 , target variable은 캘리포니아 집값의 중앙값이다. (평균 아님)

 

'CS > ML' 카테고리의 다른 글

2. 선형회귀분석(2) - 실습  (0) 2020.09.10
2. 선형회귀분석(2)  (0) 2020.09.08
1. 선형회귀분석  (0) 2020.09.03
Introduction to Trading, Machine learning&GCP [5]  (0) 2020.04.28
Introduction to Trading, Machine learning&GCP [4]  (0) 2020.04.20
Comments