## 회귀분석 (Regression)


- 독립변수(X)와 종속변수(Y)의 관계식에서
  독립변수가 한 단위 증가할 때 종속변수가 얼마나 영향을 받는지 분석
  

[예] 연속형변수와 연속형 변수를 비교할 때


- 나이(X)가 많을 수록 소득(Y)가 높은지 분석
- 광고지불비(X)에 따라 판매량이 영향을 받는지 분석
- 가계 수입과 사교육비 지출 사이에 관계가 있는지 분석



[참고그림] '모두의 딥러닝' 교재에서

<img src='./imgs/regression1.png' width='500'>
<img src='./imgs/regression2.png' width='500'>
<img src='./imgs/regression3.png' width='500'>

** 회귀분석 종류

1) 단순회귀 분석 : 독립변수가 1개
        
        ` 광고지불비(X)를 이용하여 상품 매출액(Y) 예측할 때
        
2) 다중회귀 분석 : 독립변수가 2개 이상
       
       ` 어린이 연령(X1)과 하루 평균 학습시간(X2)를 이용하여 그 어린이의 성적(Y)을 예측하고자 할 때



---
#### 앞에서는   scipy 의 선형회귀를 이용하고 아래는 sklearn의 머신러닝 종류 중 선형회귀 모델 사용

---

## 회귀분석 예제 - 보스턴 주택가격



#### [ 절차 ]
    (1) 데이타 읽어오기

    (2) 데이터와 레이블 분리 변수 선언

    (3) 훈련데이터와 테스트 데이터로 분리하기

    (4) 모델로 학습하기

    (5) 검증하기

In [1]:
%pip install sklearn

Collecting sklearnNote: you may need to restart the kernel to use updated packages.

  Using cached sklearn-0.0.post5.tar.gz (3.7 kB)
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to build wheel: finished with status 'done'
  Preparing metadata (pyproject.toml): started
  Preparing metadata (pyproject.toml): finished with status 'done'
Building wheels for collected packages: sklearn
  Building wheel for sklearn (pyproject.toml): started
  Building wheel for sklearn (pyproject.toml): finished with status 'done'
  Created wheel for sklearn: filename=sklearn-0.0.post5-py3-none-any.whl size=2968 sha256=01c8f8d43684105cea9d1bb0831557a269b1d044fd950d246689adc6cbae4bbd
  Stored in directory: c:\users\tjdgh\appdata\local\pip\cache\wheels\5f\28\a6\4e4fc2959e4ed9b33bf517703534fd8b19b76a842f74c9ed4c
Successfully built sklearn
Installing collected packages: sklearn
Successf

In [None]:

# 보스턴 주택가격 데이터셋
from sklearn.datasets import load_boston

# 회귀분석을 위한 패키기
from sklearn.linear_model import LinearRegression

# 학습용, 검증용 데이터를 나누기 위한 패키기
from sklearn.model_selection import train_test_split

In [9]:
from sklearn.datasets import fetch_california_housing
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import pandas as pd

In [11]:
#(1) 데이타 읽어오기
boston = fetch_california_housing()
boston.data.shape
boston.DESCR
df = pd.DataFrame(boston.data)
df.columns = boston.feature_names
df.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25


In [15]:
# (2) 데이터(X)와 레이블(y) 분리 변수 선언

X = df
y = boston.target

print(X.loc[0])
print('-'*50)
print(y[0])

MedInc          8.325200
HouseAge       41.000000
AveRooms        6.984127
AveBedrms       1.023810
Population    322.000000
AveOccup        2.555556
Latitude       37.880000
Longitude    -122.230000
Name: 0, dtype: float64
--------------------------------------------------
4.526


In [50]:
# (3) 훈련데이터와 테스트 데이터로 분리하기
# X_train : 훈련데이터
# y_train : 훈련레이블(답)
# X_test  : 테스트데이터
# y_test  : 테스트레이블(답)
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.5,random_state=0)
print(y_test)

[1.369   2.413   2.007   ... 2.417   5.00001 0.59   ]


In [51]:
# 20640 -> 0.7 = 14448
# 20640 -> 0.3 = 6192

X_test.shape

(10320, 8)

In [52]:
#(4) 모델로 학습하기

lr = LinearRegression()
lr.fit(X_train,y_train)

In [53]:
# (5) 검증하기

print('훈련 점수:', lr.score(X_train, y_train))
print('테스트 점수:', lr.score(X_test, y_test))

훈련 점수: 0.6095551980896425
테스트 점수: 0.6012789831678068


In [59]:
# [결과예측]
import numpy as np
sample_x = np.array([[ 10.325200,2.0, 7.0, 3.0, 400.0, 3.0, 40.000000, -120.00000 ]])


In [62]:
sample_y = lr.predict(sample_x)
sample_y



array([4.15531252])