# 다중 회귀 분석 실습

파이썬에서 Multiple Linear Regression을 실행하기 위해 scikit-learn 패키지를 사용
보통은 데이터를 외부에서 읽어들여 전처리 후 모델링을 진행하지만, 기존의 scikit-learn에 샘플데이터셋이 있으므로 이를 이용하여 실습을 진행한다.

파이썬에서 패키지를 사용하기 위해서는 'import' 함수를 사용하며,
만약에 패키지 중 일부만을 사용하고자 할 때는 'from package import subpackage'를 진행한다.

### 패키지 import 및 데이터 load

In [1]:
from sklearn import datasets

In [2]:
data = datasets.load_diabetes()

데이터 셋의 형태를 파악하기 위해 데이터를 출력해본다. 데이터셋의 형태는 딕셔너리 형태로, key가 data와 target으로 구분되어있다. 친절하게 scikit-learn에서는 데이터를 미리 전처리해두어서 data(X, 독립변수), target(Y, 종속변수)로 구분지어놨다.

In [3]:
print(data)

{'data': array([[ 0.03807591,  0.05068012,  0.06169621, ..., -0.00259226,
         0.01990842, -0.01764613],
       [-0.00188202, -0.04464164, -0.05147406, ..., -0.03949338,
        -0.06832974, -0.09220405],
       [ 0.08529891,  0.05068012,  0.04445121, ..., -0.00259226,
         0.00286377, -0.02593034],
       ..., 
       [ 0.04170844,  0.05068012, -0.01590626, ..., -0.01107952,
        -0.04687948,  0.01549073],
       [-0.04547248, -0.04464164,  0.03906215, ...,  0.02655962,
         0.04452837, -0.02593034],
       [-0.04547248, -0.04464164, -0.0730303 , ..., -0.03949338,
        -0.00421986,  0.00306441]]), 'target': array([ 151.,   75.,  141.,  206.,  135.,   97.,  138.,   63.,  110.,
        310.,  101.,   69.,  179.,  185.,  118.,  171.,  166.,  144.,
         97.,  168.,   68.,   49.,   68.,  245.,  184.,  202.,  137.,
         85.,  131.,  283.,  129.,   59.,  341.,   87.,   65.,  102.,
        265.,  276.,  252.,   90.,  100.,   55.,   61.,   92.,  259.,
         53.,  1

입력받은 데이터를 X,Y로 구분하여 처리한다. x 데이터의 형태를 확인하기 위해 아래와 같이 진행한다

In [4]:
x = data['data']
y = data['target']   # = data.target
print(x.shape)

(442, 10)


### 데이터 분할

데이터 분할은 scikit-learn에서 제공하는 train_test_split을 이용하면 편리하다. 아래와 같이 split을 하게되면 하나의 데이터로 부터 특정 비율만큼을 트레이닝셋으로, 나머지를 테스트셋으로 구분하여 활용할 수 있다.

In [10]:
from sklearn.model_selection import train_test_split 

In [11]:
X_train, X_test, Y_train, Y_test = train_test_split(x, y, test_size=0.3, random_state=0)  # 30%가 test size
X_train.shape, X_test.shape, Y_train.shape, Y_test.shape

((309, 10), (133, 10), (309,), (133,))

### Training Model

In [7]:
import numpy as np
from sklearn.linear_model import LinearRegression

scikit-learn에서의 모델 트레이닝은 매우 간단한데, 아래와 같이 특정 모델의 객체를 생성 한 후, 각 객체에 공통적으로 존재하는 fit함수를 사용하면 주어진 데이터에 대해서 학습을 진행한다.

In [12]:
mlr = LinearRegression()    # 모델객체생성
mlr.fit(X_train, Y_train)    # fit으로 학습진행

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

MLR 모델에서 추정한 회귀변수를 보고자 한다면 아래와 같이 진행한다.

In [13]:
# The coefficients
print('Coefficients: \n', mlr.coef_)

Coefficients: 
 [ -52.46990775 -193.51064552  579.4827762   272.46404234 -504.72401371
  241.68441866  -69.73618783   86.62018451  721.95580222   26.77887028]


모델의 적합성을 확인하기 위해 수업시간에 배운 R-square를 구해보자.
여러가지 metric은 scikit-learn에서 사용할 수 있도록 모듈로 구성되어 있으므로, 이를 import하여 사용한다.

In [15]:
from sklearn.metrics import r2_score
pred = mlr.predict(X_test)    # predict 다른 모델도 항상 똑같은 함수 씀
print(r2_score(Y_test, pred))

0.392893984507


### 추가 패키지 사용 - statsmodels 패키지

statsmodels 패키지에서는 OLS 클래스를 이용하여 선형회귀분석을 실시한다. 아래와 같이 패키지를 입력하고, OLS 모형을 이용하여 회귀분석을 실시한다. scikit-learn과의 차이점은 아래와 같다. 
- 모델 객체 생성시 미리 데이터를 입력해줘야한다. 
- 자동으로 상수항을 만들지 않기 때문에 'add_constant'를 이용하여 상수항을 추가해줘야 한다. 

아래는 결과 summary를 확인하기 위해 상수항은 따로 추가하지 않고 실행한다.

In [16]:
from statsmodels.regression.linear_model import OLS

In [17]:
model = OLS(Y_train, X_train)  # 만들때 dataset을 미리 넣어줘야한다.
result = model.fit()
print(result.summary())  # summary값 불러낼 수 있다.

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.106
Model:                            OLS   Adj. R-squared:                  0.076
Method:                 Least Squares   F-statistic:                     3.554
Date:                Mon, 15 Jul 2019   Prob (F-statistic):           0.000183
Time:                        15:25:38   Log-Likelihood:                -2010.9
No. Observations:                 309   AIC:                             4042.
Df Residuals:                     299   BIC:                             4079.
Df Model:                          10                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
x1           -94.5943    217.856     -0.434      0.6

scikit-learn과 마찬가지로 predict라는 함수를 이용하여 예측을 한다.

In [18]:
pred = result.predict(X_test)
print(pred)

[  79.35604986   90.20826117    8.09194496  -36.97148582   40.24065968
   88.24090122  -42.21828014   26.93912291   -3.99031491   79.26578643
    8.2648895    28.48101225  -46.80830476  -66.51983831   88.4234783
  -45.93179422  -10.8218498   -68.13614387  -55.33360783   47.461923
   38.16214497   -4.5447892     6.56759019   -9.10295676   58.2610926
    2.44262802  -22.35918837  -74.64330428   30.18044001   10.748149
   24.66705442  -64.19173096  -10.9361286    -8.20704161  -23.74519905
   28.69400992    1.50861315   46.43380411  -34.79575511   38.32607847
  -72.34149797   11.16568701  -22.7465025     9.7993116    34.16128536
  -78.18008196  -10.48608231  -16.6095517   -31.83365014   62.23435859
    4.93659208  -65.05210695    1.37184048    1.70874549   70.35080937
   43.81915436   34.92214274  -31.87574756  -31.74464622   10.93511267
   47.87088619    9.0239927     0.59877324  -45.74400118   94.6854663
   -7.20058459  -79.07213661   73.78038015   68.60076022  -88.73578827
  -71.8754921

### VIF 구하기(feat. statsmodels 패키지)

VIF를 구하기 위해서는 scikit-learn에서는 계산할 수 있는 모듈을 제공하고 있지 않다. 그러므로 다른 모듈을 사용하거나, 직접 계산하는 수 밖에 없다. 다행히, statsmodels 패키지에서 variance_inflation_factor로 제공하고있다.

In [19]:
from statsmodels.stats.outliers_influence import variance_inflation_factor
import pandas as pd

variance_inflation_factor함수는 첫번째 input으로 데이터셋 전체를 받고, 두번째 input으로 vif를 계산할 특정 변수의 index를 입력받는다.

In [19]:
vif = pd.DataFrame()
vif['VIF Factor'] = [variance_inflation_factor(X_train, i) for i in range(X_train.shape[1])]  # vif구하는 코드. x_train의 컬럼이 들어가서..

In [20]:
print(vif)

   VIF Factor
0    1.258764
1    1.249004
2    1.573517
3    1.591749
4   56.286046
5   36.309338
6   15.924893
7    9.460528
8    9.930956
9    1.603518
