In [3]:
# 선형회귀분석
# X_train으로 선형근사에 의해 예측된 선형 회귀식과
# y_train 사이의 잔여 제곱합을 최소화합니다.
# 머신러닝의 회귀분석은 예측에 초점, 설명력이 전통적 통계분석에 비해 낮음.
# Ridge, Lasso, ElasticNet은 전통적 회귀분석을 보완
# Ridge 
# > 일부문제(과대적합 <- 다중공선성, 변수 多) 해결, 
# > 다중공선성을 지닌 변수를 0에 가깝게 만들어 없애주는 효과(제곱을 해서 없앨 수는 없다.)
# > 알파 값 크면, 가중치의 영향이 크고, 이는 과대적합을 막는다
# > 알파 값이 너무 크면, 과소적합이 일어날 수 있다.

# Lasso 
# > Ridge에서 해결할 수 없는 일부문제를 해결
# > 절대값

# ElasticNet
# Ridge, Lasso의 장점을 결합

# 결국 세 가지 방법은 어떠한 패널티를 부과하므로써, 다중공선성을 제거 할 수 있고,
# 전통적 회귀분석이나, Linear regression의 문제를 해결 할 수 있다.
# 그러나 그것을 해결해 줄 수는 알파는 직접 분석가가 찾아야 한다.

In [2]:
import pandas as pd
import numpy as np
import mglearn
X, y = mglearn.datasets.load_extended_boston()


    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np


        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_h

In [3]:
X

array([[0.00000000e+00, 1.80000000e-01, 6.78152493e-02, ...,
        1.00000000e+00, 8.96799117e-02, 8.04248656e-03],
       [2.35922539e-04, 0.00000000e+00, 2.42302053e-01, ...,
        1.00000000e+00, 2.04470199e-01, 4.18080621e-02],
       [2.35697744e-04, 0.00000000e+00, 2.42302053e-01, ...,
        9.79579831e-01, 6.28144504e-02, 4.02790570e-03],
       ...,
       [6.11892474e-04, 0.00000000e+00, 4.20454545e-01, ...,
        1.00000000e+00, 1.07891832e-01, 1.16406475e-02],
       [1.16072990e-03, 0.00000000e+00, 4.20454545e-01, ...,
        9.82676920e-01, 1.29930407e-01, 1.71795127e-02],
       [4.61841693e-04, 0.00000000e+00, 4.20454545e-01, ...,
        1.00000000e+00, 1.69701987e-01, 2.87987643e-02]])

In [4]:
print(X.shape)
print(y.shape)

(506, 104)
(506,)


In [5]:
# 훈련, 테스트 셋 분리
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size = 0.3, random_state = 0)

In [6]:
print(X_train.shape)
print(y_train.shape)

(354, 104)
(354,)


In [8]:
from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(X_train, y_train)

LinearRegression()

In [9]:
# 기울기, 절편 호출
print('기울기 : ', lr.coef_)
print('절편 : ', lr.intercept_)

기울기 :  [-4.33704714e+02 -4.27754308e+01 -1.28481468e+02 -1.18776033e+01
 -1.78703730e+01  2.59686895e+01  5.63747064e+01 -5.58439243e+01
  1.61598828e+01  4.16901656e+01 -1.09516095e+01 -1.40253594e+01
 -2.19041413e+01  1.90551463e+01  2.76667699e+03  1.53047514e+03
  1.21268554e+02 -4.60499609e+00  2.48383118e+01 -3.00570284e+01
  9.59771262e+01  1.33888720e+03 -2.33427571e+03  2.61342693e+02
 -1.41712353e+00  3.20215615e+01 -1.45894092e+01 -2.10437385e+01
 -7.66545703e+00 -8.03876611e+01  8.62968881e+00  7.28471754e+00
 -1.10266163e+00 -2.24144700e+00  3.23407788e+01 -1.03736502e+01
  5.97750174e+01 -1.83399865e+01  3.64204995e+01 -4.26367054e+00
  1.59044619e+01  5.69081378e+01  1.48746227e+01  6.39295382e+01
 -2.16980861e+01  2.25591789e+01 -1.49418510e+01  5.49066542e+01
 -1.30858038e+01 -1.18776033e+01 -1.67729835e+01 -3.46890006e+01
  6.55871187e+00 -7.06931008e+00  1.15762091e+01 -5.82484408e+00
 -1.09660567e+01  5.89367073e+01 -1.93606085e+01  1.08440448e+00
  2.92079323e+01 -

In [10]:
# 추정된 값
y_pred = lr.predict(X_test)
y_pred

array([ 23.91238964,  26.78414909,  30.01687048,  10.28605728,
        19.97437885,  19.70947018,  22.10807185,  20.49301402,
        12.11793241,  18.12056132,   7.28234863,  13.19064552,
        14.19307564,   8.31574685,  48.8118262 ,  35.6478669 ,
        23.59219392,  37.17322394,  32.23444089,  22.3010062 ,
        24.91200988,  21.49172813,  21.02418627,  27.58758607,
        17.95275344,  31.04267493,  16.28500244,  18.19156248,
        34.4580386 ,  13.81558423,  16.44667748,  18.32919563,
        19.63292289,  19.28759264,  26.33813933,  15.78458235,
         6.48085359,  36.57816588,  16.80284058,  13.60511103,
        22.48815769,  19.55024704,  19.42809998,  18.91401826,
        10.04053426,  22.16499085,  17.95419741,   9.34413112,
        12.54607347,  23.14172559, -28.22156936,  25.48915028,
        20.14824028,  53.32403243,   6.98809351,  21.23712406,
        16.86681946,  17.30122537,  17.98451255,  19.93228314,
        24.09199817,  21.30079299,  33.30990714,  29.13

In [11]:
# 잔차를 확인하는 방법 : y값과 추정값의 차를 계산
resid = y_test - y_pred
resid

array([ -1.31238964,  23.21585091,  -7.01687048,  -1.98605728,
         1.22562115,   0.19052982,  -1.50807185,  -1.79301402,
         3.98206759,   0.47943868,   1.51765137,   4.00935448,
         0.70692436,   2.18425315,   1.1881738 ,  -6.6478669 ,
        -0.59219392,  -3.87322394,  -2.83444089,  -1.3010062 ,
        -1.11200988,  -2.39172813,  -0.62418627,   1.51241393,
         1.34724656,  -7.94267493,   3.31499756,   1.20843752,
         4.2419614 ,   4.88441577,  -1.84667748,   1.67080437,
         0.86707711,   0.81240736,  -2.73813933,   1.01541765,
        -0.88085359,  13.42183412,  -2.30284058,  -0.30511103,
         1.41184231,   0.44975296,   0.37190002,  -5.11401826,
         6.45946574,  -0.56499085,   2.34580259,   7.65586888,
        -0.74607347,   4.35827441,  43.82156936,  -2.38915028,
         4.15175972, -10.52403243,   8.61190649,   0.46287594,
         0.23318054,  -0.10122537,  -2.98451255,   1.76771686,
        -5.49199817,  -0.30079299,  -0.20990714,   2.36

In [13]:
# R2
print('훈련 데이터 셋 성능 : ', lr.score(X_train, y_train))
print('테스트 데이터 셋 성능 : ', lr.score(X_test, y_test))

# 과대적합 <- 다중공선성, 변수 多, R2

훈련 데이터 셋 성능 :  0.9517246762476053
테스트 데이터 셋 성능 :  0.648683949998761


In [14]:
# mse
(resid**2).sum()/len(y_test)

29.252507139200617

In [16]:
# rmse
np.sqrt((resid**2).sum()/len(y_test))

# 평균적으로 5 정도의 차이가 있다.
# rmse값이 작을수록 좋다.

5.4085586933304715

In [18]:
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)

print(mse)
print(rmse)

29.252507139200617
5.4085586933304715


In [20]:
# R2값이 훈련데이터에 비해 테스트 데이터셋이 더 작으므로, 과대적합
# R2값이 0.648은 좋은 성능이 아니다.
# 모델의 성능을 높이려면, 과대적합을 조정해줘야한다. > Ridge, Lasso, ElasticNet

In [21]:
X_train

array([[0.01823449, 0.        , 0.78555718, ..., 1.        , 0.901766  ,
        0.81318193],
       [0.00121704, 0.2       , 0.23826979, ..., 0.99024028, 0.16475301,
        0.02741108],
       [0.00619828, 0.        , 0.78555718, ..., 0.98878546, 0.41789074,
        0.17661331],
       ...,
       [0.00162594, 0.        , 0.35007331, ..., 0.98798327, 0.23505388,
        0.05592233],
       [0.0025059 , 0.        , 0.23643695, ..., 0.97913066, 0.46608557,
        0.22186595],
       [0.00149286, 0.        , 0.13159824, ..., 1.        , 0.35761589,
        0.12788913]])

In [26]:
# 다중공선성 문제 있을 수 있다.
from statsmodels.stats.outliers_influence import variance_inflation_factor
vif_list = []
for i in range(X_train.shape[1]):
    vif_list.append([variance_inflation_factor(X_train,i)])
vif_list

[[54851.95197767613],
 [7130.307358208186],
 [22374.003679026846],
 [inf],
 [6771.725195571671],
 [6800.801502806481],
 [10940.386138579546],
 [7326.440153114255],
 [30805.61103699408],
 [81206.29682014103],
 [10708.631478267633],
 [7673.09915025527],
 [2412.5310782263655],
 [37.29568591935402],
 [19.417800952621043],
 [325173.70523822005],
 [14.822542635807283],
 [515.0122621388858],
 [177.6698962626534],
 [844.5913175230344],
 [30.361263840820655],
 [992617.8325887014],
 [2331396.8718411014],
 [29863.383191795456],
 [44.5538239375616],
 [159.09454435610166],
 [102.57528989122348],
 [13.509943115758212],
 [6.940197261396824],
 [50.240661897464726],
 [418.7975220112337],
 [44.137292535255966],
 [171.74257241834985],
 [28.91875968665672],
 [38.43267370061432],
 [63.36677850173572],
 [5720.689018922408],
 [28.167527476576808],
 [976.1444457223474],
 [159.60310031467287],
 [4324.919106210621],
 [1405.2563175684206],
 [1312.8887738668022],
 [236.1472746520232],
 [15955.742728721658],
 [208

In [27]:
vif_dt = pd.DataFrame(vif_list,columns = ['vif'])
vif_dt[vif_dt['vif'] < 10]

Unnamed: 0,vif
28,6.940197


In [29]:
# 10 이상이면 다중공선성 발생한다.
# 전통적 회귀 분석에서 시간과 노력이 필요
# 머신러닝에서는  매개변수의 알파 값만 지정해주면 Ridge, Lasso, ElasticNet을 활용하여
# 다중공선성을 제거할 수 있다.

In [30]:
# Ridge, Lasso, ElasticNet
# alpha값 따라 과대적합, 과소적합이 발생할 수 있기 때문에
# 최적의 alpha 값을 찾아야 한다.

In [33]:
# Ridge
import warnings
warnings.filterwarnings(action = 'ignore')

from sklearn.linear_model import Ridge

ridge = Ridge()
ridge.fit(X_train, y_train)

# R2
print("사용한 데이터 컬럼 수 : ", np.sum(ridge.coef_!=0))
print("훈련 데이터 셋 성능 : ", ridge.score(X_train, y_train))
print("테스트 데이터 셋 성능 : ", ridge.score(X_test, y_test))

사용한 데이터 컬럼 수 :  104
훈련 데이터 셋 성능 :  0.8820517790991202
테스트 데이터 셋 성능 :  0.7834459976736694


In [34]:
# alpha = 1로 하였을 때 R2 0.78
# LinearGression 모델의 0.648 보다는 성능이 좋지만
# alpha = 1로 하였을 때 Ridge의 최적화된 값임은 알 수 없다.

In [36]:
from sklearn.model_selection import GridSearchCV
ridege = Ridge()
param_grid = {'alpha':(0.0001,0.0005,0.001,0.005, 0.01,0.05,0.1, 0.15, 0.2, 0.25, 0.3,0.5,1,2,3)}
model = GridSearchCV(ridge, param_grid)
model.fit(X_train, y_train)

GridSearchCV(estimator=Ridge(),
             param_grid={'alpha': (0.0001, 0.0005, 0.001, 0.005, 0.01, 0.05,
                                   0.1, 0.15, 0.2, 0.25, 0.3, 0.5, 1, 2, 3)})

In [37]:
model.best_estimator_

Ridge(alpha=0.05)

In [38]:
ridge = Ridge(alpha = 0.05)
ridge.fit(X_train, y_train)

Ridge(alpha=0.05)

In [39]:
# R2
print("사용한 데이터 컬럼 수 : ", np.sum(ridge.coef_!=0))
print("훈련 데이터 셋 성능 : ", ridge.score(X_train, y_train))
print("테스트 데이터 셋 성능 : ", ridge.score(X_test, y_test))

사용한 데이터 컬럼 수 :  104
훈련 데이터 셋 성능 :  0.9333679643206895
테스트 데이터 셋 성능 :  0.7877067511712773


In [40]:
# Lasso ( 사용된 데이터 컬럼 수 줄이기)

from sklearn.linear_model import Lasso
lasso = Lasso()
lasso.fit(X_train, y_train)

Lasso()

In [41]:
# R2
print("사용한 데이터 컬럼 수 : ", np.sum(lasso.coef_!=0))
print("훈련 데이터 셋 성능 : ", lasso.score(X_train, y_train))
print("테스트 데이터 셋 성능 : ", lasso.score(X_test, y_test))

사용한 데이터 컬럼 수 :  3
훈련 데이터 셋 성능 :  0.26489481124592407
테스트 데이터 셋 성능 :  0.2136447822416102


In [42]:
# Lasso의 경우 Ridge와는 다르게 사용하는 데이터 컬럼 자체를 0으로 만들어 변수 선택법과 같이 삭제를 해줄 수 있다. 
# 위의 결과값의 경우 훈련데이터셋 자체에 성능이 낮으므로 과소적합이 되었음을 알 수 있다. 
# 과소적합을 해결하기 위해 alpha값을 조정한다. 

In [44]:
lasso = Lasso()
param_grid = {'alpha':(0.0001,0.0005,0.001,0.002, 0.003, 0.005, 0.01,0.05,0.1, 0.15, 0.2, 0.25, 0.3,0.5,1,2,3)}
model_lasso = GridSearchCV(lasso, param_grid)
model_lasso = model_lasso.fit(X_train, y_train)

print('best model : ', model_lasso.best_estimator_)


best model :  Lasso(alpha=0.002)


In [45]:
lasso = Lasso(alpha = 0.002)
lasso.fit(X_train, y_train)
# R2
print("사용한 데이터 컬럼 수 : ", np.sum(lasso.coef_!=0))
print("훈련 데이터 셋 성능 : ", lasso.score(X_train, y_train))
print("테스트 데이터 셋 성능 : ", lasso.score(X_test, y_test))

사용한 데이터 컬럼 수 :  59
훈련 데이터 셋 성능 :  0.9303367526733315
테스트 데이터 셋 성능 :  0.7929168170231428


In [47]:
# 59개의 데이터를 사용하고 패널티를 적용하였을 때, Lasso의 경우 0.79의 설명력을 가짐을 알 수 있다. 

In [51]:
from sklearn.linear_model import ElasticNet
elastic = ElasticNet()
elastic.fit(X_train, y_train)
## R2 
print("훈련 데이터 셋 성능 : ", elastic.score(X_train,y_train))
print("테스트 데이터 셋 성능 : ", elastic.score(X_test,y_test))

훈련 데이터 셋 성능 :  0.3096253527541134
테스트 데이터 셋 성능 :  0.2561599717003974


In [52]:
# 과소적합
elastic = ElasticNet() 
param_grid = {'alpha':(0.0001,0.0005,0.001,0.005, 0.01,0.05,0.1, 0.15, 0.2, 0.25, 0.3,0.5,1,2,3), 
              'l1_ratio' : [0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8, 0.9]}
model_elastic = GridSearchCV(elastic, param_grid)
model_elastic.fit(X_train,y_train)

print("best_model: ", model_elastic.best_estimator_)
print("훈련 데이터 셋 성능 : ", model_elastic.score(X_train,y_train))
print("테스트 데이터 셋 성능 : ", model_elastic.score(X_test,y_test))

best_model:  ElasticNet(alpha=0.0005, l1_ratio=0.2)
훈련 데이터 셋 성능 :  0.9231617946389865
테스트 데이터 셋 성능 :  0.8045378750963652


In [53]:
model_elastic =  ElasticNet(alpha=0.0005, l1_ratio=0.2)
model_elastic.fit(X_train,y_train)


ElasticNet(alpha=0.0005, l1_ratio=0.2)

In [54]:
print("사용한 데이터 컬럼 수 : ", np.sum(model_elastic.coef_!=0))
print("훈련 데이터 셋 성능 : ", model_elastic.score(X_train,y_train))
print("테스트 데이터 셋 성능 : ", model_elastic.score(X_test,y_test))

사용한 데이터 컬럼 수 :  100
훈련 데이터 셋 성능 :  0.9231617946389865
테스트 데이터 셋 성능 :  0.8045378750963652


In [None]:
# 100개의 데이터 컬럼을 사용하고 패널티를 적용하였을 때, Elastic의 경우 0.80의 설명력을 가짐을 알 수 있다.

In [55]:
 model_elastic.coef_

array([ -2.33849549,  -3.62982675,  -2.83691459,   0.        ,
         3.34284624,  16.04925785,   5.13667101, -11.54273102,
        12.44636614,  -1.04609453,  -0.29518919,   5.41442121,
        -2.06165762,   5.24992843,   0.        ,  -1.21304457,
         3.0841446 ,  -2.58634775,   0.26703777,  -2.90016483,
         0.15880151,  -3.32720733,  -2.60708691,  -2.44516335,
         0.11268821,  -1.81018985,   2.38802307,  -3.66609785,
         2.74312292,  -2.2078981 ,   8.1939636 ,  -3.55752882,
         0.57861372,   0.61029713,   1.74175884,   1.77612306,
        -2.60255806,  -6.19562821,   5.20189945,   1.73036241,
         8.75422258,   0.54851109,   6.9708351 ,  -3.45956274,
         4.72375302,   4.42921655,  -8.12514644,  -1.50973875,
       -13.32452568,   0.        , -14.14670369, -14.28266065,
         5.9148633 ,  -0.2272377 ,   6.26478033,   3.70465625,
         1.15072035,   7.8451777 ,  -7.61359622,  -1.391521  ,
        -3.94072295,  -5.89538494,  -0.        ,  -4.31

In [57]:
# 회귀 계수를 해석해야 할 경우, 0인 값을 제외하고 위와같이 패널티가 적용된 회귀계수를 가지고 해석하면 된다. 
# > 전통적 통계분석과 동일하게 진행하면 된다.