## 1. 회귀분석

### 1.1 회귀분석 개념
+ 하나 혹은 그 이상의 원인이 종속변수에 미치는 영향을 추적하여 식으로 표현하는 통계기법
+ 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위해 사용하는 분석 방법

#### 1.1.1 머신러닝 기법을 이용한 방법

>from sklearn.linear_model import LinearRegression

- LinearRegression 은 계수 $ w = (w_1, ..., w_p)$ 를 사용하여 선형 모델을 피팅합니다.
- 선형 모델은 X_train 으로 선형 근사에 의해 예측된 선형 회귀식과 y_train 사이의 잔여 제곱합을 최소화합니다.
> LinearRegression() : 선형회귀분석 모델을 생성하는 함수  
> fit() : 선형 회귀 모델에 필요한 두 가지 변수(x,y) 를 전달
+ 설명변수의 차원을 조정해야 함
+ R의 summary() 와 같은 기능이 없음
+ 기울기와 절편을 따로 호출해서 얻을 수 있음
+ 잔차를 자동으로 계산해주는 기능이 없음
+ model.coef_ 로 회귀계수 추출가능

#### 1.1.2 Ridge, Lasso, ElasticNet
+ Ridge
> Ridge 회귀는 L2 정규화로 계수 크기에 페널티를 부과하여 일반 최소 제곱의 일부 문제를 해결합니다.  
> 매개변수 : alpha = 1.0

+ Lasso
> Lasso 회귀는 L1 정규화로 희소 계수를 추정하는 선형 모델입니다.  
> 매개변수 : alpha = 1.0

+ ElasticNet
> ElasticNet 회귀는 계수의 L1 및 L2 정규화로 훈련된 선형 회귀 모델입니다.  
> 매개변수 : alpha = 1.0, l1_ratio = 0.5


#### 1.1.3 LinearRegression(예제)
[예제]  
boston 데이터로 LinearRegression을 사용하여 선형 회귀분석을 실시한 후, 추정된 회귀모형에 대해 해석하라

In [None]:
# !pip install mglearn

In [3]:
import pandas as pd
import numpy as np
import mglearn
X, y = mglearn.datasets.load_extended_boston()

In [None]:
# 훈련, 테스트 셋 분리
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 42)
lr = LinearRegression()
lr.fit(X_train, y_train)

print('기울기', lr.coef_)
print('절편', lr.intercept_)

In [11]:
from sklearn.metrics import r2_score, mean_squared_error

y_pred = lr.predict(X_test)

print('train r2 score :', lr.score(X_train, y_train))
print('test r2 score :', lr.score(X_test, y_test))

mse = mean_squared_error(y_test, y_pred)
print('mse :', mse)
print('rmse :', np.sqrt(mse))

train r2 score : 0.9469794920108199
test r2 score : 0.6610321968877275
mse : 25.25754030773469
rmse : 5.025688043217037


[결과 해석]
+ R2 값을 보면 훈련데이터에 비해 테스트데이터가 더 작으므로 과대적합이 일어났음을 알 수 있다.
+ 선형회귀모델의 설명력은 약 66% 이다.
+ 과대적합을 조정해주어야 한다.

### 1.2 Ridge, Lasso, ElasticNet
+ Ridge, Lasso, ElasticNet 은 모두 alpha 값에 영향을 받는다.
+ alpha 값을 통해 과대 적합을 피할 수 있다.
+ alpha 값이 너무 크면 과소적합이 될 수 있으므로 최적의 값을 찾아야 한다.

#### 1.2.1 GridSearchCV
+ 모델에 지정된 매개변수 값에 대해 주어진 목록을 탐색해주는 함수이다.

#### 1.2.2 Ridge(예제)

In [12]:
import pandas as pd
import numpy as np
import mglearn
import warnings
warnings.filterwarnings(action='ignore')

X,y = mglearn.datasets.load_extended_boston()
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 0.3 , random_state = 42)

In [15]:
from sklearn.linear_model import Ridge
ridge = Ridge(alpha=1) # alpha = 1 기본값
ridge.fit(X_train, y_train)

print('train r2 score :', ridge.score(X_train, y_train))
print('test r2 score :', ridge.score(X_test, y_test))

train r2 score : 0.8636034860891285
test r2 score : 0.8334633607570349


[결과 해석]
+ alpha = 1 일 때 R2 = 0.83 임을 알 수 있다.
+ LinearRegression 모델의 R2보다는 좋지만 Ridge의 최적화된 값인지는 알 수 없다.

In [17]:
from sklearn.model_selection import GridSearchCV

ridge = Ridge()
param_grid = {'alpha' : (0.0001, 0.0005, 0.001, 0.005, 0.01, 0.05, 0.1, 0.15, 0.2, 0.25, 0.3, 0.5, 1.0, 2.0 ,3.0)}
grid_ridge = GridSearchCV(ridge, param_grid)
grid_ridge.fit(X_train, y_train)

print('최적의 파라미터 :', grid_ridge.best_params_)

최적의 파라미터 : {'alpha': 0.05}


In [26]:
ridge = Ridge(alpha = 0.05)
ridge.fit(X_train, y_train)
y_pred = ridge.predict(X_test)

print('number of using columns :', np.sum(ridge.coef_ != 0))
print('train R2 :', ridge.score(X_train, y_train))
print('test R2 :', ridge.score(X_test, y_test))

mse = mean_squared_error(y_test, y_pred)
print('mse :', mse)
print('rmse :', np.sqrt(mse))

number of using columns : 104
train R2 : 0.9236984821715977
test R2 : 0.8187788862166875
mse : 13.50334617025127
rmse : 3.674689942056509


#### 1.2.3 Lasso(예제)

In [19]:
from sklearn.linear_model import Lasso

lasso = Lasso()
param_grid = {'alpha' : (0.001, 0.002, 0.005, 0.01, 0.05, 0.1, 0.2, 0.3, 0.5, 1, 2, 3)}
grid_lasso = GridSearchCV(lasso, param_grid)
grid_lasso.fit(X_train, y_train)

print('최적의 파라미터 :', grid_lasso.best_params_)

최적의 파라미터 : {'alpha': 0.001}


In [29]:
lasso = Lasso(alpha=0.001)
lasso.fit(X_train, y_train)

print('number of using columns :', np.sum(lasso.coef_ != 0))
print('train R2 :', lasso.score(X_train, y_train))
print('test R2 :', lasso.score(X_test, y_test))

y_pred = lasso.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print('mse :', mse)
print('rmse :', np.sqrt(mse))

number of using columns : 73
train R2 : 0.9301687092322912
test R2 : 0.7952457710491011
mse : 15.256871429743258
rmse : 3.906004535294763


#### 1.2.4 ElasticNet(예제)

In [21]:
from sklearn.linear_model import ElasticNet

elastic = ElasticNet()
param_grid = {'alpha' : (0.001, 0.005, 0.01, 0.05, 0.1, 0.2, 0.3, 0.5, 1, 2, 3),
              'l1_ratio' : np.arange(0.1, 1.0, 0.1)}

grid_elastic = GridSearchCV(elastic, param_grid)
grid_elastic.fit(X_train, y_train)

print(grid_elastic.best_params_)

{'alpha': 0.0005, 'l1_ratio': 0.5}


In [30]:
elastic = ElasticNet(alpha=0.0005, l1_ratio=0.5)
elastic.fit(X_train, y_train)

print('number of using columns :', np.sum(elastic.coef_ != 0))
print('train r2 score :', elastic.score(X_train, y_train))
print('test r2 score :', elastic.score(X_test, y_test))

y_pred = elastic.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print('mse :', mse)
print('rmse :', np.sqrt(mse))

number of using columns : 99
train r2 score : 0.916683017536598
test r2 score : 0.8364575137697421
mse : 12.186056905881786
rmse : 3.4908533205910826


In [31]:
elastic.coef_

array([ -2.86021769,  -4.76995562,   0.15929522,   3.59055309,
        12.88448725,  22.16519918,   7.16387974, -12.67298985,
        14.67868258,  -2.01851942,  -0.92635441,  14.28495571,
        -5.50029563,   5.82493522,   0.        ,  -2.11769176,
        10.14633487,  -0.87533453,   4.73983577,  -3.24379985,
        -0.        ,  -6.03576153,  -4.75544364,  -4.29349451,
         2.61080454,  -1.56850798,   2.31963035,  -0.        ,
         5.46753697,   0.37724755,   4.81568254,  -2.27123345,
        -1.44995007,  -2.17615478,   7.3691262 ,   3.92219048,
        -1.18983908,  -5.7470498 ,   5.02280786,   2.81234426,
         7.65074545,   4.13230414,   7.76717303,  -3.82538926,
        -5.29778791,   0.93665366, -11.25065109,  -1.19051905,
       -15.62741401,   1.95150196, -16.07280729, -20.09124333,
         2.24883322,  -8.23297116,   5.91804979,   7.51279894,
        -4.06516495,  11.21243271,  -7.82027438,  -6.72337333,
        -5.76004918,  -5.11988084,   0.        ,  -3.13

+ 회귀 계수를 해석해야 할 경우, 0인 값을 제이하고 위와 같이 패널티가 적용된 회귀 계수를 가지고 해석하면 된다.

In [36]:
# 회귀 모델 별 성능 비교
print('ridge r2 :', ridge.score(X_test, y_test))
print('lasso r2 :', lasso.score(X_test, y_test))
print('ElasticNet r2 :', elastic.score(X_test, y_test))
print('Linearregression r2 :', lr.score(X_test, y_test))

ridge r2 : 0.8187788862166875
lasso r2 : 0.7952457710491011
ElasticNet r2 : 0.8364575137697421
Linearregression r2 : 0.6610321968877275
