## Ridge, Lasso, ElasticNet

- Ridge, Lasso, ElasticNet 은 모두 alpha값에 영향을 받는다. 
- alpha 값을 통해 과대적합을 피할 수 있다. 
- 하지만, alpha 값이 너무 크면 과소적합이 될 수 있으므로 최적의 값을 찾아야 한다. 



### GridSearchCV
- 모델에 지정된 매개변수 값에 대해 주어진 목록을 탐색 하여주는 함수이다. 

> sklearn.model_selection.GridSearchCV(estimator, param_grid, cv=None)

예시 ) parameters = {'kernel':('linear', 'rbf'), 'C':[1, 10]}

### Ridge

In [None]:
import pandas as pd 
import numpy as np 
import mglearn
X,y = mglearn.datasets.load_extended_boston()
# 훈련, 테스트 셋 분리 
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3,random_state=0)

In [3]:
import warnings
warnings.filterwarnings(action='ignore')

from sklearn.linear_model import Ridge 

ridge = Ridge() 
ridge.fit(X_train,y_train)

## R2 
print("사용한 데이터 컬럼 수 :", np.sum(ridge.coef_!=0))
print("훈련 데이터 셋 성능 : ", ridge.score(X_train,y_train))
print("테스트 데이터 셋 성능 : ", ridge.score(X_test,y_test))

사용한 데이터 컬럼 수 : 104
훈련 데이터 셋 성능 :  0.8820517790991204
테스트 데이터 셋 성능 :  0.78344599767367


* alpha = 1로 하였을 때, R2 0.78임을 알 수 있다. 
* LinearRegression 모델의 0.648 보다는 성능이 좋지만 Ridge의 최적화된 값임은 알 수 없다. 

In [4]:
from sklearn.model_selection import GridSearchCV

ridge = Ridge() 
param_grid = {'alpha':(0.0001,0.0005,0.001,0.005, 0.01,0.05,0.1, 0.15, 0.2, 0.25, 0.3,0.5,1,2,3)}
model = GridSearchCV(ridge, param_grid)
model.fit(X_train,y_train)


GridSearchCV(estimator=Ridge(),
             param_grid={'alpha': (0.0001, 0.0005, 0.001, 0.005, 0.01, 0.05,
                                   0.1, 0.15, 0.2, 0.25, 0.3, 0.5, 1, 2, 3)})

In [5]:
model.best_estimator_

Ridge(alpha=0.05)

In [6]:
model = Ridge(alpha=0.05) 
model.fit(X_train,y_train)

Ridge(alpha=0.05)

In [7]:
## R2 
print("사용한 데이터 컬럼 수 :", np.sum(model.coef_!=0))
print("훈련 데이터 셋 성능 : ", model.score(X_train,y_train))
print("테스트 데이터 셋 성능 : ", model.score(X_test,y_test))

사용한 데이터 컬럼 수 : 104
훈련 데이터 셋 성능 :  0.9333679643206894
테스트 데이터 셋 성능 :  0.7877067511712833


### Lasso

In [8]:
from sklearn.linear_model import Lasso

lasso = Lasso() 
lasso.fit(X_train,y_train)

## R2 
print("사용한 데이터 컬럼 수 : ", np.sum(lasso.coef_!=0))
print("훈련 데이터 셋 성능 : ", lasso.score(X_train,y_train))
print("테스트 데이터 셋 성능 : ", lasso.score(X_test,y_test))

사용한 데이터 컬럼 수 :  3
훈련 데이터 셋 성능 :  0.2648948112459243
테스트 데이터 셋 성능 :  0.2136447822416102


* Lasso의 경우 Ridge와는 다르게 사용하는 데이터 컬럼 자체를 0으로 만들어 변수 선택법과 같이 삭제를 해줄 수 있다. 
* 위의 결과값의 경우 훈련데이터셋 자체에 성능이 낮으므로 과소적합이 되었음을 알 수 있다. 
* 과소적합을 해결하기 위해 alpha값을 조정한다. 

In [9]:
lasso = Lasso() 
param_grid = {'alpha':(0.0001,0.0005,0.001,0.002, 0.003, 0.005, 0.01,0.05,0.1, 0.15, 0.2, 0.25, 0.3,0.5,1,2,3)}
model_lasso = GridSearchCV(lasso, param_grid)
model_lasso = model_lasso.fit(X_train,y_train)


print("best_model: ", model_lasso.best_estimator_)


best_model:  Lasso(alpha=0.002)


In [10]:
from sklearn.linear_model import Lasso

lasso = Lasso(alpha=0.002) 
lasso.fit(X_train,y_train)

## R2 
print("사용한 데이터 컬럼 수 : ", np.sum(lasso.coef_!=0))
print("훈련 데이터 셋 성능 : ", lasso.score(X_train,y_train))
print("테스트 데이터 셋 성능 : ", lasso.score(X_test,y_test))

사용한 데이터 컬럼 수 :  59
훈련 데이터 셋 성능 :  0.9303367526733315
테스트 데이터 셋 성능 :  0.7929168170231439


* 59개의 데이터를 사용하고 패널티를 적용하였을 때, Lasso의 경우 0.79의 설명력을 가짐을 알 수 있다. 

### ElasticNet

In [11]:
from sklearn.linear_model import ElasticNet

elastic = ElasticNet()
elastic.fit(X_train,y_train)

## R2 
print("훈련 데이터 셋 성능 : ", elastic.score(X_train,y_train))
print("테스트 데이터 셋 성능 : ", elastic.score(X_test,y_test))

훈련 데이터 셋 성능 :  0.3096253527541134
테스트 데이터 셋 성능 :  0.2561599717003974


In [12]:
elastic = ElasticNet() 
param_grid = {'alpha':(0.0001,0.0005,0.001,0.005, 0.01,0.05,0.1, 0.15, 0.2, 0.25, 0.3,0.5,1,2,3), 
              'l1_ratio' : [0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8, 0.9]}
model_elastic = GridSearchCV(elastic, param_grid)
model_elastic.fit(X_train,y_train)

print("best_model: ", model_elastic.best_estimator_)
print("훈련 데이터 셋 성능 : ", model_elastic.score(X_train,y_train))
print("테스트 데이터 셋 성능 : ", model_elastic.score(X_test,y_test))

best_model:  ElasticNet(alpha=0.0005, l1_ratio=0.2)
훈련 데이터 셋 성능 :  0.9231617946389866
테스트 데이터 셋 성능 :  0.8045378750963654


In [13]:
model_elastic =  ElasticNet(alpha=0.0005, l1_ratio=0.2)
model_elastic.fit(X_train,y_train)


ElasticNet(alpha=0.0005, l1_ratio=0.2)

In [14]:
print("사용한 데이터 컬럼 수 : ", np.sum(model_elastic.coef_!=0))
print("훈련 데이터 셋 성능 : ", model_elastic.score(X_train,y_train))
print("테스트 데이터 셋 성능 : ", model_elastic.score(X_test,y_test))

사용한 데이터 컬럼 수 :  100
훈련 데이터 셋 성능 :  0.9231617946389866
테스트 데이터 셋 성능 :  0.8045378750963654


100개의 데이터 컬럼을 사용하고 패널티를 적용하였을 때, Elastic의 경우 0.80의 설명력을 가짐을 알 수 있다.

In [16]:
model_elastic.coef_

array([ -2.33849549,  -3.62982675,  -2.83691459,   0.        ,
         3.34284624,  16.04925785,   5.13667101, -11.54273102,
        12.44636614,  -1.04609453,  -0.29518919,   5.41442121,
        -2.06165762,   5.24992843,   0.        ,  -1.21304457,
         3.0841446 ,  -2.58634775,   0.26703777,  -2.90016483,
         0.15880151,  -3.32720733,  -2.60708691,  -2.44516335,
         0.11268821,  -1.81018985,   2.38802307,  -3.66609785,
         2.74312292,  -2.2078981 ,   8.1939636 ,  -3.55752882,
         0.57861372,   0.61029713,   1.74175884,   1.77612306,
        -2.60255806,  -6.19562821,   5.20189945,   1.73036241,
         8.75422258,   0.54851109,   6.9708351 ,  -3.45956274,
         4.72375302,   4.42921655,  -8.12514644,  -1.50973875,
       -13.32452568,   0.        , -14.14670369, -14.28266065,
         5.9148633 ,  -0.2272377 ,   6.26478033,   3.70465625,
         1.15072035,   7.8451777 ,  -7.61359622,  -1.391521  ,
        -3.94072295,  -5.89538494,  -0.        ,  -4.31

* <b>회귀 계수를 해석해야 할 경우, 0인 값을 제외하고 위와같이 패널티가 적용된 회귀계수를 가지고 해석하면 된다. </b>
