## Ridge, Lasso, ElasticNet

- Ridge, Lasso, ElasticNet 은 모두 alpha값에 영향을 받는다. 
- alpha 값을 통해 과대적합을 피할 수 있다. 
- 하지만, alpha 값이 너무 크면 과소적합이 될 수 있으므로 최적의 값을 찾아야 한다. 



### GridSearchCV
- 모델에 지정된 매개변수 값에 대해 주어진 목록을 탐색 하여주는 함수이다. 

> sklearn.model_selection.GridSearchCV(estimator, param_grid, cv=None)

예시 ) parameters = {'kernel':('linear', 'rbf'), 'C':[1, 10]}

### Ridge

In [None]:
# !pip install mglearn

In [8]:
import pandas as pd 
import numpy as np 
# import mglearn
# X,y = mglearn.datasets.load_extended_boston()

data = pd.read_csv('C:/adp/data/kc_house_data.csv')
data.tail()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,sqft_living15,sqft_lot15
21608,263000018,20140521T000000,360000.0,3,2.5,1530,1131,3.0,standard,0,3,8,1530,0,2009,0,1530,1509
21609,6600060120,20150223T000000,400000.0,4,2.5,2310,5813,2.0,standard,0,3,8,2310,0,2014,0,1830,7200
21610,1523300141,20140623T000000,402101.0,2,0.75,1020,1350,2.0,standard,0,3,7,1020,0,2009,0,1020,2007
21611,291310100,20150116T000000,400000.0,3,2.5,1600,2388,2.0,standard,0,3,8,1600,0,2004,0,1410,1287
21612,1523300157,20141015T000000,325000.0,2,0.75,1020,1076,2.0,standard,0,3,7,1020,0,2008,0,1020,1357


In [11]:
y = pd.DataFrame(data["price"])
y.tail()

Unnamed: 0,price
21608,360000.0
21609,400000.0
21610,402101.0
21611,400000.0
21612,325000.0


In [44]:
# X = data[["bathrooms", "sqft_living", "sqft_lot", "grade", "sqft_above"]]
X = data.drop(["id", "date", "waterfront"], axis = 1)
X.tail()

Unnamed: 0,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,sqft_living15,sqft_lot15
21608,360000.0,3,2.5,1530,1131,3.0,0,3,8,1530,0,2009,0,1530,1509
21609,400000.0,4,2.5,2310,5813,2.0,0,3,8,2310,0,2014,0,1830,7200
21610,402101.0,2,0.75,1020,1350,2.0,0,3,7,1020,0,2009,0,1020,2007
21611,400000.0,3,2.5,1600,2388,2.0,0,3,8,1600,0,2004,0,1410,1287
21612,325000.0,2,0.75,1020,1076,2.0,0,3,7,1020,0,2008,0,1020,1357


In [45]:
# 훈련, 테스트 셋 분리 
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3,random_state=0)

In [46]:
import warnings
warnings.filterwarnings(action='ignore')

from sklearn.linear_model import Ridge 

ridge = Ridge() 
ridge.fit(X_train,y_train)

## R2 
print("사용한 데이터 컬럼 수 :", np.sum(ridge.coef_!=0))
print("훈련 데이터 셋 성능 : ", ridge.score(X_train,y_train))
print("테스트 데이터 셋 성능 : ", ridge.score(X_test,y_test))

사용한 데이터 컬럼 수 : 15
훈련 데이터 셋 성능 :  1.0
테스트 데이터 셋 성능 :  1.0


* alpha = 1로 하였을 때, R2 0.78임을 알 수 있다. 
* LinearRegression 모델의 0.648 보다는 성능이 좋지만 Ridge의 최적화된 값임은 알 수 없다. 

In [47]:
from sklearn.model_selection import GridSearchCV

ridge = Ridge() 
param_grid = {'alpha':(0.0001,0.0005,0.001,0.005, 0.01,0.05,0.1, 0.15, 0.2, 0.25, 0.3,0.5,1,2,3)}
model = GridSearchCV(ridge, param_grid)
model.fit(X_train,y_train)


GridSearchCV(estimator=Ridge(),
             param_grid={'alpha': (0.0001, 0.0005, 0.001, 0.005, 0.01, 0.05,
                                   0.1, 0.15, 0.2, 0.25, 0.3, 0.5, 1, 2, 3)})

In [48]:
model.best_estimator_
# alpha 3일때 최적모델

Ridge(alpha=0.0001)

In [50]:
model = Ridge(alpha=0.0001) 
model.fit(X_train,y_train)

Ridge(alpha=0.0001)

In [52]:
## R2 
print("사용한 데이터 컬럼 수 :", np.sum(model.coef_!=0))
print("훈련 데이터 셋 성능 : ", model.score(X_train,y_train))
print("테스트 데이터 셋 성능 : ", model.score(X_test,y_test))

사용한 데이터 컬럼 수 : 15
훈련 데이터 셋 성능 :  1.0
테스트 데이터 셋 성능 :  1.0


### 11-3.3 Lasso

In [57]:
from sklearn.linear_model import Lasso

lasso = Lasso() 
lasso.fit(X_train, y_train)

## R2 
print("사용한 데이터 컬럼 수 : ", np.sum(lasso.coef_!=0))
print("훈련 데이터 셋 성능 : ", lasso.score(X_train,y_train))
print("테스트 데이터 셋 성능 : ", lasso.score(X_test,y_test))

사용한 데이터 컬럼 수 :  1
훈련 데이터 셋 성능 :  1.0
테스트 데이터 셋 성능 :  1.0


* Lasso의 경우 Ridge와는 다르게 사용하는 데이터 컬럼 자체를 0으로 만들어 변수 선택법과 같이 삭제를 해줄 수 있다. 
* 위의 결과값의 경우 훈련데이터셋 자체에 성능이 낮으므로 과소적합이 되었음을 알 수 있다. 
* 과소적합을 해결하기 위해 alpha값을 조정한다. 

In [58]:
lasso = Lasso() 
param_grid = {'alpha':(0.0001,0.0005,0.001,0.002, 0.003, 0.005, 0.01,0.05,0.1, 0.15, 0.2, 0.25, 0.3,0.5,1,2,3)}
model_lasso = GridSearchCV(lasso, param_grid)
model_lasso = model_lasso.fit(X_train,y_train)


print("best_model: ", model_lasso.best_estimator_)


best_model:  Lasso(alpha=0.0001)


In [59]:
from sklearn.linear_model import Lasso

lasso = Lasso(alpha=0.0001) 
lasso.fit(X_train,y_train)

## R2 
print("사용한 데이터 컬럼 수 : ", np.sum(lasso.coef_!=0))
print("훈련 데이터 셋 성능 : ", lasso.score(X_train,y_train))
print("테스트 데이터 셋 성능 : ", lasso.score(X_test,y_test))

사용한 데이터 컬럼 수 :  1
훈련 데이터 셋 성능 :  1.0
테스트 데이터 셋 성능 :  1.0


* 59개의 데이터를 사용하고 패널티를 적용하였을 때, Lasso의 경우 0.79의 설명력을 가짐을 알 수 있다. 

### 11-3.4 ElasticNet

In [60]:
from sklearn.linear_model import ElasticNet

elastic = ElasticNet()
elastic.fit(X_train,y_train)

## R2 
print("훈련 데이터 셋 성능 : ", elastic.score(X_train,y_train))
print("테스트 데이터 셋 성능 : ", elastic.score(X_test,y_test))

훈련 데이터 셋 성능 :  1.0
테스트 데이터 셋 성능 :  1.0


In [61]:
elastic = ElasticNet() 
param_grid = {'alpha':(0.0001,0.0005,0.001,0.005, 0.01,0.05,0.1, 0.15, 0.2, 0.25, 0.3,0.5,1,2,3), 
              'l1_ratio' : [0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8, 0.9]}
model_elastic = GridSearchCV(elastic, param_grid)
model_elastic.fit(X_train,y_train)

print("best_model: ", model_elastic.best_estimator_)
print("훈련 데이터 셋 성능 : ", model_elastic.score(X_train,y_train))
print("테스트 데이터 셋 성능 : ", model_elastic.score(X_test,y_test))

best_model:  ElasticNet(alpha=0.0001, l1_ratio=0.1)
훈련 데이터 셋 성능 :  1.0
테스트 데이터 셋 성능 :  1.0


In [62]:
model_elastic =  ElasticNet(alpha=0.0001, l1_ratio=0.2)
model_elastic.fit(X_train,y_train)


ElasticNet(alpha=0.0001, l1_ratio=0.2)

In [63]:
print("사용한 데이터 컬럼 수 : ", np.sum(model_elastic.coef_!=0))
print("훈련 데이터 셋 성능 : ", model_elastic.score(X_train,y_train))
print("테스트 데이터 셋 성능 : ", model_elastic.score(X_test,y_test))

사용한 데이터 컬럼 수 :  1
훈련 데이터 셋 성능 :  1.0
테스트 데이터 셋 성능 :  1.0


100개의 데이터 컬럼을 사용하고 패널티를 적용하였을 때, Elastic의 경우 0.80의 설명력을 가짐을 알 수 있다.

In [64]:
model_elastic.coef_

array([1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

* <b>회귀 계수를 해석해야 할 경우, 0인 값을 제외하고 위와같이 패널티가 적용된 회귀계수를 가지고 해석하면 된다. </b>
