# 13. 릿지(Ridge) 회귀모델

## 13.1 핵심 개념

릿지(RIdge) 회귀모델의 경우 기본적인 선형회귀분석의 원리를 따르나, **가중치 값을 최대한 작게 만들어, 즉 모든 독립 변수가 종속 변수에 미치는 영향을 최소화 하는 제약(regulization)을 반영한 회귀모델**입니다. 훈련데이터에 과적합 되지 않도록 제약을 건 모델이라고 할 수 있습니다. 선형관계 뿐 아니라 다항곡선 추정도 가능합니다.

## 13.2 scikit-learn

릿지(Ridge) 회귀모델은 sklearn.linear_model 패키지에 속해 있습니다.

|Linear Regressor||
|:--|:--|
|linear_model.LinearRegression() |Ordinary least squares Linear Regression. |
|**linear_model.Ridge()** |Linear least squares with I2 regularization. |
|linear_model.RidgeCV() |Ridge regression with build-in cross-validation. |
|linear_model.SGDRegressor() |Linear model fitted by minimizing a regularized empiricalloss with SGD|

알파값이 하이퍼 파라미터 입니다.

|Hyper Parameter||
|:--|:--|
|alpha |규제의 개수를 지정하는 옵션 값. 기본값은 1이며, 0에 가까울수록 규제가 적어져 선형회귀와 유사한 결과를 보이게 됩니다.|


## 13.3 분석 코드

In [2]:
# 데이터 로드
import pandas as pd
data2 = pd.read_csv('./extrafiles/house_price.csv', encoding='utf-8')

print(data2.columns)

X = data2[data2.columns[1:5]]
y = data2[['house_value']]

print(X.columns)

# train-test data 분리
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# stratify 효과 - 범주형 변수를 유사한 비율로 train / test 데이터로 분리시켜 준다.
print(y_train.mean())
print(y_test.mean())

# 표준화 작업 - MinMaxScaler
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(X_train)

X_scaled_train = scaler.transform(X_train)
X_scaled_test = scaler.transform(X_test)

Index(['housing_age', 'income', 'bedrooms', 'households', 'rooms',
       'house_value'],
      dtype='object')
Index(['income', 'bedrooms', 'households', 'rooms'], dtype='object')
house_value    189260.967812
dtype: float64
house_value    188391.001357
dtype: float64


In [3]:
# 릿지 모델 적용
from sklearn.linear_model import Ridge
model = Ridge()
model.fit(X_scaled_train, y_train)
pred_train = model.predict(X_scaled_train)
model.score(X_scaled_train, y_train)

0.5455487773718164

In [4]:
# 테스트 데이터 모델 적용
pred_test = model.predict(X_scaled_test)
model.score(X_scaled_test, y_test)

0.5626954941458684

In [5]:
# 회귀분석의 지표 R Square n RMSE
# RMSE (Root Mean Squared Error)
from sklearn.metrics import mean_squared_error
import numpy as np
MSE_train = mean_squared_error(y_train, pred_train)
MSE_test = mean_squared_error(y_test, pred_test)
print("훈  련데이터 RMSE:", np.sqrt(MSE_train))
print("테스트데이터 RMSE:", np.sqrt(MSE_test))

훈  련데이터 RMSE: 64342.018619526265
테스트데이터 RMSE: 63219.99395904853


In [7]:
# 하이퍼 파라미터 튜닝 - Grid Search
from sklearn.model_selection import GridSearchCV
param_grid = {'alpha' :[0.0001, 0.001, 0.01, 0.1, 0,5, 1, 5, 10]}
             
grid_search = GridSearchCV(Ridge(), param_grid, cv=5)
grid_search.fit(X_scaled_train, y_train)

GridSearchCV(cv=5, estimator=Ridge(),
             param_grid={'alpha': [0.0001, 0.001, 0.01, 0.1, 0, 5, 1, 5, 10]})

In [8]:
# 파라미터 튜닝 결과 확인
print("Best Parameter : {}".format(grid_search.best_params_))
print("Best Score : {:.4f}".format(grid_search.best_score_))
print("Test set Score : {:.4f}".format(grid_search.score(X_scaled_test, y_test)))

Best Parameter : {'alpha': 0.1}
Best Score : 0.5452
Test set Score : 0.5627


In [11]:
# 하이퍼 파라미터 튜닝2 - Randomized Search
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

param_distribs = {'alpha' :randint(low=0.0001, high=100)}

random_search = RandomizedSearchCV(Ridge(), param_distributions=param_distribs, n_iter=100, cv=5)
random_search.fit(X_scaled_train, y_train)

RandomizedSearchCV(cv=5, estimator=Ridge(), n_iter=100,
                   param_distributions={'alpha': <scipy.stats._distn_infrastructure.rv_frozen object at 0x00000252FBCC2D60>})

In [12]:
# 파라미터 튜닝 결과값 확인
print("Best Parameter : {}".format(random_search.best_params_))
print("Best Score : {:.4f}".format(random_search.best_score_))
print("Test set Score : {:.4f}".format(random_search.score(X_scaled_test, y_test)))

Best Parameter : {'alpha': 1}
Best Score : 0.5451
Test set Score : 0.5627
