# Regression-2: ridge vs ols

最小２乗回帰とリッジ回帰モデルを構築しモデル性能とその中身を比較してみましょう。データはボストン・ハウジングデータを使います。

In [None]:
# import the data for regression
import pandas as pd
from IPython.core.display import display
from sklearn.datasets import load_boston

# set dataframe
dataset = load_boston()
X = pd.DataFrame(dataset.data,
                 columns=dataset.feature_names)
y = pd.Series(dataset.target, name='y')

# check the shape
print('--------------------------------------------')
print('X shape: (%i,%i)' %X.shape)
print('--------------------------------------------')
display(X.join(y).head())

OLSとRidgeのどちらが良い予測モデルかをholdoutにより検証してみましょう。また、リッジ回帰のalphaを変化させた時（ドフォルトの1.0から10.0などへ）のモデルパフォーマンスや、偏回帰係数の総和の変化を見てみましょう。このデータでは、OLSとリッジ回帰に大きな性能差は見られないと思います。ただリッジ回帰のalphaを大きくすると、係数総和が減少していく様子が確認できるはずです。

In [None]:
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score

# ホールドアウトのためデータを訓練とテストに分割
X_train,X_test,y_train,y_test = train_test_split(X,
                                                 y,
                                                 test_size=0.20,
                                                 random_state=1)
# make pipelines
ols = Pipeline([('scl',StandardScaler()), ('est',LinearRegression())])
ridge = Pipeline([('scl',StandardScaler()),('est',Ridge(alpha=1.0))])
# build models
ols.fit(X_train,y_train)
ridge.fit(X_train,y_train)

# 性能指標の表示
print('Test OLS:%.6f'% r2_score(y_test, ols.predict(X_test)))
print('Test Ridge:%.6f'% r2_score(y_test, ridge.predict(X_test)))

# 回帰係数の総和比較
# リッジ回帰の正則化項の役割把握（モデルの性能評価ではない）
print('-----------------------------------------------------')
print('OLS coefficient total:%.6f'%(np.absolute(ols.named_steps['est'].coef_).sum()))
print('Ridge coefficient total:%.6f'%(np.absolute(ridge.named_steps['est'].coef_).sum()))