## 線形回帰とRidge回帰の比較

In [1]:
%precision 3
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.metrics import mean_squared_error
np.random.seed(23)
M, N = 80, 32
# ダミーデータ
X = np.random.randn(M, N)
y = X.sum(1) * 0.4 + np.random.randn(M)

In [2]:
# トレーニングデータとテストデータの平均二乗誤差を計算
def calc_score(model):
    lst1, lst2 = [], []
    for i in range(20): # 20回の平均をとる
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=M//2, random_state=i)
        model.fit(X_train, y_train)
        lst1.append(mean_squared_error(y_train, model.predict(X_train)))
        lst2.append(mean_squared_error(y_test, model.predict(X_test)))
    score1 = np.mean(lst1)
    score2 = np.mean(lst2)
    return score1, score2

In [3]:
# 線形回帰の時
model = LinearRegression()
score1, score2 = calc_score(model)
float(score1), float(score2) # トレーニングデータとテストデータの平均二乗誤差

(0.165, 10.038)

In [4]:
# Ridge回帰の時
model = Ridge()
score3, score4  = calc_score(model)
float(score3), float(score4) #トレーニングデータとテストデータの平均二乗誤差

(0.195, 3.906)

結論：線形回帰と比較してRidge回帰の時の方が、正則化の影響で汎化性能が高くなっている

## サポートベクタマシンとの比較

In [5]:
from sklearn.svm import SVR
model = SVR()
score5, score6 = calc_score(model)
float(score5), float(score6)

(3.195, 5.675)

## ランダムフォレスト回帰との比較

In [6]:
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor(n_estimators=20,random_state=0)
score7, score8 = calc_score(model)
float(score7), float(score8)

(1.030, 5.905)