# 汎化性能の検証
## LOOCV

In [7]:
import numpy as np
import seaborn as sns
import pandas as pd
from sklearn.model_selection import LeaveOneOut
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# seabornが用意してくれている練習用データセットを利用
# https://github.com/mwaskom/seaborn-data
df = sns.load_dataset("tips")

# 目的変数をtipとする(他のデータからtipを予測するモデルを構築する)
y_col = "tip"
y = df[y_col]

# total_billからtipを予測する
X = df["total_bill"].values.reshape(-1,1) #reshapeで二次元配列に変換

In [6]:
# LOO(一つをテストデータ、その他全てを学習データに分ける)サイクルを作る
loo = LeaveOneOut()

In [10]:
model = LinearRegression()
# それぞれのサイクルの予測の精度結果を保持しておく
mse_list = []
for train_index, test_index in loo.split(X):
    # loo.split()によって生成されたtrainとtestのindexを元にそのサイクルのデータを作る
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    
    # モデル学習
    model.fit(X_train, y_train)
    # テストデータの予測
    y_pred = model.predict(X_test)
    # MSE
    mse = mean_squared_error(y_test, y_pred)
    mse_list.append(mse)

In [13]:
print(f"MSE(LOOCV):{np.mean(mse_list)}")
print(f"std:{np.std(mse_list)}")

MSE(LOOCV):1.0675673489857438
std:2.0997944551776313


上のfor分の処理は、以下のようにcross_val_scoreを用いることで自分で実装しなくても行える

In [14]:
from sklearn.model_selection import cross_val_score
cv = LeaveOneOut()
scores = cross_val_score(model, X, y, cv=cv, scoring="neg_mean_squared_error")

print(f"MSE(LOOCV):{-np.mean(scores)}")
print(f"std:{np.std(scores)}")

array([-2.89783826e+00, -1.21991471e-01, -1.40422730e-01, -9.55069494e-03,
       -1.16096786e-02, -1.29988838e+00, -2.57065925e-02, -3.93806951e-01,
       -2.94520297e-01, -5.80004450e-01, -8.49350285e-02, -1.46609202e-01,
       -9.50053948e-01, -2.09483728e-02, -2.97184439e-01, -5.42347687e-01,
       -1.14330912e-01, -1.17508113e+00, -6.41724789e-01, -6.86745374e-02,
       -1.64655595e+00, -9.14824475e-02, -1.21260666e-01, -6.66635206e+00,
       -3.19971841e-02, -2.04940358e-01, -1.06591348e-01, -6.48928720e-02,
       -1.22199569e+00, -2.58067301e-04, -2.28303833e-01, -1.21756986e-01,
       -2.50694327e-01, -4.17188653e-01, -2.34722103e-01, -2.35978088e-02,
       -4.04783682e-01, -1.39392887e-01, -3.31283869e-01, -6.47090343e-01,
       -1.34419464e-01, -4.61987584e-02, -4.61965329e-01, -3.87832296e-01,
       -2.25578311e+00, -2.54415910e-02, -3.07217629e+00, -2.88294270e+00,
       -3.54928457e+00, -3.45511198e-02, -6.99751923e-02, -3.65220222e-01,
       -4.01770763e-01, -