# 汎化性能の検証
## LOOCV

In [7]:
import numpy as np
import seaborn as sns
import pandas as pd
from sklearn.model_selection import LeaveOneOut
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# seabornが用意してくれている練習用データセットを利用
# https://github.com/mwaskom/seaborn-data
df = sns.load_dataset("tips")

# 目的変数をtipとする(他のデータからtipを予測するモデルを構築する)
y_col = "tip"
y = df[y_col]

# total_billからtipを予測する
X = df["total_bill"].values.reshape(-1,1) #reshapeで二次元配列に変換

In [6]:
# LOO(一つをテストデータ、その他全てを学習データに分ける)サイクルを作る
loo = LeaveOneOut()

In [10]:
model = LinearRegression()
# それぞれのサイクルの予測の精度結果を保持しておく
mse_list = []
for train_index, test_index in loo.split(X):
    # loo.split()によって生成されたtrainとtestのindexを元にそのサイクルのデータを作る
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    
    # モデル学習
    model.fit(X_train, y_train)
    # テストデータの予測
    y_pred = model.predict(X_test)
    # MSE
    mse = mean_squared_error(y_test, y_pred)
    mse_list.append(mse)

In [13]:
print(f"MSE(LOOCV):{np.mean(mse_list)}")
print(f"std:{np.std(mse_list)}")

MSE(LOOCV):1.0675673489857438
std:2.0997944551776313


上のfor分の処理は、以下のようにcross_val_scoreを用いることで自分で実装しなくても行える

In [15]:
from sklearn.model_selection import cross_val_score
cv = LeaveOneOut()
scores = cross_val_score(model, X, y, cv=cv, scoring="neg_mean_squared_error")

print(f"MSE(LOOCV):{-np.mean(scores)}")
print(f"std:{np.std(scores)}")

MSE(LOOCV):1.0675673489857438
std:2.0997944551776313
