# 交差検証

## 交差検証とは

サンプルデータをいくつかのグループに分割し、その一部のグループを使ってモデル構築を行い、残りのグループを使ってモデルの良さを評価する手法。また、モデル構築に使用するグループと、モデルの良さを評価するグループを変更して再度評価していく手法。

検証の手順としては以下の通り。
1. サンプルデータを複数のグループに分割する。(分割した数をKとする)
2. いくつかのグループで学習を行う。
3. 残りのグループで検証を行う。
4. 学習するグループと検証を行うグループを変更して再度2.3の手順を踏む。
5. 複数回検証を実施したら、その平均値などから良いモデルを評価する。

イメージは1.2の図参照。

## ホールドアウトとの違い

ホールドアウトがすべてのデータを二つに分けるのに対し、交差検証はいくつかのグループに分けて検証を行う。（詳しくは以下の図を参照）

![ホールドアウト](https://newtechnologylifestyle.net/wp-content/uploads/2018/05/1.Hold-out.png)
![交差検証](https://newtechnologylifestyle.net/wp-content/uploads/2018/05/2.Cross-Validation.png)

## メリット・デメリット

- メリット
  - グループで分割した数(K)だけ、検証やテストを行うことができるため、サンプルのデータ数がある程度少ない場合でも検証を行う事ができる。

- デメリット
  - グループで分割した数(K)だけ、計算コストが多くかかるため、サンプルデータが多い場合などには考えて使用しなければならない。

## 使用例

In [22]:
import warnings

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

from sklearn.datasets import load_iris
from sklearn.model_selection import KFold
from sklearn.linear_model import LogisticRegression

warnings.filterwarnings('ignore')

%matplotlib inline

# データセットを読み込む
cancer = load_iris()

# 交差検証の準備：n_splits=分割数、shuffle=シャッフルするかどうか
k_fold_cross_validation = KFold(n_splits=4,  random_state=1, shuffle=False) 

# 山本備忘録： 
# shuffle: 用意されているデータのクラスが順番になってしまっている時はTrueを使うと順番をバラバラにしてからK-Foldを実施する。
#          stratifiedとは違う。iris_data_setの場合、FalseにするとKFoldの場所によってはモデルの識別精度が悪くなっていることがわかる。

# 交差検証の実施
# 今回はn_splitsが4回なので、4回繰り返される。毎度のループごとに訓練データとテストデータに使用するインデックスが渡されている。
for train_index, test_index in k_fold_cross_validation.split(cancer.data):

    # 選択されたインデックスをもとにデータを分割
    X_train, y_train = cancer.data[train_index], cancer.target[train_index]
    X_test, y_test = cancer.data[test_index], cancer.target[test_index]

    # モデルの構築
    lr = LinearRegression()
    lr.fit(X_train, y_train)
    
    # モデルの評価
    print(f'Test: {lr.score(X_test, y_test)}')

Test: 0.0
Test: 0.6731348488184048
Test: 0.7043119920052114
Test: 0.0


[1] KFold公式ドキュメント  
https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html

# 交差検証のバリエーション

# 参考URL
[1]https://newtechnologylifestyle.net/%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%E3%80%81%E3%83%87%E3%82%A3%E3%83%BC%E3%83%97%E3%83%A9%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0%E3%81%A7%E3%81%AE%E5%AD%A6%E7%BF%92%E3%83%87%E3%83%BC%E3%82%BF%E3%81%A8/

終わり