# 交差検証(cross-validation)によるモデルの汎化性能評価
## 交差検証方法
- $k$-分割交差検証法

ここで、$k$はユーザーが決めるパラメータで、通常は5または10を設定する。

データを$k$分割し、$k-1$個のデータセットを学習セットに、残りの1個を評価セットにして、モデルを学習する。
この一連の流れを全ての分割された1つのセットが一度は評価セットになるように$k$回学習を繰り返す。

それぞれの繰り返しの中で、検証セットを使って精度を計算する。最終的には、すべての検証セットの精度の平均値を取って、そのモデルのスコアとする。

## 交差検証法を自力で実装
### データセットの読み込み

In [1]:
from sklearn.datasets import load_iris
import numpy as np

iris = load_iris()
X = iris.data.astype(np.float32)
y = iris.target

### データセットを同じ大きさに2分割

In [2]:
from sklearn.model_selection import train_test_split

X_fold1, X_fold2, y_fold1, y_fold2 = train_test_split(X, y, random_state=42, train_size=0.5)

### 分類器の準備

In [3]:
import cv2

knn = cv2.ml.KNearest_create()
knn.setDefaultK(1)

### 1つ目の分割で分類器を学習して、2つ目の分割でラベルを予測する

In [4]:
knn.train(X_fold1, cv2.ml.ROW_SAMPLE, y_fold1)
_, y_hat_fold2 = knn.predict(X_fold2)

### 2つ目の分割で分類器を学習して、1つ目の分割でラベルを予測する

In [5]:
knn.train(X_fold2, cv2.ml.ROW_SAMPLE, y_fold2)
_, y_hat_fold1 = knn.predict(X_fold1)

### 各モデルの精度を算出

In [6]:
from sklearn.metrics import accuracy_score

accuracy_score(y_fold1, y_hat_fold1), accuracy_score(y_fold2, y_hat_fold2)

(0.9333333333333333, 0.9733333333333334)