# StratifiedKFold
* CVをする際に、ラベルの比率が揃うようにtrainデータとtestデータを分けてくれるもの
* データをK個に分け、1個をvalidデータに、K-1個をtrainデータとする。その際に、例えばtrainデータにしかないラベルがあったりするとvalidに対して正しく学習できないので、trainとvalidのラベルの比率を等しくするようにする。

In [1]:
from sklearn.model_selection import StratifiedKFold
import numpy as np
# 9つのデータがそれぞれクラス1、2、3に属しているとする。
X = np.array([[1,1,1],[2,2,2],[3,3,3],[4,4,4],[5,5,5],[6,6,6],[7,7,7],[8,8,8],[9,9,9]])
y = np.array([1,2,3,1,2,3,1,2,3])
# n_splitsでKの数を指定
skf = StratifiedKFold(n_splits=3)
for train_index, valid_index in skf.split(X,y):
    print("train_index:",train_index,"  ","valid_index:",valid_index)
    print("X_train:",X[train_index])
    print("X_valid:",X[valid_index])
    print("y_train:",y[train_index])
    print("y_valid:",y[valid_index])
    print("-----------------------------")

train_index: [3 4 5 6 7 8]    valid_index: [0 1 2]
X_train: [[4 4 4]
 [5 5 5]
 [6 6 6]
 [7 7 7]
 [8 8 8]
 [9 9 9]]
X_valid: [[1 1 1]
 [2 2 2]
 [3 3 3]]
y_train: [1 2 3 1 2 3]
y_valid: [1 2 3]
-----------------------------
train_index: [0 1 2 6 7 8]    valid_index: [3 4 5]
X_train: [[1 1 1]
 [2 2 2]
 [3 3 3]
 [7 7 7]
 [8 8 8]
 [9 9 9]]
X_valid: [[4 4 4]
 [5 5 5]
 [6 6 6]]
y_train: [1 2 3 1 2 3]
y_valid: [1 2 3]
-----------------------------
train_index: [0 1 2 3 4 5]    valid_index: [6 7 8]
X_train: [[1 1 1]
 [2 2 2]
 [3 3 3]
 [4 4 4]
 [5 5 5]
 [6 6 6]]
X_valid: [[7 7 7]
 [8 8 8]
 [9 9 9]]
y_train: [1 2 3 1 2 3]
y_valid: [1 2 3]
-----------------------------


* 上記ではK=3と設定した。
* trainとvalidのクラス(y)を見てみると、1〜3のクラスの比率が等しくなっている。
* 最も少ないラベルの数よりKを大きくすることはできない。上記ではクラス1〜3のそれぞれのサンプル数が3なので、Kに4以上を入れることはできない