# K-fold cross-validation

K分割クロスバリデーション  
データをK個に分割し、K-1個で訓練をして残りの1個でテストする。 
それをK回繰り返す。

In [46]:
import pandas as pd

In [47]:
df = pd.read_csv('iris.data', header=None, names=['sepal_length', 'sepal_width',
                                                  'petal_length', 'petal_width', 'class'])

In [48]:
X = df.iloc[:,:-1]

In [49]:
y = df.iloc[:,-1].replace({'Iris-setosa':0, 'Iris-versicolor':1, 'Iris-virginica':2})

In [50]:
from sklearn import linear_model
clf = linear_model.LogisticRegression(max_iter=10000)

In [51]:
random_state = 1 # 乱数のseed
k = 10 # 分割数

In [52]:
import numpy as np # 平均を計算するため

## 層化（Stratified）抽出なしの場合

In [53]:
from sklearn.model_selection import KFold
ss = KFold(n_splits=k, shuffle=True, random_state=random_state)

In [54]:
scores = []
for train_index, test_index in ss.split(X, y):
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]
    print(y_test.value_counts())
    clf.fit(X_train, y_train)
    score = clf.score(X_test, y_test)
    print(score)
    scores.append(score)
print('平均：', np.mean(scores))

1    6
0    5
2    4
Name: class, dtype: int64
1.0
1    7
0    6
2    2
Name: class, dtype: int64
0.9333333333333333
2    7
1    5
0    3
Name: class, dtype: int64
0.9333333333333333
2    7
0    5
1    3
Name: class, dtype: int64
1.0
2    7
0    5
1    3
Name: class, dtype: int64
0.9333333333333333
0    6
2    5
1    4
Name: class, dtype: int64
0.9333333333333333
1    7
2    5
0    3
Name: class, dtype: int64
1.0
0    7
2    6
1    2
Name: class, dtype: int64
0.8666666666666667
1    7
0    7
2    1
Name: class, dtype: int64
1.0
2    6
1    6
0    3
Name: class, dtype: int64
0.9333333333333333
平均： 0.9533333333333334


## 層化（Stratified）抽出ありの場合

In [55]:
from sklearn.model_selection import StratifiedKFold
ss = StratifiedKFold(n_splits=k, shuffle=True, random_state=random_state)

In [56]:
scores = []
for train_index, test_index in ss.split(X, y):
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]
    print(y_test.value_counts())
    clf.fit(X_train, y_train)
    score = clf.score(X_test, y_test)
    print(score)
    scores.append(score)
print('平均：', np.mean(scores))

2    5
1    5
0    5
Name: class, dtype: int64
1.0
2    5
1    5
0    5
Name: class, dtype: int64
0.9333333333333333
2    5
1    5
0    5
Name: class, dtype: int64
1.0
2    5
1    5
0    5
Name: class, dtype: int64
1.0
2    5
1    5
0    5
Name: class, dtype: int64
0.9333333333333333
2    5
1    5
0    5
Name: class, dtype: int64
0.9333333333333333
2    5
1    5
0    5
Name: class, dtype: int64
1.0
2    5
1    5
0    5
Name: class, dtype: int64
1.0
2    5
1    5
0    5
Name: class, dtype: int64
0.8666666666666667
2    5
1    5
0    5
Name: class, dtype: int64
0.9333333333333333
平均： 0.9600000000000002


## cross_val_scoreは層化抽出ありのクロスバリデーションをやってくれる

In [57]:
from sklearn.model_selection import cross_val_score

In [58]:
scores = cross_val_score(clf, X, y, cv=k)

In [59]:
scores

array([1.        , 0.93333333, 1.        , 1.        , 0.93333333,
       0.93333333, 0.93333333, 1.        , 1.        , 1.        ])

In [60]:
np.mean(scores)

0.9733333333333334