#### sklearn.model_selection.KFold
+ class sklearn.model_selection.KFold(n_splits=5, *, shuffle=False, random_state=None)

In [9]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
from sklearn.datasets import load_iris
import numpy as np


iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state=42)

kfold = KFold(n_splits=5)
print(kfold)
cv_accuracy = []
# print('붓꽃 데이터 세트 크기', features.shape[0])

KFold(n_splits=5, random_state=None, shuffle=False)


In [12]:
n_iter = 0
for train_index, test_index in kfold.split(features):
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('{0} 교차 검증 정확도 : {1}, 학습 데이터 크기: {2}, 검증 데이터 크기:{3}'.format(n_iter, accuracy, train_size, test_size))
    print('{0} 검증 세트 인덱스:{1}'.format(n_iter, test_size))
    cv_accuracy.append(accuracy)
print('평균 검증 정확도', np.mean(cv_accuracy))

1 교차 검증 정확도 : 1.0, 학습 데이터 크기: 120, 검증 데이터 크기:30
1 검증 세트 인덱스:30
2 교차 검증 정확도 : 1.0, 학습 데이터 크기: 120, 검증 데이터 크기:30
2 검증 세트 인덱스:30
3 교차 검증 정확도 : 0.8333, 학습 데이터 크기: 120, 검증 데이터 크기:30
3 검증 세트 인덱스:30
4 교차 검증 정확도 : 0.9333, 학습 데이터 크기: 120, 검증 데이터 크기:30
4 검증 세트 인덱스:30
5 교차 검증 정확도 : 0.8, 학습 데이터 크기: 120, 검증 데이터 크기:30
5 검증 세트 인덱스:30
평균 검증 정확도 0.91332


In [15]:
kfold = KFold(n_splits=3, shuffle=True, random_state=42)
cv_accuracy = []
for train_index, test_index in kfold.split(features):
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('{0} 교차 검증 정확도 : {1}, 학습 데이터 크기: {2}, 검증 데이터 크기:{3}'.format(n_iter, accuracy, train_size, test_size))
    print('{0} 검증 세트 인덱스:{1}'.format(n_iter, test_size))
    cv_accuracy.append(accuracy)
print('평균 검증 정확도', np.mean(cv_accuracy))

14 교차 검증 정확도 : 0.98, 학습 데이터 크기: 100, 검증 데이터 크기:50
14 검증 세트 인덱스:50
15 교차 검증 정확도 : 0.92, 학습 데이터 크기: 100, 검증 데이터 크기:50
15 검증 세트 인덱스:50
16 교차 검증 정확도 : 0.92, 학습 데이터 크기: 100, 검증 데이터 크기:50
16 검증 세트 인덱스:50
평균 검증 정확도 0.94


#### sklearn.model_selection.StratifiedKFold
+ class sklearn.model_selection.StratifiedKFold(n_splits=5, *, shuffle=False, random_state=None)

In [23]:
import pandas as pd
iris_df = pd.DataFrame(data=iris.data, columns = iris.feature_names)

In [25]:
iris_df['label'] = iris.target

In [28]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=3)
n_iter = 0

for train_index, test_index in skf.split(iris_df, iris_df['label']):
    n_iter += 1
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    print(label_train.value_counts())
    print(label_test.value_counts())    

2    34
0    33
1    33
Name: label, dtype: int64
0    17
1    17
2    16
Name: label, dtype: int64
1    34
0    33
2    33
Name: label, dtype: int64
0    17
2    17
1    16
Name: label, dtype: int64
0    34
1    33
2    33
Name: label, dtype: int64
1    17
2    17
0    16
Name: label, dtype: int64


In [31]:
cv_accuracy = []
for train_index, test_index in skf.split(features, label):
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    
    print(accuracy)
    cv_accuracy.append(accuracy)
print(f'평균 값 : {np.mean(cv_accuracy)}')

0.98
0.94
0.96
평균 값 : 0.96


In [32]:
skf = StratifiedKFold(n_splits=5)

cv_accuracy = []
for train_index, test_index in skf.split(features, label):
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    
    print(accuracy)
    cv_accuracy.append(accuracy)
print(f'평균 값 : {np.mean(cv_accuracy)}')

0.9667
0.9667
0.9
0.9333
1.0
평균 값 : 0.9533400000000001


#### sklearn.model_selection.cross_val_score
+ sklearn.model_selection.cross_val_score(estimator, X, y=None, *, groups=None, scoring=None, cv=None, n_jobs=None, verbose=0, fit_params=None, pre_dispatch='2*n_jobs', error_score=nan)