## sklearn.model_selection.KFold
* class sklearn.model_selection.KFold(n_splits=5, *, shuffle=False, random_state=None)
* See also
* StratifiedKFold
Takes class information into account to avoid building folds with imbalanced class distributions (for binary or multiclass classification tasks).

* GroupKFold
K-fold iterator variant with non-overlapping groups.

* RepeatedKFold
Repeats K-Fold n times.

* split(X, y=None, groups=None)
    Parameters:
    X : array-like of shape (n_samples, n_features)
    Training data, where n_samples is the number of samples and n_features is the number of features.

    y : array-like of shape (n_samples,), default=None
    The target variable for supervised learning problems.

    groups : array-like of shape (n_samples,), default=None
    Group labels for the samples used while splitting the dataset into train/test set.

    Return:
    train : ndarray   -->  엔디어레이 안에 인덱스값이 들어온다 
    The training set indices for that split.

    test : ndarray    -->  엔디어레이 안에 인덱스값이 들어온다 
    The testing set indices for that split.

In [1]:
for entry in enumerate(['A', 'B', 'C']):
    print(entry)

(0, 'A')
(1, 'B')
(2, 'C')


####  enumerate() 함수는 기본적으로 인덱스와 원소로 이루어진 튜플(tuple)을 만들어줍니다.
####  따라서 인덱스와 원소를 각각 다른 변수에 할당하고 싶다면 인자 풀기(unpacking)를 해줘야 합니다.

In [5]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np
from sklearn.datasets import load_iris

iris=load_iris()
features=iris.data
label =iris.target
dt_clf=DecisionTreeClassifier(random_state=156)

# 5개의 폴드 세트로 분리하는 KFold 객체와 폴드 세트별 정확도를 담은 리스트 객체 생성.
kfold=KFold(n_splits=5)
cv_accuracy=[]

n_liter = 0

for train_index, test_index in kfold.split(features):
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_liter += 1
    accuracy = np.round(accuracy_score(y_test , pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도:{1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'.format(n_liter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스: {1}'.format(n_liter, test_index))
    cv_accuracy.append(accuracy)

print('\n## 평균검증 정확도:', np.mean(cv_accuracy))


#1 교차 검증 정확도:1.0, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#1 검증 세트 인덱스: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도:0.9667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#2 검증 세트 인덱스: [30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도:0.8667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#3 검증 세트 인덱스: [60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도:0.9333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#4 검증 세트 인덱스: [ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차 검증 정확도:0.7333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#5 검증 세트 인덱스: [120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균검증 정확도: 0.9
