### 교차검증
    - 과적합(overfiting)
        - 모델이 학습 데이터에만 과도하게 최적화되어 실제 예측을 다른 데이터로 수행할 경우 예측 성능이 과도하게 떨어진 것
    - 교차검증
         - 고정된 학습 데이터와 테스트 데이터로 평가를 하면 테스트 데이터에만 최적의 성능을 발휘하는 편향된 모델을 유도하게 되어 테스트데이터에만 과적합된 학습모델이 만들어져 다른 테스트용 데이터가 들어 올 경우 성능 저하
        - 데이터 편중을 막기 위해서 별도의 여러 세트로 구성된 학습 데이터 세트와 검정 데이터 세트에서 학습과 평가 수행
    - Kfold 교차 검증
         - 가장 보편적으로 사용되는 교차 검증 기법
         - K 개의 데이터 폴드 세트를 만들어 K번 만큼 각 폴드 세트에서 학습과 검증 평가를 반복적으로 수행하는 방법

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

from sklearn.tree import DecisionTreeClassifier

from sklearn.metrics import accuracy_score

In [3]:
iris = load_iris()
feature = iris['data']
label = iris['target']

In [4]:
feature

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [5]:
feature.shape

(150, 4)

In [6]:
label.shape

(150,)

In [7]:
# 파라미터를 결정하고 모델 객체 생성
dt = DecisionTreeClassifier(random_state=156)

In [8]:
# k폴드 교차 검증
from sklearn.model_selection import KFold

In [9]:
# 5개 폴드 세트로 분리하는 KFold 객체
kfold = KFold(n_splits=5)

#폴드 세트별로 정확도를 담을 리스트 생성
cv_accuracy = []

# 전체 데이터를 5개 데이터셋으로 분리
n_iter = 0

print(feature)

# KFold 객체의 split()을 호출하면 폴드별 학습용, 검증용 데이터의 인덱스를 반환
for train_index, test_index in kfold.split(feature):
    n_iter = n_iter + 1
    print(n_iter)
    print(train_index)
    print(test_index)

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

In [10]:
# 5개 폴드 세트로 분리하는 KFold 객체
kfold = KFold(n_splits=5)

#폴드 세트별로 정확도를 담을 리스트 생성
cv_accuracy = []

# 전체 데이터를 5개 데이터셋으로 분리
n_iter = 0

print(feature)

# KFold 객체의 split()을 호출하면 폴드별 학습용, 검증용 데이터의 인덱스를 반환
for train_index, test_index in kfold.split(feature):

# 학습용 검증용 데이터 추출
    x_train, x_test = feature[train_index], feature[test_index]
    y_train, y_test = label[train_index], label[test_index]

# 개별 정확도 합산 하여 평균 계산
dt.fit(x_train, y_train)
pred = dt.predict(x_test)
    
# 반복시마다 정확도 측정
accuracy = np.round(accuracy_score(y_test, pred), 4)
cv_accuracy.append(accuracy)

# 개별 정확도 합산 하여 평균 계산
print(f'평균 검증 정확도 : {np.mean(cv_accuracy)}')

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

#### k 폴드가 원본 데이터 집합의 레이블 분포를 학습 및 테스트 세트에 제대로 분배 안됨

In [11]:
# 3개 폴드 세트로 분리하는 KFold 객체
kfold = KFold(n_splits=3)

#폴드 세트별로 정확도를 담을 리스트 생성
cv_accuracy = []

# 전체 데이터를 5개 데이터셋으로 분리
n_iter = 0

print(feature)

# KFold 객체의 split()을 호출하면 폴드별 학습용, 검증용 데이터의 인덱스를 반환
for train_index, test_index in kfold.split(feature):

# 학습용 검증용 데이터 추출
    x_train, x_test = feature[train_index], feature[test_index]
    y_train, y_test = label[train_index], label[test_index]

# 개별 정확도 합산 하여 평균 계산
dt.fit(x_train, y_train)
pred = dt.predict(x_test)
    
# 반복시마다 정확도 측정
accuracy = np.round(accuracy_score(y_test, pred), 4)
cv_accuracy.append(accuracy)

# 개별 정확도 합산 하여 평균 계산
print(f'평균 검증 정확도 : {np.mean(cv_accuracy)}')

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

#### Stratified KFold
    - 전체 레이블 값의 분포를 반영하여 분할
    - split() 인자에 반드시 레이블 데이터셋도 포함
    - 분류모델에서만 지원

In [16]:
from sklearn.model_selection import StratifiedKFold

sfold = StratifiedKFold(n_splits=3)
n_iter = 0

for train_index, test_index in sfold.split(feature, label):
    print('train :', train_index, 'test :', test_index)
    x_train, x_test = feature[train_index], feature[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    dt.fit(x_train, y_train)
    pred = dt.predict(x_test)
    
    n_iter = n_iter + 1
    
    accuracy = np.round(accuracy_score(y_test,pred), 4)
    print(f'교차 검증 정확도 : {accuracy}')
    print(f'학습데이터 크기 : {len(y_train)}')
    print(f'검증데이터 크기 : {len(y_test)}')

train : [ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34
  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  67  68  69
  70  71  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87
  88  89  90  91  92  93  94  95  96  97  98  99 116 117 118 119 120 121
 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139
 140 141 142 143 144 145 146 147 148 149] test : [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]
교차 검증 정확도 : 0.98
학습데이터 크기 : 100
검증데이터 크기 : 50
train : [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  34
  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52
  53  54  55  56  57  58  59  60  61  62  63  64  65  66  83  84  85  86
  87  88  89  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104
 105 106 107 108 109 110 111

#### cross_val_score()
- 교차검증을 편리하게 제공해 주는 API

In [22]:
from sklearn.model_selection import cross_val_score

dt = DecisionTreeClassifier(random_state=156)

score = cross_val_score(dt, feature, label, cv=3)

print(f'교차검증별 정확도 : {score}')
print(f'평균 검증 정확도 : {np.round(np.mean(score),4)}')

교차검증별 정확도 : [0.98 0.94 0.98]
평균 검증 정확도 : 0.9667
