# 교차 검증

In [22]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
from sklearn.datasets import load_iris
import numpy as np
import pandas as pd

## 데이터 세트 로딩

In [4]:
# 붓꽃 파일 읽어오기
iris = load_iris()
features = iris.data
label = iris.target

In [3]:
features.shape

(150, 4)

In [5]:
label.shape

(150,)

## KFold
### 학습 데이터와 검증 데이터 세트 분리
- KFold 객체 생성
- 5개의 폴드 세트로 분리 (150 rows)
    - 학습 데이터 : 4/5 (120 rows)
    - 검증 데이터 : 1/5 (30 rows)

In [6]:
kfold = KFold(n_splits=5)

In [7]:
type(kfold)

sklearn.model_selection._split.KFold

In [8]:
kfold

KFold(n_splits=5, random_state=None, shuffle=False)

In [10]:
# 폴드 세트 수
kfold.n_splits
kfold.get_n_splits()

5

In [11]:
# 폴드별 학습용, 검증용(test) 데이터의 인덱스 리턴
kfold.split(features)

<generator object _BaseKFold.split at 0x000001C038C95D60>

In [12]:
for train_index, test_index in kfold.split(features):
    print('[학습용]')
    print(train_index)
    print('\n[검증용]')
    print(test_index)
    print('=' * 50)

[학습용]
[ 30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47
  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65
  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83
  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119
 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

[검증용]
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]
[학습용]
[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  60  61  62  63  64  65
  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83
  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119
 120 121 122 123 124 125 126 127 12

### 학습, 예측, 정확도 수행

In [13]:
dt_clf = DecisionTreeClassifier(random_state=11)

In [14]:
n_iter = 0
accuracy = []

for train_index, test_index in kfold.split(features):
    # 학습용, 검증용 데이터 추출
    x_train, x_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    # 학습
    dt_clf.fit(x_train, y_train)
    
    # 예측
    pred = dt_clf.predict(x_test)
    n_iter += 1
    
    # 정확도
    acc = np.round(accuracy_score(y_test, pred), 4)
    accuracy.append(acc)
    
    train_size = x_train.shape[0]
    test_size = x_test.shape[0]
    
    # 출력
    print(f'\n[{n_iter}]차')
    print(f'교차 검증 정확도 : {acc}, 학습 데이터 크기 : {train_size}, 검증 데이터 크기 : {test_size}')
    print(f'검증 세트 인덱스 : {test_index}')


[1]차
교차 검증 정확도 : 1.0, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
검증 세트 인덱스 : [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

[2]차
교차 검증 정확도 : 0.9667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
검증 세트 인덱스 : [30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

[3]차
교차 검증 정확도 : 0.8667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
검증 세트 인덱스 : [60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

[4]차
교차 검증 정확도 : 0.9333, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
검증 세트 인덱스 : [ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

[5]차
교차 검증 정확도 : 0.8333, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
검증 세트 인덱스 : [120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]


In [16]:
np.round(np.mean(accuracy), 1)

0.9

In [22]:
accuracy

[1.0, 0.9667, 0.8667, 0.9333, 0.8333]

## Stratified K폴드
- 데이터가 골고루 분포됨
- 불균형한 분포도를 가진 레이블 데이터 집합을 위한 KFold
- 특정 레이블 값이 특이하게 많거나 매우 적어서 값의 분포가 한 쪽으로 치우친 경우

In [17]:
import pandas as pd

iris = load_iris()

iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df[:2]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2


In [18]:
iris_df['label'] = iris.target
iris_df[:2]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0


In [21]:
iris_df.label.value_counts()

label
0    50
1    50
2    50
Name: count, dtype: int64

### KFold

In [23]:
kfold = KFold(n_splits=3)
n_iter = 0

for train_index, test_index in kfold.split(iris_df):
    n_iter += 1
    
    label_train = iris_df.label.iloc[train_index]
    label_test = iris_df.label.iloc[test_index]
    
    print(f'[교차 검증 {n_iter}]')
    print('>> 학습 레이블 데이터 분포')
    print(label_train.value_counts())
    
    print('\n>> 검증 레이블 데이터 분포')
    print(label_test.value_counts())
    print('=' * 50)

[교차 검증 1]
>> 학습 레이블 데이터 분포
label
1    50
2    50
Name: count, dtype: int64

>> 검증 레이블 데이터 분포
label
0    50
Name: count, dtype: int64
[교차 검증 2]
>> 학습 레이블 데이터 분포
label
0    50
2    50
Name: count, dtype: int64

>> 검증 레이블 데이터 분포
label
1    50
Name: count, dtype: int64
[교차 검증 3]
>> 학습 레이블 데이터 분포
label
0    50
1    50
Name: count, dtype: int64

>> 검증 레이블 데이터 분포
label
2    50
Name: count, dtype: int64


### StratifiedKFold

In [25]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=3)
n_iter = 0

for train_index, test_index in skf.split(iris_df, iris_df.label):
    n_iter += 1
    
    label_train = iris_df.label.iloc[train_index]
    label_test = iris_df.label.iloc[test_index]
    
    print(f'[교차 검증 {n_iter}]')
    print('>> 학습 레이블 데이터 분포')
    print(label_train.value_counts())
    
    print('\n>> 검증 레이블 데이터 분포')
    print(label_test.value_counts())
    print('=' * 50)

[교차 검증 1]
>> 학습 레이블 데이터 분포
label
2    34
0    33
1    33
Name: count, dtype: int64

>> 검증 레이블 데이터 분포
label
0    17
1    17
2    16
Name: count, dtype: int64
[교차 검증 2]
>> 학습 레이블 데이터 분포
label
1    34
0    33
2    33
Name: count, dtype: int64

>> 검증 레이블 데이터 분포
label
0    17
2    17
1    16
Name: count, dtype: int64
[교차 검증 3]
>> 학습 레이블 데이터 분포
label
0    34
1    33
2    33
Name: count, dtype: int64

>> 검증 레이블 데이터 분포
label
1    17
2    17
0    16
Name: count, dtype: int64


### 학습, 예측, 정확도 수행

In [46]:
dt_clf = DecisionTreeClassifier(random_state=11)

sk_fold = StratifiedKFold(n_splits=5)
n_iter = 0
s_accuracy = []

for train_index, test_index in sk_fold.split(features, label):
    # 학습용, 검증용 데이터 추출
    x_train, x_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    # 학습
    dt_clf.fit(x_train, y_train)
    
    # 예측
    pred = dt_clf.predict(x_test)
    
    # 정확도
    acc = np.round(accuracy_score(y_test, pred), 4)
    s_accuracy.append(acc)
    
    # 출력
    n_iter += 1
    train_size = x_train.shape[0]
    test_size = x_test.shape[0]
    
    print(f'\n[{n_iter}]차')
    print(f'교차 검증 정확도 : {acc}, 학습 데이터 크기 : {train_size}, 검증 데이터 크기 : {test_size}')
    print(f'검증 세트 인덱스 : {test_index}')


[1]차
교차 검증 정확도 : 0.9667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
검증 세트 인덱스 : [  0   1   2   3   4   5   6   7   8   9  50  51  52  53  54  55  56  57
  58  59 100 101 102 103 104 105 106 107 108 109]

[2]차
교차 검증 정확도 : 0.9667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
검증 세트 인덱스 : [ 10  11  12  13  14  15  16  17  18  19  60  61  62  63  64  65  66  67
  68  69 110 111 112 113 114 115 116 117 118 119]

[3]차
교차 검증 정확도 : 0.9, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
검증 세트 인덱스 : [ 20  21  22  23  24  25  26  27  28  29  70  71  72  73  74  75  76  77
  78  79 120 121 122 123 124 125 126 127 128 129]

[4]차
교차 검증 정확도 : 0.9667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
검증 세트 인덱스 : [ 30  31  32  33  34  35  36  37  38  39  80  81  82  83  84  85  86  87
  88  89 130 131 132 133 134 135 136 137 138 139]

[5]차
교차 검증 정확도 : 1.0, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
검증 세트 인덱스 : [ 40  41  42  43  44  45  46  47  48  49  90  91  92  93  94  95  96  97
  98  99 140 141 142 143 144 145 146 147 148 149]


In [47]:
# 교차 검증 정확도 평균
np.mean(s_accuracy)

0.9600200000000001

## cross_val_score()
- StratifiedKFold 더 간단하게

In [4]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
import numpy as np

In [5]:
iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=11)

data = iris_data.data  # 전체 데이터
label = iris_data.target  # 레이블

scores = cross_val_score(dt_clf, # 모델 : estimator
                         data,  # 전체 데이터 
                         label,  # 데이터를 균등하게 나누기 위한 기준 컬럼
                         scoring='accuracy',  # 성능지표 : 정확도
                         cv=5,  # 폴드 세트 수
                        )

In [6]:
scores

array([0.96666667, 0.96666667, 0.9       , 0.96666667, 1.        ])

In [7]:
np.mean(scores)

0.9600000000000002

## 하이퍼 파라미터 설정
- max_depth : 1, 3, 5
- min_samples_split : 2, 3

In [8]:
# max_depth=1, min_samples_split=2
iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=11,
                                max_depth=1,
                                min_samples_split=2,
                               )

data = iris_data.data  # 전체 데이터
label = iris_data.target  # 레이블

scores = cross_val_score(dt_clf, # 모델 : estimator
                         data,  # 전체 데이터 
                         label,  # 데이터를 균등하게 나누기 위한 기준 컬럼
                         scoring='accuracy',  # 성능지표 : 정확도
                         cv=5,  # 폴드 세트 수
                        )
print(scores)
print(np.mean(scores))

[0.66666667 0.66666667 0.66666667 0.66666667 0.66666667]
0.6666666666666666


In [9]:
# max_depth=1, min_samples_split=3
iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=11,
                                max_depth=1,
                                min_samples_split=3,
                               )

data = iris_data.data  # 전체 데이터
label = iris_data.target  # 레이블

scores = cross_val_score(dt_clf, # 모델 : estimator
                         data,  # 전체 데이터 
                         label,  # 데이터를 균등하게 나누기 위한 기준 컬럼
                         scoring='accuracy',  # 성능지표 : 정확도
                         cv=5,  # 폴드 세트 수
                        )
print(scores)
print(np.mean(scores))

[0.66666667 0.66666667 0.66666667 0.66666667 0.66666667]
0.6666666666666666


In [10]:
# max_depth=3, min_samples_split=2
iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=11,
                                max_depth=3,
                                min_samples_split=2,
                               )

data = iris_data.data  # 전체 데이터
label = iris_data.target  # 레이블

scores = cross_val_score(dt_clf, # 모델 : estimator
                         data,  # 전체 데이터 
                         label,  # 데이터를 균등하게 나누기 위한 기준 컬럼
                         scoring='accuracy',  # 성능지표 : 정확도
                         cv=5,  # 폴드 세트 수
                        )
print(scores)
print(np.mean(scores))

[0.96666667 0.96666667 0.93333333 1.         1.        ]
0.9733333333333334


In [11]:
# max_depth=3, min_samples_split=3
iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=11,
                                max_depth=3,
                                min_samples_split=3,
                               )

data = iris_data.data  # 전체 데이터
label = iris_data.target  # 레이블

scores = cross_val_score(dt_clf, # 모델 : estimator
                         data,  # 전체 데이터 
                         label,  # 데이터를 균등하게 나누기 위한 기준 컬럼
                         scoring='accuracy',  # 성능지표 : 정확도
                         cv=5,  # 폴드 세트 수
                        )
print(scores)
print(np.mean(scores))

[0.96666667 0.96666667 0.93333333 1.         1.        ]
0.9733333333333334


In [12]:
# max_depth=5, min_samples_split=2
iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=11,
                                max_depth=5,
                                min_samples_split=2,
                               )

data = iris_data.data  # 전체 데이터
label = iris_data.target  # 레이블

scores = cross_val_score(dt_clf, # 모델 : estimator
                         data,  # 전체 데이터 
                         label,  # 데이터를 균등하게 나누기 위한 기준 컬럼
                         scoring='accuracy',  # 성능지표 : 정확도
                         cv=5,  # 폴드 세트 수
                        )
print(scores)
print(np.mean(scores))

[0.96666667 0.96666667 0.9        0.96666667 1.        ]
0.9600000000000002


In [13]:
# max_depth=5, min_samples_split=3
iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=11,
                                max_depth=5,
                                min_samples_split=3,
                               )

data = iris_data.data  # 전체 데이터
label = iris_data.target  # 레이블

scores = cross_val_score(dt_clf, # 모델 : estimator
                         data,  # 전체 데이터 
                         label,  # 데이터를 균등하게 나누기 위한 기준 컬럼
                         scoring='accuracy',  # 성능지표 : 정확도
                         cv=5,  # 폴드 세트 수
                        )
print(scores)
print(np.mean(scores))

[0.96666667 0.96666667 0.9        0.96666667 1.        ]
0.9600000000000002


## GridSearchCV
- 모델 성능향상을 위해 사용하는 기법 중 하나
- 하이퍼 파라미터 값을 리스트로 입력하면, 경우 수마다 예측 성능을 평가한 후 비교하면서 최적의 파라미터 값을 찾음
- 단점 : 시간 소요

In [14]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import accuracy_score

In [15]:
iris = load_iris()

x_train, x_test, y_train, y_test = train_test_split(iris_data.data,
                                                    iris_data.target,
                                                    test_size=0.2,
                                                    random_state=11,
                                                   )

dtree = DecisionTreeClassifier()

parameter = {'max_depth' : [1, 3, 5], 'min_samples_split' : [2, 3]}

In [17]:
grid_dtree = GridSearchCV(dtree,
                          param_grid=parameter,
                          cv=5, # 폴드 세트 수 : 3 x 2 x 5 = 30회 수행
                          refit=True, # 최적의 파라미터를 찾은 후, 모델 재학습
                          return_train_score=True,
                         )

In [18]:
grid_dtree.fit(x_train, y_train)

In [19]:
grid_dtree.cv_results_

{'mean_fit_time': array([0., 0., 0., 0., 0., 0.]),
 'std_fit_time': array([0., 0., 0., 0., 0., 0.]),
 'mean_score_time': array([0.00020008, 0.        , 0.        , 0.        , 0.        ,
        0.        ]),
 'std_score_time': array([0.00040016, 0.        , 0.        , 0.        , 0.        ,
        0.        ]),
 'param_max_depth': masked_array(data=[1, 1, 3, 3, 5, 5],
              mask=[False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'param_min_samples_split': masked_array(data=[2, 3, 2, 3, 2, 3],
              mask=[False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'params': [{'max_depth': 1, 'min_samples_split': 2},
  {'max_depth': 1, 'min_samples_split': 3},
  {'max_depth': 3, 'min_samples_split': 2},
  {'max_depth': 3, 'min_samples_split': 3},
  {'max_depth': 5, 'min_samples_split': 2},
  {'max_depth': 5, 'min_samples_split': 3}],
 'split0_test_score': array([0.70833333, 0.70833333, 

In [24]:
scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_max_depth,param_min_samples_split,params,split0_test_score,split1_test_score,split2_test_score,...,mean_test_score,std_test_score,rank_test_score,split0_train_score,split1_train_score,split2_train_score,split3_train_score,split4_train_score,mean_train_score,std_train_score
0,0.0,0.0,0.0002,0.0004,1,2,"{'max_depth': 1, 'min_samples_split': 2}",0.708333,0.666667,0.666667,...,0.675,0.016667,5,0.666667,0.677083,0.677083,0.677083,0.677083,0.675,0.004167
1,0.0,0.0,0.0,0.0,1,3,"{'max_depth': 1, 'min_samples_split': 3}",0.708333,0.666667,0.666667,...,0.675,0.016667,5,0.666667,0.677083,0.677083,0.677083,0.677083,0.675,0.004167
2,0.0,0.0,0.0,0.0,3,2,"{'max_depth': 3, 'min_samples_split': 2}",0.916667,0.916667,1.0,...,0.958333,0.037268,2,0.989583,0.989583,0.96875,0.989583,0.979167,0.983333,0.008333
3,0.0,0.0,0.0,0.0,3,3,"{'max_depth': 3, 'min_samples_split': 3}",0.916667,0.958333,1.0,...,0.966667,0.03118,1,0.989583,0.989583,0.96875,0.989583,0.979167,0.983333,0.008333
4,0.0,0.0,0.0,0.0,5,2,"{'max_depth': 5, 'min_samples_split': 2}",0.916667,0.958333,1.0,...,0.958333,0.037268,2,1.0,1.0,1.0,1.0,1.0,1.0,0.0
5,0.0,0.0,0.0,0.0,5,3,"{'max_depth': 5, 'min_samples_split': 3}",0.916667,0.958333,1.0,...,0.958333,0.037268,2,1.0,1.0,1.0,1.0,0.989583,0.997917,0.004167


In [26]:
scores_df[['params', 'mean_test_score', 'rank_test_score', 'split0_test_score', 'split1_test_score', 'split2_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.675,5,0.708333,0.666667,0.666667
1,"{'max_depth': 1, 'min_samples_split': 3}",0.675,5,0.708333,0.666667,0.666667
2,"{'max_depth': 3, 'min_samples_split': 2}",0.958333,2,0.916667,0.916667,1.0
3,"{'max_depth': 3, 'min_samples_split': 3}",0.966667,1,0.916667,0.958333,1.0
4,"{'max_depth': 5, 'min_samples_split': 2}",0.958333,2,0.916667,0.958333,1.0
5,"{'max_depth': 5, 'min_samples_split': 3}",0.958333,2,0.916667,0.958333,1.0


In [27]:
# 최적 파라미터
grid_dtree.best_params_

{'max_depth': 3, 'min_samples_split': 3}

In [28]:
# 최고 정확도
grid_dtree.best_score_

0.9666666666666668

### 데스트(예측) 수행

In [29]:
# 예측
pred = grid_dtree.predict(x_test)

### 정확도 측정

In [30]:
# 정확도
accuracy_score(y_test, pred)

0.9333333333333333

### 테스트(예측) 재수행

In [32]:
estimator = grid_dtree.best_estimator_

In [33]:
pred = estimator.predict(x_test)

### 정확도 재측정

In [34]:
accuracy_score(y_test, pred)

0.9333333333333333