# 패키지 로딩

In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import KFold, StratifiedKFold
from sklearn.model_selection import train_test_split, cross_val_score, cross_validate
from sklearn.tree import DecisionTreeClassifier 
# LinearRegression 모델처럼 분류 객체를 다루는 것
from sklearn.metrics import accuracy_score
# 얼마나 분류를 잘 했는지 검증하는 것 (mse, mae)

import numpy as np
import pandas as pd

# 데이터 로딩

In [2]:
iris = load_iris()
iris.data.shape #150개의 레코드, 4개의 독립변수

(150, 4)

In [3]:
iris.target #3가지 품종

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

# K-Fold Cross Validation

In [4]:
k_fold = KFold(n_splits=5)
x = iris.data
y = iris.target
k = 0 # 교차검증 횟수
cv_acc = [] #교차 검증마다 정확도 저장
model = DecisionTreeClassifier(random_state = 1) # seed 값을 고정 

for train_index, test_index in k_fold.split(x,y):
    #.split()는 인덱스 값을 가져온다
    
    k += 1
    
    print(f'{k} 번째 검증 데이터 셋')
    print('Train:', train_index)
    print('Test:', test_index)
    
    x_train, x_test = x[train_index], x[test_index]
    y_train, y_test = y[train_index], y[test_index]
    
    model.fit(x_train,y_train)
    y_hat = model.predict(x_test)
    acc = accuracy_score(y_test, y_hat)
    
    print(f'{k}번째 교차 검증 정확도 : {acc:.2f}')
    cv_acc.append(acc)
    
print(f'평균 정확도:{np.mean(cv_acc):.2f}')

1 번째 검증 데이터 셋
Train: [ 30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47
  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65
  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83
  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119
 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]
Test: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]
1번째 교차 검증 정확도 : 1.00
2 번째 검증 데이터 셋
Train: [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  60  61  62  63  64  65
  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83
  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115 1

# Stratified K-Fold Cross Validation

In [8]:
k_fold = StratifiedKFold(n_splits=5)
x = iris.data
y = iris.target
k = 0 # 교차검증 횟수
cv_acc = [] #교차 검증마다 정확도 저장
model = DecisionTreeClassifier(random_state = 1) # seed 값을 고정 

for train_index, test_index in k_fold.split(x,y):
    #.split()는 인덱스 값을 가져온다 / 똑같은 비율로 스플릿됨
    
    k += 1
    
    print(f'{k} 번째 검증 데이터 셋')
    print('Train:', train_index)
    print('Test:', test_index)
    
    x_train, x_test = x[train_index], x[test_index]
    y_train, y_test = y[train_index], y[test_index]
    
    model.fit(x_train,y_train)
    y_hat = model.predict(x_test)
    acc = accuracy_score(y_test, y_hat)
    
    print(f'{k}번째 교차 검증 정확도 : {acc:.2f}')
    cv_acc.append(acc)
    
print(f'평균 정확도:{np.mean(cv_acc):.2f}')

1 번째 검증 데이터 셋
Train: [ 10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27
  28  29  30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45
  46  47  48  49  60  61  62  63  64  65  66  67  68  69  70  71  72  73
  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90  91
  92  93  94  95  96  97  98  99 110 111 112 113 114 115 116 117 118 119
 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]
Test: [  0   1   2   3   4   5   6   7   8   9  50  51  52  53  54  55  56  57
  58  59 100 101 102 103 104 105 106 107 108 109]
1번째 교차 검증 정확도 : 0.97
2 번째 검증 데이터 셋
Train: [  0   1   2   3   4   5   6   7   8   9  20  21  22  23  24  25  26  27
  28  29  30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45
  46  47  48  49  50  51  52  53  54  55  56  57  58  59  70  71  72  73
  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90  91
  92  93  94  95  96  97  98

# cross_val_score()
- estimator : 학습에 사용할 모델 객체
- x : 독립변수 데이터 셋
- y : 종속변수 데이터 셋
- cv : 교차검증 k값 (default: 5)

In [9]:
model = DecisionTreeClassifier(random_state = 1)
score = cross_val_score(model, x, y, cv=5) # 정확도
print('score:', score)
print(f'평균 정확도:{np.mean(score):.2f}')

score: [0.96666667 0.96666667 0.9        1.         1.        ]
평균 정확도:0.97


# cross_validate()
- cross_val_score()와 유사
- 단, 매 검증마다 소요된 학습시간과 검증시간을 딕셔너리로 반환한다.
- 여러가지 평가지표를 리스트 형태로 전달된다

In [10]:
model = DecisionTreeClassifier(random_state = 1)
result = cross_validate(model, x, y, cv = 5, scoring=['accuracy','precision_macro','roc_auc_ovr'])
for key,value in result.items():
    print('평가지표: ', key)
    print(f'평균값{np.mean(value):.2f}')
    print('-'*30)

평가지표:  fit_time
평균값0.00
------------------------------
평가지표:  score_time
평균값0.00
------------------------------
평가지표:  test_accuracy
평균값0.97
------------------------------
평가지표:  test_precision_macro
평균값0.97
------------------------------
평가지표:  test_roc_auc_ovr
평균값0.97
------------------------------
