# 패키지 로딩

In [3]:
import numpy as np
import pandas as pd

from sklearn.datasets import load_iris
from sklearn.model_selection import KFold, StratifiedKFold, cross_val_score, cross_validate, train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# Nonde Cross Validation

In [5]:
iris = load_iris()
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=10)
model = DecisionTreeClassifier(random_state=1)
model.fit(x_train, y_train)
y_hat = model.predict(x_test)
print(f'정확도:{accuracy_score(y_test, y_hat):.2f}')

정확도:0.98


# K-Fold Cross Validation

In [9]:
print(iris.data.shape)
print(iris.target)
unique, counts = np.unique(iris.target, return_counts=True)
print(dict(zip(unique, counts)))

(150, 4)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
{0: 50, 1: 50, 2: 50}


In [12]:
k_fold = KFold(n_splits=5)   # n_split = 교차 검증의 수 (몇 개로 나눌 것인가), default = 5
x = iris.data
y = iris.target
k = 0   # 교차 검증 횟수
cv_acc = []  # 교차 검증마다의 정확도 저장
model = DecisionTreeClassifier(random_state=1)
for train_idx, test_idx in k_fold.split(x):
    k += 1
    print(f'{k}번째 교차 검증 데이터 셋')
    print('Train:', train_idx)
    print('Test:', test_idx)
    x_train, x_test = x[train_idx], x[test_idx]
    y_train, y_test = y[train_idx], y[test_idx]

    model.fit(x_train, y_train)
    y_hat = model.predict(x_test)
    acc = accuracy_score(y_test, y_hat)
    print(f'{k}번째 교차 검증 정확도:{acc}')
    cv_acc.append(acc)

print()
print(f'평균 정확도:{np.mean(cv_acc):.2f}')

1번째 교차 검증 데이터 셋
Train: [ 30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47
  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65
  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83
  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119
 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]
Test: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]
1번째 교차 검증 정확도:1.0
2번째 교차 검증 데이터 셋
Train: [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  60  61  62  63  64  65
  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83
  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115 

# Stratified K-Fold Cross Validaiton

In [14]:
stf_k_fold = StratifiedKFold(n_splits=5)   # n_split = 교차 검증의 수 (몇 개로 나눌 것인가), default = 5
x = iris.data
y = iris.target
k = 0   # 교차 검증 횟수
cv_acc = []  # 교차 검증마다의 정확도 저장
model = DecisionTreeClassifier(random_state=1)
for train_idx, test_idx in stf_k_fold.split(x, y):   # 종속 변수도 포함
    k += 1
    print(f'{k}번째 교차 검증 데이터 셋')
    print('Train:', train_idx)
    print('Test:', test_idx)
    x_train, x_test = x[train_idx], x[test_idx]
    y_train, y_test = y[train_idx], y[test_idx]

    model.fit(x_train, y_train)
    y_hat = model.predict(x_test)
    acc = accuracy_score(y_test, y_hat)
    print(f'{k}번째 교차 검증 정확도:{acc}')
    cv_acc.append(acc)

print()
print(f'평균 정확도:{np.mean(cv_acc):.2f}')

1번째 교차 검증 데이터 셋
Train: [ 10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27
  28  29  30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45
  46  47  48  49  60  61  62  63  64  65  66  67  68  69  70  71  72  73
  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90  91
  92  93  94  95  96  97  98  99 110 111 112 113 114 115 116 117 118 119
 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]
Test: [  0   1   2   3   4   5   6   7   8   9  50  51  52  53  54  55  56  57
  58  59 100 101 102 103 104 105 106 107 108 109]
1번째 교차 검증 정확도:0.9666666666666667
2번째 교차 검증 데이터 셋
Train: [  0   1   2   3   4   5   6   7   8   9  20  21  22  23  24  25  26  27
  28  29  30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45
  46  47  48  49  50  51  52  53  54  55  56  57  58  59  70  71  72  73
  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90  91
  92  93  94

# cross_val_score()
- estimator: 학습할 모델 객체
- x: 독립변수 데이터 셋
- y: 종속변수 데이터 셋
- cv: 교차검증 k값 (default: 5), 또는 교차검증 클래스 객체

In [16]:
score = cross_val_score(model, x, y)   # model = Decision~
print('score:', score)
print(f'평균 정확도:{np.mean(score):.2f}')

score: [0.96666667 0.96666667 0.9        1.         1.        ]
평균 정확도:0.97


# cross_validate()
- 매 검증마다 소요된 학습 시간과 검증 시간을 딕셔너리로 반환한다.
- 여러 가지 평가 지표를 리스트 형태로 전달 가능

In [18]:
import sklearn
print(sklearn.metrics.SCORERS.keys())

dict_keys(['explained_variance', 'r2', 'max_error', 'matthews_corrcoef', 'neg_median_absolute_error', 'neg_mean_absolute_error', 'neg_mean_absolute_percentage_error', 'neg_mean_squared_error', 'neg_mean_squared_log_error', 'neg_root_mean_squared_error', 'neg_mean_poisson_deviance', 'neg_mean_gamma_deviance', 'accuracy', 'top_k_accuracy', 'roc_auc', 'roc_auc_ovr', 'roc_auc_ovo', 'roc_auc_ovr_weighted', 'roc_auc_ovo_weighted', 'balanced_accuracy', 'average_precision', 'neg_log_loss', 'neg_brier_score', 'positive_likelihood_ratio', 'neg_negative_likelihood_ratio', 'adjusted_rand_score', 'rand_score', 'homogeneity_score', 'completeness_score', 'v_measure_score', 'mutual_info_score', 'adjusted_mutual_info_score', 'normalized_mutual_info_score', 'fowlkes_mallows_score', 'precision', 'precision_macro', 'precision_micro', 'precision_samples', 'precision_weighted', 'recall', 'recall_macro', 'recall_micro', 'recall_samples', 'recall_weighted', 'f1', 'f1_macro', 'f1_micro', 'f1_samples', 'f1_weig

In [19]:
result = cross_validate(model, x, y, cv=5, scoring=['accuracy', 'precision_macro','roc_auc_ovr'])
for key, val in result.items():
    print('평가 지표:', key)
    print(f'평균값:{np.mean(val):.2f}')
    print('-'*30)

평가 지표: fit_time
평균값:0.00
------------------------------
평가 지표: score_time
평균값:0.01
------------------------------
평가 지표: test_accuracy
평균값:0.97
------------------------------
평가 지표: test_precision_macro
평균값:0.97
------------------------------
평가 지표: test_roc_auc_ovr
평균값:0.97
------------------------------
