In [31]:
# iris data 가져와주시고     :: datasets
# 의사결정나무 가져와주시고  :: tree
# k-fold가져와주시고         :: model_selection
# 정확도 지표 가져와주세요~  :: metrics 

from sklearn.datasets import load_iris 
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score as acc_sc

import numpy as np
import pandas as pd

In [32]:
## 원래는 150개의 iris데이터에서 30개를 test
## train을 120개로 사용해야하나,
## 데이터의 수가 극히 작으므로,
## 그냥 150개 전체가 train_datasets라고 가정하여 분석을 수행하겠다.

iris = load_iris()
features = iris.data # X값
target = iris.target # y값
dt_clf = DecisionTreeClassifier(random_state= 156)

In [33]:
# 5개의 fold 세트로 분리하는 KFold 객체와 
# 세트별 정확도를 담을 리스트 객체를 생성.
kfold = KFold(n_splits=5) # K가 5개입니다
print('iris datasets shape:', features.shape[0])

iris datasets shape: 150


In [34]:
for i,j in [(1,2),(3,4),(5,6)]:
    print(i)

1
3
5


In [35]:
for train_index, val_index in kfold.split(features):
    print(val_index)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]
[30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]
[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]
[ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]
[120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]


In [39]:
## K-fold를 적용한 학습 알고리즘
cv_acc_result = []
n_iter = 0

for train_index, val_index in kfold.split(features):  # features 는 iris.data :: 전체의 X값
    # Kfold.split()으로 반환된 인덱스를 이용해 학습용, 검증용 테스테 데이터 추출
    X_train, X_val = features[train_index], features[val_index]
    y_train, y_val = target[train_index], target[val_index]
    
    # 학습 및 예측
    dt_clf.fit(X_train,y_train) # 학습알고리즘을 통해서 train 데이터로 쓰임 
    pred_dt = dt_clf.predict(X_val) # 예측값 y
    n_iter=n_iter+1
    
    ## 반복할 때마다 정확도 측정
    accuracy_score = np.round(acc_sc(y_val,pred_dt),4)
    train_size = y_train.shape[0]
    test_size= y_val.shape[0]
    print('\n ##{0} CV정확도: {1}, train 크기:{2}, val데이터:{3}'.format(n_iter,accuracy_score,train_size,test_size))    
    print('#{0} val데이터 인덱스:{1}'.format(n_iter,val_index))
    cv_acc_result.append(accuracy_score)
    
print('\n ##평균 val정확도:', np.mean(cv_acc_result))


 ##1 CV정확도: 1.0, train 크기:120, val데이터:30
#1 val데이터 인덱스:[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

 ##2 CV정확도: 0.9667, train 크기:120, val데이터:30
#2 val데이터 인덱스:[30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

 ##3 CV정확도: 0.8667, train 크기:120, val데이터:30
#3 val데이터 인덱스:[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

 ##4 CV정확도: 0.9333, train 크기:120, val데이터:30
#4 val데이터 인덱스:[ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

 ##5 CV정확도: 0.7333, train 크기:120, val데이터:30
#5 val데이터 인덱스:[120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

 ##평균 val정확도: 0.9


## Stratified K-fold
####  층화 K-fold :: 층화라는 표현은 층화표본추출에서 배웠음


* Stratified K 폴드는 불균형한(imbalanced) 분포도를 가진 레이블(결정 클래스) 데이터 집합을 위한 K폴드 방식입니다. 불균형한 분포도를 가진 레이블 데이터 집합은 특정 레이블 값이 특이하게 많거나 매우 적어서 값의 분포가 한쪽으로 치우치는 것을 말한다. 

가령 대출 사기 데이터를 예측한다고 가정해보자. 이 데이터 셋은 1억 건이고, 수십 개의 피처와 대출사기 여부를 뜻하는 레이블(대출사기:1, 정상대출:0)로 구성돼 있다. 그런데 대부분의 데이터는 정상 대출일 것이다.그리고 대출 사기가 약 1000건이 있다고 한다면 전체의 0.0001%의 아주 작은 확률로 대출 사기 레이블이 존재한다. 이렇게 작은 비율로 1 레이블 값이 있다면 K 폴드로 랜덤하게 학습 및 테스트 세트의 인덱스를 고르더라도 레이블 값인 0과 1의 비율을 제대로 반영하지 못하는 경우가 쉽게 발생한다.   

이를 위해 붓꽃 데이터 세트를 간단하게 DataFrame으로 생성하고 레이블 값의 분포도를 확인하자. 

In [40]:
import pandas as pd

In [42]:
iris = load_iris()
iris_df = pd.DataFrame(iris.data, columns= iris.feature_names)
iris_df['label'] = iris.target
iris_df['label'].value_counts()

0    50
1    50
2    50
Name: label, dtype: int64

In [74]:
# k= 3인 채로 만들어보자.
Kfold = KFold(n_splits=3)
n_iter = 0
for train_index, val_index in  Kfold.split(iris_df):
    n_iter = n_iter+1
    label_train = iris_df['label'][train_index] # iloc를 빼도 되고요
    label_val = iris_df['label'].iloc[val_index] # iloc를 넣어도 됩니다
    print('## CV:{0}'.format(n_iter))
    print('학습 label 분포:\n',label_train.value_counts())
    print('검증 label 분포:\n',label_val.value_counts())

## CV:1
학습 label 분포:
 1    50
2    50
Name: label, dtype: int64
검증 label 분포:
 0    50
Name: label, dtype: int64
## CV:2
학습 label 분포:
 0    50
2    50
Name: label, dtype: int64
검증 label 분포:
 1    50
Name: label, dtype: int64
## CV:3
학습 label 분포:
 0    50
1    50
Name: label, dtype: int64
검증 label 분포:
 2    50
Name: label, dtype: int64


In [75]:
# 위와 같은 문제가 발생하므로 Stratified k-fold를 활용하자.
from sklearn.model_selection import StratifiedKFold

In [77]:
# k= 3인 채로 만들어보자.
skf = StratifiedKFold(n_splits=3)
n_iter = 0
for train_index, val_index in  skf.split(iris_df, iris_df['label']):
    n_iter = n_iter+1
    label_train = iris_df['label'][train_index] # iloc를 빼도 되고요
    label_val = iris_df['label'].iloc[val_index] # iloc를 넣어도 됩니다
    print('## CV:{0}'.format(n_iter))
    print('학습 label 분포:\n',label_train.value_counts())
    print('검증 label 분포:\n',label_val.value_counts())

## CV:1
학습 label 분포:
 2    34
0    33
1    33
Name: label, dtype: int64
검증 label 분포:
 0    17
1    17
2    16
Name: label, dtype: int64
## CV:2
학습 label 분포:
 1    34
0    33
2    33
Name: label, dtype: int64
검증 label 분포:
 0    17
2    17
1    16
Name: label, dtype: int64
## CV:3
학습 label 분포:
 0    34
1    33
2    33
Name: label, dtype: int64
검증 label 분포:
 1    17
2    17
0    16
Name: label, dtype: int64


In [82]:
dt_clf = DecisionTreeClassifier(random_state=156)

## K-fold를 적용한 학습 알고리즘
skfold = StratifiedKFold(n_splits=3)
cv_acc_result = []
n_iter = 0

for train_index, val_index in skfold.split(features, target):  # features 는 iris.data :: 전체의 X값
    # Kfold.split()으로 반환된 인덱스를 이용해 학습용, 검증용 테스테 데이터 추출
    X_train, X_val = features[train_index], features[val_index]
    y_train, y_val = target[train_index], target[val_index]
    
    # 학습 및 예측
    dt_clf.fit(X_train,y_train) # 학습알고리즘을 통해서 train 데이터로 쓰임 
    pred_dt = dt_clf.predict(X_val) # 예측값 y
    n_iter=n_iter+1
    
    ## 반복할 때마다 정확도 측정
    accuracy_score = np.round(acc_sc(y_val,pred_dt),4)
    train_size = y_train.shape[0]
    test_size= y_val.shape[0]
    print('\n ##{0} CV정확도: {1}, train 크기:{2}, val데이터:{3}'.format(n_iter,accuracy_score,train_size,test_size))    
    print('#{0} val데이터 인덱스:{1}'.format(n_iter,val_index))
    cv_acc_result.append(accuracy_score)

# CV별 정확도 및 평귱 정확도 계산
print('\n ## CV별 정확도:', np.round(cv_acc_result,4))
print('\n ##평균 val정확도:', np.round(np.mean(cv_acc_result),4))


 ##1 CV정확도: 0.98, train 크기:100, val데이터:50
#1 val데이터 인덱스:[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]

 ##2 CV정확도: 0.94, train 크기:100, val데이터:50
#2 val데이터 인덱스:[ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82 116 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132]

 ##3 CV정확도: 0.98, train 크기:100, val데이터:50
#3 val데이터 인덱스:[ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  83  84
  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]

 ## CV별 정확도: [0.98 0.94 0.98]

 ##평균 val정확도: 0.9667


### 교차검증을 편리하게 해주자 - cross_val_score() #함수

사이킷런은 교차 검증을 좀 더 편리하게 수행할 수 있게 해주는 API를 제공한다. 대표적인 것이 cross_val_score()이다. KFold로 데이터를 학습하고 예측하는 코드를 보면 먼저 (1)폴드 세트를 설정하고 (2)for 루프에서 반복으로 학습 및 테스트 데이터의 인덱스를 추출한 뒤 (3)반복적으로 학습과 예측을 수행하고 예측 성능을 반환했다.

cross_val_score()는 이런 일련의 과정을 한꺼번에 수행해주는 API이다. 다음은 cross_val_score()API의 선언 형태이다. 
cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch='2*n_jobs'). 이 중 estimator, X, y, scoring, cv가 주요 파라미터이다.
 

In [84]:
## 처음부터 분석한다고 가정하자 ^^
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, KFold, cross_val_score, StratifiedKFold
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor

import warnings
warnings.filterwarnings('ignore')

In [88]:
# 이미 iris와 dt_clf는 정의되었음 :: 이미 assignment가 끝남

data_X = iris.data # :: X값
label_y = iris.target # :: y값

# 성능 지표는 정확도(accuracy), cv= 3
scores = cross_val_score(dt_clf,data_X,label_y,scoring='accuracy', cv=3)
print('cv별 정확도:', np.round(scores,4))
print('cv별 평균정확도:', np.round(np.mean(scores),4))

cv별 정확도: [0.98 0.94 0.98]
cv별 평균정확도: 0.9667
