학습 데이터와 테스트 데이터를 분리하거나, 교차 검증 분할 및 평가, Estimator의 하이퍼 파라미터 튜닝

# train_test_split()

In [1]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

dt_clf = DecisionTreeClassifier()
iris_data = load_iris()

In [16]:
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size = 0.3, random_state = 121)

In [17]:
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)

print('예측 정확도 : {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도 : 0.9556


# 교차 검증
- 데이터 편중을 막기 위해 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행
- dataset = train_data + test_data
- train_data = train_data + valid_data

## K-fold
- K개의 데이터 폴드 세트를 만들어서 K번만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행

In [4]:
from sklearn.model_selection import KFold
import numpy as np

In [20]:
features = iris.data
label = iris.target

In [21]:
kfold = KFold(n_splits=5)
cv_accuracy = []

print('붓꽃 데이터 세트 크기 : ', features.shape[0])

붓꽃 데이터 세트 크기 :  150


In [23]:
n_iter = 0

for train_index, test_index in kfold.split(features) :
    
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label [train_index], label[test_index]
    
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    
    n_iter +=1
    
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    
    print('\n#{0} 교차 검증 정확도 :{1}, 학습 데이터 크기 : {2}, 검증 데이터 크기 : {3}'.
         format(n_iter, accuracy, train_size, test_size))
    
    print('#{0} 검증 세트 인덱스 :{1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)
    
print('\n## 평균 cv accuracy : ', np.mean(cv_accuracy))


#1 교차 검증 정확도 :1.0, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#1 검증 세트 인덱스 :[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도 :1.0, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#2 검증 세트 인덱스 :[30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도 :0.8667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#3 검증 세트 인덱스 :[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도 :0.9333, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#4 검증 세트 인덱스 :[ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차 검증 정확도 :0.7333, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#5 검증 세트 인덱스 :[120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 cv accuracy :  0.9066599999999999


## Stratified K fold
- imbalanced 분포도를 가진 레이블 데이터 집합을 위한 방식
- 원본 데이터의 레이블 분포를 먼저 고려한 뒤, 이 분포와 동일하게 학습과 검증 데이터 세트를 분배
- 1에 비해 상대적으로 0의 개수가 많은 경우 등

In [25]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=3)
n_iter =0

for train_index, test_index in skf.split(iris_df, iris_df['label']) :
    n_iter += 1
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    
    print('## 교차 검증 : {0}'.format(n_iter))
    print('학습 레이블 데이터 분포 : \n', label_train.value_counts())
    print('검증 레이블 데이터 분포 : \n', label_test.value_counts())

## 교차 검증 : 1
학습 레이블 데이터 분포 : 
 2    33
1    33
0    33
Name: label, dtype: int64
검증 레이블 데이터 분포 : 
 2    17
1    17
0    17
Name: label, dtype: int64
## 교차 검증 : 2
학습 레이블 데이터 분포 : 
 2    33
1    33
0    33
Name: label, dtype: int64
검증 레이블 데이터 분포 : 
 2    17
1    17
0    17
Name: label, dtype: int64
## 교차 검증 : 3
학습 레이블 데이터 분포 : 
 2    34
1    34
0    34
Name: label, dtype: int64
검증 레이블 데이터 분포 : 
 2    16
1    16
0    16
Name: label, dtype: int64


- 학습 레이블과 검증 레이블 데이터 값의 분포도가 동일하게 할당

## cross_val_score()
- 아래 절차를 한번에
- fold set를 설정하고
- for 루프에서 반복으로 학습 및 테스트 데이터의 인덱스를 추출
- 반복적으로 학습과 예측을 수행하고 예측 성능을 반환

- classifierer 가 입력되면, Stratified K폴드 방식으로  / 회귀인 경우 K폴드 방식

In [2]:
from sklearn.model_selection import cross_val_score, cross_validate

dt_clf = DecisionTreeClassifier(random_state=156)
data = iris_data.data
label = iris_data.target

In [5]:
scores = cross_val_score(dt_clf, data, label, scoring='accuracy', cv = 3)
print('cv accuracy', np.round(scores, 4))
print('average cv accuracy', np.round(np.mean(scores), 4))

cv accuracy [0.9804 0.9216 0.9792]
average cv accuracy 0.9604


# Hyperparameter tuning
## GridSearchCV
- 알고리증메 사용되는 하이퍼파라미터를 순차적으로 입력하면서 편리하게 최적의 파라미터를 도출
- 내부에서 교차검증을 기반으로 검증
- 입력한 hyperparameter의 모든경우 * cv 수

##### - estimator : classifier, regressor, pipeline
##### - param_grid : 튜닝을 위해 파라미터명과 사용될 여러 값들
##### - scoring : 예측 성능을 측정할 평가 방법
##### - cv : 교차 검증을 위해 분할되는 개수
##### - refit : default True / 가장 최적의 하이퍼 파라미터를 찾은 뒤 입력된 estimator 객체를 해당 하이퍼파라미터로 재학습

In [6]:
grid_parameters = {
    'max_depth' : [1,2,3],
    'min_samples_split' : [2,3]
}

In [7]:
from sklearn.model_selection import GridSearchCV

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target,
                                                   test_size = 0.2, random_state = 121)

dtree = DecisionTreeClassifier()

parameters = {
    'max_depth' : [1,2,3],
    'min_samples_split' : [2,3]
}

In [11]:
grid_dtree = GridSearchCV(dtree, param_grid=parameters, cv = 3, refit = True, return_train_score = True)
grid_dtree.fit(X_train, y_train)

GridSearchCV(cv=3, error_score='raise-deprecating',
       estimator=DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best'),
       fit_params=None, iid='warn', n_jobs=None,
       param_grid={'max_depth': [1, 2, 3], 'min_samples_split': [2, 3]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score=True,
       scoring=None, verbose=0)

In [13]:
import pandas as pd
#GridSearchCV 결과 추출
scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params','mean_test_score','rank_test_score',
          'split0_test_score','split1_test_score','split2_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


- refit = True 이면, GridSearchCV의 최적 성능을 나타내는 하이퍼파라미터로 학습해서 best_estimator_로 저장

In [14]:
#default : refit = True
print('GridSearchCV best parameters : ', grid_dtree.best_params_)
print('GridSearchCV best accuracy : ', grid_dtree.best_score_)

GridSearchCV best parameters :  {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV best accuracy :  0.975


In [15]:
#이미 학습되었음
estimator = grid_dtree.best_estimator_

pred = estimator.predict(X_test)
print('테스트 데이터 세트 정확도', accuracy_score(y_test, pred))

테스트 데이터 세트 정확도 0.9666666666666667
