<a href="https://colab.research.google.com/github/koogk7/ML_perfect_guide/blob/master/Validation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 교차검증
- 테스트 셋 외에 별도의 검증 셋을 만들어 최종평가 이전에 학습된 모델을 다양하게 평가하여 오버피팅을 예방

##K 폴드 교차검증
  - K개의 데이터 폴드 셋을 만들어서 K번만큼 각 폴트 셋에 학습과 검증 평가를 반복적으로 수행하는 방법
  - 하나의 데이터 셋을 K개로 나누는 것이 아니라, 하나의 데이터 셋에 대해 총 K개의 학습 데이터와 검증데이터 셋의 조합을 만드는 것이다.
 *이탤릭체 텍스트*

In [0]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

In [6]:
iris = load_iris()
features = iris.data
label = iris.target
df_clf = DecisionTreeClassifier(random_state=156)

# 5개의 폴드 세트로 분리하는 KFold 객체와 폴드 세트별 정확도를 담을 리스트 객체 생성
kfold = KFold(n_splits=5)
cv_accuracy = []
print('붓꽃 데이터 세트 크기:', features.shape[0])

붓꽃 데이터 세트 크기: 150


In [13]:
n_iter = 0

# KFold 객체의 split()를 호출하면 폴드 별 학습용, 검증용 테스트의 로우 인덱스를 array로 반환
for train_index, test_index, in kfold.split(features):

  # 데이터 분리
  X_train, X_test = features[train_index], features[test_index]
  y_train, y_test = label[train_index], label[test_index]
  
  # 학습 및 예측
  df_clf.fit(X_train, y_train)
  pred = df_clf.predict(X_test)
  n_iter += 1
  
  # 정확도 측정
  accuracy = np.round(accuracy_score(y_test, pred), 4)
  train_size = X_train.shape[0]
  test_size = X_test.shape[0]
  print("\n#{0} 교차 검증 정확도 : {1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}".format(n_iter, accuracy, train_size, test_size))
  print('#{0} 검증 세트 인덱스:{1}'.format(n_iter, test_index))
  cv_accuracy.append(accuracy)
  
# iter별 정확도를 합하여 평균 정확도 계산
print('\n## 평균 검증 정확도:', np.mean(cv_accuracy))
  


#1 교차 검증 정확도 : 1.0, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#1 검증 세트 인덱스:[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도 : 0.9667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#2 검증 세트 인덱스:[30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도 : 0.8667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#3 검증 세트 인덱스:[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도 : 0.9333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#4 검증 세트 인덱스:[ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차 검증 정확도 : 0.7333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#5 검증 세트 인덱스:[120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 검증 정확도: 0.9


## ------------------------------------------------
## Stratified K 폴드

- Stratified K 폴드는 불균형한 분포도를 가진 레이블 데이터 집합을 위한 K 폴드 방식
- 대출 사기 데이터를 예측한다고 생각해보자, 대부분의 데이터는 정상적이며 일부의 데이터만 사기 데이터일 것이다. 이 때 K 폴드로 랜덤하게 학습 및 테스트 셋을 나눌때 정상적인 데이터와 사기 데이터의 비율이 제대로 반영 되지 않는 경우가 쉽게 발생한다. 
- Stratified K 폴드는 원본 데이터의 레이블 분포를 먼저 고려한 뒤 이 분포와 동일하게 학습 및 검증 데이터를 분배한다.
- 일반적으로 분류에서의 교차 검증은 K 폴드가 아닌 Stratified K 폴드로 분할되야 한다. 반면 회귀에서는 결정값이 이산값이 아닌 연속된 숫자값이기때문에 결정값의 분포가 의미가 없음으로 Stratified K 폴드를 지원되지 않는다.

In [23]:
from sklearn.model_selection import StratifiedKFold
import pandas as pd 

skf = StratifiedKFold(n_splits=3)
iris_df = pd.DataFrame(data=features, columns=iris.feature_names)
iris_df['label'] = iris.target
n_iter=0


for train_index, test_index in skf.split(iris_df, iris_df['label']):
  n_iter +=1
  label_train= iris_df['label'].iloc[train_index] # iloc 인자로 배열도 올 수 있다.
  label_test= iris_df['label'].iloc[test_index]
  print('## 교차 검증: {0}'.format(n_iter))
  print('학습 레이블 데이터 분포:\n', label_train.value_counts())  
  print('검증 레이블 데이터 분포:\n', label_test.value_counts())  

## 교차 검증: 1
학습 레이블 데이터 분포:
 2    33
1    33
0    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    17
1    17
0    17
Name: label, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포:
 2    33
1    33
0    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    17
1    17
0    17
Name: label, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포:
 2    34
1    34
0    34
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    16
1    16
0    16
Name: label, dtype: int64


## ------------------------------------------------
## 교차 검증을 보다 간편하게 - cross_val_score()
- 위 과정을 요약하면 아래와 같다.
  1. 폴드셋 설정
  2. for 루프에서 반복적으로 학습 및 테스트 데이터 인덱스 추출
  3. 학습 예측 수행 및 예측성능 반환
- cross_val_score()는 위 과정을 한번에 수행해주는 API이다. 다음은 함수 선언 형태이다
    - ***cross_val_score(estimator, X , y=None, scroing=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch='2*n_jobs')***  
    - estimator는 사이킷런의 알고리즘, X는 피처데이터, y는 레이블 데이터, scoring은 예측성능평가지표, cv는 교차 검증 폴드 수를 의미, 함수는 수행 후 scoring로 지정된 성능 지표 측정값을 배열 형태로 반환
    - estimator 가 분류일 경우 Stratified K 폴드, 회귀일 경우 K폴드가 수행된다.
- cross_validate()는 여러개의 평가 지표를 반환 할 수 있다. 또한 수행시간도 같이 제공
   


In [27]:
from sklearn.model_selection import cross_val_score, cross_validate

scores = cross_val_score(df_clf, iris.data, label, scoring='accuracy', cv=3)
print('교차 검증별 정확도:', np.round(scores, 4))
print('평균 검증 정확도:', np.round(np.mean(scores),4))

교차 검증별 정확도: [0.9804 0.9216 0.9792]
평균 검증 정확도: 0.9604


## ------------------------------------------------
## GridSearchCV - 교차 검증을 통한 하이퍼 파라미터 튜닝

- 교차 검증을 기반으로 하이퍼 파라미터의 최적 값을 찾아준다.  단 주어진 하이퍼 파라미터 조합을 모두 검사하기때문에 상대적으로 시간이 오래 걸린다.

In [29]:
from sklearn.model_selection import GridSearchCV, train_test_split

iris_data = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target,
                                                   test_size=0.2, random_state=121)

dtree = DecisionTreeClassifier()

# 파라미터를 딕셔너리 형태로 설정
params = {'max_depth':[1, 2, 3], 'min_samples_split': [2, 3]}

# refit=True가 디폴트, True이면 가장 좋은 파라미터 설정으로 재학습시킴
grid_dtree = GridSearchCV(dtree, param_grid=params, refit=True)

# 학습데이터로 params의 하이퍼 파라미터를 순차적으로 학습/평가
grid_dtree.fit(X_train, y_train)

scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params', 'mean_test_score', 'rank_test_score',
          'split0_test_score', 'split1_test_score', 'split2_test_score']]



Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


In [31]:
print('최적 파라미터:', grid_dtree.best_params_)
print('최고 정확도:{0:.4f}'.format(grid_dtree.best_score_))

최적 파라미터: {'max_depth': 3, 'min_samples_split': 2}
최고 정확도:0.9750


In [32]:
# refit으로 이미 학습된 estimator 반환
estimator = grid_dtree.best_estimator_

pred = estimator.predict(X_test) # 학습이 되어있음므로 별도의 학습이 필요없다.
print("테스트 데이터 셋 정확도: {0: .4f}".format(accuracy_score(y_test, pred)))

테스트 데이터 셋 정확도:  0.9667
