# Model Selection 모듈 소개
사이킷런의 `model_selection` 모듈은 다음과 같은 기능을 제공하는 함수 및 클래스를 제공한다.
- 학습 데이터와 테스트 데이터 세트를 분리
- 교차 검증 분할 및 평가
- Estimator의 하이퍼 파라미터를 튜닝 

## 1. 학습/테스트 데이터 세트 분리 - train_test_split()
학습과 예측을 위한 데이터 세트로 동일한 데이터 세트를 사용하면 제대로된 예측을 수행할 수 없다. 이렇게 되면 정확도가 100%로 마치 '시험지 정답을 보고 시험을 본 것'과 같다. 그러므로 데이터 세트를 학습용 데이터 세트와 예측을 위한 테스트 데이터 세트로 나누어야 한다.

In [2]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()    # 데이터셋 로딩
dt_clf = DecisionTreeClassifier()    # 의사결정트리 객체
train_data = iris.data       # feature 데이터 값
train_label = iris.target    # 결과 데이터 값
dt_clf.fit(train_data, train_label)    # 학습

# 학습 데이터 세트로 예측 수행
pred = dt_clf.predict(train_data)
print('예측 정확도 : ', accuracy_score(train_label, pred))

예측 정확도 :  1.0


데이터 세트를 학습용 데이터 세트와 테스트용 데이터 세트로 분리할 때 `train_test_split()`를 이용한다.

train_test_split(데이터.data, 데이터.target, test_size=0.3, random_state=131)

- `test_size` : 테스트 데이터 세트 크기 (디폴드값은 0.25)
- `train_size` : 학습용 데이터 세트 크기 (test_size로 비율을 설정하므로 거의 쓰이지 않음)
- `shuffle` : 데이터 분리 전에 데이터를 미리 섞을지 결정 (디폴드값은 True)
- `random_state` : 동일한 학습/테스트용 데이터 세트를 생성하기 위한 seed값 (`train_test_split()` 호출할 때 마다 seed값이 달라지므로 동일하게 분리하기 위한 같은 값으로 지정)

In [3]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

dt_clf = DecisionTreeClassifier()
iris_data = load_iris()

# 테스트 데이터 셋은 30%
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.3, random_state=121)
dt_clf.fit(X_train, y_train)     # 학습
pred = dt_clf.predict(X_test)    # 테스트용 데이터셋으로 예측
print('예측 정확도 : {0:4f}'.format(accuracy_score(y_test, pred)))

예측 정확도 : 0.955556


학습을 위한 데이터의 양을 일정 수준 이상으로 보장하는 것도 좋지만, 학습된 모델을 가지고 예측 성능을 평가해보는 것도 중요하다.

## 2. 교차 검증
Overfitting이란 학습된 모델이 **학습된 데이터에만 과도하게 최적화**되어 실제 예측 시 새로운 데이터를 넣으면 성능이 떨어지는 것을 말한다. Overfitting은 똑같은 데이터 세트로 계속해서 반복 학습을 할 경우 발생하며 이는 여러 세트로 구성된 학습 데이터과 검증 데이터 세트를 통해 학습과 평가를 하는 **교차 검증**으로 해결할 수 있다.     
즉, 교차 검증은 테스트 데이터 세트와 학습 데이터 세트로 분리한 뒤, 학습 데이터 세트의 일부를 **검증 데이터 세트**로 두어 미리 평가를 하는 것이다. 최종 평가는 테스트 데이터 세트로 한다. 

### 2.1. K 폴드 교차 검증
가장 보편적인 교차 검증 기법으로 K개의 데이터 폴드 세트를 만들어 K번만큼 각 폴드 세트에 대해 학습과 검증 평가를 반복적으로 수행하는 방법이다.   
1. K개의 폴드된 데이터 세트를 학습 데이터 세트와 검증 데이터 세트로 나눈다.
2. 나누어진 데이터 세트로 K번 평가를 수행한다.
3. K개의 평가의 평균을 가지고 예측 성능을 평가한다.    

![K 폴드 교차 검증](./k_fold_cross_validation.png)

In [4]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state=156)

# 5개의 폴드 세트로 분리하는 KFold 객체와 폴드 세트별 정확도를 저장하는 리스트 생성
kfold = KFold(n_splits=5)
cv_accuracy = []
print('붓꽃 데이터 세트 크기 : ', features.shape[0])

붓꽃 데이터 세트 크기 :  150


`split()`을 호출하면 데이터 세트를 K개의 폴드 데이터 세트로 분리한다. 그 때 학습용/검증용 데이터로 분할한 인덱스들을 `ndarray` 형태로 반환한다.

In [9]:
n_iter = 0

# KFold 객체의 split()를 호출하면 폴드 별 학습용, 검증용 테스트의 인덱스를 array로 반환
for train_index, test_index in kfold.split(features):
    # kfold.split()에서 반환된 인덱스로 학습용, 검증용 데이터를 추출
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    # 학습 및 예측
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1
    
    # 반복할 때마다 정확도 측정
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도 : {1}, 학습 데이터 크기 : {2}, 검증 데이터 크기 : {3}'.format(n_iter, accuracy, train_size, test_index))
    print('#{0} 검증 세트 : {1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)
    
# 개별 iteration 별 정확도를 합하여 평균 정확도 계산
print('\n## 평균 검증 정확도 : ', np.mean(cv_accuracy))


#1 교차 검증 정확도 : 1.0, 학습 데이터 크기 : 120, 검증 데이터 크기 : [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]
#1 검증 세트 : [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도 : 0.9667, 학습 데이터 크기 : 120, 검증 데이터 크기 : [30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]
#2 검증 세트 : [30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도 : 0.8667, 학습 데이터 크기 : 120, 검증 데이터 크기 : [60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]
#3 검증 세트 : [60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도 : 0.9333, 학습 데이터 크기 : 120, 검증 데이터 크기 : [ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]
#4 검증 세트 : [ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 1

### 2.2. Stratified K 폴드
Stratified K 폴드는 불균형한 분포도를 가진 레이블 데이터 집합을 위한 K 폴드 방식이다. 불균형한 분포도를 가진 레이블 데이터 집합은 **특정 레이블 값이 특이하게 많거나 매우 적어서 분포가 한쪽으로 치우치는 것**을 말한다.  
예를 들어 스팸 메일일 경우 1을, 아닐 경우 0인 레이블 데이터 있다고 하자. 스팸 메일일 확률을 0.0001%로 데이터 세트의 극히 일부이다. 만약 이 0.0001%가 데이터 세트의 한 쪽에 몰려 있다면, 모델은 스팸 메일이 아닌 걸 주로 학습을 할 것이다.    

이를 방지하기 위해 **원본 데이터의 레이블 분포를 먼저 고려한 뒤 이 분포와 동일하게 학습과 검증 데이터 세트를 분배**하는 Stratified K 폴드 방식을 적용하면 된다.

In [13]:
import pandas as pd
import numpy as np

# 레이블 분포도 확인
iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)    # feature 데이터 값을 DataFrame으로 생성
iris_df['label']=iris.target       # 레이블 데이터를 저장할 'lable' column 생성 및 값 저장 
iris_df['label'].value_counts()    # 각 레이블 값의 개수

2    50
1    50
0    50
Name: label, dtype: int64

In [17]:
# K Fold 방식 적용시 학습/검증 레이블 데이터 값의 분포도 확인
kfold = KFold(n_splits=3)
n_iter = 0
for train_index, test_index in kfold.split(iris_df):
    n_iter += 1
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    
    print('\n## 교차 검증 : {0}'.format(n_iter))
    print('학습 레이블 데이터 분포 : \n', label_train.value_counts())
    print('검증 레이블 데이터 분포 : \n', label_test.value_counts())


## 교차 검증 : 1
학습 레이블 데이터 분포 : 
 2    50
1    50
Name: label, dtype: int64
검증 레이블 데이터 분포 : 
 0    50
Name: label, dtype: int64

## 교차 검증 : 2
학습 레이블 데이터 분포 : 
 2    50
0    50
Name: label, dtype: int64
검증 레이블 데이터 분포 : 
 1    50
Name: label, dtype: int64

## 교차 검증 : 3
학습 레이블 데이터 분포 : 
 1    50
0    50
Name: label, dtype: int64
검증 레이블 데이터 분포 : 
 2    50
Name: label, dtype: int64


위의 결과를 보았을 때 검증 데이터의 레이블 값은 학습 데이터의 레이블 값에 없는 값이므로 결국 검증 정확도가 0이 되어 버린다. 그래서 레이블 값의 분포도를 반영하여 검증을 하는 Stratified KFold 방법을 사용하면 이 문제를 해결할 수 있다.     
Stratified K Fold 방식은 KFold 방식은 딱 한 가지가 다른데 레이블 데이터 분포도에 따라 학습/검증 데이터를 나누기 때문에 **`split()` 메서드의 인자로 피처 데이터 세트뿐만 아니라 레이블 데이터 세트도 포함**해야 한다.

In [None]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=3)
n_iter = 0

for train_index, test_index in skf.split(iris_df, iris_df['label']):
    n_iter += 1
    label_train = iris.df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    print('## 교차 검증 : {0}'.format)