# Model Selection 모듈 소개

## 학습 / 테스트 데이터 셋 분리 **train_test_split()**

### **(1) 학습/테스트 데이터 셋 분리하지 않고 예측**

In [14]:
# (1)학습/데이터 셋 분리하지 않고 예측
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris_data = load_iris()
dt_clf = DecisionTreeClassifier()

train_data = iris_data.data
train_label = iris_data.target

# 학습 수행 - fit() 함수 사용
dt_clf.fit(train_data, train_label)

# 테스트 - 예측 수행
pred = dt_clf.predict(train_data)
print('예측 정확도 :', accuracy_score(train_label, pred))

예측 정확도 : 1.0


- 예측은 train_data로 했기 때문에 결과 1.0 (100%)으로 출력 (잘못됨)
- 예측은 테스트 데이터로 해야 함

### **(2) 학습/테스트 데이터 셋 분리하고 예측**

In [40]:
# (2)학습/데이터 셋 분리하고 예측
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

iris_data = load_iris()
dt_clf = DecisionTreeClassifier()

# 학습 / 테스트 분할(split)
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size = 0.3, random_state = 4)
#print(y_train)

# 학습 수행
dt_clf.fit(X_train, y_train)

# 예측 수행
pred = dt_clf.predict(X_test)
print('예측 정확도 :', accuracy_score(y_test, pred))

예측 정확도 : 0.9777777777777777


넘파이 ndarray 뿐만 아니라 판다스 DataFrame/Series도 train_test_split()으로 분할 가능

In [41]:
import pandas as pd

iris_df = pd.DataFrame(iris_data.data, columns = iris_data.feature_names)
iris_df['target'] = iris_data.target
iris_df.head(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


In [46]:
# 피처 데이터프레임 반환 (마지막 열 전까지, 마지막 열 제외)
feature_df = iris_df.iloc[:, :-1]

# 타깃 데이터프레임 반환
target_df = iris_df.iloc[:, -1]

# 학습 / 테스트 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(feature_df, target_df, test_size = 0.3, random_state = 4)

In [47]:
type(X_train)

pandas.core.frame.DataFrame

In [49]:
dt_clf = DecisionTreeClassifier()
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
print('예측 정확도 : {0:0.3f}'.format(accuracy_score(y_test, pred)))

예측 정확도 : 0.978


## Data split과 모델 검증

### **K 폴드 예제**

#### K 폴드 교차 검증 프로세스 구현을 위한 사이킷런 클래스
**KFold 클래스 : 폴드 세트로 분리하는 객체 생성**
 - kfold = KFold(n_splits = 5)

**split() 메소드 : 폴드 데이터 세트로 분리**
 - kfold.split(features)
 - 각 폴드마다 학습용, 검증용, 테스트 데이터 추출
 - 학습용 및 예측 수행
 - 정확도 측정

**최종 평균 정확도 계산**

In [56]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold

iris = load_iris()
feature = iris.data 
label = iris.target

feature.shape

(150, 4)

피처 개수 150개, 4개의 속성

In [68]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state = 156)

# 5개의 폴드 세트로 분리하는 KFold 객체 생성
# 교차 검증으로 데이터 셋을 5개로 분리
kfold = KFold(n_splits = 5)

# 폴드 세트별 정확도를 담을 리스트 객체 생성
cv_accuracy = []

In [62]:
# 폴드 별 학습용, 검증요 데이터 세트의 행 인덱스 확인
kfold.split(feature)
for train_index, test_index in kfold.split(feature):
    print(train_index, test_index)

[ 30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47
  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65
  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83
  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119
 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149] [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]
[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  60  61  62  63  64  65
  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83
  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119
 120 121 122 123 124 125 126 127 128 129 130 131 132 1

**KFold 자른 결과**
- [학습][테스트] 5번 순서대로 짤려져 있음

In [69]:
import numpy as np

for train_index, test_index in kfold.split(feature):
    X_train, X_test = feature[train_index], feature[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    
    acc = np.round(accuracy_score(y_test, pred), 3)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    
    print('정확도 : %f, 학습데이터 크기 : %d, 검증데이터 크기 : %d' %(acc, train_size, test_size))
    cv_accuracy.append(acc)


print('평균 검증 정확도 : ', np.mean(cv_accuracy))

정확도 : 1.000000, 학습데이터 크기 : 120, 검증데이터 크기 : 30
정확도 : 0.967000, 학습데이터 크기 : 120, 검증데이터 크기 : 30
정확도 : 0.867000, 학습데이터 크기 : 120, 검증데이터 크기 : 30
정확도 : 0.933000, 학습데이터 크기 : 120, 검증데이터 크기 : 30
정확도 : 0.733000, 학습데이터 크기 : 120, 검증데이터 크기 : 30
평균 검증 정확도 :  0.9


### **Sttatified K 폴드 교차 검증**
- 불균형한 분포도를 가진 레이블(결정 클래스) 데이터 집합을 위한 K폴드 방식

In [72]:
import pandas as pd

iris = load_iris()

iris_df = pd.DataFrame(iris_data.data, columns = iris_data.feature_names)
iris_df['label'] = iris_data.target
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [82]:
iris_df['label'].value_counts()
# 레이블 값은 0, 1, 2 값 모두 50개로 동일
# 즉, Setosa, Versicolor, Virginica 각 품종 50개 씩

0    50
1    50
2    50
Name: label, dtype: int64

In [87]:
# 3개 폴드를 구성
kfold = KFold(n_splits = 3)

n = 0
for train_index, test_index in kfold.split(iris_df):
    n += 1
    label_train = iris_df['label'].iloc[train_index] 
    label_test = iris_df['label'].iloc[test_index] 
    
    print("\n[교차검증 : %d]" %(n))
    print("학습용 : \n", label_train.value_counts())
    print("검증용 : \n", label_test.value_counts())


[교차검증 : 1]
학습용 : 
 1    50
2    50
Name: label, dtype: int64
검증용 : 
 0    50
Name: label, dtype: int64

[교차검증 : 2]
학습용 : 
 0    50
2    50
Name: label, dtype: int64
검증용 : 
 1    50
Name: label, dtype: int64

[교차검증 : 3]
학습용 : 
 0    50
1    50
Name: label, dtype: int64
검증용 : 
 2    50
Name: label, dtype: int64


In [88]:
# 참고 : 3개의 폴드 세트로 KFold 교차검증 정확도 : 0 

In [95]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state = 156)

# 3개의 폴드 세트로 분리하는 KFold 객체 생성
# 교차 검증으로 데이터 셋을 3개로 분리
kfold = KFold(n_splits = 3)

# 폴드 세트별 정확도를 담을 리스트 객체 생성
cv_accuracy = []

n = 0

for train_index, test_index in kfold.split(iris_df):
    X_train, X_test = feature[train_index], feature[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    # 학습 및 예측
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n += 1
    
    # 반복 시 마다 정확도 측정
    acc = np.round(accuracy_score(y_test, pred), 3)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('%d \n정확도 : %f, 학습데이터 크기 : %d, 검증데이터 크기 : %d' %(n, acc, train_size, test_size))
    
    cv_accuracy.append(acc)
    
    
# 개별 iteration별 정확도를 합하여 평균 정확도 계산
print('평균 검증 정확도 : ', np.mean(cv_accuracy))

1 
정확도 : 0.000000, 학습데이터 크기 : 100, 검증데이터 크기 : 50
2 
정확도 : 0.000000, 학습데이터 크기 : 100, 검증데이터 크기 : 50
3 
정확도 : 0.000000, 학습데이터 크기 : 100, 검증데이터 크기 : 50
평균 검증 정확도 :  0.0


**위 코드 결과의 문제점**
- 학습하지 않은 데이터를 검증 데이터로 사용
- 원활한 학습과 예측이 어려움
- 검증 정확도는 0

In [105]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits = 3)
n = 0

for train_index, test_index in skf.split(iris_df, iris_df['label']):
    n = n + 1
    
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    
    print('[교차검증 : %d]' %n)
    print('학습용 레이블 분포 : \n', label_train.value_counts())
    print('검증용 레이블 분포 : \n', label_test.value_counts())

[교차검증 : 1]
학습용 레이블 분포 : 
 2    34
0    33
1    33
Name: label, dtype: int64
검증용 레이블 분포 : 
 0    17
1    17
2    16
Name: label, dtype: int64
[교차검증 : 2]
학습용 레이블 분포 : 
 1    34
0    33
2    33
Name: label, dtype: int64
검증용 레이블 분포 : 
 0    17
2    17
1    16
Name: label, dtype: int64
[교차검증 : 3]
학습용 레이블 분포 : 
 0    34
1    33
2    33
Name: label, dtype: int64
검증용 레이블 분포 : 
 1    17
2    17
0    16
Name: label, dtype: int64


In [104]:
# StratifiedKFol를 이용해 붓꽃 데이터 교차 검증

# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state = 156)

# 3개의 폴드 세트로 분리하는 KFold 객체 생성
# 교차 검증으로 데이터 셋을 3개로 분리
# 인스턴스를 KFold > StratifiedKFold로 
skfold = StratifiedKFold(n_splits = 3)

# 폴드 세트별 정확도를 담을 리스트 객체 생성
cv_accuracy = []

n = 0

for train_index, test_index in skfold.split(feature, label):
    X_train, X_test = feature[train_index], feature[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    # 학습 및 예측
    # 예측 - test 변수 할 때 마다 어떻게 분류가 되는지?
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    
    # 반복 시 마다 정확도 측정
    n += 1
    
    acc = np.round(accuracy_score(y_test, pred), 3)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('%d \n정확도 : %f, 학습데이터 크기 : %d, 검증데이터 크기 : %d' %(n, acc, train_size, test_size))
    
    cv_accuracy.append(acc)
    
    
# 개별 iteration별 정확도를 합하여 평균 정확도 계산
print('평균 검증 정확도 : ', np.mean(cv_accuracy))

1 
정확도 : 0.980000, 학습데이터 크기 : 100, 검증데이터 크기 : 50
2 
정확도 : 0.940000, 학습데이터 크기 : 100, 검증데이터 크기 : 50
3 
정확도 : 0.980000, 학습데이터 크기 : 100, 검증데이터 크기 : 50
평균 검증 정확도 :  0.9666666666666667


### **붓꽃 자료를 3개 폴드로 분할하여 학습 및 검증**

In [107]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, cross_validate
import numpy as np

iris = load_iris()
dt_clf = DecisionTreeClassifier(random_state = 156)

feature = iris.data
label = iris.target

scores = cross_val_score(dt_clf, feature, label, scoring='accuracy', cv = 3)
print('교차 검증별 정확도 : ', scores)
print('평균 검증 정확도 : ', np.round(np.mean(scores), 4))

교차 검증별 정확도 :  [0.98 0.94 0.98]
평균 검증 정확도 :  0.9667


- cross_val_score()는 cv로 지정된 횟수만큼
- scoring 파라미터로 지정된 평가 지표로 평가 결과값을 배열로 반환
- 일반적으로 평가 결과값 평균을 평가 수치로 사용

### **교차 검증과 최적의 하이퍼파라미터 튜닝을 한번에**

#### **사이킷런의 GridSearchCV**

In [119]:
# GridSearchCV를 이용해
# 결정 트리 알고리즘의 여러 가지 최적화 파라미터를 순차적으로 적용해서
# 붓꽃 데이터 예측 분석

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import accuracy_score

iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size = 0.2, random_state = 121)

dt_clf = DecisionTreeClassifier()
parameters = {'max_depth' : [1, 2, 3], 'min_samples_split' : [2, 3]}

# 하이퍼파라미터는 딕셔너리 형식으로 지정
# key : 하이퍼파라미터
# value : 하이퍼파라미터의 값

min_samples_split : 자식 규칙 노드를 분할해서 만드는데 필요한 최소 샘플 데이터 개수
- min_samples_split = 4 로 설정하는 경우
    - 최소 샘플 개수가 4개 필요한데
    - 3개만 있는 경우에는 더 이상 자식 규칙 노드를 위한 분할을 하지 않음

In [121]:
grid_tree = GridSearchCV(dt_clf, param_grid = parameters, cv = 3, refit = True, return_train_score = True)

grid_tree.fit(X_train, y_train)

scores_df = pd.DataFrame(grid_tree.cv_results_)
scores_df

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_max_depth,param_min_samples_split,params,split0_test_score,split1_test_score,split2_test_score,mean_test_score,std_test_score,rank_test_score,split0_train_score,split1_train_score,split2_train_score,mean_train_score,std_train_score
0,0.001663,0.000471,0.001331,0.00047,1,2,"{'max_depth': 1, 'min_samples_split': 2}",0.7,0.7,0.7,0.7,1.110223e-16,5,0.7,0.7,0.7,0.7,1.110223e-16
1,0.00133,0.00047,0.000334,0.000472,1,3,"{'max_depth': 1, 'min_samples_split': 3}",0.7,0.7,0.7,0.7,1.110223e-16,5,0.7,0.7,0.7,0.7,1.110223e-16
2,0.001329,0.000469,0.000664,0.000469,2,2,"{'max_depth': 2, 'min_samples_split': 2}",0.925,1.0,0.95,0.958333,0.03118048,3,0.975,0.9375,0.9625,0.958333,0.01559024
3,0.00133,0.000471,0.000998,0.000814,2,3,"{'max_depth': 2, 'min_samples_split': 3}",0.925,1.0,0.95,0.958333,0.03118048,3,0.975,0.9375,0.9625,0.958333,0.01559024
4,0.000665,0.00047,0.000998,1e-06,3,2,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1.0,0.95,0.975,0.02041241,1,0.9875,0.9625,0.9875,0.979167,0.01178511
5,0.00165,0.00046,0.000664,0.000469,3,3,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1.0,0.95,0.975,0.02041241,1,0.9875,0.9625,0.9875,0.979167,0.01178511


In [122]:
# 파라미터 확인
grid_tree.cv_results_

{'mean_fit_time': array([0.00166305, 0.0013295 , 0.00132902, 0.0013299 , 0.00066495,
        0.00165009]),
 'std_fit_time': array([0.00047126, 0.00047047, 0.00046912, 0.00047053, 0.00047019,
        0.00045988]),
 'mean_score_time': array([0.00133061, 0.00033387, 0.00066392, 0.00099802, 0.0009981 ,
        0.00066368]),
 'std_score_time': array([4.70192509e-04, 4.72157095e-04, 4.69462280e-04, 8.13811497e-04,
        1.32507737e-06, 4.69292815e-04]),
 'param_max_depth': masked_array(data=[1, 1, 2, 2, 3, 3],
              mask=[False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'param_min_samples_split': masked_array(data=[2, 3, 2, 3, 2, 3],
              mask=[False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'params': [{'max_depth': 1, 'min_samples_split': 2},
  {'max_depth': 1, 'min_samples_split': 3},
  {'max_depth': 2, 'min_samples_split': 2},
  {'max_depth': 2, 'min_samples_split': 3},
  {'ma

In [123]:
# GridSearchCV 결과 세트로 딕셔너리 형태인 cv_results_ 를
# DataFrame 으로 변환한 후 
# 일부 파라미터 확인

scores_df[['params', 'mean_test_score', 'rank_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1


In [126]:
# 최고 성능을 가지는 파라미터 조합 및 예측 성능 1위 값 출력
print('최적 파라미터 : ', grid_tree.best_params_)
print('최고 정확도 : ', grid_tree.best_score_)

최적 파라미터 :  {'max_depth': 3, 'min_samples_split': 2}
최고 정확도 :  0.975


In [128]:
# GridSearchCV 객체의 생성 파라미터로 refit = True로 설정된 경우 (디폴트)
# GridSearchCV가 최적 성능을 나타내는 하이퍼파라미터로 Estimator를 학습하고
# best_esimator_ 로 저장
# (GridSearchCV의 refit으로 이미 학습이 된 estimator)
best_dt = grid_tree.best_estimator_

# best_esimator_는 이미 최적 학습이 됐으므로
# 별도 학습 필요 없이 바로 예측 가능
pred = best_dt.predict(X_test)
accuracy_score(y_test, pred)

0.9666666666666667

## **[마무리]** 
### **일반적인 머신러닝 모델 적용 방법**

일반적으로 학습 데이터를 GridSearchCV를 이용해,

 최적 하이퍼 파라미터 튜닝을 수행한 뒤에 별도의 테스트 세트에서 이를 평가하는 방식