# 사이킷런의 Model Selection 모듈

https://scikit-learn.org/stable/modules/classes.html#module-sklearn.model_selection

### 사이킷런 model_selection 모듈의 주요 기능

- 학습 데이터와 테스트 데이터 세트 분리
- 교차 검증 및 평가
- Estimator의 하이퍼파라미터 튜닝

![image-2.png](attachment:image-2.png)

## 1. 학습/테스트 데이터 셋 분리 : train_test_split()

- 학습데이터 세트
    - 모델 학습을 위해 사용
    - 데이터의 속성(피처)과 결정값(레이블) 모두 포함

- 테스트데이터 세트 
    - 학습된 모델 성능 테스트용
    - 결정값 예측

- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

#### train_test_split() 함수형식

- 예. train_test_split(iris_data, iris_label, test_size=0.3, random_state=11)

#### train_test_split() 반환값
- X_train : 학습용 피처 데이터 세트 (feature)
- X_test : 테스트용 피처 데이터 세트 (feature)
- y_train : 학습용 레이블 데이터 세트 (target)
- y_test : 테스트용 레이블 데이터 세트 (target)
- feature : 대문자 X_
- label(target) : 소문자 y_

### (1) 학습/테스트 데이터 셋 분리하지 않고 예측

- 필요 모듈 임포트

In [4]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

In [7]:
# 1. 데이터 준비
iris = load_iris()
x = iris.data
y = iris.target

# 2. 모델객체 생성
tree = DecisionTreeClassifier()

# 3. 학습(training)
tree.fit(x, y)

# 4. 예측(test)
pred_y = tree.predict(x)

# 5. 성능평가
accuracy_score(y, pred_y)

1.0

- 예측을 train_data로 했기 때문에 결과 1.0 (100%)으로 출력 (잘못됨)
- 예측은 테스트 데이터로 해야 함

### (2) 학습/테스트 데이터 셋 분리하고 예측

In [8]:
# 1. 데이터 준비
iris = load_iris()
x = iris.data
y = iris.target

# 2. 모델객체 생성
tree = DecisionTreeClassifier()
train_x, test_x, train_y, test_y = train_test_split(x,y,test_size = 0.3)

# 3. 학습(training)
tree.fit(train_x, train_y)

# 4. 예측(test)
pred_y = tree.predict(test_x)

# 5. 성능평가
accuracy_score(test_y, pred_y)

0.9555555555555556

- DataFrame/Series 형식의 featrue, label 변수를 사용하여 데이터 분할 가능

In [9]:
import pandas as pd

In [10]:
iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)
iris_df['target'] = iris.target
iris_df.head(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


In [12]:
# dataframe 자료를 학습할 때
ftr = iris_df.iloc[:,:-1]
target = iris_df.iloc[:,:-1]

train_x, test_x, train_y, test_y = train_test_split(ftr, target)
train_x

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
95,5.7,3.0,4.2,1.2
1,4.9,3.0,1.4,0.2
5,5.4,3.9,1.7,0.4
144,6.7,3.3,5.7,2.5
37,4.9,3.6,1.4,0.1
...,...,...,...,...
148,6.2,3.4,5.4,2.3
99,5.7,2.8,4.1,1.3
16,5.4,3.9,1.3,0.4
27,5.2,3.5,1.5,0.2


--------------------------

## 2. 교차검증(Cross Validation: CV)

- 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행
- k-fold Cross Validation
    - 전체 데이터 세트를 임의로 k개의 그룹으로 나누고, 그 가운데 하나의 그룹을 돌아가면서 테스트 데이터 세트로, 나머지 k-1개 그룹은 학습용 데이터 세트로 사용하는 방법

![image.png](attachment:image.png)


http://karlrosaen.com/ml/learning-log/2016-06-20/

### 사용 목적

- 데이터에 적합한 모델인지 평가
- 모델에 적절한 하이퍼파라미터(hyperparameter)를 찾음(모델 튜닝)
- 과대적합 예방
- 데이터 편중 방지

### 교차 검증 방법
- K 폴드 교차 검증
- Stratified K 폴드 교차 검증

### 1) K 폴드 교차 검증
- K개의 데이터 폴드 세트를 만들어서 K번만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행
- 가장 보편적으로 사용되는 교차 검증 기법


- 예.5-폴드 교차 검증

![image.png](attachment:image.png)

#### K-fold 교차 검증을 위한 사이킷런의 클래스

- sklearn.model_selection.KFold(n_splits=5, *, shuffle=False, random_state=None)

- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html

#### K-fold 교차 검증 프로세스

① KFold 클래스 : 폴드 세트로 분리하는 객체 생성
- kfold = KFold(n_splits=5)

② split() 메소드 : 폴드 데이터 세트로 분리
- kfold.split(features)
- 각 폴드마다  
    학습용, 검증용, 테스트 데이터 추출  
    학습용 및 예측 수행  
    정확도 측정  
    
③ 최종 평균 정확도 계산

#### 예제1.  iris-dataset에 대하여 5-fold 교차검증 적용

- k-fold 교차검증을 모듈 임포트 

In [13]:
from sklearn.model_selection import KFold

In [14]:
dt_clf = DecisionTreeClassifier(random_state=156)

# KFold 생성
kfold = KFold(n_splits=5)

# 폴드세트별 정확도를 계산해서 저장
acc = []

In [16]:
x = iris.data
y = iris.target
x.shape, y.shape

((150, 4), (150,))

In [17]:
kfold.split(x)

<generator object _BaseKFold.split at 0x00000205F8CF5C60>

In [19]:
# kfold -> train, test data를 1/n_split으로 뽑는 것
for i, (train_idx, test_idx) in enumerate(kfold.split(x)):
    print(f'cv{i+1}')
    print(f'train:\n{train_idx}')
    print(f'test:\n{test_idx}')
    print('-----------------------------')

cv1
train:
[ 30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47
  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65
  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83
  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119
 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]
test:
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]
-----------------------------
cv2
train:
[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  60  61  62  63  64  65
  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83
  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 

In [22]:
import numpy as np

for i, (train_idx, test_idx) in enumerate(kfold.split(x)):
    # 데이터 나누기
    train_x = x[train_idx]
    test_x = x[test_idx]
    train_y = y[train_idx]
    test_y = y[test_idx]
    # 학습 및 예측, 정확도 저장
    dt_clf.fit(train_x, train_y)
    pred_y = dt_clf.predict(test_x)
    score = accuracy_score(test_y, pred_y)
    acc.append(score)
    
    print(f'cv{i+1}: accuracy = {score:.4f}')

print(f'평균 정확도: {np.mean(acc):.4f}')

cv1: accuracy = 1.0000
cv2: accuracy = 0.9667
cv3: accuracy = 0.8667
cv4: accuracy = 0.9333
cv5: accuracy = 0.7333
평균 정확도: 0.9000


#### 예제2.  iris-dataset에 대하여 3-fold 교차검증 적용

In [24]:
dt_clf = DecisionTreeClassifier(random_state=156)
kfold = KFold(3)

acc = []
for i, (train_idx, test_idx) in enumerate(kfold.split(x)):
    # 데이터 나누기
    train_x = x[train_idx]
    test_x = x[test_idx]
    train_y = y[train_idx]
    test_y = y[test_idx]
    # 학습 및 예측, 정확도 저장
    dt_clf.fit(train_x, train_y)
    pred_y = dt_clf.predict(test_x)
    score = accuracy_score(test_y, pred_y)
    acc.append(score)
    
    print(f'cv{i+1}: accuracy = {score:.4f}')

print(f'평균 정확도: {np.mean(acc):.4f}')

cv1: accuracy = 0.0000
cv2: accuracy = 0.0000
cv3: accuracy = 0.0000
평균 정확도: 0.0000


In [25]:
# kfold -> train, test data를 1/n_split으로 뽑는 것
for i, (train_idx, test_idx) in enumerate(kfold.split(x)):
    print(f'cv{i+1}')
    print(f'train:\n{train_idx}')
    print(f'test:\n{test_idx}')
    print('-----------------------------')

cv1
train:
[ 50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83  84  85
  86  87  88  89  90  91  92  93  94  95  96  97  98  99 100 101 102 103
 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121
 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139
 140 141 142 143 144 145 146 147 148 149]
test:
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49]
-----------------------------
cv2
train:
[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49 100 101 102 103
 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121
 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139
 140 141 142 143

In [26]:
for i, (train_idx, test_idx) in enumerate(kfold.split(x)):
    print(f'cv{i+1}')
    print(f'y_train:\n{y[train_idx]}')
    print(f'y_test:\n{y[test_idx]}')
    print('-----------------------------')

cv1
y_train:
[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
y_test:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0]
-----------------------------
cv2
y_train:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
y_test:
[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1]
-----------------------------
cv3
y_train:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
y_test:
[2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 

데이터가 편향되었고 품종이 총 3개로 3등분 되어있는데 그것을 3등분해서 학습하려고 하니까 정확도 0

=> 검증 정확도는 0

=> 위 코드 결과의 문제점
- 학습하지 않은 데이터를 검증 데이터로 사용
- 원할한 학습과 예측이 어려움


In [27]:
kfold = KFold(n_splits = 3, shuffle=True)
for i, (train_idx, test_idx) in enumerate(kfold.split(x)):
    print(f'cv{i+1}')
    print(f'y_train:\n{y[train_idx]}')
    print(f'y_test:\n{y[test_idx]}')
    print('-----------------------------')

cv1
y_train:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
y_test:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2]
-----------------------------
cv2
y_train:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
y_test:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 2 2 2 2 2 2 2 2 2 2 2 2 2]
-----------------------------
cv3
y_train:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
y_test:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 

In [28]:
dt_clf = DecisionTreeClassifier(random_state=156)
acc = []
for i, (train_idx, test_idx) in enumerate(kfold.split(x)):
    # 데이터 나누기
    train_x = x[train_idx]
    test_x = x[test_idx]
    train_y = y[train_idx]
    test_y = y[test_idx]
    # 학습 및 예측, 정확도 저장
    dt_clf.fit(train_x, train_y)
    pred_y = dt_clf.predict(test_x)
    score = accuracy_score(test_y, pred_y)
    acc.append(score)
    
    print(f'cv{i+1}: accuracy = {score:.4f}')

print(f'평균 정확도: {np.mean(acc):.4f}')

cv1: accuracy = 0.9600
cv2: accuracy = 0.9200
cv3: accuracy = 0.9400
평균 정확도: 0.9400


=> 편향된 데이터를 shuffle하여 섞어 올바른 데이터로 만들기

---

### 2) Stratified K 폴드 교차 검증
- 불균형한 분포도를 가진 레이블(결정 클래스) 데이터 집합을 위한 K 폴드 방식

#### 불균형한 데이터(imbalanced data) 문제

- 관심 대상 데이터가 상대적으로 매우 적은 비율로 나타나는 데이터 문제

- 분류 문제인 경우 : 클래스들이 균일하게 분포하지 않은 문제를 의미
    - 예. 불량률이 1%인 생산라인에서 양품과 불량품을 예측하는 문제
    - 사기감지탐지(fraud detection), 이상거래감지(anomaly detection), 의료진단(medical diagnosis) 등 에서 자주 나타남

- 회귀 문제인 경우 : 극단값이 포함되어 있는 "치우친" 데이터 사례
    - 예. 산불에 의한 피해 면적을 예측하는 문제
    (https://www.kaggle.com/aleksandradeis/regression-addressing-extreme-rare-cases)

#### 불균형한 데이터 우회/극복하는 방법

- 방법1. 데이터 추가 확보


- 방법2. Re-Sampling
    - Under-sampling(과소표집)
        - 다른 클래스에 비하여 상대적으로 많이 나타나는 클래스의 개수를 줄임
        - 균형은 유지할 수 있으나 유용한 정보에 대한 손실이 있을 수 있음
             
    - Over-Sampling(과대표집)
        - 상대적으로 적게 나타나는 클래스의 데이터를 복제하여 데이터의 개수를 늘림
        - 정보 손실은 없이 학습 성능은 높아지는 반면, 과적합의 위험이 있음
        - SMOTE, ADASYN
        
        
![image.png](attachment:image.png)    

#### StratifiedKFold 클래스

- 원본 데이터의 레이블 분포를 고려한 뒤 이 분포와 동일하게 학습과 검증데이터 세트를 분배

- KFold 사용법과 거의 비슷
- 차이점
  - 레이블 데이터 분포도에 따라 학습/검증 데이터를 나누기 때문에
  - split()에 인자로 피처 데이터 세트(x)뿐 아니라 레이블 데이터 세트(y)도 반드시 필요하다는 것

In [29]:
from sklearn.model_selection import StratifiedKFold

In [31]:
dt_clf = DecisionTreeClassifier(random_state=156)
acc = []
skf = StratifiedKFold(n_splits=3)

for i, (train_idx, test_idx) in enumerate(skf.split(x, y)):
    # 데이터 나누기
    train_x, test_x = x[train_idx], x[test_idx]
    train_y, test_y = y[train_idx], y[test_idx]

    # 학습
    dt_clf.fit(train_x, train_y)
    # 예측
    pred_y = dt_clf.predict(test_x)
    # 성능평가
    score = accuracy_score(test_y, pred_y)
    acc.append(score)
    
    print(f'cv{i+1}: accuracy = {score:.4f}')

print(f'평균 정확도: {np.mean(acc):.4f}')

cv1: accuracy = 0.9800
cv2: accuracy = 0.9400
cv3: accuracy = 0.9800
평균 정확도: 0.9667


In [32]:
for i, (train_idx, test_idx) in enumerate(skf.split(x,y)):
    print(f'cv{i+1}')
    print(f'y_train:\n{y[train_idx]}')
    print(f'y_test:\n{y[test_idx]}')
    print('-----------------------------')

cv1
y_train:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
y_test:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2]
-----------------------------
cv2
y_train:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
y_test:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2]
-----------------------------
cv3
y_train:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
y_test:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 

#### Stratified K 폴드 특징

- 원본 데이터의 레이블 분포도 특성을 반영한 학습 및 검증 데이터 세트 생성
- 분류(Classification)에서의 교차 검증은 K 폴드 보다는 Stratified K 폴드 사용하는 것이 효과적
- 회귀(Regression)에서는 Stratified K 폴드 지원되지 않음
    - 회귀 모델의 target값은 범주형이 아닌 수치형이므로

---------------------------------------------

## 3. 교차검증을 보다 간편하게 : cross_val_score() 함수 

- 교차 검증 (Cross Validation) 과정
    1. 폴드 세트 설정
    2. for 문에서 반복적으로 학습 및 검증 데이터 추출 및 학습과 예측 수행
    3. 폴드 세트별로 예측 성능을 평균하여 최종 성능 평가

### cross_val_score( ) 함수

- 1 ~ 3 단계의 교차 검증 과정을 한꺼번에 수행
- 내부에서 Estimator를 학습(fit), 예측(predict), 평가(evaluation) 수행
- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_validate.htm

- estimator : Classifier 또는 Regressor
- X : feature dataset
- y : target(label) dataset
- scoring : 예측 성능 평가 지표
- cv : 교차검증을 위한 fold 수
    - estimator가 Classifier이고, y가 이진 또는 다중클래스인 경우  StratifiedKFold 사용
    - 그외의 경우는 Fold 사용

### 붓꽃 자료를 3개 폴드로 분할하여 학습 및 검증

In [33]:
from sklearn.model_selection import cross_val_score

iris = load_iris()
x = iris.data
y = iris.target

dt_clf = DecisionTreeClassifier(random_state=156)

scores = cross_val_score(dt_clf,x,y, scoring='accuracy', cv=3)
print(f'교차검증별 정확도: {scores}')
print(f'평균 졍확도: {np.mean(scores):.4f}')

교차검증별 정확도: [0.98 0.94 0.98]
평균 졍확도: 0.9667


In [34]:
scores = cross_val_score(dt_clf,x,y, scoring='accuracy', cv=5)
print(f'교차검증별 정확도: {scores}')
print(f'평균 졍확도: {np.mean(scores):.4f}')

교차검증별 정확도: [0.96666667 0.96666667 0.9        0.96666667 1.        ]
평균 졍확도: 0.9600


- cross_val_score()는 cv로 지정된 횟수만큼
- scoring 파라미터로 지정된 평가 지표로 평가 결과값을 배열로 반환
- 일반적으로 평가 결과값 평균을 평가 수치로 사용

--------------------------------

## 4. 교차 검증과 하이퍼파라미터 튜닝을 한번에 : GridSearchCV 클래스

하이퍼파라미터(Hyper parameter)
- 머신러닝 알고리즘을 구성하는 요소
- 이 값들을 조정해 알고리즘의 예측 성능을 개선할 수 있음

### 사이킷런의 GridSearchCV클래스

- Classifier나 Regressor와 같은 알고리즘에 사용되는
- 하이퍼 파라미터를 순차적으로 입력하면서
- 최적의 파라미터를 편리하게 도출할 수 있는 방법 제공  
-(Grid는 격자라는 의미 : 촘촘하게 파라미터를 입력하면서 테스트 하는 방식)

즉,  
- 머신러닝 알고리즘의 여러 하이퍼 파라미터를  
- 순차적으로 변경하면서 최고 성능을 가지는 파라미터를 찾고자 한다면  
- 파라미터의 집합을 만들어 순차적으로 적용하면서 최적화 수행  

- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.htm

- estimator : classifier, regressor, peipeline


- param_grid : key + 리스트 값을 가지는 딕셔너리 (estimator 튜닝을 위한 하이퍼 파라미터 )
     - key: 파라미터명, 리스트값:파라미터 값
     
     
- scoring : 예측 성능을 측정할 평가 방법 
     - 성능 평가 지표를 지정하는 문자열
     - 예: 정확도인 경우 'accuracy'
     
     
- cv : 교차 검증을 위해 분할되는 학습/테스트 세트의 개수


- refit : 최적의 하이퍼 파라미터를 찾은 뒤 입력된 estimator 객체를 해당 하이퍼 파라미터로 재학습 여부
     - 디폴트 : True    


In [35]:
from sklearn.model_selection import GridSearchCV

In [36]:
dt_clf = DecisionTreeClassifier(random_state=156)

iris = load_iris()
x = iris.data
y = iris.target


train_x, test_x, train_y, test_y = train_test_split(x,y,test_size=0.2,
                                                   random_state=121)

# 하이퍼 파라미터 지정
params={'max_depth': [1,2,3], 'min_samples_leaf': [2,3]}

In [37]:
grid = GridSearchCV(dt_clf,param_grid=params, cv=3, refit=True, return_train_score=True)
grid.fit(train_x,train_y)

In [38]:
grid.cv_results_

{'mean_fit_time': array([0.00285021, 0.00301965, 0.00278735, 0.00360354, 0.00955224,
        0.00445302]),
 'std_fit_time': array([4.95976600e-04, 1.59981334e-04, 4.39488334e-04, 7.72067277e-05,
        3.17602717e-03, 2.18484779e-03]),
 'mean_score_time': array([0.00183304, 0.00136185, 0.00211287, 0.00171518, 0.00449276,
        0.00612656]),
 'std_score_time': array([0.00062769, 0.00043211, 0.00062768, 0.00052799, 0.00197748,
        0.00086015]),
 'param_max_depth': masked_array(data=[1, 1, 2, 2, 3, 3],
              mask=[False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'param_min_samples_leaf': masked_array(data=[2, 3, 2, 3, 2, 3],
              mask=[False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'params': [{'max_depth': 1, 'min_samples_leaf': 2},
  {'max_depth': 1, 'min_samples_leaf': 3},
  {'max_depth': 2, 'min_samples_leaf': 2},
  {'max_depth': 2, 'min_samples_leaf': 3},
  {'max_dep

In [42]:
scores = pd.DataFrame(grid.cv_results_)
scores

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_max_depth,param_min_samples_leaf,params,split0_test_score,split1_test_score,split2_test_score,mean_test_score,std_test_score,rank_test_score,split0_train_score,split1_train_score,split2_train_score,mean_train_score,std_train_score
0,0.00285,0.000496,0.001833,0.000628,1,2,"{'max_depth': 1, 'min_samples_leaf': 2}",0.7,0.7,0.7,0.7,1.110223e-16,5,0.7,0.7,0.7,0.7,1.110223e-16
1,0.00302,0.00016,0.001362,0.000432,1,3,"{'max_depth': 1, 'min_samples_leaf': 3}",0.7,0.7,0.7,0.7,1.110223e-16,5,0.7,0.7,0.7,0.7,1.110223e-16
2,0.002787,0.000439,0.002113,0.000628,2,2,"{'max_depth': 2, 'min_samples_leaf': 2}",0.925,1.0,0.95,0.958333,0.03118048,3,0.975,0.9375,0.9625,0.958333,0.01559024
3,0.003604,7.7e-05,0.001715,0.000528,2,3,"{'max_depth': 2, 'min_samples_leaf': 3}",0.925,1.0,0.95,0.958333,0.03118048,3,0.975,0.9375,0.9625,0.958333,0.01559024
4,0.009552,0.003176,0.004493,0.001977,3,2,"{'max_depth': 3, 'min_samples_leaf': 2}",0.975,1.0,0.95,0.975,0.02041241,2,0.9875,0.9625,0.9875,0.979167,0.01178511
5,0.004453,0.002185,0.006127,0.00086,3,3,"{'max_depth': 3, 'min_samples_leaf': 3}",0.975,1.0,0.975,0.983333,0.01178511,1,0.9875,0.9625,0.975,0.975,0.01020621


In [43]:
scores[['params','mean_test_score','rank_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score
0,"{'max_depth': 1, 'min_samples_leaf': 2}",0.7,5
1,"{'max_depth': 1, 'min_samples_leaf': 3}",0.7,5
2,"{'max_depth': 2, 'min_samples_leaf': 2}",0.958333,3
3,"{'max_depth': 2, 'min_samples_leaf': 3}",0.958333,3
4,"{'max_depth': 3, 'min_samples_leaf': 2}",0.975,2
5,"{'max_depth': 3, 'min_samples_leaf': 3}",0.983333,1


In [44]:
grid.best_params_

{'max_depth': 3, 'min_samples_leaf': 3}

In [45]:
grid.best_score_

0.9833333333333334

In [51]:
# 최고 성능을 가지는 하이퍼 파라미터로 튜닝한 모델로 예측
best_dt = grid.best_estimator_
pred = best_dt.predict(test_x)
accuracy_score(test_y,pred)

0.9666666666666667

**일반적인 머신러닝 모델 적용 방법**

- 일반적으로 학습 데이터를 GridSearchCV를 이용해
- 최적 하이퍼 파라미터 튜닝을 수행한 뒤에
- 별도의 테스트 세트에서 이를 평가하는 방식

-----