```
사이킷런은 ML모델 학습을 위해서 fit(), 학습된 모델의 예측을 위해 predict() 메서드를 제공합니다
지도학습의 주요 두 축인 분류(Classtification)와 회귀(Regreesion)의 다양한 알고리즘을 구현한 모든 사이킷런 클래스는 fit(), predict()만을 이용해
간단하게 학습과 예측 결과를 반환합니다. 사이킷런에서는 분류 알고리즘을 구현한 클래스를 Classrifier로, 그리고 회귀 알고리즘을 구현한 클래스를 Regressor로 
지칭합니다. 이들을 합쳐서 Estimator 클래스라고 부릅니다
즉 지도학습의 모든 알고리즘을 구현한 클래스를 통칭해서 Estimator라고 부릅니다. 당연히 fit(), predict()를 내부에서 구현하고 있습니다

비지도학습인 차원 축소, 클러스터링, 피처 추출 등을 구현한 클래스 역시 대부분 fit(), transform()을 적용합니다. 비지도학습과 피처 추출에서 fit()은 지도학습의
fit()과 같이 학습을 의미하는 것이 아니라 입력 데이터의 형태에 맞춰서 데이터를 변환하기 위한 사전 구조를 맞추는 작업입니다.
fit()으로 변환을 위한 사전 구조를 맞추면 이후 입력 데이터의 차원 변환, 클러스터링, 피처 추출 등의 실제 작업은 transform()으로 수행합니다.
```

# 주요 모델들

- 분류 데이타 : sklearn.datasets : 사이킷런에 내장되어 예제로 제공하는 데이터 세트
- 피처 처리
    - sklearn.preprocessing : 데이터 전처리에 필요한 다양한 가공 기능 제공(문자열을 숫자형 코드 값으로 인코딩, 정규화, 스케일링)
    - sklearn.feature_selection : 알고리즘에 큰 영향을 미치는 피처를 우선순위대로 셀렉션 작업을 수행하는 다양한 기능 제공
    - sklearn.feature_extraction : 텍스트 데이터나 이미지 데이터의 벡터화된 피처를 추출하는데 사용
- 데이터 분리, 검증, 파라미터 튜팅 : sklearn.model_seleciton : 교차 검증을 위한 학습용/데스트용 분리, 그리드 서치로 최적 파라미터 추출
- 평가 :  sklearn.metrics : 분류, 회귀, 클러스터링, 페어와이즈에 대한 다양한 성능 측정 방법 제공
    - Accurancy, Precision, Recall, ROC-AUC, RMSE 등
- ML 알고리즘
    - sklearn.ensemble : 앙상블 알고리즘 제공
    - sklearn.linear_model : 선형회귀, 릿지, 랏쏘 및 로지스틱 회귀 등 관련 알고리즘
    - sklearn.svm : 서포트 벡터 머신 알고리즘
    - sklearn.tree : 의사 결정 트리 알고리즘
    - sklearn. cluster : 비지도 클러스터링 알고리즘

```
일반적으로 머신러닝 모델을 구축하는 주요 프로세스는 피처의 가공, 변경, 추출을 수행하는 피처 처리,ML 알고리즘 학습/예측 수행
, 그리고 모델 평가의 단계를 반복적으로 수행하는 것입니다
```

# 내장된 예제 데이터 세트

- datasets.load_boston() : 회귀 용도, 미국 보스턴의 집 피처들과 가격에 대한 데이터 세트
- datasets.load_breast_cancer() : 분류 용도, 위스콘신 유방암 피처들과 양성/음성 레이블 데이터 세트
- datasets.load_diabetes() : 회귀 용도, 당뇨 데이터 세트
- datasets.load_digits() : 분류 용도, 0에서 9까지 숫자의 이미지 픽셀 데이터 세트
- datasets.load_iris() : 분류 용도, 붓꽃 데이터

### 분류와 클러스터링을 위한 표본 데이터 생성기

- datasets.make_classifications() : 분류를 위한 데이터 세트를 만듭니다. 특히 높은 상관도, 불필요한 속성 등의 노이즈 효과를 위한 데이터를 무작위로 생성
- datasets.make_blobs() : 클러스터링을 위한 데이터 세트를 무작위로 생성. 군집 지정 개수에 따라 여러가지 클러스터링을 위한 데이터 세트 만들어줌

```
분류나 회귀를 위한 연습용 예제 데이터가 어떻게 구성되어 있는지 살펴보자
사이킷런에 내장된 이 데이터 세트는 일반적으로 딕셔너리 형태이다
키는 보통 data, target, target_name, feature_names, DESCR로 구성되어 있음

- data는 피처의 데이터 세트를 가리킵니다. 넘파이 배열
- target은 분류 시 레이블 값, 회귀일 때는 숫자 결괏값 데이터 세트입니다. 넘파이 배열
- target_names는 개별 레이블의 이름을 나타냅니다. 넘파이 배열 또는 리스트
- feature_names는 피처의 이름을 나타냅니다. 넘파이 배열 또는 리스트
- DESCR은 데이터 세트에 대한 설명과 각 피처의 설명을 나타냅니다. 스트링 타입

피처의 데이터 값을 반환받기 위해서는 내장 데이터 세트 API를 호출한 뒤 그 뒤 KEY 값을 지정하면 됩니다
```

In [1]:
from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))

<class 'sklearn.utils._bunch.Bunch'>


- bunch 클래스는 파이썬 딕셔너리 자료형과 비슷합니다. 데이터 세트에 내장돼 있는 대부분의 데이터 세트는 이와 같이 딕셔너리 형태의 값을 반환
- 데이터 세트의 key값을 확인해 보겠습니다

In [2]:
keys = iris_data.keys()
keys

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

# Model Selection 모듈 소개

## 학습/테스트 데이터 세트 분리 - train_test_split()

- 먼저 테스트 데이터를 사용하지 않고 학습 데이터 세트로만 학습하고 예측하면 무엇이 문제인지 살표보자

In [3]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

iris = load_iris()

#의사 결정 트리 클래스
dt_clf = DecisionTreeClassifier()  # 분류모델을 변수에 지정
train_data = iris.data
train_label = iris.target
dt_clf.fit(train_data, train_label)  # 지정된 변수에 파라미터로 훈련용 데이터와 피처를 대입)

# 학습 데이터 세트으로 예측 수행
pred = dt_clf.predict(train_data)
print('예측 정확도:' , accuracy_score(train_label, pred))

예측 정확도: 1.0


```
예측 결과가 100% 나온 이유는 이미 학습한 데이터 세트를 기반으로 예측을 했기 때문입니다
즉, 모의고사 이미 한 번 보고 답을 알고 있는 상태에서 모의고사 문제와 똑같은 본고사 문제가 출제됐기 때문입니다
예측을 하는 데이터 세트는 학습을 수행한 학습용 데이터 세트가 아닌 전용의 테스트 세트여야 합니다
```

- test_size : 전체 데이터에서 테스트 데이터 세트 크기를 얼마나 샘플링할 것인가를 결정합니다 보통 0.2 진행
- train_size : 전체 데이터에서 학습용 데이터 세트 크기를 얼마로 샘플링할 걸인가를 결정합니다. 잘 사용하지 않음
- shuffle : 데이터를 분리하기 전에 데이터를 미리 섞을지를 결정하며 디폴트 값은 True값
- randoms_state : 호출할 때마다 동일한 학습/테스트용 데이터세트를 생성하기 위해 주어지는 난수 값, 호출 시 무작위로 데이터를 분리하므로 지정하지 않으면
수행할 때마다 다른 학습/테스트 용 데이터를 생성
- train_test_split() : 반환값은 튜플, 순차적으로 학습용 데이터 피처, 테스트용 피처, 학습용 레이블, 테스트용 레이츨로 반환

In [4]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

df_clf = DecisionTreeClassifier()  # 변수에 모델 지정
iris_data = load_iris()  # 데이터 불러오기

X_train, X_test, y_train, y_test = train_test_split(
    iris_data.data,
    iris_data.target,
    test_size=0.2,
    random_state=14
)

- 학습 데이터를 기반으로 DecisionTreeClassifier를 학습하고 이 모델을 이용해 예측 정확도를 측정하자

In [5]:
df_clf.fit(X_train, y_train)  #  train데이터로 모델을 학습
pred = df_clf.predict(X_test)  # test 데이터로 학습된 모델의 예측도를 변수에 지정
print(f'예측 정확도: {accuracy_score(y_test, pred)}')  # y_test, pred의 정확도 측정

예측 정확도: 0.9666666666666667


- 정확도는 약 96%
- 데이터셋이 많지 않아 성능 판단하기에는 적절하지 않음
- 학습을 위한 데이터 양을 일정 수준이상으로 보장하는 것도 중요하지만, 학습된 모델에 대해 다양한 데이털르 기반으로 예측 성능을 평가해보는 것도 중요

# 교차 검증

- 알고리즘을 학습 시키는 데이터와 이에 대한 예측 성능을 평가하기 위한 별도의 테스트용 데이터가 필요하다고 했습니다
- 하지만 이 방법 역시 과적합에 취약한 약점을 가지고 있습니다
    - 과적합은 모델이 학습 데이터에만 과도하게 최적화되어, 실제 예측을 다른 데이터로 수행할 경우에는 예측 성능이 과도하게 떨어지는 것을 말함
- 이러한 문제점을 개전하기 위해 교차 검증을 진행
- 교차 검증은 좀 더 간략하게 설명하면 본고사를 치르기 전에 모의고사를 여러번 보는 것
- 즉 모의고사 테스트 데이터 세트에 대해 평가하는 거라면, 모의고사는 교차 검증에서 많은 학습과 검증 세트에서 알고리즘 학습과 평가를 수행하는 것
- 각 세트에서 수행한 평가 결과에 따라 하이퍼 파라미터 튜닝 등의 모델 최적화를 쉽게 할 수 있습니다

## K 폴드 교차 검증

- 가장 보편적으로 사용되는 교차 검증 기법
- 먼저 k개의 데이터 폴드 세트를 만들어서 k번 만큼 각 폴트 세트에 학습과 검증 평가를 반복적으로 수행
- k가 5라면?
    - 먼저 데이터 세트를 5등분
    - 그리고 첫 번째 반복에서는 처음부터 4개 등분을 학습 데이터 세트, 마지막 5번째 등분 하나를 검증 데이터로 설정
    - 첫 번째 평가를 수행하고 나면 이제 두 번째 반복에서 다시 비슷한 학습과 평가 작업을 수행
    - 단, 이번에는 학습 데이터와 검증 데이터를 변경합니다
- 이렇게 학습 데이터와 검증 데이터 세트를 검직적으로 변경함녀서 마지막 5번째까지 학습과 검증을 수행하느 것이 바로 k 폴드 교차 검증입니다
- 5개의 예측 평가를 구했으면 이를 평균해서 k 폴드 평가 결과로 반영

### 교차 검증을 이용한 붓꽃 데이터 세트 정확도 구하기

In [6]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold

import numpy as np

iris = load_iris()  # 데이터 로드
features = iris.data  # 데이터 값 저장
label = iris.target  # 타겟값 저장
df_clf = DecisionTreeClassifier(random_state=37)  # 모델 클래스 저장

# 5개의 폴드 세트로 분리하는 kfold 객체와 폴드 세트별 정확도를 담을 리스트 객체 생성
kfold = KFold(n_splits=5)
cv_accuracy = []
print('붓꽃 데이터 세트 크기', features.shape[0])

붓꽃 데이터 세트 크기 150


In [7]:
label

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

```
kfold 객체를 생성했으니 이제 생성된 kfold 객체의 split() 을 호출해서 전체 붓꽃 데이터를 5개의 폴드 데이터 세트로 분리하자
전체는 150개, 따라서 학습용 데이터 세트는 이 중 4/5인 120개, 검증 데이터 세트는 1/5인 30개로 분할합니다
kfold 객체는 split()을 호출하면 학습용/검증용 데이터로 분할할 수 있는 인덱스를 반환합니다
실제로 학습용/검증용 데이터 추출은 반환된 인덱스를 기반으로 개발 코드에서 직접 수행햐야 합니다
```

In [8]:
n_iter = 0

# kfold 객체의 split()를 호출하면 폴드별 학습용,검증용 테스트의 로우 인덱스를 array로 반환
for train_index, test_index in kfold.split(features):
    # kfold.split()으로 반환된 인덱스를 이용해 학습용, 검증용 테스트 데이트 추출
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]

    # 학습 및 에측
    df_clf.fit(X_train, y_train)
    pred = df_clf.predict(X_test)
    n_iter += 1

    # 반복 시 마다 정확도 측정
    accuracy = np.round(accuracy_score(y_test, pred),4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도 : {1}, 학습 데이터 크기: {2}, 검증 데이터 크기: {3}'.format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 인덱스: {1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)

# 개별 iteraction 별 정확도를 합하여 평균 정확도 계산
print('\n## 평균 검증 정확도:', np.mean(cv_accuracy))


#1 교차 검증 정확도 : 1.0, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#1 검증 인덱스: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도 : 0.9667, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#2 검증 인덱스: [30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도 : 0.8333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#3 검증 인덱스: [60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도 : 0.9333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#4 검증 인덱스: [ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차 검증 정확도 : 0.7333, 학습 데이터 크기: 120, 검증 데이터 크기: 30
#5 검증 인덱스: [120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 검증 정확도: 0.8933199999999999


- 검증 결과 평균 검증 정확도는 0.8
- 교차 검증 시마다 검증 세트의 인덱스가 달라짐을 알 수 있습니다
- 학습 데이터 세트의 인덱스는 수가 많아서 출력하지 않았지만 검증 세트의 인덱스를 보면 교차 검증 시마다 split() 함수가 어떻게 인덱스를 할당하는지 알 수 있습니다

## Stratified k 폴드

- 불균형한 분포도를 가진 레이블 데이터 집합을 위한 k 폴드 방식입니다
- 불균형한 분포도를 가진 레이블 데이터 집합은 특정 레이블 값이 특이하게 많거나 매우 적어서 값의 분포가 한쪽으로 치우치는 것을 말합니다
-작은 비율로 1 레이블 값이 있다면 k 폴드로 랜덤하게 학습 및 테스트 세트의 인덱스를 고르더라도 레이블 값인 0과 1의 비율을 제대로 반영하지 못하는 경우가 생깁니다
- 즉 레이블 값으로 1이 특정 개별 반복별 학습/테스트 데이터 세트에서 상대적으로 많이 들어 있고, 다른 반복 학습/테스트 세트에는 그렇지 못한 결과가 발생 합니다
- 따라서 원본 데이터와 유사한 대출 사기 레이블 값의 분포를 학습/테스트 세트에도 유지하는 게 매우 중요합니다

```
Stratified k 폴드는 이처럼 k 폴드가 레이블 데이터 집합이 원본 데이터 집합의 레이블 분포를 학습 및 테스트 세트에 제대로 분배하지 못하는 경우의
문제를 해결해 줍니다. 이를 위해 Stratified는 원본 데이터의 레이블 분포를 먼저 고려한 뒤 이 분포와 동일하게 학습과 검증 데이터 세트를 분배합니다.
```

# 교차 검증을 보다 간편하게: cross_val_score()

```
사이킷런 교차 검증을 좀 더 편리하게 수행할 수 있게 해주는 API를 제공합니다
대표적인 것이 cross_val_score()입니다. kfold로 데이터를 학습하고 예측하는 코드를 보면 먼저 폴드 세트를 설정하고 
for 루프에서 반복으로 학습 및 테스트 데이터의 인덱스를 추출한 뒤
반복적으로 학습과 예측을 수행하고 성능을 반환했습니다
cross_val_score()는 이런 일련의 과정을 한꺼번에 수행해주는 API입니다.
estimator는 사이킷런의 분류 알고리즘 클래스인 Classifier 또는 회귀 알고리즘 클래스인 Regressor를 의미하고, X는 피터 데이터 세트, y는 레이블 데이터 세트
scoring은 예측 성능 평가 파라미터로 지정된 성능 지표 측정값을 배열 형태로 반환합니다
cross_val_score() 수행 후 반환 값은 scoring 파라미터면 stratidied k 폴드 방식으로 레이블값의 분포에 따라 학습/테스트 세트를 분할합니다(회귀는 k 폴드 방식으로 진행)
다음 코드에서 cross_val_score()의 사용법을 알아보자 교차 검증 폴드 수는 3, 성능 평가 지표는 정확도인 accuracy로 하겠습니다
    
```

In [12]:
# 라이브러리 불러오기
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.datasets import load_iris

iris_data = load_iris()  # 데이터 로드
dt_clf = DecisionTreeClassifier(random_state=50)  # 모델 클래스 불러오기

data = iris_data.data
label = iris_data.target

# 성능 지표 정확도, 교차 검증 세트는 3개
score = cross_val_score(dt_clf, data, label, scoring='accuracy', cv=3)
print('교차 검증별 정확도:', np.round(score,4))
print('평균 검증 정확도:', np.round(np.mean(score), 4))

교차 검증별 정확도: [0.98 0.94 0.98]
평균 검증 정확도: 0.9667


- cross_val_score()는 cv로 지정된 횟수만큼 scoring 파라미터로 지정된 평가 지표로 평가 결괏값을 배열로 반환합니다
그리고 일반적으로 이를 평균해 평가 수치로 사용합니다
    - cross_val_score()는 내부에서 학습(fit), 예측(predict), 평가 시켜주므로 간단하게 교차 검증을 수행할 수 있습니다
    - 붓꽃 데이터의 cross_val_score() 수행 결과와 앞예제의 붓꽃 데이터의 수행 결과를 비교해 보면 각 교차 검증별 정확도와 평균 검증 정확도가 모두 동일함을 알 수 있습니다
    - cross_val_score()가 내부적으로 stratifiedkfold를 이용하기 때문입니다
- cross_validate()가 있습니다
    - 여러개의 평가 지표를 반환할 수 있습니다
    - 또한 학습 데이터에 대한 성능 평가 지표와 수행 시간도 같이 제공합니다
    - 그러나 보통 cross_val_score() 하나라도 대부분의 경우 쉽게 사용합니다

# GridSearchCV - 교차 검증과 최적 파라미터 튜닝을 한번에

- 하이퍼 파라미터는 머신러닝 알고리즘을 구성하는 주요 구성 요소이며, 이 값을 조정해 알고리즘의 예측 성능을 개선할 수 있습니다
- 순차적으로 입력하면 편리하게 최적의 파라미터를 도출할 수 있습니다
- Grid는 격자라는 뜻으로, 촘촘하게 파라미터를 입력하면서 테스트를 하는 방식

- 결정 트리 알고리즘의 여러 가지 최적화 파라미터를 순차적으로 적용해 붓꽃데이터를 예측 분석하는데 GridSearchCV를 이용해보자

- train_test_split()를 이용해 학습 데이터와 테스트 데이터를 먼저 분리하고 학습 데이터에서 최적의 파라미터를 추출하겠습니다
- 결정 트리 알고리즘을 구현한 DesisionTreeClassifier의 중요 하이퍼 파라미터인 max_depth와 min_samples_split의 값을 변화 시키면서
최적화를 진행해보겠습니다
- 티스트할 하이퍼 파라미터 세트는 딕셔너리 형태로 하이퍼 파라미터의 명칭은 문자열 Key, 하이퍼 파라미터의 값은 리스트 형으로 설정합니다

In [15]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

# 데이터를 로딩하고 학습 데이터와 테스트 데이터 분리
iris_data = load_iris()
X_train, X_test, y_train, y_test = train_test_split(
    iris_data.data, 
    iris_data.target, 
    test_size=0.2, 
    random_state=13
)

dtree = DecisionTreeClassifier()

# 파라미터를 딕셔너리 형태로 설정
parameters = {
    'max_depth' : [1, 2, 3],
    'min_samples_split' : [2, 3]
}

- 학습 데이터 세트를 GridSearchCV 객체의 fit(학습 데이터 세트) 메서드에 인자로 입력합니다
- fit 메스드를 수행하면 학습 데이터를 cv에 기술된 폴딩 세트로 분할해 param_grid에 기술된 하이퍼 파라미터를 순차적으로 변경하면서 학습/평가를 수행하고
- 그 결과를 cv_result_ 속성에 기록합니다
    - cv_result_의 결과 세트로서 딕셔너리 형태로 Key 값과 리스트 형태의 value 값을 가집니다
- 주요 컬럼만 발취해서 어떻게 GridSearchCV가 동작하는지 알아보겠습니다

In [16]:
import pandas as pd

# params_grid의 하이퍼 파라미터를 3개의 train, test set fold로 나누어 테스트 수행 설정
grid_dtree = GridSearchCV(dtree, param_grid=parameters, cv=3, refit=True)

In [19]:
# 붓꽃 학습 데이터로 param_grid의 하이퍼 파라미터를 순차적으로 학습/평가
grid_dtree.fit(X_train, y_train)

# GridSearchCV 결과를 추출해 DATAFRAME으로 변환
score_df = pd.DataFrame(grid_dtree.cv_results_)
score_df[[
    'params', 'mean_test_score', 'rank_test_score', 'split0_test_score', 'split1_test_score', 'split2_test_score'
]]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.691667,5,0.675,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.691667,5,0.675,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.933333,3,0.925,0.925,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.933333,3,0.925,0.925,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.941667,1,0.95,0.925,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.941667,1,0.95,0.925,0.95


In [22]:
score_df.head(1)

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_max_depth,param_min_samples_split,params,split0_test_score,split1_test_score,split2_test_score,mean_test_score,std_test_score,rank_test_score
0,0.005326,0.003789,0.000991,0.001402,1,2,"{'max_depth': 1, 'min_samples_split': 2}",0.675,0.7,0.7,0.691667,0.011785,5


- 총 6개의 결과를 볼 수 있으며, 이는 하이퍼 파라미터 max_depth와 min_samples_split을 순차적으로 총 6번 변경하면서 학습 및 평가를 수행했음을 나타냅니다
- params 컬럼에는 수행할 때마다 적용된 하이퍼 파라미터값을 가지고 있습니다.
- 맨 마지막에서 두 번째 행(인덱스 번호)을 보면 rank_test_score 컬럼 값이 1입니다. 이는 해당 하이퍼 파라미터의 조합인 max_depth:3,min_samples_split:2로
평가한 결과 예측 성능이 1위라는 의미입니다.
- params 칼럼에는 수행할 때마다 적용된 개별 하이퍼 파라미터값을 나타냅니다.
- rank_test_score는 하이퍼 파라미터별로 성능이 좋은 score 순위를 나타냅니다. 1이 가장 뛰어난 순위이며 이때의 파라미터가 최적의 파라미터 입니다.
- mean_test_score는 개별 하이퍼 파라미터별로 cv의 폴딩 테스트 세트에 대해 총 수행한 평가 평균값입니다.

- GridSearchCV 객체의 fit()을 수행하면 최고 성능을 나타낸 하이퍼 파라미터의 값과 그때의 평가 결과 값이 각각
- best_parmas_, best_score_ 속성에 기록됩니다. 즉 cv_result_의 rank_test_score가 1일 때의 값입니다.
- 이 속성을 이용해 최적 하이퍼 파라미터의 값과 그 때의 정확도를 알아보겠습니다.

In [25]:
print('GridSearchCV 최적 파라미터:', grid_dtree.best_params_ )
print('GridSearchCV 최고 정확도:{0:.4f}'.format(grid_dtree.best_score_))

GridSearchCV 최적 파라미터: {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV 최고 정확도:0.9417


- max_depth가 3, min_samples_split 2일 떄 검증용 폴드 세트에서 평균 최고 정확도가 97.50%로 측정됐습니다
- ridSearchCV 객체의 생성 파라미터 refit=True가 디폴트입니다. ridSearchCV가 최적 성능을 나타내는 하이퍼 파라미터로 Estimator를 학습해
best_estimator_로 저장합니다.
- 이미 학습된 best_estimator_를 이용해 앞에서 train_test_split()으로 분리한 테스트 데이터 세트에 대해 예측하고 성능을 평가했습니다.

In [27]:
# GridSearchCV의 refit으로 이미 학습된 estimator 반환
estimator = grid_dtree.best_estimator_

# GridSearchCV의 best_estimator_는 이미 최적 학습이 됐으므로 별도 학습이 필요 없음
pred = estimator.predict(X_test)
print('테스트 데이터 세트 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

테스트 데이터 세트 정확도: 0.9333


In [None]:
- 별도의 테스트 데이터 세트로 정확도를 측정한 결과 약 93.33%의  결과가 도출됐습니다.
- 일반적으로 학습 데이터를 GridSearchCV를 이용해 하이퍼 파라미터 튜닝을 수행한 뒤에 별도의 테스트 세트에서 이를 평가하는 것이 일반적인 머신러닝 모델 적용 방법입니다.