## 5.2 교차 검증과 그리드 서치

목적: 검증 세트가 필요한 이유를 이해하고 교차 검증에 대해 학습하는 것을 목표로 하고, <br>
     그리도 서치와 랜덤 서치를 이용해 최적의 성능을 내는 하이퍼파라미터 찾기

### 검증 세트

만일, 테스트 세트를 사용해 일반화 성능을 확인하고자 하려면 테스트 세트를 가능한 한 사용하지 말아야 한다.(성능을 테스트 세트에 맞추게 되기 때문임)

이러면 테스트 세트를 사용하지 않고 모델이 과대적합인지 과소적합인지 판단하기 어렵다.

따라서 훈련 세트, 테스트 세트 외에 검증 세트를 나눠서 성능을 평가하는 것이다.

앞에 공부에서는 20%를 테스트 세트, 80%를 훈련 세트로 만들었는데, 검증 세트는 훈련 세트에서 20%를 때어 내서 만든다.

Q) 테스트 세트와 검증 세트에 얼마나 많은 샘플을 덜어 놔야 할까?
> 보통 20~30%를 테스트 세트와 검증 세트로 때어 놓는다. 하지만 문제에 따라 훈련 데이터가 아주 많으면 단 몇 %만 떼어 놓아도 전체 데이터를 대표하는 문제가 없다.

[훈련 방법] <br>
(1) 훈련 세트와 검증 세트로 테스트하고 싶은 매개변수 테스트<br>
(2) 선택된 매개변수를 사용하여 훈련 세트+검증 세트로 모델 학습<br>
(3) 테스트 세트로 최종 평가<br>

In [3]:
# https://bit.ly/wine_csv_data

import pandas as pd

wine = pd.read_csv("https://bit.ly/wine_csv_data")
wine.describe()

Unnamed: 0,alcohol,sugar,pH,class
count,6497.0,6497.0,6497.0,6497.0
mean,10.491801,5.443235,3.218501,0.753886
std,1.192712,4.757804,0.160787,0.430779
min,8.0,0.6,2.72,0.0
25%,9.5,1.8,3.11,1.0
50%,10.3,3.0,3.21,1.0
75%,11.3,8.1,3.32,1.0
max,14.9,65.8,4.01,1.0


In [4]:
data   = wind[["alcohol", "sugar", "pH"]].to_numpy()
target = wine["class"].to_numpy()

In [5]:
from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = train_test_split(data, target, test_size=0.2, random_state=42)

In [6]:
sub_input, val_input, sub_target, val_target = train_test_split(train_input, train_target, test_size=0.2, random_state=42)

In [8]:
print(sub_input.shape, val_input.shape)

(4157, 3) (1040, 3)


In [9]:
from sklearn.tree import DecisionTreeClassifier

dt = DecisionTreeClassifier(random_state=42)
dt.fit(sub_input, sub_target)
print(dt.score(sub_input, sub_target))
print(dt.score(val_input, val_target))

0.9971133028626413
0.864423076923077


### 교차 검증

검증 세트는 훈련 세트에서 때어 내기 때문에 훈련 세트의 샘플이 줄어든다.<br>

보통 모델은 학습 데이터가 많을 수록 좋은 모델이 된다. <br>

이럴 때 교차 검증(cross validation)을 이용하면 안정적인 검증 점수를 얻고 훈련에 더 많은 데이터를 사용할 수 있다.<br>

교차 검증은 검증 세트를 떼어 내어 평가하는 과정을 여러번 반복한다. 그 다음 이 점수들을 평균하여 최종 점수를 얻는다. <br>

이때 사용하는 방법으로 n-폴드 교차 검증을 사용한다.<br>

n-폴드 교차 검증(K-FOLD 교차 검증)은 훈련 세트를 n개로 나눠서 교차 검증을 수행한다. <br>
이때 n은 훈련 세트에서 나눈 수이며, 이 n 중 한 세트를 폴드라 한다. <br>
다시 말해, 전체 폴드를 한번 씩 돌아가며 검증 하고, 각 폴드의 점수를 평균한 것이 검증 점수가 된다.<br>

주로 5-폴드 교차 검증이나 10-폴드 교차 검증을 많이 사용한다.

In [13]:
# 사이킷런 교차 검증 함수
# 기본 5-폴드 교차 검증(5-Fold 교차 검증)

from sklearn.model_selection import cross_validate

scores = cross_validate(dt, train_input, train_target)
print(scores) # fit_time: train time, score_time: validation time, test_score: scores

{'fit_time': array([0.01101065, 0.0075326 , 0.00755906, 0.0078299 , 0.00641942]), 'score_time': array([0.00120282, 0.00064826, 0.00081277, 0.00103688, 0.00079727]), 'test_score': array([0.86923077, 0.84615385, 0.87680462, 0.84889317, 0.83541867])}


In [16]:
import numpy as np

# 5개의 교차 검증 최종 점수가 있다. 이는 test_score 이긴 하지만 검증 폴드의 점수이다. * 주의
print(np.mean(scores["test_score"]))

0.855300214703487


In [17]:
"""
  * 주의  
    cross_validate는 훈련 세트를 섞어 폴드를 나누지 않음
    앞서 train_test_split은 전체 데이터를 섞은 후 훈련 세트를 준비했기 때문에 따로 섞을 필요가 없었다.
    그러나 교차 검증 함수를 사용해서 검증을 하려면 분할기(splitter)를 지정해야한다.

    사이킷런의 분할기는 교차 검증에서 폴드를 어떻게 나눌지 결정해 준다.
    cross_validate() 함수는 기본적으로 회귀 모델일 경우 KFold 분할기를 사용하고, 
    분류 모델일 경우 타킷 클래스를 골고루 나누기 위해 StratifiedKFold를 사용한다.
"""

from sklearn.model_selection import StratifiedKFold

scores = cross_validate(dt, train_input, train_target, cv=StratifiedKFold())
print(np.mean(scores["test_score"]))

0.855300214703487


In [19]:
# 10-폴드 교차 검증 수행

splitter = StratifiedKFold(n_splits=10, shuffle=True, random_state=42)
scores   = cross_validate(dt, train_input, train_target, cv=splitter)
print(np.mean(scores["test_score"]))


0.8574181117533719


### 하이퍼파라미터 튜닝

머신러닝 모델이 학습하는 파라미터를 모델 파라미터라고 부르고, 사용자가 직정 지정해야만 하는 파라미터를 하이퍼파라미터라고 한다.

하이퍼파라미터는 적게는 2 ~ 3개 많게는 5 ~ 6개 이상이 있다. 그러나 각 하이퍼파라미터는 독립적인게 아니라 종속적이다.

따라서 하나의 하이퍼파라미터에 따라 모델의 학습 결과가 달라질 수 있다.

이를 편리하게 도와주는 사이킷런의 함수로 <strong>그리드서치</strong>가 있다. 이는 최적의 하이퍼파라미터 조합을 찾아준다.

In [20]:
from sklearn.model_selection import GridSearchCV

params = {"min_impurity_decrease": [0.0001, 0.0002, 0.0003, 0.0004, 0.0005]}

In [22]:
gs     = GridSearchCV(DecisionTreeClassifier(random_state=42), params, n_jobs=1) # n_jobs : CPU 수 설정 (기본 : 1) / 기본 5-Fold

In [23]:
gs.fit(train_input, train_target)

In [24]:
dt = gs.best_estimator_
print(dt.score(train_input, train_target))

0.9615162593804117


In [27]:
gs.score(train_input, train_target)

0.9615162593804117

In [28]:
print(gs.best_estimator_)

DecisionTreeClassifier(min_impurity_decrease=0.0001, random_state=42)


In [30]:
# 교차 검증의 평균 점수 확인

print(gs.cv_results_["mean_test_score"])

[0.86819297 0.86453617 0.86492226 0.86780891 0.86761605]


In [31]:
best_index = np.argmax(gs.cv_results_["mean_test_score"])
print(gs.cv_results_["params"][best_index])

{'min_impurity_decrease': 0.0001}


 ** 과정 정리

  (1) 먼저 탐색할 매개변수 지정 <br>
  (2) 훈련 세트에서 그리드 서치를 수행하여 최상의 평균 검증 점수가 나오는 매개변수 조합 찾기 (이 조합을 그리드 서치 객체에 저장) <br>
  (3) 그리드 서치는 최상의 매개변수에서 (교차검증에 사용한 훈련 세트 X) 전체 훈련 세트를 사용해 최종 모델을 훈련 (객체에 저장)

In [32]:
params = {"min_impurity_decrease": np.arange(0.0001, 0.001, 0.0001),
          "max_depth" : range(5, 20, 1),
          "min_samples_split": range(2, 100, 10)
         } # 교차검증 횟수: 9 * 15 * 10 =  1,350 번 -> 5-Fold : 6,750

In [35]:
gs = GridSearchCV(DecisionTreeClassifier(random_state=42), params, n_jobs=-1) # 모든 CPU 사용
gs.fit(train_input, train_target)

In [36]:
print(gs.best_params_)

{'max_depth': 14, 'min_impurity_decrease': 0.0004, 'min_samples_split': 12}


In [37]:
print(np.max(gs.cv_results_["mean_test_score"]))

0.8683865773302731


#### 랜덤 서치

매개변수의 값이 수치일 때 값의 범위나 간격을 정하기 어렵다. 또 너무 많은 매개변수 조건이 있어 그리드 서치 수행 시간이 오래 걸릴 수 있따. 이럴 때 <strong>랜덤 서치</strong>를 사용하면 좋다.

랜덤 서치에는 매개변수 값의 목록을 전달하는 것이 아니라 매개변수를 샘플링할 수 있는 확률 분포 객체를 전달한다.

In [41]:
"""
  - uniform 은 범위 내에서 실수를 샘플링 함
  - randint 은 범위 내에서 정수를 샘플링 함
"""

from scipy.stats import uniform, randint

In [43]:
rgen = randint(0, 10)
rgen.rvs(10)

array([5, 0, 3, 5, 0, 1, 8, 7, 5, 1])

In [44]:
np.unique(rgen.rvs(1000), return_counts=True)

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]),
 array([ 93,  97,  94,  99,  84, 106, 111, 123,  88, 105]))

In [45]:
ugen = uniform(0, 1)
ugen.rvs(10)

array([0.15513935, 0.41581693, 0.56855611, 0.02739871, 0.91356774,
       0.67285227, 0.46750645, 0.63879325, 0.28218016, 0.03019367])

In [46]:
params = {"min_impurity_decrease": uniform(0.0001, 0.001),
          "max_depth": randint(20, 50),
          "min_samples_split": randint(2, 25),
          "min_samples_leaf": randint(1, 25),
         }

In [47]:
from sklearn.model_selection import RandomizedSearchCV

gs = RandomizedSearchCV(DecisionTreeClassifier(random_state=42), params,
                        n_iter=100, n_jobs=-1, random_state=42)
gs.fit(train_input, train_target)

In [48]:
print(gs.best_params_)

{'max_depth': 39, 'min_impurity_decrease': 0.00034102546602601173, 'min_samples_leaf': 7, 'min_samples_split': 13}


In [49]:
print(np.max(gs.cv_results_["mean_test_score"]))

0.8695428296438884


In [51]:
dt = gs.best_estimator_
print(dt.score(test_input, test_target))

0.86


In [56]:
# Q) 연습문제 3

gs = RandomizedSearchCV(DecisionTreeClassifier(splitter="random", random_state=42), 
                        params,
                        n_iter=100, 
                        n_jobs=-1, 
                        random_state=42
                       )

gs.fit(train_input, train_target)
print(np.max(gs.cv_results_["mean_test_score"]))
print(gs.score(test_input, test_target))

AttributeError: 'RandomizedSearchCV' object has no attribute 'cs_results_'