# 05-2 교차 검증과 그리드 서치
##### 검증 세트가 필요한 이유를 이해하고 교차 검즈에 대해 배웁니다. 그리드 서치와 랜덤 서치를 이용해 최적 성능을 내는 하이퍼파라미터를 찾습니다.

### 검증 세트
- 테스트 세트를 사용하지 않고 과적합을 판단하기 위한 방법은 데이터를 한 번 더 나누는 것
- 이를 검증 세트(validation set)이라고 부름
- 훈련 세트에서 20%를 뗴어 내어 검증 세트로 만듬 (보통 20~30%를 테스트 세트와 검증 세트로 떼어놓음. 하지만 훈련 데이터가 아주 많다면 단 몇 %만 떼어 놓아도 전체 데이터를 대표하는 데 문제가 없음

- 훈련 세트에서 모델을 훈련하고 검증 세트로 모델을 평가
- 테스트 하고 싶은 매개변수를 바꿔가며 가장 좋은 모델을 고름
- 매개변수를 사용해 훈련 세트와 검증 세트를 합쳐 전체 훈련 데이터에서 모델을 다시 훈련
- 마지막에 테스트 세트에서 최종 점수를 평가

In [2]:
import pandas as pd
wine = pd.read_csv('https://bit.ly/wine_csv_data')

- class 열을 타깃으로 사용하고 나머지 열은 특성 배열에 저장

In [3]:
data = wine[['alcohol', 'sugar', 'pH']].to_numpy()
target = wine['class'].to_numpy()

- 훈련 세트와 테스트 세트를 나눌 차례 (방식은 이전과 동일)
- 훈련 세트의 입력 데이터와 타깃 데이터를 train_input과 train_target 배열에 저장

In [4]:
from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = train_test_split(data, target, test_size=0.2, random_state=42)

- train_input, train_target을 다시 train_test_split() 함수에 넣어 훈련 세트 sub_input, sub_target과 검증 세트 val_input, val_target을 만들어보자
- 여기서도 test_size 매개변수를 0.2로 지정

In [5]:
sub_input, val_input, sub_target, val_target = train_test_split(train_input, train_target, test_size=0.2, random_state=42)

- 훈련 세트와 검증 세트의 크기 확인

In [6]:
print(sub_input.shape, val_input.shape)

(4157, 3) (1040, 3)


- sub_input, sub_target과 val_input, val_target을 사용해 모델을 만들고 평가

In [7]:
from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier(random_state=42)
dt.fit(sub_input, sub_target)
print(dt.score(sub_input, sub_target))
print(dt.score(val_input, val_target))

0.9971133028626413
0.864423076923077


- 모델은 훈련 세트에 과대적합되어 있음
- 매개변수를 바꿔서 더 좋은 모델을 찾아야 함

### 교차 검증
- 안정적인 검증 점수를 얻고 훈련에 더 많은 데이터를 사용 가능함
- 검증 세트를 떼어 내어 평가하는 과정을 여러 번 반복하는 것, 이후 점수를 평균하여 최종 검증 점수를 얻음
- 보통 5-폴드 교차 검증, 10-폴드 교차 검증을 많이 사용
- 각 폴드에서 계산한 검증 점수를 평균하기 때문에 안정된 점수로 생각할 수 있음

- 사이킷런에는 cross_validate()라는 교차 검증 함수가 있음 (cross_val_score() 함수도 있음. test_score 값만 반환)

In [8]:
from sklearn.model_selection import cross_validate
scores = cross_validate(dt, train_input, train_target)
print(scores)

{'fit_time': array([0.0098331 , 0.00942492, 0.00767112, 0.0068872 , 0.00590014]), 'score_time': array([0.00123286, 0.00192618, 0.00090194, 0.00079083, 0.00103974]), 'test_score': array([0.86923077, 0.84615385, 0.87680462, 0.84889317, 0.83541867])}


- 위 함수는 fit_time, score_time, test_score 키를 가진 딕셔너리를 반환
- 처음 2개의 키는 각각 모델을 훈련하는 시간과 검증하는 시간을 의미
- 각 키마다 5개의 숫자가 담겨 있습니다.
  - cross_validate() 함수는 기본적으로 5-폴드 교차 검증을 수행
  - cv 매개변수에서 폴드 수를 바꿀 수도 있음
- 훈련과 검증 시간은 코랩에서 리소스를 사용하는 상황에 따라 달라질 수 있으므로 fit_time과 score_time 세트는 출력 결과가 책과 다를 수 있음
- 교차 검증의 최종 점수는 test_score 키에 담긴 5개의 점수를 평균하여 얻을 수 있음
- 이름은 test_score지만 검증 폴드의 점수이니 혼동하지 말 것

In [10]:
import numpy as np
print(np.mean(scores['test_score']))

0.855300214703487


- 교차 검증으로 입력 모델에서 얻을 수 있는 최상의 검증 점수를 가늠해볼 수 있음
- 주의할 점
  - cross_validate()는 훈련 세트를 섞어 폴드를 나누지 않음
  - 앞서 train_test_split() 함수로 전체 데이터를 섞은 후 훈련 세트를 준비했기 때문에 따로 섞을 필요가 없음
  - 하지만 교차 검증을 할 때 훈련 세트를 섞으려면 분할기(splitter)를 지정해야 함

- 사이킷런 분할기
  - 교차 검증에서 폴드를 어떻게 나눌지 결정해줌
  - cross_valicate()함수
    - 회귀 모델일 경우 KFlod 분할기를 사용
    - 분류 모델일 경우 StratifiedKFlod 사용 (타깃 클래스를 골고루 나누기 위함

- 앞서 수행항 교차 검증

In [11]:
from sklearn.model_selection import StratifiedKFold
scores = cross_validate(dt, train_input, train_target, cv=StratifiedKFold())
print(np.mean(scores['test_score']))

0.855300214703487


- 훈련 세트를 섞은 후 10-폴드 교차 검증을 수행하려면 다음과 같이 작성

In [12]:
splitter = StratifiedKFold(n_splits=10, shuffle=True, random_state=42)
scores = cross_validate(dt, train_input, train_target, cv=splitter)
print(np.mean(scores['test_score']))

0.8574181117533719


- KFold 클래스도 동일한 방식으로 사용
- 이어서 결정 트리의 매개변수 값을 바꿔가며 가장 좋은 성능이 나오는 모델을 찾아봅니다.
- 테스트 세트를 사용하지 않고 교차 검증을 통해서 좋은 모델을 골라보자

### 하이퍼파라미터 튜닝
- 모델 파라미터 : 머신러닝이 학습하는 파라미터
- 하이퍼 파라미터 : 사용자가 지정해주는 파라미터
- 사이킷런에서는 모두 클래스나 메서드의 매개변수로 표현됨

- 라이브러리가 제공하는 기본값을 그대로 사용해 모델을 훈련
- 검증 세트의 점수나 교차 검증을 통해 매개변수를 조금 바꿔봄 -> 모델마다 적게는 1~2개, 많게는 5~6개의 매개변수를 제공. 매개변수를 바꿔가며 모델 훈련 및 교차 검증 수행
- AutoML : 사람 개입 없는 하이퍼파라미터튜닝하는 기술

- max_depth값, min_samples_split 매개변수를 동시에 바꿔야 최적값을 찾을 수 있음
- 매개변수가 많아지면 문제는 더 복잡해짐
- 이런 문제를 해결하기 위해 사이킷런에서는 그리드 서치(Grid Search)를 사용함

- GridSearchCV는 하이퍼파라미터 탐색과 교차 검증을 한 번에 수행하므로 별도의 cross_validate() 함수를 호출할 필요 없음
- 매개변수를 사용한 결정 트리 모델에서 min_impurity_decrease 매개변수의 최적값을 찾아보자
  - GridSearchCV 클래스를 임포트하고 탐색할 매개변수와 탐색할 값의 리스트를 딕셔너리로 만듬

In [13]:
from sklearn.model_selection import GridSearchCV

# 0.0001~0.0005까지 0.0001씩 증가하는 5개의 값을 시도
params = {'min_impurity_decrease': [0.0001, 0.0002, 0.0003, 0.0004, 0.0005]}

# GridSearchCV 클래스에 탐색 대상 모델과 params 변수를 전달하여 그리드 서치 객체를 만들어보자
gs = GridSearchCV(DecisionTreeClassifier(random_state=42), params, n_jobs=-1)

- 이 다음 일반 모델을 훈련하는 것처럼 gs 객체에 fit() 메서드를 호출
- 이 메서드를 호출하면 그리드 서치 객체는 결정 트리 모델 min_impurity_decrease 값을 바꿔가며 총 5번 실행

- GridSearchCV의 cv 매개변수 기본값은 5입니다.
- min_impurity_decrease 값마다 5-폴드 교차 검증을 수행
- 결국 5 X 5 = 25개의 모델을 훈련!
- 많은 모델을 훈련하기 때문에 GridSearchCV 클래스의 n_jobs 매개변수에서 병렬 실행에 사용할 CPU 코어 수를 지정하는 것이 좋음.
- 이 매개변수의 기본값은 1. -1로 지정하면 시스템에 있는 모든 코어를 사용함
- 그리드 서치 수행해보자

In [14]:
gs.fit(train_input, train_target)

- 교차 검증에서 최적 하이퍼파라미터를 찾으면 전체 훈련 세트로 모델을 다시 만들어야 함
- 사이킷런의 그리드 서치는 훈련이 끝나면 25개 모델 중 검증 점수가 가장 높은 모델의 매개변수 조합으로 전체 훈련 세트에서 자동으로 다시 모델을 훈련
- 이 모델은 gs 객체의 best_estimator_ 속성에 저장되어 있음
- 이 모델을 일반 결정 트리처럼 똑같이 사용

In [15]:
dt = gs.best_estimator_
print(dt.score(train_input, train_target))

0.9615162593804117


- 그리드 서치로 찾은 최적 매개변수는 best_params_ 속성에 저장되어 있음

In [16]:
print(gs.best_params_)

{'min_impurity_decrease': 0.0001}


- 여기서는 0.0001이 가장 좋은 값으로 선택됨
- 각 매개변수에서 수행한 교차 검증의 평균 점수는 cv_result_ 속성의 'mean_test_score' 키에 저장되어 있음

In [17]:
print(gs.cv_results_['mean_test_score'])

[0.86819297 0.86453617 0.86492226 0.86780891 0.86761605]


- 첫 번째 값이 가장 큰 것을 확인
- 넘파이 argmax() 함수 사용하면 큰 값의 인덱스 추출 가능

In [18]:
best_index = np.argmax(gs.cv_results_['mean_test_score'])
print(gs.cv_results_['params'][best_index])

{'min_impurity_decrease': 0.0001}


- 과정을 정리하면 아래와 같음
  1. 탐색할 매개변수를 지정
  2. 훈련 세트에서 그리드 서치를 수행하여 최상의 평균 검증 점수가 나오는 매개변수 조합을 찾음
  3. 그리드 서치는 최상의 매개변수에서 (교차 검증에 사용한 훈련 세트가 아니라) 전체 훈련 세트를 사용해 최종 모델을 훈련 (이 모델도 그리드 서치 객체에 저장)

- 조금 더 복잡한 매개변수 조합을 탐색해보자
  - min_impurity_decrease는 노드를 분할하기 위한 불순도 최소 감소량을 지정
  - max_depth로 트리 깊이를 제한하고 min_samples_split으로 노드를 나누기 위한 최소 샘플 수도 골라보자

In [20]:
params = {'min_impurity_decrease': np.arange(0.0001, 0.001, 0.0001), 
          'max_depth': range(5, 20, 1),
          'min_samples_split': range(2, 100, 10)
         }

- 넘파이 arange() 함수는 첫 번째 매개변수 값에서 시작하여 두 번째 매개변수 값에 도달할 때까지 세 번쨰 매개변수 값을 더 하는 배열을 만듦
- 파이썬 range() 함수도 5에서 20까지 1씩 증가하는 값을 만듦 (정수만 사용 가능)

- 이 매개변수로 수행할 교차 검증 횟수는  9 X 15 X 10 = 1,350개
- 기본 5-폴드 교차 검증을 수행하므로 만들어지는 모델의 수는 6,750개. n_jobs = -1로 설정하고 그리드 서치 실행

In [21]:
gs = GridSearchCV(DecisionTreeClassifier(random_state=42), params, n_jobs=-1)
gs.fit(train_input, train_target)

In [22]:
# 최상의 매개변수 조합을 확인
print(gs.best_params_)

{'max_depth': 14, 'min_impurity_decrease': 0.0004, 'min_samples_split': 12}


- GridSearchCV 클래스를 사용하니 매개변수를 일일이 바꿔가며 교차 검증을 수행하지 않고 원하는 매개변수 값을 나열하면 자동으로 교차 검증을 수행해서 최상의 매개변수를 찾을 수 있음
- 앞에서 매개변수 간격을 0.0001 혹은 1로 설정했는데 이렇게 간격을 둔 것에 특별한 근거가 없음
- 랜덤서치를 통해 이 문제를 해결해보자

### 랜덤 서치
- 매개변수 값이 수치일 때 값의 범위나 간격을 미리 정하기 어려울 수 있음
- 이럴때 랜덤 서치(Random Search)를 사용하면 좋음
- 랜덤 서치는 매개변수 값의 목록을 전달하는 것이 아니라 매개변수를 샘플링할 수 있는 확률 분포 객체를 전달
- 싸이파이(파이썬 과학 라이브러리)에서 2개의 확률 분포 클래스를 임포트해보자

In [23]:
from scipy.stats import uniform, randint

- 싸이파이 stats 서브 패키지에 있는 uniform, randint 클래스는 모두 주어진 범위에서 고르게 값을 추출함
- 이를 균등 분포에서 샘플링한다라고 말함
- randint는 정수값 추출, uniform은 실수값 추출
- 0~10 사이에 randint 객체를 만들고 10개의 숫자 샘플링해보자

In [24]:
rgen = randint(0, 10)
rgen.rvs(10)

array([1, 1, 7, 9, 3, 8, 6, 9, 6, 5])

- 1,000개를 샘플링해서 각 숫자 갯수를 세어보자

In [25]:
np.unique(rgen.rvs(1000), return_counts=True)

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]),
 array([108, 100, 106, 106,  92,  95, 106,  89, 103,  95]))

- uniform 클래스 사용법도 동일

In [26]:
ugen = uniform(0, 1)
ugen.rvs(10)

array([0.79960696, 0.63368706, 0.81379196, 0.89879078, 0.93662757,
       0.0671842 , 0.66265009, 0.51129775, 0.91718709, 0.40094237])

- 랜덤 서치에 randint, uniform 클래스 객체를 넘겨주고 샘플링하여 최적 매개변수를 찾음
- 샘플링 횟수는 시스템 자원이 허락하는 범위 내에서 최대한 크게
- 이제 탐색할 매개변수의 딕셔너리를 만들어보자
  - min_samples_leaf 매개변수를 탐색 대상에 추가
  - 이 매개변수는 리프 노드가 되기 위한 최소 샘플의 개수
  - 어떤 노드가 분할하여 만들어질 자식 노드의 샘플 수가 이 값보다 작을 경우 분할하지 않음

In [27]:
params = {'min_impurity_decrease': uniform(0.0001, 0.001), 
          'max_depth': randint(20, 50),
          'min_samples_split': randint(2, 25),
          'min_samples_leaf': randint(1, 25)
         }

- 샘플링 횟수는 사이킷런의 랜덤 서치 클래스인 `RandomizedSearchCV`의 `n_iter` 매개변수 지정

In [28]:
from sklearn.model_selection import RandomizedSearchCV
gs = RandomizedSearchCV(DecisionTreeClassifier(random_state=42), params, n_iter=100, n_jobs=1, random_state=42)
gs.fit(train_input, train_target)

- 총 100번(n_iter 매개변수)를 샘플링하여 교차 검증을 수행하고 최적의 매개변수 조합을 찾음
- 앞서 그리드 서치보다 훨씬 교차 검증 수를 줄이면서 넓은 영역을 효과적으로 탐색할 수 있음
- 아래는 최적의 매개변수 조합을 출력

In [29]:
print(gs.best_params_)

{'max_depth': 39, 'min_impurity_decrease': 0.00034102546602601173, 'min_samples_leaf': 7, 'min_samples_split': 13}


In [30]:
# 최고의 교차 검증 점수 확인
print(np.max(gs.cv_results_['mean_test_score']))

0.8695428296438884


- 최적 모델은 이미 전체 훈련 세트(train_input, train_target)로 훈련되어 best_estimator_ 속성에 저장되어 있습니다.
- 이 모델을 최종 모델로 결정하고 테스트 세트 성능을 확인해보자

In [31]:
dt = gs.best_estimator_
print(dt.score(test_input, test_target))

0.86


- 테스트 세트 점수는 검증 세트에 대한 점수보다 조금 작은 것이 일반적