# 검증 세트

- 테스트 세트를 사용해 모델의 성능을 개선해나가다 보면 점점 테스트 세트에 적합한 모델이 됨
- 테스트 세트를 통해 일반화 성능을 올바르게 예측하기 힘듬

- 따라서 테스트 세트를 사용하지 않고 훈련 세트를 또 다시 나눠 validation set 이용

- 검증 세트 활용
    1. 훈련 세트에서 모델을 훈련하고 검증 세트로 모델을 평가
    2. 테스트 하고 싶은 매개변수를 바꿔가며 가장 좋은 모델을 선택
    3. 최적의 매개변수를 사용해 훈련 세트와 검증 세트를 합쳐 전체 훈련 데이터에서 모델을 다시 훈련
    4. 테스트 세트에서 최종 점수를 평가

In [1]:
import pandas as pd
import numpy as np

In [2]:
from sklearn.model_selection import train_test_split, cross_validate, StratifiedKFold, GridSearchCV, RandomizedSearchCV
from sklearn.tree import DecisionTreeClassifier
from scipy.stats import uniform, randint # RandomizedSearchCV 에 필요

In [3]:
df = pd.read_csv("./data/wine.csv")

In [4]:
df.head()

Unnamed: 0,alcohol,sugar,pH,class
0,9.4,1.9,3.51,0.0
1,9.8,2.6,3.2,0.0
2,9.8,2.3,3.26,0.0
3,9.8,1.9,3.16,0.0
4,9.4,1.9,3.51,0.0


In [5]:
x = df.drop("class", axis = 1)
y = df["class"]

In [6]:
x_train, x_test, y_train, y_test = train_test_split(
    x,
    y,
    test_size = 0.2, 
    stratify = y,
    random_state = 33
)

In [7]:
x_sub, x_val, y_sub, y_val = train_test_split(
    x_train,
    y_train,
    test_size = 0.2, 
    stratify = y_train,
    random_state = 33
)

In [8]:
print(x_train.shape, x_test.shape, y_train.shape)
print(x_sub.shape, x_val.shape, y_sub.shape)

(5197, 3) (1300, 3) (5197,)
(4157, 3) (1040, 3) (4157,)


# 모델 훈련

In [9]:
dt = DecisionTreeClassifier(random_state  =33)
dt.fit(x_sub, y_sub)
print(dt.score(x_sub, y_sub))
print(dt.score(x_val, y_val)) # 검증데이터에 대한 정확도

0.9983160933365408
0.8567307692307692


- 훈련 세트 점수 지나치게 높음
- 검증 세트랑 점수차이 많으니 과대적합 가능성 높음

# 교차 검증

<img src="./image/kfold.png">

- 검증 세트를 만드는 과정에서 훈련 세트가 줄어들었음
- 일반적으로 많은 데이터를 훈련에 사용할 수 록 좋은 모델이 많들어질 가능성이 높음
- 검증 세트를 줄이면 검증 점수가 불안정해져 올바른 모델 검증 힘듦
- 검증 세트 늘리면 훈련 세트가 줄어듬
- 따라서 cross validation 을 이용해서 안정적인 검증 점수를 얻으며너훈련에 더 많은 데이터를 사용할 수 있음

In [10]:
# cross_validate 교차검증 함수
# cross_validate(모델 객체, 훈련 세트 전체 독립변수, 훈련 세트 전체 종속변수)
scores = cross_validate(dt, x_train, y_train)
print(scores)

{'fit_time': array([0.00872397, 0.01008964, 0.00921988, 0.00798988, 0.00971103]), 'score_time': array([0.00227976, 0.00252867, 0.00203991, 0.00220108, 0.00448942]), 'test_score': array([0.87211538, 0.86057692, 0.87969201, 0.85370549, 0.85563041])}


In [11]:
# 검증점수는????
print(np.mean(scores["test_score"]))

0.8643440438291258


- fit_time : 모델 훈련 시간
- score_time : 모델 검증 시간
- test_score : 검증 점수
- 교차 검증의 최종 점수 : test_score 점수의 평균

#### 주의할 점

- cross_validate 는 훈련 세트를 섞지 않음
    - 지금의 예제에서는 train_test_split 으로 전체 데이터를 섞었기 때문에 따로 섞을 필요는 없음
    - 교차 검증시에 훈련 세트를 섞어야 한다면 splitter(분할기)를 지정
- 분할기
- 교차 검증에서 폴드를 어떻게 나눌지 결정함
- cross_validate 함수는 기본적으로 회귀모델일 경우 KFold 를 사용하고, 분류 모델일 경우 범주를 골고루 나누기 위해 StratifiedKFold 를 사용

In [12]:
# stratifiedKFold 10-폴드 교차 검증
splitter = StratifiedKFold(n_splits = 10, shuffle = True, random_state = 33)
scores = cross_validate(dt, x_train, y_train, cv = splitter)

print(np.mean(scores["test_score"]))

0.8718511931228695


In [13]:
scores["test_score"]

array([0.88269231, 0.85384615, 0.85769231, 0.88461538, 0.88461538,
       0.88269231, 0.84615385, 0.89210019, 0.87090559, 0.86319846])

# 그리드 서치

- 머신러닝 모델이 학습하는 파라미터 : 모델 파라미터

- 모델이 학습할 수 없어서 사용자가 지정해야만 하는 파라미터 : 하이퍼파라미터

- 튜닝 순서
    1. 기본값으로 모델 훈련
    2. 검증 세트의 점수나 교차 검증을 통해 매개변수 수정
        -  1 ~ 2개 , 5 ~ 6 정도 제공
- 하이퍼파라미터 튜닝을 할 때에는 여러 매개변수의 최적값을 동시에 찾아야 함
    - 예) A 매개변수의 최적값을 찾았다고 하더라도 B매개변수의 값이 바뀌면  A매개변수의 최적값이 바뀜
    - 매개변수가 많아질수록 최적값을 찾는 과정이 복잡해짐

- 위의 문제 해결을 위해 GridSearch 사용
- 하이퍼 파라미터 탐색과 교차 검증을 한 번에 수행

In [14]:
params = {
    "min_impurity_decrease" : [0.0001, 0.0002, 0.0003, 0.0004, 0.0005]
}

In [15]:
gs = GridSearchCV(DecisionTreeClassifier(random_state = 33),params)

- 그리드 서치는 입력된 모델의 파라미터 값을 바꿔가면서 훈련을 실행
    - 현재 예제에서는 min_impurity_decrease 를 바꿔가면서 5회 훈련을 실행함

- GridSearCV 의 cv매개변수의 기본값은 5

- 따라서 5회 교차 검증 5회 훈련 = 25회 모델을 훈련

In [16]:
gs.fit(x_train,y_train)

- 그리드 서치는 훈련이 끝나면 **검증 점수 가장 높은**
- 해당 모델은 best_estimator_ 속성에 저장

# 최고 점수는 ?? best_estimator_

In [17]:
dt = gs.best_estimator_
print(dt.score(x_train, y_train))

0.9649797960361747


# 최고의 매개변수는?? best_params_

In [18]:
gs.best_params_

{'min_impurity_decrease': 0.0001}

# 교차검증 평균점수 **cv_results_** mean_test_score 키에 저장됨!!!!!

In [19]:
gs.cv_results_

{'mean_fit_time': array([0.00734048, 0.00543923, 0.00526309, 0.00504942, 0.00501437]),
 'std_fit_time': array([0.0017136 , 0.00079471, 0.00076052, 0.001314  , 0.00091454]),
 'mean_score_time': array([0.00175595, 0.00162134, 0.00148573, 0.00151596, 0.00162263]),
 'std_score_time': array([0.00024987, 0.00024741, 0.00011175, 0.00025288, 0.00031868]),
 'param_min_impurity_decrease': masked_array(data=[0.0001, 0.0002, 0.0003, 0.0004, 0.0005],
              mask=[False, False, False, False, False],
        fill_value=1e+20),
 'params': [{'min_impurity_decrease': 0.0001},
  {'min_impurity_decrease': 0.0002},
  {'min_impurity_decrease': 0.0003},
  {'min_impurity_decrease': 0.0004},
  {'min_impurity_decrease': 0.0005}],
 'split0_test_score': array([0.87115385, 0.87596154, 0.87788462, 0.87692308, 0.87884615]),
 'split1_test_score': array([0.86346154, 0.8625    , 0.86153846, 0.86634615, 0.86442308]),
 'split2_test_score': array([0.88161694, 0.87680462, 0.87776708, 0.86525505, 0.8719923 ]),
 'spli

In [20]:
# 최대값의 index 
best_index = np.argmax(gs.cv_results_["mean_test_score"])

In [21]:
# 다른 방법
gs.cv_results_["params"][best_index]

{'min_impurity_decrease': 0.0001}

# 두 번째 예제(하이퍼파라미터값 추가)

- min_impurity_decrease : 노드를 분할하기 위한 불순도 감소 최소량
- max_depth : 트리의 깊이제한
- min_samples_split : 노드를 나누기 위한 최소 샘플 수

In [22]:
params = {
    "min_impurity_decrease" : np.arange(0.0001,0.001,0.0001), # 총 9개
    "max_depth" : range(5,20), # 총 15개
    "min_samples_split" : range(2,100,10), # 총 10개
}

- 위의 파라미터로 수행할 교차 검증 횟수는 1350회~~~
- 기본 5-폴드 교차 검증을 하기 때문에 1350 * 5 = 6750번의 훈련 수행

In [25]:
gs = GridSearchCV(DecisionTreeClassifier(random_state = 33), params, n_jobs = -1)

In [26]:
gs.fit(x_train, y_train)

In [27]:
# 최상의 매개변수 조합
gs.best_params_

{'max_depth': 14,
 'min_impurity_decrease': np.float64(0.0001),
 'min_samples_split': 2}

In [29]:
# 교차 검증 점수는?
np.max(gs.cv_results_["mean_test_score"])

np.float64(0.8705021470348708)

# 랜덤 서치 

- 매개변수의 값이 수치일 때 값의 범위나 간격을 정하기 어려울 수 있고 너무 많은 매개변수 조건이 있어서 그리드 서치 수행 시간이 오래 걸릴 수 있음

- RandomSearch(랜덤 서치)는 매개변수 값의 목록을 전달하는 것이 아니라 매개변수를 샘플링 할 수 있는 확률 분포 객체를 전달함

- 균등 분포에서 샘플링
    - 주어진 범위에서 고르게 값을 생성
    - randint : 정수
    - uniform : 실수

In [30]:
randint(0,10).rvs(10)

array([7, 6, 1, 2, 6, 3, 1, 5, 6, 2])

In [32]:
uniform(0,1).rvs(10)

array([0.89799649, 0.41882055, 0.86414086, 0.48619726, 0.41111409,
       0.52123732, 0.88046197, 0.72742858, 0.6154859 , 0.50128197])

In [35]:
params = {
    "min_impurity_decrease" : uniform(0.0001, 0.001), # 총 9개
    "max_depth" : randint(5,50), # 총 15개
    "min_samples_split" : randint(2,100), # 총 10개
    "min_samples_leaf" : randint(1,25), # 총 10개
}

In [36]:
rs = RandomizedSearchCV(
    DecisionTreeClassifier(random_state =33), params, n_iter = 100, n_jobs = -1, random_state =33
)
rs.fit(x_train, y_train)

- 위 params 에 정의된 매개변수 범위에서 총 100번 샘플링하여 교차 검증을 수행
- 그리드 서치보다 교차 검증 수를 줄이면서도 넓은 영역을 효과적으로 탐색

In [37]:
print(rs.best_params_)

{'max_depth': 19, 'min_impurity_decrease': np.float64(0.00028565617959514216), 'min_samples_leaf': 13, 'min_samples_split': 11}


In [40]:
np.max(rs.cv_results_["mean_test_score"])

np.float64(0.86973106537351)

In [41]:
print(gs.best_estimator_.score(x_test,y_test))
print(rs.best_estimator_.score(x_test,y_test))

0.8607692307692307
0.8723076923076923
