# 교차 검증과 그리드 서치

- Test Set에 지나치게 최적화가 되면 어떻게 해야하나? 에서 출발한 방법
- test set이 아니라 new data가 들어와버리면 달라질 수가 있다.

## 검증세트

- 훈련/검증/test 셋으로 삼분화를 한다
- 훈련, 검증 세트로 열심히 학습시킨다
- test 세트로 최종 판결 땅땅

In [35]:
import pandas as pd

wine = pd.read_csv('https://bit.ly/wine_csv_data')
wine.head()

Unnamed: 0,alcohol,sugar,pH,class
0,9.4,1.9,3.51,0.0
1,9.8,2.6,3.2,0.0
2,9.8,2.3,3.26,0.0
3,9.8,1.9,3.16,0.0
4,9.4,1.9,3.51,0.0


In [36]:
data = wine[['alcohol', 'sugar', 'pH']]
target = wine[['class']]

In [37]:
from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = \
train_test_split(data, target)

In [38]:
sub_input, val_input, sub_target, val_target = \
train_test_split(train_input, train_target)

In [39]:
test_input.shape

(1625, 3)

In [47]:
from sklearn.tree import DecisionTreeClassifier

dt = DecisionTreeClassifier()
dt.fit(sub_input, sub_target)
print(dt.score(sub_input, sub_target))
print(dt.score(val_input, val_target))

0.9980842911877394
0.8399014778325123


In [48]:
dt.score(test_input, test_target)

0.8516923076923076

## 교차 검증

- 검증 세트를 나눠 둔 세트의 모든 경우의 수로 검증해보는 것
- sklearn에 함수 구현이 되어 있습니다.

In [49]:
from sklearn.model_selection import cross_validate

scores = cross_validate(dt, train_input, train_target)

In [50]:
print(scores)

{'fit_time': array([0.01139832, 0.00954652, 0.00725126, 0.0066092 , 0.00686479]), 'score_time': array([0.00439453, 0.00296903, 0.00223851, 0.00244308, 0.00221348]), 'test_score': array([0.85128205, 0.85641026, 0.85318275, 0.84702259, 0.84188912])}


```cross_validate``` 는 기본값 5폴드(데이터의 1/5 사용) n_splits= 를 통해 바꿔줄 수 있습니다.

## 그리드 서치

In [77]:
from sklearn.model_selection import GridSearchCV

params = {
    'min_impurity_decrease' : [0.001, 0.0002, 0.0003, 0.0004]
}

In [78]:
gs = GridSearchCV(dt, params, n_jobs=-1)

In [79]:
gs.fit(train_input, train_target)

In [80]:
gs.best_estimator_