### GridSearchCV 

#### : 교차 검증과 최적 하이퍼 파라미터 튜닝을 한 번에

In [17]:
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import accuracy_score
import pandas as pd

In [18]:
# 회귀 모델 -> 오차를 최소화하는 W, b 찾기
#              ( W: 가중치, b: 절편 )

In [19]:
# 데이터를 로딩하고 학습 데이터와 텍스트 데이터 분리하기
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=121)

In [20]:
# 파라미터를 딕셔너리 형태로 설정하기
grid_parameters = {'max_depth':[1,2,3], 'min_samples_split':[2,3]}

dtree = DecisionTreeClassifier()

# param_grid의 하이퍼 파라미터를 3개의 train, test set fold로 나누어 테스트 수행 설정.
### refit = True가 default 이다. Ture로 설정하면 가장 좋은 파라미터 설정으로 재학습시킨다.
grid_dtree = GridSearchCV(dtree, param_grid=grid_parameters, cv=3, refit=True)

# 붓꽃 학습 데이터로 param_grid의 하이퍼 파라미터를 순차적으로 학습/평가
grid_dtree.fit(X_train, y_train)

In [21]:
# GridSearchCV 최적 파라미터
grid_dtree.best_params_

{'max_depth': 3, 'min_samples_split': 2}

In [22]:
# GridSearchCV 최고 정확도
grid_dtree.best_score_

0.975

In [23]:
# GridSearchCV의 refit으로 이미 학습된 estimator 반환
estimator = grid_dtree.best_estimator_

# GridSearchCV의 best_estimator_는 이미 최적 학습이 되었으므로 별도 학습이 필요 없음.

# 테스트 데이터 세트 정확도
pred = grid_dtree.best_estimator_.predict(X_test)
pred

array([1, 2, 1, 0, 0, 1, 1, 1, 1, 2, 2, 1, 1, 0, 0, 2, 1, 0, 2, 0, 2, 2,
       1, 1, 1, 1, 0, 0, 2, 2])

In [24]:
accuracy_score(y_test, pred)

0.9666666666666667