### sklearn.model_selection
- GridSearchCV

### GridSearchCV

In [None]:
## 총 6회에 걸쳐 하이퍼 파라미터를 순차적으로 바꿔 실행하며 최적의 하이퍼 파라미터와 수행 결과를 도출할 수 있음.
grid_param = {
    'max_depth':[1, 2, 3],
    'min_samples_split':[2, 3]
}

In [None]:
from sklearn.model_selection import GridSearchCV
import pandas as pd

## 데이터 로딩, 학습/테스트 데이터 분리.
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data,
                                                    iris.target,
                                                    test_size=0.2,
                                                    random_state=121)
dtree = DecisionTreeClassifier()

## 파라미터를 딕셔너리 형태로 설정.
grid_param = {
    'max_depth':[1, 2, 3],
    'min_samples_split':[2, 3]
}

## GridSearchCV.
grid_dtree = GridSearchCV(
    dtree,
    param_grid=grid_param,
    cv=3,
    refit=True # 최적의 파라미터로 재학습.
)

## 붓꽃 학습 데이터로 param_grid의 하이퍼 파라미터를 순차적으로 학습/평가.
grid_dtree.fit(X_train, y_train)

## GridSearchCV 결과를 추출하여 DataFrame으로 변환.
scores_df = pd.DataFrame(
    grid_dtree.cv_results_
)
scores_df[
          ['params', 'mean_test_score', 'rank_test_score', 'split0_test_score', 'split1_test_score', 'split2_test_score']
]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


In [None]:
## 최고 성능을 나타낸 하이퍼 파라미터와 그때의 결과 출력.
print('최적의 하이퍼 파라미터:', grid_dtree.best_params_)
print('최고 정확도:', grid_dtree.best_score_)

최적의 하이퍼 파라미터: {'max_depth': 3, 'min_samples_split': 2}
최고 정확도: 0.975


In [None]:
## 테스트 세트에 대해 예측 및 성능 평가.
estimator = grid_dtree.best_estimator_

pred = estimator.predict(X_test)
print('테스트 데이터 세트의 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

테스트 데이터 세트의 정확도: 0.9667
