# [ Grid Search ]
- 사이킷런의 GridSearchCV는 하이퍼 파라미터를 순차적으로 입력하면서 편리하게 최적의 파라미터를 도출할 수 있게 해준다. GridSearchCV라는 이름에서 알 수 있듯이, 교차 검증을 기반으로 하이퍼 파라미터의 최적 값을 찾게 해준다. 

  - 하이퍼 파라미터(Hyper Parameter) : 머신러닝 알고리즘의 주요 구성 요소. 이 값을 조정해서 알고리즘 예측 성능을 개선할 수 있다.
  - Grid는 격자라는 뜻으로, 촘촘하게 파라미터를 입력하면서 테스트를 하는 방식이다.
  - 학습 데이터를 GridSearchCV를 이용해 최적 하이퍼 파라미터 튜닝을 수행한 후, 별도의 테스트 데이터로 이를 평가하는 것이 일반적인 머신러닝 모델 적용 방법
  
- ex) Decision Tree 알고리즘의 여러 하이퍼 파라미터를 순차적으로 변경하면서 최고 성능을 가지는 파라미터 조합을 찾고자 한다면?
  -> 파라미터 집합 만들고, 이를 순차적으로 적용하면서 최적화 수행

In [5]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV, train_test_split

import pandas as pd

In [8]:
# 내장된 iris data 이용
iris_data = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, 
                                                    test_size=0.2, random_state=156)

dtree = DecisionTreeClassifier()

# 파라미터를 딕셔너리 형태(key + 리스트)로 설정 
parameters = {"max_depth":[1,2,3], "min_samples_split": [2,3]}

# param_grid의 하이퍼 파라미터를 3개의 train/test set fold로 나누어 테스트 수행 설정
gs = GridSearchCV(dtree, param_grid = parameters, cv=3)
gs.fit(X_train, y_train)

print("GridSearchCV 최적 파라미터 : ", gs.best_params_)
print("GridSearchCV 최고 정확도 : ", gs.best_score_)


GridSearchCV 최적 파라미터 :  {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV 최고 정확도 :  0.9166666666666666


In [None]:
# GridSearchCV 결과를 추출해 DataFrame으로 변환
df = pd.DataFrame(gs.cv_results_)
df[["params", "mean_test_score"]]

---

References
- 파이썬 머신러닝 완벽 가이드 111p