#### iris 데이터를 활용하여 그리드서치를 적용해보자!
- GridSearch 기능과 교차검증을 동시에 수행

In [2]:
# 경고 무시
import warnings
warnings.filterwarnings("ignore")

In [3]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
# 그리드 서치 임포트
from sklearn.model_selection import GridSearchCV
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

In [6]:
iris = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris.data,
                                                    iris.target,
                                                    test_size=0.3,
                                                    random_state=10
                                                   )

In [7]:
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

(105, 4)
(45, 4)
(105,)
(45,)


#### KNN모델에 그리드서치 적용

In [10]:
# 파라미터 범위 설정시 딕셔너리 형태로 작성
param_knn = {"n_neighbors" : range(1,10)}

grid_search_knn = GridSearchCV(KNeighborsClassifier(),  # 모델 불러오기
                               param_knn,               # 파라미터 범위 넣기
                               cv=10                    # cv값 설정
                              )

In [11]:
# GridSearchCV에서 fit 명령은 최적의 하이퍼파라미터를 찾는 동시에 교차검증 성능이
# 가장 좋은 하이퍼파라미터로 새로운 모델을 만들어 줌
grid_search_knn.fit(X_train, y_train)

GridSearchCV(cv=10, estimator=KNeighborsClassifier(),
             param_grid={'n_neighbors': range(1, 10)})

In [12]:
print("최적 하이퍼파라미터 값 :", grid_search_knn.best_params_)
print("최고 교차 검증 점수 :", grid_search_knn.best_score_)
print("최고 성능 모델 :", grid_search_knn.best_estimator_)

# 최고성능모델은 어차피 grid_search_knn 변수에 저장이 되어 있기 때문에 굳이
# 사용하지 않아도 무방함

최적 하이퍼파라미터 값 : {'n_neighbors': 3}
최고 교차 검증 점수 : 0.9627272727272727
최고 성능 모델 : KNeighborsClassifier(n_neighbors=3)


In [14]:
# grid search 에는 predict 명령도 사용 가능
grid_search_knn.predict(X_test)

array([1, 2, 0, 1, 0, 1, 2, 1, 0, 1, 1, 2, 1, 0, 0, 2, 1, 0, 0, 0, 2, 2,
       2, 0, 1, 0, 1, 1, 1, 2, 1, 1, 2, 2, 2, 0, 2, 2, 2, 2, 0, 0, 1, 0,
       1])

In [15]:
print("test 세트 점수:", grid_search_knn.score(X_test, y_test))

test 세트 점수: 0.9777777777777777


### 결정 트리 모델에 그리드서치 적용하기!

In [None]:
# max_depth : 1~5
# max_leaf_nodes : 1~50까지 10단위
# min_samples_leaf : 1~150까지 10단위 씩

In [22]:
# 파라미터 범위 설정시 딕셔너리 형태로 작성
param_tree = {"max_depth" : range(1,5), 
              "max_leaf_nodes" : range(1,50,10),
              "min_samples_leaf" : range(1,150,10)
             }

grid_search_tree = GridSearchCV(DecisionTreeClassifier(),
                                param_tree,
                                cv=10
                              )

In [23]:
grid_search_tree.fit(X_train,y_train)

GridSearchCV(cv=10, estimator=DecisionTreeClassifier(),
             param_grid={'max_depth': range(1, 5),
                         'max_leaf_nodes': range(1, 50, 10),
                         'min_samples_leaf': range(1, 150, 10)})

In [24]:
print("최적 하이퍼파라미터 값 :\n", grid_search_tree.best_params_)
print("최고 교차 검증 점수 :", grid_search_tree.best_score_)
print("최고 성능 모델 :", grid_search_tree.best_estimator_)

최적 하이퍼파라미터 값 :
 {'max_depth': 2, 'max_leaf_nodes': 11, 'min_samples_leaf': 1}
최고 교차 검증 점수 : 0.9245454545454546
최고 성능 모델 : DecisionTreeClassifier(max_depth=2, max_leaf_nodes=11)


In [25]:
grid_search_knn.predict(X_test)

array([1, 2, 0, 1, 0, 1, 2, 1, 0, 1, 1, 2, 1, 0, 0, 2, 1, 0, 0, 0, 2, 2,
       2, 0, 1, 0, 1, 1, 1, 2, 1, 1, 2, 2, 2, 0, 2, 2, 2, 2, 0, 0, 1, 0,
       1])

In [26]:
print("test 세트 점수:", grid_search_tree.score(X_test, y_test))

test 세트 점수: 0.9777777777777777
