In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# KNN 모델
from sklearn.neighbors import KNeighborsClassifier
# 결정트리 모델
from sklearn.tree import DecisionTreeClassifier
# 랜덤포레스트 모델
from sklearn.ensemble import RandomForestClassifier

# iris 데이터
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 그리드 서치 임포트
from sklearn.model_selection import GridSearchCV

In [2]:
iris = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris['data'], iris['target'], test_size = 0.3, random_state = 3)

In [3]:
X_train.shape, y_train.shape, X_test.shape, y_test.shape

((105, 4), (105,), (45, 4), (45,))

### KNN 모델에 그리드 서치 적용

In [4]:
param_knn = {'n_neighbors':range(1,10,1)}

# GridSearchCV(모델, 하이퍼파라미터 및 범위, 교차검증 수)
grid_search_knn = GridSearchCV(KNeighborsClassifier(), param_knn, cv=10)

In [6]:
import warnings
warnings.filterwarnings('ignore')

In [7]:
grid_search_knn.fit(X_train, y_train)

GridSearchCV(cv=10, estimator=KNeighborsClassifier(),
             param_grid={'n_neighbors': range(1, 10)})

In [8]:
print("최적의 하이퍼 파라미터 : ", grid_search_knn.best_params_)
print("최고 교차 검증 점수(정확도) : ", grid_search_knn.best_score_)
# 최고 성능 모델은 grid_search_knn 객체에 저장되어 있기 때문에 쓰지 않아도 됨
print("최고 성능 모델 : ", grid_search_knn.best_estimator_)

최적의 하이퍼 파라미터 :  {'n_neighbors': 9}
최고 교차 검증 점수(정확도) :  0.970909090909091
최고 성능 모델 :  KNeighborsClassifier(n_neighbors=9)


0.9777777777777777

### 디시전트리 모델에 그리드 서치 적용
- max_depth 범위 : range(1,5,1)
- max_leaf_nodes 범위 : range(1,50,10)
- min_samples_leaf 범위 : range(1,150,10)

In [13]:
param_deci = {"max_depth":range(1,5,1), "max_leaf_nodes":range(1,50,10), "min_samples_leaf":range(1,150,10)}
grid_search_deci = GridSearchCV(DecisionTreeClassifier(), param_deci, cv=10)

In [14]:
grid_search_deci.fit(X_train, y_train)

GridSearchCV(cv=10, estimator=DecisionTreeClassifier(),
             param_grid={'max_depth': range(1, 5),
                         'max_leaf_nodes': range(1, 50, 10),
                         'min_samples_leaf': range(1, 150, 10)})

In [15]:
print("최적의 하이퍼 파라미터 : ", grid_search_deci.best_params_)
print("최고 교차 검증 점수(정확도) : ", grid_search_deci.best_score_)
# 최고 성능 모델은 grid_search_knn 객체에 저장되어 있기 때문에 쓰지 않아도 됨
print("최고 성능 모델 : ", grid_search_deci.best_estimator_)

최적의 하이퍼 파라미터 :  {'max_depth': 4, 'max_leaf_nodes': 11, 'min_samples_leaf': 1}
최고 교차 검증 점수(정확도) :  0.9427272727272727
최고 성능 모델 :  DecisionTreeClassifier(max_depth=4, max_leaf_nodes=11)


### 랜덤 포레스트 모델에 그리드 서치 적용
- n_estimators : range(1,20,5)

In [16]:
RandomForestClassifier?

In [17]:
n_estimators = {'n_estimators':range(1,20,5)}