#### iris 데이터를 활용하여 그리드서치를 적용해보자!

#### 데이터 로드 및 분리

In [3]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
# 그리드 서치
from sklearn.model_selection import GridSearchCV

# iris 데이터
from sklearn.datasets import load_iris

In [4]:
# irsi 데이터 로드
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris['data'],
                                                   iris['target'],
                                                   test_size=0.3,
                                                   random_state = 8)
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

(105, 4)
(45, 4)
(105,)
(45,)


#### KNN 모델에 그리드 서치 적용

In [6]:
param_knn = {'n_neighbors' :  range(1,50,1)}
# 딕셔너리 형태
# key 값에는 하이퍼 파리미터명 value값은 찾고자 하는 값의 범위

# GridSearchCV
grid_search_knn = GridSearchCV(KNeighborsClassifier(), # knn 모델이서 하겠다
                               param_knn, # 찾고자하는 하이퍼 파라미터와, 범위를 입력
                               cv = 10
                              )
grid_search_knn.fit(X_train, y_train) #최고 성능 모델 변수에 저장

- GridSearchCV는 학습한 모델의 최적의 파라미터값, 점수, 모델명, 속성을 통해 확인

In [14]:
print('최적의 파라미터 값 : ', grid_search_knn.best_params_)
print('최고 점수 : ', grid_search_knn.best_score_)
print('최고 성능 모델 : ', grid_search_knn.best_estimator_)

최적의 파라미터 값 :  {'n_neighbors': 3}
최고 점수 :  0.9809090909090911
최고 성능 모델 :  KNeighborsClassifier(n_neighbors=3)


#### 정리
- 이전에 구한 최적의 하이퍼 파라미터 k = 7 과 다르다
- 이전에 교차검증도 진행하지 않았으므로, 랜덤 스플릿 된 데이터셋 자체에 대한 과대 적합의 위험이 있었음
- 차이점 : 교차 검증 진행여부
- grid  서치를 통한 k = 3 값은 10번의 교차검증을 마쳤을때 10개의 정확도 평균이 가장 높은 k 값을 찾음

In [15]:
# test 평가
grid_search_knn.score(X_test, y_test)

# 전보다 낮게 나온ㄴ다
# 현재 rand_state 가 8이라면 k 7일때 가장 높게 나오고
# 8이 아니라면 평균적으로 3일때 정확도가 높다

0.9333333333333333

#### 결정트리 모델의 최적의 하이퍼 파라미터
- max_depth, max_leaf_nodes, min_samples_leaf 값들을 설정하여 최적값을 찾아보자!

In [None]:
# key 값에는 하이퍼 파라미터가
# value 값에는 찾고자 하는는 그 범위를 지정
parm_tree = {'max_depth' : range(1,20,2), 'max_leaf_nodes' : range(10,101,10), 'min_samples_leaf' : range(20,151,10)} # 총 경우의 수 1400개

# GridSearchCV 함수 선언
grid_search_tree = GridSearchCV(DecisionTreeClassifier(),
                               parm_tree, # 찾고자하는 하이퍼 파라미터
                                cv = 7,
                                verbose=2 # 진행 상태 표시
                               )
grid_search_tree.fit(X_train, y_train)

print('최적의 파라미터 값 : ', grid_search_tree.best_params_)
print('최고 점수 : ', grid_search_tree.best_score_)
print('최고 성능 모델 : ', grid_search_tree.best_estimator_)

In [19]:
grid_search_tree.score(X_test, y_test)

0.8888888888888888

In [20]:
# knn 모델의 훈련데이터의 정확도
grid_search_knn.score(X_train, y_train)

0.9714285714285714

In [21]:
# knn 모델의 테스트 데이터의 정확도
grid_search_knn.score(X_test, y_test)

0.9333333333333333

In [22]:
# tree 모델 훈련 데이터 정확도
grid_search_tree.score(X_train, y_train)

0.9904761904761905

In [23]:
# tree 모델 테스트 데이터 정확도
grid_search_tree.score(X_test, y_test)

0.8888888888888888