## 1.iris 데이터를 활용하여 그리드서치 적용
- 그리드서치는교차검증을 동시에 수행 

In [1]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV

In [2]:
iris = load_iris()

In [3]:
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [4]:
x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,
                                                test_size=0.3,
                                                random_state=0)

In [5]:
x_train.shape

(105, 4)

In [6]:
y_train.shape

(105,)

In [7]:
x_test.shape

(45, 4)

In [8]:
y_test.shape

(45,)

### KNN 그리드서치 적용

In [9]:
param_knn = {'n_neighbors':range(1,10)}
#knn모델에 쓸 파라미터를 딕셔너리 형태로 저장
#각 파리미터의 범위를 list나 range로 줘야함

In [10]:
knn = GridSearchCV(KNeighborsClassifier(),
                   param_knn,
                   cv=10)
#그리드서치(모델,그 모델의 파라미터 범위(딕셔너리 형태),교차검증수)

In [11]:
knn.fit(x_train,y_train)
#모델 학습

GridSearchCV(cv=10, estimator=KNeighborsClassifier(),
             param_grid={'n_neighbors': range(1, 10)})

In [12]:
print('최적의 파라미터:',knn.best_params_)
#최적의 파라미터를 가져오는 GridSearchCV의 내장함수 model.best_params_

최적의 파라미터: {'n_neighbors': 6}


In [13]:
print('최적의 교차검증 점수:',knn.best_score_)
#최적의 교차검증 점수를 가져오는 GridSearchCV의 내장함수 model.best_score_

최적의 교차검증 점수: 0.9609090909090909


In [14]:
print('최고 성능 모델 :',knn.best_estimator_)
#최고 성능의 모델을 가져오는 GridSearchCV의 내장함수 model.best_estimator_

최고 성능 모델 : KNeighborsClassifier(n_neighbors=6)


In [15]:
pred = knn.predict(x_test)
pred
#예측값 산출

array([2, 1, 0, 2, 0, 2, 0, 1, 1, 1, 2, 1, 1, 1, 1, 0, 1, 1, 0, 0, 2, 1,
       0, 0, 2, 0, 0, 1, 1, 0, 2, 1, 0, 2, 2, 1, 0, 2, 1, 1, 2, 0, 2, 0,
       0])

In [16]:
knn.score(x_test,y_test)
#분류모델이므로 기준은 Acuracy

0.9777777777777777

### Decision Tree로 Grid Search 진행

In [17]:
param_dt={'max_depth':range(1,10),
         'max_leaf_nodes':range(1,10),
         'min_samples_leaf':range(1,10)}

#모델에서 쓸 파라미터 딕셔너리 생성
#각 파리미터의 범위를 list나 range로 줘야함

In [18]:
dt= GridSearchCV(DecisionTreeClassifier(),param_dt,cv=10)
#모델 선정(그리드서치(의사결정나무 사용,cv=10))

In [19]:
dt.fit(x_train,y_train)
#모델 학습

810 fits failed out of a total of 7290.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
810 fits failed with the following error:
Traceback (most recent call last):
  File "C:\Users\user\anaconda3\lib\site-packages\sklearn\model_selection\_validation.py", line 680, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "C:\Users\user\anaconda3\lib\site-packages\sklearn\tree\_classes.py", line 937, in fit
    super().fit(
  File "C:\Users\user\anaconda3\lib\site-packages\sklearn\tree\_classes.py", line 314, in fit
    raise ValueError(
ValueError: max_leaf_nodes 1 must be either None or larger than 1

        nan        nan        nan 0.69545455 0.69545455 0.69545455
 0.69545455 0.69545455 0.69545455 0.69545455 0.69545

GridSearchCV(cv=10, estimator=DecisionTreeClassifier(),
             param_grid={'max_depth': range(1, 10),
                         'max_leaf_nodes': range(1, 10),
                         'min_samples_leaf': range(1, 10)})

In [20]:
print('최적 파라미터:',dt.best_params_)
#최적 파라미터 = model.best_params_

최적 파라미터: {'max_depth': 3, 'max_leaf_nodes': 4, 'min_samples_leaf': 2}


In [21]:
print('최고 교차검증 점수:',dt.best_score_)
#최고 교차검증 점수=model.best_score_

최고 교차검증 점수: 0.9800000000000001


In [22]:
print('최고 성능 모델:',dt.best_estimator_)
#최고 교차검증 점수=model.best_estimator_

최고 성능 모델: DecisionTreeClassifier(max_depth=3, max_leaf_nodes=4, min_samples_leaf=2)


In [23]:
pred=dt.predict(x_test)
pred
#예측값 산출

array([2, 1, 0, 2, 0, 2, 0, 1, 1, 1, 2, 1, 1, 1, 1, 0, 1, 1, 0, 0, 2, 1,
       0, 0, 2, 0, 0, 1, 1, 0, 2, 1, 0, 2, 2, 1, 0, 2, 1, 1, 2, 0, 2, 0,
       0])

In [24]:
dt.score(x_test,y_test)
#분류 모델이므로 model.score의 기준은 Accuracy

0.9777777777777777