### 1. 목적
 - iris 데이터를 활용하여 GridSearch를 적용

In [61]:
import warnings
warnings.filterwarnings(action='ignore')

In [62]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier

### 2. 데이터 수집
 - iris 데이터 불러오기

In [63]:
iris = load_iris()

In [64]:
x = iris.data
y = iris.target

### 3. 데이터 전처리

In [65]:
# train, test split 데이터를 나누지 않을 경우
scaler = StandardScaler()
x_scaled = scaler.fit_transform(x)

In [66]:
# train, test split 단계를 진행 한 후
#x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=0, shuffle=True)
#scaler= StandardScaler()
#scaler.fit(x_train)
#x_train_scaled = scaler.transform(x_train)
#x_test_scaled = scaler.transform(x_test)

In [67]:
#x_scaled = pd.DataFrame(x_scaled, columns=iris.feature_names)
#x_scaled

In [68]:
x_train, x_test, y_train, y_test = train_test_split(x_scaled, y, random_state=0, shuffle=True)

In [69]:
# 학습, 시험 데이터 길이 확인
print(len(x_train))
print(len(y_train))
print(len(x_test))
print(len(y_test))

112
112
38
38


### 4. EDA

### 5~7 모델링(선택, 학습, 평가)

#### KNN 그리드서치 적용

In [70]:
#KNN
param_knn = {'n_neighbors':range(1,10)}


In [71]:
#KNN gridSearch 적용 선언
knn = GridSearchCV(KNeighborsClassifier(), param_knn, cv= 5)

#### KNN 학습

In [72]:
#KNN 학습
knn.fit(x_train, y_train)

GridSearchCV(cv=5, estimator=KNeighborsClassifier(),
             param_grid={'n_neighbors': range(1, 10)})

#### KNN 평가

In [73]:
print('KNN최적의 파라미터 :',knn.best_params_ )
print('KNN최고 교차 검증 점수 :',knn.best_score_)
print('KNN최고 성능 모델 :',knn.best_estimator_ )

KNN최적의 파라미터 : {'n_neighbors': 6}
KNN최고 교차 검증 점수 : 0.9557312252964426
KNN최고 성능 모델 : KNeighborsClassifier(n_neighbors=6)


In [74]:
knn.predict(x_test)
knn.score(x_test, y_test)

0.9736842105263158

#### DT 그리드서치 적용

In [75]:
param_DT = {'max_depth':range(1,10),
            'max_leaf_nodes':[1,2,3,4,5,6,7,8,9,10],
            'min_samples_leaf':range(1,10) }

In [76]:
# GridSeachCV를 이용한 모델 선언
dt = GridSearchCV(DecisionTreeClassifier(), param_DT, cv=5)

#### DT 학습

In [77]:
# 모델 학습
dt.fit(x_train, y_train)

GridSearchCV(cv=5, estimator=DecisionTreeClassifier(),
             param_grid={'max_depth': range(1, 10),
                         'max_leaf_nodes': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
                         'min_samples_leaf': range(1, 10)})

In [78]:
dt.predict(x_test)
dt.score(x_test, y_test)

0.9736842105263158

#### DT 평가

In [79]:
print('DT최적의 파라미터 :',dt.best_params_ )
print('DT최고 교차 검증 점수 :',dt.best_score_)
print('DT최고 성능 모델 :',dt.best_estimator_ )

DT최적의 파라미터 : {'max_depth': 4, 'max_leaf_nodes': 5, 'min_samples_leaf': 2}
DT최고 교차 검증 점수 : 0.9731225296442687
DT최고 성능 모델 : DecisionTreeClassifier(max_depth=4, max_leaf_nodes=5, min_samples_leaf=2)


In [80]:
print(dt.predict(x_test))
print(dt.score(x_test, y_test))

[2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 1 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2]
0.9473684210526315


#### SVM 그리드서치 적용

In [82]:
param_svc = {'kernel':['poly','rbf','linear'],
             'C':[0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0],
             'gamma':[0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0]}

In [83]:
svc = GridSearchCV(SVC(), param_svc, cv=5)

#### SVM 학습

In [84]:
svc.fit(x_train, y_train)

GridSearchCV(cv=5, estimator=SVC(),
             param_grid={'C': [0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9,
                               1.0],
                         'gamma': [0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9,
                                   1.0],
                         'kernel': ['poly', 'rbf', 'linear']})

#### SVM평가

In [85]:
print('SVC최적의 파라미터 :', svc.best_params_ )
print('SVC최고 교차 검증 점수 :', svc.best_score_)
print('SVC최고 성능 모델 :', svc.best_estimator_ )

SVC최적의 파라미터 : {'C': 0.5, 'gamma': 0.1, 'kernel': 'linear'}
SVC최고 교차 검증 점수 : 0.9640316205533598
SVC최고 성능 모델 : SVC(C=0.5, gamma=0.1, kernel='linear')


In [86]:
print(svc.predict(x_test))
print(svc.score(x_test, y_test))

[2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2]
0.9736842105263158
