# 파라미터 튜닝 실습

In [9]:
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingClassifier
from sklearn import datasets
from sklearn.model_selection import train_test_split
import numpy as np

In [2]:
data = datasets.load_boston()
x = data['data']
y = data['target']
X_train, X_test, Y_train, Y_test = train_test_split(x, y, test_size=0.3, random_state=0)

파라미터 튜닝의 경우 grid search를 이용하여 진행할 수 있다. grid search를 활용하는 방법은 parameter grid를 dictionary 형태로 구성하여 grid search를 진행할 수 있다.

- param_grid : 파라미터 셋을 정의하고 해당 알고리즘의 파라미터 이름을 key로, search하고자는 수치의 list를 value로하는 dictionary를 만든다.
- GridSearchCV : 모델과 앞서 정의한 param_grid를 입력하고, cross-validation(cv) 를 입력한다. 또한, 해당 모델의 평가 metric을 정의하면 해당 평가 metric기반으로 cross-validation을 통해 최적 파라미터를 찾는다. 

In [3]:
n_estimators = [10,20,30,40,50]
max_featrues = [2,3,4]
bootstrap = [True, False]

param_grid = [{'n_estimators' : n_estimators,  #이름 정확히 똑같이 써줘야한다. 
               'max_features': max_featrues,
              'bootstrap': bootstrap}]   # 30가지 조합으로 튜닝

rf = RandomForestRegressor()   #이건 pipeline을 쓰지 않기때문에 간단하게 이렇게 작성할 수 있음
grid_search = GridSearchCV(rf, param_grid=param_grid, cv = 4, # 4 fold cross-validation
                          scoring='neg_mean_squared_error')  #이건 -mse값이라서, 나중에 rmse를 구할때 -를 붙어야줘야함
                                                            # 내부적으로는 최대화하려고하기때문에 negative해서 최대화해서 값을 가져오려함

grid_search.fit(X_train, Y_train)  # best parameter을 찾기위함

GridSearchCV(cv=4, error_score='raise',
       estimator=RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
           max_features='auto', max_leaf_nodes=None,
           min_impurity_decrease=0.0, min_impurity_split=None,
           min_samples_leaf=1, min_samples_split=2,
           min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
           oob_score=False, random_state=None, verbose=0, warm_start=False),
       fit_params=None, iid=True, n_jobs=1,
       param_grid=[{'n_estimators': [10, 20, 30, 40, 50], 'max_features': [2, 3, 4], 'bootstrap': [True, False]}],
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='neg_mean_squared_error', verbose=0)

In [4]:
grid_search.best_params_ 

{'bootstrap': False, 'max_features': 4, 'n_estimators': 30}

In [5]:
cvres = grid_search.cv_results_   # 모든 파라미터의 결과들을 알수있음
for mean_score, params in zip(cvres["mean_test_score"], cvres["params"]):
    print(np.sqrt(-mean_score), params)   # RMSE값 mse값이 -로 구해졌으므로 -를 붙임!

3.96856902586 {'bootstrap': True, 'max_features': 2, 'n_estimators': 10}
3.94134053129 {'bootstrap': True, 'max_features': 2, 'n_estimators': 20}
3.6616651473 {'bootstrap': True, 'max_features': 2, 'n_estimators': 30}
3.61098888791 {'bootstrap': True, 'max_features': 2, 'n_estimators': 40}
3.64762180863 {'bootstrap': True, 'max_features': 2, 'n_estimators': 50}
3.73231301634 {'bootstrap': True, 'max_features': 3, 'n_estimators': 10}
3.34851972102 {'bootstrap': True, 'max_features': 3, 'n_estimators': 20}
3.34663254216 {'bootstrap': True, 'max_features': 3, 'n_estimators': 30}
3.57489622197 {'bootstrap': True, 'max_features': 3, 'n_estimators': 40}
3.39142973867 {'bootstrap': True, 'max_features': 3, 'n_estimators': 50}
3.64250146865 {'bootstrap': True, 'max_features': 4, 'n_estimators': 10}
3.53349980953 {'bootstrap': True, 'max_features': 4, 'n_estimators': 20}
3.53135281433 {'bootstrap': True, 'max_features': 4, 'n_estimators': 30}
3.45705455052 {'bootstrap': True, 'max_features': 4,

## 개별 실습 시간

수업시간에 다룬 알고리즘 중, 하나를 선택하여 scikit-learn에서 제공하는 데이터를 활용하여 주요 파라미터를 튜닝하여 최종 모델을 하나 얻어내세요.
수업자료를 활용하여 주요파라미터들을 grid search로 찾아내는 과정을 진행해보세요.
기존의 random forest를 이용하실 경우엔, 좀 더 다양한 파라미터를 설정해보세요.

 - scikit-learn 데이터 관련 설명 : https://scikit-learn.org/stable/datasets/index.html
 - load_boston(regression용) 또는 load_iris(classification) 를  활용하세요.

뭘 3가지 이상잡지? 변수를? 데이터입력부터 파라미터 튜닝까지 해라! regression이나 classification
배깅, 부팅, 랜덤포레스트, 트리 등등 골라서 모델 사용하기

In [7]:
data= datasets.load_iris()
x= data['data']
y= data['target']
X_train, X_test, Y_train, Y_test = train_test_split(x, y, test_size=0.3, random_state=0)

In [10]:
n_estimators=[10, 20, 30, 40, 50]
learning_rate=[0.1, 0.2, 0.3]
max_depth= [2,3,4]

param_grid= [{'n_estimators': n_estimators,
             'learning_rate': learning_rate,
             'max_depth': max_depth}]

gbm_cl= GradientBoostingClassifier()
grid_search = GridSearchCV(gbm_cl, param_grid = param_grid, cv=5, scoring ='accuracy')

grid_search.fit(X_train, Y_train)

GridSearchCV(cv=5, error_score='raise',
       estimator=GradientBoostingClassifier(criterion='friedman_mse', init=None,
              learning_rate=0.1, loss='deviance', max_depth=3,
              max_features=None, max_leaf_nodes=None,
              min_impurity_decrease=0.0, min_impurity_split=None,
              min_samples_leaf=1, min_samples_split=2,
              min_weight_fraction_leaf=0.0, n_estimators=100,
              presort='auto', random_state=None, subsample=1.0, verbose=0,
              warm_start=False),
       fit_params=None, iid=True, n_jobs=1,
       param_grid=[{'n_estimators': [10, 20, 30, 40, 50], 'learning_rate': [0.1, 0.2, 0.3], 'max_depth': [2, 3, 4]}],
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='accuracy', verbose=0)

In [11]:
grid_search.best_params_   # best parameter을 구함

{'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 10}

In [23]:
# grid_search.grid_scores_

In [24]:
cvres = grid_search.cv_results_
# print(cvres)

for accuracy, params in zip(cvres["mean_test_score"], cvres["params"]):
    print(accuracy, params)   

0.942857142857 {'learning_rate': 0.1, 'max_depth': 2, 'n_estimators': 10}
0.942857142857 {'learning_rate': 0.1, 'max_depth': 2, 'n_estimators': 20}
0.942857142857 {'learning_rate': 0.1, 'max_depth': 2, 'n_estimators': 30}
0.942857142857 {'learning_rate': 0.1, 'max_depth': 2, 'n_estimators': 40}
0.942857142857 {'learning_rate': 0.1, 'max_depth': 2, 'n_estimators': 50}
0.952380952381 {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 10}
0.942857142857 {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 20}
0.942857142857 {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 30}
0.942857142857 {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 40}
0.942857142857 {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 50}
0.952380952381 {'learning_rate': 0.1, 'max_depth': 4, 'n_estimators': 10}
0.952380952381 {'learning_rate': 0.1, 'max_depth': 4, 'n_estimators': 20}
0.952380952381 {'learning_rate': 0.1, 'max_depth': 4, 'n_estimators': 30}
0.952380952381 {'learning_rate': 0.1, 

In [36]:
best_model = grid_search.best_estimator_.fit(X_train, Y_train) # 가장 좋은 성능을 가진 parameter의 모델을 가지고 fit진행
# 이게 retrained model!

In [37]:
y_pred = best_model.predict(X_test)  

In [28]:
from sklearn.metrics import confusion_matrix, accuracy_score

In [41]:
cm= confusion_matrix(Y_train,best_model.predict(X_train))
print(cm)

[[34  0  0]
 [ 0 32  0]
 [ 0  0 39]]


In [42]:
score= accuracy_score(Y_train, best_model.predict(X_train))
print(score)

1.0


In [39]:
score= accuracy_score(Y_test, y_pred)
print(score)

0.977777777778
