### GridSearchCV

- モデルの一般化性能を改善するための媒介変数 tuning
- GridSearchCV(estimator, param_grid)
    - 調整したい媒介変数の名前と設定値について、Dictionaryタイプで伝える。
    - デフォルト値として3-fold cross-validationを適用する。
    - 分析モデルに分類機が届けられると、stratified 3-fold cross-validation適用する。
    - 一般的な分析モデルオブジェクトと類似にGridSearchオブジェクトもpredict,スケーラメソッド提供する。
        - predict() : 見つけた最適な媒介変数で学習されたモデルから予測値を得る。
        - score() : 見つけた最適な媒介変数として学習されたモデルの一般化性能を評価する。
    - 最適な媒介変数を探す過程では、学習データを使うだけでテストデータは使わない。
        - grid_scores_
            - すべてのハイパーパリメータ組合せに対する性能結果
            - parameters: 使用されたパラメータ
            - mean_validation_score: 交差検証(cross-validation)結果の平均値
            - cv_validation_scores: すべての交差検証(cross-validation)結果
        - best_params_ : 見つけた最適な媒介変数
        - best_score_ : 最適な媒介変数として学習データから得られた最上の交差検証精度
        - betimator_ : 最適な媒介変数で学習データを使って学習したモデルオブジェクト

In [18]:
from sklearn import datasets

In [19]:
iris = datasets.load_iris()

In [20]:
# 独立変数(問題)、従属変数(正解)の分離
iris_x = iris.data
iris_y = iris.target

In [21]:
#学習、評価データの分離(7:3)
from sklearn.model_selection import train_test_split

In [22]:
train_x, test_x, train_y, test_y = train_test_split(iris_x, iris_y, test_size=.3)

In [23]:
train_x.shape

(105, 4)

In [24]:
test_x.shape

(45, 4)

In [25]:
# RandomForestモデルのオブジェクト生成
from sklearn.ensemble import RandomForestClassifier

In [26]:
rf = RandomForestClassifier()

In [27]:
from sklearn.model_selection import GridSearchCV

In [28]:
# GridSearchCV(model変数,パラメータ組合せ(Dictionary))
# GridSearchを遂行するパラメータの場合の数をDictionaryで生成(ハイパパラメータマップ)
# n_estimator:分類器生成回数
# max_features : 独立変数最大個数
# max_depth : 意思決定の木の最大深さ
# criterion : 不純度指標
param_map = {'n_estimators':[50, 100, 150, 200, 250, 300], # 디시전트리 몇개 만들지 정할 수 있다.
            'max_depth':[1, 3, 5, 7, 9, 10]} # 깊이도 정할 수 있다

In [29]:
# ハイパーパラメータとモデルの結合
grid_search = GridSearchCV(estimator=rf, param_grid=param_map)

In [30]:
# 結合した変数に.fit()コマンドを使用
grid_search.fit(train_x, train_y)



GridSearchCV(cv='warn', error_score='raise-deprecating',
             estimator=RandomForestClassifier(bootstrap=True, class_weight=None,
                                              criterion='gini', max_depth=None,
                                              max_features='auto',
                                              max_leaf_nodes=None,
                                              min_impurity_decrease=0.0,
                                              min_impurity_split=None,
                                              min_samples_leaf=1,
                                              min_samples_split=2,
                                              min_weight_fraction_leaf=0.0,
                                              n_estimators='warn', n_jobs=None,
                                              oob_score=False,
                                              random_state=None, verbose=0,
                                              warm_start=False),
           

In [31]:
#学習結果を基盤に最高の性能を持つハイパーパラメータ組合の返還
grid_search.best_params_

{'max_depth': 1, 'n_estimators': 50}

In [32]:
#最高の性能を持つハイパーパラメータ組合せ使用時の全体パラメータ現況返却
grid_search.best_estimator_

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                       max_depth=1, max_features='auto', max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=50,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False)

In [33]:
#最高の組み合わせの時の性能
grid_search.best_score_

0.9428571428571428

In [34]:
# best_params_の組み合わせを利用して予測する。
grid_search.score(test_x, test_y)

0.9777777777777777

In [35]:
# Decision Treeのmax_depth最適の場合の数を探す。
from sklearn.tree import DecisionTreeClassifier

In [36]:
# 分類器生成
clf = DecisionTreeClassifier()

In [37]:
#ハイパーパラメータの生成
param_map = {'max_depth':[1, 3, 5, 7, 9, 10]}

In [38]:
grid_search2 = GridSearchCV(estimator=clf, param_grid=param_map)

In [39]:
# 学習
grid_search2.fit(train_x, train_y)



GridSearchCV(cv='warn', error_score='raise-deprecating',
             estimator=DecisionTreeClassifier(class_weight=None,
                                              criterion='gini', max_depth=None,
                                              max_features=None,
                                              max_leaf_nodes=None,
                                              min_impurity_decrease=0.0,
                                              min_impurity_split=None,
                                              min_samples_leaf=1,
                                              min_samples_split=2,
                                              min_weight_fraction_leaf=0.0,
                                              presort=False, random_state=None,
                                              splitter='best'),
             iid='warn', n_jobs=None,
             param_grid={'max_depth': [1, 3, 5, 7, 9, 10]},
             pre_dispatch='2*n_jobs', refit=True, return_train_score=Fa

In [40]:
# 最適組み合わせ探し
grid_search2.best_params_

{'max_depth': 9}

In [41]:
# 最適組み合わせを用いたテストのデータスコアを測定
grid_search2.score(test_x, test_y)

1.0