# グリッドサーチ

ハイパーパラメータの探索手法で、総当たりで探索する

決定木の分類問題を例に実施する

## データの読み込み
irisデータセットという「花（アヤメ）」に関する有名なデータがあります

data：ガクの長さ・ガクの幅・花弁の長さ・花弁の幅

target：花（アヤメ）の種類

In [15]:
"""読み込み
"""
from sklearn.datasets import load_iris
iris = load_iris()

In [16]:
"""データの内訳
"""
print(iris)

{'data': array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
     

## データ分割
訓練データ：モデルを作成するためのデータ

テストデータ：作成したモデルの性能を検証するデータ

過学習：訓練データにのみ当てはまりの良いモデルを作成してしまうこと。訓練データ・テストデータ双方に当てはまりがよくないといいモデルとは言えない

In [17]:
"""データ分割
・説明変数と目的変数を与える
・テストデータを全体の何％にするか決める
・固定にするか否か
"""
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(iris['data'], iris['target'], test_size=0.3,  random_state=0)

In [9]:
# 基本モデルの作成
from sklearn import tree
clf = tree.DecisionTreeClassifier()

## グリッドサーチ実行

今回は

criterion：データの分割の方法

max_depth：決定木の深さ

min_weight_fraction_leaf：重みの総和の最小加重率

を最適化する。

**それぞれのパラメータの取りうる値は[リスト形式]で指定されている**

In [18]:
# グリッドサーチ
from sklearn import model_selection
clf_cv = model_selection.GridSearchCV(
    clf,# 基本モデルを引数として、こいつを最適化します
    {
        'criterion':["gini","entropy"], # データの分割の方法
        'max_depth': [i for i in range(3,6,1)], # 決定木の深さ
        'min_weight_fraction_leaf':[0,0.1,0.5] # 重みの総和の最小加重率
    },
)
# パラメータ探索
clf_cv.fit(X_train,y_train)



GridSearchCV(cv='warn', error_score='raise-deprecating',
       estimator=DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=3,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0, presort=False, random_state=1234,
            splitter='best'),
       fit_params=None, iid='warn', n_jobs=None,
       param_grid={'criterion': ['gini', 'entropy'], 'max_depth': [3, 4, 5], 'min_weight_fraction_leaf': [0, 0.1, 0.5]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring=None, verbose=0)

## 最適なパラメータの値

In [20]:
clf_cv.best_params_

{'criterion': 'gini', 'max_depth': 3, 'min_weight_fraction_leaf': 0}

## 最適なパラメータでモデルを作成

In [21]:
clf = tree.DecisionTreeClassifier(**clf_cv.best_params_,random_state=1234)
clf.fit(X_train,y_train)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=3,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0, presort=False, random_state=1234,
            splitter='best')

## 予測してみる

In [14]:
"""テストデータの予測
"""
predicted = clf.predict(X_test)
print(sum(predicted==y_test)/len(y_test))

0.9777777777777777
