# ハイパーパラメータの最適化

学習時に値が決定されない、予測モデルの調整可能なパラメータが **ハイパーパラメータ** です。  
ハイパーパラメータの例として、以下のような値があります。

* 決定木の木の深さ
* ランダムフォレストの決定木の個数
* 深層学習の中間の層の個数

ハイパーパラメータを最適化する代表的な方法は、「グリッドサーチ」と「ランダムサーチ」です。  
代表的なこのNotebookでは「グリッドサーチ」を利用してIrisデータセットのハイパーパラメータを最適化しつつ予測を行います。

## ハイパーパラメータ最適化と予測モデル作成

In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

# データのロードと分割
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# 決定木のインスタンス化
clf = DecisionTreeClassifier()
param_grid = {'max_depth': [3, 4, 5]}

# 10分割の交差検証で予測モデルを作成
cv = GridSearchCV(clf, param_grid=param_grid, cv=10)
cv.fit(X_train, y_train)



GridSearchCV(cv=10, error_score='raise-deprecating',
       estimator=DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best'),
       fit_params=None, iid='warn', n_jobs=None,
       param_grid={'max_depth': [3, 4, 5]}, pre_dispatch='2*n_jobs',
       refit=True, return_train_score='warn', scoring=None, verbose=0)

In [2]:
# 最適なハイパーパラメータ(=木の深さ)を確認
cv.best_params_

{'max_depth': 4}

In [3]:
# 最適な予測モデルを確認
cv.best_estimator_

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=4,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

In [4]:
# 最適な予測モデルを利用して、テストデータセットのラベルを予測
y_pred = cv.predict(X_test)
y_pred

array([2, 2, 2, 0, 1, 1, 0, 1, 2, 1, 2, 1, 1, 0, 2, 0, 0, 2, 1, 1, 0, 0,
       1, 2, 0, 1, 0, 2, 0, 0, 1, 0, 2, 2, 2, 0, 1, 0, 1, 1, 2, 0, 1, 1,
       0])

In [5]:
# 最適な予測モデルのスコアを確認
cv.best_score_

0.9428571428571428

## 予測モデルの保存

予測モデルはPythonの外部モジュールを利用することでファイルで保存可能です。  
scikit-learnで作成した予測モデルを保存する方法は、`pickle`形式と`joblib`形式の２つです。

以下のセルでは`pickle`形式でハイパーパラメータを最適化ずみの予測モデルを保存します。

In [13]:
import pickle
f = open('tuned_clf.pickle', 'wb')
pickle.dump(cv, f)
f.close
print('Model saved!')

Model saved!


In [14]:
!ls -l

total 12
-rw-r----- 1 dsxuser dsxuser 8665 Aug 13 09:07 tuned_clf.pickle
