# ScikitLearnの学習 ( ハイパーパラメータ― )
機械学習のアルゴリズムには、学習に用いる指標を更に自動で更新できるようにするハイパーパラメーターという指標がある。
ハイパーパラメーターは学習とは別にユーザーが値を設定する必要がある。
今回は決定木のハイパーパラメーター(最大深度)をグリッドサーチ(Grid Search)という手法で最適化する方法を考える。

## 決定木のグリッドサーチ

In [7]:
#決定木のグリッドサーチ
#irisをデータセットに用い、決定木をグリッドサーチで最適化する
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split, GridSearchCV

#irisデータを読み込み
iris = load_iris()
X,y = iris.data, iris.target

#train_test_split - 教師あり学習用のデータを学習用・テスト用に分割する
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123)

#決定木のインスタンス
tree = DecisionTreeClassifier(random_state=123)

#グリッドサーチ - 決定木の最大深度の内、どれが最適かを検証する
param_grid={"max_depth":[3,4,5,6,7,8,9,10]}

#学習
tree.fit(X_train, y_train)

#グリッドサーチ - 交差検証を10回
cv = GridSearchCV(tree, param_grid=param_grid, cv=10)
cv.fit(X_train, y_train)

#テストデータの予測開始
y_pred = tree.predict(X_test)

In [10]:
#決定木を使った予測
print("Predict Results: ",y_pred)

#最適なパラメータ・モデルを表示
print("Best Parameter: ", cv.best_params_)
print("Best Model: ", cv.best_estimator_)

#汎用性能・テスト性能を測る
y_train_score = tree.score(X_train,y_train)
print("Train Score: ", y_train_score)

y_test_score = tree.score(X_test,y_test)
print("Test Score: ", y_test_score)

Predict Results:  [1 2 2 1 0 2 1 0 0 1 2 0 1 2 2 2 0 0 1 0 0 1 0 2 0 0 0 2 2 0 2 1 0 0 1 1 2
 0 0 1 1 0 2 2 2]
Best Parameter:  {'max_depth': 3}
Best Model:  DecisionTreeClassifier(max_depth=3, random_state=123)
Train Score:  1.0
Test Score:  0.9555555555555556


In [4]:
#pydotplusを用いて決定木を視覚化
!pip install pydotplus

#pydotplus・graghvizで可視化
from pydotplus import graph_from_dot_data
from sklearn.tree import export_graphviz

dot_data = export_graphviz(tree, filled=True, rounded = True, class_names=["Setosa", "Versicolor", "Virginica"], feature_names=["Sepal Length","Sepal Width","Petal Length","Petal Width"], out_file=None)

#グラフを出力
graph = graph_from_dot_data(dot_data)
graph.progs = {'dot': u"C:\\Program Files\\Graphviz\\bin\\dot.exe"}
graph.write_png("Iris_tree02.png")



True