### ハイパーパラメータとは
機械学習のアルゴリズムは**ハイパーパラメータ**と呼ばれるものがある  
これは、**学習の時に決まる値ではなく、ユーザが指定するパラメータの事**  
  
例えば、ランダムフォレストにおける、決定木の数、  
決定木における深さ  
これらは、ハイパーパラメータの一例である  
  
人が指定する値であるため、不適切である可能性も十分ある  
そこで、ハイパーパラメータをどのように決定させるのかという方法の一つに**グリッドサーチ**というものがある  
  
### グリッドサーチ
ハイパーパラメータをいくつか用意しておき、それぞれで学習を行い、結果を評価する  
最も良い結果が得られたものを選択するという方法  
  
単純は単純な方法  
  
グリッドサーチは何回も学習を行うという点で**公差検証と相性が良い**  
N個のハイパーパラメータに対して、M回交差検証を行う場合  
$N\times M$回の学習が行われる 

In [2]:
from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

iris = load_iris()
data_set = iris.data
label = iris.target

train_data,test_data,train_label,test_label = train_test_split(data_set,label,test_size=0.3)

# 決定木をインスタンス化
decision_tree = DecisionTreeClassifier()

# ハイパーパラメータの候補を羅列
param_grid = {"max_depth":[3,4,5]}

# 10分割の交差検証を実行
cross_validation = GridSearchCV(decision_tree,param_grid=param_grid,cv=10)
cross_validation.fit(train_data,train_label)

GridSearchCV(cv=10, estimator=DecisionTreeClassifier(),
             param_grid={'max_depth': [3, 4, 5]})

In [3]:
# ハイパーパラメータ候補の中で最適なものを確認する
cross_validation.best_params_

{'max_depth': 4}

In [4]:
# 最適なモデルを確認する
cross_validation.best_estimator_

DecisionTreeClassifier(max_depth=4)

In [5]:
# グリッドサーチによって生成されたものの内、最適なものが自動で使われる
predict_label = cross_validation.predict(test_data)
predict_label

array([0, 0, 0, 2, 0, 2, 0, 1, 1, 0, 1, 2, 2, 2, 2, 1, 2, 0, 0, 0, 0, 2,
       2, 2, 2, 1, 0, 2, 2, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 2, 1, 1, 2,
       1])

In [9]:
import numpy
print(len(test_label))
print(len(predict_label))
print(numpy.sum(test_label == predict_label)/len(test_label))

45
45
0.9555555555555556
