# 4. モデル選択

## 4.1 はじめに

これまで数多くの機械学習手法をご紹介してきましたが，未知のデータに対し，どの手法を使えば最も良い結果が得られるのでしょう？
また，その手法のハイパーパラメータはどのように設定すれば良いのでしょう？

本ノートブックでは，[scikit-learn，Model selection: choosing estimators and their parameters](http://scikit-learn.org/stable/tutorial/statistical_inference/model_selection.html)を参考に，モデル選択の手法について解説します．モデル選択とは，文字通り機械学習のモデルの選択から，ハイパーパラメータの調整まで含んだ言葉です．

## 4.2 モデルの評価

`score(X_test, Y_test)`メソッドは，テストデータ（`X_test, Y_test`）に対するモデルの性能を返します．デフォルトで，識別モデルの場合は正解率を，回帰モデルの場合は平均二乗誤差の逆数を返します．原則として，高いスコアを返すモデルほど，優れたモデルです．

In [1]:
from sklearn import datasets, svm

In [2]:
digits = datasets.load_digits()
X_digits = digits.data
y_digits = digits.target
svc = svm.SVC(C=1, kernel='linear')
svc.fit(X_digits[:-100], y_digits[:-100])

SVC(C=1, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='linear',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

In [3]:
svc.score(X_digits[-100:], y_digits[-100:])

0.97999999999999998

このモデルの正解率は約98%です．
しかし，**たまたま**このテストデータに対して良い結果が出たのか，あるいは**本当に**優れたモデルなのか，判断できません．
複数のテストデータに対して評価を行えばこの疑問は解決されますが，たくさんのデータが必要になります．
そこで，**Cross validation**（交差検定）がよく用いられます．

## 4.3 Cross validation
Cross validationは，限られたデータセットで，できるだけ多くの評価を行うための手法です．
Cross validationでは，全データ集合を$k$個に分割し，$2, \dots, k$番目までを使って学習したモデルを，$1$番目のデータで評価します．
次は，$2$番目のデータ集合をテストデータとして，それ以外を訓練データとして使います．
このようにテストデータとして使う集合を一つずつずらして使うことで，計$k$回，モデルを評価できます．

<img src="fig/cv.png" width="480px">

[`KFold`](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html)メソッドを使えば，Cross validation用のデータ集合を一行で作成できます．

In [4]:
from sklearn.model_selection import KFold, cross_val_score

In [5]:
X = ["a", "a", "b", "c", "c", "c"]
k_fold = KFold(n_splits=3)
[[train, test] for train, test in k_fold.split(X)]

[[array([2, 3, 4, 5]), array([0, 1])],
 [array([0, 1, 4, 5]), array([2, 3])],
 [array([0, 1, 2, 3]), array([4, 5])]]

リスト`k_fold.split(X)`を順番に使うことで，Cross validationを実装できます．

In [6]:
[svc.fit(X_digits[train], y_digits[train]
        ).score(X_digits[test], y_digits[test]) 
 for train, test in k_fold.split(X_digits)]

[0.93489148580968284, 0.95659432387312182, 0.93989983305509184]

あるいは，[`cross_val_score`](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html)メソッドに丸投げするという手もあります．

In [7]:
cross_val_score(svc, X_digits, y_digits, cv=k_fold)

array([ 0.93489149,  0.95659432,  0.93989983])

## 4.4 Grid search

[`GridSearchCV`](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html)は，複数のハイパーパラメータを一気に評価し，最適なハイパーパラメータを決定する，とても便利なメソッドです．

In [8]:
from sklearn.model_selection import GridSearchCV
import numpy as np

In [9]:
Cs = np.logspace(-6, -1, 10)
print(Cs)

[  1.00000000e-06   3.59381366e-06   1.29154967e-05   4.64158883e-05
   1.66810054e-04   5.99484250e-04   2.15443469e-03   7.74263683e-03
   2.78255940e-02   1.00000000e-01]


[`numpy.logspace`](https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.logspace.html)は，ログスケールで等間隔なリストを作成するメソッドです．
ハイパーパラメータの調整では，まず大まかなオーダー感を見て，徐々に探索範囲を狭めていく戦略が有効とされています．



In [10]:
clf = GridSearchCV(estimator=svc, param_grid=dict(C=Cs), n_jobs=-1)

* `param_grid`で，最適化したいパラメータを指定します．複数指定することも可能です．
* `n_jobs`で，並列実行するジョブ数を指定します．`-1`を指定すると，コア数を自動で入れてくれます．

In [11]:
clf.fit(X_digits[:1000], y_digits[:1000])

GridSearchCV(cv=None, error_score='raise',
       estimator=SVC(C=1, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='linear',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False),
       fit_params=None, iid=True, n_jobs=-1,
       param_grid={'C': array([  1.00000e-06,   3.59381e-06,   1.29155e-05,   4.64159e-05,
         1.66810e-04,   5.99484e-04,   2.15443e-03,   7.74264e-03,
         2.78256e-02,   1.00000e-01])},
       pre_dispatch='2*n_jobs', refit=True, return_train_score=True,
       scoring=None, verbose=0)

In [13]:
clf.best_estimator_

SVC(C=0.0077426368268112772, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='linear',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

In [14]:
clf.best_score_

0.92500000000000004

`best_estimater_`は，最適なハイパーパラメータ設定を返します．`best_score_`は，そのときのCross validationスコアの平均値を返します．