# 4. モデル選択

## 4.1 はじめに

これまで数多くの機械学習手法をご紹介してきましたが，未知のデータに対し，どの手法を使えば最も良い結果が得られるのでしょう？
また，各手法のハイパーパラメータの最適値はどのように求めれば良いのでしょう？

本ノートブックでは，[scikit-learn，Model selection: choosing estimators and their parameters](http://scikit-learn.org/stable/tutorial/statistical_inference/model_selection.html)を参考に，モデル選択の手法について解説します．モデル選択とは，文字通り機械学習のモデルの選択から，ハイパーパラメータの調整まで含んだ言葉です．

## 4.2 モデルの評価

In [1]:
from sklearn import datasets, svm

In [2]:
digits = datasets.load_digits()
X_digits = digits.data
y_digits = digits.target
svc = svm.SVC(C=1, kernel='linear')
svc.fit(X_digits[:-100], y_digits[:-100])

SVC(C=1, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='linear',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

In [3]:
svc.score(X_digits[-100:], y_digits[-100:])

0.97999999999999998

## 4.3 Cross validation

In [4]:
from sklearn.model_selection import KFold, cross_val_score

In [8]:
X = ["a", "a", "b", "c", "c", "c"]
k_fold = KFold(n_splits=3)
[[train, test] for train, test in k_fold.split(X)]

[[array([2, 3, 4, 5]), array([0, 1])],
 [array([0, 1, 4, 5]), array([2, 3])],
 [array([0, 1, 2, 3]), array([4, 5])]]

In [11]:
[svc.fit(X_digits[train], y_digits[train]
        ).score(X_digits[test], y_digits[test]) 
 for train, test in k_fold.split(X_digits)]

[0.93489148580968284, 0.95659432387312182, 0.93989983305509184]

In [12]:
cross_val_score(svc, X_digits, y_digits, cv=k_fold)

array([ 0.93489149,  0.95659432,  0.93989983])

## 4.4 Grid search