# Support Vector Machine (SVM)
* SVM の特徴
    「マージン最大化」と「カーネルトリック」  
    マージン最大化は、線形分離可能なデータに対してのみ有効だが  
    カーネルトリックという手法を取り入れることで線形分離が難しい問題にも対処している。

    * マージン最大化  
    マージンとは、識別面と2つのクラス間の距離のこと。  
    このマージンが最大になるようにすることで、汎化能力を最大にするというもの。  
    マージン最大化により、SVMは評価データ(未知のデータ)に対して  
    判別精度が高い(汎化性能が高い)アルゴリズムになっている。  
    * カーネルトリック  
    カーネルトリックとは、高次元空間上で線形分析を行う機能のこと。  
    2次元の分析ではなく、3次元、4次元へと写像して線形分析を行う。

In [18]:
# 学習データの読み込み
from sklearn.datasets import load_digits
digits = load_digits()

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(digits['data'], digits['target'], test_size=0.3, random_state=0)

非線形な識別を可能にする学習モデルを作るには  
sklearn の svm.SVC を使用する。

#### パラメータ
* C: 誤分類を許容する尺度
* gamma: kernel が rbf、poly、sigmoid の場合の決定境界の複雑度合い(大きいほど複雑になる)
* kernel: カーネルの種類(linear、poly、rbf、sigmoid、precomputed)

In [19]:
# 学習モデルの生成
from sklearn import svm
clf = svm.SVC(gamma=0.001, C=100., kernel='rbf')

# 学習モデルの学習
clf.fit(X_train, y_train)

SVC(C=100.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma=0.001, kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

学習モデルを学習したので、精度を確認する。

In [20]:
pred = clf.predict(X_test)
import numpy as np
np.mean(pred == y_test)

0.9907407407407407

それぞれの数字の正解、不正解を確認する。

In [21]:
from pandas_ml import ConfusionMatrix

ConfusionMatrix(y_test, pred, labels=digits['target_names'])

Predicted   0   1   2   3   4   5   6   7   8   9  __all__
Actual                                                    
0          45   0   0   0   0   0   0   0   0   0       45
1           0  52   0   0   0   0   0   0   0   0       52
2           0   0  52   0   0   0   0   1   0   0       53
3           0   0   0  54   0   0   0   0   0   0       54
4           0   0   0   0  48   0   0   0   0   0       48
5           0   0   0   0   0  55   1   0   0   1       57
6           0   0   0   0   0   0  60   0   0   0       60
7           0   0   0   0   0   0   0  53   0   0       53
8           0   1   0   0   0   0   0   0  60   0       61
9           0   0   0   0   0   1   0   0   0  56       57
__all__    45  53  52  54  48  56  61  54  60  57      540