SVMとはどのような手法か？どのようなときに使うのか？どのような仕組みなのか？利点と欠点は？
SVMは汎化能力を高めるために、サポートベクターと呼ばれる境界に最も近いと思われる点と境界線との距離（マージン）を最大にするように広い帯を引き、その真ん中に境界線を引くものである。特徴の一つに、境界線を引くときに考慮する点がこのサポートベクターのみという点がある。またカーネルを使用することで線形だけでなく非線形に境界線を引くこともできる。カーネルの種類には（線形カーネル、多項式カーネル、RBFカーネル、シグモイドカーネルなどがある。）またSVM回帰問題と分類問題の両方に用いることができる。
利点は特徴量が多くても高い精度が期待できること、汎化能力が高いことである。欠点はコストペナルティC、εやカーネルの種類などハイパーパラメーターを適切にチューニングする必要が有ることや基本的に２クラス分類しかできず、３クラス以上の分類をする場合には、１対他や１対１分類を繰り返す必要があることがあげられる。

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from IPython.display import display

In [3]:
#データの読み込み
train_df = pd.read_csv("/Users/se-ji/mush.csv", header=None ,encoding="shift_jis")
train_df.head(10)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,13,14,15,16,17,18,19,20,21,22
0,p,x,s,n,t,p,f,c,n,k,...,s,w,w,p,w,o,p,k,s,u
1,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
2,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
3,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
4,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g
5,e,x,y,y,t,a,f,c,b,n,...,s,w,w,p,w,o,p,k,n,g
6,e,b,s,w,t,a,f,c,b,g,...,s,w,w,p,w,o,p,k,n,m
7,e,b,y,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,s,m
8,p,x,y,w,t,p,f,c,n,p,...,s,w,w,p,w,o,p,k,v,g
9,e,b,s,y,t,a,f,c,b,g,...,s,w,w,p,w,o,p,k,s,m


In [4]:
#文字列を数字に変える
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
train_df_num=train_df.apply(le.fit_transform)
train_df_num

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,13,14,15,16,17,18,19,20,21,22
0,1,5,2,4,1,6,1,0,1,4,...,2,7,7,0,2,1,4,2,3,5
1,0,5,2,9,1,0,1,0,0,4,...,2,7,7,0,2,1,4,3,2,1
2,0,0,2,8,1,3,1,0,0,5,...,2,7,7,0,2,1,4,3,2,3
3,1,5,3,8,1,6,1,0,1,5,...,2,7,7,0,2,1,4,2,3,5
4,0,5,2,3,0,5,1,1,0,4,...,2,7,7,0,2,1,0,3,0,1
5,0,5,3,9,1,0,1,0,0,5,...,2,7,7,0,2,1,4,2,2,1
6,0,0,2,8,1,0,1,0,0,2,...,2,7,7,0,2,1,4,2,2,3
7,0,0,3,8,1,3,1,0,0,5,...,2,7,7,0,2,1,4,3,3,3
8,1,5,3,8,1,6,1,0,1,7,...,2,7,7,0,2,1,4,2,4,1
9,0,0,2,9,1,0,1,0,0,2,...,2,7,7,0,2,1,4,2,3,3


In [5]:
#目的変数と説明変数、trainとtestに分ける
from sklearn.model_selection import train_test_split
X = train_df_num.drop([0], axis=1)
y = train_df_num[0]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2 , random_state=1)

In [6]:
#標準化の実装
from sklearn.preprocessing import StandardScaler
stdsc = StandardScaler()

# 訓練用のデータのみの平均、標準偏差を用いて標準化する
X_train_std = stdsc.fit_transform(X_train)
# テストデータも標準化
X_test_std = stdsc.transform(X_test)

print(X_train_std.mean())
print(X_train_std.std())
# test用はtrainを基準に標準化してるので、多少0,1からずれる
print(X_test_std.mean())
print(X_test_std.std())

-1.11815884644e-17
0.977008420918
-0.00738958024736
0.985315428359


In [7]:
from sklearn.svm import SVC
from sklearn.grid_search import GridSearchCV
clf = SVC()

#Cの探索範囲を10^-2 ~ 10^4までに設定
C_range_exp = np.arange(-2.0, 5.0)
C_range = 10 ** C_range_exp

param = {"C": C_range,
                 "kernel":["linear","poly","rbf","sigmoid"] }

#n_jobsは並列に走らせる数の指定　-1だと自動的に最適化。
#verbose 表示　
gs = GridSearchCV(clf, param, n_jobs=-1, verbose=2)
gs.fit(X_train , y_train)

Fitting 3 folds for each of 28 candidates, totalling 84 fits




[CV] C=0.01, kernel=linear ...........................................
[CV] C=0.01, kernel=linear ...........................................
[CV] C=0.01, kernel=linear ...........................................
[CV] C=0.01, kernel=poly .............................................
[CV] .................................... C=0.01, kernel=poly -   0.6s
[CV] C=0.01, kernel=poly .............................................
[CV] .................................. C=0.01, kernel=linear -   0.9s
[CV] .................................. C=0.01, kernel=linear -   0.9s
[CV] C=0.01, kernel=poly .............................................
[CV] C=0.01, kernel=rbf ..............................................
[CV] .................................. C=0.01, kernel=linear -   0.9s
[CV] C=0.01, kernel=rbf ..............................................
[CV] .................................... C=0.01, kernel=poly -   0.5s
[CV] C=0.01, kernel=rbf ..............................................
[CV] .

[Parallel(n_jobs=-1)]: Done  33 tasks      | elapsed:   15.3s


[CV] .................................. C=1.0, kernel=sigmoid -   3.4s
[CV] C=10.0, kernel=linear ...........................................
[CV] .................................. C=1.0, kernel=sigmoid -   3.4s
[CV] C=10.0, kernel=linear ...........................................
[CV] .................................. C=1.0, kernel=sigmoid -   3.6s
[CV] C=10.0, kernel=poly .............................................
[CV] .................................... C=10.0, kernel=poly -   0.4s
[CV] C=10.0, kernel=poly .............................................
[CV] .................................... C=10.0, kernel=poly -   0.4s
[CV] C=10.0, kernel=poly .............................................
[CV] .................................... C=10.0, kernel=poly -   0.4s
[CV] C=10.0, kernel=rbf ..............................................
[CV] ..................................... C=10.0, kernel=rbf -   0.5s
[CV] C=10.0, kernel=rbf ..............................................
[CV] .

[Parallel(n_jobs=-1)]: Done  84 out of  84 | elapsed: 202.1min finished


GridSearchCV(cv=None, error_score='raise',
       estimator=SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape=None, degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False),
       fit_params={}, iid=True, n_jobs=-1,
       param_grid={'C': array([  1.00000e-02,   1.00000e-01,   1.00000e+00,   1.00000e+01,
         1.00000e+02,   1.00000e+03,   1.00000e+04]), 'kernel': ['linear', 'poly', 'rbf', 'sigmoid']},
       pre_dispatch='2*n_jobs', refit=True, scoring=None, verbose=2)

In [13]:
#一番良いものを選ぶ
gs.best_params_, gs.best_score_, gs.best_estimator_

({'C': 0.10000000000000001, 'kernel': 'poly'},
 1.0,
 SVC(C=0.10000000000000001, cache_size=200, class_weight=None, coef0=0.0,
   decision_function_shape=None, degree=3, gamma='auto', kernel='poly',
   max_iter=-1, probability=False, random_state=None, shrinking=True,
   tol=0.001, verbose=False))

In [12]:
#SVMの実装
svm = SVC(kernel='poly', random_state=0, gamma=10.0, C=0.10000000000000001)
svm.fit(X_train,y_train)
svm.score(X_test, y_test)

1.0

データの標準化の必要性
標準化をしていないデータセットは次元や単位が統一されていないため、主に勾配法を用いる場合に特定の変数の影響が必要以上に大きく影響してしまう場合がある。これを防ぐために標準化を行う。

カーネルとはその次元上では適切に分類することができない場合、高次元に射影することで、分類可能にする方法である。
カーネルの使い分け

コストペナルティCはSVMの境界線を引くに辺り、誤分類をどこまで許容するかを決めるハイパーパラメータである。値を大きくすると、誤分類しないように境界線が惹かれるが、サポートベクターとの距離が近くなってしまう場合があり、汎化能力が落ちることに繋がる。そのため、多少の誤分類を認めたほうが、最終的に分類の精度がよくなる可能性が高いことが知られている。