# 大課題 毒キノコの判定 SVM

# 導入
## 【課題】SVMとは何か
以下の要素を含みながらSVMについて簡潔に説明してください。

- どのようなときに使うのか
- どのような仕組みなのか
- どういった利点欠点があるのか

* * *
__(回答)__

サポートベクタと呼ばれる決定境界に最も近いトレーニングサンプルとの間の距離（マージン）を最大化することで決定境界を求める手法。SVMは分類モデル、回帰モデルとしても利用可能。

長所と短所は以下。

長所
- 分類、回帰の両方に利用可能。
- 線形だけでなく、非線形にも対応可（カーネルをもちろん使う）
- 誤分類の許容ができるので、バイアス/バリアンスのトレードオフが調整可能。
- 多種あるカーネルを使うことができ、線形・多項式・シグモイドカーネルなどを使って様々な決定境界を表現できる。

短所
- 線形クラスの分類モデルにおいて、SVM（SVC）は多クラス分類可能だが、方法にそれぞれ欠点有。
    - 1対他方式：「AとB+C」、「BとA+C」、「CとA+B」の3回のSVM実行。（テキスト抜粋）各SVMにおいて2つのクラスのバランスが悪い、各SVMによる予測に差が出てそれぞれの優劣を決められない
    - 1対1方式：2クラスをペアを作り、それぞれのSVMを構築。クラス数が多い場合は計算コストがかかる。
- カーネルSVMでは少ない特徴量で複雑な決定境界を生成できるが、サンプルの個数が大きいとうまく機能しない。実行時やメモリ使用量の面でも問題あり。
- 前処理で特徴量のスケール変換をしておかないとカーネル法を使ったSVMでは影響大。
- コストペナルティCやスラック変数パラメータ調整も必要。

### Tuning
- Kernel
- Cost penalty

### Evaluation
- Modeling

```
print(clf.best_estimator_)  # 最適なパラメータを表示
print('Train score: {}'.format(clf.score(X_train, y_train))) #Returns the mean accuracy on the given test data and labels.
print('Test score: {}'.format(clf.score(X_test, y_test)))
```

- Gridsearch
```
    for params, mean_score, all_scores in clf.grid_scores_:
        print("{:.3f} (+/- {:.3f}) for {}".format(mean_score, all_scores.std() / 2, params))

    # 最適なパラメータのモデルでクラスタリングを行う
    y_true, y_pred = y_test, clf.predict(X_test)
    print(classification_report(y_true, y_pred))  # クラスタリング結果を表示
    print(confusion_matrix(y_true, y_pred))       # クラスタリング結果を表示
```

## ※必要なライブラリをimport

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from IPython.display import display

# データの取得

## 【課題】データを取得する

In [3]:
cols = ['class','cap-shape','cap-surface','cap-color','bruises','odor','gill-attachment','gill-spacing','gill-size','gill-color','stalk-shape','stalk-root','stalk-surface-above-ring','stalk-surface-below-ring','stalk-color-above-ring','stalk-color-below-ring','veil-type','veil-color','ring-number','ring-type','spore-print-color','population','habitat']
df = pd.read_csv("../../../mltestdata/dic01_svm/agaricus-lepiota.data",header=None)
df.columns = cols

In [4]:
df.head()

Unnamed: 0,class,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,...,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
0,p,x,s,n,t,p,f,c,n,k,...,s,w,w,p,w,o,p,k,s,u
1,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
2,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
3,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
4,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g


In [5]:
# Check whether NaN exists.
df.isnull().any()

class                       False
cap-shape                   False
cap-surface                 False
cap-color                   False
bruises                     False
odor                        False
gill-attachment             False
gill-spacing                False
gill-size                   False
gill-color                  False
stalk-shape                 False
stalk-root                  False
stalk-surface-above-ring    False
stalk-surface-below-ring    False
stalk-color-above-ring      False
stalk-color-below-ring      False
veil-type                   False
veil-color                  False
ring-number                 False
ring-type                   False
spore-print-color           False
population                  False
habitat                     False
dtype: bool

# 前処理

## 【課題】データの変換
このデータセットではターゲットも特徴量も全て文字列なので、SVMで利用できるようにそれらを整数に変換する。

In [6]:
from sklearn import preprocessing
le_l = []

for col in cols:
    le = preprocessing.LabelEncoder()
    df[col] = le.fit_transform(df[col])
    le_l.append(le)

In [7]:
df.head()

Unnamed: 0,class,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,...,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
0,1,5,2,4,1,6,1,0,1,4,...,2,7,7,0,2,1,4,2,3,5
1,0,5,2,9,1,0,1,0,0,4,...,2,7,7,0,2,1,4,3,2,1
2,0,0,2,8,1,3,1,0,0,5,...,2,7,7,0,2,1,4,3,2,3
3,1,5,3,8,1,6,1,0,1,5,...,2,7,7,0,2,1,4,2,3,5
4,0,5,2,3,0,5,1,1,0,4,...,2,7,7,0,2,1,0,3,0,1


## 【課題】データセットの分割

In [8]:
from sklearn.model_selection import train_test_split
X = df.iloc[:,1:]
y = df['class']
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2,random_state=0)

## 【課題】標準化

* * *
__(回答)__


SVMでカーネル関数を使う場合、特徴ベクトルの内積を用いて計算するため、スケーリングを行わずに計算すると、大きい値の方に偏るため[情報落ちする可能性](https://qiita.com/pika_shi/items/5e59bcf69e85fdd9edb2)がある。

In [9]:
from sklearn.preprocessing import StandardScaler
stdsc = StandardScaler()

X_train_std = stdsc.fit_transform(X_train)
X_test_std = stdsc.transform(X_test)

# ハイパーパラメータの調整

## 【課題】カーネルとは何か
SVMにおいて重要になってくるカーネルとは何でしょうか。簡潔に説明してください。また、カーネルはどう使い分けるのが良いか調べて記述してください。

* * *
__(回答)__

カーネル手法では、射影関数を使い、データを高次元空間へ射影し、線形分離をできるようにすることを可能にする。2つの特徴量間の類似性を表している関数で、カーネルには種類がある。線形モデルで決定境界をうまく表現できない場合に、カーネルを使う。

__カーネルの選び方([参考](http://sudillap.hatenablog.com/entry/2013/04/08/235610))__
- 線形分離可能であれば、線形カーネル。
- 画像を分類するときには、多項式カーネル。
- データに関する事前知識がない場合には、ラジアル基底関数カーネル（RBFカーネル、ガウシアンカーネル）。
- ニューラルネットワークの代わりとしては、双曲線正接カーネル。

# 【課題】コストペナルティCとは何か
ハイパーパラメータとして設定するコストペナルティCについて簡潔に説明してください。
* * *
__(回答)__

コスト関数（分類のはずれ具合の総和）に掛け算する係数
- 大きな値に設定することで、誤りを許容して、学習データを分類することを重視。
- 小さな値に設定することで、誤分類を減らし（マージンが小さくする）、重みベクトル（パラメータ）を重視（正則化）。

コストペナルティでバイアスとバリアンスのトレードオフを操作できる。

（メモ）コストペナルティが無限大の時は、誤分類を許容しないのがハードマージンSVM。その反対として誤分類に対してより寛大になるのが、ソフトマージンSVM。

# 【課題】ハイパーパラメータを調整する
SVMには様々なハイパーパラメータが存在する。グリッドサーチを行うことでハイパーパラメータを決定してください。
なお、実行にはある程度時間がかかることが予想されます。カーネルもハイパーパラメータのひとつと考えられます。

* * *
__(回答)__
Gridsearchより下記のハイパーパラメータを用いる。

SVC(C=1000, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma=0.001, kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

In [75]:
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC  # SVM の実行関数
from sklearn.metrics import classification_report, confusion_matrix  # 学習結果要約用関数

# 探索するパラメータを設定
param_grid = [
    {'C': [1, 10, 100, 1000], 'kernel': ['linear']},
    {'C': [1, 10, 100, 1000], 'gamma': [0.001, 0.0001], 'kernel': ['rbf']},
]

# 評価関数を指定
scores = ['accuracy', 'precision', 'recall']

# 各評価関数ごとにグリッドサーチを行う
for score in scores:
    print(score)
    clf = GridSearchCV(SVC(C=1), param_grid, cv=5, scoring=score, n_jobs=-1)  # n_jobs: 並列計算を行う（-1 とすれば使用PCで可能な最適数の並列処理を行う）
    clf.fit(X_train, y_train)

    print(clf.best_estimator_)  # 最適なパラメータを表示

    for params, mean_score, all_scores in clf.grid_scores_:
        print("{:.3f} (+/- {:.3f}) for {}".format(mean_score, all_scores.std() / 2, params))

    # 最適なパラメータのモデルでクラスタリングを行う
    y_true, y_pred = y_test, clf.predict(X_test)
    print(classification_report(y_true, y_pred))  # クラスタリング結果を表示
    print(confusion_matrix(y_true, y_pred))       # クラスタリング結果を表示

accuracy




SVC(C=1000, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma=0.001, kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)
0.963 (+/- 0.002) for {'C': 1, 'kernel': 'linear'}
0.983 (+/- 0.004) for {'C': 10, 'kernel': 'linear'}
0.985 (+/- 0.002) for {'C': 100, 'kernel': 'linear'}
0.985 (+/- 0.002) for {'C': 1000, 'kernel': 'linear'}
0.932 (+/- 0.002) for {'C': 1, 'gamma': 0.001, 'kernel': 'rbf'}
0.875 (+/- 0.005) for {'C': 1, 'gamma': 0.0001, 'kernel': 'rbf'}
0.962 (+/- 0.001) for {'C': 10, 'gamma': 0.001, 'kernel': 'rbf'}
0.916 (+/- 0.002) for {'C': 10, 'gamma': 0.0001, 'kernel': 'rbf'}
0.997 (+/- 0.001) for {'C': 100, 'gamma': 0.001, 'kernel': 'rbf'}
0.948 (+/- 0.002) for {'C': 100, 'gamma': 0.0001, 'kernel': 'rbf'}
1.000 (+/- 0.000) for {'C': 1000, 'gamma': 0.001, 'kernel': 'rbf'}
0.963 (+/- 0.001) for {'C': 1000, 'gamma': 0.0001, 'kernel': 'rbf'}
             precision    recall  f1-

# SVMの実行
## 【課題】学習およびテスト
選択したハイパーパラメータを利用して、学習およびテストを行ってください。精度も表示しましょう。

* * *
__(回答)__

※Gridsearchでは正答率100%のパラメータがあったが、ここでは確率を実際に確認する意味で意図的にgammmaは0.0001を選択しました。
ハイパーパラメータはC=1000, gamma=0.0001, kernel='rbf'を用いる。


In [84]:
clf = svm.SVC(C=1000, gamma=0.0001, kernel='rbf')
clf.fit(X_train, y_train)

SVC(C=1000, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma=0.0001, kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

In [85]:
test_pred = clf.predict(X_test)

In [86]:
print('Train score: {}'.format(clf.score(X_train, y_train)))
print('Test score: {}'.format(clf.score(X_test, y_test)))

Train score: 0.9670718572088014
Test score: 0.9704615384615385
