大課題 毒キノコの判定 SVM

SVMとは何か  
・どのようなときに使うのか  
・どのような仕組みなのか  
・どういった利点欠点があるのか  

答え：  
SVMは回帰にも分類にも使える教師あり機械学習の手法の一つ。回帰では、マージンの最大化の代わりに、サンプルをうまく含むεチューブを探す。分類では、2つのクラスを分割するための超平面を探す。超平面は最も近い点との距離（マージン）を最大化するようにとる。
3クラス以上の場合には2クラスの分類を繰り返します。カーネル関数により高次元を考えることで、複雑な分類（非線形問題）への対応も可能。間違った分類も認めた方が全体としてはうまくいく（汎化性能が高くなる）。
分類も回帰も、２クラス分類も多クラス分類も、データの特徴量が多くても少なくても機能するモデル。わずかな特徴量しかない場合にも精度の高いモデルを生成することが出来る。低次元データでも高次元データでもうまく機能するが、サンプルの個数が大きくなる（10,000サンプルを超えて100,000サンプルくらいになる）とうまく機能しない（実行時間やメモリ使用量の面で）。また、注意深くデータの前処理とパラメータ調整を行う必要がある。検証が難しく（予測の理由を理解することが難しく）、モデルを専門家以外に説明するのも大変。

データの取得

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from IPython.display import display

from sklearn.svm import SVC, LinearSVC
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split

In [4]:
df=pd.read_csv('kinoko_data.csv')
df

Unnamed: 0,p,x,s,n,t,p.1,f,c,n.1,k,...,s.2,w,w.1,p.2,w.2,o,p.3,k.1,s.3,u
0,e,x,s,y,t,a,f,c,b,k,...,s,w,w,p,w,o,p,n,n,g
1,e,b,s,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,n,m
2,p,x,y,w,t,p,f,c,n,n,...,s,w,w,p,w,o,p,k,s,u
3,e,x,s,g,f,n,f,w,b,k,...,s,w,w,p,w,o,e,n,a,g
4,e,x,y,y,t,a,f,c,b,n,...,s,w,w,p,w,o,p,k,n,g
5,e,b,s,w,t,a,f,c,b,g,...,s,w,w,p,w,o,p,k,n,m
6,e,b,y,w,t,l,f,c,b,n,...,s,w,w,p,w,o,p,n,s,m
7,p,x,y,w,t,p,f,c,n,p,...,s,w,w,p,w,o,p,k,v,g
8,e,b,s,y,t,a,f,c,b,g,...,s,w,w,p,w,o,p,k,s,m
9,e,x,y,y,t,l,f,c,b,g,...,s,w,w,p,w,o,p,n,n,g


In [5]:
list_columns = df.columns

データの変換

In [6]:
from sklearn.preprocessing import LabelEncoder

for i in list_columns:
    le = LabelEncoder()
    le.fit(df[i])
    df[i]=le.transform(df[i])
df

Unnamed: 0,p,x,s,n,t,p.1,f,c,n.1,k,...,s.2,w,w.1,p.2,w.2,o,p.3,k.1,s.3,u
0,0,5,2,9,1,0,1,0,0,4,...,2,7,7,0,2,1,4,3,2,1
1,0,0,2,8,1,3,1,0,0,5,...,2,7,7,0,2,1,4,3,2,3
2,1,5,3,8,1,6,1,0,1,5,...,2,7,7,0,2,1,4,2,3,5
3,0,5,2,3,0,5,1,1,0,4,...,2,7,7,0,2,1,0,3,0,1
4,0,5,3,9,1,0,1,0,0,5,...,2,7,7,0,2,1,4,2,2,1
5,0,0,2,8,1,0,1,0,0,2,...,2,7,7,0,2,1,4,2,2,3
6,0,0,3,8,1,3,1,0,0,5,...,2,7,7,0,2,1,4,3,3,3
7,1,5,3,8,1,6,1,0,1,7,...,2,7,7,0,2,1,4,2,4,1
8,0,0,2,9,1,0,1,0,0,2,...,2,7,7,0,2,1,4,2,3,3
9,0,5,3,9,1,3,1,0,0,2,...,2,7,7,0,2,1,4,3,2,1


データセットの分割

In [7]:
X = df.drop(['p'], axis=1)
y = df['p']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,random_state=1)

標準化

In [8]:
from sklearn.preprocessing import StandardScaler
stdsc = StandardScaler()
# 注意
# 訓練用のデータのみの平均、標準偏差を用いて標準化する
X_train = stdsc.fit_transform(X_train)
# テストデータも標準化
X_test = stdsc.transform(X_test)

print(X_train.mean())
print(X_train.std())
# test用はtrainを基準に標準化してるので、多少0,1からずれる
print(X_test.mean())
print(X_test.std())

-1.02886444992e-17
0.977008420918
0.00269969291431
0.968548447178


なぜSVMを行う際に標準化が必要なのか

答え：  
SVMではデータのスケールに敏感で、特徴量間のサイズの違いが精度に与える影響が大きいから。カーネル関数は特徴ベクトルの内積を用いて計算するので，スケーリングを行わずに計算すると，大きい値×小さい値となり，情報落ちする可能性があります。

カーネルとは何か

答え：  
高次元空間へのマップ方法。多項式カーネル（polynomial kernel)、RBFカーネルと呼ばれるガウシアンカーネルなどがある。拡張された特徴表現上でのデータポイント間の距離を、実際にデータポイントの拡張を計算せずに、直接計算する方法をカーネルトリックという。

コストペナルティCとは何か

答え：  
モデルの複雑さを制御するパラメータで、個々のデータポイントの重要度を制限できる（誤分類の影響をどれだけ反映させるかを指定できる）。

In [9]:
tuned_parameters = [
    {'C': [1, 10, 100, 1000], 'kernel': ['linear']},
    {'C': [1, 10, 100, 1000], 'kernel': ['rbf'], 'gamma': [0.001, 0.0001]},
    {'C': [1, 10, 100, 1000], 'kernel': ['poly'], 'degree': [2, 3, 4], 'gamma': [0.001, 0.0001]},
    {'C': [1, 10, 100, 1000], 'kernel': ['sigmoid'], 'gamma': [0.001, 0.0001]}
    ]

score = 'f1'
clf = GridSearchCV(
    SVC(), # 識別器
    tuned_parameters, # 最適化したいパラメータセット 
    cv=5, # 交差検定の回数
    scoring='%s_weighted' % score ) # モデルの評価関数の指定

clf.fit(X_train, y_train) 

# params = {  'n_estimators': [4, 6, 9],
#             'max_features': ['log2', 'sqrt','auto'],
#             'criterion': ['entropy', 'gini'],
#             'max_depth': [2, 3, 5, 10],
#             'min_samples_split': [2, 3, 5],
#             'min_samples_leaf': [1,5,8]
#          }

# # モデルにインスタンス生成
# mod = RandomForestClassifier()

# # ハイパーパラメータ探索
# cv = GridSearchCV(estimator = mod, param_grid = params, cv = 10, scoring= 'accuracy', n_jobs = -1)
# cv.fit(X_train, y_train)


  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'precision'

GridSearchCV(cv=5, error_score='raise',
       estimator=SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape=None, degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False),
       fit_params={}, iid=True, n_jobs=1,
       param_grid=[{'C': [1, 10, 100, 1000], 'kernel': ['linear']}, {'C': [1, 10, 100, 1000], 'kernel': ['rbf'], 'gamma': [0.001, 0.0001]}, {'C': [1, 10, 100, 1000], 'kernel': ['poly'], 'degree': [2, 3, 4], 'gamma': [0.001, 0.0001]}, {'C': [1, 10, 100, 1000], 'kernel': ['sigmoid'], 'gamma': [0.001, 0.0001]}],
       pre_dispatch='2*n_jobs', refit=True, return_train_score=True,
       scoring='f1_weighted', verbose=0)

In [10]:
clf.best_params_

{'C': 1000, 'gamma': 0.001, 'kernel': 'rbf'}

学習およびテスト

In [11]:
svc = SVC( kernel='rbf', gamma=0.001, C=1000)
svc.fit(X_train, ｙ_train)
ｙ_pred = svc.predict(X_test)

In [12]:
from sklearn.metrics import classification_report, accuracy_score
print(classification_report(y_test, ｙ_pred))
print(accuracy_score(y_test, ｙ_pred))

             precision    recall  f1-score   support

          0       1.00      1.00      1.00       796
          1       1.00      1.00      1.00       829

avg / total       1.00      1.00      1.00      1625

1.0
