<a href="https://colab.research.google.com/github/shin1014/git-practice/blob/master/19122030_%E7%94%B0%E4%B8%AD%E6%85%8E%E5%A4%AA%E9%83%8E_%E8%AA%B2%E9%A1%8C1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

scikit-learn付属のデータセットのうち、wineデータセットを用いる。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.svm import SVC
from sklearn.datasets import load_wine
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler

wine = load_wine()
scaler = StandardScaler()

X = wine.data
y = wine.target
(X_train, X_test, y_train, y_test) = train_test_split(X, y, test_size=0.3, random_state=0)

まずはデフォルトのデフォルトのSVCによるaccuracyを測定する。

In [None]:
clf = SVC()
clf.fit(X_train,y_train)
base_score = clf.score(X_test, y_test)
print(f'accuracy = {base_score:.4}')

accuracy = 0.7778


次に、カーネルをハイパーパラメータをグリッドサーチによりチューニングする。
SVCの持つハイパーパラメータのうち、以下のパラメータをその対象とした。
・"C": 正則化パラメータ。大きいほど誤分類を許容しなくなる。
・"degree": "kernel"を多項式カーネル"poly"に指定した場合のみ用いられる、多項式の次数を指定するパラメータ。データの複雑さに応じて適切に値を定める必要がある。
・"gamma": "rbf"，"poly"をカーネルに用いた場合のカーネル関数の係数。データの複雑さに応じて適切に値を定める必要がある。

In [None]:
svc = SVC(kernel="rbf")
parameters = {"C": [10 ** i for i in range(-5, 5)],
            'gamma': [10 ** i for i in range(-5, 1)], 
            }
clf = GridSearchCV(svc,parameters)
clf.fit(X_train, y_train)
print(f'accuracy = {clf.score(X_test, y_test):.5}')
rbf_best = clf.best_estimator_
print(rbf_best)

accuracy = 0.96296
SVC(C=10000, gamma=1e-05)


得られた最適パラメータが探索範囲の境界値であったので、その方向に探索範囲を広げて再度実行する。

In [None]:
svc = SVC(kernel="rbf")
parameters = {"C": [10 ** i for i in range(-5, 5)],
            'gamma': [10 ** i for i in range(-10, 1)], 
            }
clf = GridSearchCV(svc,parameters)
clf.fit(X_train, y_train)
print(f'accuracy = {clf.score(X_test, y_test):.5}')
rbf_best = clf.best_estimator_
print(rbf_best)

accuracy = 0.96296
SVC(C=10000, gamma=1e-05)


これをカーネルがrbfのときの最適パラメータとする

In [None]:
svc = SVC(kernel="linear")
parameters = {"C": [10 ** i for i in range(-10, 10)],
            }
clf = GridSearchCV(svc,parameters)
clf.fit(X_train, y_train)
print(f'accuracy = {clf.score(X_test, y_test):.5}')
linear_best = clf.best_estimator_
print(linear_best)

accuracy = 0.96296
SVC(C=0.1, kernel='linear')


In [None]:
svc = SVC(kernel="poly")
parameters = {"C": [10 ** i for i in range(-10, 3)],
              "degree": [ j for j in range(1, 5)],
              'gamma': [10 ** i for i in range(-5, 1)]
            }
clf = GridSearchCV(svc,parameters)
clf.fit(X_train, y_train)
print(f'accuracy = {clf.score(X_test, y_test):.5}')
poly_best = clf.best_estimator_
print(poly_best)

accuracy = 0.96296
SVC(C=1e-10, gamma=0.1, kernel='poly')


In [None]:
svc = SVC(kernel="sigmoid")
parameters = {"C": [10 ** i for i in range(-10, 6)],
              'gamma': [10 ** i for i in range(-10, 1)]
            }
clf = GridSearchCV(svc,parameters)
clf.fit(X_train, y_train)
print(f'accuracy = {clf.score(X_test, y_test):.5}')
poly_best = clf.best_estimator_
print(poly_best)

accuracy = 0.81481
SVC(C=100000, gamma=1e-07, kernel='sigmoid')


以上から、accuracy scoreはそれぞれのカーネルとハイパーパラメータについていずれも0.96296で頭打ちとなった。

さらに性能を向上させるため、データを標準化し、再度同じグリッドサーチを行う

In [None]:
scaler.fit(X_train)
X_train = scaler.transform(X_train)
scaler.fit(X_test)
X_test = scaler.transform(X_test)

In [None]:
clf = SVC()
clf.fit(X_train,y_train)
base_score = clf.score(X_test, y_test)
print(f'mean accuracy = {base_score:.4}')

mean accuracy = 1.0


In [None]:
svc = SVC(kernel="rbf")
parameters = {"C": [10 ** i for i in range(-5, 5)],
            'gamma': [10 ** i for i in range(-5, 1)], 
            }
clf = GridSearchCV(svc,parameters)
clf.fit(X_train, y_train)
print(f'accuracy = {clf.score(X_test, y_test):.5}')
rbf_best = clf.best_estimator_
print(rbf_best)

accuracy = 1.0
SVC(C=1, gamma=0.1)


In [None]:
svc = SVC(kernel="rbf")
parameters = {"C": [10 ** i for i in range(-5, 5)],
            'gamma': [10 ** i for i in range(-10, 1)], 
            }
clf = GridSearchCV(svc,parameters)
clf.fit(X_train, y_train)
print(f'accuracy = {clf.score(X_test, y_test):.5}')
rbf_best = clf.best_estimator_
print(rbf_best)

accuracy = 1.0
SVC(C=1, gamma=0.1)


In [None]:
svc = SVC(kernel="linear")
parameters = {"C": [10 ** i for i in range(-10, 10)],
            }
clf = GridSearchCV(svc,parameters)
clf.fit(X_train, y_train)
print(f'accuracy = {clf.score(X_test, y_test):.5}')
linear_best = clf.best_estimator_
print(linear_best)

accuracy = 1.0
SVC(C=0.01, kernel='linear')


In [None]:
svc = SVC(kernel="poly")
parameters = {"C": [10 ** i for i in range(-5, 6)],
              "degree": [ j for j in range(1, 5)],
              'gamma': [10 ** i for i in range(-5, 1)]
            }
clf = GridSearchCV(svc,parameters)
clf.fit(X_train, y_train)
print(f'accuracy = {clf.score(X_test, y_test):.5}')
poly_best = clf.best_estimator_
print(poly_best)

accuracy = 1.0
SVC(C=0.01, degree=1, gamma=1, kernel='poly')


In [None]:
svc = SVC(kernel="sigmoid")
parameters = {"C": [10 ** i for i in range(-10, 6)],
              'gamma': [10 ** i for i in range(-10, 1)]
            }
clf = GridSearchCV(svc,parameters)
clf.fit(X_train, y_train)
print(f'accuracy = {clf.score(X_test, y_test):.5}')
poly_best = clf.best_estimator_
print(poly_best)

accuracy = 0.98148
SVC(C=0.1, gamma=0.1, kernel='sigmoid')


データを標準化した結果、sigmoidカーネル以外では以外ではaccuracy scoreがが1となり、完全に識別ができていることわかる。
グリッドサーチによって発見されたハイパーパラメータの値も、標準化前と比較して極端な数字でないことから、識別器の性能向上には性能向上にはパラメータチューニングのみならずデータの前処理が有効であることがわかる。