# SVMによる分類

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# matplotlib: 日本語フォントの設定
from matplotlib import rcParams
rcParams['font.family'] = 'sans-serif'
rcParams['font.sans-serif'] = ['Hiragino Maru Gothic Pro', 'Yu Gothic', 'Meirio', 
                               'Takao', 'IPAexGothic', 'IPAPGothic', 'Noto Sans CJK JP']

# Iris データセット
iris = sns.load_dataset('iris')

# species が setosa のデータを除去
df = iris.query('species!="setosa"')
# speciesを 0, 1 にするためにダミー変数化
df = pd.get_dummies(data=df, drop_first=True)

# データセットの確認
df.iloc[[0, 50]]

<hr>

### SVMの精度の比較

説明変数

1. 一番重なりが少なそうな petal_width だけ
2. かなりの重なりがある petal_width だけ
3. 全部 (sepal_length, sepal_width, petal_length, petal_width)

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, confusion_matrix
from sklearn.metrics import roc_curve, auc
from sklearn.svm import SVC

# 説明変数のリストと目的変数の設定
X_labels_list = [
    ['petal_width'],
    ['sepal_width'],
    ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
]
Y = df.species_virginica

# SVM Classifier の作成
# - probability=True: predict_proba を呼び出し可能にするためのオプション
model = SVC(probability=True)

for i in range(0, len(X_labels_list)):
    # ラベルから説明変数の設定
    X_labels = X_labels_list[i]
    X = df[X_labels]
    # 学習
    model.fit(X, Y)
    # 教師データについてモデルからの予測値を計算
    Y_predict = model.predict(X)

    # 特異度の計算
    matrix = confusion_matrix(Y, Y_predict)
    specificity = matrix[0, 0] / (matrix[0, 1] + matrix[0, 0])
    # 精度
    print('{}: {}'.format(i, X_labels))
    print('正確度: {:.3f}, 適合度: {:.3f}, 再現率: {:.3f}, 特異度: {:.3f}'.format(
        accuracy_score(Y, Y_predict), precision_score(Y, Y_predict),
        recall_score(Y, Y_predict), specificity))
    # ROC, AUC
    Y_proba = model.predict_proba(X)
    fpr, tpr, thresholds = roc_curve(Y, Y_proba[:, 1])
    plt.plot(fpr, tpr, label='{}: AUC={:.3f}'.format(i, auc(fpr, tpr)))

plt.xlabel('偽陽性率 (FP率)')
plt.ylabel('真陽性率 (TP率)')
plt.title('ROC曲線')
plt.legend()
plt.show()

<hr>

### カーネルの比較

- 説明変数はランダムフォレストで情報利得が大きい petal_length, petal_width を選択。
- SVMのカーネル (kernel) を変更。
  - linear: 線形
  - rbf: ガウスカーネル
  - poly: 多項式カーネル

In [None]:
X = df[['petal_length', 'petal_width']]
Y = df.species_virginica

# カーネルのリストを作成
kernels = ['linear', 'rbf', 'poly']

for k in kernels:
    # カーネルの選択
    model = SVC(kernel=k, probability=True)
    # 学習
    model.fit(X, Y)
    # 教師データについてモデルからの予測値を計算
    Y_predict = model.predict(X)

    # 特異度の計算
    matrix = confusion_matrix(Y, Y_predict)
    specificity = matrix[0, 0] / (matrix[0, 1] + matrix[0, 0])
    # 精度
    print('{}: 正確度: {:.3f}, 適合度: {:.3f}, 再現率: {:.3f}, 特異度: {:.3f}'.format(
        k, accuracy_score(Y, Y_predict), precision_score(Y, Y_predict),
        recall_score(Y, Y_predict), specificity))
    # ROC, AUC
    Y_proba = model.predict_proba(X)
    fpr, tpr, thresholds = roc_curve(Y, Y_proba[:, 1])
    plt.plot(fpr, tpr, label='{}: AUC={:.3f}'.format(k, auc(fpr, tpr)))

plt.xlabel('偽陽性率 (FP率)')
plt.ylabel('真陽性率 (TP率)')
plt.title('ROC曲線')
plt.legend()
plt.show()

<hr>

### パラメータの比較

- 説明変数はランダムフォレストで情報利得が大きい petal_length, petal_width を選択。
- SVMのパラメータを変更。
  - kernel: 多項式カーネル (poly)
  - degree: 次元が大きいと、複雑な分類境界を形成
  - C: 大きいと、誤分類を減らす方を優先、分類境界は複雑化

In [None]:
X = df[['petal_length', 'petal_width']]
Y = df.species_virginica

# 異なるパラメータを設定したモデルのリストの作成
models = [
    SVC(kernel='poly', degree=3, C=1.0, probability=True),
    SVC(kernel='poly', degree=10, C=1.0, probability=True),
    SVC(kernel='poly', degree=3, C=100.0, probability=True),
    SVC(kernel='poly', degree=10, C=100.0, probability=True)
]

for i in range(0, len(models)):
    # モデルの選択
    model = models[i]
    # 学習
    model.fit(X, Y)
    # 教師データについてモデルからの予測値を計算
    Y_predict = model.predict(X)

    # 特異度の計算
    matrix = confusion_matrix(Y, Y_predict)
    specificity = matrix[0, 0] / (matrix[0, 1] + matrix[0, 0])
    # 精度
    print('{}: 正確度: {:.3f}, 適合度: {:.3f}, 再現率: {:.3f}, 特異度: {:.3f}'.format(
        i, accuracy_score(Y, Y_predict), precision_score(Y, Y_predict),
        recall_score(Y, Y_predict), specificity))
    # ROC, AUC
    Y_proba = model.predict_proba(X)
    fpr, tpr, thresholds = roc_curve(Y, Y_proba[:, 1])
    plt.plot(fpr, tpr, label='{}: AUC={:.3f}'.format(i, auc(fpr, tpr)))

plt.xlabel('偽陽性率 (FP率)')
plt.ylabel('真陽性率 (TP率)')
plt.title('ROC曲線')
plt.legend()
plt.show()