#SVM

In [8]:
# SVM - ２つのカテゴリを識別する分類器,与えられたデータを線形分離するように考える
# 境界線に最も近いサンプルと距離(マージン)が最大になるように境界線が定義されている
# 元々は線形分離として使用されてきたが、カーネル関数と呼ばれる関数を用いて、高次元(無限次元)の特徴空間へ写像し、特徴空間上で線形分離を行う手法が提案された。

# カーネルトリック - カーネル関数を取り入れた一連の手法

#SVMの実装

In [3]:
# 必要なmoduleのimport
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris

In [6]:
# datasetの読み込み
dataset = load_iris()
columns_name = dataset.feature_names #特徴量名

In [None]:
x = dataset.data #入力データ
print(x)

In [9]:
# ３つの種類の花(0,1,2)を分けるのが今回の問題設定
t = dataset.target #目標値
print(t)

# 種類を確認したい場合
print(np.unique(t))

print(x.shape)
print(t.shape)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
[0 1 2]
(150, 4)
(150,)


In [10]:
from sklearn.model_selection import train_test_split

In [11]:
x_train, x_test, t_train, t_test = train_test_split(x,t,test_size=0.3,random_state=0)
print(x_train.shape)
print(x_test.shape)
print(t_train.shape)
print(t_test.shape)

(105, 4)
(45, 4)
(105,)
(45,)


In [12]:
# SVC - classification, SVR - regression 
from sklearn.svm import SVC

In [13]:
#モデルの宣言
model = SVC()

In [14]:
# モデルの学習
model.fit(x_train, t_train)

SVC()

In [15]:
#学習精度の検証
print(f"train_score:{model.score(x_train,t_train)}")
print(f"test_score:{model.score(x_test,t_test)}") 

# いい精度,SVMは一般的にはデータに対して標準化を適用する必要がある
# 標準化 - 値のスケールを揃えること(今回はcmのためスケールはほぼ同じ)
# 標準化する理由 - 距離の概念を用いるため、ある程度同じようなスケールでしないと(スケール統一),精度が落ちる

# train_score:0.9714285714285714
# test_score:0.9777777777777777

train_score:0.9714285714285714
test_score:0.9777777777777777


#標準化実装

In [16]:
# StandardScaler - 標準化
from sklearn.preprocessing import StandardScaler

In [17]:
scaler = StandardScaler()

In [19]:
# scaler.fit(標準化したいデータを入れる)
scaler.fit(x_train)

StandardScaler()

In [23]:
x_train_std = scaler.transform(x_train) #標準化した訓練データ
x_test_std = scaler.transform(x_test) #標準化した検証データ

In [30]:
print(x_train.mean()) 
print(x_train_std.mean()) #標準化したものも平均値
print(round(x_train_std.mean()))
print(round(x_train_std.std()))
# round - 四捨五入

#3.6795963101862333e-16 -端的にいうと0。つまり平均０

3.4985714285714287
3.6795963101862333e-16
0
1


In [31]:
model_std = SVC() # 標準化した場合のモデル

# SVC(C=), cost_parameter_c - 誤った予測に対するペナルティー,
# SVC(C=,gamma=) gamma - モデルの複雑さを決定する,値が多くなるほど過学習に陥りやすい
# ハイパーパラメータをいじれば値が変わる

In [33]:
model_std.fit(x_train_std,t_train)

SVC()

In [36]:
print(f"train_score:{model.score(x_train,t_train)}")
print(f"test_score:{model.score(x_test,t_test)}") 
print("===================================")
print(f"train_score:{model_std.score(x_train_std,t_train)}")
print(f"test_score:{model_std.score(x_test_std,t_test)}") 

# 今回はスケールが統一されていたので変化はなし

train_score:0.9714285714285714
test_score:0.9777777777777777
train_score:0.9714285714285714
test_score:0.9777777777777777


#分類の指標評価

In [None]:
# Accuracy(正解率) - 全ての値を足し合わせてどれだけあっているのか測る(最も一般的)
# Precisin(適合率) - 本当に正しい割合
# Recall(再現率) - 正しいと予測できたか割合
# F1 score(F値) - 調和平均で計算される指標