<a href="https://colab.research.google.com/github/naomori/codexa_SVM/blob/master/Chapter3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Section.2: 必要なライブラリのインポート

In [0]:
# ライブラリのインポート
import pandas as pd
import sklearn
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn import svm
from sklearn.metrics import confusion_matrix 
from sklearn.metrics import accuracy_score

In [2]:
print(pd.__version__)
print(sklearn.__version__)

0.24.2
0.21.3


# Section.3: データの読み込み

In [3]:
# アイリスデータセットの読み込み
iris = datasets.load_iris()

# データ型の確認
type(iris)

sklearn.utils.Bunch

In [4]:
# データフレームへ変換
irisdf = pd.DataFrame(iris.data, columns = iris.feature_names)
irisdf['target'] = iris.target

# 確認のため最初の5行を表示
irisdf.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [0]:
# 訓練データ/テストデータの分割
train_set, test_set = train_test_split(irisdf, test_size = 0.2, random_state = 42)

In [0]:
# 訓練データの特徴量/ターゲットの切り分け
X_train = train_set.drop('target',axis=1)
y_train = train_set['target'].copy()

# テストデータの特徴量/ターゲットの切り分け
X_test = test_set.drop('target',axis=1)
y_test = test_set['target'].copy()

# Section.4: 正規化（Normarlization, Feature Scaling）

最も一般的な２つの手法がある。

* Z-core Normalization
* min-max normalization

In [0]:
# Scikit-learnを利用して特徴量の正規化を行う
StandardScaler = StandardScaler()
X_train_norm = StandardScaler.fit_transform(X_train)
X_test_norm = StandardScaler.fit_transform(X_test)

In [14]:
# 最初の5行を表示
X_train.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
22,4.6,3.6,1.0,0.2
15,5.7,4.4,1.5,0.4
65,6.7,3.1,4.4,1.4
11,4.8,3.4,1.6,0.2
42,4.4,3.2,1.3,0.2


In [15]:
# 正規化した特徴量を確認する
X_train_norm[0:5]

array([[-1.47393679,  1.20365799, -1.56253475, -1.31260282],
       [-0.13307079,  2.99237573, -1.27600637, -1.04563275],
       [ 1.08589829,  0.08570939,  0.38585821,  0.28921757],
       [-1.23014297,  0.75647855, -1.2187007 , -1.31260282],
       [-1.7177306 ,  0.30929911, -1.39061772, -1.31260282]])

In [16]:
# 正規化後のsepal length(cm）の特徴量の平均
print(X_train_norm[:,0].mean())

# 正規化後のsepal length(cm）の特徴量の標準偏差
print(X_train_norm[:,0].std())

1.7541523789077474e-15
1.0


# Section.5: モデル訓練

In [17]:
# SVMのモデル訓練
clf = svm.SVC()
clf.fit(X_train_norm, y_train)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
    kernel='rbf', max_iter=-1, probability=False, random_state=None,
    shrinking=True, tol=0.001, verbose=False)

In [0]:
# 訓練データを使って予測
y_pred_train = clf.predict(X_train_norm)

# テストデータを使って予測
y_pred_test = clf.predict(X_test_norm)

# Section.6: モデル評価

In [19]:
# 訓練データの混同行列
confusion_matrix(y_train,y_pred_train)

array([[40,  0,  0],
       [ 0, 38,  3],
       [ 0,  1, 38]])

In [20]:
# 訓練データの正解率
accuracy_score(y_train,y_pred_train)

0.9666666666666667

In [21]:
# テストデータの混同行列
confusion_matrix(y_test,y_pred_test)

array([[10,  0,  0],
       [ 0,  9,  0],
       [ 0,  1, 10]])

In [22]:
# テストデータでの正解率
accuracy_score(y_test,y_pred_test)

0.9666666666666667

In [23]:
# テストデータの正解ラベルと予測値を確認
print(y_test[0:10].values.T)
print(y_pred_test[0:10])

[1 0 2 1 1 0 1 2 1 1]
[1 0 2 1 1 0 1 2 1 1]
