<a href="https://colab.research.google.com/github/Hirokazzz/DataScientistLab/blob/master/SVM%E3%81%A7Iris%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E5%88%86%E6%9E%90%E3%81%99%E3%82%8B.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

参考文献：東京大学のデータサイエンティスト育成講座

### アイリスのクラス分類（SVM）

アイリスの花弁の長さと幅、ガクの長さと幅をセンチメートル単位で観測してアイリスの分類を行います。

In [1]:
# ライブラリの読み込み
import numpy as np
from scipy import sparse
import matplotlib.pyplot as plt
import pandas as pd
from IPython.display import display
import sys

### データの読み込み

In [2]:
from sklearn.datasets import load_iris
iris_dataset = load_iris()

読み込んだデータはBunchクラスのオブジェクトであり、辞書と同じ形式のオブジェクトでキーと値を持っています。

iris_dataset.keys()でキーの一覧を確認できます。

In [3]:
print("key of iris_dataset: \n{}".format(iris_dataset.keys()))

key of iris_dataset: 
dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])


### 求めたいアイリスの種類の確認


In [4]:
print("アイリスの種類: {}".format(iris_dataset['target_names']))

アイリスの種類: ['setosa' 'versicolor' 'virginica']


#### 特徴量の名前とデータの確認
どのようなデータがどのような順番で入っているか確認するには iris_dataset['feature_names']で取得

* 「sepal length (cm)」:ガクの長さ
*「sepal width (cm)」 :ガクの幅
*「petal length (cm)」:花弁の長さ
*「petal width (cm)」:花弁の幅

それぞれの個別の値を一部確認するには iris_dataset['data'][:5]で取得。[:5]の5の値を変更すると、その数だけ確認できます。  
全て確認する場合は、iris_dataset['data'] で取得できます。

In [5]:
print("特徴量の名前: {}".format(iris_dataset['feature_names']))

特徴量の名前: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [6]:
print("5件だけデータ表示: \n{}".format(iris_dataset['data'][:5]))

5件だけデータ表示: 
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]


In [None]:
#データサイズを確認
print("Shape of data: {}".format(iris_dataset['data'].shape))

Shape of data: (150, 4)


### 訓練データとテストデータの分離

In [7]:
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(
  iris_dataset['data'],iris_dataset['target'],random_state=0
)

分離取得したデータの配列の形状を確認します。

In [8]:
print("X_train shape: {}".format(X_train.shape))
print("y_train shape: {}".format(y_train.shape))

X_train shape: (112, 4)
y_train shape: (112,)


In [9]:
print("X_test shape: {}".format(X_test.shape))
print("y_test shape: {}".format(y_test.shape))

X_test shape: (38, 4)
y_test shape: (38,)


## SVM
### ハイパーパラメータ
#### パラメータC
学習時に分類の誤りをどの程度許容するかを指定します。
非線形の場合はソフトマージンのペナルティといいます。

#### パラメータKernel
* linear : LinearSVC
* rbf :デフォルト
* poly
* sigmoid
* precomputed
kernel

基本的に使うのは、線形カーネルの Linear と、 非線形カーネルの rbf の二種類。ちなみに、 Linear にすると直線で、データを分け、 rbf にすると、より曲線的で、複雑な線でデータを分ける。

gamma
これは、線に近い方の点か線から遠い方の点、どちらを重要視するかを決める。つまり、値を大きくすると、近くの点との margin を重要視して、その結果、線は複雑になる。



In [10]:
from sklearn.svm import SVC
svc = SVC(C=1.0, gamma=0.1, kernel='linear')

In [11]:
svc.fit(X_train,y_train)

SVC(C=1.0, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma=0.1, kernel='linear',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

### モデルをテストして精度を確認する

In [12]:
y_pred = svc.predict(X_test)
print("Test set predictions: \n {}".format(y_pred))

Test set predictions: 
 [2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2]


 ### 精度計算

In [13]:
print("Train set score: {:.2f}".format(svc.score(X_train,y_train)))

Train set score: 0.98


In [14]:
print("Test set score: {:.2f}".format(svc.score(X_test,y_test)))

Test set score: 0.97


## 予測
野生のアイリスを見つけてガクと花弁の長さと幅を調べてその品種を予測する。

* ガクの長さ : 5センチ
* ガクの幅 : 2.9センチ
* 花弁の長さ : 1センチ
* 花弁の幅 : 0.2センチ

In [15]:
X_new = np.array([[5,2.9,1,0.2]])
print("X_new.shape:{}".format(X_new.shape))

X_new.shape:(1, 4)


In [16]:
prediction = svc.predict(X_new)
print("Prediction: {}".format(prediction))
print("Predicted target name: {}".format(iris_dataset['target_names'][prediction]))

Prediction: [0]
Predicted target name: ['setosa']
