# Pythonを使った機械学習：Classification（分類）

# 機械学習（Machine Learning）とは？
与えられたデータ群から規則性を見つけ出して，人間の学習能力をコンピュータ上で再現すること

## 教師あり学習
人間が正解データ（教師データ）を事前に与えて，それに基づいて学習を行う手法．<br>
Classification（分類）やRegresion（回帰）など

### Classification: Suport Vector Machine（SVM）
複数のデータ群を分類する境界線を作り出すことで，与えられたデータがどの分類に属するのかがわかる<br>
境界線の引き方にも色々と種類がある<br>
![](./images/svms.png) <br>
http://scikit-learn.org/stable/auto_examples/exercises/plot_iris_exercise.html

### Classification: K-Nearest Neighbor Algorithm(KNN法）
教師データ上に与えられたデータを配置した時，教師データに近いk個のデータの割合で与えられたデータの割合を決める<br>
![](./images/knn.png)

## 教師なし学習
人間から正解データを付与されず，アルゴリズムによってコンピュータが答え（分類）を計算する手法<br>
Clustering（クラスタリング）など

## 半教師あり学習
教師ありとなしのいいとこ取りみたいな感じ

# ここでは，Classificationを扱う

# 特徴量（Features）とは？
分類のためには特徴量が必要<br>
特徴量＝コンピュータが理解できるデータ上の違い<br>
この違いが分類の決めてになる

## Irisデータ
有名なデータセットの一つで，Iris（あやめ）の花の萼片（Sepal）と花びら（Petal）の長さ（Length）と幅（Width）が三種類分（Setosa・Versicolour・Virginica）格納されている<br>
![](./images/iris.jpg)
<br>
データの種類は次元と言われる<br>
つまり，Irisデータの場合四種類のデータなので，「四次元」のデータということになる

# Scikit-Learnとは？
Pythonで提供されている機械学習のライブラリ<br>
http://scikit-learn.org/stable/index.html
<br>
importするときは，sklearnとして扱われる<br>
anacondaに標準インストールされている<br>
<br>
anacondaを使っていない場合は
* pip install scikit-learn

<br>で導入可能

# では，実際にやってみましょう

In [2]:
# 必要な環境をimportする

import numpy as np
%matplotlib inline

In [7]:
#  irisデータを読み込む

from sklearn import datasets
iris = datasets.load_iris()
print(iris)

{'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2]), 'data': array([[ 5.1,  3.5,  1.4,  0.2],
       [ 4.9,  3. ,  1.4,  0.2],
       [ 4.7,  3.2,  1.3,  0.2],
       [ 4.6,  3.1,  1.5,  0.2],
       [ 5. ,  3.6,  1.4,  0.2],
       [ 5.4,  3.9,  1.7,  0.4],
       [ 4.6,  3.4,  1.4,  0.3],
       [ 5. ,  3.4,  1.5,  0.2],
       [ 4.4,  2.9,  1.4,  0.2],
       [ 4.9,  3.1,  1.5,  0.1],
       [ 5.4,  3.7,  1.5,  0.2],
       [ 4.8,  3.4,  1.6,  0.2],
       [ 4.8,  3. ,  1.4,  0.1],
       [ 4.3,  3. ,  1.1,  0.1],
       [ 5.8,  4. 

In [9]:
# irisデータを学習データとテストデータに分割する
# データの奇数番目を学習データに，偶数番目をテストデータにする

x_train = iris.data[range(0, len(iris.data), 2)]
y_train = iris.target[range(0, len(iris.data), 2)]

x_test = iris.data[range(1, len(iris.data), 2)]
y_test = iris.target[range(1, len(iris.data), 2)]

target_names = iris.target_names

In [11]:
from sklearn.svm import SVC

#　学習の用意
svm = SVC(probability=True, decision_function_shape="ovr")

# 分類器の設定を確認する
svm.get_params()

{'C': 1.0,
 'cache_size': 200,
 'class_weight': None,
 'coef0': 0.0,
 'decision_function_shape': 'ovr',
 'degree': 3,
 'gamma': 'auto',
 'kernel': 'rbf',
 'max_iter': -1,
 'probability': True,
 'random_state': None,
 'shrinking': True,
 'tol': 0.001,
 'verbose': False}

In [12]:
# 学習器に教師データを与えて学習させる
# 引数は特徴量，教師データ（ラベル）
svm.fit(x_train, y_train)

# 分類器にテストデータを分類させる
predict = svm.predict(x_test)
predict

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1,
       1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 1, 2, 1, 2, 2, 1, 2, 2,
       2, 2, 2, 2, 2, 2])

## 作成した分類器を評価する
### 適合率（Precion）と再現率（Recall）とは？
#### 適合率
検索結果の中で，どの程度が正解に含まれるか
#### 再現率
正解の中で，どの程度が検索にヒットするのか
![](http://cdn-ak.f.st-hatena.com/images/fotolife/Z/Zellij/20120214/20120214075315.png)
<br>http://f.hatena.ne.jp/Zellij/20120214075315<br>

# わからん！
ということで，混合行列
### 混合行列（Confusion Matrix）とは？
テストデータがどのラベルにどれだけ分類されたかを表す行列<br>
![](./images/cm1.png)<br>
![](./images/cm2.png)<br>
![](./images/cm3.png)<br>
![](./images/cm4.png)<br>

### F値（F-measure）とは？
適合率と再現率は負の相関関係にあることが多い＝トレードオフの関係にある<br>
ということで，分類器の制度を適合率と再現率の調和平均＝F値で評価する<br>
$
F-measure = \displaystyle　\frac{2\dot precion \times recall}{precion + recall}
$<br>


In [14]:
# 先ほどの分類器の混合行列を表示する
from sklearn.metrics import confusion_matrix

# 引数は，正解データと予測結果
matrix = confusion_matrix(y_test, predict)
matrix

array([[25,  0,  0],
       [ 0, 24,  1],
       [ 0,  4, 21]])

In [16]:
# F値を計算する
from sklearn.metrics import classification_report

# 引数は，正解データと予測結果
# オプションとして，target_namesを利用可能
report = classification_report(y_test, predict, target_names=target_names)
print(report)

             precision    recall  f1-score   support

     setosa       1.00      1.00      1.00        25
 versicolor       0.86      0.96      0.91        25
  virginica       0.95      0.84      0.89        25

avg / total       0.94      0.93      0.93        75



### K-分割交差検定（K-fold Cross-Validation）による分類器の検証
データ数があまり多くなくて，学習データとテストデータにわけると数が足りない場合などに利用される
![](./images/kfcv.png)

### グリッドサーチとは？
機械学習には，学習の際のパラメータが存在し，そのパラメータをチューニングして最良な分類器を作成する<br>
以下では，k分割交差検定法とグリッドサーチが同時に実装されている関数を用いる

In [48]:
# グリッドサーチのために，パラメータの選択肢を決定する
param_svm = [
{'C': [1, 10, 100, 1000], 'kernel': ['linear']},
{'C': [1, 10, 100, 1000], 'gamma': [0.001, 0.0001], 'kernel': ['rbf']},
{'C': [1, 10, 100, 1000], 'gamma': [0.001, 0.0001], 'kernel':['poly'], 'degree': [2, 3, 4, 5], }
 ] 

from sklearn.model_selection import GridSearchCV

# グリッドサーチ&交差検定用の学習器を設定する
# 引数に，用いる分類器，パラメータ選択肢
# オプションとして，cvはk分割交差検定の回数（つまり，k）
# オプションとして，n_jobsは並列スレッド数
svm_cv = GridSearchCV(SVC(probability=True, decision_function_shape="ovr"), param_svm, cv=10, n_jobs=4)

# 交差検定を用いたグリッドサーチを行う
# 引数に，特徴量と正解データ
svm_cv.fit(iris.data, iris.target)

import pandas as pd
df = pd.DataFrame(svm_cv.cv_results_)
print(df)

    mean_fit_time  mean_score_time  mean_test_score  mean_train_score param_C  \
0        0.003619         0.001417         0.973333          0.988148       1   
1        0.001824         0.000383         0.980000          0.980000      10   
2        0.003175         0.000576         0.973333          0.981481     100   
3        0.013342         0.000626         0.980000          0.986667    1000   
4        0.010049         0.000686         0.906667          0.921481       1   
5        0.014971         0.000818         0.906667          0.921481       1   
6        0.006479         0.000720         0.933333          0.945185      10   
7        0.011385         0.000669         0.906667          0.921481      10   
8        0.006187         0.000590         0.980000          0.979259     100   
9        0.005616         0.000707         0.933333          0.945185     100   
10       0.003233         0.000519         0.980000          0.980000    1000   
11       0.005300         0.

In [50]:
print("best estimator: %s" %svm_cv.best_estimator_)
print("best socre: %s" %svm_cv.best_score_)
print("best param: %s" %svm_cv.best_params_)
print("best score's index: %s" %svm_cv.best_index_)

best estimator: SVC(C=10, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='linear',
  max_iter=-1, probability=True, random_state=None, shrinking=True,
  tol=0.001, verbose=False)
best socre: 0.98
best param: {'C': 10, 'kernel': 'linear'}
best score's index: 1
