<h1>分類での評価方法</h1>

分類において使う主な評価指標は以下の通りです。

・混同行列（Confusion matrix）

・精度（Accuracy）

・適合率（Precision）

・再現率（Recall）

・F値（F-measure）

一つずつ見ていきましょう。



<h2>混同行列とは</h2>
混同行列は二値分類（正事例と負事例の予測）をするときに使用されます。

真の値と予測した値の組み合わせには、それぞれ名称があり以下のように呼ばれます。

True Positive(TP) ・・・真の値が正事例のものに対して，正事例と予測したもの

False Positive(FP) ・・・真の値が負事例のものに対して，正事例と予測したもの

False Negative(FN) ・・・真の値が正事例のものに対して，負事例と予測したもの

True Negative(TN) ・・・真の値が負事例のものに対して，負事例と予測したもの

このTP,FP,FN,TNの値を可視化したものが混合行列です。

プログラムを入力して、混合行列をみてみましょう。
まず、データを作成します。

In [1]:
y_test=[0,0,0,0,0,1,1,1,1,1]
y_pred=[0,1,0,0,0,0,0,1,1,1]

y_testは真の値、y_predは機械学習によって予測した値です。

次に、scikit-learnのconfusion matrixによって混同行列を可視化します。

In [6]:
from sklearn.metrics import confusion_matrix

confusion_matrix = confusion_matrix(y_test, y_pred)
print(confusion_matrix)

[[4 1]
 [2 3]]


<h2>精度</h2>
<p>精度とは、予測結果全体がどれくらい真の値と一致しているかを表す指標です。</p>
<p>Accuracy = (TP + TN) / (TP + FP + FN + TN)</p>
<p>精度は、accyracy_scoreで求めることができる</p>


In [7]:
from sklearn.metrics import accuracy_score
print('Acucracy:', accuracy_score(y_test, y_pred))

Acucracy: 0.7


実行すると、

Accuracy: 0.7

と出力されます。

<h3>注意すべき点は、精度がよければよいモデルというわけではないということです.</h3>

例えば、

真の値が[1, 1, 1, 1, 1, 1, 1, 1, 1, 0]

と負事例が1つのものだとします。

機械学習をした結果、

予測の値が[1, 1, 1, 1, 1, 1, 1, 1, 1, 1]

となったとき精度は90%と計算され一見よいモデルと思えます。

しかし、1個の負事例を予測できていないためこのモデルは意味がない可能性があります。

このように正事例と負事例が不均衡なデータに対し精度を使って評価するのは難しいため、精度以外にも様々な指標があります。

<h2>適合率（Precsion）</h2>
<p>適合地とは、正事例と予測したもののなかで、真の値が正事例の割合を表す指標。</p>

<h4>Precision = TP / TP + FP</h4>

<h2>再現率（Recall）</h2>
<p>再現率とは、真の値が正事例のもののなかで正事例と予測した割合を表す指標</p>

<h4> Recall = TP / TP + FN</h4>

<h2>F値（F-measure）</h2>
<p>適合率と再現率はトレードオフの関係にあるので、二つの指標をまとめた指標としてF値がある</p>

<p>F値は、適合率と再現率の調和平均によって計算される</p>

<h3>F-measure = 2Precision * Recall / Precision + Recall </h3>

<p>適合率、再現率、F値はscikit-learnのCunfusion matrixによって計算される</p>

In [25]:
from sklearn.metrics import classification_report

print("classification report")
print(classification_report(y_test, y_pred))
print(classification_report(y_pred, y_test))

classification report
             precision    recall  f1-score   support

          0       0.67      0.80      0.73         5
          1       0.75      0.60      0.67         5

avg / total       0.71      0.70      0.70        10

             precision    recall  f1-score   support

          0       0.80      0.67      0.73         6
          1       0.60      0.75      0.67         4

avg / total       0.72      0.70      0.70        10



<h2>回帰での評価</h2>
<p>評価指標は、分類だけでなく回帰にも適用できる。</p>
<p>回帰で使われる評価指標でメジャーなものは以下の二つ<p>
<li>二乗平均平方根誤差(RMSE)</li>
<li>決定係数(R2)</li>

<h2>二乗平均平方根誤差</h2>
二乗平均平方根誤差(RMSE) とは、
実際の値と予測値の差の絶対値の2乗をデータの総数で割り、平均したものです。

ちなみにRMSEは"Root Mean Squared Error"の略です。

この値が小さければ小さいほど、誤差の小さいモデルであると言えます。

数式では二乗平均平方根誤差は以下のように表せます。

### RMSE
RMSE = sqrt((1/n)sum(y_test - y_pred)^2)

In [24]:
from sklearn.metrics import mean_squared_error
from math import sqrt

rmse = sqrt(mean_squared_error(実際の値, 予測した値)) 

NameError: name '実際の値' is not defined

## 決定係数
決定係数(R2)とは、推定された回帰式の当てはまりの良さ（度合い）を表します。
0から1までの値を取り、1に近いほど、回帰式が実際のデータに当てはまっていることを表しており、説明変数が目的変数を説明していると言えます。
逆に0に近ければあまり良くない性能であることを示します。

R2=1−∑n−1i=0(yi−^yi)2∑
n
−
1
i
=
0
(
y
i
−
¯
y
i
)
2
（ 
y
i
:実際の値、 
^
y
i
:予測値、
¯
y
i
:平均値、 
n
:データの総数 ）

`from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
model = LinearRegression
model.fit(X, y)
result = model.score(x, y)`

# 分類と回帰に使える評価方法
最後に、分類でも回帰でも使える評価方法の交差検証とグリッドサーチについて説明します。

２つの手法の意味は以下の通りです。

・交差検証（Cross-validation）：個々のモデルの汎化性能を評価する手法

・グリッドサーチ（grid search）：機械学習のハイパーパラメータ探索の方法

それでは、一つずつ詳細を見ていきましょう。

### ホールドアウト法
ホールドアウト法は、モデルを作る学習データと、
モデルを評価するテストデータに分割して評価します。

データを分けることで、汎化性能（未知のデータに対する性能）を向上させることができます。

もし、未知のデータを予測するにあたり全てのデータを学習データにしてしまうと、過学習(学習データにだけ精度の高いモデルでそれ以外の未学習のデータに対して正しく答えを出力できない状態)してしまいます。

scikit-learnのtrain_test_split()を使うことでデータを分けることが可能です。

## 交差検定(クロスバリデーション)
機械学習を行うとき、学習を行うための学習データと未知のデータに適用したときの精度を評価するためのテストデータがあります。

トレーニングデータでの性能がとても良いのにもかかわらず、テストデータでの性能悪くなってしまうことを過学習と言います。

この節では、過学習をしないように学習モデルを評価する交差検証について理解しましょう。

ちなみに、交差検証は分類でも回帰でも使える手法です。

そのなかで、一番使われるK-分割交差検定について説明します。

K-分割交差検定は、データをK個に分割してそのうち1つをテストデータに残りのK-1個を学習データとして精度の評価を行います。

これをK個のデータすべてが1回ずつテストデータになるようにK回学習を行なって精度の平均をとる手法です。

過学習していないか確認するために、交差検定は必ず行いましょう。

交差検定をするための関数は以下のようになります。


In [11]:
from sklearn.model_selection import cross_val_score, KFold
from scipy.stats import sem

def evaluate_cross_validation(clf, x, y, K):
    cv = KFold(len(y), K, shuffle = True, random_state=0)
    scores = cross_val_score(clf, x, y, cv = cv )
    print(scores)
    prinit("Mean score :{} (+/-{})".format( np.mean(scores), sem(scores)))

引数1番目のclfは機械学習モデル（決定木、SVMなど）です。

引数最後のKはデータを何分割するか指定する引数です。 

train_test_splitのmoduleが0.20から変わり、

sckit-learnバージョンが0.18でDeprecationWarningが出ます。

from sklearn.cross_validation import train_test_split

でワーニングエラーが出た場合、下記新しいmoduleからimportしてください。

#from sklearn.cross_validation import train_test_split

from sklearn.model_selection import train_test_split



## グリッドサーチ

交差検証はモデルの汎化性能を測定する方法でした。

それに対してグリッドサーチは、学習モデルに用いられるハイパーパラメータを調整していき、モデルの汎化性能を向上させる方法を探す代表的な手法です。

グリッドサーチでは、指定したハイパーパラメータの全ての組み合わせに対して学習を行い、もっとも良い精度を示したパラメータを採用していきます。

ハイパーパラメータとは、SVCでのカーネルのバンド幅gamma、正則化パラメータCなどのことです。

このパラメータはモデルの性能に大きく影響を与えます。

例えば、ハイパーパラメータであるgammmaとCにそれぞれ0.001, 0.005, 0.1, 1, 5などと当てはめて、
モデルの汎化性能を試してみるだけで、5×5=25通りのハイパーパラメータの組み合わせがありますが、それら全ての中で汎化性能の一番良いものを採択します。

グリッドサーチはScikit-learnを用いて実装できます。

In [12]:
from sklearn.grid_search import GridSearchCV



次に、最適化したいモデルのハイパーパラメータの設定を行いましょう。
例えば、 SVMにおいて、Cとgammaをそれぞれ{1,5,10,50},{0.001,0.0001}で最適化したいとすると、このようにリスト内に、keyにCとgammaを持つ辞書を入れれば良いです。

In [13]:
parameters = [
    {'C':[1, 5, 10, 50],
     'gamma':[0.001, 0.0001]}
]

In [16]:
from sklearn import svm
svc = svm.SVC()
clf = GridSearchCV(svc, parameters)
clf.fit(X_train, y_train)

print(clf.grid_scores_)
print(clf.best_params_)

NameError: name 'X_train' is not defined

# 評価まとめ
<p>以上の評価指標をまとめて出力させる関数を作っておくと非常に便利</p>

In [21]:
from sklearn import metrics
def measure_performance(x, y, clf, show_accuracy=True, show_classification_report=True,show_confussion_matrix = True):
    y_pred = clf.predict(x)
    if show_accuracy:
        print("Accuracy:{0:.3f}".format(metrics.accuracy_score(y, y_pred)), "\n")
    
    if show_classification_report:
        print("Classification report")
        print(metrics.classification_report(y, y_pred), "\n")
    
    if show_confussion_matrix:
        print("Cunfussion matrix")
        print(metrics.confusion_matrix(y, y_pred), "\n")

if show_accuracy:

if show_classification_report:

if show_confussion_matrix:

ですが条件文にしている理由は、その関数がパフォーマンスの非表示をするためのものだからです。

関数はデフォルト引数で全てTrueを取っているため、そのまま呼び出すと全ての評価指標について出力しますが、例えばaccuracyだけ欲しい時などがあります。

そこでそれ以外をFalseに指定して, その関数を使うということがあります。

# 今回作成したプログラム

In [23]:
y_test = [0,0,0,0,0,1,1,1,1,1]
y_pred = [0,1,0,0,0,0,0,1,1,1]

from sklearn.metrics import confusion_matrix

confusion_matrix = confusion_matrix(y_test, y_pred)
print(confusion_matrix)

from sklearn.metrics import accuracy_score

print('Accuracy:', accuracy_score(y_test, y_pred))

from sklearn.metrics import classification_report

print("Classification report")
print(classification_report(y_test, y_pred))

#評価指標をすべて出力する関数
from sklearn import metrics
def measure_performanve(x, y, clf, show_accuracy = True, show_classification_report = True, show_confusion_matrix = True):
    y_pred = clf.predict(x)
    if show_accuracy:
        print("Accuracy:{0:.3f}".format(metrics.accuracy_score(y, y_pred)), "\n")
        
    if show_classificaiton_report:
        print("Classification report")
        print(metrics.classification_report(y, y_pred), "/n")
        
    if show_confusion_matrix:
        print("Confussion matrix")
        print(metrics.confussion_matrix(y, t_pred),"/n")
        
#交差検証
from sklearn.cross_validation import cross_val_score, KFold
from scipy.stats import sem
import numpy as np

def evaluate_cross_validation(clf, x, y, K):
    cv = KFold(len(y), K, shuffle=True, random_state = 0)
    scores = cross_val_score(clf, x, y, cv = cv)
    print(scores)
    print("Mean score: {} (+/-{})".format( np.mean(scores), sem(scores)))

[[4 1]
 [2 3]]
Accuracy: 0.7
Classification report
             precision    recall  f1-score   support

          0       0.67      0.80      0.73         5
          1       0.75      0.60      0.67         5

avg / total       0.71      0.70      0.70        10



# まとめ
この章では、過学習していないか確かめるために交差検定や分類と回帰における評価指標について学びました。

分類の評価指標には、精度、適合率、再現率、F値などがあります。

回帰の評価指標には、平均二乗誤差や決定係数などがあります。

今後この節で学んだことを活かし、システムに組み込む前に機械学習の結果を評価して頂ければと思います。

# 演習問題

１）正解ラベルが
y_test = [0,2,0,1,0,1,1,2,0,1,2,0,0]

予測したラベルが
y_pred = [0,2,0,2,0,1,2,0,0,1,2,0,0]

とします。

このときの、精度、適合率、再現率、f値、混合行列を出力してください。


In [29]:
y_test = [0,2,0,1,0,1,1,2,0,1,2,0,0]
y_pred = [0,2,0,2,0,1,2,0,0,1,2,0,0]

from sklearn.metrics import accuracy_score

#精度
print('Accuracy:',accuracy_score(y_test,y_pred))

from sklearn.metrics import classification_report

#適合率、再現率、F値
print("Classification report")
print(classification_report(y_test, y_pred))

from sklearn.metrics import confusion_matrix

#混同行列
confusion_matrix = confusion_matrix(y_test,y_pred)
print(confusion_matrix)


Accuracy: 0.769230769231
Classification report
             precision    recall  f1-score   support

          0       0.86      1.00      0.92         6
          1       1.00      0.50      0.67         4
          2       0.50      0.67      0.57         3

avg / total       0.82      0.77      0.76        13

[[6 0 0]
 [0 2 2]
 [1 0 2]]
