#  性能評価指標

- **[3.1 性能評価指標](#3.1-性能評価指標)**
    - **[3.1.1 混同行列の概要](#3.1.1-混同行列の概要)**
    - **[3.1.2 混同行列の概要](#3.1.2-混同行列の概要)**
    - **[3.1.3 混同行列を理解する](#3.1.3-混同行列を理解する)**
    - **[3.1.4 混同行列を実装する](#3.1.4-混同行列を実装する)**
    - **[3.1.5 性能評価指標について理解する](#3.1.5-性能評価指標について理解する)**
    - **[3.1.6 性能評価指標を実装する](#3.1.6-性能評価指標を実装する)**
    - **[3.1.7 性能評価指標を実装する](#3.1.7-性能評価指標を実装する)**
<br><br>
- **[3.2 PR曲線について](#3.2-PR曲線について)**
    - **[3.2.1 再現率と適合率の関係](#3.2.1-再現率と適合率の関係)**
    - **[3.2.2 PR曲線とは](#3.2.2-PR曲線とは)**
    - **[3.2.3 PR曲線を用いたモデルの評価](#3.2.3-PR曲線を用いたモデルの評価)**
    - **[3.2.4 機械学習概論のまとめ](#3.2.4-機械学習概論のまとめ)**

***

## 3.1 性能評価指標

### 3.1.1 混同行列の概要

- 混合行列の見方
- どういう時に混合行列に注目すべきか？
（癌の診断の事例を提示する）

#### 問題

- 次の動画をみてください。

In [None]:
https://www.youtube.com/embed/C5-zWe4t0ho

***

### 3.1.2 精度評価指標

- F値と精度・再現率など

#### 問題

- 次の動画をみてください。

In [None]:
https://www.youtube.com/embed/0YE69WQzT3w

***

### 3.1.3 混同行列を理解する

　chapter3では、トレーニングデータを用いて構築された学習済みモデルが、 **どの程度良いものであるかを判断する評価指標** について触れていきます。

　モデルの性能を評価する指標について詳しく紹介する前に、混同行列について紹介します。 **混同行列とは、各テストデータに対するモデルの予測結果を、真陽性(True Positive)、真陰性(True Negative)、偽陽性(False Positive)、偽陰性(False Negative)の4つの観点で分類** をし、それぞれに当てはまる予測結果の個数をまとめた表です。
 
 　**「真か偽」は予測が的中したかどうか** 、 **「陽性か陰性」は予測されたクラス** をそれぞれ示しています。つまり、
  <br> **真陽性は陽性クラスと予測され結果も陽性クラスであった個数** 
  <br> **真陰性は陰性クラスと予測され結果も陰性クラスであった個数** 
  <br> **偽陽性は陽性クラスと予測されたが結果は陰性クラスであった個数** 
  <br> **偽陰性は陰性クラスと予測されたが結果は陽性クラスであった個数** 
  <br>をそれぞれ示しています。
  
  　真陽性(True Positive)と真陰性(True Negative)は機械学習モデルが正解し、偽陰性(False Negative)と偽陽性(False Positive)は機械学習モデルが不正解になったということを示しているのです。

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/2010_ml_introduction/img_3_10.png" width=300/>

#### 問題

- 次の中から適切なものを選んでください
- Aさんは病院で医者に大腸癌を患っていると宣告されました。しかし、実は大腸癌を患ってはいなく医者の誤りであったことがわかりました。医者の宣告は、混同行列を考えた時どの要素にあたるでしょうか。ここでは、癌を患っていることを「陽性」、癌を患っていないことを「陰性」であるとします。    

- 真陽性
- 偽陽性
- 偽陰性
- 真陰性

#### ヒント

- この場合、本当に癌があり癌と宣告されることを真陽性、癌がないが癌と宣告されることを偽陽性、癌があるのにもかかわらず癌はないと宣告されることを偽陰性、癌がない上癌はないと宣告されることを真陰性になります。

#### 解答

偽陽性

***

### 3.1.4 混同行列を実装する

　前項では、混同行列の各要素について学習しました。この項では、sklearn.metricsモジュールにあるconfusion_matrix関数を利用して、実際に混同行列の各成分の個数を見てみましょう。
 
 　confusion_matrix関数は、以下のように使うことができます。
 
`confmat = confusion_matrix(y_true, y_pred)`

　`y_true`には、正解データの実際のクラスが配列で格納され、`y_pred`には、予想されたクラスが配列で格納されます。格納のされ方は、前のセッションでも確認した下図の通りです。
 
 <img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/2010_ml_introduction/img_3_10.png" width=300/>
 
　 さて、実際に問題を解いて混合行列を実装しましょう。

#### 問題

- 変数confmatにy_trueとy_predの混合行列を格納してください。

In [None]:
# 今回必要となるモジュールをインポートします
import numpy
from sklearn.metrics import confusion_matrix

# データを格納します。今回は0が陽性、1が陰性を示しています
y_true = [0,0,0,1,1,1]
y_pred = [1,0,0,1,1,1]

# 以下の行に変数confmatにy_trueとy_predの混合行列を格納してください


# 結果を出力します。
print (confmat)

#### ヒント

- confusion_matrix関数を使って実装します。

#### 解答例

In [1]:
# 今回必要となるモジュールをインポートします
import numpy
from sklearn.metrics import confusion_matrix

# データを格納します。今回は0が陽性、1が陰性を示しています
y_true = [0,0,0,1,1,1]
y_pred = [1,0,0,1,1,1]

# 以下の行に変数confmatにy_trueとy_predの混合行列を格納してください
confmat = confusion_matrix(y_true, y_pred)

# 結果を出力します。
print (confmat)

[[2 1]
 [0 3]]


***

### 3.1.5 正解率

　実際に分類モデルを構築できたならば、その分類モデルは他の分類モデルより性能が優れているのか、優れていないのかを評価するための明確な基準といったものが必要になってきます。この項では、前の項で説明された混同行列の要素を元に算出できる **性能評価指標** について解説します。
 
  まずは「正解率」について確認します。 **正解率とは、全ての事象の中で、診断結果が合っていた（TP/TNに分類された）数の割合** で、以下のように計算できます。
  
<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/2010_ml_introduction/img_4_10.png" width=500/>

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/2010_ml_introduction/img_3_10.png" width=300/>

　とてもシンプルな指標なので、直感的に分かりやすいかもしれません。実際のケース問題で、正解率を計算してみましょう。

#### 問題

- $
  \left[
    \begin{array}{rr}
      TP & FN  \\
      FP & TN 
    \end{array}
  \right]=\left[
    \begin{array}{rr}
     2 & 1  \\
     0 & 3
    \end{array}
  \right]
$における正解率は以下の内、どれになるでしょうか。正しいものを選んでください。

- 50％
- 66.7％
- 83.3％
- 100％

#### ヒント

- 説明文にある正解率の公式を確認しましょう

#### 解答例

83.3％

***

### 3.1.6 F値

　さて、他の例を考えてさらに理解を深めて行きます。ある病院の癌検診で患者10,000人を診療することを考えます。癌検診の結果、患者10,000人の診断結果の混合行列は以下のようになりました。
 
<img src="https://aidemyexstorage.blob.core.windows.net/aidemycontents/1522411368058191.png" width="400px">

　直感的に、この診断の性能はあまり良くないように感じられませんでしょうか？100人の癌患者のうち、40％は「癌ではないだろう」と誤診をしてしまっていますし、陽性の患者が実際に癌である確率は、30％ほどだからです。しかし、正解率を計算すると、以下のようになります。
 
<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/2010_ml_introduction/img_4_20.png" width=500/>

　**正解率は98.2％という高い値** になりました。これは、 **患者のほとんどが癌ではない** ことによるものです。このように、 **データに偏りがある状態で「正解率」という指標を使うのは非常に危険** です。

　そのため、 **機械学習では適合率/精度(precision)、再現率(recall)、F値という指標で性能評価** されるケースが多いです。それぞれの評価指標に関して詳しく確認しましょう。
 
 　まず、適合率/精度(precision)と再現率(recall)です。 **適合率/精度(precision)とは陽性と予測されたデータのうち、実際に陽性であるものの割合** であり、 **再現率(recall)は、実際の陽性のデータのうち、陽性と予測できたものの割合** を表しています。
 
<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/2010_ml_introduction/img_4_30.png" width=500/>

　さらにF値とは **適合率と再現率の両方を組み合わせた（調和平均）** です。F値は以下のように求めることはできます。

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/2010_ml_introduction/img_4_40.png" width=500/>

　適合率/精度(precision)、再現率(recall)、F値ともに、 **0~1の範囲の中で示され、値が1に近いほうが「性能が良い」** ということを示しています。さて、実際に今回の癌検診のケースの適合率/精度(precision)、再現率(recall)、F値を求めてみましょう。

<img src="https://aidemyexstorage.blob.core.windows.net/aidemycontents/1537097684845171.png" width=500/>

　実際計算してみるとprecision、recall、F値ともに大きい値（100％に近い値）とは言えません。なんとなく「直感」と合致した気がしますね。

#### 問題

- $
  \left[
    \begin{array}{rr}
      TP & FN  \\
      FP & TN 
    \end{array}
  \right]=\left[
    \begin{array}{rr}
     2 & 1  \\
     0 & 3 
    \end{array}
  \right]
$におけるF値は以下の内、どれになるでしょうか。正しいものを選んでください。

- 51.9％
- 63.2％
- 71.4％
- 80.0％

#### ヒント

- F値を計算する前にprecisionとrecallを計算しなければなりません。
- 計算すると、precisionは1（100％）、recallは0.67（67％）になりますね。

#### 解答例

80.0％

***

### 3.1.7 性能評価指標を実装する

　前項では、モデルを評価する指標の計算式を学習しました。この項では、scikit-learnに実装されている性能評価指標を利用して見ましょう。その関数はsklearn.metricsモジュールからインポートできます。
 
```python
# 適合率、再現率、F
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score, f1_score

# データを格納します。今回は0が陽性、1が陰性を示しています
y_true = [0,0,0,1,1,1]
y_pred = [1,0,0,1,1,1]

# y_trueには正解のラベルを、y_predには予測結果のラベルをそれぞれ渡します
print("Precision: %.3f" % precision_score(y_true, y_pred))
print("Recall: %.3f" % recall_score(y_true, y_pred))
print("F1: %.3f" % f1_score(y_true, y_pred))
```

`%.3f`とは、Python入門のChapter3で学習した表現です。小数点4桁目で四捨五入され、小数点3桁で表示されることになります。

#### 問題

- $
  \left[
    \begin{array}{rr}
      TP & FN  \\
      FP & TN 
    \end{array}
  \right]=\left[
    \begin{array}{rr}
     2 & 1  \\
     0 & 3 
    \end{array}
  \right]
$におけるF値を、`f1_score()`関数を使わずに、`precision_score()`関数と`recall_score()`関数で計算してください。

（参考）

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/2010_ml_introduction/img_4_40.png" width=400/>

In [None]:
# 適合率、再現率、F1
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score, f1_score

# データを格納します。今回は0が陰性、1が陽性を示しています
y_true = [1,1,1,0,0,0]
y_pred = [0,1,1,0,0,0]

# 適合率と再現率をあらかじめ計算します
precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)

# 以下の行にF1スコアの定義式を書いてください
f1_score =

print("F1: %.3f" % f1_score)

#### ヒント

- `precision_score()` 関数と `recall_score()` 関数を用いて表現することができます。

#### 解答例

In [2]:
# 適合率、再現率、F1
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score, f1_score

# データを格納します。今回は0が陰性、1が陽性を示しています
y_true = [1,1,1,0,0,0]
y_pred = [0,1,1,0,0,0]

# 適合率と再現率をあらかじめ計算します
precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)

# 以下の行にF1スコアの定義式を書いてください
f1_score =2 *(precision*recall) / (precision+recall)

print("F1: %.3f" % f1_score)

F1: 0.800


***

## 3.2 PR曲線

### 3.2.1 再現率と適合率の関係

　　前項で様々な性能評価指標について学習いたしました。この項では、データから得られた再現率と適合率を用いてモデルの性能を評価する方法について学習していきます。
 
　復習になりますが、TP,FN,FP,TNの関係性と、再現率と適合率について再度確認しましょう。

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/2010_ml_introduction/img_3_10.png" width=300/>

- 適合率
　陽性であると予測した内の何%が当たっていたかを示します。
 

- 再現率
　本当に陽性であるケースの内、何%を陽性と判定できたかを示します。
 
<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/2010_ml_introduction/img_4_30.png" width=400/>
 


　
 　この **二つの性能評価指標の関係は、トレードオフの関係** になります。トレードオフの関係というのは、再現率を高くしようとすると適合率が低くなり、適合率を高くしようとすると再現率が低くなることを意味します。

　例えば、ある病院の癌検診の例を考えます。この病院が保守的な検査を行い、たくさんの陽性(癌である宣告)を出したと考えます。するとどうでしょうか。たくさん陽性を出しているので、本当に陽性である方の的中率が上がるので、これは再現率が高くなります。しかし、反対に少しでも癌の兆候が見られればすぐ陽性と判断してしまっているので、適合率が下がります。今度は、たくさんの陰性(癌ではない宣告)を出したと考えます。すると、一般的には、陰性の患者数の方が多いため、たくさんの陰性判断をすることで適合率が上がります。逆に、再現率は低くなってしまいます。このように、片方を上げようとすると片方が下がってしまうのです。
 
<img src="https://aidemyexstorage.blob.core.windows.net/aidemycontents/1529761321032783.png" width=900/>
 
 今回のような **癌検診のケースだと、Recallを重視** するのが良いでしょう。というのも **「癌の発見を見逃す」というケースは人の命に関わる重大なケース** であり、できるだけFNの数を少なくすることが必要であるためです。
 
 逆に、例えば **WEBサービスのレコメンドなどだとPrecisionを重視** するのが良いでしょう。例えば、「自分の好みでない商品をレコメンド」してしまうと、サービスの信頼性・ブランド力が毀損してしまうためです。つまり、 **「自分の好みの商品をレコメンドできない（=購買機会の減少）」ことよりも、「自分の好みでない商品をレコメンドしてしまう（=信頼性の減少）」ことを避けたいケース** だと、できるだけFPの数を少なくすることが必要であるためです。

 以上のようなこだわりが特にないケースだと、 **再現率と適合率の両方を考慮したF値** が用いられます。

#### 問題

- 以下の「」に当てはまる選択肢を、以下から選びましょう。
- 再現率と適合率は、「」の関係にある。

- 相関
- 疑似相関
- トレードオフ
- トレードオン

- 再現率と適合率の意味を確認しましょう
- 再現率
　本当に陽性であるケースの内、何%を陽性と判定する事ができたかを示します。
- 適合率
　陽性であると予測した内の何%が当たっていたかを示します。

#### 解答

トレードオフ

***

### 3.2.2 PR曲線とは

　PR曲線とは、横軸を再現率、縦軸を適合率として、データをプロットしたグラフを表したものです。例を挙げます。癌検診を受けた10人の患者に対し、それぞれについて癌である可能性を算出したうえで、それをもとに患者に陽性か陰性か宣告することを考えます。この場合、適合率は、癌検診で陽性と宣告された患者数の内、本当に癌である患者の割合であり、再現率は、本当に癌である患者のうち、癌と宣告された割合です。ここで問題となってくるのは、患者10人を癌の可能性が高い順に並べたとき、上位何番目の人まで陽性と宣告するかです。この何番目の人まで陽性と宣告するかによって、再現率・適合率はともに変わってきます。
　このとき、1番の人だけを陽性とした場合、2番の人までを陽性とした場合、……と順に適合率と再現率を計算し、それらをすべてプロットした図がPR曲線と言えます。プロットされる過程は以下のようになります。

<img src="https://aidemyexstorage.blob.core.windows.net/aidemycontents/1537097731056573.png" width=600/>

　これらの適合率、再現率をプロットすると以下のようになります。
 
<img src="https://aidemyexstorage.blob.core.windows.net/aidemycontents/1537097746548501.png" width=600/>

　上図より、やはり再現率と適合率の関係はトレードオフであると言えます。さて、PR曲線の仕組みがわかったところで、PR曲線を用いたモデルの評価について次項で説明していきます。

#### 問題

- 以下の「」に当てはまる言葉の組み合わせを、以下から選びましょう。
- PR曲線は、横軸に「」、縦軸に「」をとります。

- 「再現率」「表現率」
- 「表現率」「再現率」
- 「再現率」「適合率」
- 「適合率」「再現率」

- PR曲線とは、横軸を再現率、縦軸を適合率として、データをプロットしたグラフを表したものです。

#### 解答

「再現率」「適合率」

***

### 3.2.3 PR曲線を用いたモデルの評価

　まず、適合率と再現率について別の見方をしてみましょう。前項の癌検診における例を、ビジネスにおける、全顧客の中から優先してアプローチすべき優良顧客を判定する問題に置き換えます。優良顧客であると予想した顧客と、本当の優良顧客に分かれます。つまり以下のようになります。
 
- 適合率(Precision)が高く、再現率(Recall)が低い状態
  無駄は少ないが，取りこぼしの多い判定になっている状態と言えます。つまり機会損失が生じていると言えます。
  
- 適合率(Precision)が低く、再現率(Recall)が高い状態
  取りこぼしが少ないが，無駄撃ちが多い判定になっている状態と言えます。つまりアプローチの予算が無駄になる可能性が高いと言えます。


  　適合率も再現率も高いに越したことはありません。ですが、 **トレードオフの関係のため、どちらかを上げようとするとどちらかが下がってしまいます。** しかし、PR曲線には適合率と再現率が一致する点が存在します。この点を、 **ブレークイーブンポイント(BEP)** と呼びます。この点では、適合率と再現率の関係をバランスよく保ったまま、コストと利益を最適化できるので、ビジネスにおいては重要な点となっております。前々節で **F値** という評価指標に触れましたが、ブレークイーブンポイントも同じような概念と押さえておけばよいでしょう。
   
<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/2010_ml_introduction/img_3_50.png" width=300/>
 
  さて、PR曲線がかけたところで、PR曲線を用いたモデルの評価をしてみましょう。PR曲線によるモデルの優劣は以下のようになります。つまり、BEPが右上に遷移するほど良いモデルが構築できたと言えます。これは、BEPが右上に遷移するほど、適合率と再現率が同時に高くなるためです。

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/2010_ml_introduction/img_3_40.png" width=300/>

#### 問題

- 以下の「」に当てはまる適切な言葉を選んでください。
- PR曲線における、再現率と適合率が一致する点を「」と言います。

- 「ブレークノンイーブンポイント」
- 「ブレークイーブンポイント」
- 「ジョイントイーブンポイント」
- 「ジョイントノンイーブンポイント」

#### ヒント

略して「BEP」とと呼ぶ場合もあります。

#### 解答

「ブレークイーブンポイント」

***

### 3.2.4 機械学習概論のまとめ

- このコースのまとめ
- 次にオススメのコース

#### 問題

- 次の動画をみてください。

In [None]:
https://www.youtube.com/embed/vOfgCL1VLMg

***

## 添削問題

chapter3で学んだ知識を総結集して挑んでみましょう。空白に当てはまる語句をそれぞれ考えてください。

- 混同行列は、要素として「1.」「2.」「3.」「4.」からなる正方行列です。「1.」は「5.」と予測し、実際は「6.」である個数、「2.」は「7.」と予測し、実際は「8.」である個数、「3.」は「9.」と予測し、実際は「10.」である個数、「4.」は「11.」と予測し、実際は「12.」である個数をそれぞれ示します。また、性能評価指標として重要な適合率と再現率の式は以下のように表されます。

$$
\begin{aligned}
    再現率=\frac{TP}{TP+(13.)}
\end{aligned}
$$
  
$$
\begin{aligned}
    適合率=\frac{TP}{TP+(14.)}
\end{aligned}
$$

- 横軸に「15.」、縦軸に「16.」をとったグラフを「17.」と呼びます。また、ビジネスの観点から見ると、「17.」の中で利益とコストをバランスよく最適化できる点を「18.」と呼びます。



#### ヒント

- どの語句も、このchapter3で学んだ語句なので、わからない場合は復習しましょう。

#### 解答

- 混同行列は、要素として「真陽性」「偽陽性」「偽陰性」「真陰性」からなる正方行列です。「真陽性」は「陽性」と予測し、実際は「陽性」であるデータ数、「偽陽性」は「陽性」と予測し、実際は「陰性」であるデータ数、「偽陰性」は「陰性」と予測し、実際は「陽性」であるデータ数、「真陰性」は「陰性」と予測し、実際は「陰性」であるデータ数をそれぞれ示します。また、性能評価指標として重要な適合率と再現率の式は以下のように表されます。

\begin{aligned}
    再現率=\frac{TP}{TP+(FN)} \\
\end{aligned}
  
\begin{aligned}
    適合率=\frac{TP}{TP+(FP)} \\
\end{aligned}

- 横軸に「再現率」、縦軸に「適合率」をとったグラフを「PR曲線」と呼びます。また、ビジネスの観点から見ると、「PR曲線」の中で利益とコストをバランスよく最適化できる点を「ブレークイーブンポイント(BEP)」と呼びます。

<番号ごとの答え>
1. 真陽性
1. 偽陽性
1. 偽陰性
1. 真陰性
1. 陽性
1. 陽性
1. 陽性
1. 陰性
1. 陰性
1. 陽性
1. 陰性
1. 陰性
1. FN
1. FP
1. 再現率
1. 適合率
1. PR曲線
1. ブレークイーブンポイント（BEP）

---