# Chapter3 性能評価指標

## 3.1 性能評価指標（P.44）

* 混同行列
    * 各テストデータに対するモデルの予測結果を4つの観点で分類し、
    それぞれに当てはまる予想結果の個数をまとめた表
        * 真陽性（True Positive）
            * 陽性クラスと予測され、結果も陽性クラスであった個数
        * 真陰性（True Negative）
            * 陰性クラスと予測され、結果も陰性クラスであった個数
        * 偽陽性（False Positive）
            * 陽性クラスと予測されたが、結果は陰性クラスであった個数
        * 偽陰性（False Negative）
            * 陰性クラスと予測されたが、結果は陽性クラスであった個数
    * 真陽性・真陰性
        * 機械学習モデルが正解
    * 偽陽性・偽陰性
        * 機械学習モデルが不正解
       
<img src=".\fig_3.1.png" width="300" alt="混同行列">

* 混同行列の実装
    * confusion_matrix()を利用する
        * [**`metrics.confusion_matrix(y_true, y_pred[, …]`**)](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html)
            * y_trueに正解データの配列
            * y_predに予測データの配列
            * 出力は正解と予測の組み合わせをカウントした値を行列にしただけ
                * 各軸は各クラスの値を昇順にソートした順番（0,1の順番）
                * どの値が陽性、陰性かによって、行列の並びを変える必要がある
            * 出力される行列の並びを指定する場合は、labels=""で指定する

### リスト3.2（P.47）

In [1]:
# ここで必要となるモジュールをimportします
import numpy
from sklearn.metrics import confusion_matrix

# データを格納します。ここでは0が陽性、1が陰性を示しています
y_true = [0,0,0,1,1,1]
y_pred = [1,0,0,1,1,1]

# 以下の行に変数confmatにy_trueとy_predの混同行列を格納してください
confmat = confusion_matrix(y_true, y_pred)

# 結果を出力します
print (confmat)

[[2 1]
 [0 3]]


### リスト3.2（0が陰性、1が陽性のデータを分類したい場合（labels指定））

In [3]:
# ここで必要となるモジュールをimportします
import numpy
from sklearn.metrics import confusion_matrix

# データを格納します。ここでは1が陽性、0が陰性を示しています
y_true = [0,0,0,1,1,1]
y_pred = [1,0,0,1,1,1]

# 以下の行に変数confmatにy_trueとy_predの混同行列を格納してください
confmat = confusion_matrix(y_true, y_pred, labels=[1,0])

# 結果を出力します
print (confmat)

[[3 0]
 [1 2]]


### 正解率・F値
$$
    正解率 = \frac{TP + TN}{FP + FN + TP + TN}
$$

* データに偏りがある場合、正解率は非常に危険  
    * 「適合率（精度、precision）」・「再現率（recall）」・「F値」という指標で評価する
    * 3つの指標はすべて０～１の範囲で示され、1に近いほうが「性能がよい」ことを示す
* 適合率（精度、precision）
    * 陽性と予測されたデータのうち、実際に陽性であるものの割合
* 再現率（recall）
    * 実際の陽性データのうち、陽性と予測できたものの割合
* F値
    * 適合率と再現率の両方を組み合わせた（調和平均）

$$
    適合率（精度、precision） = \frac{TP}{FP + TP}
$$
$$
    再現率（recall）= \frac{TP}{FN + TP}
$$
$$
    F値 = 2 \times \frac{適合率 \times 再現率}{適合率 + 再現率}
$$

* 性能評価指標の実装
    * sklearn.metricsからimportして利用可能
    * 適合度（精度、precision）
        * [**`metrics.precision_score(y_true, y_pred[, …])`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_score.html)
    * 再現率（recall）
        * [**`metrics.recall_score(y_true, y_pred[, …])`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.recall_score.html#sklearn.metrics.recall_score)
    * F値
        * [**`metrics.f1_score(y_true, y_pred[, labels, …])`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html#sklearn.metrics.f1_score)

### リスト3.3（P.50）

In [2]:
# 適合率、再現率、F
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score, f1_score

# データを格納します。ここでは0が陽性、1が陰性を示しています
y_true = [0,0,0,1,1,1]
y_pred = [1,0,0,1,1,1]

# y_trueには正解のラベルを、y_predには予測結果のラベルをそれぞれ渡します
print("Precision: %.3f" % precision_score(y_true, y_pred))
print("Recall: %.3f" % recall_score(y_true, y_pred))
print("F1: %.3f" % f1_score(y_true, y_pred))

Precision: 0.750
Recall: 1.000
F1: 0.857


## 3.2 PR曲線（P.52）

* 再現率と適合率はトレードオフの関係
    * 片方をあげるともう一方がさがる
    * 再現性と適合性のどちらを重視するかは問題による
        * どちらかへのこだわりがない場合、F値が用いられる
        
* PR曲線
    * 横軸：再現率、縦軸：適合率としてデータをプロットし、グラフで表したもの
    * PR曲線には適合率と再現率が一致する点が存在する
        * ブレークイーブンポイント（BEP）と呼ぶ
        * BEPが右上にあるほど良いモデル

# ほげ要望
第３章の添削問題をやってくれたら工藤が喜びます

# エクストラほげ問題③
## Pythonで学ぶ線形代数
## ベクトルの内積
大学に進学をした理系学生が１年生の最初に習うのが線形代数です。その知識を使い今習っているPythonの技術向上を目指しましょう。   
※ヒントのようなもの  
①https://oguemon.com/topic/study/linear-algebra/  
②https://mathtrain.jp/category/senkei  
③https://python.atelierkobato.com/linear/  
④https://examist.jp/category/mathematics/  
⑤http://www.geisya.or.jp/~mwm48961/koukou/index_m.htm  
  
# もんだいだよん(^ω^)
## ベクトルの内積
### ①numpy.dot()
PythonのライブラリNumPyを用いて解きなさい  
ベクトル$\vec{a}$とベクトル$\vec{b}$の内積$\vec{a}・\vec{b}$をnumpy.dot()を用いて求めなさい
  
$
  \vec{a} = \left(
    \begin{array}{ccc}
      2 \\
      3 \\
      4
    \end{array}
  \right)
$
$
  \vec{b} = \left(
    \begin{array}{ccc}
      5 \\
      1 \\
      6
    \end{array}
  \right)
$


### ②numpy.vdot()
PythonのライブラリNumPyを用いて解きなさい  
ベクトル$\vec{a}$とベクトル$\vec{b}$の内積$\vec{a}・\vec{b}$をnumpy.vdot()を用いて求めなさい
  
$
  \vec{a} = \left(
    \begin{array}{ccc}
      2 \\
      3 \\
      4
    \end{array}
  \right)
$
$
  \vec{b} = \left(
    \begin{array}{ccc}
      5 \\
      1 \\
      6
    \end{array}
  \right)
$


### ③numpy.inner()
PythonのライブラリNumPyを用いて解きなさい  
ベクトル$\vec{a}$とベクトル$\vec{b}$の内積$\vec{a}・\vec{b}$をnumpy.inner()を用いて求めなさい
  
$
  \vec{a} = \left(
    \begin{array}{ccc}
      2 \\
      3 \\
      4
    \end{array}
  \right)
$
$
  \vec{b} = \left(
    \begin{array}{ccc}
      5 \\
      1 \\
      6
    \end{array}
  \right)
$


# ヒントのようなもの
以下の流れでプログラムしたらいいと思います  

``` python
#ライブラリのインポート

#ベクトルやスカラー定義

#計算処理

#結果のプリント

```