### 混同行列 (Confusion Matrix)

予測と実際の陽性(Positive)、陰性(Negative)をマトリクス状にプロットしたもの
- 真陽性 TP True Positive    正しく陽性であると認識された
- 偽陰性 FN False Negative   本当は陽性だが誤って陰性だと判断されたもの
- 偽陽性 FP False Positive   本当は陰性だが誤って陽性だと判断されたもの
- 真偽性 TN True Negative    正しく陰性であると判断されたもの

<font size="12">

| 実際\予測 |   陽   |  陰 |
|:-----:|:--------:|:------:|
| 陽| 真陽性 TP | 偽陰性 FN |
| 陰| 偽陽性 FP | 真偽性 TN |

</font>  

### 陽性と陰性
- 注目する観点によってどちらになるかが決まる。良いこと、悪いことというニュアンスはない。
- 例えば癌の診断であれば、良性、悪性のどちらを陽性にするかは、データ解析者が恣意的に決めることであって、
先験的に決定することではない。

### 偽陰性と偽陽性
- 基本的にトレードオフの関係にある
    - どちらかを減らそうとすると、もう一方が増大する
    - 多くの場合パラメータを変更することで調整可能
- 一方だけをへらすのは非常に簡単
    - 常に陽性であると判定すれば偽陰性はなくなる
    - 常に陰性であると判定すれば偽陽性はなくなる
- 場合によって、どちらのほうが「より許容できるか」が異なる
- 例: 病気の診断で、病気であることを陽性とする場合
    - 病気が致命的で追加検査が侵食的でない場合: 偽陽性が好ましい\
    $\rightarrow$ 広くスクリーニングして、積極的に追加検査するべき
    - 病気が致命的でなく追加検査が侵食的である場合: 偽陰性が好ましい\
    $\rightarrow$ 誤って追加検査するよりは、病気を見逃したほうがトータルで負荷が少ない





### 精度とその限界

- 精度(Accuracy)

  正しく分類されたサンプル数の割合
  $$ 精度 = \frac{|TP|+|TN|}{|TP|+|TN|+|FP|+|FN|} $$

- 問題点: 偏りのあるデータに対する評価に適さない

  例: 晴天率が90%である地方で、常に晴天であると予測する - 精度 90% だが実は全く意味のないモデルになっている

  | 実際\予測|  陽   |  陰 |
  |:-----:|:--------:|:------:|
  | 陽| TP = 90 | FN = 0|
  | 陰| FP = 10 | TN = 0|




### 精度とその限界

- 精度(Accuracy)

  正しく分類されたサンプル数の割合
  $$ 精度 = \frac{|TP|+|TN|}{|TP|+|TN|+|FP|+|FN|} $$

- 問題点: 偏りのあるデータに対する評価に適さない

  例: 晴天率が90%である地方で、常に晴天であると予測する - 精度 90% だが実は全く意味のないモデルになっている

  | 実際\予測|  陽   |  陰 |
  |:-----:|:--------:|:------:|
  | 陽| TP = 90 | FN = 0|
  | 陰| FP = 10 | TN = 0|




### 誤差の評価 - MSE と MAE
誤差を単純に加算したのでは、+方向の誤差と-方向の誤差が打ち消し合うのでダメ

- MSE (Mean Squared Error) - 平均二乗誤差
$$ \frac{1}{n} \sum_{i=0}^{n}(\hat{y_i} - y_i)^{2}$$
- MAE (Mean absolute Error) - 平均絶対誤差
$$ \frac{1}{n} \sum_{i=0}^{n}|(\hat{y_i} - y_i)|$$

MSEは大きい誤差に対してより強くペナルティが効く。