02 2クラス分類における基準
======================

* `2クラス分類`は、実用上おそらく最も一般的で、概念的には単純な機械学習アプリケーションである

* しかし、このような簡単なタスクでも、評価には様々な注意点がある

* 別の基準を見る前に、精度ではうまくいかない場合を見てみる

* 2クラス分類の場合には、2つのクラスを`陽性クラス`と`陰性クラス`と呼び、探しているものを`陽性`と呼ぶ

## 1. エラーの種類

* 精度が予測性能の尺度として良くない場合がしばしばある

    * 間違えた回数には、我々が興味を持つような情報が全ては含まれていないため
    
    * 自動テストで癌の早期発見のスクリーニングをするアプリケーションを考えてみる
    
    * テストが陰性であれば患者は健康であ理、陽性であればさらなる検査に回される
    
    * ここで、テストが陽性の場合(癌であるらしい場合)を`陽性クラス`、陰性の場合を`陰性クラス`と呼ぶ
    
    * モデルは完璧に機能するわけではないが、間違いは必ず起こる
    
    * どのようなアプリケーションであっても、間違いの結果が実世界でどのような影響を及ぼすかを考えなくてはならない

* 1つの間違い方は、健康な患者を陽性に分類してしまうこと

    * この場合患者は余分な検査を受けることになる
    
    * この結果、費用と面倒(心理的ストレス)が患者にかかることになる
    
    * このような間違った陽性との判断を**偽陽性**と呼ぶ
   

* もう1つの間違い方は、病気の患者を陰性と分類してしまうこと

    * この場合、患者は必要な検査や治療が受けられなくなる
    
    * 診断されなかった癌は深刻な健康問題を引き起こし、場合によっては死に至る可能性がある
    
    * このような種類の、誤った陰性との分類を**偽陰性**と呼ぶ

* 統計学では、**偽陽性**を`タイプⅠエラー`、**偽陰性**を`タイプⅡエラー`と呼ぶ

    * 癌の診断の例では、**偽陰性**を可能な限り避けるべきである

* これはやや極端な例だが、偽陽性と偽陰性が同じ重みであることはほとんどない

    * ビジネスアプリケーションでは、双方のエラーに値段をつけても良い
    
    * そうすれば、精度の代わりに損失額で評価できる
    
    * このようにすると、どのモデルを使うかをよりビジネス的に判断することができる

## 2. 偏ったデータセット

* エラーのタイプは、2つのクラスの一方がもう一方よりもずっと多い場合に重要になる

    * 実際にはこのような場合は多い
    
    * 良い例がクリックスルーの場合
    
    * 個々のデータポイントは、ユーザに提示されたアイテムの「インプレッション」を表す
    
    * ここでいうアイテムは、広告かもしれないし、関連したページかもしれないし、関連するSNSユーザのフォローかもしれない
    
* 目的は、あるアイテムをユーザに提示した場合に、ユーザがそれをクリックする(つまり興味を持つ)かどうかを予測すること

    * ユーザはインターネット上に提示されたもののほとんどをクリックしない(特に広告)
    
    * この場合、100本に1本見てくれれば良いので、サンプルの99%が「クリックされない」クラスになってしまう
    
    * このように一方のクラスが他方のクラスよりもずっと多いようなデータセットを**偏ったデータセット**と呼ぶ
    
        * 実際には、偏ったデータがほとんどで、頻度が同じだったり近かったりするようなデータは珍しい

* クリック予測で99%の精度を達成するクラス分類器ができたとする

    * これは、99%の精度が素晴らしく思えたら、クラスの偏りを考えに入れていないため
    
    * これは機械学習モデルを構築しなくても、常に「クリックされない」と予測するだけで達成できる
    
    * 問題は、精度という基準では、常に「クリックされない」と返すモデルと、潜在的には良いモデルを区別できないということ

* この問題をはっきりさせるために、9:1に偏ったデータセットを作る
    
    * digitsデータセットの数字9を9以外の数字と分割する問題にする

In [1]:
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_digits

digits = load_digits()
y = digits.target == 9

X_train, X_test, y_train, y_test = train_test_split(
    digits.data, y, random_state=0)

* `DummyClassifier`を、常に多数のクラス(ここでは「9以外」)を予測するようにして、精度が役に立たないことを確かめてみる

In [3]:
import numpy as np
from sklearn.dummy import DummyClassifier
dummy_majority = DummyClassifier(strategy='most_frequent').fit(X_train, y_train)
pred_most_frequent = dummy_majority.predict(X_test)
print("Unique predicted labels: {}".format(np.unique(pred_most_frequent)))
print("Test score: {:.2f}".format(dummy_majority.score(X_test, y_test)))

Unique predicted labels: [False]
Test score: 0.90


* 何も学習しなくても90%の精度が得られた

     * 一方を常に予測しているだけで90%が達成できてしまう問題もある
        
     * 実際のクラス分類器と比較してみる

In [4]:
from sklearn.tree import DecisionTreeClassifier
tree = DecisionTreeClassifier(max_depth=2).fit(X_train, y_train)
pred_tree = tree.predict(X_test)
print("Test score: {:.2f}".format(tree.score(X_test, y_test)))

Test score: 0.92


* 精度でいうと、`DecisionTreeClassifier`は常に同じ答えを返す予測器よりも少し良い

    * これが意味するのは、`DecisionTreeClassifier`の使い方を何か間違えたか、精度が良い基準でないのか、どちらか

* 比較のために、あと2つクラス分類器を評価してみる
    
    * `LogisticRegression`と、デフォルトの`DummyClassifier`
    
    * デフォルトの`DummyClassifier`は、ランダムに予測を行うが、訓練セットと同じ比率で予測クラスを生成する

In [5]:
from sklearn.linear_model import LogisticRegression

dummy = DummyClassifier().fit(X_train, y_train)
pred_dummy = dummy.predict(X_test)
print("dummy score: {:.2f}".format(dummy.score(X_test, y_test)))

logreg = LogisticRegression(C=0.1).fit(X_train, y_train)
pred_logreg = logreg.predict(X_test)
print("logreg score: {:.2f}".format(logreg.score(X_test, y_test)))

dummy score: 0.79
logreg score: 0.98




* ランダムな出力を行うダミークラス分類器のスコアが明らかに一番悪く(精度の観点)、`LogisticRegression`のスコアは良い

    * しかし、ランダムな分類器ですら80%の精度を達成している(何を参考にすれば良いのかが、分からなくなる)
    
    * ここでの問題は、偏ったデータに対する予測性能を定量化する基準として、精度は不適切
    
    * 本章のここ以降では、モデルの選択に役に立つ他の基準を見ていく
    
* 特に、機械学習のモデルが、「頻度が高いものを返す」だけのクラス分類器`pred_most_frequent`や、ランダムなクラス分類器`pred_dummy`よりどの程度良いのかを示す基準が欲しい

    * モデルを評価する基準は、これらの無意味な予測を排除できるものでなければならない

|  版  |   年/月/日   |
|-----|-----------------|
|初版|2019/03/25|