## 2.4 クラス分類器の不確実性推定

これまで触れなかったscikit-learnインターフェイスの有用な機能の一つとして、クラス分類器の予測に対する不確実性推定機能がある。あるテストポイントに対して、クラス分類器が出力する予測クラスだけでなく、その予測がどのくらい確かなのかを知りたいことがよくある。実世界のアプリケーションでは、間違いの種類によって結果が大きく異なることがある。例えば癌かどうかを調べるアプリケーションを考えてみよう。偽要請（false positive）の場合は患者が余計な検査を受けるだけだが、偽陰性（false negative）の場合には深刻な病気が治療されないことになってしまう。このトピックに関しては「**６章　アルゴリズムチェーンとパイプライン**」で詳しく述べる。

scikit-learnには、クラス分類器の不確実性推定に利用できる関数が２つある。decision_functionとpredict_probaである。scikit-learnのクラス分類器のほとんどは（すべてではない）少なくともどちらかを実装しており、多くは両方を実装している。合成２次元データセットをGradientBoostingClassifierで分類した際のこれらの関数の動作を見ていこう。GradientBoostingClassifierはdecision_functionとpredict_probaの双方を実装している。

In [6]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import mglearn
from IPython.display import display
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_blobs

In [7]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.datasets import make_circles
X, y = make_circles(noise=0.25, factor=0.5, random_state=1)
y_named = np.array(["blue", "red"])[y]
X_train, X_test, y_train_named, y_test_named, y_train, y_test = train_test_split(X, y_named, y, random_state=0)
gbrt = GradientBoostingClassifier(random_state=0)
gbrt.fit(X_train, y_train_named)

### 2.4.1 決定関数（Decision Function）

２つのクラス分類の場合、desicion_functionの結果の配列は(n_samples,)の形になり、サンプルごとに１つの浮動小数点が返される。


In [8]:
print("X_test.shape: {}".format(X_test.shape))
print("Decision function shape: {}".format(gbrt.decision_function(X_test).shape))

X_test.shape: (25, 2)
Decision function shape: (25,)


この値には、あるデータポイントが「陽性」（この場合はクラス１）であると、モデルが信じている度合いがエンコードされている。正であれば陽性のクラスを、負であれば「陰性」（つまり要請以外）クラスを意味する。