<a href="https://colab.research.google.com/github/yukinaga/minnano_ds/blob/main/section_4/05_bayes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ベイズの定理
様々な分野のデータ解析に利用される有用な概念、ベイズの定理を条件付き確率をベースに解説します。  

## ●条件付き確率とは？

あるできごと$B$が起きたという条件のもとで別のできごと$A$が起きる確率のことを、「条件付き確率」といいます。  
条件つき確率は、以下の式で表されます。

$$P(A|B)$$

この式は、$B$が起きたという条件で$A$が起きる確率を表します。  

条件付き確率は、以下の式で求めることができます。  

（式 1）
$$P(A|B) = \frac{P(A \cap B)}{P(B)}$$

$P(B)$は$B$が起きる確率で、$P(A \cap B)$は$A$と$B$が同時に起きる確率です。  
上記は、$B$の中で$A$が起きたものの割合、と解釈することができます。  

## ●条件付き確率の例

条件付き確率の例を解説します。

袋の中に白い玉と赤い球が10個ずつ入っています。  
白い球のうち6つには0という数字が、4つには1という数字が書かれています。  
赤い球のうち4つには0という数字が、6つには1という数字が書かれています。  

この袋から球を1つ取り出したら、白い球でした。この白い球の番号が0である確率を求めましょう。  
球の色は既に白と分かっているので、確率を計算する際にはこのことを考慮しなければいけません。  

まずは、$A$と$B$を以下のように設定します。  
$A$: 番号が0である  
$B$: 白い球である  

ここで、先ほどの（式 1）を使い、条件付き確率を求めます。

$$P(A|B) = \frac{P(A \cap B)}{P(B)}$$

右辺の分母$P(B)$は白い球である確率なので、以下のように求めることができます。

$$P(B) = \frac{10}{20} = \frac{1}{2}$$

右辺の分子、$P(A \cap B)$ですが、袋の中に20個の球があり、白くて番号が0の球は6個なので以下のように求めることができます。

$$P(A \cap B) = \frac{6}{20} = \frac{3}{10}$$

以上により、（式 1）を使って条件付き確率を以下のように求めることができます。

$$P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{\frac{3}{10}}{\frac{1}{2}} = \frac{3}{5}$$

取り出した球が白である場合、その番号が0である確率は$\frac{3}{5}$、すなわち60%となりました。  
今回扱ったのはシンプルなケースですが、条件付き確率はより複雑な条件で活躍するようになります。

## ●ベイズの定理とは？
「ベイズの定理」は以下の式で表されます。

（式 2）
$$P(B|A) = \frac{P(A|B)P(B)}{P(A)}$$

条件付き確率$P(B|A)$を、$P(A|B)$と$P(A)$と$P(B)$を使って求めます。  
$B$が起きる確率$P(B)$は「事前確率」と呼ばれます。また、Aが起きたという条件のもとで$B$が起きる確率$P(B|A)$は「事後確率」と呼ばれます。ベイズの定理は、事前確率を事後確率に変換する式です。  

ベイズの定理は、$P(A|B)$は簡単に求まるけれど、$P(B|A)$が求まらない場合、特に役に立ちます。  
  
以下、ベイズの定理をは条件付き確率の式から導出します。    
以下は、（式 1）の$A$と$B$を入れ替えた式です。  

（式 3）
$$P(B|A) = \frac{P(B \cap A)}{P(A)}$$


$P(A \cap B)$はAとBが同時に起きる確率なので、以下の関係が成り立ちます。

$$P(A \cap B) = P(B \cap A)$$

このとき、（式 3）の両辺を（式 1）で割ると、以下のようにベイズの定理を得ることができます。   

$$ \begin{aligned} \\
\frac{P(B|A)}{P(A|B)} &= \frac{P(B)}{P(A)}\\
P(B|A) &= \frac{P(A|B)P(B)}{P(A)}
\end{aligned} $$

## ●ベイズの定理の活用例

ベイズの定理を使って、ある人が検査により陽性と判定された場合、実際に罹患している可能性は何%か計算します。  
以下の病気を考えます。  

* 全人類の0.01%が罹患している
* 検査により、実際に病気に罹患している人が陽性と判定される確率が98%  
* 罹患していない人が陰性と判定される確率は90%

ここで、検査で陽性であることを$A_1$、陰性であることを$A_2$とします。  
このとき、
$$P(A_2) = 1 - P(A_1)$$
という関係があります。

実際に罹患していることを$B_1$、罹患していないことを$B_2$とします。
このとき、
$$P(B_2) = 1 - P(B_1)$$
という関係があります。

以上を踏まえて、（式 2）のベイズの定理を以下のように使っていきましょう。  

$$P(B_1|A_1) = \frac{P(A_1|B_1)P(B_1)}{P(A_1)}$$

左辺の$P(B_1|A_1)$が、陽性と判定されたとき実際に罹患している確率になります。  
それでは、右辺を使ってこれを計算しましょう。  

$P(A_1|B_1)$は罹患している人が陽性と判定される確率なので、病気の特性から以下の通りになります。
$$P(A_1|B_1) = 0.98$$

$P(B_1)$は病気に罹患している確率なので、病気の特性から以下のようになります。  
$$P(B_1) = 0.0001$$

$P(A_1)$は陽性と判定される確率なので、罹患していて陽性と判定される確率と、罹患していなくて陽性と判定される確率の和により計算することができます。
$$P(A_1) = P(B_1)P(A_1|B_1) + P(B_2)P(A_1|B_2) = (1-0.9999)\times 0.98 + 0.9999\times (1-0.9) = 0.100088$$

以上により、$P(B_1|A_1)$を以下の通りに求めることができます。  
$$P(B_1|A_1) = \frac{P(A_1|B_1)P(B_1)}{P(A_1)} = \frac{0.98\times 0.0001}{0.100088} = 0.00097914$$

例え検査に陽性であっても、本当に罹患している確率は0.1%程度のようです。陽性と判定されても、あまり心配する必要は無さそうですね。

ベイズの定理を用いたベイズ推定により不確実なできごとを予測することができます。ベイズ推定は、例えば迷惑メールのフィルタやニュース記事のカテゴリ分類などに活用されています。  