In [1]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

np.random.seed(0)

# 1 確率に関するベイズの定理

ベイズの定理は以下によって定義される。

$$
p(A|B) = \frac{p(B|A)p(A)}{p(B)}
$$

## 1.1 ベイズ統計学小史

ベイズの定理を考案したのは、トーマス・ベイズであるが、それを数式として整理したのはピエール・シモン・ラプラスである。
20世紀までの統計の分野では頻度主義が多数派であり、ベイズ統計が忌避されていた。
そのため、統計以外の分野における研究者たちが頻度主義を採用していたのは、ある意味必然であったと言える。

## 1.2 導入

混乱を防ぐため、まずは、ベイズ統計を特徴づける主観確率からではなく、客観確率からベイズの定理を理解する。

### 1.2.1 確率

- 試行(trial): 偶然に左右される観測結果
- 事象(event): 試行の結果起こりうる状態
- 標本空間(sample space): 起こりうる全ての事象
- 根元事象(fundamental event): これ以上分割することのできない事象

事象Aの起こる確率は以下で定義される。
$$
p(A) = \frac{N(A)}{N(標本空間)}
$$

- 大数の法則(law of large numbers): 試行を繰り返すことで、事象Aの確率は本来の値に収束する。
- 客観確率(objective probability): 上記によって定義される確率

以下では、0.4の確率で1が出る思考を4回行い、ある回数の施行までの平均値を出している。
確かに、どの場合においても十分な回数の施行を行えば、その値は0.4に近づくことがわかる。

In [2]:
# 0.4の確率で1を取り、0.6の確率で0を取る二項分布の結果を生成
experiments = [np.random.binomial(1, 0.4, 100000) for i in range(4)]
n_trials = [5, 20, 50, 100, 100000]
results = {f'{i+1}回目':[np.mean(e[:n]) for n in n_trials] for i, e in enumerate(experiments)}
df = pd.DataFrame(results).T
df.rename(columns={c:n for c,n in zip(df.columns, n_trials)}, inplace=True)
df

Unnamed: 0,5,20,50,100,100000
1回目,0.4,0.5,0.48,0.38,0.39842
2回目,0.2,0.4,0.4,0.46,0.40425
3回目,0.4,0.45,0.36,0.36,0.39755
4回目,0.4,0.25,0.4,0.4,0.39754


### 1.2.2 分割

分割: 各事象が共通の根元事象を持たない事象の組み合わせ

$A_1, A_2, \cdots, A_a$が分割である時、以下が成立する。

$$
\sum\limits_{i=1}^{a} p(A_i) = 1
$$

### 1.2.3 同時確率

さらに分割$B_1, B_2,\cdots,B_b$を考えたとき、$A_i$と$B_j$が同時に観察される確率は$p(A_i, B_j)$で表され、これを同時確率(joint probability)と呼ぶ。

1.2.2の式をさらに拡張して(1次元から2次元へ)、以下が成立する。

$$
\sum\limits_{i=1}^{a} \sum\limits_{j=1}^{b} p(A_i, B_j) = 1
$$

3つの分割がある場合も、同様にして拡張を行えばよく、以下が成立する。

$$
\sum\limits_{i=1}^{a} \sum\limits_{j=1}^{b} \sum\limits_{k=1}^{c}  p(A_i, B_j, C_k) = 1
$$


### 1.2.4 周辺確率

同時確率で、ある分割におけるすべての和を取ると、1変数を消去したことになり、その他の変数が残ることになる。これを周辺確率(marginal probability)と呼ぶ。

$$
\sum\limits_{i=1}^{a}  p(A_i, B_j) = p(B_j)
$$

$$
\sum\limits_{j=1}^{b} p(A_i, B_j) = p(A_i)
$$

分割が3つの場合も、同様の式が導かれる。

$$
\sum\limits_{i=1}^{a} p(A_i, B_j, C_k) = p(B_j, C_k)
$$

$$
\sum\limits_{i=1}^{a} \sum\limits_{j=1}^{b}  p(A_i, B_j, C_k) = p(C_k)
$$

### 1.2.5 条件付き確率

$A_i$が観測された条件のもとで、さらに$B_j$が観測される条件、すなわち条件付き確率(condition probability)は、以下の式で表される。

$$
p(B_j|A_i) = \frac{p(B_j, A_i)}{p(A_i)}
$$

つまり、すでに$A_i$は確定しているので、これから起こりうるのは$B_1,\cdots,B_j$だけになって、分母には$\sum\limits_{j=1}^{b} p(A_i, B_j) = p(A_i)$が来る。

同様にして、3つの分割を考えるとき、$A_i$がすでに観測されている場合の条件付き確率は以下になる。

$$
p(B_j, C_k | A_i) = \frac{p(B_j, C_k)}{p(A_i)}
$$

また、$A_i, B_j$が観測されている際には、条件付き確率は以下になる。

$$
p(C_k|A_i, B_j) = \frac{p(A_i,B_j,C_k)}{p(A_i, B_j)}
$$

### 1.2.6 乗法定理・全確率の公式

条件付き確率の式を移行移行して求まる以下の式は、乗法定理(multiplication theorem of probability)と呼ばれる。

$$
p(A_i, B_j) = p(B_j|A_i) p(A_i) 
$$

また、以下の式は全確率の定理(law of total probability)と呼ばれる。

$$
\sum\limits_{i=1}^{a} p(B_j|A_i) p(A_i) = 1
$$

## 1.3 ベイズの定理

ベイズの定理は、以下の式で表される。

$$
p(A_i|B_j) = \frac{p(B_j|A_i)p(A_i)}{p(B_j)}
$$

右辺の$p(A_i)$を事前確率(prior probability)、左辺の$p(A_i|B_j)$を事後確率(posterior probability)と呼ぶ。

### 1.3.1 健診問題

以下の健診問題を考える。

> ある国の病気Aは、1万人あたり40人の割合でかかっていることが知られています。
> 病気Aにかかっている人が健診Bを受けると8割の確率で陽性となります。
> 健常な人が健診Bを受けると9割の確率で陰性となります。
> 健診Bによって陽性と判定された場合、その受信者が病気Aにかかっている確率はどれほどでしょうか？

各事象を以下のように定める。

- $A_1$: 病気にかかっている
- $A_2$: 病気にかかっていない
- $B_1$: 陽性判定
- $B_2$: 陰性判定

ベイズの定理より、"<i>健診Bによって陽性と判定された場合$(B_1)$の、その受信者が病気Aにかかっている($A_1$)確率</i>"は、以下の式で表される。

$$
p(A_1|B_1) = \frac{p(A_1, B_1) }{p(B_1)}
$$

$p(B_1)$は、周辺確率になるので、以下の式によって求まる。

$$
p(B_1) = p(A_1, B_1) + p(A_2, B_1)
$$

以下の式が成立することに注意して、最終的な式を求める。

$$
p(A_1, B_1) = p(B_1|A_1)p(A_1) \\
p(A_1, B_2) = p(B_1|A_2)p(A_2)
$$

$$
p(A_1|B_1) = \frac{p(B_1|A_1)p(A_1)}{p(B_1|A_1)p(A_1) + p(B_1|A_2) p(A_2)}
$$

- $p(A_1)$: 40/10000
- $p(A_2)$: 1-40/10000
- $p(B_1|A_1)$: 0.8
- $p(B_1|A_2)$: 1-0.9

In [3]:
p_a1 = 40/10_000
p_a2 = 1-p_a1
p_conditional_b1_a1 = 0.8
p_conditional_b1_a2 = 1-0.9
ans = (p_conditional_b1_a1*p_a1) / (p_conditional_b1_a1*p_a1 + p_conditional_b1_a2*p_a2)
print(f'ans: {ans:.3}')

ans: 0.0311


陽性という判定を仮に受けたとしても、実際に病気に罹っている確率は3%しかない。

### 1.3.2 逆確率

先の問題では、答えを求める式に$p(B_1|A_1)$と$p(B_1|A_2)$が出現することが自然であることに注意する。
なぜなら、現実の状況においては、まず医師が病気かどうかを判定したのち(つまり、条件Aが確定したのち)、健診にかけて陽性・陰性の判定を確認することが自然だからだ。

そして、求める式が$p(A_1|B_1)$であることも自然である。
なぜなら、観測されているのは、$B_1$であるからだ。

一方でこの問題では、原因は"病気"で、結果は"健診の診断結果"なのだから、$p(A_1|B_1)$は、結果をもとに原因を求める確率であるといえる。
因果関係が逆転していることから、これを<b>逆確率(inverse probability)</b>と呼ぶ。

### 1.3.3 独立

事象$A_i$が事象$B_j$の結果に影響を与えない場合、以下の式が成立する。

$$
p(A_i|B_j) = p(B_j|A_i)\\
p(A_i,B_j) = p(A_i)p(B_j)
$$

また、事象$A$が観測された条件のもとで、$B,C$が独立な場合、以下の式が成立する。

$$
p(B,C|A) = p(B|A) p(C|A)
$$

### 1.3.4 ベイズ更新

事象$A$を知るための観測結果$B, C$が得られたとし、$B$と$C$が独立な場合を考える。
事後確率は以下のように計算される。

\begin{aligned}
p(A|B,C)&=\frac{p(B, C|A)p(A)}{p(B,C)}\\
&=\frac{p(B|A)p(C|A)}{p(B)p(C)} (\because B,Cは独立)\\
&=\frac{p(C|A)}{p(C)} \cdot \frac{p(B|A)p(A)}{p(B)}\\
&=\frac{p(C|A)}{p(C)} \cdot p(A|B)
\end{aligned}

上の式では、Bが分かった時点での事後確率$p(A|B)$が現れていることが分かる。
従って、例えば事象$B$が確定したのち、事象$C$が確定したというような際には、まず$p(A|B)$を計算しておき、その後の事象$C$確定後に、$\frac{p(C|A)}{p(C)}$をかけ合わせることで、最終的な事後確率$p(A|B,C)$を計算可能である。
このように、事後確率は帰納的に求めていくことができる。
曰く、「<i>今日の事後分布は、明日の事前分布</i>」。
これを<b>ベイズ更新(Bayesian updating)</b>と呼ぶ。

### 1.3.5 迷惑メールフィルタ

「絶対必勝」,「完全無料」,「投資指南」,「急騰予想」の4つの単語が含まれたメールが迷惑メールかどうかを判定することを考える。
過去のデータから、それぞれの単語が含まれているときの迷惑メール及び非迷惑メールである確率は以下である。

In [4]:
df = pd.DataFrame(
    {
        '迷惑メール': [0.11, 0.12, 0.15, 0.13],
        '非迷惑メール': [0.01, 0.02, 0.01, 0.02]
    },
    index=['絶対必勝', '完全無料', '投資指南', '急騰予想']
)
df

Unnamed: 0,迷惑メール,非迷惑メール
絶対必勝,0.11,0.01
完全無料,0.12,0.02
投資指南,0.15,0.01
急騰予想,0.13,0.02


それぞれの単語が含まれているかどうかに関わらず、そもそも、すべてのメールの中で迷惑メールが含まれる確率は0.6であるとする。
すると、ベイズ更新を用いて以下のように、迷惑メールである確率を求めていくことができる。

In [5]:
p = 0.6
print(f'initial: {p:.5f}')
for i, row in df.iterrows():
    p = p * row['迷惑メール'] / (p*row['迷惑メール'] + (1-p)*row['非迷惑メール'])
    print(f'{i}: {p:.5f}')

initial: 0.60000
絶対必勝: 0.94286
完全無料: 0.99000
投資指南: 0.99933
急騰予想: 0.99990
