In [1]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

np.random.seed(0)

# 1 確率に関するベイズの定理

ベイズの定理は以下によって定義される。

$$
p(A|B) = \frac{p(B|A)p(A)}{p(B)}
$$

## 1.1 ベイズ統計学小史

ベイズの定理を考案したのは、トーマス・ベイズであるが、それを数式として整理したのはピエール・シモン・ラプラスである。
20世紀までの統計の分野では頻度主義が多数派であり、ベイズ統計が忌避されていた。
そのため、統計以外の分野における研究者たちが頻度主義を採用していたのは、ある意味必然であったと言える。

## 1.2 導入

混乱を防ぐため、まずは、ベイズ統計を特徴づける主観確率からではなく、客観確率からベイズの定理を理解する。

### 1.2.1 確率

- 試行(trial): 偶然に左右される観測結果
- 事象(event): 試行の結果起こりうる状態
- 標本空間(sample space): 起こりうる全ての事象
- 根元事象(fundamental event): これ以上分割することのできない事象

事象Aの起こる確率は以下で定義される。
$$
p(A) = \frac{N(A)}{N(標本空間)}
$$

- 大数の法則(law of large numbers): 試行を繰り返すことで、事象Aの確率は本来の値に収束する。
- 客観確率(objective probability): 上記によって定義される確率

以下では、0.4の確率で1が出る思考を4回行い、ある回数の施行までの平均値を出している。
確かに、どの場合においても十分な回数の施行を行えば、その値は0.4に近づくことがわかる。

In [2]:
# 0.4の確率で1を取り、0.6の確率で0を取る二項分布の結果を生成
experiments = [np.random.binomial(1, 0.4, 100000) for i in range(4)]
n_trials = [5, 20, 50, 100, 100000]
results = {f'{i+1}回目':[np.mean(e[:n]) for n in n_trials] for i, e in enumerate(experiments)}
df = pd.DataFrame(results).T
df.rename(columns={c:n for c,n in zip(df.columns, n_trials)}, inplace=True)
df

Unnamed: 0,5,20,50,100,100000
1回目,0.4,0.5,0.48,0.38,0.39842
2回目,0.2,0.4,0.4,0.46,0.40425
3回目,0.4,0.45,0.36,0.36,0.39755
4回目,0.4,0.25,0.4,0.4,0.39754


### 1.2.2 分割

分割: 各事象が共通の根元事象を持たない事象の組み合わせ

$A_1, A_2, \cdots, A_a$が分割である時、以下が成立する。

$$
\sum\limits_{i=1}^{a} p(A_i) = 1
$$

### 1.2.3 同時確率

さらに分割$B_1, B_2,\cdots,B_b$を考えたとき、$A_i$と$B_j$が同時に観察される確率は$p(A_i, B_j)$で表され、これを同時確率(joint probability)と呼ぶ。

1.2.2の式をさらに拡張して(1次元から2次元へ)、以下が成立する。

$$
\sum\limits_{i=1}^{a} \sum\limits_{j=1}^{b} p(A_i, B_j) = 1
$$

3つの分割がある場合も、同様にして拡張を行えばよく、以下が成立する。

$$
\sum\limits_{i=1}^{a} \sum\limits_{j=1}^{b} \sum\limits_{k=1}^{c}  p(A_i, B_j, C_k) = 1
$$


### 1.2.4 周辺確率

同時確率で、ある分割におけるすべての和を取ると、1変数を消去したことになり、その他の変数が残ることになる。これを周辺確率(marginal probability)と呼ぶ。

$$
\sum\limits_{i=1}^{a}  p(A_i, B_j) = p(B_j)
$$

$$
\sum\limits_{j=1}^{b} p(A_i, B_j) = p(A_i)
$$

分割が3つの場合も、同様の式が導かれる。

$$
\sum\limits_{i=1}^{a} p(A_i, B_j, C_k) = p(B_j, C_k)
$$

$$
\sum\limits_{i=1}^{a} \sum\limits_{j=1}^{b}  p(A_i, B_j, C_k) = p(C_k)
$$

### 1.2.5 条件付き確率

$A_i$が観測された条件のもとで、さらに$B_j$が観測される条件、すなわち条件付き確率(condition probability)は、以下の式で表される。

$$
p(B_j|A_i) = \frac{p(B_j, A_i)}{p(A_i)}
$$

つまり、すでに$A_i$は確定しているので、これから起こりうるのは$B_1,\cdots,B_j$だけになって、分母には$\sum\limits_{j=1}^{b} p(A_i, B_j) = p(A_i)$が来る。

同様にして、3つの分割を考えるとき、$A_i$がすでに観測されている場合の条件付き確率は以下になる。

$$
p(B_j, C_k | A_i) = \frac{p(B_j, C_k)}{p(A_i)}
$$

また、$A_i, B_j$が観測されている際には、条件付き確率は以下になる。

$$
p(C_k|A_i, B_j) = \frac{p(A_i,B_j,C_k)}{p(A_i, B_j)}
$$

### 1.2.6 乗法定理・全確率の公式

条件付き確率の式を移行移行して求まる以下の式は、乗法定理(multiplication theorem of probability)と呼ばれる。

$$
p(A_i, B_j) = p(B_j|A_i) p(A_i) 
$$

また、以下の式は全確率の定理(law of total probability)と呼ばれる。

$$
\sum\limits_{i=1}^{a} p(B_j|A_i) p(A_i) = 1
$$