### 3.1.2　ベイズの識別規則の例

| |サンプル数|喫煙(S=1)|飲酒(T=1)|
|----------|---------|-------------|
|健康(G=1)|800|320|640|
|G=0|200|160|40|

SとTは条件付き独立 $P(S,T|G) = P(S|G)P(T|G) $ が成り立っているとする。


In [1]:
# 健康か健康でないかをGをインデックスとして表現
# サンプルの中の健康な人 sample[1], 健康でない人 sample[0]
sample = [200, 800]
smoking = [160, 320]
drinking = [40, 60]

# 各クラス（健康　or 健康でない）の事前確率
P_G1 = sample[1] / sum(sample)
P_G0 = sample[0] / sum(sample)

各クラスの事前確率は$P(G=1) $、$P(G=0) $は

In [2]:
print("P(G=1) = %g" % P_G1)
print("P(G=0) = %g" % P_G0)

P(G=1) = 0.8
P(G=0) = 0.2


#### 喫煙に関する条件付き確率 P(S|G)

| | S=1 | S=0|
|----------|---------|--|
|G=1 |$P(S=1|G=1) = \frac {320} {800} = 0.4 $ | $P(S=0|G=1) = \frac {480} {800} = 0.6 $ |
|G=0 |$P(S=1|G=0) = \frac {160} {200} = 0.8 $ | $P(S=0|G=0) = \frac {40} {200} = 0.2 $ |

#### 飲酒に対する条件付き確率 P(T|G)
| | T=1 | T=0|
|----------|---------|--|
|G=1 |$P(T=1|G=1) = \frac {640} {800} = 0.8 $ | $P(T=0|G=1) = \frac {160} {800} = 0.2 $ |
|G=0 |$P(T=1|G=0) = \frac {40} {200} = 0.2 $ | $P(T=0|G=0) = \frac {160} {200} = 0.8 $ |


#### 条件付き確率 P(S,T|G)
P(S=1,T=0|G=1)=P(S=1,G=1)P(T=0,G=1) = 0.4 * 0.2 = 0.08

#### 同時確率 P(S,T,G)
P(S=1,T=0,G=1)=P(S=1,T=0|G=1) * P(G=1) = 0.08 * 0.8 = 0.0064


#### 周辺確率P(S,T)
P=(S,T)=P(S,T,G=1)+P(S,T,G=0)

クラス条件付確率、同時確率、周辺確率の計算

| |S=1,T=1|S=0,T=1|S=1,T=0|S=0,T=0|
|-|-|-|-|-|
|P(S,T｜G=1)|$P(S=1|G=1) * P(T=1|G=1)  = 0.32$ |$0.6 * 0.8 = 0.48$ | $0.4 * 0.2 = 0.08$ | $0.6 * 0.2 = 0.12$ |
|P(S,T｜G=0)|$0.8*0.2=0.16$ |$0.2*0.2=0.04$  |$0.8*0.8=0.64$ | $0.2*0.8 = 0.16$ |
|P(S,T,G=1)|$P(S,T｜G=1)*P(G=1) = 0.32*0.8=0.256$ |$0.48*0.8=0.384$ |$0.08*0.8=0.064$ |$0.12*0.8=0.096$ |
|P(S,T,G=0)|$0.16*0.2=0.032$ |$0.04*0.2=0.08$|$0.64*0.2=0.128$ |$0.16*0.2=0.032$ |
|P(S,T)|$P(S,T,G=1)+P(S,T,G=0)=0.288$ |$0.384+0.08=0.392$ | $0.064+0.128=0.192$| $0.096+0.032=0.128$ |

#### 事後確率の計算と、健康かどうかの判断

事後確率の式

$P(G|S,T) = \frac {P(S,T|G)P(G)} {P(S.T)} $

を使って

| |S=1,T=1|S=0,T=1|S=1,T=0|S=0,T=0|
|-|-|-|-|-|
|P(G=1｜S.T)| <font color='red'>$0.256 / 0.288 = 0.889$</font>| <font color='red'>$0.384/0.392=0.980$ </font> | $0.64/0.192=0.333$ | <font color='red'>$0.096/0.128=0.750$</font>|
|P(G=0｜S.T)| $0.032 / 0.111 = 0.889$ |$0.08/0.392=0.020$|<font color='red'>$0.128/0.192=0.667$</font>| $0.032/0.128=0.250$|

健康か否かは表の事後確率の大きいほう（赤字）を取ればよい。
