# 確率
確率と数学的基礎に対する理解を欠いたままで、データサイエンスを行うのは困難です。
我々の木庭は、現実世界の事象の不確実さを定量化する方法の一つとして確立を用います。
そのため、確率論を使ってモデルをつくり、確率論を使ってモデルを評価します。

## 従属と独立
大まかなに言うと、Eの発生に関する何らかの情報がFの発生についての情報を与える場合、２つの事象は、EとFの従属関係にあるといいます。
歪みのないコインを２回投げた場合、１回目の結果が２回目の結果に影響を与えることはありません。この事象は独立です。
一方。１回目が表であったことは、２回とも表がでる事象について明らかな情報を与えます。たとえば、１回目が表であるため、１回目が裏になることはないといったことです。
この事象は、従属です。

数学的に、事象EとFが独立である場合、その両方が発生する確率は、それぞれの事象が発生する確率の積になります。

$${P(E,F) = P(E)P(F)} $$

## 条件付き確率
事象Eと事象Fが独立であるなら、以下の式で定義されます
$${P(E,F) = P(E)P(F)} $$

両者が独立である必要がないとき、FにおけるEの条件付き確率は、以下の式で定義されます。
言い換えると、事象Fが発生したとき、事象Eが起こる確率です
$${P(E | F) = P(E,F) / P(F)} $$

書き換えると
$${P(E,F) = P(E|F})P(F)$$

EとFが独立であるなら。以下の式が成り立ちます
$${P(E|F) = P(E)}$$

上記は、事象Fが発生しても、事象Eの発生確率には、何ら影響を与えないことを数式として表現したものです。

## 家族の例
二人の子供がいる家族を考えます。次のことを仮定して考えます。

* 子供がそれぞれ男か女である可能性は等しい
* 二人目の子供の性別は、一人目の子供の性別と独立している。

### 子供が生まれる各確率
* 女の子がいない確率は、1/4
* 各１名ずつの確率は、2/4
* 男の子がいない確率は、1/4

では、一人目が女の子であった場合（事象G）に、二人とも女の子になる確率（事象B）はどうなるか？
条件付き確率のため、以下のように示せます。直観とあっていると思います

$${P(B|G) = P(B,G)/P(G) = P(B)/P(G) = 1/2} $$

In [5]:
G = 1/2
B = 1/4
B / G 

0.5

少なくとも一人が女の子である場合（事象L）、二人とも女の子である確率(事象B)も求められます。

上記と同様に、事象Bかつ事象L（二人とも女の子かつ、少なくとも一人が女の子）は、事象Bと等しいので以下の式が成り立ちます
でも直感とはあいません。なぜ、このようになるのか考えてみましょう。以下は独立を仮定しているため、そのまま当てはめようとすると誤ります。

$${P(B|L) = P(B,L)/P(L) =P(B)/P(L) = 1/3 }$$

In [52]:
# 事象L:少なくとも女の子が一人
print("-----事象L-------")
print("事象Lを求めるには、３つの確率を求める必要がある")
print("P(男子|女子) = P(男子,女子) / P(女子) =", 1/2 / 1/2); p1 = 1/2 / 1/2
print("P(女子|男子) = P(女子,男子) / P(女子) =", 1/2 / 1/2); p2 = 1/2 / 1/2
print("P(女子|女子) = P(女子,女子) / P(女子) =", 1/2 / 1/2); p3 = 1/2 / 1/2
print("P(片方が女子) = 上記事象の総和 = ", p1 + p2 + p3);P_L = p1 + p2 + p3

# 事象B：二人とも女子
print("-----事象B-------")
print("P(女子|女子) = P(女子,女子) / P(女子) =", 1/2 / 1/2); P_B = 1/2 / 1/2

#P(B|L)を求めると
print("-----P(B|L)-------")
P_B / P_L



-----事象L-------
事象Lを求めるには、３つの確率を求める必要がある
P(男子|女子) = P(男子,女子) / P(女子) = 0.25
P(女子|男子) = P(女子,男子) / P(女子) = 0.25
P(女子|女子) = P(女子,女子) / P(女子) = 0.25
P(片方が女子) = 上記事象の総和 =  0.75
-----事象B-------
P(女子|女子) = P(女子,女子) / P(女子) = 0.25
-----P(B|L)-------


0.3333333333333333

### これをシミュレーションしてみると

In [50]:
import random

def random_kid():
    return random.choice(["boy","girl"])

both_girls=0
older_girl=0
either_girl=0

random.seed(0)
for _ in range(10000):
    younger = random_kid()
    older = random_kid()
    if older == "girl":
        older_girl += 1
    if older == "girl" and younger == "girl":
        both_girls += 1
    if older == "girl" or younger == "girl":
        either_girl += 1

P_first = older_girl / 10000
P_either = either_girl / 10000
P_both = both_girls / 10000


print("P(一人目が女子)",   P_first)
print("P(一方が女子)",     P_either)
print("P(両方とも女子)",   P_both)
        
print("P(二人とも女子|一人目が女子)",   P_both / P_first)
print("P(二人とも女子|どちらかが女子)", P_both / P_either)

P(一人目が女子) 0.4937
P(一方が女子) 0.7464
P(両方とも女子) 0.2472
P(二人とも女子|一人目が女子) 0.5007089325501316
P(二人とも女子|どちらかが女子) 0.3311897106109325


## ベイズの定理
ベイズの定理は条件付き確率を裏返しにする手法。
事象Fが発生した状況で、それとは独立した事象Eが起きる確率を求めるします。
しかしわかっていることは、事象Eが発生した状況で事象Fが発生する確率だけです。
条件付き確率の定義を使い、式展開を行います

### 条件付き確率
$${P(B_i|A) = \frac{P(A,B_i)}{P(A)}}$$



### 乗法定理
$${P(A,B_i) = P(B_i)P(A|B_i)}$$
これを代入する。

$${P(B_i|A) = \frac{P(A,B_i)}{P(A)} = \frac{P(B_i)P(A|B_i)}{P(A)}}$$

さらに、分母側もすべての同時確率の総和に書き換える、乗法定理でまとめると

$${P(B_i|A) = \frac{P(A,B_i)}{P(A)} = \frac{P(B_i)P(A|B_i)}{P(A,B_1) + P(A,B_2) + … + P(A,B_k)} = \frac{P(B_i)P(A|B_i)}{\sum^k_{j=-1}P(B_j)P(A|B_j)}}$$ 


### ベイズの定理の例
疾病の発見率が99%の検査があったとします。
この疾病は、1/10000で発症します。

* 検査結果が陽性である事象をT
* 疾患の事象をDとします。

ベイズの定理では検査が陽性であった場合に、疾患を持っている確率は以下の式になります。

$${P(D|T) = \frac{P(T,D)}{P(T)} = \frac{P(D)P(D|T)}{P(T)}}$$

さらに、分母のP(T)を乗法定理で展開すると
$${P(D|T) = \frac{P(D)P(T|D)}{P(D)P(T|D) + P(-D)P(T|-D)}}$$

#### 疾患を持つ人が陽性となる確率
これは、疾病の発見率が99%であるため、疾病患者が検査の結果で陽性になる確率を以下のような定義で書けます。

$${P(検査陽性|疾患患者) = P(T|D) = 0.99}$$

疾病にかかる確率は、
$${P(D) = 1 / 10000 = 0.0001}$$

疾病ではないが、検査結果陽性となる確率は、
$${P(T|-D)} = 0.01$$

疾病ではない確率は、
$${P(-D) = 0.9999}$$

検査の結果、要請である確率を示すと
$${\frac{0.0001 * 0.99}{(0.0001 * 0.99) + (0.9999 * 0.01)} = 0.0098}$$

よって、1%以下というのがわかります。
間違って陽性とする確率が1%あるため、検出力99%より低くなるのは直感的にわかるかと思います

In [53]:
(0.0001 * 0.99) / ((0.0001 * 0.99) + (0.9999 * 0.01))

0.00980392156862745

## 確率変数
確率変数とは、確率分布に関連づいた値を持つ変数。
関連する分布は、確率変数がとりうる値それぞれの起こりやすさを与えます。
コイン投げでは、値が0になる確率が0.5, 値が1となる確率が0.5です。
