In [65]:
import numpy as np
from scipy import special

# 確率論

ある事象Aが起こる回数を$n(A)$、起こりうる全ての場合の数を$n(U)$としたとき、

Aが起こる確率 $ = \frac{n(A)}{n(U)} $

(例).  
10円玉を１枚投げたとき、起こりうる全ての場合の数は{表、裏}の２通りなので表が出る確率は$\frac{1}{2}$.

(例).  
2つのサイコロを同時に投げたとき、出目の和が４になる確率  
2つのサイコロの出目の組み合わせは全部で$6^2 = 36$通り。  
そのうち出目の和が４になるのは{(1, 3), (2, 2), (3, 1)}の３通り。  
よって求める確率は$\frac{3}{36} = \frac{1}{12} $  
これを表に表すと

|↓サイコロ１　サイコロ２→|1|2|3|4|5|6|
|-|-|-|-|-|-|-|
|1|2|3|4|5|6|7|
|2|3|4|5|6|7|8|
|3|4|5|6|7|8|9|
|4|5|6|7|8|9|10|
|5|6|7|8|9|10|11|
|6|7|8|9|10|11|12|

## 順列(Permutation)を用いた確率の計算
$n$個の中から$k$個選んで１列に並べるときの並べ方の総数は
順列 = $${}_nP_k = n \times (n - 1) \times \cdots \times (n - k + 2) \times (n - k + 1) = \frac{n!}{(n - k)!} $$

(例).  
A, B, C, D, Eの5人の中から2人選んで１列に並べるときの総数は、$\{AB, AC, AD, AE, BA, BC, BD, BE, CA, CB, CD, CE, DA, DB, DC, DE, EA, EB, EC, ED\}$の２０通り。  
これを順列の公式を用いて計算すると、${}_5P_2 = 5 \times 4 = 20$

(例).  
1, 2, 3, 4, 5のうち異なる数字を3つ用いて３桁の整数を作る。このとき、その整数が偶数である確率は   
- １の位が２: 100の位の取り得る数は$ \{1, 3, 4, 5 \} $の4つ、10の位が取り得る数は{100の位で選ばなかった数}なので３つ、よって$ 4 \times 3 = 12 $通り
- １の位が４: １の位が２の場合の時と同様なので$12$通り  
よって偶数になる総数は$ 12 + 12 = 24 $通り。   
ここで、３桁の整数の作り方の総数は${}_5P_3 = 5 \times 4 \times 3 = 60$通りなので、求める確率は$\frac{24}{60} = \frac{1}{5}$

## 和事象(Union)の確率
事象Aと事象Bが
- 同時に起こる場合: $ P(A \cup B) = P(A) + P(B) - P(A \cap B) $
    - ジョーカーを除く５２枚のトランプの山の中から１枚引く時、そのカードがスペードまたは絵柄(J, Q, K)である確率は、P(スペード) = $\frac{13}{52}$、P(絵柄) = $\frac{12}{52}$、P(ダイヤの絵柄) = $\frac{3}{52}$、つまり事象A(ダイヤである)と事象B(絵柄)は同時に起こり得るので、求める確率はP(ダイヤまたは絵柄) = $\frac{13}{52} + \frac{12}{52} - \frac{3}{52} = \frac{22}{52} = \frac{11}{26}$
- 同時に起こらない場合: $ P(A \cup B) = P(A) + P(B) $  
    - ジョーカーを除く５２枚のトランプの山の中から１枚引く時、そのカードがスペードまたはハートである確率は、P(スペード) = P(ハート) = $ \frac{13}{52}$。そしてこれらは同時には起こり得ないので、求める確率はP(スペードまたはハート) = $\frac{13}{52} + \frac{13}{52} = \frac{26}{52} = \frac{1}{2}$  
    
同時に起こらない場合、AとBは互いに排反(mutually exclusive)であるという。

## 余事象(Complementary)の確率
- $A$でない確率 = $P(\bar{A}) = 1 - P(A)$
    - 5本のうち２本が当たりのくじがある。このくじの中から１本引く時、当たりでない確率は、P(ハズレ) = 1 - P(当たり) = $1 - \frac{2}{5} = \frac{3}{5}$

- 少なくとも$A$である確率 = $1 - P(A$でない確率$)$
    - 10円玉を３枚投げる時、少なくとも１枚は表が出る確率は、P(表が１枚or２枚or３枚) = $1 - P($表が０枚)$ = 1 - \frac{1}{8} = \frac{7}{8}$

## 独立(Independent)な試行の確率
2つの試行が互いに影響しない試行。   
$$ P(A \cap B) = P(A) \times P(B) $$

(例)    
５本のうち１本は当たりのくじがある。このくじを続けて２回引くとき  
P(A) = P(当たり) = $\frac{1}{5}$、P(B) = P(ハズレ) = $\frac{4}{5}$とすると  
- 独立: １回目を引いた後にそれを元に戻してから引くとき１回目が当たり、２回目がハズレの確率は$\frac{1}{5} \times \frac{4}{5} = \frac{4}{25}$
- 独立でない: １回目を引いた後それを元に戻さず２回目を引き２回目はハズレの確率は、ハズレの確率が変わるので、$\frac{1}{5} \times \frac{4}{4} = \frac{1}{5}$。P(当たり) $\times$ P(ハズレ) = $\frac{1}{5} \times \frac{4}{5} = \frac{4}{5} \neq \frac{1}{5}$なので、定義の点から見ても独立でないことが言える。

#### 間違えやすいポイント
- 排反事象: 事象A、Bが同時に起こり得ないこと。
    - 足し算
- 独立試行: 前に行った試行の結果が次の試行に影響しないこと。
    - 掛け算

## 練習問題
$0.8$の確率で表が出るコインを６回投げた時、結果の順番が表表表裏表裏となる確率を求めよ。

In [66]:
# コインを投げたときの結果は互いに影響しないので独立試行
# 0.8 x 0.8 x 0.8 x 0.2 x 0.8 x 0.2
0.8**4 * 0.2**2

0.016384000000000006

## 条件付き確率(Conditional Probabilities)
事象Aが起こるという条件のもとで事象Bが起こる確率 = $P(B | A) = \frac{P(A \cap B)}{P(A)}$

５本のうち１本は当たり、残り４本はハズレのくじがある。１回目に当たりを引いたとして、そのくじを戻さずに２回目にハズレを引く確率は、残りはハズレくじしか残っていないはずなので$100\%$である。このとき、$P(A)$ = P(１回目当たり)、$P(B)$ = P(２回目ハズレ)、$P(A \cap B)$ = P(１回目当たりかつ２回目ハズレ)なので、P(２回目ハズレ|１回目当たり) = $ \frac{\frac{1}{5} \times \frac{4}{4}}{\frac{1}{5}} = 1 $。「１回目は当たり」という事がわかっているので、「２回目はハズレ」の確率が$100\%$である事が分かる。もし「１回目は当たり」かどうかわからず、「２回目がハズレの確率は？」と聞かれた場合、「１回目が当たりの場合」と「１回目がハズレの場合」で場合分けをしなければならない。この場合、P(１回目当たり２回目はずれ) = $\frac{1}{2}$、P(１回目はずれ２回目当たり) = $\frac{1}{2}$となるので、P(２回目はずれ) = P(１回目当たり２回目はずれ) = $\frac{1}{2}$となる。基本的に条件付き確率は、普通にある確率を求めるよりもさらに情報が与えられているので求める確率は通常よりも同じか高くなる。

(例).   
サイコロを1つ振った。出目を見逃してしまったが，友人が出目は奇数だと教えてくれた。このとき出目が３以上であった確率は、$P(A)$ = P(奇数) = $\frac{3}{6}$、$P(B)$ = P(３以上) = $\frac{4}{6}$、$P(A \cap B)$ = P(奇数かつ３以上) = $\frac{2}{6}$なので、$P(B|A) = \frac{\frac{2}{6}}{\frac{3}{6}} = \frac{2}{3}$

## ベイズの定理(Bay's Theorem)
条件付き確率より、
$$ P(B|A) = \frac{P(A|B)P(B)}{P(A)} $$

ある事象Aが起こったという条件のもとでの事象Bの確率$P(B|A)$を使ってある事象Bが起こったという条件のもとでの事象Aの確率$P(A|B)$を求めようというもの（逆も然り）。上の式のとき、$P(B|A)$を事後確率(posterior probability)、$P(A|B)$を尤度(likelihood)、$P(B)$を事前確率(prior probability)という。

条件付き確率、ベイズの定理の問題として有名なものに、有病率に関するものがある。

## 練習問題
コロナウイルスの有病率を$1\%$とする。また、実際にウイルスを保有している人がPCR検査で陽性と判断される確率が$95\%$(これを*感度(sensitivity)*$P(+|Covid)$という)であり、ウイルスを保有していない人がPCR検査で陰性と判断される確率を$80\%$(これを*特異度(specificity)*$P(-|Not Covid)$という)とする。この条件下で、無作為に10000人抽出したとする。

1. 次の表を埋めよ。

|True Result|Positive|Negative|Total|
|-|-|-|-|
|Covid||||
|Not Covid||||
|Total|||10000|

<br><br><br>

**(解答)**.  

|Test Result|Covid   |Not Covid|Total|
|-----------|--------|---------|-----|
|Positive   |95      |1980     |2075 |
|Negative   |5       |7920     |7925 |
|Total      |100     |9900     |10000|

2. 有病率(1%)、感度(95%)、特異度(80%)を元に樹形図を描け。

<br><br><br>

**(解答)**.  
![TreeDiagram.jpeg](attachment:TreeDiagram.jpeg)

3. 検査結果が陽性の人の中で実際にウイルスを保有している確率$P(Covid|+)$を求めよ（これを*陽性的中率(positive predictive value)*という）。

In [67]:
# 表を用いた場合
print(95 / 2075)

# ベイズの定理を用いた場合(樹形図も同様になる)
# P(C|+) = P(+|C)P(C) / P(+) 
# = P(+|C)P(C) / (P(+|C)P(C) + P(+|NC)P(NC))
# = P(C and +) / {P(C and +) + P(NC and +)}
print(0.01 * 0.95 / (0.01 * 0.95 + 0.99 * 0.2))

0.04578313253012048
0.04578313253012048


4. 検査結果が陰性の人の中で実際にウイルスを保有していない確率$P(Not Covid|-)$を求めよ（これを*陰性的中率(negative predictive value)*という）。

In [68]:
# 表
print(7920 / 7925)

# ベイズの定理
# P(NC|-) = P(NC and -) / {P(NC and -) + P(C and -)}
print(0.99 * 0.8 / (0.99 * 0.8 + 0.01 * 0.05))

0.9993690851735015
0.9993690851735016


5. 偽陽性率(false positive rate)$P(+|Not Covid)$を求めよ。

In [69]:
# 表
print(1980 / 9900)

# 樹形図ならそのまま答えが書いてある
# P(+|NC) = 1 - P(-|NC)
# 誤差は丸め誤差によるもの
print(1 - 0.8)

0.2
0.19999999999999996


6. 偽陰性率(false negative rate)$P(-|Covid)$を求めよ。

In [70]:
# 表
print(5 / 100)

# 樹形図
# P(-|C) = 1 - P(+|C)
print(1 - 0.95)

0.05
0.050000000000000044


## 二項分布(Binomial Distribution)
反復試行の確率ともいう。結果が成功か失敗かの２択の試行(ex. コイントス)を$n$回繰り返す。成功する確率が$p$の時、$n$回中$k$回成功する確率は
$$ P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k} = {}_nC_k p^k (1 - p)^{n - k} = \frac{n!}{k!(x - k)!} p^k (1-p)^{n-k} $$
である。  
一般に$B(n, p)$と表す($Bin(n, p)$や$Binom(n, p)$とする人もいる)。  
この二項分布$B(n, p)$に従う確率変数の期待値は$np$、分散は$npq = np(1-p)$である(つまり$q = 1-p$は失敗の確率)。

この二項係数$\binom{n}{k}$を計算するのに、`Scipy`モジュールの`special`を使う。`special`には階乗や組み合わせなどを計算する関数があるので簡単に計算できる。

- 階乗: `special.factorial()`

In [71]:
# 5!
special.factorial(5)

array(120.)

In [72]:
# 1!, 2!, 3!, 4!, 5!
special.factorial(range(1, 6))

array([  1.,   2.,   6.,  24., 120.])

- 組み合わせ: `special.comb(n, k)`

In [73]:
# 5C3
special.comb(5, 3)

10.0

In [74]:
# 5C3 = 5!/(3!2!)
special.factorial(5)/special.factorial(3)/special.factorial(2)

10.0

In [75]:
# 5C1, 5C2, 5C3, 5C4, 5C5
special.comb(5, range(1, 6))

array([ 5., 10., 10.,  5.,  1.])

## 練習問題
1. 
a. `special.comb()`を使って、10円玉を５回投げる時、表が２回出る確率を求めよ。

In [76]:
special.comb(5, 2) * 0.5**2 * 0.5**3

0.3125

1. b. `special.factorial()`を使って(1)の確率を求めよ。

In [77]:
special.factorial(5) / special.factorial(2) / special.factorial(3) * 0.5**2 * 0.5**3

0.3125

1. c. 10円玉を５回投げたときの期待値を求めよ。

In [78]:
5 * 0.5

2.5

1. d. 10円玉を５回投げたときの分散を求めよ。

In [79]:
5 * 0.5 * 0.5

1.25

2. a. $26\%$の確率で成功するある試行を１００回行った。このとき、２０回成功する確率を求めよ。

In [80]:
special.comb(100, 20) * 0.26**20 * (1 - 0.26)**80

0.036911003560024636

2. b. 成功回数0〜100までを計算せよ。

In [81]:
# range()は整数しか返せないため、np.arangeを使う
k = np.arange(0, 101)
special.comb(100, k) * 0.26**k * (1 - 0.26)**(100 - k)

array([8.37860995e-14, 2.94383593e-12, 5.11988762e-11, 5.87633949e-10,
       5.00680006e-09, 3.37756026e-08, 1.87895807e-07, 8.86519986e-07,
       3.62095494e-06, 1.30049913e-05, 4.15808236e-05, 1.19532097e-04,
       3.11483416e-04, 7.40825421e-04, 1.61751651e-03, 3.25834857e-03,
       6.08188374e-03, 1.05586916e-02, 1.71063488e-02, 2.59393567e-02,
       3.69110036e-02, 4.94046894e-02, 6.23324522e-02, 7.42715705e-02,
       8.37227951e-02, 8.94249963e-02, 9.06334422e-02, 8.72766481e-02,
       7.99474315e-02, 6.97397911e-02, 5.79908353e-02, 4.60084221e-02,
       3.48560427e-02, 2.52356608e-02, 1.74723852e-02, 1.15762984e-02,
       7.34382295e-03, 4.46315609e-03, 2.59980430e-03, 1.45214294e-03,
       7.78073886e-04, 4.00064358e-04, 1.97457762e-04, 9.35783487e-05,
       4.25930936e-05, 1.86232866e-05, 7.82353108e-06, 3.15820519e-06,
       1.22522713e-06, 4.56841443e-07, 1.63722096e-07, 5.63960584e-08,
       1.86716680e-08, 5.94141806e-09, 1.81692014e-09, 5.33915598e-10,
      

2. c. (2b)の確率の総和が１に近くなることを示せ。

In [82]:
# コンピュータで計算すると誤差が生じるため１にはならない
# (理論上は確率の総和は１)
sum(special.comb(100, k) * 0.26**k * (1 - 0.26)**(100 - k))

0.9999999999999996

2. d. 成功回数$26 \pm 10$の確率の総和を求めよ。

In [83]:
k_2 = np.arange(16, 37)
sum(special.comb(100, k_2) * 0.26**k_2 * (1 - 0.26)**(100 - k_2))

0.9838345682140125

3. a. 試行回数$n$、成功確率$p$、成功回数$s$を引数にとり、成功回数$s$までの確率の総和を計算する(i.e. $P(X \leq s) = \sum^{s}_{k=0} \binom{n}{k} p^k (1 - p)^{n - k} $)関数`prob_at_most`を定義せよ。

In [84]:
def prob_at_most(n, p, s):
    if s > n or p < 0 or p > 1:
        return 0
    else:
        k = np.arange(s + 1)
        probs = special.comb(n, k) * p**k * (1 - p)**(n - k)
        return sum(probs)

3. b. (3a)で定義した関数を使って、次の確率を求めよ。  
ある選挙において、候補者Cはその地域で有権者のうち$45\%$の支持者がいる。その地域で重複を許して有権者を２００回選び、どの候補者を支持しているかを記録する。このとき、候補者Cを支持する人が半数以上である確率を求めよ。

In [85]:
1 - prob_at_most(200, 0.45, 100)

0.06807524986263847

3. c. (3b)の地域において、５つの選挙調査組織が次のように調査を行ったとする。このとき
    - ５つのうち３つの組織は重複を許して２００回有権者を選ぶ
    - ４つ目の組織は重複を許して３００回有権者を選ぶ
    - ４つ目の組織は重複を許して４００回有権者を選ぶ  　
    
それぞれの組織の有権者の選出は互いに独立であるとする。このとき、少なくとも１つの組織は半数以上候補者Cを支持しているという調査結果になる確率を求めよ。

In [86]:
# 全体から支持者が半数以下である確率(P(X<=100), P(X<=150), P(X<=200))を引く
1 - prob_at_most(200, 0.45, 100)**3 * prob_at_most(300, 0.45, 150) * prob_at_most(400, 0.45, 200)

0.23550361568442357

4.  次の表は2016年のアメリカ大統領選挙のペンシルバニア州における支持の割合である。

|Voted for|Trump|Clinton|Others|Total|
|-|-|-|-|-|
|Probability|0.4818|0.4746|0.0436|1.0|
|Number of people|2,970,733|2,926,441|268,304|6,165,478|

4. a. この6,165,478人の中から20人を無作為抽出するとき、この中から$N_T$をトランプ支持者の数、$N_C$をクリントン支持者の数、$N_O$を他の候補者の支持者の数としたとき、$N_T + N_C + N_O$は次の数字のうちどれと等しいか。  
(a) 3  
(b) 20  
(c) 6165478

<br>

**(解答)**.  
(b)

4. b. 20人を無作為抽出する過程において$N_T = t$, $N_C = c$, $N_O = o$としたとき、確率$P(N_T = t, N_C = c, N_O = o)$を求める関数`prob_sample_counts`を定義せよ。

In [87]:
def prob_sample_counts(t, c, o):
    total = t + c + o
    if total != 20:
        return 0
    else:
        prob_t = 0.4818
        prob_c = 0.4746
        prob_o = 0.0436
        
        # combination = 20!/(t!c!o!)
        num_of_comb = special.factorial(20) / special.factorial(t) / special.factorial(c) / special.factorial(o)
        return  num_of_comb * prob_t**t * prob_c**c * prob_o**o

4. c. (4b)で定義した関数を使って、トランプ支持者が11人、クリントン支持者が8人、その他が1人の場合の確率を求めよ。

In [88]:
prob_sample_counts(11, 8, 1)

0.055092374118670545

4. d. トランプ支持者が少なくとも7人、クリントン支持者が少なくとも7人、その他が少なくとも1人である確率を求めよ。

In [89]:
sum([prob_sample_counts(t, c, 20-t-c) 
     for t in np.arange(7, 21) for c in np.arange(7, 21) if t + c < 20])

0.46938707665092416