# Bayes Theory 貝氏定理

我們先敘述一下貝氏定理，等一下再舉一個在「快思慢想」這本書裡面提到的例子，來看看貝氏定理是怎麼用的，
以及對我們為何重要。 <br>

假設 $A, B$ 是兩個隨機事件， $P(A), P(B)$ 都不為 $0$，貝氏說了

$$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$$

證明:

$$P(A|B) P(B) = P(A \cap B) = P(B|A) P(A)$$


我們來看看 快思慢想 （作者 Kahneman） 提到的 基準比例謬誤 （base rate neglect fallacy）， <br>
某天夜晚城裡發生了一件車禍，肇事的車子逃逸，有目擊證人指認那是一輛藍色的計程車。據統計城裡的計程車只有藍、綠兩種顏色；綠色車佔 85% ，藍色車僅佔 15% 。法庭檢驗證人在夜晚識別車色的能力，發現他識別正確的機率是80%，而識別錯誤的機率為20%。

當 Kahneman 做實驗去問受測者，你們認為肇事車輛為藍色的機率有多少，大部分人的答案是 80%。這可是犯了「基準比例謬誤 」的答案，也就是城裡「綠色車佔85%，藍色車只佔15%」這個基本比率所包含的資訊被大家忽略了。如果把基本比率納入考量，貝氏定理給的答案是

$$Pr(肇事車真為藍色|證人指認為藍色) = \frac{P(證人指認為藍色|肇事車真為藍色)P(肇事車真為藍色)}{P(證人指認為藍色)} \sim 0.41379$$

這結果跟你想的答案一樣嗎? 80%, 41%， 你選的是哪一個？我們下面來詳細拆解這個結論過程。



假設有 100 輛車，根據已知 85 綠， 15 藍。

|  | 證人認對 | 證人認錯 | 總數 |
| :-----| :----: | :----: | :----: |
| 藍車 | 證人答藍車 （BT） | 證人答綠車 （BF） | 15|
| 綠車 | 證人答綠車 （GT） | 證人答藍車 （GF） | 85|
| 總數 | 80 | 20 | 100 |


我們一一來看，（BT)，（BF），（GT），（GF），那四格應該是多少。
- （BT） = 15 * 4/5 = 12
- （BF） = 15 * 1/5 = 3
- （GT） = 85 * 4/5 = 68
- （GF） = 85 * 1/5 = 17

所以表格為

|  | 證人認對 | 證人認錯 | 總數 |
| :-----| :----: | :----: | :----: |
| 藍車 | 12 | 3 | 15|
| 綠車 | 68 | 17 | 85|
| 總數 | 80 | 20 | 100 |

那問題答案

$$Pr(肇事車真為藍色|證人指認為藍色) = \frac{12}{12+17} \sim 0.41379$$

我們可以用貝氏再看一下這個問題

$$\frac{P(證人指認為藍色|肇事車真為藍色)P(肇事車真為藍色)}{P(證人指認為藍色)} = \frac{\frac{12}{12+3} * \frac{15}{100}}{ \frac{12+17}{100}} = \frac{12}{12+17}$$


如果 $A,B$ 有順序，我們也可以用這種方式理解貝氏，

$$\begin{aligned}
    P(A|B) &= P(B|A) &*& P(A) &/& P(B) \\
    預測機率 &= 概似機率 &*& 先驗機率 &/& 條件發生機率 \\
    Posterior &= Likelihood &*& Prior &/& Evidence \\
    \end{aligned}$$

我們把 $A, B$ 帶入上面的問題， $A =$  肇事車真為藍色， $B =$ 證人指認為藍色，
因為在城裡面只有藍車 $15$ 輛，綠車 $85$ 輛，我們在還沒開庭前會有個預設概念是藍車的機率是 $0.15$ 這也是被稱為先驗機率，
也可以理解為事發之前的機率，假設城裡開車的每個人出車禍的機率都一樣。 <br>

然後證人上法庭，指認肇事的車子是藍色車，這就是證據 （evidence），通常這個機率是常數，你可以想成，大家一看到這個證人，對他的視力與當天夜晚的狀況等等條件得出的綜合概念。
 <br>

那接下來我們會想問的就是假設 "肇事車真為藍色" 這前題下，證人指認出為藍色的機率是多少，因為證人也可能會認錯，這個機率也被稱為概似機率。 <br>

在開庭前我們有一個之前的刻板印象 $P(A)$ 先驗機率，知道證人是誰後，在他的指認下，我們就會產生一個新的機率 

$$P(A|B)$$ 

這也被稱為 後驗機率。 
我們也可以參考很多其他的證據，我指的是傳喚很多證人去指證以便得到比較準確的機率。\



我們再舉一個垃圾郵件的例子，當我們收到一封新的信件，原本對於是不是垃圾郵件會有一個既往印象，雖然我常會收到一些沒用的信件，例如阿醜的抱怨信，但我還是很需要去信箱收取重要的信，例如小美的情書，
但是我可以建立一些特別的關鍵字去做篩選，例如信件裡面出現阿醜那有很大概率就是垃圾信，裡面出現小美那很大概率是重要的信，但是也有誤判的可能，例如阿醜在信裡面提到小美很漂亮想做朋友，這明明是阿醜寫的垃圾信，但只是因為信裡面有提到小美就被誤判不是垃圾信了。 <br>


如果上面的例子還不能真確感受到貝氏的概念，我再舉一個我們平常生活中會遇到的例子，假設你去買了刮刮樂，我們在購買之前會對中獎機率有一個概念，當看到刮出個``謝謝``兩個字時，根據你多年豐富的人生經歷你還會繼續刮下去嗎？這就是看到一些證據後的後驗機率，那如果你看到的是``恭喜``兩個字，你會不會非常開心，當然也可能只是 恭喜發財 再接再厲。



