# Bayes's Theorem

* 이전 chapter 에서 다음과 같이 베이즈의 정리를 도출했다.

$$P(A|B) = \frac{P(A) P(B|A)}{P(B)}$$

* 문제를 해겨하는 데 완벽한 데이터를 가지고 있다면 베이즈 정리는 필요없다. 하지만 완전한 데이터를 항상 가질 수 없기 때문에 베이즈 정리는 유용하다.

## The Cookie Problem

우선 항아리 문제의 축약형 문제를 살펴보자 [urn problem](https://en.wikipedia.org/wiki/Urn_problem):

> 쿠키 그릇 두개가 있다고 가정하자
>
> * 첫 번째 그릇에는 바닐라 쿠키 30개와 초콜릿 쿠키 10개가 들어있다. 
>
> * 두 번째 그릇에는 바닐라 쿠키와 초콜릿 쿠키가 20개씩 들어있다.
>
> 어떤 그릇인지 확인하지 않고 임의로 그릇을 하나 골라서 거기에서 쿠키를 하나 집었다고 하자. 그 때 쿠키가 바닐라 쿠키였다면, 이 바닐라 쿠키가 1번 그릇에서 나왔을 확률은?

이 떄 우리에게 필요한 것은 바닐라 쿠키를 꺼냈다는 전제 조건이 주어졌을 때 쿠키가 첫 번째 그릇에서 나온 것인지를 구하는 조건부확률, $P(B_1 | V)$ 이다.

하지만 이 서술에서 얻을 수 있는 것은 다음과 같다.:

* 첫 번째 그릇이라는 조건 하에서 바닐라 쿠키를 꺼낼 조건부 확률, $P(V | B_1)$ 

* 두 번째 그릇이라는 조건하에서 바닐라 쿠키를 꺼낼 조건부 확률, $P(V | B_2)$.


Bayes's Theorem 을 위 문제에 적용해본다면:

$$P(B_1|V) = \frac{P(B_1)~P(V|B_1)}{P(V)}$$

좌변은 최종적으로 우리가 알고자하는 조건부확률이고, 우변이 얻어진 정보이다.:

-   $P(B_1)$, 첫번째 그릇을 고를 확률이며 그릇을 임의로 선택하므로 두 개 중 하나의 비중인 $P(B_1) = 1/2$.

-   $P(V|B_1)$, 바닐라 쿠키를 첫 번쨰 그릇에서 고를 확률은 3/4 이다.

-   $P(V)$, 각 그릇에서 바닐라 쿠키를 꺼낼 확률이다. 

$P(V)$ 를 계산하기 위해 전확률의 법칙을 활용할 수 있다:

$$P(V) = P(B_1)~P(V|B_1) ~+~ P(B_2)~P(V|B_2)$$

위 수식을 문제에 대입해보면 아래처럼 계산이 도출된다.
$$P(V) = (1/2)~(3/4) ~+~ (1/2)~(1/2) = 5/8$$

* 각 그릇을 고를 확률은 동일하고 그릇에는 쿠키가 동일한 개수로 있으므로 각 쿠키를 고를 확률은 동일하다. 

* 두 그릇에는 총 50개의 바닐라 쿠키와 30개의 초콜릿 쿠키가 있으므로 바닐라 쿠키를 뽑을 확률은 $P(V) = 5/8$ 이다.

이제 베이즈의 정리를 이용해 그릇 1의 사후확률 Posterior 을 구할 수 있다.

$$P(B_1|V) = (1/2)~(3/4)~/~(5/8) = 3/5$$

이 예시는 베이즈 정리의 한 가지 활용법을 보여준다. $P(B|A)$ 를 통해  $P(A|B)$ 구하는 것이다.
베이즈 정리의 왼쪽항보다 오른쪽 항을 구하기가 더 쉬운 경우 이를 유용하게 활용할 수 있다.

## Diachronic Bayes

베이즈 이론을 다른 각도에서 볼 수 있는 방법을 소개한다. 데이터 일부 $D$ 가 주어졌을 때, 가설 $H$ 의 확률을 갱신하는 방법으로 사용하는 것이다.

이런 식의 해석을 통시적 "diachronic", 이라고 한다. '통시적' 이란 '시간에 따라 변한다'는 뜻으로, 가설의 확률이 새로운 데이터를 접하게 되면 변한다는 것이다.

Bayes's theorem을 $H$, $D$ 와 같이 쓰면 다음과 같다:

$$P(H|D) = \frac{P(H)~P(D|H)}{P(D)}$$

해석 상에서 각각의 term 은 다음과 같은 이름을 가진다.:

-  $P(H)$ 는 데이터를 확인하기 전에 구한 가설의 확률로 **사전확률 prior** 이라 한다.

-  $P(H|D)$ 데이터를 확이난 후의 가설에 대한 확률로 **사후확률 posterior**. 이라 한다.

-  $P(D|H)$ 가설에 의해 해당 데이터가 나올 확률로  **가능도 likelihood**.라 한다.

-  $P(D)$ 어떤 가설에서든 해당 데이터가 나올 확률로 **데이터의 전체 확률total probability of the data** 이라 할 수 있다.

* 배경 지식을 기반으로 사전확률을 구할 수 있기도 하다. 예를 들어 쿠키 문제에서는 동일한 확률로 그릇을 선택한다고 명시되어 있다.
* 반면 사전확률은 주관적일 수도 있다. 이런 경우 서로 다른 배경지식을 적용하거나 동일한 정보를 서로 다르게 해석할 수 있기에 유의할 필요가 있다.


* 가능도는 보통 가장 구하기 쉬운 부분이다. 쿠키 문제에서 각 그릇의 쿠키의 개수는 주어져 있기 때문에 각 가설에서 쉽게 데이터의 확률을 구할 수 있다.
데이터의 전체확률을 구하는 것은 다소 까다로울 수 있다. 어떤 가설에서든 해당 데이터를 볼 수 있는 확률이지만, 이에 대한 정확한 의미를 파악하기 어려울 수 있다.
* 보통 다음과 같은 성격의 가설 집단을 정의해 내용을 단순화 한다.
    * Mutually exclusive, 집합 중 하나의 가설만 참인 경우

    * Collectively exhaustive, 집합 중 하나 이상의 가설이 참인 경우

위 조건이 만족할 경우 전확률의 법칙을 이용해 $P(D)$ 를 구한다.  예를 들어 두 가설, $H_1$ , $H_2$ 이 있을 때,:

$$P(D) = P(H_1)~P(D|H_1) + P(H_2)~P(D|H_2)$$ 

로 표현 가능하다.

가설의 수를 일반화하면 아래와 같이 표현할 수 있다:

$$P(D) = \sum_i P(H_i)~P(D|H_i)$$

위의 요소들과 같이 데이터와 사전확률을 사용해 사후확률을 구하는 과정을 **베이즈 갱신 Bayesian update** 이라 한다.

## Bayes Tables

베이즈 갱선을 보다 편리하게 할 수 있는 도구로 베이즈 테이블이 있다. 직접 쓰거나 스프레드시트 혹은 Pandas `DataFrame` 을 활용해도 된다.

* 먼저 빈 `DataFrame` 에 한 행에 하나의 가설이 들어간 Dataframe 을 만들자:

In [2]:
import pandas as pd

table = pd.DataFrame(index=['Bowl 1', 'Bowl 2'])

그리고 사전확률을 나타내는 열을 추가한다.

In [3]:
table['prior'] = 1/2, 1/2
table

Unnamed: 0,prior
Bowl 1,0.5
Bowl 2,0.5


그리고 가능도에 대한 열을 추가한다

In [4]:
table['likelihood'] = 3/4, 1/2
table

Unnamed: 0,prior,likelihood
Bowl 1,0.5,0.75
Bowl 2,0.5,0.5


이전에 계산했던 방식과 비교해보면, 우선 그릇1 뿐만 아니라 양쪽의 경우에 대한 가능도를 모두 포함시켰다.:

* The chance of getting a vanilla cookie from Bowl 1 is 3/4.

* The chance of getting a vanilla cookie from Bowl 2 is 1/2.

전체 가능도의 합이 1이 아니어도 상관없다. 각각의 확률은 서로 다른 가설에서 도출된 확률이기 때문이다.
가능도에 사전확률을 곱하면 아래와 같다

In [5]:
table['unnorm'] = table['prior'] * table['likelihood']
table

Unnamed: 0,prior,likelihood,unnorm
Bowl 1,0.5,0.75,0.375
Bowl 2,0.5,0.5,0.25


`unnorm` 은 표준화되지 않은 사후확률 "unnormalized posteriors" 이다.  각각의 값은 사전확률과 가능도의 곱인덷:

$$P(B_i)~P(D|B_i)$$

Bayes's Theorem 의 분자에 해당하는 값이다. 
이 두개를 더하면

$$P(B_1)~P(D|B_1) + P(B_2)~P(D|B_2)$$

Bayes's Theorem 의 분모에 해당하는 값이다 $P(D)$.

In [6]:
prob_data = table['unnorm'].sum()
prob_data

0.625

각 요소를 다 구했으므로 베이즈 정리에 맞게 계산하면 사후확률을 구할 수 있다.

In [7]:
table['posterior'] = table['unnorm'] / prob_data
table

Unnamed: 0,prior,likelihood,unnorm,posterior
Bowl 1,0.5,0.75,0.375,0.6
Bowl 2,0.5,0.5,0.25,0.4


* 앞서 구했던 사후확률과 베이즈테이블을 활용한 사후확률 값이 같은 것을 확인할 수 있다.
* 표준화되지 않은 사후확률을 더한 값으로 나눠서 구한 사후확률을 더하면 1이 되는 것을 볼 수 있다. 이 과정을 '표준화 normalization' 라 하고, 이 때 데이터의 총 확률을 '표준화 상수 nomalizaing constant' 라 한다.

## The Dice Problem

베이즈 테이블은 두 개 이상의 가설을 가진 문제를 해결하는 데도 도움이 된다. 다음의 예를 보자.

> 육면체, 팔면체, 십이면체 주사위가 든 상자가 있다고 가정하자. 이 중 주사위 하나를 임의로 집어서 굴렸더니 1이 나왔다. 

이 예제에는 동일한 사전확률을 가지는 세 가지 가설이 있다. 데이터는 주사위를 굴린 결과가 1이 나왔다는 것뿐이다.

각각의 주사위를 선택해 1이 나올 확률은 1/6, 1/8, 1/12이다.
이를 베이즈 테이블로 만들어보자

In [8]:
table2 = pd.DataFrame(index=[6, 8, 12])

사전확률과 가능도를 분수를 나타내기 위해 Fraction 모듈을 활용한다. 이렇게 하면 소숫점 이하 숫자를 반올림할 필요가 없다.

In [9]:
from fractions import Fraction

table2['prior'] = Fraction(1, 3)
table2['likelihood'] = Fraction(1, 6), Fraction(1, 8), Fraction(1, 12)
table2

Unnamed: 0,prior,likelihood
6,1/3,1/6
8,1/3,1/8
12,1/3,1/12


사전확률과 가능도를 기입했으면 베이즈 정리에 필요한 요소를 구성해 사후확률을 구하면 된다.

In [10]:
def update(table):
    """Compute the posterior probabilities."""
    table['unnorm'] = table['prior'] * table['likelihood']
    prob_data = table['unnorm'].sum()
    table['posterior'] = table['unnorm'] / prob_data
    return prob_data

In [11]:
prob_data = update(table2)

In [12]:
table2

Unnamed: 0,prior,likelihood,unnorm,posterior
6,1/3,1/6,1/18,4/9
8,1/3,1/8,1/24,1/3
12,1/3,1/12,1/36,2/9


* 육면체 주사위의 사후확률이 4/9 로 이는 다른 주사위의 사후확률보다 조금 크다. 직관적으로 생각해볼 때 육면체 주사위가 1이 나올 가능도가 가장 크다고 알고 있으므로 결과도 이와 같은 방향일 거라 유추할 수 있다.

## The Monty Hall Problem

이번엔 확률에서 가장 논쟁적인 문제 중 하나를 베이즈 테이블로 풀어본다..

The Monty Hall problem은 *Let's Make a Deal* 이라는 게임 쇼에서 소개되었다. 만약 쇼에 참가했다고 가정하고 다음과 같은 상황이 주어졌다하자:

* 진행자 몬티 홀은 당신에게 1,2,3 이라고 번호가 붙은 세 개의 문을 보여주고 각 문 뒤에 상품이 있다고 한다.

* 한 가지 상품은 비싼 것(보통 자동차) 나머지 두 상품은 덜 비싼 것 이다.

* 게임의 목적은 어떤 문 뒤에 자동차가 있는지를 맞추는 데 있다. 만약 제대로 맞추면 자동차를 가질 수 있다.

만약 1번 문을 선택했다고 하자. 당신이 고른 문을 열기 전에 몬티는 3번 문을 열어 염소가 있다는 것을 보여줄 것이다. 그 후 몬티는 그대로 원래의 선택을 고수할 지 열리지 않은 나머지 문으로 바꿀 것인지 묻는다.

자동차를 얻을 가능성을 최대로 만들려 할 때, 1번 문을 그대로 고수할지 2번 문으로 바꿀지 고민해야 할 수 있다. 이 때 진행자의 행동에 대해 몇 가지를 가정해야 한다.:

1.  몬티는 언제나 문을 열고 선택을 바꿀 기회를 준다.

2.  몬티는 당신이 고른 문이나 자동차가 있는 문을 열지 않는다.

3.  당신이 고른 문 뒤에 차가 있는 경우에는 나머지 문을 임의로 열어서 보여준다.

이러한 가정 하에서는 선택을 바꾸는 것이 좋다.
만약 선택을 고수하면 $1/3$ 의 확률로 자동차를 고르게 되고 바꾸게 되면 $2/3$ 확률로 차를 고를 수 있다.

* 보통 많은 사람들은 선택을 고수하든지 바꾸든지 상관없다는 강한 믿음을 가지고 있기 때문에 1번 문 뒤에 차가 있을 확률은 50%라고 말한다. 하지만 그렇지 않다.
* 베이즈 테이블로 접근해보자. 각 문 뒤에 차가 있을 확률은 1/3이다.

In [13]:
table3 = pd.DataFrame(index=['Door 1', 'Door 2', 'Door 3'])
table3['prior'] = Fraction(1, 3)
table3

Unnamed: 0,prior
Door 1,1/3
Door 2,1/3
Door 3,1/3


진행자가 3번 문을 열어 염소를 보여줬다는 데이터가 생겼다. 그럼 각 가설 하에서 이 데이터의 확률을 다음과 같이 고려할 수 있다.

* 만약 차가 1번 문 뒤에 있다면 몬티는 2번 문과 3번문 중 하나를 임의로 고를 것이므로 몬티가 3번 문을 열 확률은 $1/2$ 이다.

* 만약 차가 2번 문 뒤에 있다면 몬티가 3번을 열었으므로, 이 가설 하에서 데이터의 확률은 1이다.(내가 고른 문이 1번이고 자동차가 있는 문을 열지 않기 때문이다.)

* 만약 차가 3번 문 뒤에 있담녀 몬티는 이 문을 열 수 없다. 따라서 가설 하에 확률은 0이다.

관측을 통해 가능도를 추가하면 아래와 같다

In [14]:
table3['likelihood'] = Fraction(1, 2), 1, 0
table3

Unnamed: 0,prior,likelihood
Door 1,1/3,1/2
Door 2,1/3,1
Door 3,1/3,0


이후 베이즈 정리를 활용해 사후 확률을 `update` 한다.

In [15]:
update(table3)
table3

Unnamed: 0,prior,likelihood,unnorm,posterior
Door 1,1/3,1/2,1/6,1/3
Door 2,1/3,1,1/3,2/3
Door 3,1/3,0,0,0


몬티가 3번 문을 열어 보여줬을 때 사후확률을 고려해보면 처음 선택인 1번 문에서 2번 문으로 바꾸는게 좋다.

* 이 예제에서도 알 수 있듯이, 확률에 대한 우리의 직관은 항상 믿을만 하지 않다. 이럴 때 베이즈 이론을 통해 다음과 같은 분할-정복(divide and conquer) 전략을 사용하면 도움이 된다.
* 그 과정을 정리하면 아래와 같다.
    1. 가설과 데이터를 정리한다.
    2. 사전확률을 구한다.
    3. 각 가설하에서의 데이터의 가능도를 구한다.
    4. 베이즈 테이블로 사후확률을 구한다.

## Summary

* 쉬운 문제부터 몬티홀 문제와 같이 다소 복잡한 문제에 베이즈 정리를 분할-정복 전략으로 사용하는게 얼마나 강력한지 보았다.
* 몬티가 문을 열면서 우리에게 차의 위치에 대한 믿음 (belief) 을 갱신할 수 있는 정보를 제공한다. 여기서 얻을 수 있는 다소 미묘한 정보는 2번 문 뒤에 차가 있다면, 3번 문을 열 것이고, 1번 문뒤에 있다면 3번 문을 열었을 가능성이 좀 더 적다.
* 이 데이터 (정보) 는 2번 문에 차가 있다는 것에 대한 유리한 증거가 된다.

## Exercises

**Exercise:** Suppose you have two coins in a box.
One is a normal coin with heads on one side and tails on the other, and one is a trick coin with heads on both sides.  You choose a coin at random and see that one of the sides is heads.
What is the probability that you chose the trick coin?

In [16]:
# Solution goes here
coin_table = pd.DataFrame(index=['fair_coin', 'trick_coin'])
coin_table['prior'] = Fraction(1, 2)
coin_table['likelihood'] = Fraction(1, 2), 1
update(coin_table)
coin_table

Unnamed: 0,prior,likelihood,unnorm,posterior
fair_coin,1/2,1/2,1/4,1/3
trick_coin,1/2,1,1/2,2/3


**Exercise:** Suppose you meet someone and learn that they have two children.
You ask if either child is a girl and they say yes.
What is the probability that both children are girls?

Hint: Start with four equally likely hypotheses.

In [17]:
# Solution goes here
child_table = pd.DataFrame(index=['gg', 'gb','bg', 'bb'])
child_table['prior'] = Fraction(1, 4)
child_table['likelihood'] = 1,1,1,0
update(child_table)
child_table

Unnamed: 0,prior,likelihood,unnorm,posterior
gg,1/4,1,1/4,1/3
gb,1/4,1,1/4,1/3
bg,1/4,1,1/4,1/3
bb,1/4,0,0,0


**Exercise:** There are many variations of the [Monty Hall problem](https://en.wikipedia.org/wiki/Monty_Hall_problem).  
For example, suppose Monty always chooses Door 2 if he can, and
only chooses Door 3 if he has to (because the car is behind Door 2).

If you choose Door 1 and Monty opens Door 2, what is the probability the car is behind Door 3?

If you choose Door 1 and Monty opens Door 3, what is the probability the car is behind Door 2?

In [21]:
# Solution goes here
monti1 = pd.DataFrame(index=['Door 1', 'Door 2', 'Door 3'])
monti1['prior'] = Fraction(1, 3)
monti1

Unnamed: 0,prior
Door 1,1/3
Door 2,1/3
Door 3,1/3


In [22]:
monti1['likelihood'] = Fraction(1,2), 0, Fraction(1,2)
update(monti1)
monti1

Unnamed: 0,prior,likelihood,unnorm,posterior
Door 1,1/3,1/2,1/6,1/2
Door 2,1/3,0,0,0
Door 3,1/3,1/2,1/6,1/2


In [24]:
# Solution goes here
monti2 = pd.DataFrame(index=['Door 1', 'Door 2', 'Door 3'])
monti2['prior'] = Fraction(1, 3)
monti2['likelihood'] = 0, Fraction(1,2),0
update(monti2)
monti2

Unnamed: 0,prior,likelihood,unnorm,posterior
Door 1,1/3,0,0,0
Door 2,1/3,1/2,1/6,1
Door 3,1/3,0,0,0


**Exercise:** M&M's are small candy-coated chocolates that come in a variety of colors.  
Mars, Inc., which makes M&M's, changes the mixture of colors from time to time.
In 1995, they introduced blue M&M's.  

* In 1994, the color mix in a bag of plain M&M's was 30\% Brown, 20\% Yellow, 20\% Red, 10\% Green, 10\% Orange, 10\% Tan.  

* In 1996, it was 24\% Blue , 20\% Green, 16\% Orange, 14\% Yellow, 13\% Red, 13\% Brown.

Suppose a friend of mine has two bags of M&M's, and he tells me
that one is from 1994 and one from 1996.  He won't tell me which is
which, but he gives me one M&M from each bag.  One is yellow and
one is green.  What is the probability that the yellow one came
from the 1994 bag?

Hint: The trick to this question is to define the hypotheses and the data carefully.

In [26]:
# My Solution 
mnm_table = pd.DataFrame(index=['1994Y', '1994G', '1996Y', '1996G'])
mnm_table['prior'] = 0.2, 0.1, 0.14, 0.2
mnm_table['likelihood'] = (0.2*0.5, 0.1*0.5, 0.14*0.5, 0.2*0.5)
update(mnm_table)
mnm_table

Unnamed: 0,prior,likelihood,unnorm,posterior
1994Y,0.2,0.1,0.02,0.364964
1994G,0.1,0.05,0.005,0.091241
1996Y,0.14,0.07,0.0098,0.178832
1996G,0.2,0.1,0.02,0.364964


In [27]:
# Real Solution 
# 가설을 정의하는 것이 까다로움. 문제에서 각 봉지에서 하나씩 뽑았기 때문에 2가지의 경우의 수가 나오고 이에 대한 가능도는 독립적 사건이므로 확률을 곱하기만 하면 된다.
# Hypotheses:
# A: yellow from 94, green from 96
# B: yellow from 96, green from 94

table8 = pd.DataFrame(index=['A', 'B'])
table8['prior'] = 1/2
table8['likelihood'] = 0.2*0.2, 0.14*0.1

update(table8)
table8

Unnamed: 0,prior,likelihood,unnorm,posterior
A,0.5,0.04,0.02,0.740741
B,0.5,0.014,0.007,0.259259
