# Think Bayes

+ [코드모음](https://github.com/AllenDowney/ThinkBayes2/tree/master/code)
+ [thinkbayes2 모듈](https://github.com/AllenDowney/ThinkBayes2/blob/master/code/thinkbayes2.py)

## Ch.5 : 공산과 가산

### 5.1. 공산

+ 보통 0 ~ 1 사이의 숫자로 확률을 나타내지만 **공산odds**이라는 개념으로 나타내는 방법도 있음  
+ 승산 : 어떤 사건이 일어나지 않을 때의 확률과 일어났을 때의 확률의 비율  
+ (ex) 우리팀 승률이 75% 라면 이길 가능성이 질 가능성의 3배 --> 승산 '3 : 1'   
+ 반대로 확률이 낮은 경우 승산보다 **공산**으로 표현  
+ (ex) 내가 건 말이 이길 확률이 10% 라면 --> 공산 '9 : 1'  
+ 동일한 정보를 다르게 표기하는 방법  

In [2]:
'''
def Probability2(yes, no):  
    return yes/(yes+no)
'''

'\ndef Probability2(yes, no):  \n    return yes/(yes+no)\n'

![horseracing](http://typesofbets.com/wp-content/uploads/2015/05/OddsPayoutChart1.jpg)  

공산 1:5 --> $2.4  (승률 83%)
  
공산 50:1 --> $102 (승률 2% )

+ 경마장 관객들의 생각을 상상하는데 유용  
+ 내가 건 말에 대한 공산이 5:1 이라면 이는 6명 중 5명이 질 것이라고 생각 하는 것 --> 이길 확률은 1/6  

### 5.2. 베이즈 이론의 공산 형태

+ 1장에서 베이즈 이론은 다음과 같은 **확률 형태**    
> $p(H|D)=\frac{p(H) \ p(D|H)}{P(D)}$  
  
+ A,B라는 두개의 가설이 있을 때 사후 확률 비는 다음과 같이 나타낼 수 있음  
> $\frac{p(A|D)}{P(B|D)}=\frac{p(A) \ p(D|A)}{p(B) \ p(D|B)}$    
  
+ A에 대한 공산을 $o(A)$라고 하면 다음과 같은 결과를 얻을 수 있음  
> $o(A|D)=o(A)\frac{p(D|A)}{p(D|B)}$  , 혹은 $\frac{o(A|D)}{o(A)}=\frac{p(D|A)}{p(D|B)}$
  
 + 사후공산은 사전공산과 우도비의 곱  
 + $o(A|D)$ : 사후공산,  $o(A)$ : 사전공산, $\frac{p(D|A)}{p(D|B)}$ : 우도비(Bayes factor)  
 + Bayes factor > 1 : 데이터는 B의 가정 보다는 A의 가정에 가깝다. , 공산이 전보다 커졌다.  
 + Bayes factor < 1 : 데이터가 B가정에 비해 A가정일 때 더 적다. , A의 공산은 더 낮아진다.  
 + Bayes factor = 1 : 데이터는 각 가설에서 동일하다. 공산은 변하지 않는다.

### 5.4. 가산

+ 베이지안 통계의 기본연산 : 사전분포와 데이터를 가지고 사후분포를 생성

+ $P(A) --> P(D) --> P(A|D)$   
( 사전분포 --> 데이터 --> 사후분포)    
$P(D|A)$ : 우도    
우도를 최대화 하는 $P(A|D)$

+ 실제 베이즈 문제에서는 정규화, 덧셈과 최대값, 최소값 같은 연산을 포함

+ 덧셈 연산 예제 : *던전 앤 드래곤*
 + 주사위를 던져서 캐릭터의 속성값 생성  
 + 6면체 주사위 3개를 굴린 값을 더해서 속성값(체력, 지능, 지혜, 민첩, 건강, 카리스마) 생성  
 ![dungeondragon](http://cfile8.uf.tistory.com/image/213D41345253B3D9251BE7)

+ 플레이어 입장에서 세 주사위 합의 분포가 어떻게 되는지 궁금할 수 있음. 이를 계산하는 두 가지 방법  
 + 시뮬레이션 : 하나의 주사위에 대한 분포를 나타내는 Pmf가 주어졌을 때, 이를 사용해서 랜덤 샘플을 만들고, 더해서, 시뮬레이션으로 만들어진 값의 합에 대한 분포를 구한다.
 + 나열 : 주어진 두 개의 Pmf를 사용하여, 모든 가능한 수의 쌍을 나열하고 이 합의 분포를 계산한다.  

+ 시뮬레이션 예시

In [4]:
from __future__ import print_function, division

import random

import thinkbayes2
import thinkplot

FORMATS = ['pdf', 'eps', 'png']

In [8]:
# 하나의 주사위를 나타내는 클래스
class Die(thinkbayes2.Pmf):
    """Represents the PMF of outcomes for a die."""

    def __init__(self, sides, label=''):
        """Initializes the die.
        sides: int number of sides
        label: string
        """
        hypos = range(1, sides+1)
        thinkbayes2.Pmf.__init__(self, hypos, label=label)

In [6]:
# 육면체 주사위 생성
d6 = Die(6)

In [9]:
# 주사위 1,000번 굴린 샘플값 생성
dice = [d6]*3
three = thinkbayes2.SampleSum(dice,1000)

+ 나열 예시

In [15]:
three_exact = d6+d6+d6

+ 그래프

In [16]:
#시뮬레이션 (주사위 하나로 시뮬)
three.label = 'sample'
three.Print()

4 0.013000000000000001
5 0.021
6 0.049
7 0.059000000000000004
8 0.093
9 0.115
10 0.129
11 0.121
12 0.109
13 0.1
14 0.083
15 0.054
16 0.033
17 0.015
18 0.006


In [17]:
#나열 (모든 가능한 수의 쌍 나열 후, 이 합의 분포 계싼)
three_exact = d6 + d6 + d6
three_exact.label = 'exact'
three_exact.Print()

3 0.004629629629629629
4 0.013888888888888888
5 0.027777777777777776
6 0.046296296296296294
7 0.06944444444444445
8 0.09722222222222222
9 0.11574074074074073
10 0.125
11 0.125
12 0.11574074074074074
13 0.09722222222222224
14 0.06944444444444445
15 0.046296296296296294
16 0.027777777777777776
17 0.013888888888888888
18 0.004629629629629629


In [18]:
thinkplot.PrePlot(num=2)
thinkplot.Pmf(three)
thinkplot.Pmf(three_exact, linestyle='dashed')
thinkplot.Save(root='dungeons1',
            xlabel='Sum of three d6',
            ylabel='Probability',
            axis=[2, 19, 0, 0.15],
            formats=FORMATS)

thinkplot.Clf()
thinkplot.PrePlot(num=1)

Writing dungeons1.pdf
Writing dungeons1.eps
Writing dungeons1.png


+ 3개의 6면체 주사위 값의 근사값(시뮬레이션) 및 정확한 값(나열)의 분포  

![dungeon](http://postfiles6.naver.net/MjAxNzEwMTRfMTQ5/MDAxNTA3OTIwNTAyMjE2.ydFOcj_ZVnlI5DX5qJtnF3WfUup6MJ4UgabOFM7aXVEg.VCFF5fU1ajphDsQmoJt6vbJ66IEaN-CHO2oba0zA1Gcg.PNG.taesiri/dungeons1.png?type=w2)  

+ sample : 시뮬레이션 방법   
+ exact : 나열 방법

### 5.5. 최대값

+ 캐릭터 생성 시 최고 속성이 중요하다. 플레이어는 속성의 최대값의 분포가 궁금하다.  
+ 최대값을 계산하는 세 가지 방법.  
 + 시뮬레이션 : 단일 선택에 대한 분포를 나타내는 Pmf를 사용하여 랜덤샘플을 생성하고, 최대값을 찾고, 이렇게 시뮬레이션으로 만들어진 최대값의 분포를 누적한다.
 + 나열 : 주어진 두 개의 Pmfs로 부터 모든 가능한 값의 쌍을 나열하고 최대값의 분포를 구한다.  
 + 멱법 : Pmf를 Cdf로 바꿀 때 최대값에서 Cdf를 구하는 단순하고 효과적인 알고리즘.  

+ $CDF(x) = p(X\leq x)$  ,혹은 $F_x(x) = p(X\leq x)$
+ $f(x)=\frac{d}{dx}F(x)$  
+ [CDF보충설명 블로그](http://jangjy.tistory.com/113)
  
 + 사진은 pdf와 cdf의 관계
![cdf](http://www.weibull.com/hotwire/issue13/rb13_2.gif)  

+ 시뮬레이션

In [19]:
def PmfMax(pmf1, pmf2):
    """Computes the distribution of the max of values drawn from two Pmfs.
    pmf1, pmf2: Pmf objects
    returns: new Pmf
    """
    res = thinkbayes2.Pmf()
    for v1, p1 in pmf1.Items():
        for v2, p2 in pmf2.Items():
            res.Incr(max(v1, v2), p1*p2)
    return res

In [24]:
#최고 속성값 분포 계산
best_attr_cdf = three_exact.Max(6)
best_attr_cdf.label = ''
best_attr_pmf = best_attr_cdf.MakePmf()
best_attr_pmf.Print()

3 9.84640042005e-15
4 4.03210097201e-11
5 9.80606956393e-09
6 6.20323226463e-07
7 1.74701297953e-05
8 0.000285572333648
9 0.00247724167357
10 0.0128440856934
11 0.0439796447754
12 0.105590541894
13 0.18102225454
14 0.212013521417
15 0.194224527556
16 0.141452169514
17 0.0786340868805
18 0.0274582534226


In [25]:
thinkplot.Pmf(best_attr_pmf)
thinkplot.Save(root='dungeons2',
                xlabel='Sum of three d6',
                ylabel='Probability',
                axis=[2, 19, 0, 0.23],
                formats=FORMATS,
                legend=False)

Writing dungeons2.pdf
Writing dungeons2.eps
Writing dungeons2.png


+ 세 주사위를 6번 굴렸을 때의 최대값 분포 

![dungeon3](http://postfiles10.naver.net/MjAxNzEwMTRfNTIg/MDAxNTA3OTIxNzc1MTQ1.-48TejN46LAkRs-qr3IY8qrBbmo-L7v9QNsi0MCsQgQg.vL1A0UCV1zJyJZhxfY38JdY4gGUCpb79INO-dF37FLQg.PNG.taesiri/dungeons2.png?type=w2)  
  
+ 최소 1개 속성이 18(최대능력치 6+6+6)인 캐릭터를 생성학 확률은 대략 3%  
