# 贝叶斯框架

贝叶斯公式：P(H|D) = P(H) * P(D|H)/P(D) 

后验概率 = 先验概率 *似然度/标准度量

###  1、计算后验概率的一种通用方法

#### 示例一：Cookie问题
已知：'Bowl 1'中'Cookie'有30个，'sweet'有10个；'Bowl 2'中'Cookie'有20个，'sweet'有20个
问：随机抽到一个'Cookie'，来自'Bowl 1'的概率

全部假设空间
A：抽到一个'Cookie'，来自'Bowl 1'
B：抽到一个'Cookie'，来自'Bowl 2'

|先验概率P(H) | 似然度P(D/H) | update P(H)P(D/H) | 后验概率P(H/D) |
| - | :-: | :-: | -: | 
| 假设A 1/2 |30 | 15 | 3/5 | 
| 假设B 1/2 |20 | 10 | 3/5 | 

其中
* 先验概率为假设A、B的初始概率均为1/2
* 似然度根据观察不同Bowl中'Cookie'数量得到
* update为根据似然度更新先验概率
* 观察已知抽到一个'Cookie'，因此抽到'Cookie'的概率P(D)=1
* 后验概率=将所有假设的update值归一化


#### 示例二：蒙蒂大厅问题
已知：蒙蒂大厅有三个门A、B、C,仅一个门后有奖品，你选择了A，在打开之前，蒙蒂打开了B或C中一个没有奖品的门（蒙蒂知道哪个门后有奖品）
问：是否应该坚持打开A，打开和更换哪个找到奖品的概率高

全部假设空间

A：打开门，奖品在A（等价于不更换）；
B：打开门，奖品在B（根据实际情况已知概率为0）；
C：打开门，奖品在C（等价于更换）

|先验概率P(H) | 似然度P(D/H) | update P(H)P(D/H) | 后验概率P(H/D) |
| - | :-: | :-: | -: | 
| 假设A 1/3 |1/2 | 1/6 | 1/3 | 
| 假设B 1/3 |0 | 0 | 0 |
| 假设B 1/3 |1 | 1/3 | 2/3 |

其中
* 先验：在未打开任何门时，概率均为1/3
* 似然度：观察到，蒙蒂打开B门且没有车
    * 对于假设A，奖品在A门，则蒙蒂可以随意打开BC门，蒙蒂打开B门且没有车的概率为1/2（打开B的概率为1/2,没有车的概率为1）
    * 对于假设B，观察到概率为0
    * 对于假设C，奖品在C门，则蒙蒂只能打开B门，蒙蒂打开B门且没有车的概率为1（打开B的概率为1,没有车的概率为1）
    


### 2、ThinkBayes2贝叶斯工具包

工具包一般使用步骤包括：
- 选择假设的表示方法
- 选择数据的表示方法
- 设计一个抽象类：
    - 全局变量 _ _init_ _：一般会设置所有假设先验概率相同
    - Update函数：一个mult的乘法函数
    - 用于update的数据表示方法
    - 似然度函数


In [41]:
# 导入贝叶斯包
import ThinkBayes2
from ThinkBayes2 import Pmf

In [49]:
# 定义始用与Cookie问题的抽象类
class Cookie(Pmf):
    """A map from string bowl ID to probablity."""

    def __init__(self, hypos):
        """Initialize self.

        hypos: sequence of string bowl IDs
        """
        Pmf.__init__(self)
        for hypo in hypos:
            self.Set(hypo, 1)
        self.Normalize()

    def Update(self, data):
        """Updates the PMF with new data.

        data: string cookie type
        """
        for hypo in self.Values():
            self[hypo] *= self.Likelihood(data, hypo)
        self.Normalize()

    mixes = {
        'Bowl 1':dict(Cookie=0.75, Sweet=0.25),
        'Bowl 2':dict(Cookie=0.5, Sweet=0.5),
    }

    def Likelihood(self, data, hypo):
        """The likelihood of the data under the hypothesis.

        data: string cookie type
        hypo: string bowl ID
        """
        mix = self.mixes[hypo]
        like = mix[data]
        return like

# 抽到一个曲奇来自'Bowl 1'的概率
pmf = Cookie(['Bowl 1', 'Bowl 2'])
pmf.Update('Cookie')
pmf.Print()

# 有放回的抽取三次，分别为'Cookie', 'Sweet', 'Cookie'
pmf=Cookie(['Bowl 1', 'Bowl 2'])
dataset = ['Cookie', 'Sweet', 'Cookie']
for data in dataset:
    pmf.Update(data)
    
pmf.Print()

Bowl 1 0.6000000000000001
Bowl 2 0.4
Bowl 1 0.5294117647058824
Bowl 2 0.4705882352941176


In [45]:
# 定义始用与蒙蒂大厅问题的抽象类

class Monty(Pmf):
    """Map from string location of car to probability"""

    def __init__(self, hypos):
        """Initialize the distribution.

        hypos: sequence of hypotheses
        """
        Pmf.__init__(self)
        for hypo in hypos:
            self.Set(hypo, 1)
        self.Normalize()

    def Update(self, data):
        """Updates each hypothesis based on the data.

        data: string 'A', 'B', or 'C'
        """
        for hypo in self.Values():
            self[hypo] *= self.Likelihood(data, hypo)
        self.Normalize()

    def Likelihood(self, data, hypo):
        """Compute the likelihood of the data under the hypothesis.

        hypo: string name of the door where the prize is
        data: string name of the door Monty opened
        """
        if hypo == data:
            return 0
        elif hypo == 'A':
            return 0.5
        else:
            return 1
        
pmf = Monty('ABC')
pmf.Update('B')
pmf.Print()

A 0.3333333333333333
B 0.0
C 0.6666666666666666


# 补充内容1：类-概率分布pmf

In [37]:
# 方法一：直接赋值
pmf1 = Pmf()
pmf1['Bowl 1'] = 0.5
pmf1['Bowl 2'] = 0.5

# 方法二：.set
pmf2 = Pmf()
pmf2.Set('Bowl1',0.5) 
pmf2.Set('Bowl2',0.5) 

# 方法三：多值循环赋值
pmf3 = Pmf()
for x in [1,2,3,4,5,6]:
    pmf3.Set(x,1/6.0)
    
pmf1.Print()
pmf2.Print()
pmf3.Print()

Bowl 1 0.5
Bowl 2 0.5
Bowl1 0.5
Bowl2 0.5
1 0.16666666666666666
2 0.16666666666666666
3 0.16666666666666666
4 0.16666666666666666
5 0.16666666666666666
6 0.16666666666666666


# 补充内容2：详解cookie类定义过程

In [25]:
# 2种假设：抽取的曲奇来自'Bowl 1'；抽取的曲奇来自'Bowl 2'
hypos = ['Bowl 1', 'Bowl 2']

# 将假设映射到概率，类型为pmf，每个假设赋予相同的先验概率“1/n”
# 等价于 __init__
# hypos = ['Bowl 1', 'Bowl 2']
# pmf = Cookie(hypos)
pmf = Pmf()
for hypo in hypos:
    pmf.Set(hypo,1)
pmf.Normalize()

# 似然度和update
#等价于pmf.Updata('vanilla')
mixes = {
        'Bowl 1':dict(vanilla=0.75, chocolate=0.25),
        'Bowl 2':dict(vanilla=0.5, chocolate=0.5)
    }

# 'Bowl 1'似然度='Bowl 1'曲奇比例
hypo = 'Bowl 1'
mix = mixes[hypo]
data= 'vanilla'
like = mix[data]

# 'Bowl 1'先验概率
pre = pmf[hypo]

# updata
update = pre* like

# 同样计算除'Bowl 1'的结果，归一化得到各自概率


Pmf({'Bowl 1': 0.5, 'Bowl 2': 0.5})