## 7.1 贝叶斯分类器
贝叶斯决策论(Bayesian decision theory)是概率框架下，实施决策的基本方法。对于分类任务来说，所有相关概率都已知的理想情况下，贝叶斯决策轮考虑如何基于这些概率和误判损失来选择最优的类别标记，下面我们以多分类任务为例，来解释其基本原理。<br >

假设有N中可能的类别标记，即$Y=\{c_1,c_2,\dots, c_N\}$,$\lambda_{ij}$是将一个真实标记为$c_j$的样本误分类为$c_i$所产生的损失。基于后验概率$P(c_i|\boldsymbol{x})$可获得将样本$\boldsymbol{x}$分类为$c_i$所产生的期望损失(expected loss)，即在损失样本$\boldsymbol{x}$上的条件风险(conditional risk)
$$R(c_i | \boldsymbol{x}) = \sum_{j=1}^{N}\lambda_{ij}P(c_j|x) \tag 1$$
我们的任务是寻找一个判定标准$h:X\rightarrow Y$ 以最小化总风险
$$R(h) = E_x[R(h(\boldsymbol{x})|x)] \tag 2$$
显然，对每个样本$\boldsymbol{x}$，若h能最小化风险条件R(h(x)|x)，则总风险R(h)也将被最小化,这就产生了贝叶斯判定标准(Bayes decision rule)：为最小化总体风险，只需在每个样本上选择哪个能使条件风险R(c | x)最小的类别标记。即
$$h^{*}(x)=\mathop{argmin}_{c\in Y}R(c | x) \tag 3$$
此时，$h^{*}$称为贝叶斯最优分类器(Bayes optimal classifier)，与之对应的总体风险$R(h^{*})$称为贝叶斯风险(Bayes risk)，$1-R(h^{*})$反映了分类器所能达到的最好性能，即通过机器学习所能产生的模型精度的理论上限。
具体来说，若目标是最小化分类错误率，则误判损失$\lambda_{ij}$可写为：
$$\lambda_{ij} =\left\{
\begin{aligned}
0  &\quad if \quad i=j; \\
1  &\quad otherwise. \\
\end{aligned}
\right.
$$
此时条件风险:
$$R(c | x) = 1- P(c | x)$$

## 7.2 极大似然估计
估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式，再基于训练样本对概率分布的参数进行估计。具体的，记关于类别c的类条件概率为$P(\boldsymbol{x}|c)$，假设$P(\boldsymbol{x}|c)$具有确定的形式并且被参数向量$\theta_c$唯一确定。则我们的任务就是利用训练集D估计参数$\theta_c$,为明确起见，我们将$P(\boldsymbol{x} | c)$记为$P(\boldsymbol{x}|\boldsymbol{\theta}_c)$。<br >
事实上，概率模型的训练过程就是参数估计(parameter estimation)过程，对于参数估计，统计学界的两个学派分别提供了不同的解决方案：频率主义学派(Frequentist)认为参数虽然未知，但却是客观存在的固定值，因此，可通过优化似然函数等准则来确定参数值；贝叶斯学派(Bayesian)认为参数是为观察到的随机变量，其本身也可有分布，因此，可假定参数服从一个先验分布，然后基于观测到的数据来计算参数的后验分布。本节介绍来自频率主义学派的极大似然估计(Maximum Likelihood Estimation 简称MLE),这是根据数据采样来估计概率分布参数的经典方法。<br >

令$D_c$表示训练集D中第c类样本组成的集合，假设这样本是独立同分布的，则参数$\boldsymbol{\theta}_c$对于数据集$D_c$的似然是：
$$P(D_c|\boldsymbol{\theta}_c) = \prod_{\boldsymbol{x}\in D_c}P(\boldsymbol{x}|\boldsymbol{\theta}_c) \tag 4$$
对$\boldsymbol{\theta}_c$进行极大似然估计，就是去寻找能最大化似然$P(D_c|\theta_c)$,直观上，极大似然估计是试图在$\theta_c$所有可能的取值中，找到一个能使数据出现“可能性”最大的值。<br >
式子4中的连乘操作易造成下溢，通常使用对数似然(log-likelihood)
$$LL(\boldsymbol{\theta}_c) = log P(D_c|\boldsymbol{\theta}_c)$$
$$=\sum_{x\in D_c}log P(\boldsymbol{x}|\theta_c)$$
此时参数$\theta_c$的极大似然估计$\hat{\boldsymbol{\theta}}_c$
$$\hat{\boldsymbol{\theta}}_c = \mathop{argmax}_{\hat{\boldsymbol{\theta}}}LL(\boldsymbol{\theta})$$

## 7.3 朴素贝叶斯分类器
不难发现，基于贝叶斯公式来估计后验概率P(c|x)的主要困难在于:
类条件概率$P(x \vert c)$是所有属性上的联合概率，难以从有限的训练样本直接估计得到。为避开这个障碍，朴素贝叶斯分类器(naive Baytes classifier)采用了“属性条件独立性假设”(attribute conditional independence assumption)对已知类别，假设所有属性相互独立，换言之，假设每个属性独立地对分类结果发生影响。<br >
基于属性条件独立性假设，4式可以重写为:
$$P(c\vert x) = \frac{P(c)P(\boldsymbol{x} \vert c)}{P(\boldsymbol{x})}=\frac{P(c)}{P(\boldsymbol{x})}\prod_{i=1}^{d}P(x_i|c)$$
其中d为属性数目$x_i$为x在第i个属性上的取值.<br >
由于对所有类别来说P(x)相同，因此基于3式的贝叶斯判定准则有
$$h_{nb}(\boldsymbol{x}) = \mathop{argmax}_{c\in y}P(c)\prod_{i=1}^{d}P(x_i|c) \tag 5$$
显然，朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率P(c)，并为每个属性估计条件概率$P(x_i|c)$
令$D_c$表示训练集D中第c类样本组成的集合，若有充足的独立同分布样本，则可容易地估计出类先验概率
$$P(c)=\frac{\left\vert D_c \right\vert}{\left\vert D \right\vert}$$
对离散属性而言，令$D_{c,x_i}$表示$D_c$中在第i个属性上取值为$x_i$的样本组成的集合，则条件概率$P(x_i \vert c)$可以估计为：
$$P(x_i \vert c) = \frac{\left\vert D_{c,x_i} \right\vert }{\left\vert D_c \right\vert}$$
对于联系属性可以考虑概率密度函数，假定$p(x_i \vert c) \sim N(\mu_{c,i},\sigma^2_{c,i})$，其中$\mu_{c,i}$和$\sigma_{c,i}^{2}$分别是第c类样本在第i个属性上取值的均值和方差，则有
$$p(x_i \vert c) = \frac{1}{\sqrt{2\pi}\sigma_{c,j}}exp\left(-\frac{(x_i-\mu_{c,i})^2}{2\mu^2_{c,i}}\right)$$

In [37]:
import pandas as pd
import numpy as np
from cytoolz import *
from itertools import product
from operator import *
import torch

melon = pd.DataFrame({'色泽':['青绿', '乌黑', '乌黑', '青绿', '浅白','青绿', '乌黑', '乌黑', '乌黑', '青绿', '浅白', '浅白', '青绿','浅白', '乌黑', '浅白','青绿'],
 '根蒂':['蜷缩', '蜷缩', '蜷缩', '蜷缩', '蜷缩','稍蜷', '稍蜷', '稍蜷', '稍蜷', '硬挺', '硬挺', '蜷缩', '稍蜷', '稍蜷', '稍蜷','蜷缩','蜷缩'],
 '敲声':['浊响', '沉闷', '浊响', '沉闷', '浊响','浊响', '浊响', '浊响', '沉闷', '清脆', '清脆', '浊响', '浊响', '沉闷', '浊响','浊响','沉闷'],
 '纹理':['清晰', '清晰', '清晰', '清晰', '清晰','清晰', '稍糊', '清晰', '稍糊', '清晰', '模糊', '模糊', '稍糊', '稍糊', '清晰','模糊','稍糊'],
 '脐部':['凹陷', '凹陷', '凹陷', '凹陷', '凹陷','稍凹', '稍凹', '稍凹', '稍凹', '平坦', '平坦', '平坦', '凹陷', '凹陷', '稍凹','平坦','稍凹'],
 '触感':['硬滑', '硬滑', '硬滑', '硬滑', '硬滑','软粘', '软粘', '硬滑', '硬滑', '软粘', '硬滑', '软粘', '硬滑', '硬滑', '软粘','硬滑','硬滑'],
 '密度':[0.697,0.774,0.634,0.608,0.556,0.403,0.481,0.437,0.666,0.243,0.245,0.343,0.639,0.657,0.360,0.593,0.719],
'含糖率':[0.460,0.376,0.264,0.318,0.215,0.237,0.149,0.211,0.091,0.267,0.057,0.099,0.161,0.198,0.370,0.042,0.103],                      
 '好瓜':['是', '是', '是', '是', '是','是', '是', '是', '否', '否', '否', '否', '否', '否', '否','否','否']})



In [123]:
cols = ['敲声', '根蒂', '纹理', '脐部', '色泽', '触感']
# 首先估计P(c) 显然有
def Pc(df, y):
    return list(map(lambda x: len(df[df[y]==x])/len(df), np.unique(df[y])))

# 然后为每个属性估计条件概率P(xi | c)
def PxcSub(df, y, col):
    def g(sz, c, t):
        try:
            return sz[c, t]
        except:
            return 0
    sz = df.groupby([col, y])[y].count()
    l = np.array(list(map(lambda c: list(map(lambda t: g(sz,c,t),np.unique(df[y]))), np.unique(df[col]))))
    d = list(df.groupby([y])[y].count())
    return l/d

def PxcCon(df, y, col):
    pass

def midu(df, col, colv, y, yv):
    mean = df[df[y]==yv][col].mean()
    std = df[df[y]==yv][col].std()
    return pow(np.e,-(colv-mean)*(colv-mean)/(2*std*std))/(np.sqrt(2*np.pi)*std)

In [124]:
list(map(lambda x: PxcSub(melon, '好瓜', x), cols))

[array([[0.33333333, 0.25      ],
        [0.44444444, 0.75      ],
        [0.22222222, 0.        ]]), array([[0.22222222, 0.        ],
        [0.44444444, 0.375     ],
        [0.33333333, 0.625     ]]), array([[0.33333333, 0.        ],
        [0.22222222, 0.875     ],
        [0.44444444, 0.125     ]]), array([[0.22222222, 0.625     ],
        [0.44444444, 0.        ],
        [0.33333333, 0.375     ]]), array([[0.22222222, 0.5       ],
        [0.44444444, 0.125     ],
        [0.33333333, 0.375     ]]), array([[0.66666667, 0.75      ],
        [0.33333333, 0.25      ]])]

In [125]:
cols

['敲声', '根蒂', '纹理', '脐部', '色泽', '触感']

In [126]:
list(map(lambda x: PxcSub(melon, '好瓜', x), cols))

[array([[0.33333333, 0.25      ],
        [0.44444444, 0.75      ],
        [0.22222222, 0.        ]]), array([[0.22222222, 0.        ],
        [0.44444444, 0.375     ],
        [0.33333333, 0.625     ]]), array([[0.33333333, 0.        ],
        [0.22222222, 0.875     ],
        [0.44444444, 0.125     ]]), array([[0.22222222, 0.625     ],
        [0.44444444, 0.        ],
        [0.33333333, 0.375     ]]), array([[0.22222222, 0.5       ],
        [0.44444444, 0.125     ],
        [0.33333333, 0.375     ]]), array([[0.66666667, 0.75      ],
        [0.33333333, 0.25      ]])]

In [127]:
midu(melon, '密度', 0.697,'好瓜', '是')

1.9590115494650384

In [128]:
midu(melon, '密度', 0.697,'好瓜', '否')

1.2033038984540718

In [129]:
midu(melon, '含糖率', 0.460,'好瓜', '是')

0.7880520952044112

In [130]:
midu(melon, '含糖率', 0.460,'好瓜', '否')

0.066221152484369