# 4. 贝叶斯分类器

计算后验概率 $P(c|x)$大体有两种策略：给定x，可通过直接建模 $P(c|x)$来预测c，这样得到的是“判别式模型”(discriminative models)；也可先对联合概率分布$P(x|c)$建模，然后再由此获得$P(c|x)$，这样得到的是“生成式模型”(generative models)。决策树，BP神经网络，支持向量机等，都可归入到判别式模型的范畴，对生成式模型来说 $P(c|x)=\frac{P(x,c)}{P(x)}$，基于贝叶斯定理，$P(c|x)$可以写为  
$P(c|x) = \frac{P(c)P(x|c)}{P(x)}$  

其中P(c)是类先验概率；P(x|c)是样本x在类标记c的条件下的条件概率，或称为“似然”；P(x)是用于归一化的“证据因子”。对给定样本x，证据因子P(x)与类标记无关，因此估计$P(c|x)$的问题就转化成为如何基于训练数据D来估计先验$P(c)$和似然$P(x|c)$

基于贝叶斯公式来估计后验概率$P(c|x)$的主要困难在于：类条件概率$P(x|c)$是所有属性上的联合概率，难以从有限的训练样本直接估计而得。为避开这个障碍，朴素贝叶斯分类器采用了“属性条件独立性假设”对一直类别，假设所有属性相互独立。换言之，假设每个属性独立地对分类结果发生影响。基于属性条件独立性假设，贝叶斯公式可重写为：

$P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\prod_{i=1}^dP(x^i|c)$

其中d为属性数目，$x_i$为x在第i个属性上的取值。

朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率P(c)，并为每个属性估计条件概率$P(x_i|c)$

令$D_c$表示训练集D中第c类样本组成的集合，若有充足的独立同分布样本，则可容易地估计出先验概率$P(c)=\frac{|D_C|}{|D|}$，

对离散属性而言，令$D_{c,x_i}$表示$D_c$中在第i个属性上取值为$x_i$的样本组成的集合，则条件概率$P(x_i|c)$可估计为$P(x_i|c)=\frac{|D_{c,x_i}|}{|D_c|}$

对连续属性可考虑概率密度函数，假定$p(x_i|c)\approx N(\mu_{c,i},\sigma_{c,i}^2)$，其中$\mu_{c,i}$和$\sigma_{c,i}^2$分别是第c类样本在第i个属性上取值的均值和方差，则有  
$
   p(x_i|c)=\frac{1}{\sqrt{2\pi}\sigma_{c,i}} exp(-\frac{(x_i-\mu_{c,i})^2}{2\sigma_{c,i}^2})
$

## 4.1. 以西瓜数据为例

In [1]:
import pandas as pd
df = pd.read_csv("../chp03-decisionTree/watermallon.bak")
df

Unnamed: 0,color,root,knock,stripp,sto,feel,labels
0,青绿,蜷缩,浊响,清晰,凹陷,硬滑,good
1,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,good
2,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,good
3,青绿,蜷缩,沉闷,清晰,凹陷,硬滑,good
4,浅白,蜷缩,浊响,清晰,凹陷,硬滑,good
5,青绿,稍蜷,浊响,清晰,稍凹,软粘,good
6,乌黑,稍蜷,浊响,稍糊,稍凹,软粘,good
7,乌黑,稍蜷,浊响,清晰,稍凹,硬滑,good
8,乌黑,稍蜷,沉闷,稍糊,稍凹,硬滑,bad
9,青绿,硬挺,清脆,清晰,平坦,软粘,bad


对于测试样例：

|  编号   |  色泽  |  根蒂  |  敲声  | 纹理  |  脐部  |  触感  |  好瓜 |
|:----:|:----:|:----:|:----:|:----:|:----:|:----:|:----:|
|  1  |  青绿  |  蜷缩  |  浊响  |  清晰 |  凹陷  |  硬滑  |  ？ |

首先估计先验概率P(c)，显然有：

$ 
        P(好瓜=是)=\frac{8}{17}\approx0.471 \\
        P(好瓜=否)=\frac{9}{17}\approx0.529 \\
$

然后，为每个属性估计条件概率：

$
P(青绿|是)=P(色泽=青绿|好瓜=是)=\frac{3}{8}=0.375 \\
P(青绿|否)=P(色泽=青绿|好瓜=否)=\frac{3}{9}\approx0.333 \\
P(蜷缩|是)=P(根蒂=蜷缩|好瓜=是)=\frac{5}{8}=0.625 \\
P(蜷缩|否)=P(根蒂=蜷缩|好瓜=否)=\frac{3}{9}\approx0.333 \\
P(浊响|是)=P(敲声=浊响|好瓜=是)=\frac{6}{8}=0.750 \\
P(浊响|否)=P(敲声=浊响|好瓜=否)=\frac{4}{9}\approx0.444 \\
P(清晰|是)=P(纹理=清晰|好瓜=是)=\frac{7}{8}=0.875 \\
P(清晰|否)=P(纹理=清晰|好瓜=否)=\frac{2}{9}\approx0.222 \\
P(凹陷|是)=P(脐部=凹陷|好瓜=是)=\frac{6}{8}=0.750 \\
P(凹陷|否)=P(脐部=凹陷|好瓜=否)=\frac{2}{9}\approx0.222 \\
P(硬滑|是)=P(触感=硬滑|好瓜=是)=\frac{6}{8}=0.750 \\
P(硬滑|否)=P(触感=硬滑|好瓜=否)=\frac{6}{9}\approx0.667 \\
$

于是有
 
$
P(好瓜=是)×P(青绿|是)*P(蜷缩|是)*P(浊响|是)*P(清晰|是)*P(凹陷|是)*P(硬滑|是)\approx0.0407  \\
P(好瓜=否)×P(青绿|否)*P(蜷缩|否)*P(浊响|否)*P(清晰|否)*P(凹陷|否)*P(硬滑|否)\approx0.0008  \\
$

因为0.047>0.0008，所以，朴素贝叶斯分类器将测试样本判别为”好瓜“。

In [2]:
0.471*0.375*0.625*0.750*0.875*0.750*0.750

0.04074966430664063

In [3]:
0.529*0.333*0.333*0.444*0.222*0.222*0.667

0.0008561678034527272

**注意**

若某个属性值在训练集中没有与某个类同时出现过，则会出现问题，连乘式计算的概率为0.为了避免其他属性携带的信息被训练集中未出现的属性值”抹去“，在估计概率值时通常要进行”平滑“，常用”拉普拉斯修正“。令N表示训练集D中可能的类别数，$N_i$表示第i个属性可能的取值数，则公式可以修正为：

$
\hat{P}(c)=\frac{|D_c|+1}{|D|+N} \\
\hat{P}(x_i|c)=\frac{|D_{c,x_i}|+1}{|D_c|+N_i}
$

那么上面的例子可以修正为

$
P(好瓜=是)=\frac{8+1}{17+2}\approx0.474 \\
P(好瓜=否)=\frac{9+1}{17+2}\approx0.526 \\
P(青绿|是)=P(色泽=青绿|好瓜=是)=\frac{3+1}{8+3}\approx0.364 \\
P(青绿|否)=P(色泽=青绿|好瓜=否)=\frac{3+1}{9+3}\approx0.333 \\
$

## 4.2. 使用贝叶斯分类器进行文本分类
《机器学习实战》中基于伯努利模型实现朴素贝叶斯分类器。这种实现方式不考虑词在文档中出现的次数，只考虑出不出现，因此在这个意义上相当于假设词是等权重的。

文档转为词向量的过程：
1. 统计训练集中所有出现过的单词，将单词加入到一个list中（不含重复单词）记为tlist，tlist长度为n
2. 输入一个句子s，并生成一个长度为n的list，如果tlist中位置i的单词可以在s中找到，则相应位置记为1，否则记为0

如此可以得到一个句子向量

In [7]:
def myword2vec(vocabList, inputSet):
    returnvec = [0]*len(vocabList)
    for word in inputSet:
        if word in inputSet:
            returnvec[vocabList.index(word)]=1
        else:
            print("the word %s is not in my vocabulary!" % word)
    return returnvec

myword2vec(["a","b","c","d"],("a","b","c"))

[1, 1, 1, 0]