# 朴素贝叶斯

作者：杨岱川

时间：2019年10月

github：https://github.com/DrDavidS/basic_Machine_Learning

开源协议：[MIT](https://github.com/DrDavidS/basic_Machine_Learning/blob/master/LICENSE)

## 朴素贝叶斯简介

朴素贝叶斯（naïve Bayes）法是基于贝叶斯定理和特征条件独立假设的分类方法。

朴素贝叶斯在20世纪60年代得到了广泛的研究，在60年代初被引入到文本检索领域（可能有的人会看过一些比较老的文章或者书，里面经常提到“使用朴素贝叶斯法来判断垃圾邮件”）。在统计学和计算机科学文献中，朴素贝叶斯模型也经常被叫做**简单贝叶斯（simple Bayes）**或者**独立贝叶斯（independence Bayes）**。

## 朴素贝叶斯的基本方法

### 基本定义

输入空间 $\Bbb X \subseteq \mathbf R^n$ 为 $n$ 维向量的集合，输出空间 $ \Bbb Y = \left \{ c_1,c_2,\cdots,c_K \right \} $ 为类标记的集合。

输入为特征向量 $x \in \Bbb X $，可以类比 iris 数据集的 features（特征），有多个维度；

输出为类标记（class label） $ y \in \Bbb Y$，可以类比为 iris 数据集的 labels（标签），可以是多分类的。

$X$ 是定义在输入空间 $\Bbb X $ 上的随机向量（一个实例的特征）， $Y$ 是定义在输出空间 $\Bbb Y $ 上的随机变量（一个实例的标签）。$P(X,Y)$ 是 $X$ 和 $Y$ 的联合概率分布。


训练数据集

$$\large T=\left \{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N) \right \} $$

由 $P(X,Y)$ 独立同分布产生。

所以，朴素贝叶斯的基本思想就是通过训练数据集学习这个联合概率分布 $P(X,Y)$。

### 先验概率

**先验概率（prior probability）分布**如下：

$$\large P(Y=c_k), k=1,2,\cdots,K $$

何谓**先验概率分布**？查一下可以知道，先验概率是指根据以往经验和分析得到的概率。例如：

- 自然状况下，生男孩和生女孩的概率均是50%，这里，50%就是先验概率，不管是历史统计也好，生物学染色体理论解释也好，都指出这个概率是50%，这不需要我们再进行计算，可以直接使用。

- 根据历史统计，学校历届招生，男女比例均为 4:6，这时候来了一个新生报到，我们有理由猜测，这名新生是女生的概率为60%，这也是先验概率。

条件概率分布如下：

$$\large P(X=x|Y=c_k) = P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_k) ，\quad k = 1,2,\cdots,K$$

其中 $X^{(n)}$ 指的是实例X第$n$个特征，比如，在iris数据集中，$X^{(1)}$ 表示鸢尾花 $X$ 的第1个特征。

于是就学习到了联合概率分布$P(X,Y)$。

条件概率分布有指数级数量的参数，其估计实际是不可行的。在实际应用中，假设单独一个特征 $ x^{(j)} $ 可取值有 $S_j$个，$j=1,2,\cdots,n$，而标签 $Y$ 的取值有 $K$ 个，那么参数个数为 $K \cdot S_1 \cdot S_2 \cdots S_n$，即 $K \prod_{j=1}^n S_j$ 个参数。

## 何谓“朴素”

### 条件独立性假设

朴素贝叶斯对条件概率分布做了**条件独立性**的假设。由于这条假设非常重要，因此得名朴素贝叶斯。

>回顾一下**独立性**的定义：设 $A,B$ 为两个事件，如果其中任何一个事件发生的概率不受另外一个事件发生与否的影响，则称事件 $A$ 与 $B$ **相互独立**。

具体的，条件独立性假设是：

$$\large P(X=x|Y=c_k) = P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_k)=\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)$$

即各个特征之间的分布都是独立的，或者说其特征之间的相关性为0。前面一节（2.4节）我们已经就特征之间的相关性做了分析，这里就不再赘述了。

### 优缺点

条件独立假设相当于用于分类的各个特征在类别确定的条件下都是条件独立的。这一假设使朴素贝叶斯法变得很简单，但是有时也会牺牲一定的分类准确率。

因为我们都知道很多情况下变量之间的相关性也很强，比如正常人的身高越高，体重一般也会越重，两者是有一定相关性的。

## 后验概率计算

朴素贝叶斯法分类时，对给定的输入 $x$ ，通过学习到的模型计算后验概率分布 $P(Y=c_k|X=x)$，然后将后验概率最大的类作为 $x$ 的类输出。

>考研时候概率论与数理统计肯定学过的，现在再复习一下**贝叶斯定理**（也叫**逆概率公式**）：
>
>如果 $ \bigcup_{i=1}^{n}A_i=\Omega $，$ A_iA_j=\emptyset(i \ne j;i,j=1,2,\cdots,n),P(A_i)>0 $，则对任一事件 $B$，只要 $P(B)>0$，就有
>
>$$\large P(A_j|B)=\frac{P(B|A_j)P(A_j)}{\sum_{i=1}^n P(B|A_i)P(A_i)}, \quad j=1,2,\cdots,n $$
>
>其中，
>
>- $A_iA_j=\emptyset(i \ne j;i,j=1,2,\cdots,n)$，指 $A_i$ 和 $A_j$ 事件**互不相容**，也叫**互斥**;
>
>- $\Omega$是**样本空间**，又叫**基本事件空间**，指的是随机试验的样本点 $\omega$ 的全体组成的集合；
>
>- 称“有限个事件$A_1,A_2,\cdots,A_n$至少有一个发生”的事件为事件$A_1,A_2,\cdots,A_n$的并（或和），记为$\bigcup^n_{i=1}A_i$;
>
>- 如果 $\bigcup^n_{i=1}A_i=\Omega$，则对一切 $(i \ne j;i,j=1,2,\cdots,n)$，有 $ A_iA_j=\emptyset $。
>

由贝叶斯定理：

$$ \large P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_k P(X=x|Y=c_k)P(Y=c_k)} $$

其中，$ P(X=x|Y=c_k) $ 是条件概率（条件独立性假设中已经描述），$ P(Y=c_k) $是先验概率。

将条件独立性假设代入上式中，有：

$$ \large P(Y=c_k|X=x)=\frac{P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_k P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k)}，\quad k = 1,2,\cdots,K $$

这就是朴素贝叶斯法分类的基本公式。故朴素贝叶斯分类器表示为：

$$ \large y=f(x)= {\rm argmax_{c_k}} \frac{P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_k P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k)}
 $$
 
注意，在计算所有类别的后验概率中，分母都是相同的，只需要找令分子最大的参数值即可，故有：

$$ \large y=f(x)= {\rm argmax_{c_k}} {P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k)} $$

## 极大似然估计

在朴素贝叶斯法中，学习（训练）就意味着估计先验概率 $ P(Y=c_k) $ 和条件概率分布 $ P(X^{(j)}=x^{(j)}|Y=c_k) $。

这里介绍极大似然估计法估计相应的概率。

---------

**先验概率** $P(Y=C_K)$ 的极大似然估计是

$$\large P(Y=c_k)=\frac{\sum^N_{i=1}I(y_i = c_k)}{N}, \quad k=1,2,\cdots,K $$

其中 $N$ 可以看做是有标签的训练样本的总数；$I$ 为指示函数。

>指示函数 $I(y_i=c_k)$，表示当 $y_i=c_k$ 的时候 $I$ 为1，否则 $I$ 为0。

举个通俗的例子，比如一个班学生 $N=50$ 人，男生有 $30$ 人，则 $\sum^{N}_{i=1}I(y_i = 男)=30$，则

$$ P(Y=男)=\frac{30}{N}=\frac{30}{50}=0.6 $$

---------

假设第 $j$ 个特征（第 $j$ 列）$x^{(j)}$ 可能的取值的集合为 $\{a_{j1},a_{j2},\cdots,a_{jS_j}\}$ ,**条件概率** $P(X^{(j)}=a_{jl}|Y=c_k)$ 的极大似然估计是

$$\large P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^N I(y_i=c_k)} $$

$$\large j=1,2,\cdots,n; \quad l=1,2,\cdots,S_j; \quad k=1,2,\cdots,K$$

其中，$x_i^{(j)}$ 是第 $i$ 个样本的第 $j$ 个特征；$a_{jl}$ 是第 $j$ 个特征可能取的第 $l$ 个值；$I$ 为指示函数。

接上面的例子，比如学生的第一个特征$x^{(1)}$为“是否戴眼镜”，取值范围就是“$a_{11}=戴眼镜$”或者“$a_{12}=不戴眼镜$”，实际上班上有40个学生戴眼镜，其中25个是男生，则：

$$
\begin{equation}\begin{split} 
\large P(X^{(1)}=戴眼镜|Y=男)
&=\large \frac{\sum_{i=1}^N I(x_i^{(1)}=戴眼镜,y_i=男)}{\sum_{i=1}^N I(y_i=男)}\\
&=\large \frac{25}{30}\\
&=\large \frac{5}{6}
\end{split}\end{equation}
$$

## 算法流程

输入：训练数据 $T=\left \{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N) \right \}$，其中：

- $x_i=(x_i^{(1)},x_i^{(2)},\cdots,x_i^{(n)})^T$，$x_i^{(j)}$ 是第 $i$ 个样本的第 $j$ 个特征；
- $x_i^{(j)}\in \{ a_{j1},a_{j2},\cdots,a_{js_j}\}$，$a_{jl}$是第 $j$ 个特征可能取的第 $l$ 个值，$j=1,2,\cdots,n$，$l=1,2,\cdots,S_j$；
- 类别 $y_i\in {c_1,c_2,\cdots,c_K}$，比如有鸢尾花数据集的类别有三种；
- $x$ 是实例。 

输出：实例 $x$ 得分类。

---------

首先，计算先验概率：

$$\large P(Y=c_k)=\frac{\sum^N_{i=1}I(y_i = c_k)}{N}, \quad k=1,2,\cdots,K $$

再拿我们熟悉的iris数据集举例，总共150个鸢尾花实例，所以 $N=150$，

那么属于第一类鸢尾花的先验概率就是 $P(Y=c_1)=\frac{50}{150}=0.333$

---------

其次，计算条件概率：

$$\large P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^N I(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^N I(y_i=c_k)} $$

$$\large j=1,2,\cdots,n; \quad l=1,2,\cdots,S_j, \quad k=1,2,\cdots,K$$

这里指的是，在花的种类是第一类的情况下，数据集第1类（列）特征 $X^{(1)}$，假设是花萼长度，取值为 $a_{jl}$ 的概率。这里花萼长度是一个实数，单位是厘米。

--------

然后，对于给定的实例 $x=(x_i^{(1)},x_i^{(2)},\cdots,x_i^{(n)})^T$，计算

$$\large {P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)}, \quad k=1,2,\cdots,K$$

这里计算的相当于是某一朵鸢尾花 $x$ 分类到每个类别 $c_k, \quad k=1,2,\cdots,K$ 的概率。

--------

最后，确定实例 $x$ 的类：

$$ \large y=f(x)= {\rm argmax_{c_k}} {P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k)} $$

相当于选择出这一朵花 $x$ 对应的概率最大的分类。

## 贝叶斯估计

极大似然估计由于数据的问题，可能存在所要估计的概率值为 $0$ 的情况，因此会影响到后验概率的计算结果，有可能让分类产生偏差。

具体的：

## 朴素贝叶斯的SKlearn实现