# 朴素贝叶斯

朴素贝叶斯（naïve Bayes）法是基于贝叶斯定理和特征条件独立假设的分类方法。

朴素贝叶斯在20世纪60年代得到了广泛的研究，在60年代初被引入到文本检索领域（可能有的人会看过一些比较老的文章或者书，里面经常提到“使用朴素贝叶斯法来判断垃圾邮件”）。在统计学和计算机科学文献中，朴素贝叶斯模型也经常被叫做**简单贝叶斯（simple Bayes）**或者**独立贝叶斯（independence Bayes）**。

## 朴素贝叶斯的基本方法

### 基本定义

输入空间 $\Bbb X \subseteq \mathbf R^n$ 为 $n$ 维向量的集合，输出空间 $ \Bbb Y = \left \{ c_1,c_2,\cdots,c_K \right \} $ 为类标记的集合。

输入为特征向量 $x \in \Bbb X $，可以类比 iris 数据集的 features（特征），有多个维度；

输出为类标记（class label） $ y \in \Bbb Y$，可以类比为 iris 数据集的 labels（标签），可以是多分类的。

$X$ 是定义在输入空间 $\Bbb X $ 上的随机向量（一个实例的特征）， $Y$ 是定义在输出空间 $\Bbb Y $ 上的随机变量（一个实例的标签）。$P(X,Y)$ 是 $X$ 和 $Y$ 的联合概率分布。


训练数据集

$$\large T=\left \{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N) \right \} $$

由 $P(X,Y)$ 独立同分布产生。

所以，朴素贝叶斯的基本思想就是通过训练数据集学习这个联合概率分布 $P(X,Y)$。

### 先验概率

**先验概率（prior probability）分布**如下：

$$\large P(Y=c_k), k=1,2,\cdots,K $$

何谓**先验概率分布**？查一下可以知道，先验概率是指根据以往经验和分析得到的概率。例如：

- 自然状况下，生男孩和生女孩的概率均是50%，这里，50%就是先验概率，不管是历史统计也好，生物学染色体理论解释也好，都指出这个概率是50%，这不需要我们再进行计算，可以直接使用。

- 根据历史统计，学校历届招生，男女比例均为 4:6，这时候来了一个新生报到，我们有理由猜测，这名新生是女生的概率为60%，这也是先验概率。

条件概率分布如下：

$$\large P(X=x|Y=c_k) = P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_k) ，\quad k = 1,2,\cdots,K$$

其中 $X^{(n)}$ 指的是实例X第$n$个特征，比如，在iris数据集中，$X^{(1)}$ 表示鸢尾花 $X$ 的第1个特征。

于是就学习到了联合概率分布$P(X,Y)$。

条件概率分布有指数级数量的参数，其估计实际是不可行的。在实际应用中，假设单独一个特征 $ x^{(j)} $ 可取值有 $S_j$个，$j=1,2,\cdots,n$，而标签 $Y$ 的取值有 $K$ 个，那么参数个数为 $K \cdot S_1 \cdot S_2 \cdots S_n$，即 $K \prod_{j=1}^n S_j$ 个参数。

## 何谓“朴素”

### 条件独立性假设

朴素贝叶斯对条件概率分布做了**条件独立性**的假设。由于这条假设非常重要，因此得名朴素贝叶斯。

具体的，条件独立性假设是：

$$\large P(X=x|Y=c_k) = P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_k)=\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)$$

即各个特征之间的分布都是独立的，或者说其特征之间的相关性为0。前面一节（2.4节）我们已经就特征之间的相关性做了分析，这里就不再赘述了。

### 优缺点

条件独立假设相当于用于分类的各个特征在类别确定的条件下都是条件独立的。这一假设使朴素贝叶斯法变得很简单，但是有时也会牺牲一定的分类准确率。

因为我们都知道很多情况下变量之间的相关性也很强，比如正常人的身高越高，体重一般也会越重，两者是有一定相关性的。

## 后验概率计算

朴素贝叶斯法分类时，对给定的输入 $x$ ，通过学习到的模型计算后验概率分布 $P(Y=c_k|X=x)$，然后将后验概率最大的类作为 $x$ 的类输出。

由贝叶斯定理：

$$ \large P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_k P(X=x|Y=c_k)P(Y=c_k)} $$

其中，$ P(X=x|Y=c_k) $ 是条件概率（条件独立性假设中已经描述），$ P(Y=c_k) $是先验概率。

将条件独立性假设代入上式中，有：

$$ \large P(Y=c_k|X=x)=\frac{P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_k P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k)}，\quad k = 1,2,\cdots,K $$

这就是朴素贝叶斯法分类的基本公式。故朴素贝叶斯分类器表示为：

$$ \large y=f(x)= {\rm argmax_{c_k}} \frac{P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_k P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k)}
 $$
 
注意，在计算所有类别的后验概率中，分母都是相同的，只需要找令分子最大的参数值即可，故有：

$$ \large y=f(x)= {\rm argmax_{c_k}} {P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k)} $$

## 极大似然估计

## 算法流程

## 贝叶斯估计

## 朴素贝叶斯的SKlearn实现