# 朴素贝叶斯分类器

## 似然

[似然函数的定义](https://zh.wikipedia.org/wiki/%E4%BC%BC%E7%84%B6%E5%87%BD%E6%95%B0)

## 朴素贝叶斯分类器公式

给定已标记数据集 $D = \{ (\mathbf{x}_1, y_1), (\mathbf{x}_2, y_2), ... , (\mathbf{x}_n, y_n)\},$ 其中 $ \mathbf{x}_i = (x_{i1}, x_{i2}, ...,x_{id}), y_i\in \widehat{C} = \{C_1, C_2, ... , C_b\}$.

这个数据集有 d 个特征，b 个类别。针对一个新的输入样本 $\mathbf{x}$，我们要预测 y 的值，也就是对 $\mathbf{x}$ 进行分类。一个典型的多分类问题。

用统计学语言来描述这个分类问题就是，**当观察到输入样本是 $\mathbf{x}$ 时，其所属于类别 $ y = C_k$ 的条件概率。我们只需要分别求出样本属于 b 个类别的概率，然后取概率最大的类别即为 样本  $\mathbf{x}$ 所属类别。**

使用条件概率的公式表达为

$$ C_{best} = \arg \max _{\widehat{C}} P(C_k|\mathbf{x})$$

直接求解上式比较难，我们可以通过贝叶斯公式来进行一次变换：

$$ P(C_k | \mathbf{x}) = \frac{P(\mathbf{x}| C_k)P(C_k)}{P(\mathbf{x})}$$

对于确定的数据集， $C_k, P(\mathbf{x})$ 都是固定的值，所以：

$$ P(C_k | \mathbf{x})  \propto P(\mathbf{x}|C_k)P(C_k)$$

其中， $\propto$ 表示正比的意思。

求解样本所属最大概率的类别等价于：

$$ C_{best} = \arg \max _{\widehat{C}} P(\mathbf{x}|C_k)P(C_k)$$

根据联合概率公式，有

$$\begin{split}
 P(\mathbf{x}|C_k)P(C_k) = P(\mathbf{x},C_k) &= P(x_1, x_2, ... , x_n, C_k) \\
 &=P(x_1| x_2, ... , x_n, C_k)P(x_2, ... , x_n, C_k)\\
 &= P(x_1| x_2, ... , x_n, C_k)P(x_2|x_3, ... , x_n, C_k)...P(x_n|C_k)P(C_k)
\end{split}$$

从上式中我们发现，$P(x_1, x_2, ... , x_n, C_k)$是所有属性特征的联合分布，很难从有限的训练样本上直接估计而得。**为避开这个障碍，朴素贝叶斯分类器采用了“属性条件独立性假设”：对所有类别，假设所有属性相互独立，也就是说，假设每个属性独立地对分类结果发生影响。**

即满足下面的公式：

$$P(x_{i}|x_{i+1}, ... , x_n, C_k) = P(x_i|C_k)$$

有了这个假设，我们可以简化之前的等式为：

$$P(\mathbf{x}|C_k)P(C_k) = P(x_1|C_k)P(x_2|C_k)...P(x_n|C_k)P(C_k)$$

进而，我们的朴素贝叶斯分类器为：

$$ C_{best} = \arg \max _{\widehat{C}} P(C_k)\prod_{i=1}^n P(x_i|C_k)$$

其中，$P(C_k)$ 表示 训练集中每个类别出现的概率，可以统计得出；$P(x_i|C_k)$表示当类别为 $C_k$ 时，特征 $x_i$ 出现的概率，这个值也可以统计得出。以上我们就得出了最原始的朴素贝叶斯分类器的数学表达式，本质上是一个**最大似然估计**。

**注：在实际计算中，为了防止造成下溢，可以使用对数似然估计。**

令 $\widehat{D}_{C_k}$ 表示训练集 $\widehat{D}$ 中 k 类样本组成的集合，在朴素贝叶斯的假设下，可以容易估计出类别的先验概率：

$$ P(C_k) = \frac{|\widehat{D}_{C_k}|}{|\widehat{D}|}$$

对离散属性而言， 令 $\widehat{D}_{C_k, x_{ij}}$ 表示$\widehat{D}_{C_k}$ 中在第 i 个特征上取值为 $x_{ij}$ 的样本组成的集合，则条件概率 $P(x_i=x_{ij}|C_k)$可估计为：

$$ P(x_i=x_{ij}|C_k) = \frac{|\widehat{D}_{C_k, x_{ij}}|}{|\widehat{D}_{C_k}|}$$

**注：当某个特征的值不是离散值是连续值时，可以通过假设该特征满足某个分布（比如高斯分布），通过计算其均值、方差然后得到概率密度函数，然后将该属性的值带入密度函数计算其条件概率。**

## 拉普拉斯平滑与增量学习

在进行分类的时候，会存在某些特征的某个属性值没有在训练集中与某个类同时出现过，对应的概率为0。为了避免这种情况，在进行概率估计时常常要进行“平滑”。令 $N_i$ 表示第i个特征的所有枚举可能值的数量。则

$$ P(C_k) = \frac{|\widehat{D}_{C_k}| + 1}{|\widehat{D}| + |\widehat{C}|}$$

$$ P(x_i=x_{ij}|C_k) = \frac{|\widehat{D}_{C_k, x_{ij}}| + 1}{|\widehat{D}_{C_k}| + \lambda N_i }$$

其中 $\lambda$ 为平滑因子，当取值为1时，就是**“拉普拉斯平滑”**。

**懒惰学习与增量学习：**

* 在现实任务中，朴素贝叶斯分类器有多种使用方式。例如，在任务对预测速度比较高时，对给定训练集，可以将朴素贝叶斯分类器的所有概率估值事先计算存储起来，在进行预测时进行“查表”即可；
* 若任务数据更替频繁，可以采用“懒惰学习”，先不进行任何训练，待收到预测请求时再根据当前数据集进行概率估值；
* 若数据不断增加，可以再现有估值基础上，仅对新增加样本的属性值所涉及的概率估值进行计数修正即可实现增量学习。

## [sklearn.naive_bayes](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.naive_bayes)
1. 高斯分布：[naive_bayes.GaussianNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html#sklearn.naive_bayes.GaussianNB)
2. 伯努利分布：[naive_bayes.BernoulliNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.BernoulliNB.html#sklearn.naive_bayes.BernoulliNB)。其中参数 binarize 为二值化的阈值，默认为0，如果输入其他值，大于该值的为1，小于该值的为0.
    
3. 多项式分布：[naive_bayes.MultinomialNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html#sklearn.naive_bayes.MultinomialNB)
4. 带正则项的多项式分布：[naive_bayes.ComplementNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.ComplementNB.html#sklearn.naive_bayes.ComplementNB)
5. 三个分布共有的参数alpha：作用是平滑因子，默认取值为1；取值为1时为拉普拉斯平滑。
6. 共同的 methods 里有partial_fit，适合大数量量的时候进行增量批次进行学习。

这三个类适用的分类场景各不相同，一般来说：
* 如果样本特征的分布大部分是连续值，使用GaussianNB会比较好；
* 如果如果样本特征大部分是多元离散值，使用MultinomialNB比较合适；
* 而如果样本特征是二元离散值或者很稀疏的多元离散值，应该使用BernoulliNB。