# 第4章  基于概率论的分类方法：朴素贝叶斯

## 本章内容

* 使用概率分布进行分类
* 学习朴素贝叶斯分类器
* 了解RSS源数据
* 使用朴素贝叶斯来分析不同地区的态度

## 4.1 朴素贝叶斯 概述

**朴素贝叶斯** 是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。朴素贝叶斯是贝叶斯决策理论的一部分，因此在开始朴素贝叶斯之前，我们先了解一下贝叶斯决策理论。


## 4.2 朴素贝叶斯理论 & 条件概率

### 4.2.1 贝叶斯理论

假设我们有一个数据集，它有两类数据组成，如下图所示：

![](images/sample_plot.png)

我们用 $p1(x, y)$ 表示数据点 $(x, y)$属于类别 1 的概率，用 $p2(x, y)$ 表示数据点 $(x, y)$属于类别 2 的概率，那么对于一个新的数据点$(x, y)$，可以用如下的规则判断它的类别：

* 如果 $p1(x, y) > p2(x, y)$，那么类别为 1；
* 如果 $p2(x, y) > p1(x, y)$，那么类别为 2。

也就是说我们会选择高概率对应的累类别，这就是贝叶斯决策理论的核心思想，即选择具有最高概率的决策。

### 4.2.2 条件概率

假设一个罐子里装了7块石头，其中3块是白色的，4块是黑色的。如果从罐子里随机取出一块石头，那么取出的石头是白色的可能性是多少？由于取石头有7中可能，其中3中为白色，所以取出白色石头的概率为 3/7，同理取出黑色石头的概率是 4/7。

假设我们使用 $P(white)$ 表示取到白色石头的概率，其概率值可以通过白色石头数目除以总的石头数得到。

![](images/gray_black_stone.png)
![](images/two_tone.png)

如果事先我们知道石头所在桶的信息会改变的结果的前提下，要计算 $P(white)$ 或者 $P(black)$。嘉定计算的是从 B 桶取到白色石头的概率，这个概率我们记作 $P(white|bucketB)$，读作“在已知石头出自 B 桶的条件下，取出白色石头的概率”，这就是**条件概率（conditional probablity）**。从前一个例子中我们很容易的， $P(white|bucketB) = 1/3，P(white|bucketA) = 1/2$。如何计算的呢？

计算公式如下：

$$P(white|bucketB) = P(white\quad and\quad bucketB|bucketB) / P(bucketB)$$

首先，我们用 B 桶中白色石头的个数除以两个桶中总的石头数，得到 $ P(white and buckeB) = 1/7$，其次，由于 B 桶中有3块石头，而总是为7，于是 $P(bucketB) = 3/7 $，于是有：

$$P(white|bucketB) = P(white\quad and\quad bucketB|bucketB) / P(bucketB) = (1/7)/(3/7) = 1/3$$

另外一种计算条件概率的方法称为**贝叶斯准则**，贝叶斯准则告诉我们如何交换条件概率中的条件和结果，即如何结果已知 $P(x|c)$，要求 $P(c|x)$，那么可以使用如下公式计算：

$$\mathscr P(c|x) = \frac {\mathscr P(x|c) \mathscr P(c)}{\mathscr P(x)}$$

## 4.3 使用条件概率进行分类

上面我们提到贝叶斯决策理论中，要求计算两个概率 $p1(x, y)$,$p2(x, y)$:

* 如果 $p1(x, y) > p2(x, y)$，那么类别为 1；
* 如果 $p2(x, y) > p1(x, y)$，那么类别为 2。

但是这并不是贝叶斯决策理论的所有内容，这里使用$p1(), p2()$仅仅是为了简化描述，而实际上需要计算和比较的是 $p(c1|x, y)$和$p(c2|x, y)$，代表的意义是：在给定某个数据点(x、y)，那么该数据点来自类别c1的概率是多少？数据点来自c2的概率是多少？注意：这里所说的$p(c1|x, y)$和$p(x, y|c1)$并不一样，不过可以使用贝叶斯准则来交换概率中的条件和结果，具体的，应用贝叶斯准则得到：

$$p(c_i|x,y) = \frac {p(x,y|c_i) p(c_i)}{p(x,y)}$$

使用上面的定义，可以定位贝叶斯分类准则为：

* 如果 $p(c_1|x, y) > p(c_2|x, y)$，那么类别为 $c_1$；
* 如果 $p(c_2|x, y) > p(c_1|x, y)$，那么类别为 $c_2$。

使用贝叶斯准则，可以通过已知的三个概率来计算未知的概率值。

## 4.4 使用朴素贝叶斯进行文档分类


在文档分类中，整个文档（例如一封邮件）是一个实例，而邮件中某些元素则构成了特征。我们观察文档中出现的每个词，并把词作为一个特征，而每个词的出现或者不出现作为该特征的值，这样得到的特征数目就会跟词汇表中的词的数目一样多。