# 第4章  基于概率论的分类方法：朴素贝叶斯

## 本章内容

* 使用概率分布进行分类
* 学习朴素贝叶斯分类器
* 了解RSS源数据
* 使用朴素贝叶斯来分析不同地区的态度

## 4.1 朴素贝叶斯 概述

**朴素贝叶斯** 是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。朴素贝叶斯是贝叶斯决策理论的一部分，因此在开始朴素贝叶斯之前，我们先了解一下贝叶斯决策理论。


## 4.2 朴素贝叶斯理论 & 条件概率

### 4.2.1 贝叶斯理论

假设我们有一个数据集，它有两类数据组成，如下图所示：

![](images/sample_plot.png)

我们用 $p1(x, y)$ 表示数据点 $(x, y)$属于类别 1 的概率，用 $p2(x, y)$ 表示数据点 $(x, y)$属于类别 2 的概率，那么对于一个新的数据点$(x, y)$，可以用如下的规则判断它的类别：

* 如果 $p1(x, y) > p2(x, y)$，那么类别为 1；
* 如果 $p2(x, y) > p1(x, y)$，那么类别为 2。

也就是说我们会选择高概率对应的累类别，这就是贝叶斯决策理论的核心思想，即选择具有最高概率的决策。

### 4.2.2 条件概率

假设一个罐子里装了7块石头，其中3块是白色的，4块是黑色的。如果从罐子里随机取出一块石头，那么取出的石头是白色的可能性是多少？由于取石头有7中可能，其中3中为白色，所以取出白色石头的概率为 3/7，同理取出黑色石头的概率是 4/7。

假设我们使用 $P(white)$ 表示取到白色石头的概率，其概率值可以通过白色石头数目除以总的石头数得到。

![](images/gray_black_stone.png)
![](images/two_tone.png)

如果事先我们知道石头所在桶的信息会改变的结果的前提下，要计算 $P(white)$ 或者 $P(black)$。嘉定计算的是从 B 桶取到白色石头的概率，这个概率我们记作 $P(white|bucketB)$，读作“在已知石头出自 B 桶的条件下，取出白色石头的概率”，这就是**条件概率（conditional probablity）**。从前一个例子中我们很容易的， $P(white|bucketB) = 1/3，P(white|bucketA) = 1/2$。如何计算的呢？

计算公式如下：

$$P(white|bucketB) = P(white\quad and\quad bucketB|bucketB) / P(bucketB)$$

首先，我们用 B 桶中白色石头的个数除以两个桶中总的石头数，得到 $ P(white and buckeB) = 1/7$，其次，由于 B 桶中有3块石头，而总是为7，于是 $P(bucketB) = 3/7 $，于是有：

$$P(white|bucketB) = P(white\quad and\quad bucketB|bucketB) / P(bucketB) = (1/7)/(3/7) = 1/3$$

另外一种计算条件概率的方法称为**贝叶斯准则**，贝叶斯准则告诉我们如何交换条件概率中的条件和结果，即如何结果已知 $P(x|c)$，要求 $P(c|x)$，那么可以使用如下公式计算：

$$\mathscr P(c|x) = \frac {\mathscr P(x|c) \mathscr P(c)}{\mathscr P(x)}$$

## 4.3 使用条件概率进行分类

上面我们提到贝叶斯决策理论中，要求计算两个概率 $p1(x, y)$,$p2(x, y)$:

* 如果 $p1(x, y) > p2(x, y)$，那么类别为 1；
* 如果 $p2(x, y) > p1(x, y)$，那么类别为 2。

但是这并不是贝叶斯决策理论的所有内容，这里使用$p1(), p2()$仅仅是为了简化描述，而实际上需要计算和比较的是 $p(c1|x, y)$和$p(c2|x, y)$，代表的意义是：在给定某个数据点(x、y)，那么该数据点来自类别c1的概率是多少？数据点来自c2的概率是多少？注意：这里所说的$p(c1|x, y)$和$p(x, y|c1)$并不一样，不过可以使用贝叶斯准则来交换概率中的条件和结果，具体的，应用贝叶斯准则得到：

$$p(c_i|x,y) = \frac {p(x,y|c_i) p(c_i)}{p(x,y)}$$

使用上面的定义，可以定位贝叶斯分类准则为：

* 如果 $p(c_1|x, y) > p(c_2|x, y)$，那么类别为 $c_1$；
* 如果 $p(c_2|x, y) > p(c_1|x, y)$，那么类别为 $c_2$。

使用贝叶斯准则，可以通过已知的三个概率来计算未知的概率值。

## 4.4 朴素贝叶斯 应用场景


在文档分类中，整个文档（例如一封邮件）是一个实例，而邮件中某些元素则构成了特征。我们观察文档中出现的每个词，并把词作为一个特征，而每个词的出现或者不出现作为该特征的值，这样得到的特征数目就会跟词汇表中的词的数目一样多。

朴素贝叶斯是贝叶斯分类器的一个扩展，是用于文档分类常用的算法。

## 4.5 朴素贝叶斯 工作原理

* 提取所有文档中的词条并进行去重
* 获取文档的所有类别
* 计算每个类别中的文档数目
* 对每篇训练文档：
    * 对每个类别：
        * 如果词条出现在文档中，则增加该词条的计数值（for循环或者矩阵相加）
        * 增加所有词条的计数值（该类别下词条总数）
* 对每个类别：
    * 对每个词条：
        * 将该词条的数据除以总的词条收，得到条件概率（P(词条|类别)）
* 返回该文档属于每个类别的条件概率（P(类别|文档的所有词条)）


## 4.6 朴素贝叶斯 开发流程

* 收集数据：可以是任何方法
* 准备数据：需要数值型或者布尔型数据
* 分析数据：有大量特征时，绘制特征作用不大，此时使用直方图效果更好
* 训练算法：计算不同的独立特征的条件概率
* 测试算法：计算错误率
* 使用算法：常见的使用场景是文档分类，不过可以在任意的分类场景中使用朴素贝叶斯分类器，不一定非要是文本


## 4.7 朴素贝叶斯 算法特点

* **优点**：在数据较少的情况下，朴素贝叶斯依然有效，并可以处理多分类问题
* **缺点**：对于输入数据的准备方式较为敏感
* **适用的数据类型**： 标称型数据


## 4.8 朴素贝叶斯 实战案例

**案例1：屏蔽社区留言板的侮辱性言论**

**项目概述**

构建一个快速过滤器来屏蔽社区留言板上的侮辱性言论。如果某条留言使用了负面或者侮辱性的语言，那么就将该留言标识为内容不当。对此类问题建立两个类别：**侮辱性和非侮辱性，使用 1 和 0 分别表示**

* **收集数据**：可以是任何方法

这里的数据收集，假设我们收集了如下的词表：

In [1]:
def loadDataSet():
    """
    创建数据集
    :return: 单词列表postingList, 所属类别classVec
    """
    postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], 
                   ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                   ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                   ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                   ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                   ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0, 1, 0, 1, 0, 1]  # 1 代表侮辱性, 0 代表正常
    return postingList, classVec
    

postingList 中含有 6 篇文档。

* **准备数据**：从文本中构建词向量

构建词向量就是创建一个包含在所有文档中出现的不重复的词的列表。

In [2]:
def createVocabList(dataSet):
    """
    获取所有单词的集合
    :param dataSet: 原始数据集
    :return: 所有不含有重复单词的集合
    """
    vocabSet = set([]) # 由于需要不重复的集合，因此这里使用`set`
    for document in dataSet:
        # 这里使用按位或操作符 | ，求两个集合的并集
        vocabSet = vocabSet | set(document)
    return list(vocabSet)

获取了单词集合，也可以叫词汇表之后，我们需要计算词汇表的词汇向量，向量的每一个元素为 1 或者 0，分别代表词汇表中的单词在输入的文档中是否出现。

In [3]:
def setOfWords2Vec(vocabList, inputSet):
    """
    遍历查看某个单词是否在词汇表中出现，如果出现则设置该词为1
    :param vocabList: 所有单词的集合列表
    :param inputSet: 输入数据集
    :return: 匹配列表 [0， 1， 0， 1，1...]，其中 1与0 表示词汇表中的单词是否出现
    """
    # 首先创建一个和词汇表等长的向量，并将元素均置为0
    returnVec = [0] * len(vocabList)
    # 遍历数据集中的所有单词，如果出现词汇表中的单词，则将输出的文档向量中对应值设为1
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print('the word: %s is not in my Vocabulary!') % word
    return returnVec

* **分析数据**：检查词条确保解析的正确性

这一步在这里主要是检查上述的函数是否执行正确，检查输出的词汇表是否是否没有重复单词，需要的话，可以对其进行排序。

In [4]:
listOPosts, listClasses = loadDataSet()
listOPosts, listClasses

([['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
  ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
  ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
  ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
  ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
  ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']],
 [0, 1, 0, 1, 0, 1])

In [5]:
myVocabList = createVocabList(listOPosts)
myVocabList

['him',
 'garbage',
 'ate',
 'cute',
 'to',
 'quit',
 'licks',
 'dog',
 'please',
 'posting',
 'problems',
 'so',
 'maybe',
 'stupid',
 'take',
 'stop',
 'park',
 'my',
 'how',
 'buying',
 'food',
 'help',
 'dalmation',
 'not',
 'I',
 'love',
 'flea',
 'worthless',
 'steak',
 'is',
 'has',
 'mr']

词汇表获得之后，我们检查词向量函数的有效性。例如，词汇表中索引为 5 的元素是什么单词？通过查看词汇表知道应该是 so。并且该单词应该是在第三篇文档中出现的，其他的文档中没有，我们调用函数看看情况。

In [6]:
setOfWords2Vec(myVocabList, listOPosts[2])

[1,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 1,
 0,
 1,
 1,
 0,
 0,
 0,
 1,
 0,
 0]

In [7]:
setOfWords2Vec(myVocabList, listOPosts[4])

[1,
 0,
 1,
 0,
 1,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 1,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 1]

* **训练算法**：从词向量计算概率

通过上面的示例，我们已经知道了一个词是否出现在一篇文档中，也知道该文档所属的类别。

接下来重写一下贝叶斯准则，将之前的x，y替换为 $\mathbf w$， $\mathbf w$表示一个向量，即它是由多个值组成。在这个例子中，数值个数与词汇表中词的个数相同。

$$p(c_i| \mathbf w) = \frac {p(\mathbf w|c_i)p(c_i)}{p(\mathbf w)}$$

下面使用上面的公式，对每个类进行计算，得到概率，然后比较两个概率的大小。那么如何计算呢？

* 通过类别 i 中文档的数目除以在那个的文档数目，得到概率 $p(c_i)$;
* 使用贝叶斯假设，计算$p(\mathbf w|c_i)$。
    * 如果将 $\mathbf w$ 展开为一个独立特征，那么就可以将上述概率写作 $p(w_0,w_1,w_2...w_n|c_i)$
    * 假设所有词都是独立的（也称作条件独立性假设，例如 A 和 B 两个人抛骰子，概率是互不影响的，也就是相互独立的，A 抛 2点的同时 B 抛 3 点的概率就是 1/6 * 1/6），那就意味可以使用$p(w_0|c_i)p(w_1|c_i)p(w_2|c_i)...p(w_n|c_i)$来计算上述概率，也简化了计算过程。

In [8]:
from numpy import *

def _trainNB0(trainMatrix, trainCategory):
    """
    朴素贝叶斯训练函数（原始版本）
    :param trainMatrix: 文档当次矩阵，也就是上面所将的词向量。[[1,1,0,1,0,0],[0,1,0,1,0,1]...]
    :param trainCategory: 文档对应的类别[0,1,1,0...]，长度等于单词矩阵数，其中 1 代表对应文档是侮辱性文档，0 代表不是
    :return:
    """
    # 获取文档数
    numTrainDocs = len(trainMatrix)
    # 获取单词数
    numWords = len(trainMatrix[0])
    # 计算侮辱性文档出现的概率，即trainCategory中所有的分类为 1 的个数，
    # 代表就是多少个侮辱性文档，与文件总数相除，得到侮辱性文档出现的概率
    pAbusive = sum(trainCategory) / float(numTrainDocs)
    # 构造单词的出现次数列表
    p0Num = zeros(numWords)
    p1Num = zeros(numWords)
    
    # 整个数据集单词出现的总数
    p0Denom = 0.0
    p1Denom = 0.0
    for i in range(numTrainDocs):
        # 判断是否是侮辱性文档
        if trainCategory[i] == 1:
            # 如果是侮辱性文档，对侮辱性文档的向量进行加和
            p1Num += trainMatrix[i]
            # 对向量中的所有元素进行求和，也就是计算所有侮辱性文档中出现单词的总数
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    # 类别1，即侮辱性文档的[P(F1|C1),P(F2|C1),P(F3|C1),P(F4|C1),P(F5|C1)....]列表
    # 即 在1类别下，每个单词出现的概率
    p1Vect = p1Num / p1Denom# [1,2,3,5]/90->[1/90,...]
    # 类别0，即正常文档的[P(F1|C0),P(F2|C0),P(F3|C0),P(F4|C0),P(F5|C0)....]列表
    # 即 在0类别下，每个单词出现的概率
    p0Vect = p0Num / p0Denom
    return p0Vect, p1Vect, pAbusive
    

In [9]:
trainMat = []
for postinDoc in listOPosts:
    trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    
trainMat

[[0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  1,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  1,
  0],
 [1,
  0,
  0,
  0,
  1,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  1,
  1,
  1,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0],
 [1,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  1,
  0,
  1,
  1,
  0,
  0,
  0,
  1,
  0,
  0],
 [0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  1,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0],
 [1,
  0,
  1,
  0,
  1,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  1,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  1],
 [0,
  0,
  0,
  0,
  0,
  1,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  1,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0]]

In [10]:
p0V, p1V, pAb = _trainNB0(trainMat, listClasses)
# 任意文档属于侮辱性文档的概率
pAb

0.5

In [11]:
# 词汇表中每个词属于正常言论的概率
p0V 

array([ 0.08333333,  0.        ,  0.04166667,  0.04166667,  0.04166667,
        0.        ,  0.04166667,  0.04166667,  0.04166667,  0.        ,
        0.04166667,  0.04166667,  0.        ,  0.        ,  0.        ,
        0.04166667,  0.        ,  0.125     ,  0.04166667,  0.        ,
        0.        ,  0.04166667,  0.04166667,  0.        ,  0.04166667,
        0.04166667,  0.04166667,  0.        ,  0.04166667,  0.04166667,
        0.04166667,  0.04166667])

In [12]:
# 词汇表中每个词属于侮辱性言论的概率
p1V

array([ 0.05263158,  0.05263158,  0.        ,  0.        ,  0.05263158,
        0.05263158,  0.        ,  0.10526316,  0.        ,  0.05263158,
        0.        ,  0.        ,  0.05263158,  0.15789474,  0.05263158,
        0.05263158,  0.05263158,  0.        ,  0.        ,  0.05263158,
        0.05263158,  0.        ,  0.        ,  0.05263158,  0.        ,
        0.        ,  0.        ,  0.10526316,  0.        ,  0.        ,
        0.        ,  0.        ])

* **测试算法**：根据实际情况修改分类器

但是该算法实现，在实际应用用还有一些缺陷。例如在计算$p(w_0|c_i)p(w_1|c_i)p(w_2|c_i)...p(w_n|c_i)$的时候，其中任意一个概率为0，则直接导致结果为0，为了降低这种影响，可以将所有词的出现初始化为1，并将分母初始化为2.

```
   # 构造单词的出现次数列表
    p0Num = ones(numWords)
    p1Num = ones(numWords)
    
    # 整个数据集单词出现的总数
    p0Denom = 2.0
    p1Denom = 2.0
```

还有一个问题就是**下溢出**，这是由于太多很小的数相乘造成的。当计算$p(w_0|c_i)p(w_1|c_i)p(w_2|c_i)...p(w_n|c_i)$的时候，由于大部分的计算因子都很小，所以会有下溢出的情况发生，造成结果不正确，例如下面计算：

In [13]:
re = 0.00000158 * 0.00000158 * 0.00000158 * 0.00000158 
re

6.2320129599999984e-24

In [14]:
from decimal import Decimal

round(Decimal(re), 6)

Decimal('0.000000')

为了解决这个问题，一般的解决办法是**对乘积取自然对数**。在代数中有 $ln(a * b) = ln(a) + ln(b)$, 于是通过求对数可以避免下溢出或者浮点数舍入导致的错误。同时，采用自然对数进行处理不会有任何损失。

下图给出了函数 f(x) 与 ln(f(x)) 的曲线。可以看出，它们在相同区域内同时增加或者减少，并且在相同点上取到极值。它们的取值虽然不同，但不影响最终结果。

![](images/ln.png)


了解了这些后，我们改造上述贝叶斯训练函数，得到新的训练函数如下：

In [15]:
from numpy import *

def trainNB0(trainMatrix, trainCategory):
    """
    朴素贝叶斯训练函数（优化版本）
    :param trainMatrix: 文档当次矩阵，也就是上面所将的词向量。[[1,1,0,1,0,0],[0,1,0,1,0,1]...]
    :param trainCategory: 文档对应的类别[0,1,1,0...]，长度等于单词矩阵数，其中 1 代表对应文档是侮辱性文档，0 代表不是
    :return:
    """
    # 获取文档数
    numTrainDocs = len(trainMatrix)
    # 获取单词数
    numWords = len(trainMatrix[0])
    # 计算侮辱性文档出现的概率，即trainCategory中所有的分类为 1 的个数，
    # 代表就是多少个侮辱性文档，与文件总数相除，得到侮辱性文档出现的概率
    pAbusive = sum(trainCategory) / float(numTrainDocs)
    # 构造单词的出现次数列表(#[0,0......]->[1,1,1,1,1.....])
    p0Num = ones(numWords)
    p1Num = ones(numWords)
    
    # 整个数据集单词出现的总数,2.0根据样本/实际调查结果调整分母的值（2主要是避免分母为0，当然值可以调整）
    p0Denom = 2.0
    p1Denom = 2.0
    for i in range(numTrainDocs):
        # 判断是否是侮辱性文档
        if trainCategory[i] == 1:
            # 如果是侮辱性文档，对侮辱性文档的向量进行加和
            p1Num += trainMatrix[i]
            # 对向量中的所有元素进行求和，也就是计算所有侮辱性文档中出现单词的总数
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    # 类别1，即侮辱性文档的[log(P(F1|C1)),log(P(F2|C1)),log(P(F3|C1)),log(P(F4|C1)),log(P(F5|C1))....]列表
    p1Vect = log(p1Num / p1Denom)
    # 类别0，即正常文档的[log(P(F1|C0)),log(P(F2|C0)),log(P(F3|C0)),log(P(F4|C0)),log(P(F5|C0))....]列表
    p0Vect = log(p0Num / p0Denom)
    return p0Vect, p1Vect, pAbusive
    

In [16]:
p0V, p1V, pAb = trainNB0(trainMat, listClasses)
# 任意文档属于侮辱性文档的概率
pAb

0.5

In [17]:
p0V

array([-2.15948425, -3.25809654, -2.56494936, -2.56494936, -2.56494936,
       -3.25809654, -2.56494936, -2.56494936, -2.56494936, -3.25809654,
       -2.56494936, -2.56494936, -3.25809654, -3.25809654, -3.25809654,
       -2.56494936, -3.25809654, -1.87180218, -2.56494936, -3.25809654,
       -3.25809654, -2.56494936, -2.56494936, -3.25809654, -2.56494936,
       -2.56494936, -2.56494936, -3.25809654, -2.56494936, -2.56494936,
       -2.56494936, -2.56494936])

In [18]:
p1V

array([-2.35137526, -2.35137526, -3.04452244, -3.04452244, -2.35137526,
       -2.35137526, -3.04452244, -1.94591015, -3.04452244, -2.35137526,
       -3.04452244, -3.04452244, -2.35137526, -1.65822808, -2.35137526,
       -2.35137526, -2.35137526, -3.04452244, -3.04452244, -2.35137526,
       -2.35137526, -3.04452244, -3.04452244, -2.35137526, -3.04452244,
       -3.04452244, -3.04452244, -1.94591015, -3.04452244, -3.04452244,
       -3.04452244, -3.04452244])

* **使用算法**：对社区留言板言论进行分类

有了上述相关特征提取，训练方法定义后，我们队文本内容进行分类，分类器代码如下：


In [19]:
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    """
    使用算法：
        # 将乘法转换为加法
        乘法：P(C|F1F2...Fn) = P(F1F2...Fn|C)P(C)/P(F1F2...Fn)
        加法：P(F1|C)*P(F2|C)....P(Fn|C)P(C) -> log(P(F1|C))+log(P(F2|C))+....+log(P(Fn|C))+log(P(C))
    :param vec2Classify: 待测数据[0,1,1,1,1...]，即要分类的向量
    :param p0Vec: 类别0，即正常文档的[log(P(F1|C0)),log(P(F2|C0)),log(P(F3|C0)),log(P(F4|C0)),log(P(F5|C0))....]列表
    :param p1Vec: 类别1，即侮辱性文档的[log(P(F1|C1)),log(P(F2|C1)),log(P(F3|C1)),log(P(F4|C1)),log(P(F5|C1))....]列表
    :param pClass1: 类别1，侮辱性文件的出现概率
    :return: 类别1 or 0
    """
    # 计算公式  log(P(F1|C))+log(P(F2|C))+....+log(P(Fn|C))+log(P(C))
    # 大家可能会发现，上面的计算公式，没有除以贝叶斯准则的公式的分母，也就是 P(w) （P(w) 指的是此文档在所有的文档中出现的概率）就进行概率大小的比较了，
    # 因为 P(w) 针对的是包含侮辱和非侮辱的全部文档，所以 P(w) 是相同的。
    # 使用 NumPy 数组来计算两个向量相乘的结果，这里的相乘是指对应元素相乘，即先将两个向量中的第一个元素相乘，然后将第2个元素相乘，以此类推。
    # 我的理解是：这里的 vec2Classify * p1Vec 的意思就是将每个词与其对应的概率相关联起来
    p1 = sum(vec2Classify * p1Vec) + log(pClass1) # P(w|c1) * P(c1) ，即贝叶斯准则的分子
    print('p1:', p1)
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1) # P(w|c0) * P(c0) ，即贝叶斯准则的分子·
    print('p0:', p0)
    if p1 > p0:
        return 1
    else:
        return 0

有了分类函数之后，我们对整个训练和分类过程进行测试。

In [20]:
def testingNB():
    """
    测试朴素贝叶斯算法
    """
    # 1. 加载数据集
    listOPosts, listClasses = loadDataSet()
    # 2. 创建单词集合
    myVocabList = createVocabList(listOPosts)
    # 3. 计算单词是否出现并创建数据矩阵
    trainMat = []
    for postinDoc in listOPosts:
        # 返回m*len(myVocabList)的矩阵， 记录的都是0，1信息
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    # 4. 训练数据
    p0V, p1V, pAb = trainNB0(array(trainMat), array(listClasses))
    # 5. 测试数据
    testEntry = ['love', 'my', 'dalmation']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb))
    testEntry = ['stupid', 'garbage']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb))

In [21]:
testingNB()

p1: -9.82671449373
p0: -7.69484807238
['love', 'my', 'dalmation'] classified as:  0
p1: -4.70275051433
p0: -7.2093402566
['stupid', 'garbage'] classified as:  1


截止目前，我们将每个词是否出现作为一个特征，这种方式训练的模型可以称为**词集模型（set-of-words model）**，但是往往一个词在一个文档中不仅仅只会出现一次，每次的出现可能包含着不同的含义。在文本分类的案例中，经常会使用**词袋模型（bag-of-words model）**，在这个模型中，每个词可以出现多次，但是词集中只能出现一次，为了适应词袋模型，需要对函数`setOfWords2Vec()`进行重新修改，假设修改后的函数名为`bagOfWordsVec()`:

In [22]:
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0] * len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec


**案例2：使用朴素贝叶斯过滤垃圾邮件**

**项目概述**

完成朴素贝叶斯的一个最著名的应用: 电子邮件垃圾过滤。

**开发流程**

* **收集数据**: 提供文本文件
* **准备数据**: 将文本文件解析成词条向量
* **分析数据**: 检查词条确保解析的正确性
* **训练算法**: 使用我们之前建立的 trainNB() 函数
* **测试算法**: 使用朴素贝叶斯进行交叉验证
* **使用算法**: 构建一个完整的程序对一组文档进行分类，将错分的文档输出到屏幕上


**收集数据**：提供文本文件

假设我们有如下内容的一封邮电：

> Hi Peter,

> With Jose out of town, do you want to
meet once in a while to keep things
going and do some interesting stuff?

> Let me know
> Eugene

**准备数据**：将文本文件解析成词条向量

为了得到词向量，我们可以将文件内容看做是一个字符串，然后对这个字符串进行切分，例如：

In [23]:
mySent = "Hi Peter,\nWith Jose out of town, do you want to meet once in a while to keep things going and do some interesting stuff?\nLet me know\nEugene"
mySent.split()

['Hi',
 'Peter,',
 'With',
 'Jose',
 'out',
 'of',
 'town,',
 'do',
 'you',
 'want',
 'to',
 'meet',
 'once',
 'in',
 'a',
 'while',
 'to',
 'keep',
 'things',
 'going',
 'and',
 'do',
 'some',
 'interesting',
 'stuff?',
 'Let',
 'me',
 'know',
 'Eugene']

可以看到切分的效果不错，但是有一个问题，内容中的标点符号也被作为词条了。而已使用正则表达式来切分，其中分隔符是除了单词、数字外的任意字符串：

In [24]:
import re

mySent = "Hi Peter,\nWith Jose out of town, do you want to meet once in a while to keep things going and do some interesting stuff?\nLet me know\nEugene"

regEx = re.compile('\\W*')
listOfTokens = regEx.split(mySent)
listOfTokens

  


['Hi',
 'Peter',
 'With',
 'Jose',
 'out',
 'of',
 'town',
 'do',
 'you',
 'want',
 'to',
 'meet',
 'once',
 'in',
 'a',
 'while',
 'to',
 'keep',
 'things',
 'going',
 'and',
 'do',
 'some',
 'interesting',
 'stuff',
 'Let',
 'me',
 'know',
 'Eugene']

切分好之后，为了能够让每个词条的格式保持统一，我么再次进行格式化，统一每个词条为小写，并且为了确保词条的有效性，我们只获取词条长度大于0的项：

In [25]:
[tok.lower() for tok in listOfTokens if len(tok) > 0]

['hi',
 'peter',
 'with',
 'jose',
 'out',
 'of',
 'town',
 'do',
 'you',
 'want',
 'to',
 'meet',
 'once',
 'in',
 'a',
 'while',
 'to',
 'keep',
 'things',
 'going',
 'and',
 'do',
 'some',
 'interesting',
 'stuff',
 'let',
 'me',
 'know',
 'eugene']

In [26]:
def textParse(bigString):
    """
    接收一个大字符串并将其解析为字符串列表
    :param bigString: 大字符串
    :return list: 去掉长度少于2的字符，并将每个词条转换为小写，组成列表返回
    """
    import re
    # 使用正则表达式切分字符串，其中分隔符是除了单词、数字外的任意字符串
    listOfTokens = re.split(r'\W*', bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]

**分析数据**：检查词条确保解析的正确性

此步骤已经包含在了上一步中。

**训练算法**：这里直接使用上一个例子中的trainNB0()函数即可

**测试算法**：使用朴素贝叶斯进行交叉验证

In [27]:
def spamTest():
    # 文件信息矩阵
    docList = []
    # 分类矩阵
    classList = []
    # 全部文本信息矩阵
    fullText = []
    # 循环25次读取两个文件夹中50个邮件文本
    for i in range(1, 26):
        # 处理1类文本信息
        wordList = textParse(open('resource/NaiveBayes/email/spam/%d.txt' % i, encoding="ascii", errors='replace').read())
        # 衔接到文件信息矩阵
        docList.append(wordList)
        # 拓展到全部文本信息矩阵
        fullText.extend(wordList)
        # 分类信息衔接1类标志
        classList.append(1)
        # 处理0类文本信息
        wordList = textParse(open('resource/NaiveBayes/email/ham/%d.txt' % i, encoding="ascii", errors='replace').read())
        # 衔接到文件信息矩阵
        docList.append(wordList)
        # 拓展到全部文本信息矩阵
        fullText.extend(wordList)
        # 分类信息衔接0类标志
        classList.append(0)
    # 依据收集的文本信息，创建词汇集合
    vocabList = createVocabList(docList)
    # 初始化训练集合索引记录1-50
    trainingSet = list(range(50))
    # 初始测试矩阵
    testSet = []
    # 随机选取十个信息数据作为测试集
    for i in range(10):
        # 1-50随机选取一个数字
        randIndex = int(random.uniform(0, len(trainingSet)))
        # 将选取到的衔接到测试集索引区
        testSet.append(trainingSet[randIndex])
        # 删除训练集对应索引
        del (trainingSet[randIndex])
    # 初始化训练矩阵
    trainMat = []
    # 初始化分类矩阵
    trainClasses = []
    # 遍历训练集索引，此处有40个
    for docIndex in trainingSet:
        # 构造训练集矩阵，依据词袋函数
        trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
        # 构造训练集对应的分类矩阵
        trainClasses.append(classList[docIndex])
    # 计算0分类语义概率，1分类语义概率，1分类概率
    p0V, p1V, pSpam = trainNB0(array(trainMat), array(trainClasses))
    # 初始化预测错误次数
    errorCount = 0
    # 遍历测试集，此处有10个
    for docIndex in testSet:
        # 构造词袋向量
        wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
        # 判定预测与实际值异同
        if classifyNB(array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            # 不一样累加1
            errorCount += 1
            print("classification error", docList[docIndex])
    # 计算并打印预测错误率
    print('the error rate is: ', float(errorCount) / len(testSet))

In [28]:
spamTest()

  return _compile(pattern, flags).split(string, maxsplit)


p1: -493.013482125
p0: -459.285684265
p1: -205.740024878
p0: -196.452459189
classification error ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts']
p1: -239.754878659
p0: -291.236246541
p1: -165.051566721
p0: -156.710380087
p1: -105.538903564
p0: -97.92365179
p1: -115.413239848
p0: -107.531167723
p1: -166.760930407
p0: -189.392894679
p1: -328.356670247
p0: -301.199736477
p1: -98.0797093342
p0: -119.332212781
p1: -94.5422384642
p0: -86.7620803532
the error rate is:  0.1
