# 基于概率论的分类方法：朴素贝叶斯

前两章我们要求分类器做出艰难决策，给出**"该数据实例属于哪一类"**这类问题的明确答案。不过，分类器有时会产生错误结果，这时可以要求分类器给出一个最优的类别猜测结果，同时给出这个猜测的概率估计值。  
我们称之为__"朴素"__,是因为整个形式化过程只做最原始、最简单的假设。

## 基于贝叶斯决策理论的分类方法

|朴素贝叶斯||
|:-|:-|
|优点|在数据较少的情况下仍然有效，可以处理多类别问题|
|缺点|对于输入数据的准备方式较为敏感|
|适用数据类型|标称型数据|

<center>
    <img src="./images/图4-1 俩个参数已知的概率分布，参数决定了分布的形状.jpg" height='40%' width="40%" alt='俩个参数已知的概率分布，参数决定了分布的形状'>
    <br>
    <div style="color:orange; border-bottom: 0.5px solid #d9d9d9;
    display: inline-block;
    color: #999;
    padding: 0.5px;">俩个参数已知的概率分布，参数决定了分布的形状</div>
</center>

朴素贝叶斯是**贝叶斯决策理论**的一部分。  
假设有位读者找到了描述图中两类数据的统计参数。我们现在用p1(x,y)表示数据点(x,y)属于类别1的概率,用p2(x,y)表示数据点(x,y)属于类别2的概率，那么对于一个新数据点(x,y)，可以用下面的规则来判断它的类别：  
如果p1(x,y)>p2(x,y)，那么类别为1。  
如果p2(x,y)>p1(x,y)，那么类别为2。  
也就是说，我们会选择高概率对应的类别。这就是贝叶斯决策理论的<font color=blue size=2 face="黑体">**核心思想**</font>，即选择具有最高概率的决策。  
整个数据由两类不同分布的数据构成，有可能只需要6个统计参数来描述。   
使用第1章的kNN，进行1000次距离计算；  
使用第2章的决策树，分别沿x轴、y轴划分数据；  
计算数据点属于每个类别的概率，并进行比较。  
**使用决策树不会非常成功**；而和简单的概率计算相比，**kNN的计算量太大**。因此，对于上述问题，最佳选择是使用刚才提到的概率比较方法。

## 条件概率

另一种有效计算条件概率的方法称为贝叶斯准则。**贝叶斯准则告诉我们如何交换条件概率中的条件与结果**，即如果已知P(x|c)，要求P(c|x)，那么可以使用下面的计算方法：  
$$p(c|x)=\frac{p(x|c)p(c)}{p(x)}$$  

## 使用条件概率来分类

之前提到贝叶斯决策理论要求计算两个概率p1(x, y)和p2(x, y),真正需要计算和比较的是p(c₁|x, y)和p(c₂|x, y)。这些符号所代表的具体意义是：给定某个由x、y表示的数据点，那么该数据点来自类别c₁的概率是多少？数据点来自类别c₂的概率又是多少？具体地,应用贝叶斯准则得到:  
$$p(c_{i}|x,y)=\frac{p(x,y|c_{i})p(c_{i})}{p(x,y)}$$

## 使用朴素贝叶斯进行文档分类

机器学习的一个重要应用就是文档的自动分类。我们可以**观察文档中出现的词，并把每个词的出现或者不出现作为一个特征**，这样得到的特征数目就会跟词汇表中的词目一样多。朴素贝叶斯是上节介绍的贝叶斯分类器的一个扩展,是**用于文档分类的常用算法**。

|朴素贝叶斯的一般过程||
|:-|:-|
|收集数据|可以使用任何方法,本章使用RSS源|
|准备数据|需要数值型或者布尔型数据|
|分析数据|有大量特征时，绘制特征作用不大，此时使用直方图效果更好|
|训练算法|计算不同的独立特征的条件概率|
|测试算法|计算错误率|
|使用算法|一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器，不一定非要是文本|

假设词汇表中有1000个单词。要得到好的概率分布，就需要足够的数据样本，假定样本数为N。1000个样本就非常好了。由统计学知，如果每个特征需要N个样本，那么对于10个特征将需要$N^{10}$个样本，对于包含1000个特征的词汇表将需要$N^{1000}$个样本。可以看到，**所需要的样本数会随着特征数目增大而迅速增长。**  
如果<font color=blue size=2 face="黑体">特征之间相互独立</font>，那么样本数就可以从$N^{1000}$减少到1000×N。所谓**独立(independence)**指的是统计意义上的独立，即一个特征或者单词出现的可能性与它和其他单词相邻没有关系。当然，我们知道这种假设并不正确。这个假设正是朴素贝叶斯分类器中**朴素(naive)**一词的含义。朴素贝叶斯分类器中的**另一个假设是**，<font color=blue size=2 face="黑体">**每个特征同等重要**</font>。其实这个假设也有问题。尽管上述假设存在一些小的瑕疵，但朴素贝叶斯的实际效果却很好。

## 使用Python进行文本分类

要从文本中获取特征，需要先拆分文本。这里的**特征**是来自文本的词条(token)，然后将每一个文本片段表示为一个词条向量，其中值为1表示词条出现在文档中，0表示词条未出现。  
以在线社区的留言板为例。为了不影响社区的发展，我们要屏蔽侮辱性的言论，所以要构建一个快速过滤器。过滤这类内容是一个很常见的需求。对此问题建立两个类别：侮辱类和非侮辱类，使用1和0分别表示。  
接下来首先给出将文本转换为数字向量的过程，然后介绍如何基于这些向量来计算**条件概率**，并在此基础上构建分类器，最后还要介绍一些利用Python实现朴素贝叶斯过程中需要考虑的问题。

### 准备数据:从文本中构建词向量

我们将把文本看成单词向量或者词条向量，也就是说将**句子转换为向量**。考虑出现在所有文档中的所有单词，再决定将哪些词纳入词汇表或者说所要的词汇集合，然后必须要**将每一篇文档转换为词汇表上的向量**。

朴素贝叶斯分类器通常有俩种实现模式：**一种基于贝努利模型实现，一种基于多项式模型实现**。这里采用前一种实现方式。该实现方式并不考虑词在文档中出现次数，只考虑出不出现。因此在这个意义上相当于假设是等权重的。

In [1]:
# 词表到向量的转换函数
def loadDataSet():
    postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                   ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                   ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                   ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                   ['mr', 'licks', 'ate', 'my', 'steak',
                       'how', 'to', 'stop', 'him'],
                   ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]  # 文档集合，每个list是一个文档
    classVec = [0, 1, 0, 1, 0, 1]  # 1 is abusive, 0 not
    return postingList, classVec


def createVocabList(dataSet):
    vocabSet = set([])  # create empty set
    for document in dataSet:
        vocabSet = vocabSet | set(document)  # union of the two sets
    return list(vocabSet)


def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word: %s is not in my Vocabulary!" % word)
    return returnVec

第一个函数loadDataSet()创建了一些实验样本。该函数返回的**第一个变量是进行词条切分后的文档集合**。loadDataSet()函数返回的**第二个变量是一个类别标签的集合**。这里有两类，侮辱性和非侮辱性。这些文本的类别由人工标注，这些标注信息用于训练程序以便自动检测侮辱性留言。  
下一个函数createVocabList()会创建一个包含在所有文档中出现的**不重复词的列表**。**操作符|用于求两个集合的并集**。在数学符号表示上，按位或操作与集合求并操作使用相同记号。  
获得词汇表后，便可以使用函数setOfWords2Vec()，该函数的**输入参数为词汇表及某个文档，输出的是文档向量**，向量的每一元素为1或0，分别表示词汇表中的单词在输入文档中是否出现。

In [2]:
listOPosts, listClasses = loadDataSet()
myVocablist = createVocabList(listOPosts)
myVocablist

['I',
 'love',
 'flea',
 'posting',
 'my',
 'stupid',
 'problems',
 'please',
 'cute',
 'dalmation',
 'how',
 'licks',
 'maybe',
 'garbage',
 'dog',
 'is',
 'quit',
 'has',
 'mr',
 'food',
 'to',
 'so',
 'buying',
 'stop',
 'him',
 'help',
 'steak',
 'worthless',
 'ate',
 'not',
 'park',
 'take']

该函数使用词汇表或者想要检查的所有单词作为输入，然后为其中每一个单词构建一个特征。

In [3]:
setOfWords2Vec(myVocablist, listOPosts[0])
setOfWords2Vec(myVocablist, listOPosts[3])

[0,
 0,
 1,
 0,
 1,
 0,
 1,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0]

[0,
 0,
 0,
 1,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0]

### 训练算法：从词向量计算概率

我们重写贝叶斯准则，将之前的x、y替换为***w***。粗体***w***表示这是一个向量，即它由多个数值组成。在这个例子中，数值个数与词汇表中的词个数相同。  
$$p(c_{i}|w)=\frac{p(w|c_{i})p(c_{i})}{p(w)}$$ 
我们将使用上述公式，对每个类计算该值，然后比较这两个概率值的大小。如何计算呢？首先可以通过类别i(侮辱性留言或非侮辱性留言)中文档数除以总的文档数来计算概率p($c_{i}$)。接下来计算p(w|$c_{i}$)，这里就要用到朴素贝叶斯假设。如果将***w***展开为一个个独立特征，那么就可以将上述概率写作p(w0,w1,w2..wN|ci)。这里假设所有词都互相独立，该假设也称作条件独立性假设，它意味着可以使用p(w0|$c_{i}$)p(w1|$c_{i}$)p(w2|$c_{i}$)...p(wN|$c_{i}$)来计算上述概率，这就极大地简化了计算的过程。

**该函数的伪代码如下：**  
　　计算每个类别中的文档数目  
　　对每篇训练文档：  
　　　　对每个类别：  
　　　　　　如果词条出现在文档中→增加该词条的计数值  
　　　　　　增加所有词条的计数值  
　　　　对每个类别：  
　　　　　　对每个词条：  
　　　　　　　　将该词条的数目除以总词条数目得到条件概率  
　　　　返回每个类别的条件概率

In [4]:
# 朴素贝叶斯分类器训练函数
import numpy as np


def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCategory)/float(numTrainDocs)  # 属于类1的概率，即p(1)
    p0Num = np.ones(numWords)
    p1Num = np.ones(numWords)  # change to ones()
    p0Denom = 2.0
    p1Denom = 2.0  # change to 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]  # 俩个ndarry相加
            p1Denom += 1
        else:
            p0Num += trainMatrix[i]
            p0Denom += 1
    p1Vect = np.log(p1Num/p1Denom)  # 每一个是log(p(wi|c1)),p1Vect加起来就是p(w|c1)
    p0Vect = np.log(p0Num/p0Denom)  # 每一个是log(p(wi|c0)),p1Vect加起来就是p(w|c0)
    return p0Vect, p1Vect, pAbusive

输入参数为文档矩阵trainMatrix，以及由每篇文档类别标签所构成的向量trainCategory。首先，计算文档属于侮辱性文档(class=1)的概率，即P(1)。因为这是一个二类分类问题，所以可以通过1-P(1)得到P(0)。对于多于两类的分类问题，则需要对代码稍加修改。  
计算p(wi|$c_{1}$)和p(wi|$c_{0}$)，需要初始化程序中的分子变量和分母变量。由于***w***中元素如此众多，因此可以使用NumPy数组快速计算这些值。一旦某个词语(侮辱性或正常词语)在某一文档中出现，则该词对应的个数(p1Num或者p0Num)就加1，而且在所有的文档中，该文档的总词数也相应加1。对于两个类别都要进行同样的计算处理。  
最后，对每个元素除以该类别中的总词数。利用NumPy可以很好实现，用一个数组除以浮点数即可，若使用常规的Python列表则难以完成这种任务，读者可以自己尝试一下。最后，函数会返回两个向量和一个概率。

In [5]:
listOPosts, listClasses = loadDataSet()
listOPosts
myVocablist = createVocabList(listOPosts)
trainMat = [setOfWords2Vec(myVocablist, postinDoc)
            for postinDoc in listOPosts]  # 列表推导式
myVocablist
trainMat
p0V, p1V, pAb = trainNB0(trainMat, listClasses)
p0V, p1V, pAb

[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]

['I',
 'love',
 'flea',
 'posting',
 'my',
 'stupid',
 'problems',
 'please',
 'cute',
 'dalmation',
 'how',
 'licks',
 'maybe',
 'garbage',
 'dog',
 'is',
 'quit',
 'has',
 'mr',
 'food',
 'to',
 'so',
 'buying',
 'stop',
 'him',
 'help',
 'steak',
 'worthless',
 'ate',
 'not',
 'park',
 'take']

[[0,
  0,
  1,
  0,
  1,
  0,
  1,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0],
 [0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  1,
  1,
  1],
 [1,
  1,
  0,
  0,
  1,
  0,
  0,
  0,
  1,
  1,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0],
 [0,
  0,
  0,
  1,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0],
 [0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  1,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  1,
  0,
  0,
  1,
  1,
  0,
  1,
  0,
  1,
  0,
  0,
  0],
 [0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  1,
  0,
  0,
  1,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0]]

(array([-0.91629073, -0.91629073, -0.91629073, -1.60943791, -0.22314355,
        -1.60943791, -0.91629073, -0.91629073, -0.91629073, -0.91629073,
        -0.91629073, -0.91629073, -1.60943791, -1.60943791, -0.91629073,
        -0.91629073, -1.60943791, -0.91629073, -0.91629073, -1.60943791,
        -0.91629073, -0.91629073, -1.60943791, -0.91629073, -0.51082562,
        -0.91629073, -0.91629073, -1.60943791, -0.91629073, -1.60943791,
        -1.60943791, -1.60943791]),
 array([-1.60943791, -1.60943791, -1.60943791, -0.91629073, -1.60943791,
        -0.22314355, -1.60943791, -1.60943791, -1.60943791, -1.60943791,
        -1.60943791, -1.60943791, -0.91629073, -0.91629073, -0.51082562,
        -1.60943791, -0.91629073, -1.60943791, -1.60943791, -0.91629073,
        -0.91629073, -1.60943791, -0.91629073, -0.91629073, -0.91629073,
        -1.60943791, -1.60943791, -0.51082562, -1.60943791, -0.91629073,
        -0.91629073, -0.91629073]),
 0.5)

### 测试算法:根据现实情况修改分类器

利用贝叶斯分类器对文档进行分类时，要**计算多个概率的乘积以获得文档属于某个类别的概率**，即计算p(w0|1)p(w1|1)p(w2|1)。如果其中一个概率值为0，那么最后的乘积也为0。为降低这种影响，可以将所有词的出现数初始化为1，并将分母初始化为2。具体改动见西瓜书。  
另一个遇到的问题是下溢出，这是由于太多很小的数相乘造成的。当计算乘积p(w0|$c_{i}$)p(w1|$c_{i}$)p(w2|$c_{i}$)...p(wN|$c_{i}$)时，由于大部分因子都非常小，所以程序会下溢出或者得到不正确的答案(读者可以用Python尝试相乘许多很小的数，最后四舍五入后会得到0)。**一种解决办法是对乘积取自然对数**。同时，采用自然对数进行处理不会有任何损失，但不影响最终结果。

In [6]:
# 朴素贝叶斯分类函数
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)  # element-wise mult
    p0 = sum(vec2Classify * p0Vec) + np.log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else:
        return 0


def testingNB():
    listOPosts, listClasses = loadDataSet()
    myVocabList = createVocabList(listOPosts)
    trainMat = []
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    p0V, p1V, pAb = trainNB0(np.array(trainMat), np.array(listClasses))
    testEntry = ['love', 'my', 'dalmation']
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb))
    testEntry = ['stupid', 'garbage']
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb))

classifyNB函数4个输入：要分类的向量vec2Classify以及使用函数trainNB0()计算得到的三个概率。  
代码的第二个函数是一个便利函数(convenience function)，该函数封装所有操作，以节省时间。

In [7]:
testingNB()

['love', 'my', 'dalmation'] classified as:  0
['stupid', 'garbage'] classified as:  1


### 准备数据：文档词袋模型

目前为止，我们将每个词的出现与否作为一个特征，这可以被描述为**词集模型(set-of-words model)**。**如果一个词在文档中出现不止一次，这可能意味着包含该词是否出现在文档中所不能表达的某种信息**，这种方法被称为**词袋模型(bag-of-words model)**。在词袋中，每个单词可以出现多次，而在词集中，每个词只能出现一次。修改后的函数称为bagOfWords2Vec(),唯一不同的是每当遇到一个单词时，它会增加词向量中的对应值，而不只是将对应的数值设为1。

In [8]:
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec

## 示例：使用朴素贝叶斯过滤垃圾邮件

之前引入了字符串列表。使用朴素贝叶斯解决一些现实生活中的问题时，需要先从文本内容得到字符串列表，然后生成词向量。朴素贝叶斯的一个最著名的应用：**电子邮件垃圾过滤**。首先看一下如何使用通用框架来解决该问题。

|示例:使用朴素贝叶斯对电子邮件进行分类||
|:-|:-|
|收集数据|提供文本文件|
|准备数据|将文本文件解析成词条向量|
|分析数据|检查词条确保解析的正确性|
|训练算法|使用我们之前建立的trainNB0()函数|
|测试算法|使用classifyNB()，并且构建一个新的测试函数来计算文档集的错误率|
|使用算法|构建一个完整的程序对一组文档进行分类，将错分的文档输出到屏幕上|

### 准备数据:切分文本

对于一个文本字符串，可以使用Python的string.split()方法将其切分。

In [9]:
mySent = 'This book is the best book on Python or M.L. I have ever laid eyes upon.'
mySent.split()

['This',
 'book',
 'is',
 'the',
 'best',
 'book',
 'on',
 'Python',
 'or',
 'M.L.',
 'I',
 'have',
 'ever',
 'laid',
 'eyes',
 'upon.']

可以看到，切分的结果不错，但是标点符号也被当成了词的一部分。可以使用正则表示式来切分句子，其中分隔符是除单词、数字外的任意字符串。

In [10]:
import re
listOfTokens = re.split(r'\W*', mySent)
listOfTokens

  return _compile(pattern, flags).split(string, maxsplit)


['This',
 'book',
 'is',
 'the',
 'best',
 'book',
 'on',
 'Python',
 'or',
 'M',
 'L',
 'I',
 'have',
 'ever',
 'laid',
 'eyes',
 'upon',
 '']

得到了一系列词组成的词表，但是里面的空字符串需要去掉。可以计算每个字符串的长度，只返回长度大于0的字符串。  
最后，我们希望所有词的形式都是统一的，不论它们出现在句子中间、结尾还是开头。Python中有一些内嵌的方法可以将字符串全部转换成小写(.lower())或者大写.upper())，借助这些方法可以达到目的。

In [11]:
[tok.lower() for tok in listOfTokens if len(tok) > 0]

['this',
 'book',
 'is',
 'the',
 'best',
 'book',
 'on',
 'python',
 'or',
 'm',
 'l',
 'i',
 'have',
 'ever',
 'laid',
 'eyes',
 'upon']

现在来看数据集中一封完整的电子邮件的实际处理结果。该数据集放在email文件夹中，该文件夹又包含两个子文件夹，分别是spam与ham。

In [12]:
emailText = open('email/ham/6.txt').read()
listOfTokens = re.split(r'\W*', emailText)

  return _compile(pattern, flags).split(string, maxsplit)


需要注意的是，由于是URL：answer.py？hl=en&answer=174623的一部分，因而会出现en和py这样的单词。当对URL进行切分时，会得到很多的词。**我们是想去掉这些单词，因此在实现时会过滤掉长度小于3的字符串**。本例使用一个通用的文本解析规则来实现这一点。在实际的解析程序中，要用更高级的过滤器来对诸如HTML和URI的对象进行处理。目前，一个URI最终会解析成词汇表中的单词，比如www\.whitehouse\.gov会被解析为三个单词。文本解析可能是一个相当复杂的过程。接下来将构建一个极其简单的函数，你可以根据情况自行修改。

In [13]:
[tok.lower() for tok in listOfTokens if len(tok) > 2]

['hello',
 'since',
 'you',
 'are',
 'owner',
 'least',
 'one',
 'google',
 'groups',
 'group',
 'that',
 'uses',
 'the',
 'customized',
 'welcome',
 'message',
 'pages',
 'files',
 'are',
 'writing',
 'inform',
 'you',
 'that',
 'will',
 'longer',
 'supporting',
 'these',
 'features',
 'starting',
 'february',
 '2011',
 'made',
 'this',
 'decision',
 'that',
 'can',
 'focus',
 'improving',
 'the',
 'core',
 'functionalities',
 'google',
 'groups',
 'mailing',
 'lists',
 'and',
 'forum',
 'discussions',
 'instead',
 'these',
 'features',
 'encourage',
 'you',
 'use',
 'products',
 'that',
 'are',
 'designed',
 'specifically',
 'for',
 'file',
 'storage',
 'and',
 'page',
 'creation',
 'such',
 'google',
 'docs',
 'and',
 'google',
 'sites',
 'for',
 'example',
 'you',
 'can',
 'easily',
 'create',
 'your',
 'pages',
 'google',
 'sites',
 'and',
 'share',
 'the',
 'site',
 'http',
 'www',
 'google',
 'com',
 'support',
 'sites',
 'bin',
 'answer',
 'answer',
 '174623',
 'with',
 'the',


### 测试算法：使用朴素贝叶斯进行交叉验证

In [32]:
# 文件解析及完整的垃圾邮件测试函数
def textParse(bigString):  # input is big string, #output is word list
    import re
    listOfTokens = re.split(r'\W*', bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]


def spamTest():
    docList = []
    classList = []
    fullText = []
    for i in range(1, 26):
        wordList = textParse(open('email/spam/%d.txt' % i).read())
        docList.append(wordList)
        classList.append(1)
        wordList = textParse(open('email/ham/%d.txt' %
                                  i).read())  # 之前某个文件中字符不能被解码出错
        docList.append(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)  # create vocabulary
    trainingSet = list(range(50))
    testSet = []  # create test set
    for i in range(10):
        randIndex = int(np.random.uniform(0, len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])
    trainMat = []
    trainClasses = []
    for docIndex in trainingSet:  # train the classifier (get probs) trainNB0
        trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))
    errorCount = 0
    for docIndex in testSet:  # classify the remaining items
        wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
        if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            errorCount += 1
            print('classification error', docList[docIndex])
    print('the error rate is: ', float(errorCount)/len(testSet))
    # return vocabList,fullText

textParse()接受一个大字符串并将其解析为字符串列表。该函数去掉少于两个字符的字符串，并将所有字符串转换为小写。  
spamTest()对贝叶斯垃圾邮件分类器进行自动化处理。导入spam与ham下的文本文件，并解析为词列表。接下来构建一个测试集与一个训练集，随机选出。共有50封电子邮件，其中10封电子邮件为测试集。**留存交叉验证**（hold-out cross validation）。可以多次迭代后求出平均错误率。接下来遍历训练集的所有文档，对每封邮件基于词汇表并使用setOfWords2Vec()函数来构建词向量。这些词在traindNB0()函数中用于计算分类所需的概率。然后遍历测试集，邮件分类错误，则错误数加1，最后给出总的错误百分比。

In [53]:
spamTest()
spamTest()

the error rate is:  0.0
classification error ['oem', 'adobe', 'microsoft', 'softwares', 'fast', 'order', 'and', 'download', 'microsoft', 'office', 'professional', 'plus', '2007', '2010', '129', 'microsoft', 'windows', 'ultimate', '119', 'adobe', 'photoshop', 'cs5', 'extended', 'adobe', 'acrobat', 'pro', 'extended', 'windows', 'professional', 'thousand', 'more', 'titles']
the error rate is:  0.1


  return _compile(pattern, flags).split(string, maxsplit)


## 示例：使用朴素贝叶斯分类器从个人广告中获取区域倾向

之前介绍朴素贝叶斯的两个实际应用的例子，第一个例子是过滤网站的恶意留言，第二个是过滤垃圾邮件。

|示例:使用朴素贝叶斯来发现地域相关的用词||
|:-|:-|
|收集数据|从RSS源收集内容，这里需要对RSS源构建一个接口|
|准备数据|将文本文件解析成词条向量|
|分析数据|检查词条确保解析的正确性|
|训练算法|使用我们之前建立的trainNB0()函数|
|测试算法|观察错误率，确保分类器可用。可以修改切分程序，以降低错误率，提高分类结果|
|使用算法|构建一个完整的程序，封装所有内容。给定两个RSS源，该程序会显示最常用的公共词|

**目的**并不是使用该分类器进行分类，而是通过**观察单词和条件概率值来发现与特定城市相关的内容**。

### 收集数据:导入RSS源

使用Python下载文本。利用RSS，这些文本很容易得到。需要的是一个RSS阅读器。Universal Feed Parser是Python中最常用的RSS程序库。

In [15]:
import feedparser
ny = feedparser.parse('http://www.nasa.gov/rss/dyn/image_of_the_day.rss')
ny['entries']
len(ny['entries'])

[{'title': 'Chaotic Clouds of Jupiter',
  'title_detail': {'type': 'text/plain',
   'language': 'en',
   'base': 'http://www.nasa.gov/',
   'value': 'Chaotic Clouds of Jupiter'},
  'links': [{'rel': 'alternate',
    'type': 'text/html',
    'href': 'http://www.nasa.gov/image-feature/jpl/chaotic-clouds-of-jupiter'},
   {'length': '1356099',
    'type': 'image/jpeg',
    'href': 'http://www.nasa.gov/sites/default/files/thumbnails/image/pia22424.jpg',
    'rel': 'enclosure'}],
  'link': 'http://www.nasa.gov/image-feature/jpl/chaotic-clouds-of-jupiter',
  'summary': 'This image captures swirling cloud belts and tumultuous vortices within Jupiter’s northern hemisphere.',
  'summary_detail': {'type': 'text/html',
   'language': 'en',
   'base': 'http://www.nasa.gov/',
   'value': 'This image captures swirling cloud belts and tumultuous vortices within Jupiter’s northern hemisphere.'},
  'id': 'http://www.nasa.gov/image-feature/jpl/chaotic-clouds-of-jupiter',
  'guidislink': False,
  'publish

60

In [91]:
# RSS源分类器及高频词去除函数
def calcMostFreq(vocabList, fullText):
    import operator
    freqDict = {}
    for token in vocabList:
        freqDict[token] = fullText.count(token)
    sortedFreq = sorted(freqDict.items(),
                        key=operator.itemgetter(1), reverse=True)
    return sortedFreq[:10]  # 返回一个list,[(),()]


def localWords(feed1, feed0):
    import feedparser
    docList = []
    classList = []
    fullText = []
    minLen = min(len(feed1['entries']), len(feed0['entries']))
    for i in range(minLen):
        wordList = textParse(feed1['entries'][i]['summary'])
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)  # NASA is class 1
        wordList = textParse(feed0['entries'][i]['summary'])
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)  # Yah00 is class 0
    vocabList = createVocabList(docList)  # create vocabulary
    top10Words = calcMostFreq(vocabList, fullText)  # remove top 30 words
    for pairW in top10Words:  # pairW是一个tuple
        if pairW[0] in vocabList:
            vocabList.remove(pairW[0])
    trainingSet = list(range(2*minLen))
    testSet = []  # create test set
    for i in range(10):
        randIndex = int(np.random.uniform(0, len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])
    trainMat = []
    trainClasses = []
    for docIndex in trainingSet:  # train the classifier (get probs) trainNB0
        trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))
    errorCount = 0
    for docIndex in testSet:  # classify the remaining items
        wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
        if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            errorCount += 1
    print('the error rate is: ', float(errorCount)/len(testSet))
    return vocabList, p0V, p1V

辅助函数calcMostFreq()。该函数遍历词汇表中的每个词并统计它在文本中出现的次数，然后根据出现次数从高到低对词典进行排序，最后返回排序最高的30个单词。  
localWords()使用两个RSS源作为参数。RSS源要在函数外导入，原因是**RSS源会随时间而改变**。如果想通过改变代码来比较程序执行的差异，就应该使用相同的输入。重新加载RSS源就会得到新的数据，但很难确定是代码原因还是输入原因导致输出结果的改变。函数localWords()与spamTest()函数几乎相同，calcMostFreq()来获得排序最高的30个单词并随后将它们移除。  
注释掉移除高频词的三行代码，然后比较注释前后的分类性能。去除错误率为54%，而保留这些代码得到的错误率为70%。这里观察到的一个有趣现象是，这些留言中出现次数最多的前30个词涵盖了所有用词的30%。我在进行测试的时候，vocabList的大小约为3000个词。也就是说，词汇表中的一小部分单词却占据了所有文本用词的一大部分。产生这种现象的**原因是因为语言中大部分都是冗余和结构辅助性内容**。另一个常用的方法是不仅移除高频词，同时从某个预定词表中移除结构上的辅助词。该词表称为(stop word list)，目前可以找到许多停用词表。

In [89]:
NASA=feedparser.parse('http://www.nasa.gov/rss/dyn/image_of_the_day.rss')
Yahoo=feedparser.parse('http://sports.yahoo.com/nba/teams/hou/rss.xml')

In [92]:
vocabList,pSF,pNY=localWords(NASA,Yahoo)

  return _compile(pattern, flags).split(string, maxsplit)


IndexError: list index out of range

In [94]:
minLen = min(len(NASA['entries']), len(Yahoo['entries']))
minLen

3

由于源中数据量不足，导致这方法失效，没有寻找其他源来进行这个试验。

为了得到错误率的精确估计，应该多次进行上述实验，然后取平均值。这里的错误率要远高于垃圾邮件中的错误率。由于这里**关注的是单词概率而不是实际分类**，因此这个问题倒不严重。可以通过函数caclMostFreq()改变要移除的单词数目，然后观察错误率的变化情况。

### 分析数据：显示地域相关的用词

In [None]:
# 最具表征性的词汇显示函数
def getTopWords(ny, sf):
    import operator
    vocabList, p0V, p1V = localWords(ny, sf)
    topNY = []
    topSF = []
    for i in range(len(p0V)):
        if p0V[i] > -6.0:
            topSF.append((vocabList[i], p0V[i]))
        if p1V[i] > -6.0:
            topNY.append((vocabList[i], p1V[i]))
    sortedSF = sorted(topSF, key=lambda pair: pair[1], reverse=True)
    print('SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**SF**')
    for item in sortedSF:
        print(item[0])
    sortedNY = sorted(topNY, key=lambda pair: pair[1], reverse=True)
    print('NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**')
    for item in sortedNY:
        print(item[0])

函数getTopWords()使用两个RSS源作为输入，然后训练并测试朴素贝叶斯分类器，返回使用的概率值。然后创建两个列表用于元组的存储。与之前返回排名最高的X个单词不同，**这里可以返回大于某个阈值的所有词**。这些元组会按照它们的条件概率进行排序。

In [None]:
getTopWords(NASA,Yahoo)

值得注意的现象是，程序输出了大量的停用词。**移除固定的停用词看看结果会如何变化也十分有趣**。依经验来看，分类错误率也会降低。

## 本章小结

对于分类而言，使用概率有时要比使用硬规则更为有效。**贝叶斯概率及贝叶斯准则提供了一种利用已知值来估计未知概率的有效方法**。  
可以通过特征之间的条件独立性假设，降低对数据量的需求。**独立性假设**是指一个词的出现概率并不依赖于文档中的其他词。当然我们也知道这个假设过于简单。这就是之所以称为朴素贝叶斯的原因。尽管条件独立性假设并不正确，但是朴素贝叶斯仍然是一种有效的分类器。  
利用现代编程语言来实现朴素贝叶斯时需要考虑很多实际因素。**下溢出**就是其中一个问题，它可以通过对概率取对数来解决。词袋模型在解决文档分类问题上比词集模型有所提高。还有其他一些方面的改进，比如说**移除停用词**，当然也可以花大量时间对切分器进行优化。