## 基于概率论的分类方法：朴素贝叶斯

   ### 优点：在数据较少的情况下仍然有效，可以处理多类别问题。

   ### 缺点：对于输入数据的准备方式较为敏感。

   ### 适用数据类型：标称型数据。

   ### 条件概率：p(c|x)*p(x)=p(x|c)*p(c)

贝叶斯决策理论的核心思想：选择具有最高概率的决策。

## 4.1 使用python进行文本分类

要从文本中获取特征，需要先拆分文本。把每一个文本片段表示为一个词条向量，其中值为1表示词条出现在文档中，0表示词条未出现

### 4.1.1 准备数据：从文本中构建词向量。

创建bayes.py文件，添加代码 4-1

In [1]:
import bayes

In [3]:
listOPosts,listClasses = bayes.loadDataSet()

In [4]:
myVocabList = bayes.createVocabList(listOPosts)

In [5]:
myVocabList

['cute',
 'love',
 'help',
 'garbage',
 'quit',
 'I',
 'problems',
 'is',
 'park',
 'stop',
 'flea',
 'dalmation',
 'licks',
 'food',
 'not',
 'him',
 'buying',
 'posting',
 'has',
 'worthless',
 'ate',
 'to',
 'maybe',
 'please',
 'dog',
 'how',
 'stupid',
 'so',
 'take',
 'sotp',
 'mr',
 'steak',
 'my',
 'dot']

In [6]:
bayes.setOfWords2Vec(myVocabList,listOPosts[0])

[0,
 0,
 1,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 1,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0]

In [7]:
bayes.setOfWords2Vec(myVocabList,listOPosts[3])

[0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 1,
 0,
 0,
 0,
 0]

### 4.1.2  训练算法：从词向量计算概率

伪代码：

计算每个类别中的文档数目

对每篇训练文档：

    对每个类别：
        如果词条出现在文档中：增加该词条的计数值
        增加所有词条的计数值
对每个类别：

    对每个词条：
        将该词条的数目除以总词条数目得到条件概率
        
返回每个类别的条件概率

在bayes.py中添加代码：4-2

In [9]:
import bayes
reload(bayes)

<module 'bayes' from 'bayes.py'>

In [4]:
#生成数据集和标签列表
listOPosts,listClass = bayes.loadDataSet()

In [5]:
#从文本中构建词向量列表
myVocabList = bayes.createVocabList(listOPosts)

In [7]:
#新建一个空集合，用来存放文本所转换的文档向量。[1,0,0,1...]
trainMat = []
for postinDoc in listOPosts:
    trainMat.append(bayes.setOfWords2Vec(myVocabList,postinDoc))

In [10]:
p0V,p1V,pAb = bayes._trainNB0(trainMat,listClass)

任意文档属于侮辱性文档的概率

In [11]:
pAb

0.5

正常文档中每个单词出现的概率

In [12]:
p0V

array([ 0.04166667,  0.04166667,  0.04166667,  0.        ,  0.        ,
        0.04166667,  0.04166667,  0.04166667,  0.        ,  0.04166667,
        0.04166667,  0.04166667,  0.04166667,  0.        ,  0.        ,
        0.08333333,  0.        ,  0.        ,  0.04166667,  0.        ,
        0.04166667,  0.04166667,  0.        ,  0.04166667,  0.04166667,
        0.04166667,  0.        ,  0.04166667,  0.        ,  0.        ,
        0.04166667,  0.04166667,  0.125     ,  0.        ])

侮辱性文档中每个单词出现的概率

In [13]:
p1V

array([ 0.        ,  0.        ,  0.        ,  0.05263158,  0.05263158,
        0.        ,  0.        ,  0.        ,  0.05263158,  0.        ,
        0.        ,  0.        ,  0.        ,  0.05263158,  0.05263158,
        0.05263158,  0.05263158,  0.05263158,  0.        ,  0.10526316,
        0.        ,  0.05263158,  0.05263158,  0.        ,  0.05263158,
        0.        ,  0.15789474,  0.        ,  0.05263158,  0.05263158,
        0.        ,  0.        ,  0.        ,  0.05263158])



### 4.1.3 测试算法：根据现实情况修改分类器

1.利用贝叶斯分类器对文档进行分类时，要计算多个概率的乘积以获得文档属于某个类别的概率，既计算p(w0|1)*p(w1|1)...
如果其中一个概率值为0，那么最后的乘积也为0，为降低这种影响，可以将所有词的出现数初始化为1，并将分母初始化为2.

2.另一个问题是下溢出，这是由于太多很小的数相乘造成。python会四舍五入。所以在最后返回时用ln(f(x))代替f(x)

训练数据优化版本：代码4-3

3.现在已经准备好构建完整的分类器来。代码4-4

In [2]:
import bayes

In [6]:
reload(bayes)
bayes.testingNB()

(['love', 'my', 'dalmation'], 'classified as:', 0)
(['stupid', 'garbage'], 'classified as:', 1)



### 4.1.4 准备数据： 文档词袋模型

到目前为止，我们将每个词的出现与否作为一个特征，这被称为“词集模型”。如果一个词在文档中出现不止一次，这可能意味着包含该词是否出现在文档中所不能表达的某种信息，这种方法被称为“词袋模型”.在词袋中，每个单词可以出现多次，而在词集中，每个词只能出现一次。为适应词袋模型，需要对函数setOfWords2Vec()修改。修改后的函数为bagOfWords2Vec().

朴素贝叶斯词袋模型：添加代码4-5

## 4.2 示例：使用朴素贝叶斯过滤垃圾邮件

1.收集数据：提供文本文件。

2.准备数据：将文本文件解析成词条向量。

3.分析数据：检查词条确保解析的正确性。

4.训练算法：使用我们之前建立的trainNB0()函数。

5.测试算法：使用classifyNB().并且构建一个新的测试函数来计算文档集的错误率。

6.使用算法：构建一个完整的程序对一组文档进行分类，将错分的文档输出到屏幕上。

### 4.2.1 准备数据：切分文本

对于一个文本字符串，可以使用python的string.split()方法将其划分。

In [7]:
mySent='This book is the best book on Python or ML I have ever laid eyes upon.'
mySent.split()

['This',
 'book',
 'is',
 'the',
 'best',
 'book',
 'on',
 'Python',
 'or',
 'ML',
 'I',
 'have',
 'ever',
 'laid',
 'eyes',
 'upon.']

可以看见，虽然切分的不错，但是标点符号也被当成词的一部分。可以使用正则表达式来切分句子。

其中分隔符是除单词，数字外的任意字符串。

In [10]:
import re
regEx = re.compile('\\W*')
listOfTokens = regEx.split(mySent)
listOfTokens

['This',
 'book',
 'is',
 'the',
 'best',
 'book',
 'on',
 'Python',
 'or',
 'ML',
 'I',
 'have',
 'ever',
 'laid',
 'eyes',
 'upon',
 '']

现在得到了一系列词组成的词表，但是空字符串也在里面。可以通过判断每个字符串的长度筛选。

In [12]:
[tok for tok in listOfTokens if len(tok)>0]

['This',
 'book',
 'is',
 'the',
 'best',
 'book',
 'on',
 'Python',
 'or',
 'ML',
 'I',
 'have',
 'ever',
 'laid',
 'eyes',
 'upon']

到这我们发现句子中的第一个单词是大写的。如果目的是句子查找，那么这个特点会很有用。但这里的文本只是看成词袋，所以我们需要所有词的形式都是统一的。

python中有一些内嵌的方法，可以将字符串全部转换成小写（.lower()）或者大写（.upper()）

In [13]:
[tok.lower() for tok in listOfTokens if len(tok)>0]

['this',
 'book',
 'is',
 'the',
 'best',
 'book',
 'on',
 'python',
 'or',
 'ml',
 'i',
 'have',
 'ever',
 'laid',
 'eyes',
 'upon']

### 4.2.2 测试算法：使用朴素贝叶斯进行交叉验证

下面将文本解析器集成到一个完整分类器中。

在bayes.py中添加代码4-6

测试代码运行，每次结果有差异。

In [19]:
reload(bayes)
bayes.spamTest()

('the error rate is :', 0.0)


In [40]:
bayes.spamTest()

('the error rate is :', 0.2)


In [43]:
bayes.spamTest()

('the error rate is :', 0.1)



##  4.3 示例：使用朴素贝叶斯分类器从个人广告中获取区域倾向

1.收集数据：从RSS源收集内容，这里需要对RSS源构建一个接口。

2.准备数据：将文本文将解析成词条向量。

3.分析数据：检查词条确保解析的正确性。

4.训练算法：使用我们之前建立的trainNB0()函数。

5.测试算法：观察错误率，确保分类器可用，可用修改切分程序，以降低错误率，提高分类结果。

6.使用算法： 构建一个完整的程序，封装所有内容。给定两个RSS源,该程序会显示最常用的公共词。


### 4.3.1 收集数据：导入RSS源

 首先需要使用python下载文本。利用RSS，在官方下载feedparse安装包，然后正常安装解压。
 
 python setup.py install
 
 下面使用Craigslist上的个人广告测试。

In [5]:
import feedparser
ny = feedparser.parse('http://newyork.craigslist.org/stp/index.rss')

In [4]:
len(ny['entries'])

25

现在在bayes.py中添加代码4-7

In [3]:
import bayes
reload(bayes)

<module 'bayes' from 'bayes.pyc'>

In [6]:
ny = feedparser.parse('http://newyork.craigslist.org/stp/index.rss')
sf = feedparser.parse('http://sfbay.craigslist.org/stp/index.rss')

In [11]:
reload(bayes)
vocabList,pSF,pNY = bayes.localWords(ny,sf)

('teh error rate is :', 0.55)


In [12]:
vocabList,pSF,pNY = bayes.localWords(ny,sf)

('teh error rate is :', 0.4)


In [13]:
vocabList,pSF,pNY = bayes.localWords(ny,sf)

('teh error rate is :', 0.35)
