#### 项目案例3: 使用朴素贝叶斯分类器从个人广告中获取区域倾向 
##### 项目概述

广告商往往想知道关于一个人的一些特定人口统计信息，以便能更好地定向推销广告。

我们将分别从美国的两个城市中选取一些人，通过分析这些人发布的信息，来比较这两个城市的人们在广告用词上是否不同。
如果结论确实不同，那么他们各自常用的词是那些，从人们的用词当中，我们能否对不同城市的人所关心的内容有所了解。

##### 开发流程

```
收集数据: 从 RSS 源收集内容，这里需要对 RSS 源构建一个接口
准备数据: 将文本文件解析成词条向量
分析数据: 检查词条确保解析的正确性
训练算法: 使用我们之前建立的 trainNB0() 函数
测试算法: 观察错误率，确保分类器可用。可以修改切分程序，以降低错误率，提高分类结果
使用算法: 构建一个完整的程序，封装所有内容。给定两个 RSS 源，该程序会显示最常用的公共词
```

##### 收集数据: 从 RSS 源收集内容，这里需要对 RSS 源构建一个接口
```shell
sudo pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple/ feedparser
```

In [2]:
# 准备数据: 将文本文件解析成词条向量
# 创建一个包含在所有文档中出现的不重复词的列表
def createVocabList(dataSet):
    vocabSet=set([])    #创建一个空集
    for document in dataSet:
        vocabSet=vocabSet|set(document)   #创建两个集合的并集
    return list(vocabSet)
def setOfWords2VecMN(vocabList,inputSet):
    returnVec=[0]*len(vocabList)  #创建一个其中所含元素都为0的向量
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)]+=1
    return returnVec

#文件解析
def textParse(bigString):
    import re
    listOfTokens=re.split(r'\W*',bigString)
    return [tok.lower() for tok in listOfTokens if len(tok)>2]

In [3]:
# 训练算法: 使用我们之前建立的 trainNB0() 函数
def trainNB0(trainMatrix, trainCategory):
    """
    训练数据优化版本
    :param trainMatrix: 文件单词矩阵
    :param trainCategory: 文件对应的类别
    :return:
    """
    # 总文件数
    numTrainDocs = len(trainMatrix)
    # 总单词数
    numWords = len(trainMatrix[0])
    # 侮辱性文件的出现概率
    pAbusive = sum(trainCategory) / float(numTrainDocs)
    # 构造单词出现次数列表
    # p0Num 正常的统计
    # p1Num 侮辱的统计 
    # 避免单词列表中的任何一个单词为0，而导致最后的乘积为0，所以将每个单词的出现次数初始化为 1
    p0Num = ones(numWords)#[0,0......]->[1,1,1,1,1.....]
    p1Num = ones(numWords)

    # 整个数据集单词出现总数，2.0根据样本/实际调查结果调整分母的值（2主要是避免分母为0，当然值可以调整）
    # p0Denom 正常的统计
    # p1Denom 侮辱的统计
    p0Denom = 2.0
    p1Denom = 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            # 累加辱骂词的频次
            p1Num += trainMatrix[i]
            # 对每篇文章的辱骂的频次 进行统计汇总
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    # 类别1，即侮辱性文档的[log(P(F1|C1)),log(P(F2|C1)),
    # log(P(F3|C1)),log(P(F4|C1)),log(P(F5|C1))....]列表
    p1Vect = log(p1Num / p1Denom)
    # 类别0，即正常文档的[log(P(F1|C0)),log(P(F2|C0)),
    # log(P(F3|C0)),log(P(F4|C0)),log(P(F5|C0))....]列表
    p0Vect = log(p0Num / p0Denom)
    return p0Vect, p1Vect, pAbusive

In [18]:
# 测试算法: 观察错误率，确保分类器可用。可以修改切分程序，以降低错误率，提高分类结果
from numpy import random
import ipdb
#RSS源分类器及高频词去除函数
def calcMostFreq(vocabList,fullText):
    import operator
    freqDict={}
    for token in vocabList:  #遍历词汇表中的每个词
        freqDict[token]=fullText.count(token)  #统计每个词在文本中出现的次数

    #根据每个词出现的次数从高到底对字典进行排序
    sortedFreq=sorted(freqDict.items(),key=operator.itemgetter(1),reverse=True)  
    return sortedFreq[:30]   #返回出现次数最高的30个单词
def localWords(feed1,feed0):
    import feedparser
    docList=[];classList=[];fullText=[]
    minLen=min(len(feed1['entries']),len(feed0['entries']))
    ipdb.set_trace()
    for i in range(minLen):
        wordList=textParse(feed1['entries'][i]['summary'])   #每次访问一条RSS源
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList=textParse(feed0['entries'][i]['summary'])
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList=createVocabList(docList)
    top30Words=calcMostFreq(vocabList,fullText)
    for pairW in top30Words:
        if pairW[0] in vocabList:vocabList.remove(pairW[0])    #去掉出现次数最高的那些词
    trainingSet=range(2*minLen);testSet=[]
    for i in range(20):
        randIndex=int(random.uniform(0,len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(trainingSet[randIndex])
    trainMat=[];trainClasses=[]
    for docIndex in trainingSet:
        trainMat.append(bagOfWords2VecMN(vocabList,docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V,p1V,pSpam=trainNBO(array(trainMat),array(trainClasses))
    errorCount=0
    for docIndex in testSet:
        wordVector=bagOfWords2VecMN(vocabList,docList[docIndex])
        if classifyNB(array(wordVector),p0V,p1V,pSpam)!=classList[docIndex]:
            errorCount+=1
    print('the error rate is:',float(errorCount)/len(testSet))
    return vocabList,p0V,p1V


In [6]:
#朴素贝叶斯分类函数
def classifyNB(vec2Classify,p0Vec,p1Vec,pClass1):
    p1=sum(vec2Classify*p1Vec)+log(pClass1)
    p0=sum(vec2Classify*p0Vec)+log(1.0-pClass1)
    if p1>p0:
        return 1
    else:
        return 0

In [9]:
# 使用算法: 构建一个完整的程序，封装所有内容。给定两个 RSS 源，该程序会显示最常用的公共词
import feedparser
ny=feedparser.parse('http://newyork.craigslist.org/stp/index.rss')
sy=feedparser.parse('http://sfbay.craigslist.org/stp/index.rss')

In [22]:
vocabList,pSF,pNY = localWords(ny,sy)

> [0;32m<ipython-input-18-ea23e9b13763>[0m(19)[0;36mlocalWords[0;34m()[0m
[0;32m     18 [0;31m    [0mipdb[0m[0;34m.[0m[0mset_trace[0m[0;34m([0m[0;34m)[0m[0;34m[0m[0m
[0m[0;32m---> 19 [0;31m    [0;32mfor[0m [0mi[0m [0;32min[0m [0mrange[0m[0;34m([0m[0mminLen[0m[0;34m)[0m[0;34m:[0m[0;34m[0m[0m
[0m[0;32m     20 [0;31m        [0mwordList[0m[0;34m=[0m[0mtextParse[0m[0;34m([0m[0mfeed1[0m[0;34m[[0m[0;34m'entries'[0m[0;34m][0m[0;34m[[0m[0mi[0m[0;34m][0m[0;34m[[0m[0;34m'summary'[0m[0;34m][0m[0;34m)[0m   [0;31m#每次访问一条RSS源[0m[0;34m[0m[0m
[0m
ipdb> n
> [0;32m<ipython-input-18-ea23e9b13763>[0m(28)[0;36mlocalWords[0;34m()[0m
[0;32m     27 [0;31m        [0mclassList[0m[0;34m.[0m[0mappend[0m[0;34m([0m[0;36m0[0m[0;34m)[0m[0;34m[0m[0m
[0m[0;32m---> 28 [0;31m    [0mvocabList[0m[0;34m=[0m[0mcreateVocabList[0m[0;34m([0m[0mdocList[0m[0;34m)[0m[0;34m[0m[0m
[0m[0;32m     29 [0;31m    [0m

IndexError: range object index out of range

In [21]:
sy

{'feed': {'html': {'class': 'no-js'},
  'links': [{'type': 'text/css',
    'rel': 'stylesheet',
    'media': 'all',
    'href': 'https://www.craigslist.org/styles/simple-page.css?v=1522ad26a5713653eb46d2c31b48f4fd'},
   {'type': 'text/css',
    'rel': 'stylesheet',
    'media': 'all',
    'href': 'https://www.craigslist.org/styles/jquery-ui-clcustom.css?v=3b05ddffb7c7f5b62066deff2dda9339'},
   {'type': 'text/css',
    'rel': 'stylesheet',
    'media': 'all',
    'href': 'https://www.craigslist.org/styles/jquery.qtip-2.2.1.css?v=cd202aead4d1dd4894fbae4ade23fcf8'}],
  'meta': {'name': 'viewport',
   'content': 'width=device-width,initial-scale=1'}},
 'entries': [],
 'bozo': 1,
 'headers': {'Connection': 'keep-alive',
  'Last-Modified': 'Sun, 23 Jun 2019 13:33:56 GMT',
  'Date': 'Sun, 23 Jun 2019 13:33:56 GMT',
  'Content-Encoding': 'gzip',
  'Vary': 'Accept-Encoding',
  'Content-Length': '1863',
  'X-Frame-Options': 'SAMEORIGIN',
  'Content-Type': 'text/html; charset=UTF-8',
  'Set-Cooki