# 4.5 使用python进行文本分类

## 4-1 词表到向量的转换函数

In [1]:
def loadDataSet():
    postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                   ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                   ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                   ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                   ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                   ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0, 1, 0, 1, 0, 1]    #1 is abusive, 0 not
    return postingList, classVec

def createVocabList(dataSet):
    vocabSet = set([])  #create empty set
    for document in dataSet:
        vocabSet = vocabSet | set(document) #union of the two sets
    return list(vocabSet)

def setOfWords2Vec(vocabList, inputSet):
    """
    词集模型
    """
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1 #对应位置为1
        else: print("the word: %s is not in my Vocabulary!" % word)
    return returnVec

In [2]:
listOPosts,listClasses=loadDataSet()

In [3]:
myVocabList=createVocabList(listOPosts)

In [4]:
myVocabList

['flea',
 'so',
 'steak',
 'posting',
 'park',
 'take',
 'to',
 'is',
 'worthless',
 'love',
 'how',
 'dog',
 'problems',
 'help',
 'buying',
 'garbage',
 'cute',
 'I',
 'has',
 'licks',
 'please',
 'dalmation',
 'my',
 'ate',
 'quit',
 'maybe',
 'him',
 'food',
 'stop',
 'not',
 'stupid',
 'mr']

In [5]:
setOfWords2Vec(myVocabList,listOPosts[0])

[1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 1,
 1,
 0,
 0,
 0,
 0,
 1,
 0,
 1,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0]

In [6]:
setOfWords2Vec(myVocabList,listOPosts[3])

[0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 1,
 0]

## 4-2 朴素贝叶斯分类器训练函数

In [7]:
import numpy as np

In [8]:
def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCategory) / float(numTrainDocs)
    p0Num = np.zeros(numWords)
    p1Num = np.zeros(numWords)
    p0Denom = 0.0
    p1Denom = 0.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1: #侮辱性的
            p1Num += trainMatrix[i] #该类别下各个单词数+1
            p1Denom += sum(trainMatrix[i]) #该类别总数+1
        else: #不是侮辱性的
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = p1Num / p1Denom  # 
    p0Vect = p0Num / p0Denom  # 
    return p0Vect, p1Vect, pAbusive

In [9]:
trainMat=[]
for positionDoc in listOPosts:
    trainMat.append(setOfWords2Vec(myVocabList,positionDoc))

In [10]:
p0V,p1V,pAb=trainNB0(trainMat,listClasses)

In [11]:
pAb

0.5

In [12]:
p0V

array([0.04166667, 0.04166667, 0.04166667, 0.        , 0.        ,
       0.        , 0.04166667, 0.04166667, 0.        , 0.04166667,
       0.04166667, 0.04166667, 0.04166667, 0.04166667, 0.        ,
       0.        , 0.04166667, 0.04166667, 0.04166667, 0.04166667,
       0.04166667, 0.04166667, 0.125     , 0.04166667, 0.        ,
       0.        , 0.08333333, 0.        , 0.04166667, 0.        ,
       0.        , 0.04166667])

In [13]:
p1V

array([0.        , 0.        , 0.        , 0.05263158, 0.05263158,
       0.05263158, 0.05263158, 0.        , 0.10526316, 0.        ,
       0.        , 0.10526316, 0.        , 0.        , 0.05263158,
       0.05263158, 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.05263158,
       0.05263158, 0.05263158, 0.05263158, 0.05263158, 0.05263158,
       0.15789474, 0.        ])

In [14]:
def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCategory)/float(numTrainDocs)
    #防止出现概率为0的情况
    p0Num = np.ones(numWords); p1Num = np.ones(numWords)      #change to np.ones()
    p0Denom = 2.0; p1Denom = 2.0                        #change to 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    #防止数值太小，下溢出
    p1Vect = np.log(p1Num/p1Denom)          #change to np.log()
    p0Vect = np.log(p0Num/p0Denom)          #change to np.log()
    return p0Vect, p1Vect, pAbusive

## 4-3 朴素贝叶斯分类函数

In [15]:
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    #改为对数相加
    p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)    #element-wise mult
    p0 = sum(vec2Classify * p0Vec) + np.log(1.0 - pClass1)
#     print('p1 is{},p0 is {}'.format(p1,p0))
    if p1 > p0:
        return 1
    else:
        return 0

In [16]:
def testingNB():
    listOPosts, listClasses = loadDataSet()
    myVocabList = createVocabList(listOPosts)
    trainMat = []
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    p0V, p1V, pAb = trainNB0(np.array(trainMat), np.array(listClasses))
    testEntry = ['love', 'my', 'dalmation']
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb))
    testEntry = ['stupid', 'garbage']
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb))

In [17]:
testingNB()

['love', 'my', 'dalmation'] classified as:  0
['stupid', 'garbage'] classified as:  1


个人测试代码

In [18]:
test_entry=['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him']
thisDoc = np.array(setOfWords2Vec(myVocabList, test_entry))
print(test_entry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb))

['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'] classified as:  0


## 4-4 朴素贝叶斯词袋模型

In [19]:
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec

# 4.6 使用朴素贝叶斯过滤垃圾邮件

In [20]:
mySent='This book is the best book on Python or M.L. I have ever laid eyes upon.'

In [21]:
mySent.split()

['This',
 'book',
 'is',
 'the',
 'best',
 'book',
 'on',
 'Python',
 'or',
 'M.L.',
 'I',
 'have',
 'ever',
 'laid',
 'eyes',
 'upon.']

In [22]:
import re

In [23]:
regEx=re.compile('\\W*')#除了单词数字

In [24]:
listOfTokens=regEx.split(mySent)
listOfTokens

  """Entry point for launching an IPython kernel.


['This',
 'book',
 'is',
 'the',
 'best',
 'book',
 'on',
 'Python',
 'or',
 'M',
 'L',
 'I',
 'have',
 'ever',
 'laid',
 'eyes',
 'upon',
 '']

In [25]:
[tok.lower() for tok in listOfTokens if len(tok)>0]

['this',
 'book',
 'is',
 'the',
 'best',
 'book',
 'on',
 'python',
 'or',
 'm',
 'l',
 'i',
 'have',
 'ever',
 'laid',
 'eyes',
 'upon']

In [26]:
emailText=open('email/ham/6.txt').read()

In [27]:
listOfTokens=regEx.split(emailText)

  """Entry point for launching an IPython kernel.


In [28]:
#listOfTokens #查看结果

## 4-5 文件解析及完整垃圾邮件测试函数

In [29]:
def textParse(bigString):    #input is big string, #output is word list
    import re
    listOfTokens = re.split(r'\W+', bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]

def spamTest():
    docList = []; classList = []; fullText = []
    for i in range(1, 26):
        wordList = textParse(open('email/spam/%d.txt' % i, encoding="ISO-8859-1").read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1)
        wordList = textParse(open('email/ham/%d.txt' % i, encoding="ISO-8859-1").read())
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)#create vocabulary
    trainingSet = range(50); testSet = []           #create test set
    for i in range(10):
        randIndex = int(np.random.uniform(0, len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(list(trainingSet)[randIndex])
    trainMat = []; trainClasses = []
    for docIndex in trainingSet:#train the classifier (get probs) trainNB0
        trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))
    errorCount = 0
    for docIndex in testSet:        #classify the remaining items
        wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
        if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            errorCount += 1
            print("classification error", docList[docIndex])
    print('the error rate is: ', float(errorCount)/len(testSet))
    #return vocabList, fullText

In [30]:
for _ in range(10):
    spamTest()

the error rate is:  0.0
the error rate is:  0.0
the error rate is:  0.0
the error rate is:  0.0
the error rate is:  0.0
the error rate is:  0.0
the error rate is:  0.0
the error rate is:  0.0
the error rate is:  0.0
the error rate is:  0.0


# 4.7 使用朴素贝叶斯分类器从个人广告中获取区域倾向

In [31]:
import feedparser

In [32]:
ny=feedparser.parse('https://rsshub.app/npc/c183')
#各种rss源
#https://docs.rsshub.app/

In [33]:
len(ny['entries'])

30

In [34]:
ny['entries'][0]

{'title': '全过程人民民主在民法典编纂中的生动体现',
 'title_detail': {'type': 'text/plain',
  'language': None,
  'base': 'https://rsshub.app/npc/c183',
  'value': '全过程人民民主在民法典编纂中的生动体现'},
 'summary': '<p style="text-indent: 2em;">习近平总书记在2021年10月召开的中央人大工作会议上明确指出，我国全过程人民民主是全链条、全方位、全覆盖的民主，是最广泛、最真实、最管用的社会主义民主。这一重大理念，深刻揭示了我国社会主义民主的政治内涵、理论内涵，为我国发展社会主义民主提供了根本遵循。</p><p style="text-indent: 2em;">全过程人民民主与社会主义法治建设特别是立法工作息息相关，与以人民为中心的发展思想息息相关，与人民日益增长的美好生活需要和群众关心关注的实际问题息息相关。民法典作为新中国第一部以法典命名的法律，在编纂过程中充分践行以人民为中心的发展思想，立足发展全过程人民民主，充分听取广大人民群众的意见，积极回应人民群众的关切，确保编纂出一部符合人民意愿、保障人民民事权利的权利法典。</p><p style="text-indent: 2em;"><span>立足全过程人民民主<span style="font-size: 12pt;">的本质属性</span></span></p><p style="text-indent: 2em;">全过程人民民主的本质属性，在于广泛的人民性。民法典调整民事主体的人身关系、财产关系，涉及每个人、每个家庭、每个企业、每个组织，是全方位保障人民民事权利的权利法典。习近平总书记在中央政治局第二十次集体学习时指出，民法典是“一部体现对生命健康、财产安全、交易便利、生活幸福、人格尊严等各方面权利平等保护的民法典”。编纂好这样一部权利法典，必须立足人民属性，坚持以人民为中心的立法理念，一方面突出保护民事权利这一主线，做好民事权利制度的顶层设计，强化对民事主体人身权利、财产权利的全方位保护，形成规范有效的权利保护体系；另一方面对社会公众比较关注的问题作出有针对性的规定，真正做到“民有所呼、法有所应”，推动民事立法的精细化，强化法律

In [35]:
def calcMostFreq(vocabList, fullText):
    import operator
    freqDict = {}
    for token in vocabList:
        freqDict[token] = fullText.count(token)
    sortedFreq = sorted(freqDict.items(), key=operator.itemgetter(1), reverse=True)
    return sortedFreq[:30]

def textParse(bigString):    #input is big string, #output is word list
    import jieba
    listOfTokens = jieba.cut(bigString, cut_all = False) 
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]

def localWords(feed1, feed0):
    import feedparser
    docList = []; classList = []; fullText = []
    minLen = min(len(feed1['entries']), len(feed0['entries']))
    for i in range(minLen):
        wordList = textParse(feed1['entries'][i]['summary'])
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(1) #NY is class 1
        wordList = textParse(feed0['entries'][i]['summary'])
        docList.append(wordList)
        fullText.extend(wordList)
        classList.append(0)
    vocabList = createVocabList(docList)#create vocabulary
    top30Words = calcMostFreq(vocabList, fullText)   #remove top 30 words
    for pairW in top30Words:
        if pairW[0] in vocabList: vocabList.remove(pairW[0])
    trainingSet = range(2*minLen); testSet = []           #create test set
    for i in range(5):
        randIndex = int(np.random.uniform(0, len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del(list(trainingSet)[randIndex])
    trainMat = []; trainClasses = []
    for docIndex in trainingSet:#train the classifier (get probs) trainNB0
        trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))
    errorCount = 0
    for docIndex in testSet:        #classify the remaining items
        wordVector = bagOfWords2VecMN(vocabList, docList[docIndex])
        if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            errorCount += 1
    print('the error rate is: ', float(errorCount)/len(testSet))
    return vocabList, p0V, p1V

In [36]:
sdm=feedparser.parse('https://rsshub.app/3dm/news') #3DM
rd=feedparser.parse('https://rsshub.app/npc/c183') #中国人大网
vocabList, p0V, p1V=localWords(sdm,rd)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\19035\AppData\Local\Temp\jieba.cache
Loading model cost 0.864 seconds.
Prefix dict has been built successfully.


the error rate is:  0.0


In [37]:
def getTopWords(ny, sf):
    import operator
    vocabList, p0V, p1V = localWords(ny, sf)
    topNY = []; topSF = []
    for i in range(len(p0V)):
        if p0V[i] > -6.0: topSF.append((vocabList[i], p0V[i]))
        if p1V[i] > -6.0: topNY.append((vocabList[i], p1V[i]))
    sortedSF = sorted(topSF, key=lambda pair: pair[1], reverse=True)
    print("sdm**sdm**sdm**sdm**sdm**sdm**sdm**sdm**sdm**sdm**sdm**sdm**sdm**")
    for item in sortedSF:
        print(item[0])
    sortedNY = sorted(topNY, key=lambda pair: pair[1], reverse=True)
    print("rd**rd**rd**rd**rd**rd**rd**rd**rd**rd**rd**rd**rd**rd**rd**rd**")
    for item in sortedNY:
        print(item[0])

In [38]:
getTopWords(sdm,rd)

the error rate is:  0.0
sdm**sdm**sdm**sdm**sdm**sdm**sdm**sdm**sdm**sdm**sdm**sdm**sdm**
人大常委会
委员会
党中央
民法典
公司法
2021
十三届
社会主义
全国人大常委会
黄河流域
办事处
现代化
习近平
依法治国
管理工作
全国人民代表大会
修正案
有利于
当家作主
充分发挥
联系点
保护法
第十四届
副委员长
全国人民代表大会常务委员会
一系列
公共卫生
建立健全
实践经验
党的领导
征求意见
全国人大常委会法工委
安全法
防治法
国务院
党和国家
总书记
依法行政
贯彻落实
政权机关
促进法
高度重视
法工委
法律委员会
政权建设
教育法
管理法
国有企业
高质量
经济社会
区域合作
规范性
市场经济
npc
群众性
明确要求
合法权益
2020
国有资产
针对性
联络站
基础性
1979
管理体制
履行职责
室主任
第三十二
社会公众
法律法规
普通教育
自治区
保障法
直辖市
行使职权
中华人民共和国宪法
市辖区
水资源
近年来
主席团
工作部门
中共中央
中国人民解放军
个人信息
密切联系
2019
全国政协
事务所
新华社
市场化
代表团
民族乡
人代会
font
高等学校
全方位
市场主体
产权保护
rd**rd**rd**rd**rd**rd**rd**rd**rd**rd**rd**rd**rd**rd**rd**rd**
png
strong
扭蛋机
马斯克
皮克斯
动画电影
特别版
地下城
1648436353
直升机
第二次
亿美元
playstation
ultra
最终幻想
不可思议
工作室
talk
coffee
snail
rogue
amp
div
周年纪念
windows
switch
博物馆
亿万富翁
target
南梦宫
ios
消费者
href
智能手机
blank
ps4
pac
1648445790
fahmi
1500
www.3
符合事实
3999
1648435709
500
6500
2022
greg
1648437090
数百米
xbox
miller
1648437557
马铃薯
2020
单行本
lucas
慈善事业
一部分
games
tag
创始人
odyssey
app
one
创作者
开发商
1.0
