In [1]:
import numpy as np
import pandas as pd

In [2]:
"""
函数功能：创建实验数据集
参数说明：无参数
返回：
postingList：切分好的样本词条
classVec：类标签向量
"""
def loadDataSet():
    dataSet=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],    
            ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
            ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
            ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
            ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
            ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']] #切分好的词条
    classVec = [0,1,0,1,0,1]   #类别标签向量，1代表侮辱性词汇，0代表非侮辱性词汇
    return dataSet,classVec

In [3]:
dataSet,classVec = loadDataSet()

In [4]:
## 2、构建词汇表

In [5]:
"""
函数功能：将切分的样本词条整理成词汇表（不重复）
参数说明：
dataSet：切分好的样本词条
返回：
vocabList：不重复的词汇表
"""
def createVocablist(dataSet):
    vocabSet = set()               #创建一个空的集合，set可用于去重
    for doc in dataSet:
        vocabSet = vocabSet | set(doc)     #取并集
        vocablist = list(vocabSet)
    return vocablist   

In [6]:
vocablist  = createVocablist(dataSet)
len(vocablist)
vocablist

['not',
 'has',
 'licks',
 'posting',
 'steak',
 'stupid',
 'my',
 'dog',
 'worthless',
 'how',
 'please',
 'to',
 'buying',
 'quit',
 'him',
 'is',
 'so',
 'cute',
 'I',
 'ate',
 'flea',
 'take',
 'park',
 'food',
 'help',
 'dalmation',
 'love',
 'stop',
 'mr',
 'problems',
 'maybe',
 'garbage']

In [7]:
##  生成词向量

In [8]:
"""
函数功能：根据vocabList词汇表，将inputSet向量化，向量的每个元素为1或0
参数说明：
vocabList：词汇表
inputSet：切分好的词条列表中的一条  （dataSet中的一条数据）
返回：
returnVec：文档向量,词集模型
"""
def setOfWords2Vec(vocablist, inputSet):
    returnVec = [0] * len(vocablist)                  #创建一个其中所含元素都为0的向量
    for word in inputSet:                             #遍历每个词条
        if word in vocablist:                         #如果词条存在于词汇表中，则变为1
            returnVec[vocablist.index(word)] = 1
        else:
            print(" {} is not in my Vocabulary!".format(word) )
    return returnVec                                  #返回文档向量

In [9]:
inputSet =  dataSet[0]

In [10]:
returnVec = setOfWords2Vec(vocablist, inputSet)
print(returnVec)

[0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0]


In [11]:
### 生成训练集向量列表

In [12]:
"""
函数功能：生成训练集向量列表
参数说明：
dataSet：切分好的样本词条
返回：
trainMat：所有的词条向量组成的列表
"""
def get_trainMat(dataSet):
    trainMat = []                                         #初始化向量列表
    vocablist = createVocablist(dataSet)                  #生成词汇表
    for inputSet in dataSet:                              #遍历样本词条中的每一条样本
        returnVec=setOfWords2Vec(vocablist, inputSet)     #将当前词条向量化
        trainMat.append(returnVec)                        #追加到向量列表中
    return trainMat

In [13]:
trainMat = get_trainMat(dataSet)
print(trainMat)

[[0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0], [1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0], [0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0], [0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1], [0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0], [0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0]]


In [14]:
for i in range(len(trainMat)):
    print(trainMat[i])

[0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0]
[1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0]
[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0]
[0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1]
[0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0]
[0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0]


In [15]:
"""
函数功能：朴素贝叶斯分类器训练函数
参数说明：
trainMat：训练文档矩阵
classVec：训练类别标签向量  classVec = [0,1,0,1,0,1]
返回：
p0V：非侮辱类的条件概率数组
p1V：侮辱类的条件概率数组
pAb：文档属于侮辱类的概率
"""
def trainNB(trainMat,classVec):
    n = len(trainMat)                     #计算训练的文档数目 6
    m = len(trainMat[0])                  #计算每篇文档的词条数 32
    pAb = sum(classVec)/n                 #文档属于侮辱类的概率
    p0Num = np.zeros(m)                   #词条出现数初始化为0
    p1Num = np.zeros(m)                   #词条出现数初始化为0
    p0Denom = 0                           #分母初始化为0
    p1Denom = 0                           #分母初始化为0
    for i in range(n):                    #遍历每一个文档
        if classVec[i] == 1:              #统计属于侮辱类的条件概率所需的数据
            p1Num += trainMat[i]
            p1Denom += sum(trainMat[i])
        else:                             #统计属于非侮辱类的条件概率所需的数据
            p0Num += trainMat[i]
            p0Denom += sum(trainMat[i])
    p1V = p1Num/p1Denom                                      
    p0V = p0Num/p0Denom        
    return p0V,p1V,pAb      #返回属于非侮辱类,侮辱类和文档属于侮辱类的概率

In [16]:
p0V,p1V,pAb = trainNB(trainMat,classVec)

In [17]:
from functools import reduce
"""
函数功能：朴素贝叶斯分类器分类函数
参数说明：
vec2Classify：待分类的词条数组,已经向量化的测试样本
p0V：非侮辱类的条件概率数组
p1V：侮辱类的条件概率数组
pAb：文档属于侮辱类的概率
返回：
0：属于非侮辱类
1：属于侮辱类
"""
def classifyNB(vec2Classify, p0V, p1V, pAb):
    p1 = reduce(lambda x,y:x*y, vec2Classify * p1V) * pAb         #对应元素相乘
    p0 = reduce(lambda x,y:x*y, vec2Classify * p0V) * (1 - pAb)
    print('p0:',p0)
    print('p1:',p1)
    if p1 > p0:
        return 1
    else:
        return 0

In [18]:
"""
函数功能：朴素贝叶斯测试函数
参数说明：
testVec：测试样本
返回：测试样本的类别
"""
def testingNB(testVec):
    dataSet,classVec = loadDataSet()                       #创建实验样本
    vocabList = createVocablist(dataSet)                   #创建词汇表
    trainMat= get_trainMat(dataSet)                        #将实验样本向量化
    p0V,p1V,pAb = trainNB(trainMat,classVec)               #训练朴素贝叶斯分类器
    thisone = setOfWords2Vec(vocablist, testVec)           #测试样本向量化
    if classifyNB(thisone,p0V,p1V,pAb):
        print(testVec,'属于侮辱类')                          #执行分类并打印分类结果
    else:
        print(testVec,'属于非侮辱类')                        #执行分类并打印分类结果

In [19]:
#测试样本1
testVec1 = ['love', 'my', 'dalmation']
testingNB(testVec1)

p0: 0.0
p1: 0.0
['love', 'my', 'dalmation'] 属于非侮辱类


In [20]:
#测试样本2
testVec2 = ['stupid', 'garbage']
testingNB(testVec2)

p0: 0.0
p1: 0.0
['stupid', 'garbage'] 属于非侮辱类


In [21]:
#  函数算法改进：朴素贝叶斯改进之拉普拉斯平滑

In [22]:
def trainNB(trainMat,classVec):
    n = len(trainMat)                     #计算训练的文档数目
    m = len(trainMat[0])                  #计算每篇文档的词条数
    pAb = sum(classVec)/n                 #文档属于侮辱类的概率
    p0Num = np.ones(m)                    #词条出现数初始化为1
    p1Num = np.ones(m)                    #词条出现数初始化为1
    p0Denom = 2                           #分母初始化为2
    p1Denom = 2                           #分母初始化为2
    for i in range(n):                    #遍历每一个文档
        if classVec[i] == 1:              #统计属于侮辱类的条件概率所需的数据
            p1Num += trainMat[i]
            p1Denom += sum(trainMat[i])
        else:                             #统计属于非侮辱类的条件概率所需的数据
            p0Num += trainMat[i]
            p0Denom += sum(trainMat[i])
    p1V = np.log(p1Num/p1Denom)                                      
    p0V = np.log(p0Num/p0Denom)        
    return p0V,p1V,pAb                    #返回属于非侮辱类,侮辱类和文档属于侮辱类的概率

In [23]:
p0V,p1V,pAb = trainNB(trainMat,classVec)

In [24]:
def classifyNB(vec2Classify, p0V, p1V, pAb):
    p1 = sum(vec2Classify * p1V) + np.log(pAb)       #对应元素相乘
    p0 = sum(vec2Classify * p0V) + np.log(1- pAb)    #对应元素相乘
    if p1 > p0:
        return 1
    else:
        return 0  

In [25]:
#测试样本1
testVec1 = ['love', 'my', 'dalmation']
testingNB(testVec1)

['love', 'my', 'dalmation'] 属于非侮辱类


In [26]:
#测试样本2
testVec2 = ['stupid', 'garbage']
testingNB(testVec2)

['stupid', 'garbage'] 属于侮辱类
