# 背景介绍

朴素贝叶斯的朴素是如下两点假设：①假设特征词之间相互独立， ②假设特征词是等价重要的

优点：数据少时也能使用，可以处理多类别问题；
缺点：对输入数据的准备方式较为敏感

其理论的基础为概率的链式法则：P(X/c)P(c) = P(c/X)P(X)；
我们要得到的是条件c下发生事件x的概率：P(X/c)，即有P(X/c) = p(c/X)P(X)/P(c)， 右边三项都可由统计得出。
其中，X元素之间相互独立 ，即P(x1,x2,x3/c) = P(x1/c) * p(x2/c) * p(x3/c)

In [6]:
def loadDataSet():
    postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], 
                ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVac = [0, 1, 0, 1, 0, 1]	#1 代表侮辱性文字， 0代表正常言论
    return postingList, classVac

## 创建一个不重复的词表

In [4]:
def createVocabList(dataSet):
    vocabSet = set([])#创建一个空集
    for document in dataSet:
        vocabSet = vocabSet | set(document)#按位或语句，创建两个集合的并集
    return list(vocabSet)

## 将输入变成想要的词向量形式

In [17]:
def setOfWords2Vec (VocabList, inputSet):
    returnVec = [0]*len(VocabList)#创建一个所有元素为0的向量
    for word in inputSet:
        if word in VocabList:
            returnVec[VocabList.index(word)] = 1
        else:
            print("the word: %s is not in my Vocabulary!" % word)
    return returnVec

In [7]:
listOPosts, listClasses = loadDataSet()
myVocabList = createVocabList(listOPosts)

In [8]:
myVocabList

['not',
 'stupid',
 'garbage',
 'flea',
 'quit',
 'my',
 'problems',
 'stop',
 'worthless',
 'him',
 'ate',
 'dog',
 'food',
 'posting',
 'to',
 'please',
 'I',
 'licks',
 'is',
 'cute',
 'steak',
 'take',
 'has',
 'maybe',
 'buying',
 'help',
 'love',
 'how',
 'mr',
 'so',
 'park',
 'dalmation']

In [18]:
setOfWords2Vec(myVocabList, listOPosts[0])

[0,
 0,
 0,
 1,
 0,
 1,
 1,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0]

In [19]:
from numpy import *

In [38]:
def trainNBO(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)#在这里是6，就是6个向量
    numWords = len(trainMatrix[0])#词袋的大小
    pAbusive = sum(trainCategory)/float(numTrainDocs)#这是在计算p(c=1)，因为是二分类，所以另一个类的概率为1-p(c=1)，故不用求出来
#     p0Num = zeros(numWords); p1Num = zeros(numWords)
    p0Num = ones(numWords); p1Num = ones(numWords)#从0变1是为了防止链式法则因为个别 P(x_i/c)为0而导致整个分子为0的情况
    p0Denom = 0.0; p1Denom = 0.0
    for i in range(numTrainDocs):#这里是在统计(x/c)，为了得到p(x/c)
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]#由于词向量转为了特征向量，所以和词袋大小是等长的；
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
#     p1Vect = p1Num/p1Denom#计算p(x/c)
#     p0Vect = p0Num/p0Denom
    p1Vect = log(p1Num/p1Denom)
    p0Vect = log(p0Num/p0Denom)
    return p0Vect, p1Vect, pAbusive

## 将输入的词向量组变成向量矩阵

词向量是不等长的，向量矩阵是对应词库向量得到的等长向量组成的矩阵

In [21]:
trainMat = []
for postinDoc in listOPosts:
    trainMat.append(setOfWords2Vec(myVocabList, postinDoc))

In [34]:
p0V, p1V, pAb = trainNBO(trainMat, listClasses)

In [35]:
print(pAb)
print(p0V)
print(p1V)

0.5
[ 0.          0.          0.          0.04166667  0.          0.125
  0.04166667  0.04166667  0.          0.08333333  0.04166667  0.04166667
  0.          0.          0.04166667  0.04166667  0.04166667  0.04166667
  0.04166667  0.04166667  0.04166667  0.          0.04166667  0.          0.
  0.04166667  0.04166667  0.04166667  0.04166667  0.04166667  0.
  0.04166667]
[ 0.05263158  0.15789474  0.05263158  0.          0.05263158  0.          0.
  0.05263158  0.10526316  0.05263158  0.          0.10526316  0.05263158
  0.05263158  0.05263158  0.          0.          0.          0.          0.
  0.          0.05263158  0.          0.05263158  0.05263158  0.          0.
  0.          0.          0.          0.05263158  0.        ]


In [37]:
len(trainMat)

6

p0Vec是在c=0下的x1,x2,x3...的分布概率
<n></n>
pClass1是c=1的概率，即p(c=1)，而二分类的另一个概率为p(c=0) = 1-p(c=1)
<n></n>
实际这个分类就是看新的输入时和哪个类别的加权和较大，哪个大就是那个类别

In [39]:
def classifyNB (vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else:
        return 0

其中trainNB0函数是对训练集进行处理，得出每个类别的向量及标签；
classifyNB是对测试集进行训练；
<n></n>
listOPosts, listClasses是训练集的词字符向量和标签；
trainMat是listOPosts（词向量）的0/1表示；
p0V和p1V是两个类别的变量分布（可以认为是每个变量的权重）
pAb和1-pAb是两个类别的概率

In [40]:
def testingNB():
    listOPosts, listClasses = loadDataSet()
    myVocabList = createVocabList(listOPosts)
    trainMat = []
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    p0V, p1V, pAb = trainNB0(array(trainMat), array(listClasses))
    testEntry = ['love', 'my', 'dalmation']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry, 'classified as: ' , classifyNB(thisDoc, p0V, p1V, pAb))
    testEntry = ['stupid', 'garbage']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry, 'classified as: ' , classifyNB(thisDoc, p0V, p1V, pAb))