# 基于概率论的分类方法：朴素贝叶斯

## 基于贝叶斯决策理论的分类方法
朴素贝叶斯

* 优点:在数据较少的情况下仍然有效,可以处理多类别问题。
* 缺点:对于输入数据的准备方式较为敏感。
* 适用数据类型:标称型数据。

假设有两个概率分布的数据类别A，B，我们已知二者的统计参数，pA(x,y)表示数据点x,y属于类别A的概率，pB(x,y)表示数据点属于类别B的概率，那么当pA>pB时，我们认为该数据点为A类，反之为B类，这就是朴素贝叶斯分类的基础思想；

## 条件概率

问题：假设有7块石头，3块是灰色的，4块是黑色的，那么取到灰色石头的概率就是3/7，黑色的则为4/7，这很简单，但是如果7块石头是分别放在两个桶中的呢，其中A桶有2块灰色、2块黑色，B桶有1块灰色、2块黑色，那么此时取到灰色石头概率怎么计算呢？

    计算方法1：
    p(灰色|桶A) = p(灰色 and 桶A)/p(桶A) = (2/7)/(4/7) = 1/2
    p(灰色|桶B) = p(灰色 and 桶B)/p(桶B) = (1/7)/(3/7) = 1/3
    计算方法2-贝叶斯方法：
    已知p(x|y)求p(y|x)可以通过以下公式：
    p(x|y)=((p(y|x)*p(x))/(p(y))

## 使用条件概率来分类

通常指的是以下的方式：
    
    p(c1|x,y,z...) > p(c2|x,y,z...) 时，判断为类别1
    p(c1|x,y,z...) < p(c2|x,y,z...) 时，判断为类别2
    
    而p(c|x,y,z...)可以由贝叶斯公式由其他三个概率求得p(x,y,z...|c)*p(c)/p(x,y,z...)

## 使用朴素贝叶斯进行文档分类

文档分类最简单的方式就是将每个单词的出现与否作为一个特征，这样我们就会得到一个跟词汇表中单词个数一样多的特征数量，这个是非常庞大的，而我们知道根据维度灾难，训练所需数据是呈指数上升的，假设有1000个单词特征，也就需要N^1000的数据量，这个是非常庞大的一个数值，但是如果我们假设特征独立，那么就只需要1000\*N就可以了，这个至少还在可控范围内，这个假设在文档分类中的表现就是它假设每个单词的出现与其他单词没有关系，当然我们知道这个假设是不太合理的，比如I通常会跟着am一起出现，这也就是朴素的由来，另一个朴素贝叶斯的假设是每个特征的权重一致，当然这一点严格讲也不太合理，但是即便有它不合理的地方，效果还是有的；

## 使用python进行分类

朴素贝叶斯分类器通常有两种实现方式：
* 贝努利模型实现；
* 多项式模型实现；

区别在于贝努利模型不考虑每个词的出现次数，只考虑是否出现，因此可以说该方式假设每个词都是等权重的，而多项式则是会考虑出现次数的；

In [12]:
from numpy import *

### 准备数据：从文本转换成词向量

In [13]:
# 加载训练数据（测试数据）
def loadDataSet():
    postingList = [
        ['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
        ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
        ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
        ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
        ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
        ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid'],
    ]
    classVec = [0,1,0,1,0,1]
    return postingList, classVec

In [14]:
# 创建词汇表
def createVocabList(dataSet):
    vocabSet = set([]) # 空set
    for document in dataSet:
        vocabSet = vocabSet | set(document) # 利用set的不重复属性来获取数据集中所有持续过的单词
    return list(vocabSet)

In [15]:
# 句子转换到向量 - 词集模型
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList) # 全为0的向量，用numpy的zeros也行
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1 # 贝努利模型只关注是否出现，而不关注次数
        else:
            print 'The word: %s is not in our vocab list!' % word
    return returnVec

In [16]:
listPosts, listClasses = loadDataSet()
listVocab = createVocabList(listPosts)
print listVocab

['cute', 'love', 'help', 'garbage', 'quit', 'I', 'problems', 'is', 'park', 'stop', 'flea', 'dalmation', 'licks', 'food', 'not', 'him', 'buying', 'posting', 'has', 'worthless', 'ate', 'to', 'maybe', 'please', 'dog', 'how', 'stupid', 'so', 'take', 'mr', 'steak', 'my']


In [17]:
print setOfWords2Vec(listVocab, listPosts[2])

[1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1]


In [18]:
print setOfWords2Vec(listVocab, listPosts[4])

[0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1]


### 训练算法：从词向量计算概率

In [19]:
# NB训练函数，目的是得到各个类别对应的条件概率
def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix) # 训练集文档个数
    numWords = len(trainMatrix[0]) # 词汇表长度
    pAbusive = sum(trainCategory)/float(numTrainDocs) # 类别为侮辱性的比例
    p0Num, p1Num = zeros(numWords), zeros(numWords) # 创建空向量
    p0Denom, p1Denom = 0.0, 0.0 # 
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i] # 类别为1的所有文档的词汇表向量和
            p1Denom += sum(trainMatrix[i]) # 类别为1的所有文档的单词个数和
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = p1Num/p1Denom # 类别为1的每个出现的单词占所有文档词汇量的比例
    p0Vect = p0Num/p0Denom
    return p0Vect, p1Vect, pAbusive

trainMatrix = [setOfWords2Vec(listVocab, document)for document in listPosts]
trainNB0(trainMatrix, listClasses)

(array([ 0.04166667,  0.04166667,  0.04166667,  0.        ,  0.        ,
         0.04166667,  0.04166667,  0.04166667,  0.        ,  0.04166667,
         0.04166667,  0.04166667,  0.04166667,  0.        ,  0.        ,
         0.08333333,  0.        ,  0.        ,  0.04166667,  0.        ,
         0.04166667,  0.04166667,  0.        ,  0.04166667,  0.04166667,
         0.04166667,  0.        ,  0.04166667,  0.        ,  0.04166667,
         0.04166667,  0.125     ]),
 array([ 0.        ,  0.        ,  0.        ,  0.05263158,  0.05263158,
         0.        ,  0.        ,  0.        ,  0.05263158,  0.05263158,
         0.        ,  0.        ,  0.        ,  0.05263158,  0.05263158,
         0.05263158,  0.05263158,  0.05263158,  0.        ,  0.10526316,
         0.        ,  0.05263158,  0.05263158,  0.        ,  0.10526316,
         0.        ,  0.15789474,  0.        ,  0.05263158,  0.        ,
         0.        ,  0.        ]),
 0.5)

上述函数结果可以看到，用于解决实际问题还存在几个点需求修复：
* 如果某个词没有出现过，那么会出现概率为0，因为最终结果是各个词的概率乘积，因此最终结果也为0，解决该方法可以将每个词的出现次数初始化为1，而总数分母初始化为2；
* 下溢出，由于结果是很多个概率相乘得到，而python中多个很小的小数相乘结果会四舍五入为0，为了避免这一错误，可以采用求自然对数的方式来处理，一个是自然对数的计算不会有损失，另一个是自然对数虽然结果与原来不同，但是对最终的比较没有影响；

In [20]:
# 解决某个词未出现导致全部乘积结果为0以及下溢出问题
def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCategory)/float(numTrainDocs)
    # 修改单词默认出现次数为1，总数为2
    #p0Num, p1Num = zeros(numWords), zeros(numWords)
    #p0Denom, p1Denom = 0.0, 0.0
    p0Num, p1Num = ones(numWords), ones(numWords)
    p0Denom, p1Denom = 2.0, 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    # 修改条件概率的计算为取自然对数，避免下溢出问题
    #p1Vect = p1Num/p1Denom
    #p0Vect = p0Num/p0Denom
    p1Vect = log(p1Num/p1Denom)
    p0Vect = log(p0Num/p0Denom)
    return p0Vect, p1Vect, pAbusive

trainMatrix = [setOfWords2Vec(listVocab, document)for document in listPosts]
trainNB0(trainMatrix, listClasses)

(array([-2.56494936, -2.56494936, -2.56494936, -3.25809654, -3.25809654,
        -2.56494936, -2.56494936, -2.56494936, -3.25809654, -2.56494936,
        -2.56494936, -2.56494936, -2.56494936, -3.25809654, -3.25809654,
        -2.15948425, -3.25809654, -3.25809654, -2.56494936, -3.25809654,
        -2.56494936, -2.56494936, -3.25809654, -2.56494936, -2.56494936,
        -2.56494936, -3.25809654, -2.56494936, -3.25809654, -2.56494936,
        -2.56494936, -1.87180218]),
 array([-3.04452244, -3.04452244, -3.04452244, -2.35137526, -2.35137526,
        -3.04452244, -3.04452244, -3.04452244, -2.35137526, -2.35137526,
        -3.04452244, -3.04452244, -3.04452244, -2.35137526, -2.35137526,
        -2.35137526, -2.35137526, -2.35137526, -3.04452244, -1.94591015,
        -3.04452244, -2.35137526, -2.35137526, -3.04452244, -1.94591015,
        -3.04452244, -1.65822808, -3.04452244, -2.35137526, -3.04452244,
        -3.04452244, -3.04452244]),
 0.5)

### 测试算法

上面已经根据实际情况（1. 下溢出问题，2. 单词一次都不出现导致最终的乘积结果恒为0的问题）修改了计算条件概率的函数，下面我们要测试一下实际效果；

In [81]:
# 分类函数
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    '''
    vec2Classify:待测试的文档向量
    p0Vec:类别0的条件概率向量
    p1Vec:类别1的条件概率向量
    pClass1:类别为1的概率
    '''
    p1 = sum(vec2Classify*p1Vec) + log(pClass1) # ???
    p0 = sum(vec2Classify*p0Vec) + log(1-pClass1)
    print p0,p1,p1-p0
    return 1 if p1>p0 else 0

In [26]:
# 测试函数
def testingNB():
    listPosts, listClasses = loadDataSet()
    listVocab = createVocabList(listPosts)
    trainMatrix = [setOfWords2Vec(listVocab, document)for document in listPosts]
    p0Vec, p1Vec, pClass1 = trainNB0(trainMatrix, listClasses)
    testEntry = ['love', 'my', 'dalmation']
    print testEntry, 'classify as:', classifyNB(setOfWords2Vec(listVocab, testEntry), p0Vec, p1Vec, pClass1)
    testEntry = ['stupid', 'garbage']
    print testEntry, 'classify as:', classifyNB(setOfWords2Vec(listVocab, testEntry), p0Vec, p1Vec, pClass1)

In [27]:
testingNB()

['love', 'my', 'dalmation'] classify as: 0
['stupid', 'garbage'] classify as: 1


### 准备数据：文档词袋模型

前面的setOfWords2Vec方式使用的文档词集模型，即贝努利模型，只关注词是否持续，而不关注出现次数，而我们知道出现次数也是一个重要特征，因此我们这里使用词袋模型代替词集模型；

In [28]:
# 句子转换到向量 - 词集模型
def bagOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1 # 词袋模型关注次数
        else:
            print 'The word: %s is not in our vocab list!' % word
    return returnVec

## 示例：使用NB过滤垃圾邮件

NB最著名的应用领域：邮件过滤；

### 准备数据：切分文本

使用正则表达式进行切割，针对特定领域、场景有特别的表达式，此处仅使用简单、通用的表达式即可，切割效果会有些许瑕疵；

In [29]:
import re

In [30]:
mySent = 'This book is the best book on Python or M.L. I have ever laid eyes upon.'

In [32]:
regEx = re.compile('\\W*')
def document2WordList(doc):
    listOfTokens = regEx.split(doc)
    return [token.lower() for token in listOfTokens if len(token)>0]
print document2WordList(mySent)

['this', 'book', 'is', 'the', 'best', 'book', 'on', 'python', 'or', 'm', 'l', 'i', 'have', 'ever', 'laid', 'eyes', 'upon']


### 测试算法：使用NB进行交叉验证

In [34]:
!ls ../datas/email/ham

10.txt	13.txt	16.txt	19.txt	21.txt	24.txt	3.txt  6.txt  9.txt
11.txt	14.txt	17.txt	1.txt	22.txt	25.txt	4.txt  7.txt
12.txt	15.txt	18.txt	20.txt	23.txt	2.txt	5.txt  8.txt


In [35]:
# 从文本文件读取数据
def loadDataSetFromFile():
    listDoc, listClasses = [], []
    for i in range(1,26):
        wordList = document2WordList(open('../datas/email/spam/%d.txt' % i).read())
        listDoc.append(wordList)
        listClasses.append(1)
        
        wordList = document2WordList(open('../datas/email/ham/%d.txt' % i).read())
        listDoc.append(wordList)
        listClasses.append(0)
    return listDoc, listClasses
a,b = loadDataSetFromFile()
print a
print b

[['codeine', '15mg', '30', 'for', '203', '70', 'visa', 'only', 'codeine', 'methylmorphine', 'is', 'a', 'narcotic', 'opioid', 'pain', 'reliever', 'we', 'have', '15mg', '30mg', 'pills', '30', '15mg', 'for', '203', '70', '60', '15mg', 'for', '385', '80', '90', '15mg', 'for', '562', '50', 'visa', 'only'], ['hi', 'peter', 'with', 'jose', 'out', 'of', 'town', 'do', 'you', 'want', 'to', 'meet', 'once', 'in', 'a', 'while', 'to', 'keep', 'things', 'going', 'and', 'do', 'some', 'interesting', 'stuff', 'let', 'me', 'know', 'eugene'], ['hydrocodone', 'vicodin', 'es', 'brand', 'watson', 'vicodin', 'es', '7', '5', '750', 'mg', '30', '195', '120', '570', 'brand', 'watson', '7', '5', '750', 'mg', '30', '195', '120', '570', 'brand', 'watson', '10', '325', 'mg', '30', '199', '120', '588', 'noprescription', 'required', 'free', 'express', 'fedex', '3', '5', 'days', 'delivery', 'for', 'over', '200', 'order', 'major', 'credit', 'cards', 'e', 'check'], ['yay', 'to', 'you', 'both', 'doing', 'fine', 'i', 'm', 

In [43]:
# 训练集、测试集随机划分，取%10
def trainTestSplit(totalSize, testSize=0.1, seed=None):
    random.seed(seed)
    trainingIndexSet = range(totalSize)
    testingIndexSet = []
    size = int(testSize * totalSize)
    for i in range(size):
        randIndex = int(random.uniform(0,len(trainingIndexSet)))
        testingIndexSet.append(trainingIndexSet[randIndex])
        del(trainingIndexSet[randIndex])
    return trainingIndexSet, testingIndexSet
a,b = trainTestSplit(50)
print a
print b

[0, 1, 2, 3, 4, 5, 6, 7, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 21, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 48, 49]
[8, 47, 22, 46, 20]


In [50]:
def spamTest(useSetOf=True, seed=None):
    listDoc, listClass = loadDataSetFromFile() # 加载数据
    listVocab = createVocabList(listDoc) # 创建词汇表
    trainIndexSet, testIndexSet = trainTestSplit(len(listDoc), seed=seed)# 划分数据集
    # 训练模型
    trainMatrix, trainClasses = [], []
    for trainIndex in trainIndexSet:
        # 根据useSetOf判断选择词集模型还是词袋模型
        trainMatrix.append(setOfWords2Vec(listVocab, listDoc[trainIndex]) if useSetOf else bagOfWords2Vec(listVocab, listDoc[trainIndex]))
        trainClasses.append(listClass[trainIndex])
    p0Vec, p1Vec, pSpam = trainNB0(trainMatrix, trainClasses)
    errorCount = 0
    for testIndex in testIndexSet:
        testVec = setOfWords2Vec(listVocab, listDoc[testIndex]) if useSetOf else bagOfWords2Vec(listVocab, listDoc[testIndex])
        if classifyNB(p0Vec=p0Vec, p1Vec=p1Vec, pClass1=pSpam, vec2Classify=testVec) != listClass[testIndex]:
            print 'Error classify: [ %s ]' % listDoc[testIndex]
            errorCount += 1
    print 'The error rate is: ', 1.0*errorCount/len(listDoc)

In [82]:
for i in range(3):
    spamTest(seed=i*1000)

-98.8361735559 -112.47798288 -13.6418093245
-328.980871199 -281.388376165 47.5924950333
-422.121042467 -449.949752574 -27.8287101065
-102.081366689 -113.73644387 -11.6550771809
-72.0186834379 -78.5113267358 -6.4926432979
The error rate is:  0.0
-222.644878843 -235.237923783 -12.5930449405
Error classify: [ ['a', 'home', 'based', 'business', 'opportunity', 'is', 'knocking', 'at', 'your', 'door', 'don', 't', 'be', 'rude', 'and', 'let', 'this', 'chance', 'go', 'by', 'you', 'can', 'earn', 'a', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'to', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] ]
-315.323259838 -341.061428051 -25.7381682134
-60.6936775141 -65.167132487 -4.47345497286
-170.388679222 -187.508609487 -17.1199302654
-305.12605964 -328.999369153 -23.8733095123
The error rate is:  0.02
-231.323109746 -170.80286309 60.5202466558
-98.2999033149 -112.175770323 -13.8758670076
-170.162892375 -185.758912481 -15.59602

In [83]:
for i in range(3):
    spamTest(useSetOf=False, seed=i*1000)

-148.387872731 -167.286832861 -18.8989601305
-396.988406768 -331.598017648 65.3903891199
-580.975855803 -632.359760913 -51.3839051098
-149.247673237 -170.748351138 -21.5006779016
-80.9460736852 -87.6597155905 -6.71364190523
The error rate is:  0.0
-254.017233098 -268.533946718 -14.5167136196
Error classify: [ ['a', 'home', 'based', 'business', 'opportunity', 'is', 'knocking', 'at', 'your', 'door', 'don', 't', 'be', 'rude', 'and', 'let', 'this', 'chance', 'go', 'by', 'you', 'can', 'earn', 'a', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'to', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] ]
-448.040520503 -495.797688556 -47.7571680529
-62.3685651478 -66.433293381 -4.06472823324
-193.498425777 -215.427956274 -21.9295304971
-357.569761316 -386.257740129 -28.6879788124
The error rate is:  0.02
-283.963072141 -205.593907394 78.3691647472
-147.227195366 -166.944762288 -19.7175669225
-191.665625614 -213.423763299 -21.

从上述结果看，词袋模型没有能够得到比词集模型更好的结果，但是从p0和p1的差值来看，词袋模型的结果差值更大，这保证了在某些很接近的case下，可能词集模型无法正确判断，而词袋模型依然具有良好的鲁棒性，类似SVM中，词袋模型就是具有更好的distance的那一种；

## 示例：使用NB从个人广告中获取区域倾向

NB在分类以外的应用，解释NB分类器训练得到的知识；

## 小结

对于分类任务，有时输出概率要优于输出一个确定的类别，贝叶斯概率以及准则提供了一种利用已知值来估计为止概率的方法，通过假设特征之间独立，可以降低对数据量的要求，因此称之为NB，NB的两种实现：贝努利模型、多项式模型，贝努利模型只关注词是否出现，而不关注出现次数，即一个对应词集模型，一个对应词袋模型，对比来说，词袋模型在分类时，要更加明确（即类别之间的差异更大，鲁棒性更好）；