# 朴素贝叶斯

## 一. 概述

### 1.条件概率公式

事件B发生的情况下，A发生(根据图来进行推断最为清晰)                   
$p(A|B)=\frac{p(A \cap B)}{p(B)}=\frac{p(B|A)p(A)}{p(B)}$

全概率公式(如果事件A1，A2.....An构成一个完备事件且都有正概率，那么对于任意一个事件B都有：)                      
$p(B)=p(BA_1)+p(BA_2)+p(BA_3)+....p(BA_n)=p(B|A_1)p(A_1)+p(B|A_2)p(A_2)+p(B|A_3)p(A_3)+....p(B|A_n)p(A_n)$

### 2.贝叶斯推断

$p(A|B)=p(A)\frac{p(B|A)}{p(B)}$                
$p(A_i|B)=p(A_i)\frac{p(B|A_i)}{\sum_{i=1}^n p(A_i)p(B|A_i)}$            
<font color='red'>P(A)称为"先验概率"(Prior probability)，</font>即在B事件发生之前，我们对A事件概率的一个判断。        
<font color='red'>P(A|B)称为"后验概率"(Posterior probability)，</font>即在B事件发生之后，我们对A事件概率的重新评估。                  
<font color='red'>P(B|A)/P(B)称为"可能性函数"(Likely hood)，</font>这是一个调整因子，使得预估概率更接近真实概率。                 
所以条件概率可以理解为:后验概率 = 先验概率 * 调整因子               
如果"可能性函数">1，意味着"先验概率"被增强，事件A的发生的可能性变大;                
如果"可能性函数"=1，意味着B事件无助于判断事件A的可能性;             
如果"可能性函数"<1，意味着"先验概率"被削弱，

### 3.嫁？还是不嫁

利用上面的两个公式，比较简单可以分析出来

## 二. 朴素贝叶斯种类

在scikit-learn中，一共有3个朴素贝叶斯的分类算法。分别是GaussianNB，MultinomialNB和BernoulliNB

### 1.GaussianNB

GaussianNB就是先验为高斯分布(正态分布)的朴素贝叶斯，假设每个标签的数据都服从简单的正态分布<font color='red'>(高斯分布)</font>

$p(X_j=x_j|Y=C_k)=\frac{1}{\sqrt{2\pi\sigma_k^2}}exp{(-\frac{(x_j-\mu_k)^2}{2\sigma_k^2})}$       
其中$C_k$为Y的第k类类别.$\mu_k$和$\sigma_k^2$为需要从训练集估计的值。

In [20]:
#导入包
import pandas as pd
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split 
#分类准确率分数是指所有分类正确的百分比
from sklearn.metrics import accuracy_score

#导入数据集
from sklearn import datasets 
iris=datasets.load_iris()
#print(iris)
#切分数据集
Xtrain, Xtest, ytrain, ytest = train_test_split(iris.data,iris.target,random_state=12)

#建模
clf = GaussianNB() 
clf.fit(Xtrain, ytrain)

#在测试集上执行预测，proba导出的是每个样本属于某类的概率   
#clf.predict(Xtest)返回某标签
yP=clf.predict_proba(Xtest)
#print(yP)
#测试准确率
accuracy_score(ytest, clf.predict(Xtest))

0.9736842105263158

### 2. MultinomialNB

MultinomialNB就是先验为多项式分布的朴素贝叶斯。它假设特征是由一个简单多项式分布生成的。多项分布可以 描述各种类型样本出现次数的概率，因此<font color='red'>多项式朴素贝叶斯非常适合用于描述出现次数或者出现次数比例的特征。</font>  <font color='blue'> 该模型常用于文本分类，特征表示的是次数，例如某个词语的出现次数。</font>                
多项式分布公式如下:                 
$p(X_{j}=x_{jl}|Y=C_k)=\frac{x_{jl}+\lambda}{m_k+n\lambda}$                
其中，$p(X_{j}=x_{jl}|Y=C_k)$是第k个类别的第j维特征的第l个取值条件概率。$m_k$是训练集中输出为第k类的样本个数。$\lambda$为一个大于0的常数，常常取为1，即拉普拉斯平滑。也可以取其他值。

### 3. BernoulliNB

BernoulliNB就是先验为伯努利分布的朴素贝叶斯。假设特征的先验概率为二元伯努利分布，即如下式:         
$p(X_{j}=x_{jl}|Y=C_k)=p(j|Y=C_k)x_{jl}+(1-p(j|Y=C_k)(1-x_{jl}))$             
此时$l$只有两种取值。$x_{jl}$只能取值0或者1。          
在伯努利模型中，每个特征的取值是布尔型的，即true和false，或者1和0。             
在文本分类中，就是一个特征有没有在一个文档中出现。          
                  
## 总结:
- 一般来说，如果样本特征的分布大部分是连续值，使用GaussianNB会比较好。 
- 如果如果样本特征的分布大部分是多元离散值，使用MultinomialNB比较合适。 
- 而如果样本特征是二元离散值或者很稀疏的多元离散值，应该使用BernoulliNB。

## 三.朴素贝叶斯之鸢尾花数据实验

### 1.导入数据集

In [153]:
import numpy as np
import pandas as pd
import random
dataSet =pd.read_csv('/Users/Florian_Gao/Documents/13-菊安酱机器学习/数据集/iris.txt',header = None)
dataSet.head()

Unnamed: 0,0,1,2,3,4
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


### 2.切分训练集和测试集

In [154]:
import random
"""
函数功能:随机切分训练集和测试集
参数说明:
    dataSet:输入的数据集
    rate:训练集所占比例 
返回:切分好的训练集和测试集 
"""
def randSplit(dataSet, rate):
    l = list(dataSet.index) #提取出索引
    random.shuffle(l)#随机打乱索引 
    dataSet.index = l#将打乱后的索引重新赋值给原数据集
    n = dataSet.shape[0]#总行数
    m = int(n * rate)#训练集的数量 
    train = dataSet.loc[range(m), :]#提取前m个记录作为训练集
    test = dataSet.loc[range(m, n), :] #剩下的作为测试集 
    dataSet.index = range(dataSet.shape[0])#更新原数据集的索引 
    test.index = range(test.shape[0])#更新测试集的索引
    return train, test

In [155]:
train,test= randSplit(dataSet, 0.8)

In [156]:
#test

### 3.构建高斯朴素贝叶斯分类器

In [157]:
def gnb_classify(train,test):
    labels = train.iloc[:,-1].value_counts().index #提取训练集的标签种类
    #print(labels)
    mean =[] #创建mean的list
    std =[] #创建方差的list
    result = [] #创建新的预测列表
    for i in labels:
        item = train.loc[train.iloc[:,-1]==i,:] #对于训练集标签进行提取
        m = item.iloc[:,:-1].mean() #对每一列的特征进行计算平均值
        s = np.sum((item.iloc[:,:-1]-m)**2)/(item.shape[0]) #计算每一类标签种类的每一个特征的平均值
        mean.append(m)  #将平均值写入列表
        std.append(s) #将方差写入列表
    means = pd.DataFrame(mean,index=labels)  #构建df
    #print('means \n',means)
    stds = pd.DataFrame(std,index=labels)
    for j in range(test.shape[0]):  
        iset = test.iloc[j,:-1].tolist()  # to list 转换成list， iset提取test中每个数据的最后分类的特征
        #正态分布公式，越靠近平均值方差越大，则说明是这个分类 
        #而且这个是和means的每一个每类的每一列的平均值进行计算prob的
        iprob = np.exp(-1*(iset-means)**2/(stds*2))/(np.sqrt(2*np.pi*stds)) 
        #print('iprob=\n',iprob)
        prob = 1 #初始化：概率为1
        compare_pro=[-np.exp(1000000),'apple'] #自己添加的一个list，为了比较得出最大的prob
        ''''
        prob *= iprob[3] #按列计算概率
            #选出prob最大的那列的标签 他这个方法就是选最后一列的那个谁大就是谁，跟前三列无关，不知道怎么解释
        cla = prob.index[np.argmax(prob.values)] 
        '''
        for k in range(test.shape[1]-1):
            prob *= iprob[k] #按列计算概率
            #选出prob最大的那列的标签 他这个方法就是选最后一列的那个谁大就是谁，跟前三列无关，不知道怎么解释
            cla = prob.index[np.argmax(prob.values)] 
            if compare_pro[0]<=np.argmax(prob.values): #利用if比较，然后赋值，但是这样子反而出来的概率成功率小于原来的方法
                compare_pro[0]=np.argmax(prob.values)
                compare_pro[1]=cla
            #print('cla=\n compare_pro=\n',cla,compare_pro)
        result.append(cla)#这样有问题是只记录最后一列的最大的prob的index，将上面进行一个最大值替换,
        #result.append(compare_pro[1]) #用这个代码进行做的话，概率不高，但是我觉得应该是正确的
        #print('result= \n',result)
    test['predict']=result #添加列
    acc = (test.iloc[:,-1]==test.iloc[:,-2]).mean() #看是否相等，求mean
    print(f'模型预测准确率为{acc}')
    return test

### 4. 测试模型预测效果

将切分好的训练集和测试集带入模型，查看模型预测效果

In [158]:
gnb_classify(train,test)

模型预测准确率为0.9666666666666667


Unnamed: 0,0,1,2,3,4,predict
0,7.7,3.0,6.1,2.3,Iris-virginica,Iris-virginica
1,5.4,3.4,1.7,0.2,Iris-setosa,Iris-setosa
2,6.4,2.9,4.3,1.3,Iris-versicolor,Iris-versicolor
3,4.6,3.2,1.4,0.2,Iris-setosa,Iris-setosa
4,5.1,3.7,1.5,0.4,Iris-setosa,Iris-setosa
5,6.7,3.1,4.7,1.5,Iris-versicolor,Iris-versicolor
6,6.0,2.2,4.0,1.0,Iris-versicolor,Iris-versicolor
7,5.0,2.3,3.3,1.0,Iris-versicolor,Iris-versicolor
8,5.5,2.4,3.7,1.0,Iris-versicolor,Iris-versicolor
9,5.1,3.8,1.6,0.2,Iris-setosa,Iris-setosa


运行10次，查看结果

In [144]:
 for i in range(10):
    train,test= randSplit(dataSet, 0.8)
    gnb_classify(train,test)

模型预测准确率为0.9333333333333333
模型预测准确率为0.9666666666666667
模型预测准确率为0.8666666666666667
模型预测准确率为0.9333333333333333
模型预测准确率为1.0
模型预测准确率为0.9666666666666667
模型预测准确率为0.9333333333333333
模型预测准确率为1.0
模型预测准确率为0.9333333333333333
模型预测准确率为0.9333333333333333


## 四.使用朴素贝叶斯进行文档分类

朴素贝叶斯一个很重要的应用就是文本分类，所以我们以在线社区留言为例。为了不影响社区的发展，我们要屏蔽 侮辱性的言论，所以要构建一个快速过滤器，如果某条留言使用了负面或者侮辱性的语言，那么就将该留言标志为 内容不当。过滤这类内容是一个很常见的需求。对此问题建立两个类型:侮辱类和非侮辱类，使用1和0分别表示。            
我们把文本看成单词向量或者词条向量，也就是说将句子转换为向量。考虑出现所有文档中的单词，再决定将哪些
单词纳入词汇表或者说所要的词汇集合，然后必须要将每一篇文档转换为词汇表上的向量。简单起见，我们先假设
已经将本文切分完毕，存放到列表中，并对词汇向量进行分类标注。


### 1.构建词向量

留言文本已经被切分好，并且人为标注好类别，用于训练模型。类别有两类，侮辱性(1)和非侮辱性(0)。

#### 此案例所有的函数:
* loadDataSet:创建实验数据集 
* createVocabList:生成词汇表 
* setOfWords2Vec:生成词向量 
* get_trainMat:所有词条向量列表 
* trainNB:朴素贝叶斯分类器训练函数 
* classifyNB:朴素贝叶斯分类器分类函数 
* testingNB:朴素贝叶斯测试函数

In [170]:
"""
函数功能:创建实验数据集
参数说明:无参数
返回:
postingList:切分好的样本词条
classVec:类标签向量 
"""

def loadDataSet():
    dataSet=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
             ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], 
             ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
             ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
             ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'], 
             ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']] #切分好的词条
    classVec = [0,1,0,1,0,1] #类别标签向量，1代表侮辱性词汇，0代表非侮辱性词汇
    return dataSet,classVec

In [171]:
dataSet,classVec=loadDataSet()

生成词汇表

In [221]:
"""
函数功能:将切分的样本词条整理成词汇表(不重复)
参数说明:
dataSet:切分好的样本词条 返回:
vocabList:不重复的词汇表 
"""

def createVocabList(dataSet):
    vocabSet = set()  #创建一个空的集合
    for doc in dataSet: #for循环遍历其中的每一行
        print(doc)
        vocabSet = vocabSet | set(doc) #取并集，可以去重
        vocabList = list(vocabSet) 
    return vocabList #得到的vocabList是一个去过重的含有32个元素的list

In [222]:
vocabList = createVocabList(dataSet)
print(vocabList)

['my', 'dog', 'has', 'flea', 'problems', 'help', 'please']
['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid']
['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him']
['stop', 'posting', 'stupid', 'worthless', 'garbage']
['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him']
['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']
['posting', 'stop', 'buying', 'not', 'dalmation', 'quit', 'to', 'steak', 'maybe', 'please', 'park', 'take', 'help', 'worthless', 'stupid', 'mr', 'flea', 'ate', 'my', 'so', 'problems', 'love', 'has', 'is', 'dog', 'him', 'cute', 'garbage', 'how', 'I', 'food', 'licks']


生成词向量

In [223]:
"""
函数功能:根据vocabList词汇表，将inputSet向量化，向量的每个元素为1或0 参数说明:
vocabList:词汇表
inputSet:切分好的词条列表中的一条 返回:
returnVec:文档向量,词集模型 
"""

def setOfWords2Vec(vocabList, inputSet): #根据vocabList词汇表，将inputSet向量化，向量的每个元素为1或0
    returnVec = [0] * len(vocabList) #创建一个其中所含元素都为0的向量 
    for word in inputSet:   #遍历每个词条 
        if word in vocabList: #如果词条存在于词汇表中，则变为1
            returnVec[vocabList.index(word)] = 1
        else:
            print(f" {word} is not in my Vocabulary!" )
    return returnVec  #返回文档向量

所有词条向量列表:

In [231]:
"""
函数功能:生成训练集向量列表
参数说明:
dataSet:切分好的样本词条 返回:
trainMat:所有的词条向量组成的列表 
"""

def get_trainMat(dataSet):
    trainMat = [] #初始化向量列表
    vocabList = createVocabList(dataSet) #生成词汇表
    for inputSet in dataSet: #遍历样本词条中的每一条样本,也就是dataset的每一行
        returnVec=setOfWords2Vec(vocabList, inputSet) #将当前词条向量化
        trainMat.append(returnVec) #追加到向量列表中,最后的shape是6✖️32
    return trainMat

函数测试运行结果：

In [239]:
trainMat=get_trainMat(dataSet)
print(trainMat)

['my', 'dog', 'has', 'flea', 'problems', 'help', 'please']
['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid']
['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him']
['stop', 'posting', 'stupid', 'worthless', 'garbage']
['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him']
['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']
[[0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0], [1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0], [0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1], [0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0]]


### 2.朴素贝叶斯分类器训练函数

词向量构建好之后，我们就可以来构建朴素贝叶斯分类器的训练函数了

In [245]:
"""
函数功能:朴素贝叶斯分类器训练函数
参数说明:
    trainMat:训练文档矩阵
    classVec:训练类别标签向量 
返回:
    p0V:非侮辱类的条件概率数组 
    p1V:侮辱类的条件概率数组
    pAb:文档属于侮辱类的概率 
"""
def trainNB(trainMat,classVec):
    n = len(trainMat) #计算训练的文档数目 
    print('行数',n)
    m = len(trainMat[0])#计算每篇文档的词条数  一共6行，第一行有多少元素
    print('列数',m)
    pAb = sum(classVec)/n #文档属于侮辱类的概率 
    p0Num = np.zeros(m) #词条出现数初始化为0 
    p1Num = np.zeros(m) #词条出现数初始化为0 
    p0Denom = 0 #分母初始化为0
    p1Denom = 0 #分母初始化为0
    for i in range(n):  #遍历每一个文档
        print('i=',i)
        if classVec[i] == 1: #统计属于侮辱类的条件概率所需的数据
            p1Num += trainMat[i]
            print('p1num=',p1Num)
            p1Denom += sum(trainMat[i])
            print('p1Denom',p1Denom)
        else:  #统计属于非侮辱类的条件概率所需的数据
            p0Num += trainMat[i]
            p0Denom += sum(trainMat[i])
    p1V = p1Num/p1Denom
    p0V = p0Num/p0Denom
    return p0V,p1V,pAb #返回属于非侮辱类,侮辱类和文档属于侮辱类的概率

测试函数，查看结果

In [246]:
p0V,p1V,pAb = trainNB(trainMat,classVec)

行数 6
列数 32
i= 0
i= 1
p1num= [0. 0. 0. 1. 0. 0. 1. 0. 1. 0. 1. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 1. 1. 0. 0. 0. 0. 0. 0.]
p1Denom 8
i= 2
i= 3
p1num= [1. 1. 0. 1. 0. 0. 1. 0. 1. 0. 1. 1. 0. 1. 2. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 1. 1. 0. 1. 0. 0. 0. 0.]
p1Denom 13
i= 4
i= 5
p1num= [1. 1. 1. 1. 0. 1. 1. 0. 1. 0. 1. 1. 0. 2. 3. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 2. 1. 0. 1. 0. 0. 1. 0.]
p1Denom 19


In [247]:
print(vocabList)

['posting', 'stop', 'buying', 'not', 'dalmation', 'quit', 'to', 'steak', 'maybe', 'please', 'park', 'take', 'help', 'worthless', 'stupid', 'mr', 'flea', 'ate', 'my', 'so', 'problems', 'love', 'has', 'is', 'dog', 'him', 'cute', 'garbage', 'how', 'I', 'food', 'licks']


In [248]:
p0V

array([0.        , 0.04166667, 0.        , 0.        , 0.04166667,
       0.        , 0.04166667, 0.04166667, 0.        , 0.04166667,
       0.        , 0.        , 0.04166667, 0.        , 0.        ,
       0.04166667, 0.04166667, 0.04166667, 0.125     , 0.04166667,
       0.04166667, 0.04166667, 0.04166667, 0.04166667, 0.04166667,
       0.08333333, 0.04166667, 0.        , 0.04166667, 0.04166667,
       0.        , 0.04166667])

In [249]:
p1V

array([0.05263158, 0.05263158, 0.05263158, 0.05263158, 0.        ,
       0.05263158, 0.05263158, 0.        , 0.05263158, 0.        ,
       0.05263158, 0.05263158, 0.        , 0.10526316, 0.15789474,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.10526316,
       0.05263158, 0.        , 0.05263158, 0.        , 0.        ,
       0.05263158, 0.        ])

In [250]:
pAb

0.5

### 3.测试朴素贝叶斯分类器

In [198]:
#导入包
from functools import reduce 
"""
函数功能:朴素贝叶斯分类器分类函数 
参数说明:
    vec2Classify:待分类的词条数组 
    p0V:非侮辱类的条件概率数组
    p1V:侮辱类的条件概率数组
    pAb:文档属于侮辱类的概率 返回:
    0:属于非侮辱类
    1:属于侮辱类 
"""

def classifyNB(vec2Classify, p0V, p1V, pAb):
    p1 = reduce(lambda x,y:x*y, vec2Classify * p1V) * pAb #对应元素相乘
    p0 = reduce(lambda x,y:x*y, vec2Classify * p0V) * (1 - pAb)
    print('p0:',p0)
    print('p1:',p1)
    if p1 > p0:
        return 1
    else:
        return 0

In [200]:
"""
函数功能:朴素贝叶斯测试函数
参数说明:
testVec:测试样本 返回:测试样本的类别
"""
def testingNB(testVec):
    dataSet,classVec = loadDataSet() #创建实验样本 
    vocabList = createVocabList(dataSet) #创建词汇表
    trainMat= get_trainMat(dataSet) #将实验样本向量化 
    p0V,p1V,pAb = trainNB(trainMat,classVec) #训练朴素贝叶斯分类器 
    thisone = setOfWords2Vec(vocabList, testVec) #测试样本向量化
    if classifyNB(thisone,p0V,p1V,pAb): #执行分类并打印分类结果
        print(testVec,'属于侮辱类') 
    else:  #执行分类并打印分类结果
        print(testVec,'属于非侮辱类')

In [202]:
#测试样本1
testVec1 = ['love', 'my', 'dalmation'] 
testingNB(testVec1)
#测试样本2
testVec2 = ['stupid', 'garbage'] 
testingNB(testVec2)

p0: 0.0
p1: 0.0
['love', 'my', 'dalmation'] 属于非侮辱类
p0: 0.0
p1: 0.0
['stupid', 'garbage'] 属于非侮辱类


你会发现，这样写的算法无法进行分类，p0和p1的计算结果都是0，显然结果错误。这是为什么呢?

### 4. 朴素贝叶斯改进之拉普拉斯平滑

利用贝叶斯分类器对文档进行分类时，要计算多个概率的乘积以获得文档属于某个类别的概率，即计算 p(w0|1)p(w1|1)p(w2|1)。如果其中有一个概率值为0，那么最后的成绩也为0。显然，这样是不合理的，为了降低 这种影响，可以将所有词的出现数初始化为1，并将分母初始化为2。这种做法就叫做拉普拉斯平滑(Laplace Smoothing)又被称为加1平滑，是比较常用的平滑方法，它就是为了解决0概率问题。

另外一个遇到的问题就是下溢出，这是由于太多很小的数相乘造成的。我们在计算乘积时，由于大部分因子都很 小，所以程序会下溢或者得不到正确答案。为了解决这个问题，对乘积结果取自然对数。通过求对数可以避免下溢 出或者浮点数舍入导致的错误。同时，采用自然对数进行处理不会有任何损失。下图给出函数f(x)和ln(f(x))的曲 线。

检查这两条曲线就会发现它们在相同区域内同时增加或者减少，并且在相同点上取到极值。它们的取值虽然不同，
但不影响最终结果。因此可以修改代码如下:

In [204]:
 def trainNB(trainMat,classVec):
    n = len(trainMat) #计算训练文本的数量
    m = len(trainMat[0]) #计算每篇文档的词条数
    pAb = sum(classVec)/n #文档属于侮辱类的概率
    p0Num = np.ones(m) #词条出现数初始化为1
    p1Num = np.ones(m) #词条出现数初始化为1
    p0Denom = 2 #分母初始化为2
    p1Denom = 2 #分母初始化为2
    for i in range(n): #遍历整个文档
        if classVec[i] == 1: #统计属于侮辱类的条件概率所需的数据
            p1Num += trainMat[i] 
            p1Denom += sum(trainMat[i])
        else: #统计属于非侮辱类的条件概率所需的数据
            p0Num += trainMat[i]
            p0Denom += sum(trainMat[i])
    p1V = np.log(p1Num/p1Denom) #这里做了改变
    p0V = np.log(p0Num/p0Denom)
    return p0V,p1V,pAb  #返回属于非侮辱类,侮辱类和文档属于侮辱类的概率

In [206]:
#查看代码结果
p0V,p1V,pAb = trainNB(trainMat,classVec)

In [None]:
def classifyNB(vec2Classify, p0V, p1V, pAb):
    p1 = sum(vec2Classify * p1V) + np.log(pAb)
    p0 = sum(vec2Classify * p0V) + np.log(1- pAb)
    if p1 > p0:
        return 1
    else:
        return 0

In [208]:
#代码运行
#测试样本1
testVec1 = ['love', 'my', 'dalmation'] 
testingNB(testVec1)
#测试样本2
testVec2 = ['stupid', 'garbage'] 
testingNB(testVec2)

['love', 'my', 'dalmation'] 属于非侮辱类
['stupid', 'garbage'] 属于侮辱类
