###  Description:
> 该项目利用朴素贝叶斯模型实现垃圾邮件的过滤，属于文本分类的范畴，首先我们需要知道，文本分类如何做呢？ 
>> *  要从文本中获取特征， 需要先拆分文本，根据某个单词是否出现在文本中标记为0或者1， 把文本中的一个个词条转成词向量、
>> * 然后在这个基础上构建贝叶斯分类器，进行分类
>> * 最后实现这个项目
>
> 步骤：
>> * 准备数据： 从文本中构建词向量（词集模型或者词袋模型）
>> * 训练算法： 从词向量计算概率
>> * 测试算法： 根据现实情况修改分类器
> 
> 学习Python处理文本的相关知识和朴素贝叶斯里面的伯努利模型和多项式模型的原理

###  1. 导入包

In [2]:
import numpy as np
import re   #  re是Python的正则模块

###  2. 准备数据： 从文本中构建词向量
> * 2.1 定义创建列表函数，也就是词库
> * 2.2 定义词集模型函数
> * 2.3 定义词袋模型函数

#### 2.1 定义创建列表函数
> createVocabList()函数会创建一个包含在所有文档中出现的不重复词的列表, 通常我们理解的词库

In [7]:
def createVocabList(dataset):
    vocabSet = set([])         #创建一个空集
    for document in dataset:
        vocabSet = vocabSet | set(document)    #再创建一个空集后，将每篇文档返回的新词集合添加到该集合中，再求两个集合的并集
    return list(vocabSet)

#### 2.2 创建词集模型函数setOfWords2Vec()
> 该函数的输入参数为词汇表及某个文档， 输出的是文档向量， 每一个元素为1或者0，分别表示词汇表中的单词在输入文档中是否出现

In [20]:
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)           #函数首先创建一个和词汇表等长的向量，并将其元素都设置为0
    #接着，遍历文档中的所有单词，如果出现了词汇表中的单词，则将输出的文档向量中的对应值设为1。
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word: %s is not in my Vocabulary!" % word)
    return returnVec

"""
一定要注意， 把每一篇文档转换成词向量，这里的方式是先要有一个词库包含所有文档里面的单词（不要重复）， 然后遍历每一篇文档，查看词库里面的词
在不在文档里面，在，词库的位置标1，否则标0，返回的是这样的一个向量
"""

'\n一定要注意， 把每一篇文档转换成词向量，这里的方式是先要有一个词库包含所有文档里面的单词（不要重复）， 然后遍历每一篇文档，查看词库里面的词\n在不在文档里面，在，词库的位置标1，否则标0，返回的是这样的一个向量\n'

####  2.3 定义词带模型函数（bag-of-words）
> 词袋模型和词集模型的区别是，不仅统计词库里面的每个词在每一篇文档里面有没有出现， 并且还统计那个词在文档里面出现过几次，相应的位置就会是几。

In [22]:
def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec

"""
把每一篇文档转换成词向量，词袋模型做的是，在有词库的基础上， 遍历每一篇文档，查看词库里面的词，在不在文档里面，在还不行，有几个
就标1，否则标0，返回的是这样的一个向量
"""

'\n把每一篇文档转换成词向量，词袋模型做的是，在有词库的基础上， 遍历每一篇文档，查看词库里面的词，在不在文档里面，在还不行，有几个\n就标1，否则标0，返回的是这样的一个向量\n'

In [26]:
# 用一个小文本测试一下上面的函数
"""
    以在线社区的留言板为例， 为了不影响社区的发展，我们需要屏蔽侮辱性的言论， 所以要构建一个快速过滤器， 如果某个言论出现了侮辱性
    的言论， 我们要把它屏蔽掉，所以任务就是判别言论是侮辱性的还是非侮辱性的。 看下面的例子， 1代表侮辱，0代表非侮辱
"""
postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
               ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
               ['my', 'dalation', 'is', 'so', 'cute', 'I', 'love', 'him'],
               ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
               ['mr', 'lick', 'ate', 'my', 'steak', 'how','to', 'stop', 'him'],
               ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']
              ]

print(len(postingList))
classVec = [0, 1, 0, 1, 0, 1]

myVocabList = createVocabList(postingList)
print(myVocabList)

text2Vec = []
for i in range(len(postingList)):
    text2Vec.append(setOfWords2Vec(myVocabList, postingList[i]))
    
print(text2Vec)

6
['garbage', 'food', 'how', 'stupid', 'please', 'ate', 'to', 'dalation', 'quit', 'mr', 'so', 'dog', 'stop', 'buying', 'my', 'park', 'worthless', 'steak', 'has', 'not', 'I', 'cute', 'flea', 'him', 'help', 'problems', 'maybe', 'take', 'love', 'posting', 'is', 'lick']
[[0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0], [0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0], [1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0], [0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1], [0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]


###  3. 定义朴素贝叶斯分类器的训练函数
> 从词向量计算概率
>> 现在已经知道， 一个词是否出现在一篇文档中， 也知道文档所属的类别。 下面就要用贝叶斯公式来计算概率：
>> 使用贝叶斯公式， 对每个类计算该值， 然后比较这两个概率值的大小。 
>
> 伪代码：
>> * 计算每个类别中的文档数目
>> * 对每篇训练文档：
>>> * 对每个类别：
>>>> * 如果词条出现在文档中 -> 增加该词条的计数值
>>>> * 增加所有词条的计数值
>> * 对每个类别：
>>> * 对每个词条：
>>>> * 将该词条的数目除以总词条数目得到条件概率
>> * 返回每个类别的条件概率

In [58]:
"""
函数说明:朴素贝叶斯分类器训练函数
trainMatrix--训练文档矩阵，即setOfWords2Vec返回的returnVec构成的矩阵；trainCategory--训练类别标签向量
p1Vect--标记为1的类条件概率数组；p0Vect--标记为0的类条件概率数组；pAbusive是标记为1类的先验概率
"""

def trainNB(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)    # 计算有多少文档
    numWords = len(trainMatrix[0])     # 计算词库里面有多少单词
    pAbusive = sum(trainCategory) / float(numTrainDocs)    # 标记为1类的先验概率
    
    """
    创建numpy数组初始化为1，拉普拉斯平滑。
    创建numpy.zeros数组,词条出现数初始化为0。分母初始化为2
    
    """
    p0Num = np.ones(numWords)
    p1Num = np.ones(numWords)
    
    p0Denom = 2.0
    p1Denom = 2.0    # 防止分母是0
    
    # 计算条件概率
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]         # 计算
            p1Denom += 1
        else:
            p0Num += trainMatrix[i]
            p0Denom += 1
        
    #由于大部分因子都非常小，防止数值下溢得不到正确答案。于是加log计算，可以使得答案不会过小。
    p1Vect = np.log(p1Num/p1Denom)          #change to np.log()
    p0Vect = np.log(p0Num/p0Denom)          #change to np.log()
    
    return p0Vect, p1Vect, pAbusive

"""
这里的思想， 就是看看一共多少篇文档， 然后只计算了1类的先验概率， 至于条件概率，也比较简单， 由于词向量非1即0
所以， 如果想算每个特征的条件概率，直接竖着相加，然后除以相应类别的个数
"""

'\n这里的思想， 就是看看一共多少篇文档， 然后只计算了1类的先验概率， 至于条件概率，也比较简单， 由于词向量非1即0\n所以， 如果想算每个特征的条件概率，直接竖着相加，然后除以相应类别的个数\n'

In [42]:
# 测验函数
p0v, p1v, pAb = trainNB0(text2Vec, classVec)
print("侮辱性的文档占的比例：", pAb)

print("侮辱性文章每个特征的条件概率：", p1v)
print("非侮辱性文章每个特征的条件概率：", p0v)

侮辱性的文档占的比例： 0.5
侮辱性文章每个特征的条件概率： [-0.91629073 -0.91629073 -1.60943791 -0.22314355 -1.60943791 -1.60943791
 -0.91629073 -1.60943791 -0.91629073 -1.60943791 -1.60943791 -0.51082562
 -0.91629073 -0.91629073 -1.60943791 -0.91629073 -0.51082562 -1.60943791
 -1.60943791 -0.91629073 -1.60943791 -1.60943791 -1.60943791 -0.91629073
 -1.60943791 -1.60943791 -0.91629073 -0.91629073 -1.60943791 -0.91629073
 -1.60943791 -1.60943791]
非侮辱性文章每个特征的条件概率： [-1.60943791 -1.60943791 -0.91629073 -1.60943791 -0.91629073 -0.91629073
 -0.91629073 -0.91629073 -1.60943791 -0.91629073 -0.91629073 -0.91629073
 -0.91629073 -1.60943791 -0.22314355 -1.60943791 -1.60943791 -0.91629073
 -0.91629073 -1.60943791 -0.91629073 -0.91629073 -0.91629073 -0.51082562
 -0.91629073 -0.91629073 -1.60943791 -1.60943791 -0.91629073 -1.60943791
 -0.91629073 -0.91629073]


###  4. 定义朴素贝叶斯分类器的预测函数

In [60]:
#函数说明:朴素贝叶斯分类器分类函数
#vec2Classify--待分类的词条数组; p1Vec--标记为类1的类条件概率数组; p0Vec--标记为类0的类条件概率数组; pClass1--标记为1类的先验概率
d
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    """
    1.计算待分类词条数组为1类的概率
        这里我感觉vec2Classify是一维数组， 并且这里使用的朴素贝叶斯里面的多项式模型
    """
    #寻找vec2Classify测试数组中，元素为0时对应的索引值
    index = np.where(vec2Classify==0)
    #遍历元素为0时的索引值，并从p1Vec--1类的条件概率数组中取出对应索引的数值，并存储成列表的形式（p1Vec0=[]）
    p1Vec0=[]
    for i in index:
        for m in i:
            p1Vec0.append(p1Vec[m])
    #所有1-P(vec2Classify=0|1)组成的列表
        x0=np.ones(len(p1Vec0))-p1Vec0
    #寻找vec2Classify测试数组中，元素为1时对应的索引值
    index1= np.where(vec2Classify==1)
    #遍历元素为1时的索引值，并从p1Vec--1类的条件概率数组中取出对应索引的数值，并存储成列表的形式（p1Vec1=[]）
    p1Vec1=[]
    for i in index1:
        for m in i:
            p1Vec1.append(p1Vec[m])
    #所有P(vec2Classify=0|1)组成的列表
    x1=p1Vec1      
    ##对应元素相乘。logA * B = logA + logB，所以这里加上log(pClass1)
    p1 = sum(x0)+sum(x1) +  np.log(pClass1)        
    """
    2.计算待分类词条数组为0类的概率
    """
    
    #寻找vec2Classify测试数组中，元素为0时对应的索引值
    index2 = np.where(vec2Classify==0)
    #遍历元素为0时的索引值，并从p0Vec--0类的条件概率数组中取出对应索引的数值，并存储成列表的形式（p0Vec0=[]）
    p0Vec0=[]
    for i in index2:
        for m in i:
            p0Vec0.append(p0Vec[m])
    #所有1-P(vec2Classify=0|0)组成的列表
    w0=np.ones(len(p0Vec0))-p0Vec0
    #寻找vec2Classify测试数组中，元素为1时对应的索引值
    index3= np.where(vec2Classify==1)
    #遍历元素为1时的索引值，并从p0Vec--0类的条件概率数组中取出对应索引的数值，并存储成列表的形式（p0Vec1=[]）
    p0Vec1=[]
    for i in index3:
        for m in i:
            p0Vec1.append(p0Vec[m])
    #所有1-P(vec2Classify=0|0)组成的列表
    w1=p0Vec1
    ##对应元素相乘。logA * B = logA + logB，所以这里加上log(pClass1)
    p0 = sum(w0)+sum(w1) +  np.log(1.0 - pClass1)
    
    if p1 > p0:
        return 1
    else:
        return 0

### 5. 使用朴素贝叶斯过滤垃圾邮件

In [54]:
"""
书本中4.6.1节 准备数据，切分文本部分写的很清晰。
"""
#将一个大字符串解析为字符列表。input is big string, #output is word list
def textParse(bigString):    
    listOfTokens = re.split(r'\W+', bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]

"""该函数textParse()接受一个大字符串并将其解析为字符列表。去掉少于两个字符的字符串， 并将所有字符串为小写"""

'该函数textParse()接受一个大字符串并将其解析为字符列表。去掉少于两个字符的字符串， 并将所有字符串为小写'

In [55]:
line = "aaa bbb ccc; ddd eee; a fff"
textParse(line)

['aaa', 'bbb', 'ccc', 'ddd', 'eee', 'fff']

In [56]:
def spamTest():
    docList = []; classList = []; fullText = []
    #遍历25个txt文件
    for i in range(1, 26):
        #读取每个垃圾邮件，大字符串转换成字符列表。
        wordList = textParse(open('email/spam/%d.txt' % i, encoding="ISO-8859-1").read())
        docList.append(wordList)
        fullText.extend(wordList)
        #标记垃圾邮件，1表示垃圾邮件
        classList.append(1)
        #读取每个非垃圾邮件，字符串转换为字符列表
        wordList = textParse(open('email/ham/%d.txt' % i, encoding="ISO-8859-1").read())
        docList.append(wordList)
        fullText.extend(wordList)
        #标记每个非垃圾邮件，0表示非垃圾邮件
        classList.append(0)
    #创建词汇表，不重复
    vocabList = createVocabList(docList)
    #创建存储训练集的索引值的列表
    trainingSet =list(range(50));          # 0-49的列表
    #创建存储测试集的索引值的列表
    testSet= [] 
    #从50个邮件中，随机挑选出40个作为训练集，10个作为测试集
    for i in range(10):
        #随机选取索引值
        randIndex = int(np.random.uniform(0, len(trainingSet)))      # 随机选择10个
        #添加测试集的索引值
        testSet.append(trainingSet[randIndex])              #  得到测试集
        #在训练集的列表中删除添加到测试集的索引值
        del(list(trainingSet)[randIndex])     # 从训练集中删除
    #创建训练集矩阵和训练集类别标签向量
    trainMat = []; 
    trainClasses = []
    #遍历训练集，目前只有40个训练集
    for docIndex in trainingSet:
        #将生成的词集模型添加到训练矩阵中
        trainMat.append(setOfWords2Vec(vocabList, docList[docIndex]))
        #将类别标签添加到训练集的类别标签向量中
        trainClasses.append(classList[docIndex])
    """
    训练朴素贝叶斯模型
    """
    #训练朴素贝叶斯模型
    p0V, p1V, pSpam = trainNB(np.array(trainMat), np.array(trainClasses))
    #错误分类计数
    errorCount = 0
    #遍历测试集
    for docIndex in testSet:    
        #测试集的词集模型
        wordVector = setOfWords2Vec(vocabList, docList[docIndex])
        if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:
            errorCount += 1
            print("classification error", docList[docIndex])
    print('the error rate is: ', float(errorCount)/len(testSet))

In [61]:
spamTest()

classification error ['benoit', 'mandelbrot', '1924', '2010', 'benoit', 'mandelbrot', '1924', '2010', 'wilmott', 'team', 'benoit', 'mandelbrot', 'the', 'mathematician', 'the', 'father', 'fractal', 'mathematics', 'and', 'advocate', 'more', 'sophisticated', 'modelling', 'quantitative', 'finance', 'died', '14th', 'october', '2010', 'aged', 'wilmott', 'magazine', 'has', 'often', 'featured', 'mandelbrot', 'his', 'ideas', 'and', 'the', 'work', 'others', 'inspired', 'his', 'fundamental', 'insights', 'you', 'must', 'logged', 'view', 'these', 'articles', 'from', 'past', 'issues', 'wilmott', 'magazine']
classification error ['thanks', 'peter', 'definitely', 'check', 'this', 'how', 'your', 'book', 'going', 'heard', 'chapter', 'came', 'and', 'was', 'good', 'shape', 'hope', 'you', 'are', 'doing', 'well', 'cheers', 'troy']
classification error ['arvind', 'thirumalai', 'commented', 'your', 'status', 'arvind', 'wrote', 'you', 'know', 'reply', 'this', 'email', 'comment', 'this', 'status']
the error rat

### 6 总结
> * np.where对于二维数组是啥样子？
> * [正则式的几种表达](https://blog.csdn.net/a18852867035/article/details/82846763)
> * [re.split和str.split](https://www.jianshu.com/p/5c8c7e38891c)
> * 关于朴素贝叶斯， 后面基于三种分布，高斯分布， 多项式分布和伯努利分布， 在自然语言处理问题中，多项式分布和伯努利分布有点差别， 参考下面的两篇博客：
>> * [机器学习之基于朴素贝叶斯文本分类算法](https://blog.csdn.net/lming_08/article/details/37542331)
>> * [朴素贝叶斯的三个常用模型：高斯、多项式、伯努利](https://blog.csdn.net/qq_27009517/article/details/80044431)

In [52]:
a = np.array([[1, 2, 3], [4, 2, 6], [7, 8, 2]])
index = np.where(a==2)
print(type(index))
print(index)
list(index)
for i in index:
    print(i)
    for m in i:
        print(m)

<class 'tuple'>
(array([0, 1, 2], dtype=int64), array([1, 1, 2], dtype=int64))
[0 1 2]
0
1
2
[1 1 2]
1
1
2


In [53]:
line = "aaa bbb ccc; ddd eee;fff"
re.split(r'\W+', line)

"""W+是这直接按照能分隔的字符进行分隔"""

['aaa', 'bbb', 'ccc', 'ddd', 'eee', 'fff']