# Naive Bayes

Naive Bayes的优缺点
> 优点：在数据较少的情况下仍然有效，可以处理多类别问题。<br>
> 缺点：对输入数据的准备方式较为敏感。<br>
> 适用数据类型：标称型数据。<br>

朴素贝叶斯的一般过程
> 1. 收集数据：可以使用任何方法。本章使用RSS源。
> 2. 准备数据：需要数值型或者布尔型数据。
> 3. 分析数据：有大量特征时，绘制特征作用不大，此时使用直方图效果更好。
> 4. 训练算法：计算不同的独立特征的条件概率。
> 5. 测试算法：计算错误率。
> 6. 使用算法：文档分类等。

In [1]:
import numpy as np

## 1. 算法实现
### a.从文本中构建词向量

In [2]:
def loadDataSet():
    postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                   ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                   ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                   ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                   ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                   ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0, 1, 0, 1, 0, 1]
    return postingList, classVec

def createVocabList(dataSet):
    """Return set of All words."""
    
    vocabSet = set()
    for document in dataSet:
        # 计算集合的并
        vocabSet = vocabSet | set(document)
    return list(vocabSet)

def setOfWords2Vec(vocabList, inputSet):
    """
    遍历查看该单词是否出现，出现则将单词置1
    
    Parameters
    -----------
    vocabList : 所有单词的集合列表
    inputSet : 输入数据集
    
    Return
    -----------
    returnVec : 匹配列表
    """
    
    returnVec = [0] * len(vocabList)
    for word in inputSet:
        if word in inputSet:
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word: %s is not in my Vocabulary!" % word)
    return returnVec

In [3]:
listOPosts, listClasses = loadDataSet()
myVocabList = createVocabList(listOPosts)
myVocabList # 所有单词的集合，不含重复单词

['has',
 'cute',
 'not',
 'my',
 'how',
 'licks',
 'love',
 'I',
 'dog',
 'food',
 'worthless',
 'so',
 'dalmation',
 'maybe',
 'mr',
 'problems',
 'help',
 'quit',
 'garbage',
 'steak',
 'to',
 'stop',
 'ate',
 'flea',
 'park',
 'is',
 'take',
 'posting',
 'stupid',
 'buying',
 'him',
 'please']

In [4]:
# 查看输入样本中的单词在单词表中的分布情况
setOfWords2Vec(myVocabList, listOPosts[0])

[1,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1]

### b. 从词向量计算概率

In [5]:
def trainNB0(trainMatrix, trainCategory):
    """朴素贝叶斯分类Demo
    
    Parameters
    -----------
    trainMatrix : 总的输入文本
    trainCategory : 文件对应的类别分类
    
    """
    numTrainDocs = len(trainMatrix)        # 训练文本的个数 
    numWords = len(trainMatrix[0])         # 训练样本向量，也是上面setOfWord2Vec得到的结果。
    # 因为侮辱性被标记为了1，所以计算数目时只要相加就可以了。这样也就得到了侮辱性文件个数的概率
    # 即trainCategory中1的个数
    pAbusive = np.sum(trainCategory) / float(numTrainDocs)
    # p0Num：非侮辱性样本中所有词汇出现的频度；p1Num：侮辱性样本中所有词汇出现的频度
    p0Num = np.zeros(numWords); p1Num = np.zeros(numWords)
    # p0Denom：非侮辱性样本中词汇总量；p1Denom：侮辱性样本中词汇总量
    p0Denom = 0.0; p1Denom = 0.0
    
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += np.sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += np.sum(trainMatrix[i])
    p1Vect = p1Num / p1Denom
    p0Vect = p0Num / p0Denom
    return p0Vect, p1Vect, pAbusive

In [7]:
# 测试Demo版分类函数
trainMat = []
for postinDoc in listOPosts:
    trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
trainMat[:1]

[[1,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1]]

In [13]:
p0V, p1V, pAb = trainNB0(trainMat, listClasses)
print(pAb, "\n")
print(p0V, "\n\n", p1V)

0.5 

[0.04166667 0.04166667 0.         0.125      0.04166667 0.04166667
 0.04166667 0.04166667 0.04166667 0.         0.         0.04166667
 0.04166667 0.         0.04166667 0.04166667 0.04166667 0.
 0.         0.04166667 0.04166667 0.04166667 0.04166667 0.04166667
 0.         0.04166667 0.         0.         0.         0.
 0.08333333 0.04166667] 

 [0.         0.         0.05263158 0.         0.         0.
 0.         0.         0.10526316 0.05263158 0.10526316 0.
 0.         0.05263158 0.         0.         0.         0.05263158
 0.05263158 0.         0.05263158 0.05263158 0.         0.
 0.05263158 0.         0.05263158 0.05263158 0.15789474 0.05263158
 0.05263158 0.        ]


### c. 根据实际情况修改分类器

在使用朴素贝叶斯分类器时：
> 1. 由于一些概率值可能会为0，这样最后的乘积也就为0，为了避免这种情况，可以使用拉普拉斯算子，将所有词汇的出现次数初始化为1，分母初始化为2。
> 2. 由于大部分概率值都很小，这样在做连积的时候会造成程序下溢。这里对成绩取对数，把求积转换成求和。

对上面代码进行修改，得到新的函数。

In [14]:
def trainNB(trainMatrix, trainCategory):
    """朴素贝叶斯分类Modify
    
    Parameters
    -----------
    trainMatrix : 总的输入文本
    trainCategory : 文件对应的类别分类
    
    """
    numTrainDocs = len(trainMatrix)        # 训练文本的个数 
    numWords = len(trainMatrix[0])         # 训练样本向量，也是上面setOfWord2Vec得到的结果。
    pAbusive = np.sum(trainCategory) / float(numTrainDocs)
    p0Num = np.ones(numWords); p1Num = np.ones(numWords)
    p0Denom = 2.0; p1Denom = 2.0
    
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += np.sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += np.sum(trainMatrix[i])
    p1Vect = np.log(p1Num / p1Denom)
    p0Vect = np.log(p0Num / p0Denom)
    return p0Vect, p1Vect, pAbusive

In [15]:
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = np.sum(vec2Classify * p1Vec) + np.log(pClass1)
    p0 = np.sum(vec2Classify * p0Vec) + np.log(1 - pClass1)   # 二分类，所以直接用1减
    if p1 > p0:
        return 1
    else:
        return 0
    
def testingNB():
    """测试朴素贝叶斯算法"""
    
    # 1. 加载数据集
    listOPosts, listClasses = loadDataSet()
    # 2. 创建单词集合
    myVocabList = createVocabList(listOPosts)
    trainMat = []
    
    # 3. 计算单词是否出现并创建样本矩阵
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    
    # 4. 训练数据
    p0V, p1V, pAb = trainNB(np.array(trainMat), np.array(listClasses))
    # 5. 测试数据
    testEntry = ['love', 'my', 'dalmation']
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb))
    
    testEntry = ['stupid', 'garbage']
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))
    print(testEntry, 'classified as: ', classifyNB(thisDoc, p0V, p1V, pAb))

In [16]:
testingNB()

['love', 'my', 'dalmation'] classified as:  0
['stupid', 'garbage'] classified as:  1
