## 朴素贝叶斯模型 （Naive Bayes Model）

### 1. 全概率公式与贝叶斯公式

机器学习中的贝叶斯模型是从贝叶斯公式得到，而贝叶斯又是从全概率公式得到：

- 全概率公式

假设事件 A, 与一个划分 $B_1, B_2, ..., B_n$, 则事件 A 的概率为：

\begin{align}
P(A) &= P[ A( B_1 \cup B_2 \cup ... \cup B_n ) ]
\\   &= P(AB_1) + P(AB_2) + ... + P(AB_n)
\\   &= \sum_{i=1}^n P(AB_i)
\\   &= \sum_{i=1}^n P(B_i)P(A \mid B_i)
\end{align}

- 贝叶斯公式

从当事件 A 发生时反推 $B_i$ 发生的概率，则有：

\begin{align}
P(B_i \mid A) &= \frac{P(B_i)P(A \mid B_i)}{P(A)}
\\ &= \frac{P(B_i)P(A \mid B_i)}{\sum_{k=1}^n P(B_k)P(A \mid B_k)}
\end{align}

### 2. 文本分类

应用到文本分类，可以将文本的所有类别看成是一个划分，如邮件分类时的 spam 与 ham。 利用贝叶斯公式给定一个 txt 时，则其为 ham 与 spam 的概率分别为：
\begin{align}
P(ham \mid txt) &= \frac {P(txt \cdot ham)} {P(txt)} = \frac {P(ham) P(txt \mid ham)} {P(txt)}
\\P(spam \mid txt) &= \frac {P(txt \cdot spam)} {P(txt)} = \frac {P(spam) P(txt \mid spam)} {P(txt)}
\end{align}

两者那个概率大，则 txt 就属于那种分类。

用形式化的语言来描述：假设有分类 $c_1, c_2$，则 $P(c_1 \mid txt), P(c_1 \mid txt)$ 分别表示为 txt  来自类别  $c_1， c_2$ 的概率分别是多少？ 具体地，应用贝叶斯准则得到：

\begin{align}
P(c_i \mid txt) = \frac {p(c_i) p(txt \mid c_i)} {p(txt)}
\end{align}

而贝叶斯决策理论的核心思想是：选择具有最高概率的决策。

### 3. 算法实现

在算法实现上， txt 可以用向量 $\mathbf{w}$ 来表示 $\mathbf{w} = (0, 1, 1, ...)$, 0, 1 表示在字典中是否出现。而字典的构造则由所有训练样本中的单词组成。所以用：

\begin{align}
P(c_i \mid \mathbf{w}) = \frac {p(c_i) p(\mathbf{w} \mid c_i)} {p(\mathbf{w})}
\end{align}

**公式计算说明**：
1. 因为在选择最高概率的决策时，只需要对分子进行比较即可，分母不需要计算。
2. $P(c_i)$ 的计算方法只需要统计下分类 $c_i$ 在全部训练样本中的比重即可。
3. 而对于 $P(\mathbf{w} \mid c_i)$ 则就要用到我们的朴素贝叶斯假设了，即假设 $\mathbf{w}$ 由 n 个单词组成，每个单词 $w_i$ 相互独立，
即有：$P(\mathbf{w} \mid c_i)$ = $p(w_0, w_1, ..., w_n \mid c_i) = p(w_0 \mid c_i)p(w_1 \mid c_i) ... p(w_n \mid c_i)$ 
4. $p(w_k|c_i)$ 的计算最简单有两个方式：
    - 词集模型(set-of-words), 只考虑 word 是否在词典中出现。出现为 1，不出现为 0。
    - 词包模型(bag-of-words), 不仅考虑 word 是否出现, 而且还记录出现的次数。

### 4. 简单的例子
训练样本为一些是否表示喜欢的文本

Order| text | Like/Dislike|
---|---|---|
 1| 		'I love you' 									| 0
 2| 		'Glad glad glad glad see you' | 0
 3| 		'happy happy with you' 				| 0
 4| 		'Sad talk with you sad' 			| 1
 5| 		'I hate hate hate you' 				| 1
 6| 		'I dislike you' 							| 1
 
#### a. 创建字典

字典为：
```
['love', 'i', 'with', 'sad', 'see', 'talk', 'you', 'hate', 'dislike', 'glad', 'happy']
```
#### b. 根据词集模型表示每个训练样本

第个训练样本可以用向量 $\mathbf{w}$ 来表示。

```
	[	
		[1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0], # like 0, num of word, 3
		[0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0], # like 0, num of word, 3
		[0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1], # like 0, num of word, 3

		[0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0], # dislike 1, num of word, 4
		[0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0], # dislike 1, num of word, 3
		[0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0], # dislike 1, num of word, 3
	]
```

- 计算所有单词在 like 分类的 $p(w_i \mid like)$ 概率向量

    在 like 分类中，单词的出现的总次数为 3 + 3 + 3 =  9， 每个单词出现的概率组成的概率向量为：

\begin{align}
[p(w_0 \mid like), p(w_1 \mid like), ..., p(w_8 \mid like)]  
\\ &= [p(love \mid like), p(i \mid like), ..., p(happy \mid like)] 
\\ &= [ 0.1111,  0.1111,  0.1111,  0. ,   0.1111 , 0. , 0.3333,  0. ,  0.  , 0.1111 , 0.1111]
\end{align}


- 计算所有单词在 dislike 分类的 $p(w_i \mid dislike)$ 概率向量

    在 dislike 分类中，单词出现的总次数 4 + 3 + 3 = 10， 每个单词出现的概率组成的概率向量为：

\begin{align}
[p(w_0 \mid dislike), p(w_1 \mid dislike), ..., p(w_8 \mid dislike)]  
\\ &= [p(love \mid dislike), p(i \mid dislike), ..., p(happy \mid dislike)] 
\\ &= [ 0. ,  0.2 , 0.1 , 0.1 , 0.  ,  0.1 ,  0.3  , 0.1  , 0.1 ,  0.  ,  0. ] 
\end{align}


- 计算 $p(like), p(dislike)$

```
    p(like) = 3/6 = 0.5
    p(dislike) = 3/6 = 0.5
```

#### c. 判定文本

计算出了  $p(like), p(dislike), p(w_i \mid like), p(w_i \mid dislike)$ 就训练出来模型了。就可以对输入文本进行判断了。

假设输入广本为：msg = 'I love like you', 则其对应的词集向量为$\mathbf{w_{msg}}$ : [1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0]

则有： 

\begin{align}
p(like \mid \mathbf{w_{msg}}) &= \frac {p(like) * p(\mathbf{w_{msg}} \mid like)}{p(\mathbf{w_{msg}})}
\\ &= \frac { [ 0.1111,  0.1111,  0.1111,  0. ,   0.1111 , 0., 0.3333,  0. ,  0.  , 0.1111 , 0.1111] * [1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0]}{p(\mathbf{w_{msg}})}
\\
p(dislike \mid \mathbf{w_{msg}}) &= \frac {p(dislike) * p(\mathbf{w_{msg}} \mid dislike)}{p(\mathbf{w_{msg}})}
\\ &= \frac { [ 0. ,  0.2 , 0.1 , 0.1 , 0.  ,  0.1 ,  0.3  , 0.1  , 0.1 ,  0.  ,  0. ]  * [1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0]}{p(\mathbf{w_{msg}})}
\end{align}

选择概率最大的就是文本的分类。

**注意：** 

1. 上面的概率$P(\mathbf{w} \mid c_i)$ = $p(w_0, w_1, ..., w_n \mid c_i) = p(w_0 \mid c_i)p(w_1 \mid c_i) ... p(w_n \mid c_i)$ 相乘都为 0. 因为有些单词未出现概率就是为0，解决方法是: **可以将所有词出现的次数初始化为1， 并将单词总数的分母初始化为2.**

2. $P(\mathbf{w} \mid c_i)$ = $p(w_0, w_1, ..., w_n \mid c_i) = p(w_0 \mid c_i)p(w_1 \mid c_i) ... p(w_n \mid c_i)$ 计算时，由于大部分因子都非常小，所以程序会下溢或者得不到正确答案，**我们可以用 `ln(a/b)` 函数来替代 `a/b`计算概率**。



#### d. 说明

上面的模型计算我们使用了词集模型，我们也可使用词包模型，对于词包模型对应的向量及 $p(like), p(dislike)$的结果为：

```
[
	[1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0],
	[0, 0, 0, 0, 1, 0, 1, 0, 0, 4, 0],
	[0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 2],

	[0, 0, 1, 2, 0, 1, 1, 0, 0, 0, 0],
	[0, 1, 0, 0, 0, 0, 1, 3, 0, 0, 0],
	[0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0],
]

[ 0.0769, 0.0769, 0.0769, 0., 0.0769, 0. , 0.2307, 0. , 0. , 0.3076, 0.1538]
[ 0. , 0.1538, 0.0769, 0.1538, 0.  , 0.0769, 0.2307, 0.2307, 0.0769, 0.  , 0. ]
```

是使用词包模型还是词集模型，可以通过测试看一下效果来决定。

**注意：**

每个分为 $c_i$ 对应的分类字典是不一样的, 出现的总次数也不一样，也可能一样。


### 5. 代码实现

In [50]:
'''
encoding: utf8
朴素贝叶斯分类模型
'''
import numpy as np
from math import log

# 加载样本数据，下面是收集到的 6 条评论，并且有相应的分类标签。
def loadDataset():
    
  postingList = [
    ['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
    ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
    ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
    ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
    ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
    ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']
  ]
  classVec = [0, 1, 0, 1, 0, 1]
    
  return postingList, classVec

# 创建朴素贝叶斯模型的字典
def createVocabulary(postList):
    
    vocabSet = set([])
    for post in postList:
        vocabSet = vocabSet | set([word.lower() for word in post]) # 注意这里的 “|“ 不在是位运算的“或“而是集合运算中的并集。
    
    return vocabSet


'''
将文本样本 words 转换成与字典对应的向量, 可以选择是词包模型(bag-of-words)，还是词集模型(set-of-words)。
'''
def wordsToVector(vocabSet, words, type='set'):
    numWords = len(vocabSet)
    wordsVec = np.zeros(numWords)
    words = [word.lower() for word in words]
    index = 0
    for word in vocabSet:
        if word in words:
            # set-of-words
            if type == 'set':
                wordsVec[index] = 1
            # bag-of-words
            else:
                wordsVec[index] = words.count(word)
        index += 1
    
    return wordsVec

'''
训练朴素贝叶斯模型，计算所有分类的概率向量。不仅支持两分的模型，也支持多于两个文本分类的模型。
为了防止数据溢出，我们使用 log 函数来处理下实际的概率。
'''
def calcClassProbability(vocabSet, postList, classVec):
    classSet = set(classVec)
    numExamples = len(classVec)
    numClasses = len(classSet)
    numWords = len(vocabSet)
    classProbs = np.zeros(numClasses)
    # 计算 p(c_i)
    for ci in classSet:
        classProbs[ci] = log(classVec.count(ci) / numExamples)
        
    
    classProbVecs = np.ones((numClasses, numWords))
    classDenoms = np.full(numClasses, 2)
    
    index = 0
    for post in postList:
        postVec = wordsToVector(vocabSet, post)
        postClass = classVec[index]
        classProbVecs[postClass] += postVec
        classDenoms[postClass] += sum(postVec) # 用 sum 函数对词包模型也有效。
        index += 1
    
    # 计算 p(w_i | c_i)
    index = 0
    for probVec in classProbVecs:
        #probVec /= classDenoms[index]
        for i in range(numWords):
            probVec[i] = log(probVec[i] / classDenoms[index])
        index += 1
        
    return classProbs, classProbVecs

# 分类函数
def classifyNaiveBayes(classProbs, classProbVecs, verifyExampleVec):
    numClasses = len(classProbs)
    probs = np.zeros(numClasses)
    for i in range(numClasses):
        probs[i] = classProbs[i]  +  sum(classProbVecs[i] * verifyExampleVec) # log(a) + log(b) = log(a * b)
    indices = np.argsort(probs)
    reversedIndices = list(indices)
    reversedIndices.reverse()
    
    print(probs, reversedIndices)
    return reversedIndices[0]
    

print('Load dataset:')
postList, classVec = loadDataset()
vocabSet = createVocabulary(postList)
print(vocabSet)
print(classVec)

print('\nTest words to vector:')
comment = 'I love love to see my cat eat steak'
commentSetVec = wordsToVector(vocabSet, comment.split())
print(commentSetVec)
commentBagVec = wordsToVector(vocabSet, comment.split(), type = 'bag')
print(commentBagVec)

print('\nTraining Naive Bayes Model:')
classProbs, classProbVecs = calcClassProbability(vocabSet, postList, classVec)
print(classProbs)
print(classProbVecs)

print('\n Test Naive Bayes Model:')
comment = 'I love love to see my cat eat steak'
commentSetVec = wordsToVector(vocabSet, comment.split())
print(comment)
commentClass = classifyNaiveBayes(classProbs, classProbVecs, commentSetVec)
print('The class is:', commentClass)

print()
comment = 'You hate my  dog, stop do it, stupid'
commentSetVec = wordsToVector(vocabSet, comment.split())
print(comment)
commentClass = classifyNaiveBayes(classProbs, classProbVecs, commentSetVec)
print('The class is:', commentClass)

Load dataset:
{'dog', 'how', 'my', 'food', 'buying', 'him', 'i', 'take', 'please', 'worthless', 'love', 'posting', 'help', 'quit', 'is', 'has', 'steak', 'flea', 'mr', 'to', 'so', 'ate', 'problems', 'park', 'licks', 'maybe', 'cute', 'stop', 'dalmation', 'stupid', 'garbage', 'not'}
[0, 1, 0, 1, 0, 1]

Test words to vector:
[ 0.  0.  1.  0.  0.  0.  1.  0.  0.  0.  1.  0.  0.  0.  0.  0.  1.  0.
  0.  1.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
[ 0.  0.  1.  0.  0.  0.  1.  0.  0.  0.  2.  0.  0.  0.  0.  0.  1.  0.
  0.  1.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]

Training Naive Bayes Model:
[-0.69314718 -0.69314718]
[[-2.56494936 -2.56494936 -1.87180218 -3.25809654 -3.25809654 -2.15948425
  -2.56494936 -3.25809654 -2.56494936 -3.25809654 -2.56494936 -3.25809654
  -2.56494936 -3.25809654 -2.56494936 -2.56494936 -2.56494936 -2.56494936
  -2.56494936 -2.56494936 -2.56494936 -2.56494936 -2.56494936 -3.25809654
  -2.56494936 -3.25809654 -2.56494936 -2.56494936 -2.56494936 -3