# 朴素贝叶斯基础

贝叶斯是有监督的学习算法，解决的是分类问题，如客户是否流失、是否值得投资、信用等级评定等多分类问题。算法以自变量之间的独立（条件特征独立）性和连续变量的正态性假设为前提，就会导致算法精度在某种程度上受影响。

## 贝叶斯理论

### 贝叶斯决策理论

假设我们有数据集，由两类数据组成：

- 用 $p_1(x, y)$ 表示数据点 $(x, y)$ 属于类别1的概率
- 用 $p_2(x, y)$ 表示数据点 $(x, y)$ 属于类别2的概率

则我们可以用一下规则来判断它的类别：

- 如果 $p_1(x, y) > p_2(x, y)$，那么类别为 1
- 如果 $p_1(x, y) < p_2(x, y)$，那么类别为 2

也就是说，我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想，即选择具有最高概率的决策。

### 条件概率

条件概率指在事件B发生的条件下，事件A发生的概率，用 $P (A \mid B)$ 来表示。

![](https://pic2.zhimg.com/9f9e13fbb2f473496f04f565f1e1b2af_r.jpg?source=1940ef5c)

由图可以看出，在事件B发生的条件下事件A发生的概率为 
$$P(A \mid B) = \frac{P(AB)}{P(B)}$$ 
因此
$$P(AB) = P(A \mid B)P(B)$$
同理
$$P(AB) = P(B \mid A)P(A)$$
所以
$$P(A \mid B)P(B) = P(B \mid A)P(A)$$
即
$$P(A \mid B) = \frac{P(B \mid A)P(A)}{P(B)}$$

### 全概率公式

假定样本空间 S，是两个事件 A 与 A‘ 的和

![](https://cuijiahua.com/wp-content/uploads/2017/11/ml_4_9.jpg)

事件 B 可以划分为两个部分

![](https://cuijiahua.com/wp-content/uploads/2017/11/ml_4_10.jpg)

即
$$P(B) = P(BA) + P(BA')$$
由已知 $P(BA) = P(B \mid A)P(A)$得，
$$P(B) = P(B \mid A)P(A) + P(B \mid A')P(A')$$
这就是全概率公式。

代入条件概率公式可得
$$P(A \mid B) = \frac{P(B \mid A)P(A)}{P(B \mid A)P(A) + P(B \mid A')P(A')}$$

### 贝叶斯推断
对条件概率公式变形，可得 $$P(A \mid B) = P(A) \frac{P(B \mid A)}{P(B)}$$

**$P(A)$ 为“先验概率”**，即在事件B发生之前，对事件A概率的一个判断；

**$P(A \mid B)$ 为“后验概率”**，即在事件B发生之后，对事件A概率的重新评估；

**$\frac{P(B \mid A)}{P(B)}$ 为“可能性函数”**，这是一个调整因子，使得预估概率更接近真实概率，

故条件概率可以理解为 $$后验概率 = 先验概率 \times 调整因子$$

**贝叶斯推断的含义：先预估一个“先验概率”，然后加入实验结果，看这个实验到底是增强还是削弱了“先验概率”，由此得到更接近事实的“后验概率”**。在这里，如果“可能性函数” $\frac{P(B \mid A)}{P(B)} > 1$，意味着“先验概率”被增强，事件A发生的可能性变大；如果 $\frac{P(B \mid A)}{P(B)} = 1$，意味着事件B无助于判断事件A的可能性；如果 $\frac{P(B \mid A)}{P(B)} < 1$，意味着“先验概率”被削弱，事件A的可能性变小。

举例：

![](https://cuijiahua.com/wp-content/uploads/2017/11/ml_4_16.jpg)

两个一模一样的碗，一号碗有30颗水果糖和10颗巧克力糖，二号碗有水果糖和巧克力糖各20颗。现在随机选择一个碗，从中摸出一颗糖，发现是水果糖。请问这颗水果糖来自一号碗的概率有多大？

设 $A$ 表示一号碗，$B$ 表示二号碗。由于两个碗是一样的，所以 $P(A) = P(B)$，即在取水果之前，两个碗被选中的概率相同，即 $P(A) = 0.5$，这个概率叫做“先验概率”，即没有做实验之前，来自一号碗的概率是 0.5。

设 $X$ 表示水果糖，问题为在已知 X 的情况下，来自一号碗的概率有多大，即求 $P(A \mid X)$，这个概率叫做“后验概率”，即在 X 事件发生之后，对 $P(A)$ 的修正。

根据条件概率公式，可得 $$P(A \mid X) = P(A) \frac{P(X \mid A)}{P(X)}$$
其中 $P(X \mid A) = \frac{30}{30 + 10} = 0.75,\\ P(X \mid B) = \frac{20}{20 + 20} = 0.5,\\ P(X) = P(X \mid A)P(A) + P(X \mid B)P(B) = 0.75 \times 0.5 + 0.5 \times 0.5 = 0.625$ 
代入得，$P(A \mid X) = 0.5 \times \frac{0.75}{0.625} = 0.6$

### 朴素贝叶斯推断

朴素贝叶斯对条件概率分布做了独立性的假设。假设下面公式有 n 个特征：
$$P(A \mid X) = \frac{P(X \mid A)P(A)}{P(X)} = \frac{P(x_1, x_2, x_3, \dots, x_n \mid A)P(A)}{P(x_1, x_2, x_3, \dots, x_n)}$$

由于 $P(x_1, x_2, x_3, \dots, x_n)$ 对于所有的类别都是相同的，可以省略，问题就变成了求
$P(x_1, x_2, x_3, \dots, x_n \mid A)P(A)$，

假设所有特征都是相互独立的，故
$$P(x_1, x_2, x_3, \dots, x_n \mid A)P(A) = P(x_1 \mid A)P(x_2 \mid A)P(x_3 \mid A) \dots P(x_n \mid A)P(A)$$


举例：

某个医院早上收了六个门诊病人，如下表：

```
症状　　    职业　　　    疾病
        
打喷嚏　    护士　　　    感冒
打喷嚏　    农夫　　　    过敏
头痛　　    建筑工人　    脑震荡
头痛　　    建筑工人　    感冒
打喷嚏　    教师　　　    感冒
头痛　　    教师　　　    脑震荡
```

现在又来了第七个病人，是一个打喷嚏的建筑工人，请问他患上感冒的概率有多大？

根据贝叶斯定理：
$$P(A \mid B) = \frac{P(B \mid A)P(A)}{P(B)}$$

可得：
$$P(感冒 \mid 打喷嚏, 建筑工人) = \frac{P(打喷嚏, 建筑工人 \mid 感冒)P(感冒)}{P(打喷嚏, 建筑工人)}$$

由朴素贝叶斯条件独立性的假设可知，“打喷嚏“和”建筑工人“两个特征是独立的，因此上面的等式变为
$$P(感冒 \mid 打喷嚏, 建筑工人) = \frac{P(打喷嚏 \mid 感冒)P(建筑工人 \mid 感冒)P(感冒)}{P(打喷嚏)P(建筑工人)}$$

可以计算：
$$P(感冒 \mid 打喷嚏, 建筑工人) = \frac{0.66 \times 0.33 \times 0.5}{0.5 \times 0.33} = 0.66$$

因此，这个打喷嚏的建筑工人，有66%的概率是得了感冒。同理，可以计算这个病人患上过敏或脑震荡的概率。比较这几个概率，就可以知道他最可能得什么病。

## 动手实战 - 文本分类


### 初始化数据

In [1]:
data_set = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
            ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
            ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
            ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
            ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
            ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
y = [0, 1, 0, 1, 0, 1]  

### 构建词向量

In [2]:
import numpy as np

# 创建所有词的词向量
words_list = list({w for ws in data_set for w in ws})  
print(words_list)
X = list()
for ws in data_set:
    tmp = [0] * len(words_list)
    for i in range(len(words_list)):
        if words_list[i] in ws:
            tmp[i] = 1
    X.append(tmp)
X, y= np.array(X), np.array(y)
print(X)

['help', 'ate', 'I', 'take', 'to', 'not', 'dog', 'him', 'park', 'licks', 'problems', 'how', 'please', 'garbage', 'my', 'cute', 'stop', 'dalmation', 'buying', 'is', 'has', 'quit', 'steak', 'worthless', 'food', 'maybe', 'so', 'mr', 'stupid', 'flea', 'love', 'posting']
[[1 0 0 0 0 0 1 0 0 0 1 0 1 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0]
 [0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0]
 [0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 1 0 1 0 1 0 0 0 0 0 0 1 0 0 0 1 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 1]
 [0 1 0 0 1 0 0 1 0 1 0 1 0 0 1 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0]
 [0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 1 1 0 0 0 1 0 0 0]]


### 概率计算

现在 已经知道一个词是否出现在一篇文档中，也知道该文档所属的类别。从词向量计算概率，公式为 $$P(c_i \mid w) = \frac{P(w \mid c_i)P(c_i)}{p(c_i)} , (w 为词向量)$$

对每个类计算该值，并比较概率值的大小。

由 $P(c_i) = \frac{类别i(侮辱性留言或非侮辱性留言)中的文档数}{总的文档数}$

可得 $P(c_0) = P(非侮辱性) = 0.5$; $P(c_1) = P(侮辱性) = 0.5$。

而 $P(w \mid c_i)$ 根据独立性假设 ，可使用 $P(w_0 \mid c_i)P(w_1 \mid c_i)P(w_2 \mid c_i) \cdots P(w_n \mid c_i)$ 来计算。

In [3]:
# 训练模型
def train_naive_bayes0(X, y):
    m, n = X.shape[0], X.shape[1]
    print(m, n)
    p_abusive = np.sum(y) / float(m)
    print(p_abusive)
    p0, p1 = np.zeros(n), np.zeros(n)
    p0_denom, p1_denom = 0.0, 0.0
    for i in range(m):
        if y[i] == 1:
            p1 += X[i]
            p1_denom += sum(X[i])
        else:
            p0 += X[i]
            p0_denom += sum(X[i])
    return p0 / p0_denom, p1 / p1_denom, p_abusive

In [4]:
train_naive_bayes0(X, y)

6 32
0.5


(array([0.04166667, 0.04166667, 0.04166667, 0.        , 0.04166667,
        0.        , 0.04166667, 0.08333333, 0.        , 0.04166667,
        0.04166667, 0.04166667, 0.04166667, 0.        , 0.125     ,
        0.04166667, 0.04166667, 0.04166667, 0.        , 0.04166667,
        0.04166667, 0.        , 0.04166667, 0.        , 0.        ,
        0.        , 0.04166667, 0.04166667, 0.        , 0.04166667,
        0.04166667, 0.        ]),
 array([0.        , 0.        , 0.        , 0.05263158, 0.05263158,
        0.05263158, 0.10526316, 0.05263158, 0.05263158, 0.        ,
        0.        , 0.        , 0.        , 0.05263158, 0.        ,
        0.        , 0.05263158, 0.        , 0.05263158, 0.        ,
        0.        , 0.05263158, 0.        , 0.10526316, 0.05263158,
        0.05263158, 0.        , 0.        , 0.15789474, 0.        ,
        0.        , 0.05263158]),
 0.5)

函数 `train_naive_baye` 返回3个值， 分别为每个单词属于类别0的概率，每个单词属于类别1的概率和每个类别的概率

### 根据情况修改算法

利用贝叶斯分类器对文档进行分类时，要计算多个概率的乘积以获得文档属于某个类别的概率，即计算 $P(w_0|1)P(w_1|1)P(w_2|1)$。如果其中一个概率值为0，那么最后的乘积也为0。为降低这种影响，可以将所有词的出现数初始化为1，并将分母初始化为2。
```python
p0, p1 = np.ones(n), np.ones(n)
p0_denom, p1_denom = 2.0, 2.0
```

另一个遇到的问题是下溢出，这是由于太多很小的数相乘造成的。当计算乘积 $P(w_0|c_i)P(w_1|c_i)P(w_2|c_i) \cdots P(w_n|c_i)$ 时，由于大部分因子都非常小，所以程序会下溢出或者 得到不正确的答案。一种解决办法是对乘积取自然对数。在代数中有 $ln(a \times b) = ln(a)+ln(b)$，于是通过求对数可以避免下溢出或者浮点数舍入导致的错误。同时，采用自然对数进行处理不会有任何损失。

In [5]:
def train_naive_bayes(X, y):
    """
    训练贝叶斯模型
    """
    m, n = X.shape[0], X.shape[1]
    p_abusive = np.sum(y) / float(m)
    p0, p1 = np.ones(n), np.ones(n)
    p0_denom, p1_denom = 2.0, 2.0
    for i in range(m):
        if y[i] == 1:
            p1 += X[i]
            p1_denom += sum(X[i])
        else:
            p0 += X[i]
            p0_denom += sum(X[i])
    return np.log(p0 / p0_denom), np.log(p1 / p1_denom), p_abusive

In [6]:
def words2vec(words):
    vec = [0] * len(words_list)
    for i in range(len(words_list)):
        if words_list[i] in words:
            vec[i] = 1
    return vec

In [7]:
def classify(test_vec, p0_v, p1_v, pc):
    p0 = np.sum(test_vec * p0_v) + np.log(1 - pc)
    p1 = np.sum(test_vec * p1_v) + np.log(pc)
    return 0 if p0 > p1 else 1

In [8]:
def testing():
    p0_v, p1_v, pc = train_naive_bayes(X, y)
    test_words = ['love', 'my', 'dalmation']
    test_vec = np.array(words2vec(test_words))
    print(f'{test_words} classify as {classify(test_vec, p0_v, p1_v, pc)}')
    test_words = ['stupid', 'garbage']
    test_vec = np.array(words2vec(test_words))
    print(f'{test_words} classify as {classify(test_vec, p0_v, p1_v, pc)}')
testing()

['love', 'my', 'dalmation'] classify as 0
['stupid', 'garbage'] classify as 1
