# 朴素贝叶斯

### 1. 贝叶斯定理
> 贝叶斯定理是关于随机事件A和B的条件概率（或边缘概率）的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。

$$ P(A\mid B) = \frac{P(B\mid A) \, P(A)}{P(B)} $$

    - $P(A)：A发生的概率 $

    - $P(A\mid B): 是B发生的情况下A发生的概率 $

### 2. 贝叶斯定理应用--吸毒者检测

已知：

>1. 吸毒检测方法灵敏度和可靠度均为99%，即：
    - 吸毒的人，99%呈阳性
    - 不吸毒的人，99%呈阴性
2. 已知集合中5%的人吸毒 （可以取社会均值等）

问

>若检测出阳性，有多大概率是真吸毒？

答：

记D为吸毒，N为不吸毒，+为检测呈阳性
- P(D): 吸毒概率0.5%
- P(+|D): 吸毒的人检测阳性的概率 99%
- P(N): 不吸毒概率 (1-0.5%)
- P(+|N): 不吸毒的人检测阳性的概率 (1 - 99%)
     
$$
\left\{
\begin{aligned}
P(D\mid +) = \frac{P(D)P(+\mid D)}{P(+)} = \frac{P(D)P(+\mid D)}{P(D)P(+\mid D) + P(N)P(+\mid N)} \quad\quad\quad \\
 = \frac{0.005\times 0.99}{(0.005 \times 0.99  + 0.995 \times 0.01)} = 0.3322
\end{aligned}
\right.
$$
 
 > 检测出阳性，吸毒的概率仅有1/3.
 
如果呈阳性的人再检测一次呢？
 
- P(D)为上步得到的0.33， 
- P(N)为1-0.33
 $$ P(D\mid +)= \frac{0.33 \times 0.99}{(0.33 \times 0.99  + 0.67 \times 0.01)} = 0.98 $$
 
 > 检测出阳性的人，二次检测仍然呈阳性，则吸毒概率为0.98%
 
98%误差还是有的，再检测一次如何呢？
 $$ P(D\mid +)= \frac{0.98 \times 0.99}{(0.98 \times 0.99  + 0.02 \times 0.01)} = 0.9998 $$
 
 > 两次检测均呈阳性的人，再次检测仍然呈阳性，则吸毒概率0.9998，接近100%了，可靠。

### 3. 朴素贝叶斯

是基于`贝叶斯定理`和`特征间条件独立`的`分类`算法
- 效率高
- 损失准确率
- 特征特别多，其他模型性能差的时候考虑使用（如文本分类中，每个word是一个特征）

sklearn中有三种朴素贝叶斯
- GaussianNB: 连续型特征上应用，如房价
- 伯努利型，特征都是二元的
- 多项式型，二元特征还要考虑权重

```
from sklearn.naive_bayes import GaussianNB, PolynomialNB, BernouliiNB

```

### 4. 朴素贝叶斯应用：如果遇到又帅又上进的男生，嫁不嫁？

| 观测样本序号 | 帅 ？ | 上进 ？ | 嫁与否 |
| --  |  -- | -- | -- | 
| 1 | 帅 | 上进 | 嫁 |
| 2 | 帅 | 上进 | 嫁 |
| 3 | 不帅 | 上进 | 嫁 |
| 4 | 帅 | 不上进 | 嫁 |
| 5 | 帅 | 不上进 | 不嫁 |
| 6 | 不帅 | 不上进 | 不嫁 |
| 7 | 不帅 | 上进 | 不嫁 |


$ P(嫁\mid 又帅又上进) = \frac{P(嫁)P(又帅又上进\mid 嫁)}{P(又帅又上进)} $

$= \frac{P(嫁)P(又帅又上进\mid 嫁)}{(P(嫁)P(又帅又上进\mid 嫁) + P(不嫁)P(又帅又上进\mid 不嫁)} $

$= \frac{P(嫁)P(帅\mid 嫁)P(上进\mid 嫁) }{(P(嫁)P(帅\mid 嫁)P(上进\mid 嫁) + P(不嫁)P(帅\mid 不嫁)P(上进\mid 不嫁)} $

- $P(嫁) = 4/7$
- $P(帅\mid 嫁) = 3/4 $
- $P(上进\mid 嫁) = 3/4 $
- $P(不嫁) = 3/7$
- $P(帅\mid 不嫁) = 1/3 $
- $P(上进\mid 不嫁) = 1/3 $

$$ P(嫁\mid 又帅又上进) = \frac{\frac{4}{7}\times \frac{3}{4} \times \frac{3}{4}}{\frac{4}{7}\times \frac{3}{4} \times \frac{3}{4}+\frac{3}{7}\times \frac{1}{3} \times \frac{1}{3}} = 0.87 $$

In [3]:
a = 4.0/7
b = 3.0/4
c = 3.0/4
d = 1.0/3
f = 1.0/3
(a*b*c)/(a*b*c+(1-a)*d*f)

0.8709677419354839

### 参考：
https://blog.csdn.net/fisherming/article/details/79509025