# 朴素贝叶斯

## 1. 引言
<p>贝叶斯方法是一个历史悠久，有着坚实的理论基础的方法，同时处理很多问题时直接而又高效，很多高级自然语言处理模型也可以从它演化而来。因此，学习贝叶斯方法，是研究自然语言处理问题的一个非常好的切入口。</p>

## 2. 贝叶斯公式

$$ P(Y|X) = \frac{P(X|Y)P(Y)}{P(X)}$$

而贝叶斯公式其实是由以下的联合概率公式推导出来的：
$$P(Y,X) = P(Y|X)P(X) = P(X|Y)P(Y)$$

其中，$P(Y)$叫做**先验概率**，$P(Y|X)$叫做**后验概率**，$P(X,Y)$叫做**联合概率**。 


## 3. 用机器学习的视角理解贝叶斯公式

在机器学习的视角下，我们把X理解成“具有某特征”，把Y理解成“类别标签”(一般机器学习为题中都是X=>特征, Y=>结果)。
 
在最简单的二分类问题(是与否判定)下，我们将Y理解成“属于某类”的标签。



于是贝叶斯公式就变形成了下面的样子:
$$P("属于某类"|"具有某特征") = \frac{P("属于某特征"|"属于某类")P("属于某类")}{P("具有某特征")}$$

我们简化解释一下上述公式：

- $P("属于某类"|"具有某特征")$ 
    - 在已知某样本“具有某特征”的条件下，该样本“属于某类”的概率。所以叫做【后验概率】。

- $P("具有某特征"|"属于某类")$
    - 在已知某样本“属于某类”的条件下，该样本“具有某特征”的概率。

- $P("属于某类")$
    - 在未知某样本具有该“具有某特征”的条件下，该样本“属于某类”的概率。这个叫做【先验概率】。

- $P("具有某特征")$
    - 在未知某样本“属于某类”的条件下，该样本“具有某特征”的概率。

而我们二分类问题的最终目的就是要
    <p style='color:blue'>判断$P("属于某类"|"具有某特征")$是否大于$\frac{1}{2}$就够了。</p>

贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换成需要计算“属于某类的条件下具有某特征”的概率，而后者获取方法就简单多了。  

我们只需要找到一些包含已知特征标签的样本，即可进行训练。而样本的类别标签都是明确的，所以贝叶斯方法在机器学习里面属于监督学习。

#### 补充：
一般【先验概率】【后验概率】是相对出现的，比如$P(Y)$和$P(Y|X)$是关于Y的先验概率和后验概率，$P(X)$和$P(X|Y)$是关于X的先验概率和后验概率。

## 4. 垃圾邮件识别

如果使用朴素贝叶斯分类器进行垃圾邮件识别，那目标就是**判断P("垃圾邮件"|"具有某特征")是否大于$\frac{1}{2}$**。

现在假设我们有垃圾邮件和正常邮件各1万封作为训练集，需要判断新邮件是否为垃圾邮件。

新邮件为：“我司可办理正规发票（保真）17%增值税发票点数优惠！”

也就是判断概率 P(“垃圾邮件”|“我司可办理正规发票（保真）17%增值税发票点数优惠！”)
 是否大于1/2。

转换成的这个概率，计算的方法：就是写个计数器，然后+1 +1 +1统计出所有垃圾邮件和正常邮件中出现这句话的次数啊！！！

好，具体点说：
$$P(“垃圾邮件”|“我司可办理正规发票（保真）17\%增值税发票点数优惠！”)
   =\frac{垃圾邮件中出现这句话的次数}{垃圾邮件中出现这句话的次数+正常邮件中出现这句话的次数}$$
 