# 朴素贝叶斯法

* 朴素贝叶斯（naive Bayes）法是基于贝叶斯定理与特征**条件独立**假设的分类方法

课堂提问：特征条件独立假设

对于给定的训练数据集

1. 首先基于特征条件独立假设学习输入/输出的联合概率分布
1. 然后基于此模型，对给定的输入$x$，利用贝叶斯定理求出后验概率最大的输出$y$

课堂提问：先验概率、后验概率

## 朴素贝叶斯法的学习与分类

### 基本方法

1. $X$是定义在输入空间$\mathcal{X}$上的随机向量，$Y$是定义在输出空间$\mathcal{Y}$上的随机变量
1. $P(X,Y)$是$X$和$Y$的联合概率分布
1. 训练数据集$T=\{(x_1,y_1),(x_2,y_2),\dotsc,(x_N,y_N)\}$由$P(X,Y)$独立同分布产生

课堂提问：独立同分布

### 基本方法

1. 先验概率分布$P(Y=c_k)$
1. 条件概率分布$P(X=x|Y=c_k)$
1. 于是学习到联合概率分布$P(X,Y)$

课堂提问：第3点

### 基本方法

1. 条件概率分布$P(X=x|Y=c_k)$有指数级数量的参数，其估计实际是不可行的
1. 参数个数为$K\prod_{j=1}^nS_j$

课堂提问：参数个数

### 基本方法

1. 朴素贝叶斯法对条件概率分布作了条件独立性的假设
1. 
   \begin{equation}
   \begin{split}
    P(X=x|Y=c_k)&=P(X^{(1)}=x^{(1)},\dotsc,X^{(n)}=x^{(n)}|Y=c_k)\\
                &=\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)
   \end{split}
   \end{equation}
   
1. 朴素贝叶斯法实际上学习到生成数据的机制，所以属于生成模型
1. 条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的

课堂提问：朴素贝叶斯法为何称为“朴素”；第3点如何理解

### 基本方法

1. 朴素贝叶斯法分类时，对给定的输入$x$，通过学习到的模型计算后验概率分布$P(Y=c_k|X=x)$，将后验概率最大的类作为$x$的类输出
1. 后验概率计算根据贝叶斯定理进行：
   
   \begin{equation}
       P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_k P(X=x|Y=c_k)P(Y=c_k)}
   \end{equation}
   
1. 
   \begin{equation}
    y=\mathop{\arg\,\max}_{c_k}P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k)
   \end{equation}
   
课堂提问：贝叶斯定理；第2、3点如何得到，特别是第2点中的分母形式

### 后验概率最大化的含义

* 朴素贝叶斯法将实例分到后验概率最大的类中
* 这等价于期望风险最小化

### 后验概率最大化的含义

* 
  \begin{equation}
    L(Y,f(X))=
    \begin{cases}
    1,\quad Y\neq f(X)\\
    0,\quad Y=f(X)
    \end{cases}
  \end{equation}

* 期望风险函数为
  
  \begin{equation}
      R_\mathrm{exp}(f)=\mathbb{E}[L(Y,f(X))]
  \end{equation}

* 期望是对联合分布$P(X,Y)$取的
  
  \begin{equation}
      R_\mathrm{exp}(f)=\mathop{\mathbb{E}}_X\sum_{k=1}^K[L(c_k,f(X))]P(c_k|X)
  \end{equation}

* 
  \begin{equation}
  \begin{split}
    f(x)&=\mathop{\arg\,\min}_{y\in\mathcal{Y}}\sum_{k=1}^KP(y\neq c_k|X=x)\\
        &=\mathop{\arg\,\max}_{y\in\mathcal{Y}}P(y=c_k|X=x)
  \end{split}
  \end{equation}
  
* 根据期望风险最小化准则就得到了后验概率最大化准则

课堂提问：期望风险函数中的期望是with respect to谁的

## 朴素贝叶斯法的参数估计

* 在朴素贝叶斯法中，学习意味着估计$P(Y=c_k)$和$P(X^{(j)}=x^{(j)}|Y=c_k)$
* 可以应用极大似然估计法估计相应的概率

### 极大似然估计

* a set of 1-D points $X=\{x_1,\dotsc,x_n\}$
* Let us assume that the data points are generated by a Gaussian distribution,

  \begin{equation}
      \mathcal{N}(\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
  \end{equation}

* The probability that a point $x_i\in X$ is then generated by the model is

  \begin{equation}
    P(x_i|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}
  \end{equation}

### 极大似然估计

* the likelihood that $X$ is generated by the model is

  \begin{equation}
  P(X|\mu,\sigma^2)=\prod_{i=1}^n\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}
  \end{equation}

* 参数$\mu$和$\sigma^2$的确定：

  \begin{equation}
  \mathop{\arg\,\max}_{\mu,\sigma^2}P(X|\mu,\sigma^2)
  \end{equation}
  
* 数据挖掘教材Example 12.8

课堂提问：计算偏导数

### 极大似然估计

* 先验概率$P(Y=c_k)$的极大似然估计是

  \begin{equation}
      P(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)}{N}
  \end{equation}
  
* 设第$j$个特征$x^{(j)}$可能取值的集合为$\{a_{j1},a_{j2},\dotsc,a_{jS_j}\}$，条件概率$P(X^{(i)}=a_{jl}|Y=c_k)$的极大似然估计是

  \begin{equation}
      P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^NI(x^{(j)}_i=a_{jl},y_i=c_k)}{\sum_{i=1}^NI(y_i=c_k)}
  \end{equation}
  
课堂提问：上述两个表达式的物理意义

### 学习与分类算法

朴素贝叶斯算法

1. 计算先验概率及条件概率

    \begin{aligned}
    &P(Y=c_k)\\
    &P(X^{(j)}=a_{jl}|Y=c_k)
    \end{aligned}

1. 对于给定的实例$x=(x^{(1)},x^{(2)},\dotsc,x^{(n)})^T$，计算

   \begin{equation}
   P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)
   \end{equation}
   
1. 确定实例$x$的类

   \begin{equation}
    y=\mathop{\arg\,\max}_{c_k}P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=x^{(j)}|Y=c_k)
   \end{equation}

### 学习与分类算法

教材例4.1

### 贝叶斯估计

* 用极大似然估计可能会出现所要估计的概率值为0的情况
* 数据挖掘教材8.3.2中Laplacian correction
* 解决这一问题的方法是采用贝叶斯估计

  \begin{equation}
    P_\lambda(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^NI(x^{(j)}_i=a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^N I(y_i=c_k)+S_j\lambda}
  \end{equation}
  
* 当$\lambda=0$时就是极大似然估计
* 常取$\lambda=1$，这时称为拉普拉斯平滑（Laplace smoothing）

课堂提问：对上述表达式的理解

### 贝叶斯估计

* 同样，先验概率的贝叶斯估计是

  \begin{equation}
      P_\lambda(Y=c_k)=\frac{\sum_{i=1}^NI(y_i=c_k)+\lambda}{N+k\lambda}
  \end{equation}
  
* 教材例4.2

课堂提问：对上述表达式的理解

### 应用

* 假设一个医生对患者进行艾滋病病毒（HIV）测试
* 这个测试是相当准确的，如果患者健康但测试显示他患病，这个概率只有1%；
如果患者真正感染HIV，它永远不会检测不出
* $D_1$表示诊断结果（如果阳性，则为$1$，如果阴性，则为$0$）
* $H$表示感染艾滋病病毒的状态

| 条件概率 | $H=1$ | $H=0$ |
|---|---|---|
|$P(D_1 = 1 \mid H)$|            1 |         0.01 |
|$P(D_1 = 0 \mid H)$|            0 |         0.99 |

* 目标：计算如果测试出来呈阳性，患者感染HIV的概率，即$$P(H = 1 \mid D_1 = 1)$$
* 假设人口总体是相当健康的，例如，$P(H=1) = 0.0015$
* \begin{aligned}
&P(D_1 = 1) \\
=& P(D_1=1, H=0) + P(D_1=1, H=1)  \\
=& P(D_1=1 \mid H=0) P(H=0) + P(D_1=1 \mid H=1) P(H=1) \\
=& 0.011485
\end{aligned}

* 

\begin{aligned}
&P(H = 1 \mid D_1 = 1)\\ =& \frac{P(D_1=1 \mid H=1) P(H=1)}{P(D_1=1)} \\ =& 0.1306 
\end{aligned}

* 换句话说，尽管使用了非常准确的测试，患者实际上患有艾滋病的几率只有13.06%
* 正如我们所看到的，概率可能是违反直觉的

* 患者在收到这样可怕的消息后应该怎么办
* 很可能，患者会要求医生进行另一次测试来确定病情
* 第二个测试具有不同的特性，它不如第一个测试那么精确



| 条件概率 | $H=1$ | $H=0$ |
|---|---|---|
|$P(D_2 = 1 \mid H)$|            0.98 |         0.03 |
|$P(D_2 = 0 \mid H)$|            0.02 |         0.97 |

* 不幸的是，第二次测试也显示阳性
* 通过假设*条件独立性*来计算出应用Bayes定理的必要概率：

\begin{aligned}
&P(D_1 = 1, D_2 = 1 \mid H = 0) \\
=& P(D_1 = 1 \mid H = 0) P(D_2 = 1 \mid H = 0)  \\
=& 0.0003
\end{aligned}


\begin{aligned}
&P(D_1 = 1, D_2 = 1 \mid H = 1) \\
=& P(D_1 = 1 \mid H = 1) P(D_2 = 1 \mid H = 1)  \\
=& 0.98
\end{aligned}

\begin{aligned}
&P(D_1 = 1, D_2 = 1) \\
=& P(D_1 = 1, D_2 = 1, H = 0) + P(D_1 = 1, D_2 = 1, H = 1)  \\
=& P(D_1 = 1, D_2 = 1 \mid H = 0)P(H=0) \\
&+ P(D_1 = 1, D_2 = 1 \mid H = 1)P(H=1)\\
=& 0.00176955
\end{aligned}

* 鉴于存在两次阳性检测，患者患有艾滋病的概率为

\begin{aligned}
&P(H = 1 \mid D_1 = 1, D_2 = 1)\\
=& \frac{P(D_1 = 1, D_2 = 1 \mid H=1) P(H=1)}{P(D_1 = 1, D_2 = 1)} \\
=& 0.8307
\end{aligned}
* 也就是说，第二次测试使我们能够对患病的情况获得更高的信心
* 尽管第二次检验比第一次检验的准确性要低得多，但它仍然显著提高我们的预测概率