# 生成式与判别式

监督学习的任务就是要学习到一个模型，对于给定一个输入 $\boldsymbol{x} = \left[ \begin{matrix} x_1 & x_2 & \cdots & x_n \end{matrix} \right]^{\text{T}} $，能够预测其输出 $y$。这个模型一般形式为决策函数：

$$ y = h_\boldsymbol{\theta}\left(\boldsymbol{x}\right) $$

或者条件分布概率：

$$p\left(y\mid\boldsymbol{x}\right)$$


## 判别式

**判别式学习方法**（discriminative learning algorithms）由数据直接学习到决策函数 $h_\boldsymbol{\theta}\left(\boldsymbol{x}\right) $ 或者条件概率 $p\left(y\mid\boldsymbol{x}\right)$ 分布作为预测的模型。


## 生成式

**生成式学习方法**（generative learning algorithms）则是对条件概率 $p\left(\boldsymbol{x}\mid y\right)$（和概率 $p\left(y\right)$）建模，然后依据贝叶斯公式可以计算出给定 $\boldsymbol{x}$ 下 $y$ 的概率：

$$ p\left(y\mid \boldsymbol{x}\right) = \frac{p\left(\boldsymbol{x}\mid y\right)p\left(y\right)}{p\left(\boldsymbol{x}\right)} $$

上式中 $p\left( \boldsymbol{x} \right)$ 可以求解出来，例如对于二分类问题：

$$p\left(\boldsymbol{x}\right) = p\left(\boldsymbol{x}\mid y=1\right)p\left(y=1\right) + p\left(\boldsymbol{x}\mid y=0\right)p\left(y=0\right)$$

事实上，对于预测问题，我们可以不用求解出 $p\left( \boldsymbol{x} \right)$：

$$\begin{align*}
\arg \max_y p\left(y\mid \boldsymbol{x}\right) &= \arg \max_y \frac{p\left( \boldsymbol{x}\mid y \right)p\left(y\right)}{p\left( \boldsymbol{x} \right)} \\ 
&= \arg \max_y p\left( \boldsymbol{x}\mid y \right)p\left(y\right)
\end{align*}$$

其中，$p(y)$ 称为先验（prior）概率；$p(\boldsymbol{x} \mid y)$ 是样本 $\boldsymbol{x}$ 相对于输出y的条件概率，或称为“似然”（likelihood）；$p(\boldsymbol{x})$ 是用于归一化的“证据”因子。

## 特点

生成式学习方法特点：

- 可以还原出联合概率分布 $p\left( \boldsymbol{x}, y \right) = p\left( \boldsymbol{x}\mid y \right)p\left( y \right)$
- 收敛速度更快，当样本容量增加时，学到的模型可以更快地收敛于真实模型
- 存在隐变量时，仍然可以用生成式学习方法，此时判别式学习方法就不能用

判别式学习方法特点：

- 直接面对预测，往往学习的准确率更高
- 可以对数据进行各种程度上的抽象、定义特征并使用特征，因此可以简化学习问题

## 常见模型

判别式模型常见的主要有：

- Logistic Regression
- SVM
- Traditional Neural Networks
- Nearest Neighbor
- CRF
- Linear Discriminant Analysis
- Boosting
- Linear Regression

产生式模型常见的主要有：
                      
- Gaussians
- Naive Bayes
- Mixtures of Multinomials
- Mixtures of Gaussians
- Mixtures of Experts
- HMMs
- Sigmoidal Belief Networks, Bayesian Networks
- Markov Random Fields
- Latent Dirichlet Allocation