# 生成学习算法

以线性回归、逻辑回归为代表的广义线性模型，都是在针对 $p(y|x;\theta)$，也就是给定 $x$ 时 $y$ 的条件概率分布进行建模。

以分类问题为例，给定一个训练集，逻辑回归，试图寻找一条直线——也就是决策边界——来区分正类和反类。模型建立后，对于一个新的测试样本，给定其特征，我们判定这个样本落在决策边界的哪一侧，然后据此做出预测。

直接学习 $p(y|x)$ 的算法，或者说直接将输入空间 $\chi$ 映射到标签 $\{0, 1\}$的算法，称为**判别学习算法 Discriminative Learning Algorithm**。与此相反，针对 $p(x|y)$ 建模的算法，称为**生成学习算法 Generative Learning Algorithm**。

还是以分类问题为例，生成学习算法通过对训练集的学习，给定一个分类 $y \in \{0, 1\}$，我们的模型试图描述这个分类对应的特征的分布。

通过对 $p(y)$ （称为**先验概率 class prior**）和 $p(x|y)$ 建模，我们之后通过贝叶斯法则来计算给定 $x$ 时 $y$ 的后验分布：
$$ p(y|x) = \frac{p(x|y)p(y)}{p(x)} $$

其中，分母 $p(x) = p(x|y=1)p(y=1)+p(x|y=0)p(y=0)$。而实际上，在预测时，我们并不需要计算 $p(x)$，因为
$$
\begin{split}
arg \max_yp(y|x) &= arg \max_y\frac{p(x|y)p(y)}{p(x)} \\
&= arg \max_yp(x|y)p(y)
\end{split}
$$

本节包括以下内容：
1. 高斯判别分析 Gaussian discriminant analysis
2. 朴素贝叶斯 Naive Bayes

### 1. 高斯判别分析 Gaussian Discriminant Analysis

在高斯判别分析中，我们假设 $p(x|y)$ 服从多维正态分布。

#### 1.1 多维正态分布 The MultiVariate Normal Distribution

多维正态分布也称作多维高斯分布，其参数包括**均值向量 mean vector** $\mu \in \mathbb{R}^n$ 以及**协方差矩阵 covariance matrix** $\Sigma \in \mathbb{R}^{n \times n}$。

关于多维正态分布的具体特征，可参见[随机变量及其数字特征-矩、协方差矩阵](http://nbviewer.jupyter.org/github/reata/ProbabilityAndStatistics/blob/master/Mathematical%20Properties%20of%20Random%20Variable.ipynb)，这里略过详细介绍。


#### 1.2 高斯判别分析模型 The Gaussian Discriminant Analysis Model

对于特征 $x$ 为连续型变量的分类问题，我们可以使用高斯判别分析（GDA）模型。该模型的假设包括：
$$
\begin{split}
y &\sim Bernoulli(\phi) \\
x|y=0 &\sim N(\mu_0, \Sigma) \\
x|y=1 &\sim N(\mu_1, \Sigma) \\
\end{split}
$$
对应的概率质量函数/概率密度函数为
$$
\begin{split}
p(y) &= \phi^y(1-\phi)^{1-y} \\
p(x|y=0) &= \frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}}exp(-\frac{1}{2}(x-\mu_0)^{T}\Sigma^{-1}(x-\mu_0)) \\
p(x|y=1) &= \frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}}exp(-\frac{1}{2}(x-\mu_1)^{T}\Sigma^{-1}(x-\mu_1)) \\
\end{split}
$$

这里模型的参数为 $\phi, \Sigma, \mu_0, \mu_1$。（注意到尽管我们使用了不同的均值向量 $\mu_0$ 和 $\mu_1$，这里通常只使用同一个协方差矩阵 $\Sigma$）其对数似然函数为
$$
\begin{split}
\ell(\phi, \mu_0, \mu_1, \Sigma) &= log\prod_{i=1}^m p(x^{(i)}, y^{(i)}; \phi, \mu_0, \mu_1, \Sigma) \\
&= log\prod_{i=1}^m p(x^{(i)}|y^{(i)}; \mu_0, \mu_1, \Sigma)p(y^{(i)};\phi)
\end{split}
$$

使 $\ell$ 最大的各参数分别为
$$
\begin{split}
\phi &= \frac{1}{m}\sum_{i=1}^m 1\{y^{(i)}=1\} \\
\mu_0 &= \frac{\sum_{i=1}^m 1\{y^{(i)}=0\}x^{(i)}}{\sum_{i=1}^m 1\{y^{(i)}=0\}} \\
\mu_1 &= \frac{\sum_{i=1}^m 1\{y^{(i)}=1\}x^{(i)}}{\sum_{i=1}^m 1\{y^{(i)}=1\}} \\
\Sigma &= \frac{1}{m} \sum_{i=1}^m (x^{(i)}-\mu_{y^{(i)}})(x^{(i)}-\mu_{y^{(i)}})^T
\end{split}
$$

由于使用了相同的协方差，最终根据 $y=1$ 和 $y=0$ 估计出的多维高斯分布，形状将完全相同，区别仅仅在于均值。而两个高斯分布的等差线相交的地方，就是高斯判别分析模型的决策边界。