# Generative Models for Discrete Data

* 生成模型
    * 对数据的生成建模. 
    * 对于监督学习, 数据一般是 $\{(\mathbf x, \mathbf y), ...\}$, 无监督建模为 $p(\mathbf x | \mathbf y)$
    * 对于无监督学习, 数据一般是 $\{\mathbf x\}$, 无监督 建模为 $p(\mathbf x)$

* 模型
    * 建模 $p(\mathbf x | y=c, \mathbf \theta)$ 和 $p(y=c|\mathbf \theta)$. 分类的结果可以通过贝叶斯公式算出来
    * 如果考虑神经网络的话, $p(\mathbf x | y=c, \mathbf \theta)$ 和 $p(y=c|\mathbf \theta)$ 也都可以通过神经网络来拟合
$$
p(y=c|\mathbf x, \mathbf \theta) \propto p(\mathbf x | y=c, \mathbf \theta) p(y=c|\mathbf \theta)
$$

### 机器学习三大步骤

* 监督学习的生成模型建模
$$
p(\bar x\in C | D) = \sum_h p(y=c|\bar x, h)p(h|D)
$$
$$
p(h|D) = \frac{p(D|h)p(h)}{\sum_{h'\in \mathcal H}p(h')p(D|h')}
$$
    * 其中D为训练数据集, h 为模型(参数)
    * 生成模型为数据的生成建模, ie $p(D|h)p(h)$

* 训练: 模型的训练即是求 $h$ 的后验分布, 或者计算MAP
    * 大部分情况下 $p(x|h)$ 会建模成一个分布, 根据实际情况而定. (高斯, 伯努利, 类别 分布), 其中模型的参数和 h 相关 (由h计算得到)
    * $p(h)$ 为模型参数的先验
* 预测
    * 如果按照 MAP 进行学习, 那么能得到使得后验概率最高的 $h$, 使用此 $h$ 计算 $p(y=c|\bar x, h)$
    
### NBC (朴素贝叶斯分类器)
* 监督学习的 生成模型建模联合分布 $p(x, y)$, 一般这种情况都是建模 $p(x|y), p(y)$, 
    * $p(\mathbf x_i| y_i)= \prod_{j}\mathbf p(x_{i,j}|y_i)$, 其中 $p(x_{i,j}|y_i)$为类别分布, $p(y_i)$ 为类别分布
$$
p(\mathbf x_i, y_i | \mathbf \theta) = p(y_i|\mathbf \pi)p(\mathbf x_{i}|\mathbf \theta)
$$

* 参数学习: MLE, MAP

如果使用MLE进行参数估计的话, 概率模型可以写成以下形式, 然后使用极大似然估计求得 $\mathbf \theta$ 得值即可
$$
p(x,y; \mathbf \theta) = p(x|y; \mathbf \theta) p(y;\mathbf \theta)
$$

如果使用 MAP 进行参数估计得话, 概率模型就变成了以下形式, 然后使用 MAP 求得

$$
p(\mathbf \theta | x, y) \sim p(x, y | \mathbf \theta) p(\mathbf \theta) = p(x|y, \mathbf \theta) p(y|\mathbf \theta)p(\mathbf \theta)
$$

* 在预测的时候计算(MAP), 
    * 但是由于分子对于所有的 类别的求和,  所以在 预测的时候计算 所有的 $p(y'|x)$ 然后取最大就行了.
    * 如果预测的时候 MAP 不好求的话, 可以考虑使用 VI 哦
$$
p(y|x) = \frac{p(x|y)p(y)}{\sum_{y'}p(x|y')p(y')}
$$
