# 参数估计
1. 概率模型的训练过程就是参数估计过程。
2. 对于参数估计，统计学界的两个学派分别听了不同的解决方案  
    + 频率主义学派认为参数虽然未知，但却是客观存在的固定值，因此可以通过优化似然函数等准则来确定参数值。
    + 贝叶斯学派认为参数是未观察到的随机变量，其本身也可有分布，因此，可假定参数服从一个先验分布，然后基于观测到的数据来计算参数的后验分布。

# 贝叶斯判定准则

1. 贝叶斯判定准则：为最小化总体风险，只需要在每个样本上选择那个能使条件风险$R(c|x)$最小的类别标记，即
$$h^*(\boldsymbol{x}) = \underset{c \in \mathcal{Y}}{\arg \min } R(c | \boldsymbol{x})$$
此时$h^*$称为贝叶斯最优分类器。

2. 已知条件风险$ R(c_i | \boldsymbol{x})$的计算公式为
$$
R\left(c_{i} | \boldsymbol{x}\right)=\sum_{j=1}^{N} \lambda_{i j} P\left(c_{j} | \boldsymbol{x}\right)
$$
若目标是最小化分类错误率，则误判损失$\lambda_{i j}$对应为0/1损失，也即
$$
\lambda_{i j}=\left\{\begin{array}{l}{0, \text { if } i=j} \\ {1, \text { otherwise }}\end{array}\right.
$$
带入上式
$$
\begin{aligned} R\left(c_{i} | \boldsymbol{x}\right) &=1 \times P\left(c_{1} | \boldsymbol{x}\right)+\ldots+1 \times P\left(c_{i-1} | \boldsymbol{x}\right)+\mathbf{0} \times P\left(c_{i} | \boldsymbol{x}\right)+1 \times P\left(c_{i+1} | \boldsymbol{x}\right)+\ldots+1 \times P\left(c_{N} | \boldsymbol{x}\right) \\ &=P\left(c_{1} | \boldsymbol{x}\right)+\ldots+P\left(c_{i-1} | \boldsymbol{x}\right)+P\left(c_{i+1} | \boldsymbol{x}\right)+\ldots+P\left(c_{N} | \boldsymbol{x}\right) \end{aligned}
$$

由于$\sum_{j=1}^{N} P\left(c_{j} | \boldsymbol{x}\right)=1$，所以：
$$
R\left(c_{i} | \boldsymbol{x}\right)=1-P\left(c_{i} | \boldsymbol{x}\right)
$$
于是，最小化错误率的贝叶斯最优分类器为
$$
h^{*}(x)=\underset{c \in \mathcal{Y}}{\arg \min } R(c | x)=\underset{c \in \mathcal{Y}}{\arg \min }(1-P(c | x))=\underset{c \in \mathcal{Y}}{\arg \max } P(c | x)
$$

# 多元正态分布参数的极大似然估计
对数似然函数为：
$$
L L\left(\boldsymbol{\theta}_{c}\right)=\sum_{\boldsymbol{x} \in D_{e}} \log P\left(\boldsymbol{x} | \boldsymbol{\theta}_{c}\right)
$$
为了便于后续计算，我们令log的底数为e，则对数似然函数可化为
$$
L L\left(\boldsymbol{\theta}_{c}\right)=\sum_{\boldsymbol{x} \in D_{e}} \ln P\left(\boldsymbol{x} | \boldsymbol{\theta}_{c}\right)
$$
由于$P\left(\boldsymbol{x} | \boldsymbol{\theta}_{c}\right)=P(\boldsymbol{x} | c) \sim \mathcal{N}\left(\boldsymbol{\mu}_{c}, \boldsymbol{\sigma}_{c}^{2}\right)$，那么
$$
P\left(\boldsymbol{x} | \boldsymbol{\theta}_{c}\right)=\frac{1}{\sqrt{(2 \pi)^{d}\left|\boldsymbol{\Sigma}_{c}\right|}} \exp \left(-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}_{c}\right)^{\mathrm{T}} \boldsymbol{\Sigma}_{c}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_{c}\right)\right)
$$
其中，d表示$\boldsymbol{x}$的维数，$\sum_c = \boldsymbol{\sigma}_{c}^{2}$为对称的正定协方差矩阵，$|\boldsymbol{\Sigma}_{c}|$表示$\boldsymbol{\Sigma}_{c}$的行列式，将上式带入对数似然函数可得
