# 指数族分布

之前我们看到的很多分布函数，除了混合高斯分布之外，都可以归为一类，即指数族分布（`exponential family`）。

一般来说，对于随机变量 $\mathbf x$，参数 $\mathbf \eta$，指数族分布具有如下的形式：

$$
\mathbf p(\mathbf x|\mathbf \eta)=h(\mathbf x)g(\mathbf \eta)\exp\left\{\mathbf{\eta^\top u(x)}\right\}
$$

随机变量 $\mathbf x$ 可以是向量或者标量，可以是离散的也可以是连续的。$\mathbf \eta$ 叫做分布的自然（特性）参数（`natural parameter`），$u(\mathbf x)$ 是 $\bf x$ 的一个函数。

$g(\mathbf \eta)$ 可以看出是一个归一化参数，保证概率分布是归一化的，连续情况下有：

$$
g(\mathbf \eta)\int h(\mathbf x)\exp\left\{\mathbf{\eta^\top u(x)}\right\} d\mathbf x=1
$$

离散情况将积分换成求和即可。

### 伯努利分布

伯努利分布为：

$$
p(x|\mu) = {\rm Bern} = \mu^x(1-\mu)^{1-x}
$$

我们有

$$
p(x|\mu) = \exp\{x\ln\mu+(1-x)\ln(1-\mu)\} 
= (1-\mu)\exp\left\{\ln\left(\frac{\mu}{1-\mu}\right)\cdot x\right\}
$$

与指数族分布的形式比较，我们有：

$$
\eta=\ln\left(\frac{\mu}{1-\mu}\right)
$$

从而

$$
\mu = \sigma(\eta) = \frac{1}{1+\exp(-\eta)}
$$

即大家所熟悉的逻辑斯特 `sigmoid` 函数。从而我们可以将伯努利分布写成标准的指数族分布形式：

$$
p(x|\eta) = (1-\sigma(\eta))\exp(\eta x) = \sigma(-\eta)\exp(\eta x)
$$

对应的参数分别为：

$$
\begin{align}
u(x) &= x\\
h(x) &= 1\\
g(\eta) &= \sigma(-\eta)
\end{align}
$$

### 多项分布

考虑多项分布在一次观测下的情况：

$$
p(\mathbf x|\mathbf \mu) = \sum_{k=1}^M \mu_k^{x_k} = \exp\left\{\sum_{k=1}^M x_k\ln\mu_k\right\}
$$

其中 $\mathbf x = (x_1,\dots,x_M)^\top$。

定义 $\eta_k = \ln\mu_k, \mathbf\eta=(\eta_1,\dots,\eta_M)$，我们有：

$$
p(\mathbf x|\mathbf \eta) = \exp(\mathbf\eta^\top x) 
$$

对应的参数分别为：

$$
\begin{align}
u(\mathbf x) &= \mathbf x\\
h(\mathbf x) &= 1\\
g(\mathbf \eta) &= 1
\end{align}
$$

但是由于有 $\sum_{k=1}^M \mu_k= 1$ 的限制，所以这些参数只有 $M-1$ 个是独立的。

我们用 $\mu_M= 1-\sum_{k-1}^{M-1}\mu_k$ 进行替换，注意有约束条件：

$$
0\leq\mu_k\leq 1, \sum_{k-1}^{M-1}\mu_k \leq 1
$$

我们有

$$
\exp\left\{\sum_{k=1}^M x_k\ln\mu_k\right\} 
= \exp\left\{\sum_{k=1}^{M-1} x_k\ln\mu_k + \left(1-\sum_{k-1}^{M-1}\mu_k\right) \ln\left(1-\sum_{k-1}^{M-1}\mu_k\right)\right\}
= \exp\left\{\sum_{k=1}^{M-1} x_k\ln\left(\frac{\mu_k}{1-\sum_{j-1}^{M-1}\mu_j}\right) + \ln\left(1-\sum_{k-1}^{M-1}\mu_k\right)\right\}
$$

此时我们定义：

$$
\eta_k = \ln\left(\frac{\mu_k}{1-\sum_{j-1}^{M-1}\mu_j}\right)
$$

则

$$
\mu_k = \frac{\exp(\eta_k)}{1+\sum_{j=1}^{M-1}\exp(\eta_j)}
$$

即我们所熟知的 `softmax` 函数形式。

从而

$$
p(\mathbf x~|~\mathbf\eta) = \left(1+\sum_{k=1}^{M-1} \exp(\eta_k)\right)^{-1} \exp(\eta^T x)
$$

对应的参数分别为：

$$
\begin{align}
u(\mathbf x) &= \mathbf x\\
h(\mathbf x) &= 1\\
g(\mathbf \eta) &=  \left(1+\sum_{k=1}^{M-1} \exp(\eta_k)\right)^{-1}
\end{align}
$$

### 高斯分布

一维高斯分布为

$$
p(x|\mu,\sigma^2)
= \frac{1}{(2\pi\sigma^2)^{1/2}} \exp\left\{-\frac{1}{2\sigma^2}(x-\mu)^2\right\}
= \frac{1}{(2\pi\sigma^2)^{1/2}} \exp\left\{-\frac{1}{2\sigma^2}x^2+\frac{\mu}{2\sigma^2}x-\frac{1}{2\sigma^2}\mu^2\right\}
$$

对应的参数分别为：

$$
\begin{align}
\mathbf \eta & = \begin{pmatrix}\mu/\sigma^2 \\ -1/2\sigma^2\end{pmatrix} \\
\mathbf u(x) &= \begin{pmatrix}x \\ x^2\end{pmatrix}\\
h(\mathbf x) &= (2\pi)^{-1/2}\\
g(\mathbf \eta) &= (-2\eta_2)^{1/2} \exp\left(\frac{\eta_1^2}{4\eta_2}\right)
\end{align}
$$