### 指数族分布
指数族分布，包括高斯分布，伯努利分布，多项式分布，泊松分布，$\beta$分布等。
指数分布族定义：
$$p(y;\eta) = b(y) \, exp(\eta^T T(y) - a(\eta))$$
* $\eta$ 是自然参数（natural parameter）
* T(y)是充分统计量（suﬃcient statistic）
* $a(\eta)$是对数分割函数（log partition function），$e^{-a(\eta)}$本质上是一个归一化常数，确保$p(y;\eta)$的概率和为1

T，a，b确定一种分布，$\eta$是该分布的参数。一般情况下，$T(y) = y$。

证明$e^{ln(x)}=x$。因为$e^x$和$log_e(x)$是反函数，设$x=e^y, \forall x > 0$，则$y=ln(x)$，所以$e^{ln(x)}=e^y=x$。下面多次会用到。

先来证明各种分布属于指数分布族。

$\mathcal{Bernoulli}$分布的指数分布族形式：$$
\begin{align}
\because p(y = 1;\phi) &= \phi \\
p(y = 0;\phi) &= 1 - \phi
\end{align}
$$
$$
\begin{align}
\therefore p(y;\phi) &= \phi^y (1-\phi)^{1-y} \\
&= exp(y log(\phi) + (1 - y) log(1 - \phi))\\
&= exp(y log(\frac{\phi}{1-\phi}) + log(1 - \phi))
\end{align}
$$

where$$
\begin{align}
\eta &= log(\frac{\phi}{1 - \phi}) \Rightarrow \phi = \frac{1}{1 + e^{-\eta}} \\
T(y) &= y \\
b(y) &= 1 \\
a(\eta) &= -log(1 - \phi) = log(1 + e^\eta)
\end{align}
$$

$\mathcal{Gaussian}$分布的指数分布族形式：$$
\begin{align}
p(y;\mu) &= \frac{1}{\sqrt{2\pi}\sigma} exp\left(-\frac{(y-\mu)^2}{2\sigma^2}\right) \\
&= \frac{e^{\frac{1}{\sigma^2}}}{\sqrt{2\pi}\sigma} exp\left(-\frac{(y-\mu)^2}{2}\right) \\
&= \frac{e^{\sigma^{-2}}}{\sqrt{2\pi}\sigma} exp(-\frac{1}{2} y^2) exp(\mu y - \frac{1}{2} \mu^2)
\end{align}
$$

where$$
\begin{align}
T(y) &= y \\
\eta &= \mu \\
a(\eta) &= \frac{\mu^2}{2} = \frac{\eta^2}{2} \\
b(y) &= \frac{e^{\sigma^{-2}}}{\sqrt{2\pi}\sigma} exp(-\frac{1}{2} y^2)
\end{align}
$$

### 广义线性模型建模

斯坦福cs229讲义上GLM有三个假设：

1. $y|x;\theta \sim ExponentialFamily(\eta)$；给定x和$\theta$，y的条件概率服从参数$\eta$ 下的指数族分布；
2. 给定x，我们的目标是预测 $T(y)|x$，由于很多情况下$T(y) = y$，即$y|x$，我们希望拟合函数$h_\theta(x) = E[y|x]$；（备注：$h_\theta(x)$的假设在线性回归和逻辑回归中都满足，例如逻辑回归中，$h_\theta(x) = p(y=1|x;\theta) = 0 · p(y=0|x;\theta) + 1 · p(y=1|x;\theta) = E[y|x;\theta]$）
3. $\eta = \theta^T x$；当$\eta$ 为向量时，$\eta_i = \theta_i^T x$。

第一条假设在指数分布族范围内讨论y的概率，第二条假设预测值服从一个分布，预测结果是分布的均值，第三条假设为了设计的模型是线性的。


* 广义线性模型推导逻辑回归：

$y|x;\theta \sim \mathcal{Bernoulli}(\phi)$
$$
\begin{align}
h_\theta(x) &= E[T(y)|x] = E[y|x] \\
&= p(y=1|x;\theta) & \text{assumption 2}\\
&= \phi & \text{Bernoulli distribution in Exponential Family} \\
&= \frac{1}{1 + e^{-\eta}} \\
&= \frac{1}{1 + e^{-\theta^T x}} & \text{assumption 3}
\end{align}
$$

* 广义线性模型推导线性回归：

$y|x;\theta \sim \mathcal{N}(\mu,\sigma)$
$$
\begin{align}
h_\theta(x) &= E[T(y)|x] = E[y|x] \\
&= \mu & \text{assumption 2} \\
&= \eta & \text{Gaussian distribution in Exponential Family} \\
&= \theta^T x & \text{assumption 3}
\end{align}
$$

### 多项式分布和Softmax Regression

* 多项分布$^{[1]}$的指数分布族形式：

多分类问题中，样本属于k个分类，用$\phi_1, \phi_2, \ldots \phi_k$分别表示每个分类下样本输出的概率，则$\sum\limits_{i=1}^{k} \phi_i = 1$。

消除冗余信息，$\phi_i = p(y = i; \phi), i \in (1, 2, 3, \ldots, k-1); p(y = k;\phi) = 1 - \sum\limits_{i=1}^{k-1} \phi_i$

定义新符号
$$
\begin{align}
1 \{Boolean\} &= \begin{cases}
               1 \{true\} = 1 \\
               1 \{false\} = 0
               \end{cases}
\end{align}
$$

Define $T(y) \in R^{k-1}$,
$$
T(1) =
\begin{bmatrix}
1 \\
0 \\
0 \\
\vdots 
\\0
\end{bmatrix},\quad
T(2) =
\begin{bmatrix}
0 \\
1 \\
0 \\
\vdots \\
0
\end{bmatrix},\quad
T(3) =
\begin{bmatrix}
0 \\
0 \\
1 \\
\vdots \\
0
\end{bmatrix},\quad
\cdots
,\quad
T(k-1) =
\begin{bmatrix}
0 \\
0 \\
0 \\
\vdots \\
1
\end{bmatrix},\quad
T(k) =
\begin{bmatrix}
0 \\
0 \\
0 \\
\vdots \\
0
\end{bmatrix}\quad
$$

规定$T(y)_i$ 表示k-1维向量$T(y)$中第i个元素。这里T(y)就不等于y了，和y的关系可表示为：$T(y)_i = 1 \{y = i\}$

$T(y)_i 和\phi_i$的关系可表示为：$E[T(y)_i] = p(y = i) = \phi_i$

$$
\begin{align}
p(y;\phi) &= \phi_1^{1 \{y=1\}} \phi_2^{1 \{y=2\}} \cdots \phi_k^{1 \{y=k\}} \\
&= \phi_1^{1 \{y=1\}} \phi_2^{1 \{y=2\}} \cdots \phi_k^{1 - \sum_{i=1}^{k-1} 1 \{y=i\}} \\
&= \phi_1^{T(y)_1} \phi_2^{T(y)_2} \cdots \phi_k^{T(y)_k} \\
&= \phi_1^{T(y)_1} \phi_2^{T(y)_2} \cdots \phi_k^{1 - \sum_{i=1}^{k-1} T(y)_i} \\
&= exp \left( T(y)_1 log(\phi_1) + T(y)_2 log(\phi_2) + \cdots + (1 - \sum_{i=1}^{k-1} T(y)_i) log(\phi_k) \right) \\
&= exp \left( T(y)_1 log(\frac{\phi_1}{\phi_k)} + T(y)_2 log(\frac{\phi_2}{\phi_k}) + \cdots + T(y)_{k-1} log(\frac{\phi_{k-1}}{\phi_k}) + log(\phi_k) \right) \\
&= b(y) \, exp(\eta^T T(y) - a(\eta))
\end{align}
$$
where$$
\begin{align}
\eta &= \begin{bmatrix} log(\frac{\phi_1}{\phi_k)}\\ log(\frac{\phi_2}{\phi_k})\\ \vdots\\ log(\frac{\phi_{k-1}}{\phi_k}) \end{bmatrix} \\
a(\eta) &= -log(\phi_k) \\
b(y) &= 1
\end{align}
$$

* Softmax Function

根据多项式分布的指数分布族形式，$\eta_i = log(\frac{\phi_i}{\phi_k}) ,\quad \eta_k = log(\frac{\phi_k}{\phi_k}) = 0 \tag{1}$
$$
\begin{align}
e^{\eta_i} = \frac{\phi_i}{\phi_k} \\
\phi_k e^{\eta_i} = \phi_i \tag{2} \\
\because \sum_{i=1}^{k} \phi_i = 1 \\
\therefore \phi_k \sum_{i=1}^{k} e^{\eta_i} = 1 \\
\phi_k = \frac{1}{\sum_{i=1}^{k} e^{\eta_i}} \tag{3}
\end{align}
$$

(3)代入(2)得：
$$
\phi_i = \frac{e^{\eta_i}}{\sum_{j=1}^{k} e^{\eta_j}} \tag{3}
$$

这个$\phi_i$关于$\eta_i$的函数成为 ***Softmax Function***.

* 使用广义线性模型构建Softmax regression：

根据假设三，$\eta_i = \theta_i^T x, i \in (1, 2, \ldots, k-1)$，根据(1)得$\theta_k = 0$
$$
\begin{align}
p(y = i|x;\theta) &= \phi_i \\
&= \frac{\eta_i}{\sum_{j=1}^{k} e^{\eta_j}} \\
&= \frac{e^{\theta_i^T x}}{\sum_{j=1}^{k} e^{\theta_j^T x}}
\end{align}
$$

$$
\begin{align}
h_\theta(x) &= E[T(y)|x;\theta] \\
&= E \begin{bmatrix} 1 \{y = 1\}\\ 1 \{y = 2\}\\ \vdots\\ 1 \{y = k-1\}  \end{bmatrix} |x;\theta
\end{align}
$$

[1] [多项式分布的理解概率公式的理解](https://blog.csdn.net/Apache_xiaochao/article/details/30535521)