## EMアルゴリズム

## 数式テンプレート
```math
\begin{matrix}
テンプレート
\end{matrix}
```

### カルバック・ライブラーダイバージェンス
+ カルバック・ライブラー情報量
+ 相互情報量
+ ゼロ以上のスカラー値
+ 同じ定義域のxに対して確率分布$p(x)$と$q(x)$が等しい時ゼロになる
+ 確率分布pとqの距離

```math
\begin{matrix}
D_{KL}(p||q) &\neq& D_{KL}(q||p) \\
D_{KL}(p||q) &=& \int p(x)log\frac{p(x)}{q(x)} \geq 0
\end{matrix}
```

### カルバック・ライブラー情報量の最小化は, 最尤推定に等しい
#### モンテカルロ推定によってカルバック・ライブラー情報量を求める
```math
\begin{matrix}
D_{KL}(p||q) &=& \int p(x)log\frac{p(x)}{q(x)}
&=& E_{p}[log\frac{p(x)}{q(x)}]
\end{matrix}
```

```math
\begin{matrix}
D_{KL}(p||q) &\sim& \frac{1}{N}log\frac{p(x^{n})}{q_{\theta}(x^{n})} \\
&=& \frac{1}{N}\sum_{n=1}^{N}(logP(x^{n}) - logP_{\theta}(x^{x}))
\end{matrix}
```
+ $\theta$を含まない$logP(x^{n})$を除外

```math
\begin{matrix}
\underset{\theta} {\operatorname{argmin}} D_{KL}(p||q) \sim \underset{\theta} {\operatorname{argmin}} (-\frac{1}{N}\sum_{n=1}^{N}logP_{\theta}(x^{n}))
= \underset{\theta} {\operatorname{argmax}} \sum_{n=1}^{N}logP_{\theta}(x^{n})
\end{matrix}
```
+ $\underset{\theta} {\operatorname{argmax}}\sum_{n=1}^{N}logP_{\theta}(x^{n})$ は最尤推定

## 潜在変数を持つモデル

+ 潜在変数$z_{k}^{n} \sim q(z_{k}^{n} | x^{n})$ を持つ尤度
+ $q(z_{k}^{n} | x^{n})$は, 任意の確率変数

### 潜在変数を持つモデルの尤度
+ 同時確率$P(x,z)$のzに関する周辺化
```math
logP_{\theta}(x) = log\sum_{k=1}^{K}P_{\theta}(x, z)
```

### 潜在変数を持つ対数尤度
```math
\begin{matrix}
D &=& \set{ x^{1}, x^{2}, \cdots x^{n} } \\
logP_{\theta}(D) &=& \sum_{n=1}^{N}logP_{\theta}(x^{n}) \\
&=& \sum_{n=1}^{N}log\sum_{k=1}^{K}P_{\theta}(x^{n}, z^{n})
\end{matrix}
```
+ 潜在変数を持つ対数尤度は`log-sum`の形式をしている
+ `log-sum`形式は非常に厄介.
+ EMアルゴリズムは, `log-sum`形式を`sum-log`形式に変換して解決する

### $P_{\theta}(x^{n})$の$P_{\theta}(z_{k}^{n} | x^{n})$を任意の確率分布$q(z_{k}^{n})$で近似する
+ $P_{\theta}(x^{n})$が厄介者
+ $q(z)$を導入して潜在変数を持つ尤度モデルを解ける形式に変換する

```math
\begin{matrix}
P_{\theta}(z_k^{n}|x^{n}) &=& \frac{P_{\theta}(x^{n}, z_{k}^{n})}{\sum_{k=1}^{K}P_{\theta}(x^{\theta}, z_{\theta}^{n})} \\
&=& log\frac{P_{\theta}(x_{\theta}^{n}, z_{\theta})}{P_{\theta}(z_{k}^{n}|x^{n})} \cdot \frac{q(z_{k}^{n})}{q(z_{k}^{n})} \\
&=& log\frac{P_{\theta}(x^{n}, z_{k}^{n})}{q(z_{k}^{n})} + log\frac{q(z_{k}^{n})}{P_{\theta}(z_{k}^{n} | x^{x})}
\end{matrix}
```

```math
\begin{matrix}
logP_{\theta}(x^{n}) &=& logP_{\theta}(x^{n})\sum_{k=1}^{K}q(z_{k}^{n}) \\
&=& \sum_{k=1}^{K}q(z_{k}^{n}) \cdot logP_{\theta}(x^{n}) \\
&=& \sum_{k=1}^{K}q(z_{k}^{n})(log\frac{P_{\theta}(x^{n}, z_{k}^{n})}{q(z_{k}^{n})} + log\frac{q(z_{k}^{n})}{P_{\theta}(x^{n} | z_{k}^{n})})
\end{matrix}
```

### 潜在変数を持つ尤度は, ELBOとKL情報量の和に帰着する
```math
\begin{matrix}
logP_{\theta}(x^{n}) &=& \sum_{k=1}^{K}q(z_{k}^{n}) \cdot log\frac{P_{\theta}(x^{n}, z_{k}^{n})}{q(z_k)} + \sum_{k=1}^{K}D_{KL}(q(z_{k}^{n})||P_{\theta}(z_{k}^{n})) \\
ELBO(x^{n}; q(z^{n}), \theta) &=& \sum_{k=1}^{K}q(z_{k}^{n}) \cdot log\frac{P_{\theta}(x^{n}, z_{k}^{n})}{q(z_{k}^{n})} \\
D_{KL}(q(z^{n})||P_{\theta}(z^{n}|x^{n})) &=& \sum_{k=1}^{K}D_{KL}(q(z_{k}^{n})||P_{\theta}(z_{k}^{n}|x^{n}))

\end{matrix}
```

```math
\begin{matrix}
logP_{\theta}(x^{n}) &=& ELBO(x^{n}; q(z^{n}), \theta) + D_{KL}(q(z^{n})||P_{\theta}(z^{n}|x^{n})) \\

logP_{\theta}(D) &=& \sum_{n=1}^{N}ELBO(x^{n}; q(z^{n}), \theta) + \sum_{n=1}^{N}D_{KL}(q(z^{n})||P_{\theta}(z^{n}|x^{n}))
\end{matrix}
```

## EMアルゴリズム手順
1. Eステップ: $\set{q^{1}, q^{2}, q^{3}, \cdots, q^{K}}$ の更新. $\theta$ は固定.
+ 各nに対して $q^{n}(z)=P_{\theta}(z|x^{n})$ とする
2. Mステップ: 初期値 $\theta=\theta_{old}$ から最大値となる $\theta_{update}$ に更新.
+ $\set{q^{1}, q^{2}, q^{3}, \cdots, q^{K}}$ は固定.
+ $\sum_{n=1}^{N}ELBO(x^{n}; q^{n}, \theta)$ が最大になる $\theta$ を解析的に求める.
3. 終了判定: 対数尤度の平均 $\frac{1}{N}\sum_{n=1}^{N}logP(x^{n}; \theta)$ を計算して前回の平均対数尤度と比較