# 5 EMアルゴリズム

EMアルゴリズムを使用することで、混合ガウスモデル（GMM）のパラメータ推定を効率的に行うことができる。

今回のステップでは、EMアルゴリズムの導出と、実装を行う。

## 5.1 KLダイバージェンス

EMアルゴリズムの導出に重要な役割を果たす、KLダイバージェンスについて学ぶ。

また、数式の表記方法に二つの変更点を加える。まずは、変更点から話す。

### 5.1.1 数式の表記について

一つ目の変更点は、期待値の表記方法についてである。連続の確率変数$x$と、確率密度が$p(x)$で表されるとき、$f(x)$の期待値は次の式で表される。

$$\mathbb{E}_{p(x)}[f(x)] = \int f(x)p(x)dx$$

これまで、期待値は$\mathbb{E}[f(x)]$と表記したが、$p(x)$に関する期待値であることを明示する。例えば、確率分布$q(x)$に関する期待値であれば、

$$\mathbb{E}_{q(x)}[f(x)]=\int f(x)q(x)dx$$

と表される。

二つ目の変更点は、パラメータの表記場所である。パラメータ$\theta$の確率分布は、$p(x;\theta)$の形で表記していたが、今後は$p_\theta(x)$とする。どちらも同じ意味を持つ確率分布である。

### 5.1.2 KLダイバージェンスの定義式

ある二つの確率分布を測る尺度に **KLダイバージェンス(Kullback-Leibler divergence)** がある。

二つの確率分布$p_\theta(x),q_{\theta}(x)$がある時、KLダイバージェンスは

$$D_{KL}(p||q) = \int p(x)\log\frac{p(x)}{q(x)}dx$$

の式で表される。上式は連続型の確率変数の場合のKLダイバージェンスである。離散型の場合は、

$$D_{KL}(p||q) = \sum_xp(x)\log\frac{p(x)}{q(x)}$$

と表記される。KLダイバージェンスには次の特徴がある。

* 二つの確率分布が異なるほど大きな値を示す。
* ０以上の値を取り、二つの確率分布が同じ時のみ０になる
* 非対称な尺度であるため、$D_{KL}(p||q),D_{KL}(q||q)$異なる値になる。

KLダイバージェンスは、二つの確率分布がどれくらい異なるかを表す尺度として利用される

コインを例に実際にKLダイバージェンスを計算してみる。

あるAコインの表が出る確率が70%、裏が出る確率が３０％とする。ある人が、コインの表が出る確率が５０％、裏が出る確率が50%であると推定する。

コインAの確率分布を$p$推定した確率分布を$q$とするとKLダイバージェンスは次のように計算できる。

$$D_{KL}(p||q) = 0.7\log\frac{0.7}{0.5}+0.3\log\frac{0.3}{0.5} = 0.021$$

となる。次に、別の人が、表が出る確率が２０％、裏が出る確率が80%と推定したとする。KLダイバージェンスは

$$D_{KL}(p||q) = 0.7\log \frac{0.7}{0.2}+0.3\log\frac{0.3}{0.8} = 0.58$$

となる。はじめに推定した確率よりも大きくなっていることがわかる。最後に別の人が表が出る確率70%、裏が出る確率30%と推定したとするとKLダイバージェンスは

$$D_{KL}(p||q) = 0.7\log \frac{0.7}{0.7}+0.3\log\frac{0.3}{0.3} = 0$$

となり、一致することがわかる。他の値についても計算するため、簡単なプログラムを作って実行する

In [21]:
import numpy as np

def KLdiv(p,q):
    K = len(p)
    D = 0
    for k in range(K):
        D += p[k] * np.log(p[k] / q[k])
    
    return D

KLダイバージェンスを計算する関数KLdiv()を作成する。引数には、真の確率pと推定している確率qをとしている。

例題と同様に、コインの表と裏が出る確率を計算する。

In [25]:
p = [0.7,0.3]

Q = [[0.1*i , 1-0.1*i] for i in range(1,10)]

for q in Q:
    print("head ",q[0],"reverse ",q[1])
    print("                                                       KL-div ", KLdiv(p,q))

head  0.1 reverse  0.9
                                                       KL-div  1.0325534177382862
head  0.2 reverse  0.8
                                                       KL-div  0.5826853020432394
head  0.30000000000000004 reverse  0.7
                                                       KL-div  0.33891914415488134
head  0.4 reverse  0.6
                                                       KL-div  0.18378689738681217
head  0.5 reverse  0.5
                                                       KL-div  0.08228287850505178
head  0.6000000000000001 reverse  0.3999999999999999
                                                       KL-div  0.021600854143546483
head  0.7000000000000001 reverse  0.29999999999999993
                                                       KL-div  -1.1102230246251575e-17
head  0.8 reverse  0.19999999999999996
                                                       KL-div  0.028167557595283457
head  0.9 reverse  0.09999999999999998
                

KLダイバージェンスの値を見ると、表が出る確率が０.1、裏が出る確率が0.9の場合に最も大きくなっていることがわかる。また、事前に計算した通り、表70%裏30%ではKLダイバージェンスは非常に小さくなっていることがわかる。

一方で、表60%裏40％の場合0.021であり、表80%裏20%の場合0.028である。同じ10％ずつの差だがKLダイバージェンスの値は異なっている。

### 5.1.3 KLダイバージェンスと最尤推定の関係

KLダイバージェンスと最尤推定の関係について話す。

真の確率分布$p_*(x)$があり、サンプルデータ$\{x^{(1)},x^{(2)},\cdots,x^{(N)}\}$を生成したとする。目的は、パラメータ$\theta$で調整できる確率$p_{\theta}(x)$を使用して、$p_*(x)$にできるだけ近い確率分布を作る。

対数尤度を目的関数とする。

$$\log \prod^N_{n=1}p_\theta(x^{(n)})= \sum^N_{n=1}\log p_\theta(x^{(n)})$$

そして、この対数尤度を最大化するパラメータは次の式で表される。

$$\hat{\theta}=\arg\max_\theta\sum^N_{n=1}\log p_\theta (x^{(n)})$$

$\arg\max_\theta$は最大値を与える引数$\theta$を意味する。つまり、対数尤度を最大化する$\theta$を計算する。この式は、KLダイバージェンスを用いて導出することができる。それを証明する。

KLダイバージェンスは

$$D_{KL}(p_*||p_\theta) = \int p_*(x)\log\frac{p_*(x)}{p_\theta(x)}dx$$

の式で表される。この式を計算するためには、すべての$x$について積分をする必要がある。しかし、$p_*(x)$の具体的な数式が不明であるため、計算ができない。そこで、**モンテカルロ法** を用いて近似する。

モンテカルロ法を用いて、期待値を求める手法を説明する。

$$\mathbb{E}_{p_*(x)}[f(x)]=\int p_*(x)f(x)dx$$

は連続な確率変数$x$を持つ確率密度$p_*(x)$と、任意の関数$f(x)$である。モンテカルロ法を用いると上式は次のように近似できる。

1. 確率分布$p_*(x)$に基づいてサンプル$\{x^{(1)},x^{(2)},\cdots,x^{(N)}\}$を生成する。
2. 各データ$x^{(i)}$における$f(x^{(i)})を求め、その平均を計算する。

この手順により、積分を近似して表すことができる。

$$\mathbb{E}_{p_*(x)} = \int p_*(x)f(x)dx \approx \frac{1}{N}\sum^N_{n=1}f(x^{(n)})\\ (x^{(n)}\sim p_*(x))$$

記号$\approx$は近似的に等しいことを意味し、$x^{(n)}\sim p_*(x)$は$x^{(n)}$が確率分布$p_*(x)$に従うことを意味する。モンテカルロ法によって、関数$f(x)$の期待値を計算することができる。実際にモンテカルロ法を用いて期待値を求めてみる。

確率$p(x)$を一様関数とし、定積分と同じ結果を得ることができる。関数$x^2$を区間$[0:1]$で定積分すると$\frac{1}{3}$となる。

In [35]:
import numpy as np

K=10000

x = np.random.uniform(0, 1, K)

exp_x = sum(x*x) / K

print(exp_x)

0.32994007835910655


実際に計算すると、$\frac{1}{3}$に近くなっていることがわかる。

モンテカルロ法は、ランダムに生成されたサンプルを用いて、問題をシミュレートし、それらのサンプルから求めた結果の平均を取ることで、計算結果の解を近似できることが実感できる。

期待値における関数$f(x)$を$\log\frac{p_*(x)}{q_\theta(x)}$としてモンテカルロ法を適用する。

$$D_{KL}(p_*(x) || p_\theta) = \int p_*(x)\log\frac{p_*(x)}{p_\theta(x)}dx \\
\approx \frac{1}{N}\sum^N_{n=1}\log\frac{p_*(x^{(n)}}{p_\theta(x^{(n)}}(x^{(n)}\sim p_*(x))\\
=\frac{1}{N} \sum^N_{n=1} \left( \log p_*(x^{(n)})-\log p_\theta (x^{(n)})\right)
$$

その結果、KLダイバージェンスは上のように変形される。目的は、$D_{KL}(p_* || p_\theta)$を最小にする$\theta$を求めることである。従って、$\theta$を含まない項を無視して

$$\arg\min_\theta D_{KL} \approx \arg\min_\theta\left(-\frac{1}{N}\sum^N_{n=1}\log p_\theta(x_n)\right) \\
 = \arg\min_\theta \left( - \sum ^N_{n=1}\log p_\theta(x_n)\right)\\
 = \arg\max_\theta \sum^N_{n=1}\log p_\theta(x_n)$$
 
途中で、目的関数を$N$倍しているが、最小値をとる$\theta$は変わらない。目的関数の符号を反転させると、最小の$\min$から、最大の$\max$に変わる。以上より

$$\arg\min_\theta D_{KL}(p_*||p_\theta)\approx \arg\max_\theta\sum^N_{n=1}\log p_\theta(x_n)$$

となる。左辺は、KLダイバージェンスが最小となる$\theta$、右辺は対数尤度が最大となる$\theta$を意味している。

## 5.2 EMアルゴリズムの導出①

GMMは潜在変数を持つ確率分布のモデルである。潜在変数を持つモデルは他にもVAEやHMMがある。HMM隠れマルコフモデルの略である。

EMアルゴリズムは、GMMだけではなく、潜在変数を持つモデルに対して適用することができる。はじめに、潜在変数を持つモデルに適応しその後にGMMに適応する。

EMアルゴリズムはExpectation-Maximizationの略で、ExpectationステップとMaximizationステップを繰り返し、パラメータを更新する。

### 5.2.1 潜在変数を持つモデル

観測できる確率変数を$x$潜在変数を$z$、パラメータ$\theta$で表す。対数尤度は、確率の周辺化により、次の式で表される。

$$\log p_\theta(x)=\log\sum_zp_\theta(x,z)$$

真の確率分布$p_*$からサンプル$\mathcal{D}=\{x^{(1)},x^{(2)},\cdots,x^{(n)}\}$が得られたとする。この時の対数尤度は

$$\log p_\theta(\mathcal{D}) = \log\left(p_\theta(x^{(1)}p_\theta(x^{(2)})\cdots p_\theta(x^{(n)}\right)\\
 = \sum^N_{n=1}\log p_\theta(x^{(n)}) \\
 = \sum^N_{n=1}\log\sum_{z(n)}p_\theta(x^{(n)},z^{(z)})$$
この対数尤度を最大化したいが、log-sumの形だったが、EMアルゴリズムはこの問題をsum-logの形に変換し解く。

まずは、乗法定理を使用し式を変形させる。

$$\log p_\theta(x) = \log\frac{p_\theta(x,z)}{p_\theta(z|x)}$$

一見、対数を加減にすることで解決しているように見えるが、条件付き確率$p_\theta(z|x)$が難点である。なぜなら、ベイズ定理より

$$p_\theta(z|x)=\frac{p_\theta(x,z)}{\sum_zp_\theta(x,z)}$$

と表される。分母に$\sum$があり、log-sumの形から逃れることができない。



ここでは、離散型を想定しているが、連続型では、$\sum$を$\int$にかえることで同様の結果が得られる。

### 5.2.2 任意の確率分布$q(z)$

厄介者である$p(z|x)$に対処するため、任意の確率分布$q(z)$を使用する。$q(z)$は、$p_\theta(z|x)$の近似分布として用いる。

対数尤度を$q(z)$を使用して

$$\log p_\theta(x) = \log\frac{p_\theta(x,z)}{p(z|x)} = \log\frac{p_\theta(x,z)}{p(z|x)}\frac{q(z)}{q(z)}=\log\frac{p_\theta(x,z)}{q(z)}+\log\frac{q(z)}{p(z|x)}$$

と表すことができる。この確率密度$q(z)$が潜在変数に対応しているように見える。

第一項は$p(z|x)$から$q(z)$へ変更することができた。一方で、第二項には$p(z|x)$が存在する。よって第二項をKLダイバージェンスの形式に変形する。

$$\log p_\theta(x) = \log p_\theta(x) \sum_zq(z) \\
 = \sum q(z)\left(\log\frac{p_\theta(x,z)}{q(z)}+\log\frac{q(z)}{p(z|x)}\right)\\
 = \sum q(z) \log\frac{p_\theta(x,z)}{q(z)}+\sum_z \log\frac{q(z)}{p(z|x)}\\
 = \sum q(z) \log\frac{p_\theta(x,z)}{q(z)}+D_{KL}(q(z)||p_\theta(z|x))$$

第二項をKLダイバージェンスとして表すことができた。これが、EMアルゴリズムを導くための式となる。

## 5.3EMアルゴリズムの導出②

①で得られた対数尤度は

$$ \log p_\theta(x)=\sum_z q(z)\log \frac{p_\theta(x,z)}{q(z)}+D_{KL}(q(z)||p_\theta(z|x)$$

である。この式似ついて考察を続ける。

### 5.3.1ELBO(エビデンスの下界)

KLダイバージェンスの計算結果は、常に０以上になる。そのため、

$$ \log p_\theta(x)=\sum_z q(z)\log \frac{p_\theta(x,z)}{q(z)}+D_{KL}(q(z)||p_\theta(z|x) \geq \sum_z q(z)\log \frac{p_\theta(x,z)}{q(z)}$$

が成立する。第一項の$\sum_z \log \frac{p_\theta(x,z)}{q(z)}$は、対数尤度以下の値であり、ELBO(Evidence Lower BOund)と呼ばれエビデンスの下界と訳される。

この場合のエビデンスは、対数尤度が大きくなることで$q$,$\theta$が正しい方向を示している根拠であることを示す。この第一式は、ELBOと呼ばれ

$$\rm{ELBO}(x;q,\theta)=\sum_zq(z)\log\frac{p_\theta(x,z)}{q(z)}$$

の表記を用いる。$\rm{ELBO}(x;q,\theta)$には重要な特徴があり

* 対数尤度$\log p_\theta(x)$は常に$\rm{ELBO}(x;q,\theta)$以上の値になる
* $\rm{ELBO}(x;q,\theta)$はsum-logの形になっており、解析しやすい

ELBOを大きくするようにパラメータを更新する。$\log p_\theta(x)$の代わりとして、ELBOを最適化の対象にすることを考える。

つまり、対数尤度の第一項に注目し最適化する。

### 5.3.2EMアルゴリズムへ

$\rm{ELGO}(x;q,\theta)$には$q(z),\theta$の二つのパラメータがある。この二つのパラメータを最適化しELGOを最大化する。

二つのパラメータを同時に最適化することは難しいため、一方を固定しもう片方のパラメータを最適化する。この作業を繰り返す。

まずは、$\theta=\theta_{\rm{old}}$として$\theta$を固定し$q(z)$を最適化する。

$q(z)$の分布によって、$\rm{ELBO}(x;q,\theta)$が$\log p_\theta(x)$にどれくらい近づくかが変化する。これは、KLダイバージェンスがゼロに近づくことで、対数尤度と$\rm{ELBO}$が等しくなる。

式

$$\log p_\theta(x) = \rm{ELBO}(x;q,\theta)+D_{\rm{KL}}(q(z)||p_\theta(z|x))$$

に注目すると、対数尤度では任意の確率分布$q(z)$に依らずELBO項とKL項の和が一定であることがわかる。

KL項を小さくすることで、ELBO項は大きくなる。KLダイバージェンスは$q(z)$と$p_\theta(z|x)$が等しい場合に０となる。その時の対数尤度$\log p_\theta(x)$は$\rm{ELBO}(x;q,\theta)$と等しくなる。

よって、$q(z)$の更新式は$q(z)=p_{\theta_{\rm{old}}}(z|x)$と表すことができる。つまり、KLダイバージェンスが小さくなるように、確率分布を変化させる。

$q(z)=p_{\theta_{\rm{old}}}(z|x)$による更新は、Eステップと呼ばれる。これはExpectation ValueのEからきている。これは、$q(z)=p_{\theta_{\rm{old}}}(z|x)$の時ELBOが

$$\rm{ELBO}(x;q=p_{\theta_{\rm{old}}}(z|x),\theta) = \sum_zp_{\theta_{\rm{old}}}(z|x)\log\frac{p_\theta(x,z)}{p_{\theta_{\rm{old}}}(z|x)} = \mathbb{E}_{{\theta_{\rm{old}}}(z|x)}\left[ \log\frac{p_\theta(x,z)}{p_{\theta_{\rm{old}}}(z|x)} \right]$$

期待値として表されることに起因する。

次に$\theta$の最適化を行う。これは、解析的に求めることができる。Mステップと呼ばれ、Maximizationの頭文字から来ている。

Mステップを行うことで、ELBOの値は増加するが一方でEステップで一致した対数尤度とELBOは遠ざかる。

EステップとMステップを交互に繰り返すことで、対数尤度が変化しなくなる。EMアルゴリズムによる更新のやめ時である。

### 中まとめ

対数尤度は潜在変数$z$を生成する任意の確率分布$q(z)$を使用して

$$\log p_\theta(x) = \sum q(z) \log\frac{p_\theta(x,z)}{q(z)}+D_{KL}(q(z)||p_\theta(z|x))$$

と表される。対数尤度の下限Expectation Lower BOundaryは第一項である。これは、KLダイバージェンスが０以上になるためである。

$$\rm{ELBO}(x;q,\theta)=\sum_zq(z)\log\frac{p_\theta(x,z)}{q(z)}$$

対数尤度を最大化するために、ELBOを最大化する。ELBOは$q(z),\theta$の二つの変数を持つ関数であるため、$q(z), \theta$をそれぞれ更新させる。

$q(z)$を更新するステップをEステップ、$\theta$を更新するステップをMステップと呼ぶ。呼称は、それぞれの更新に使用する式から期待値のExpectation,最大値のMaximizationの頭文字をとっている。

Eステップでは、$\theta={\theta_{\rm{old}}}$と固定し、$q(z)=p_{\theta_\rm{old}}(z|x)$の更新式を用いて更新する。つまり、$q(z)$を$p_{\theta_\rm{old}}(z|x)$に近づける。
更新し、ELBOを対数尤度に近づける。

Mステップでは、ELBOが最大になる$\theta$を計算する。
Eステップで計算したELBOと対数尤度は遠ざかる。

このEステップとMステップを交互に繰り返すことで対数尤度を徐々に大きくする。
