In [1]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series

import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

# 日本語フォントを設定
font = {'family': 'AppleGothic'}
mpl.rc('font', **font)

%matplotlib inline

# what is EMアルゴリズム
データの欠測等の不完全な状態で観測されたデータに基づく最尤推定値を求めるためのアルゴリズム

通常、欠測データが存在しないときの最尤推定法では、対数尤度関数
$$
\log {L\left( \theta;x \right)} = \sum {\log {f\left( x;\theta \right)}}
$$
を最大にする$\theta$を求めるが、欠測データが存在するためこの操作が行えない。このような問題を解決するために、EMアルゴリズムを用いる。

# EMアルゴリズム

 - $Y$: **観測されたデータ**$y$に対応する確率変数
 - $f\left({y}|{\theta}\right)$: 確率密度関数
 - $\theta = \left( \theta_{1}, \dots, \theta_{d} \right)^{T}$: パラメータ空間($R^{d}$次元)上のベクトル
 - $Z$: **欠測データ**$z$に対応する確率変数
 - $X^{T} = \left( Y^{T}, Z^{T} \right)$: **完全データ**に対応する確率変数
 - $L\left( x;\theta \right) = \prod _{i=1}^{n}{f\left( x_{i};\theta \right)}$: 尤度関数

一般的な表記では、EMアルゴリズムは次のような計算手順で定式化されている。


> 1. パラメータに初期値$\theta^{(0)}$を設定する

> 2. **<font color="blue">期待値</font>**(Expectation)ステップ:<br>
> 欠測データ$Z$について、観測値$y$と確率密度関数のパラメータ$\theta^{(j)}$が与えられたという条件のもとで、その条件付き期待値を求め、欠測となっている観測$z$について擬似的な観測値として代入する。<br>
> *$\theta^{(j)}$, $y$が与えられたという条件のもとでの$z$の期待値を計算→完全データを生成→対数尤度の期待値を計算*
> $j$ステップで、
> $$
Q\left( \theta^{\prime} \theta^{(j)} \right) = E_{\theta^{(j)}}\left[ {\log {L\left( \theta;x \right)}}|{Y = y} \right]
$$
> をパラメータ$\theta^{\prime}$の関数として計算する

> 3. **<font color="blue">最大化</font>**(Maximization)ステップ:<br>
> $Q\left( \theta^{\prime}, \theta^{(j)} \right)$を$\theta^{\prime}$に関して最大化し、その解を新しい推定量$\theta^{(j + 1)}$として定める。
> $$
Q\left(\theta^{(j+1)}, \theta^{(j)}\right) \ge Q\left(\theta, \theta^{(j)}\right)
$$
> となるパラメータ$\theta^{(j+1)}$を求める。
> $$
M\left( \theta^{(j)} \right) = arg \max _{\theta}{Q\left( \theta^{(j)} \right)}
$$
>
> 4. ステップ2,3を収束するまで繰り返す。
> 収束条件としては、$\left\| \cdot \right\|$を$d$次元ユークリッド空間$R^{d}$の適当なノルムとして
>$$
\left\| \theta^{(j+1)} - \theta^{(j)} \right\|
$$
> が十分小のとき、あるいは、
>$$
\left\| Q\left(\theta^{(j+1)} \theta^{(j)}\right) - Q\left( \theta^{(j)} \theta^{(j)} \right) \right\|
$$
>などが十分小さいことを条件として使う。
