## 近似ベイズ推論  
解析的な推論ができないニューラルネットワークのような複雑な確率モデルでの近似的計算手法
### 4.1 サンプリングに基づく推論手法
観測データを${\bf X}$，パラメータや潜在変数の集合を${\bf Z}$とした時，  
$p({\bf Z}|{\bf X})$を求めたい  
→解析的に求められないので$p({\bf Z}|{\bf X})$から複数のサンプルを得ることで分布の特性を調べる  

#### 4.1.1単純モンテカルロ法
分布p(z)に関して$f(z)$の期待値$\int f(z)p(z)dz$を求める
1. $\int f(z)p(z)dz$の解析的な積分計算は難しい
2. 分布$p(z)$からのサンプリングは容易  

という状況 
\begin{eqnarray}
  \int f(z)p(z)dz \approx\ \frac{1}{T} \sum_{t=1}^T f(z^{(t)}) \tag{1}\\
\end{eqnarray}

- p(z)から十分大きなT個のサンプルを抽出して近似している  

$p(X,\theta) = p(X|\theta)p(\theta)$の周辺尤度$p(X)$の評価に実際使おうとすると  
- $p(\theta)$は幅広く撮る必要がある  
- $p(X|\theta)$は特定の狭い$\theta$でしか大きな値を取らない  
ので実用されることは少ない

#### 4.1.2 棄却サンプリング  
目標分布
$$
p(z) = \frac{1}{Z_p} \tilde{p}(z) \tag{2}
$$
からのサンプルを得たい

- p(z)を直接計算できないので正規化されていない関数$\tilde{p}(z)$を利用

##### 手順
$k>0$を$kq(z)>\tilde{ p} (z)$となるように設定  
サンプリングが簡単に行える仮の分布q(z)を設定  
1. $z^{(t)} ~ q(z)$を得る  
2. 一様分布からのサンプル$\tilde{u} ~ Uni(u|0, kq(z^{(t)}))$を得る  
3. $\tilde{u}\leq\tilde{p}(z^{(t)})$であれば受容される時，サンプルが受容される確率は
$$
\int q(z)\frac{\tilde{q}(z)}{kq(z)}dz = \frac{1}{k}\int \tilde{p}(z)dz \tag{3}
$$

となる  
棄却サンプリングはニューラルネットワーク等の複雑なモデルで高次元の変数のサンプリングが必要とされる時サンプルの受容率が非常に低くなる

#### 4.1.3 自己正規化重点サンプリング  
p(z)から直接サンプリングが得られなくても使える手法  
式(1)の期待値そのものを効率的に計算することを目標とする  
式(1)は
\begin{eqnarray}
    \int f(z)p(z)dz = \int f(z) \frac{p(z)}{q(z)} q(z)dz\\
    = \mathbb{E} _{q(z)} \left[ f(z) \frac{\tilde{p}(z)}{q(z)}\right] \\
    = \frac{Z_q}{Z_p} \mathbb{E}_{q_(z)} \left[ f(z) \frac{\tilde{p}(z)}{\tilde{q}(z)} \right] \\
    \approx \frac{Z_q}{Z_p} \frac{1}{T} \sum_{t=1}^T f(z^{(t)})w^{(t)} \tag{4}
\end{eqnarray}

となる
- $w^{(t)} = \frac{\tilde{p}(z^{(t)})}{\tilde{q}(z^{(t)})}$とおいた  

正規化項の比$\frac{Z_p}{Z_q}$は
\begin{eqnarray}
    \frac{Z_p}{Z_q} = \int \frac{\tilde{p}(z)}{Z_q}dz\\
    =\int \frac{\tilde{p}(z)}{tilde{q}(z)} q(z)dz\\
    =\mathbb{E}_{q(z)} \left[ \frac{\tilde{p}(z)}{tilde{q}(z)} \right]\\
    \approx \frac{1}{T} \sum_{t=1}^T w^{(t)} \tag{5}
\end{eqnarray}

のようにq(z)からT個のサンプルを使って近似的に求められる  
- 棄却サンプリングは直観的かつ実装も容易だが一次元程度の簡単な積分近似にしか適用できない

#### 4.1.4 マルコフ連鎖モンテカルロ法
- 高次元の空間で効率的にサンプリングを行うための手段  

式(6)が成り立つ時，分布$p_*(z)$は定常分布であるという

\begin{eqnarray}
    p_*(z) =\int T(z', z)p_*(z')dz'. \tag{6}
\end{eqnarray}

- p(z)に一次マルコフ連鎖を仮定している
- $ T(z', z)$は遷移確率

遷移確率Tによって任意の初期状態$p_0$から定常分布$p_*$に収束できなければならない  
->エルゴード性  
   - 有限回数で遷移できること
   - 全ての状態が固定の周期性を持たないこと
   - 同じ状態に有限回で戻ることができること

#### 4.1.5 メトロポリス・ヘイスティングス法  
$p(x) \propto \tilde{p}(x)$で$\tilde{p}(x)$は計算可能  
遷移確率T(z',z)が求められない時には遷移の提案分布a(z|z')を使うことができる  

##### アルゴリズム
1. 提案分布$q(･|z^{(t)})$から次のサンプル候補$z_*$をサンプリングする
2. 比率rを計算する  
$$
r = \frac{\tilde{p}(z_*)q(z^{(t)}|z_*)}{\tilde{p}(z^{(t)})q(z_*|z^{(t)})} \tag{7}
$$
3. 提案された点$z_*$を確率min(1,r)によって  
$z^{(t+1)}\leftarrow z_*$として受容し，そうでない場合は$z^{(t+1)}\leftarrow z^{(t)}$とする

提案分布としてはガウス分布が使われることが多い  

#### 4.1.6 ハルミトニアンモンテカルロ法
解析力学的な物体の軌道のシミュレーションとメトロポリス・ヘイスティングス法を組み合わせたサンプリング手法  
事後分布の微分情報を利用することでガウス分布を適用したメトロポリス・ヘイスティングス法より効率的に事後分布の空間を探索できる  
##### ハルミトニアン  
ハルミトニアンHは運動エネルギーTとポテンシャルエネルギーVとして，全エネルギーを  
$$H(z,p,t)=U(z)+K(p)\tag{8}$$
のように位置ベクトルz，運動量ベクトルp，時間tによって表した関数のこと  
U(z)は位置によって決まるポテンシャルエネルギー，K(p)は運動エネルギー  
質量1のとき$K(p)=\frac{1}{2}p^tp$

ハルミトニアンの偏微分
\begin{eqnarray}
    \frac{dp_i}{dt} = -\frac{dH}{dz_i},\\
    \frac{dz_i}{dt} = \frac{dH}{dp_i}\tag{9}
\end{eqnarray}

(9)を(8)に代入すれば
\begin{eqnarray}
\frac{dp_i}{dt} = -\frac{dU}{dz_i}, \\
\frac{d_zi}{dt} = \frac{dK}{dp_i}\tag{10}
\end{eqnarray}

(9)が解析的に得られないとして，数値シミュレーションによって物体の軌道を計算する．  
##### オイラー法
\begin{eqnarray}
p_i(t+\epsilon) = p_i(t) + \frac{dp_i}{d\epsilon} \tag{A1}
\end{eqnarray}

(A1)は時間Tを$t+\epsilon$として表し(離散化)解を定義する

###### ピカールの逐次近似法

- オイラー法の理解にあたって必要
- 任意の区間内で初期条件$x(\tau) = \xi$を満たす解x(t)を求める
    - これは$x(t) = \xi + \int_\tau^t f(s, x(s)) ds$を求めることと同値

#### オイラー法を用いて物体の軌道を計算
\begin{eqnarray}
p_i(t+\epsilon) = p_i(t) + \left.\frac{dp_i}{d\epsilon}\right|_t = p_i(t) - \epsilon \left.\frac{dU}{dz_i}\right|_{z_i(t)} \\
z(t + \epsilon) = z_i(t) + \epsilon \left.\frac{dp_i}{dt}\right|_t = z_i(t) + \epsilon p_i(t) 
\end{eqnarray}

として時刻$\epsilon>0$の挙動を近似的に予測する  
→離散化による数値誤差が大きい  
  <span style="color: red; ">"近似"は離散化のこと？</span>
#### リープフロッグ法
オイラー法の改良版(オイラー法は一次精度，リープフロッグ法は2次精度)  
時間可逆性
- n回積分したのち時間を逆にしてn回積分すれば元の位置に戻る  

シンプレクティック性
- エネルギー保存的なやつ 時間とともに誤差が増大することがない  

という性質を持つのでハミルトニアンモンテカルロ法に利用される
→比率rの計算時に確率変数の変換に伴うヤコビ行列お決定式を計算する必要がなくなるので計算効率化につながる  
\begin{eqnarray}
p_i \left( t+\frac{\epsilon}{2} \right) = p_i(t) -\left.\frac{\epsilon}{2}\frac{dU}{dz_i} \right|_{zi(t)}\tag{A2}\\ 
z(t + \epsilon) = z_i(t) + \epsilon p_i\left(t + \frac{\epsilon}{2}\right)\tag{A3} \\
p_i(t+\epsilon) = p_i\left(t+\frac{\epsilon}{2}\right) -\left.\frac{\epsilon}{2}\frac{dU}{dz_i}\right|_{z_i(t+\epsilon)}\tag{A4}
\end{eqnarray}

この手続きをL回繰り返すことで時刻$\epsilon L$先の物体の位置$z_*$と運動量$p_*$を計算できる

#### 4.1.6.2 サンプリングアルゴリズムへの適用
リープフロッグ法を使ったシミュレーションをサンプリングアルゴリズムに適用する  
サンプルを得たい確率分布$p(z)\propto \tilde{p}(z)$に対して補助分布${\bf p}$を導入し  
$p(z,p) = p(z)p({\bf p})$のように拡張する  


p(z)とp(p)は独立なので同時分布p(z)p(p)から得られるzのサンプルは周辺分布p(z)から得られたものと同一視できる  
$p({\bf p}) = N({\bf p}|{\bf 0, I})$とし，さらに$\log \tilde{p}(z)=-U(z)$とおいて同時分布を計算すると  

\begin{eqnarray}
    p(z,p) = exp(\log p(z) + \log p({\bf p})) \\
    \propto exp \left( \log \tilde{p}(z) - \frac{1}{2}{\bf p}^t{\bf I}{\bf p}\right) \\
    = exp\left( -U(z) - K(p) \right)\\
    = exp(-H(z,p)) \tag{11}
\end{eqnarray}

となり，式(11)は式(8)のハミルトニアンを表す  

運動量${\bf p}$をガウス分布に従ってサンプリングした後，ハルミトニアンのシミュレーションを行えば新しいサンプル点の候補$(z_*,p_*)$を得ることができる  


この時シミュレーション上では物体はハミルトニアンHをほぼ一定に保ったまま軌道を描くので式(7)の比率r  
\begin{eqnarray}
    r = \frac{p(z_*,p_*)}{p(z,p)}\\
    = exp(-H(z_*,p_*) + H(z,p))
\end{eqnarray}
は常に1に近い値をとる  
→受容率が非常に高い


$\epsilon$が小さいほどシミュレーションとの誤差が小さくなり受容率が上がるが遷移の移動量が小さくなるため効率的な探索が行えなくなる  
Lが大きいほど移動量が大きくなるが計算コストが大きくなる  

ハミルトニアンモンテカルロ法は事後分布の微分さえ計算できれば適用できる  
→汎用性が高い  
離散線代変数などの微分できない変数をそのままで扱うことはできない  

#### 4.1.6.3 ランジュバン動力学法
L=1とした場合をランジュバンモンテカルロ法もしくはランジュバン動力学法という  
式A2をA3に代入すると，

\begin{eqnarray}
    z_{*i} = z_i(t+\epsilon) \\
    = z_i(t) + \epsilon \left\{ p_i(t) - \left.\frac{\epsilon}{2}\frac{dU}{dz_i}\right|_{z_i(t)} \right\} \\
    = z_i(t) - \frac{\epsilon ^2}{2}\left.\frac{dU}{dz_i}\right|_{z_i(t)} + \epsilon p_i(t)
\end{eqnarray}

#### 4.1.7 ギブスサンプリング
確率分布p(z)から直接Z全体をサンプリングすることが難しい場合に  
ZをM個の部分集合に分けて逐次的にサンプリングを行う手法のこと  

- サンプルを得たい変数の数が膨大な時
- 複数の確率分布が組合わさった巨大な確率モデルからサンプルを得たい場合
に特に有効  

### 4.2 最適化に基づく推論手法  
マルコフ連鎖モンテカルロ法は無限に計算を続ければサンプルを真の分布から得られたものと同一視して良い  
→適切なサンプルサイズが決めにくい，計算コストが大きいなどの不便  
⇔勾配情報を用いた数値最適化は実験的に速い収束性能を持つ

#### 4.2.1 変分推論法  
事後分布に出現する解析不能な積分を最適化問題に置き換えることで近似的に計算する  
周辺尤度$p({\bf X})$の計算には潜在変数Zの積分除去$p({\bf X}) = \int p({\bf X, Z})d{\bf Z}$が必要となるがモデルが複雑になるとこの積分は解析的に実行できないのでELBO(Evidence lower bound)という対数周辺尤度を考える

##### ELBO
変分推論のタスクを周辺尤度の下限の最大化とする  
\begin{eqnarray}
    確率モデルp({\bf X},{\bf Z}) \\{\bf X}:観測データ \\ {\bf Z}:未観測の変数  \\
    {\bf Z}に関する確率分布q({\bf Z})を仮定し，このモデルの周辺尤度p({\bf X})を求めると\\  
    \log p({\bf X}) = \log \int p({\bf X}, {\bf Z})d{\bf Z} \\
    = \log \int q({\bf Z}) \frac{p({\bf X},{\bf Z})}{q({\bf Z})} d{\bf Z} \\
    \geq \int q({\bf Z}) \log \frac{p({\bf X},{\bf Z})}{q({\bf Z})} d{\bf Z} \tag{イェンセンの不等式}\\
    = L[q({\bf Z})]
\end{eqnarray}
この式における$L[q(Z)]$を任意の確率分布$q(Z)$に対するELBOと呼ぶ  
複雑な確率モデルでは周辺尤度を厳密に計算できないこともあるので代わりにL[q(Z)]をなるべく大きくするようなq(Z)を求めることで対数周辺尤度$\log p(X)$を近似的に計算することができる  

対数周辺尤度とELBOの差は
$$
\log p(X) - L[q(Z)] = KL[q(Z)||p(Z|X)]
$$
なのでq(Z)とp(Z|X)のKLダイバージェンスになっている