# ベイズ勉強会 Part 4 多次元ガウス分布のベイズ推論
> 多次元ガウス分布のベイズ推論を実践する

- toc: true 
- badges: false
- comments: true
- categories: [bayes]
- image: images/dag1.png

#hide
$$\newcommand{\bm}[1]{{\bf #1}}$$

ベイズ勉強会資料は『ベイズ推論による機械学習入門』{% fn 1 %}を元に、途中式計算をできるだけ省略せずに行ったものです。

# 多次元ガウス分布

多次元ガウス分布はD次元ベクトル$\bm{x} \in \mathbb{R}^D$を生成するための確率分布であり、以下の確率密度関数で表される。

> Important: 多次元ガウス分布の確率密度関数 $$\frac{1}{\sqrt{(2\pi)^D |\bm{\Sigma}}|}\exp{\{-\frac{1}{2}(\bm{x}-\bm{\mu})^\mathrm{T} \bm{\Sigma}^{-1} (\bm{x}-\bm{\mu})\}}$$

$\bm{\mu} \in \mathbb{R}^D$は平均パラメータ、$\bm{\Sigma}$は共分散行列パラメータでD×Dの正定値行列である必要がある。

> Important: 正定値行列

>> 固有値が全て正の実正方行列を正定値行列と呼ぶ。実正方行列$\bm{A}$が正定値行列である必要十分条件は任意の非ゼロベクトル$\bm{x}$に関して、
>>
>> $$\bm{x}^\mathrm{T}\bm{A}\bm{x} > 0$$
>>
>> が成り立つこと。正定値行列の逆行列も正定値行列である。また全ての固有値が正であることから、
>>
>> $$|\bm{A}| > 0$$
>>
>> が成り立つ。
>>
>> また、対称行列であるので
>>
>> $$\bm{A}^{\mathrm{T}} = \bm{A}$$
>>
>> が成り立つ。

多次元ガウス分布を対数で表示すると、

> Important: 多次元ガウス分布の対数表示 $$\ln \mathcal{N}(\bm{x}|\bm{\mu},\bm{\Sigma})=-\frac{1}{2}\{(\bm{x}-\bm{\mu})^\mathrm{T}\bm{\Sigma}^{-1}(\bm{x}-\bm{\mu}) + \ln |\bm{\Sigma}| + D\ln 2\pi\}$$

1次元ガウス分布と同様に分散の逆元として精度を定義できる。共分散行列$\bm{\Sigma}$の逆行列として精度行列$\bm{\Lambda}$を定義する。すなわち$\bm{\Lambda}=\bm{\Sigma}^{-1}$である。

> Important: 多次元ガウス分布を精度行列で表した場合 $$\frac{1}{\sqrt{(2\pi)^D}}|\bm{\Lambda}|^{\frac{1}{2}}\exp{\{-\frac{1}{2}(\bm{x}-\bm{\mu})^\mathrm{T} \bm{\Lambda} (\bm{x}-\bm{\mu})\}}$$

> Important: 多次元ガウス分布の対数表示(精度行列で表した場合) $$\ln \mathcal{N}(\bm{x}|\bm{\mu},\bm{\Lambda}^{-1})=-\frac{1}{2}\{(\bm{x}-\bm{\mu})^\mathrm{T}\bm{\Lambda}(\bm{x}-\bm{\mu}) - \ln |\bm{\Lambda}| + D\ln 2\pi\}$$

この多次元ガウス分布のベイズ推論を行っていく。1次元ガウス分布と同様、平均パラメータ未知、精度パラメータ未知、両方未知の場合の順に行う。なお本稿では特に断り無い限り多次元ガウス分布のことをガウス分布と呼ぶ。

# 平均未知

D次元の確率変数$\bm{x} \in \mathbb{R}^D$の平均パラメータ$\bm{\mu} \in \mathbb{R}^D$のみが未知で、精度行列$\bm{\Lambda} \in \mathbb{R}^{D \times D}$は既に与えられている、またはハイパーパラメータとして、ベイズ推論を行ってみる。N個のデータ$\bm{X} = \{\bm{x}_1,\dots,\bm{x}_N\}$が観測されていて、予測する未知の観測を$\bm{x}_*$とおく。

## モデルの構築

平均のみが未知の時は、ガウス分布を事前分布とすることで共役性が満たされることがわかっている。$\bm{m} \in \mathbb{R}^D, \bm{\Lambda}_{\mu} \in \mathbb{R}^{D \times D}$をハイパーパラメータとして同時分布は次のようになる。

$$
\begin{eqnarray}
    p(\bm{X},\bm{x}_*,\bm{\mu}) &=& p(\bm{X}|\bm{\mu})p(\bm{x}_*|\bm{\mu})p(\bm{\mu}) \\
    p(\bm{X}|\bm{\mu}) &=& \Pi_{n=1}^{N} \mathcal{N}(\bm{x}_n|\bm{\mu},\bm{\Lambda}^{-1}) \\
    p(\bm{x}_*|\bm{\mu}) &=& \mathcal{N}(\bm{x}_*|\bm{\mu},\bm{\Lambda}^{-1}) \\
    p(\bm{\mu}) &=& \mathcal{N}(\bm{\mu}|\bm{m},\bm{\Lambda}_{\mu}^{-1})
\end{eqnarray}
$$

## 事後分布の推論

ベイズの定理を用いて事後分布$p(\bm{\mu}|\bm{X})$は次のようになる。

$$
\begin{eqnarray}
    p(\bm{\mu}|\bm{X}) &\propto& p(\bm{X}|\bm{\mu})p(\bm{\mu}) \\
    &=& \{ \Pi_{n=1}^{N} p(\bm{x}_n|\bm{\mu})\}p(\bm{\mu}) \\
    &=& \Pi_{n=1}^{N} \{\mathcal{N}(\bm{x}_n|\bm{\mu},\bm{\Lambda}^{-1})\} \mathcal{N}(\bm{\mu}|\bm{m},\bm{\Lambda}_{\mu}^{-1})
\end{eqnarray}
$$

対数をとると

$$
\begin{eqnarray}
    \ln p(\bm{\mu}|\bm{X}) &=& \Sigma_{n=1}^{N} \ln \mathcal{N}(\bm{x}_n|\bm{\mu},\bm{\Lambda}^{-1}) + \ln \mathcal{N}(\bm{\mu}|\bm{m},\bm{\Lambda}_{\mu}^{-1}) + const. \\
    &=& -\frac{1}{2} \Sigma_{n=1}^{N} (\bm{x}_n-\bm{\mu})^\mathrm{T}\bm{\Lambda}(\bm{x}_n-\bm{\mu}) - \frac{1}{2}(\bm{\mu}-\bm{m})^\mathrm{T}\bm{\Lambda}_{\mu}(\bm{\mu}-\bm{m}) + const. \\
    &=& -\frac{1}{2} \Sigma_{n=1}^{N} (\bm{x}_n^{\mathrm{T}}-\bm{\mu}^{\mathrm{T}})\bm{\Lambda}(\bm{x}_n-\bm{\mu}) - \frac{1}{2}(\bm{\mu}^{\mathrm{T}}-\bm{m}^{\mathrm{T}}) \bm{\Lambda}_{\mu}(\bm{\mu}-\bm{m}) + const. \\
    &=& \frac{1}{2}\Sigma_{n=1}^{N}\{ \bm{x}_n^{\mathrm{T}}\bm{\Lambda}\bm{\mu}\} + \frac{1}{2} \bm{\mu}^{\mathrm{T}} \bm{\Lambda}\Sigma_{n=1}^{N} \bm{x}_n - \frac{N}{2} \bm{\mu}^{\mathrm{T}}\bm{\Lambda}\bm{\mu} - \frac{1}{2} \bm{\mu}^{\mathrm{T}}\bm{\Lambda}_{\mu}\bm{\mu} + \frac{1}{2}\bm{\mu}^{\mathrm{T}}\bm{\Lambda}_{\mu}\bm{m} + \frac{1}{2}\bm{m}^{\mathrm{T}}\bm{\Lambda}_{\mu}\bm{\mu} + const.
\end{eqnarray}
$$

ここで、$\bm{x}_n^{\mathrm{T}}\bm{\Lambda}\bm{\mu}$は行数と列数について(1×D)×(D×D)×(D×1)=(1×1)よりスカラーなので次が成り立つ。

$$
\begin{eqnarray}
    \bm{x}_n^{\mathrm{T}}\bm{\Lambda}\bm{\mu} &=& (\bm{x}_n^{\mathrm{T}}\bm{\Lambda}\bm{\mu})^{\mathrm{T}}　(スカラーを転置しても同じ) \\
    &=& \bm{\mu}^{\mathrm{T}} \bm{\Lambda}^{\mathrm{T}} \bm{x}_n　(これは公式通り) \\
    &=& \bm{\mu}^{\mathrm{T}} \bm{\Lambda} \bm{x}_n　(\bm{\Lambda}は対称行列)
\end{eqnarray}
$$

$\bm{m}^{\mathrm{T}}\bm{\Lambda}_{\mu} \bm{\mu}$についても同様であり、

$$
\begin{eqnarray}
    \ln p(\bm{\mu}|\bm{X}) &=& \frac{1}{2}\Sigma_{n=1}^{N}\{ \bm{x}_n^{\mathrm{T}}\bm{\Lambda}\bm{\mu}\} + \frac{1}{2} \bm{\mu}^{\mathrm{T}} \bm{\Lambda}\Sigma_{n=1}^{N} \bm{x}_n - \frac{N}{2} \bm{\mu}^{\mathrm{T}}\bm{\Lambda}\bm{\mu} - \frac{1}{2} \bm{\mu}^{\mathrm{T}}\bm{\Lambda}_{\mu}\bm{\mu} + \frac{1}{2}\bm{\mu}^{\mathrm{T}}\bm{\Lambda}_{\mu}\bm{m} + \frac{1}{2}\bm{m}^{\mathrm{T}}\bm{\Lambda}_{\mu}\bm{\mu} + const. \\
    &=& \frac{1}{2}\bm{\mu}^{\mathrm{T}} \bm{\Lambda}\Sigma_{n=1}^{N} \bm{x}_n + \frac{1}{2}\bm{\mu}^{\mathrm{T}} \bm{\Lambda}\Sigma_{n=1}^{N} \bm{x}_n - \frac{N}{2} \bm{\mu}^{\mathrm{T}}\bm{\Lambda}\bm{\mu} - \frac{1}{2} \bm{\mu}^{\mathrm{T}}\bm{\Lambda}_{\mu}\bm{\mu} + \frac{1}{2}\bm{\mu}^{\mathrm{T}}\bm{\Lambda}_{\mu}\bm{m} + + \frac{1}{2}\bm{\mu}^{\mathrm{T}}\bm{\Lambda}_{\mu}\bm{m} + const. \\
    &=& - \frac{1}{2}\{ \bm{\mu}^{\mathrm{T}} (N \bm{\Lambda}+\bm{\Lambda}_{\mu})\bm{\mu} - 2 \bm{\mu}^{\mathrm{T}}(\bm{\Lambda} \Sigma_{n=1}^{N} \bm{x}_n + \bm{\Lambda}_{\mu} \bm{m})\} + const.
\end{eqnarray}
$$

$\bm{\mu}$に関する上に凸の二次関数となり、ガウス分布であることがわかる。1次元と同様に逆算的に計算していく。

$$p(\bm{\mu}|\bm{X}) = \mathcal{N}(\bm{\mu}|\hat{\bm{m}},\hat{\bm{\Lambda}}_{\bm{\mu}}^{-1})$$

とおき、対数をとって$\bm{\mu}$について整理すると

$$
\begin{eqnarray}
    \ln p(\bm{\mu}|\bm{X}) &=& -\frac{1}{2}\{(\bm{\mu}-\hat{\bm{m}})^\mathrm{T} \hat{\bm{\Lambda}}_{\bm{\mu}} (\bm{\mu}-\hat{\bm{m}}) \} + const. \\
    &=& -\frac{1}{2} \{\bm{\mu}^{\mathrm{T}} \hat{\bm{\Lambda}}_{\bm{\mu}} \bm{\mu} - \hat{\bm{m}}^{\mathrm{T}} \hat{\bm{\Lambda}}_{\bm{\mu}} \bm{\mu} - \bm{\mu}^{\mathrm{T}} \hat{\bm{\Lambda}}_{\bm{\mu}} \hat{\bm{m}}\} + const. \\
    &=& -\frac{1}{2} \{\bm{\mu}^{\mathrm{T}} \hat{\bm{\Lambda}}_{\bm{\mu}} \bm{\mu}-2\bm{\mu}^{\mathrm{T}} \hat{\bm{\Lambda}}_{\bm{\mu}} \hat{\bm{m}}\} + const.
\end{eqnarray}
$$

対応関係を見れば

$$
\begin{eqnarray}
    \hat{\bm{\Lambda}}_{\bm{\mu}} = N\bm{\Lambda}+\bm{\Lambda}_{\bm{\mu}} \\
    \hat{\bm{m}} = \hat{\bm{\Lambda}}_{\bm{\mu}}^{-1}(\bm{\Lambda} \Sigma_{n=1}^{N} \bm{x}_n + \bm{\Lambda}_{\mu} \bm{m})
\end{eqnarray}
$$

と事後分布のハイパーパラメータが求まる。

## 予測分布の導出

執筆中

# 精度行列未知

執筆中

# 平均・精度行列未知

執筆中

$\bm{\mu}^{\mathrm{T}} \hat{\bm{\Lambda}}_{\bm{\mu}} \bm{\mu} - \hat{\bm{m}}^{\mathrm{T}} \hat{\bm{\Lambda}}_{\bm{\mu}} \bm{\mu} - \bm{\mu}^{\mathrm{T}} \hat{\bm{\Lambda}}_{\bm{\mu}} \hat{\bm{m}}$

{{ '[須山敦志. ベイズ推論による機械学習入門. 講談社, 2017](https://www.kspub.co.jp/book/detail/1538320.html)' | fndetail: 1 }}