# ベイズ推論による機械学習

## 1. 確率の基本

### 1.1 確率分布

各要素が**連続値**であるような$M$次元ベクトル$\mathbf x = (x_1, \dots, x_M)^\mathrm{T}$に対する関数$p(\mathbf{x})$が次のような条件を満たすとき、$p(\mathbf{x})$を**確率密度関数**(probability density function)と呼ぶ。

$$
p(\mathbf{x}) \geq 0 \\
\int p(\mathbf{x}) dx = \int \cdots \int p(x_1, \dots, x_M)dx_1 \cdots dx_M = 1
$$

例：ガウス分布

各要素が**離散値**であるような$M$次元ベクトル$\mathbf x = (x_1, \dots, x_M)^\mathrm{T}$に対する関数$p(\mathbf{x})$が次のような条件を満たすとき、$p(\mathbf{x})$を**確率質量関数**(probability mass function)と呼ぶ。

$$
p(\mathbf{x}) \geq 0 \\
\sum_\mathbf{x} p(\mathbf{x}) dx = \sum_{x_1} \cdots \sum_{x_M} p(x_1, \dots, x_M) = 1
$$

例：ベルヌーイ分布

確率密度関数または確率質量関数で定義されるような分布を**確率分布**と呼ぶことにする。

### 1.2 確率分布の推論

ある変数$x, y$に対する確率分布$p(x, y)$を**同時分布**(joint distribution)と呼ぶ。

また、
$$
p(y) = \int p(x, y) dx
$$

のように一方の変数$x$を積分の用いて除去する操作を**周辺化**(marginalization)と呼ぶ。

得られた確率分布$p(y)$は**周辺分布**(marginal distribution)と呼ぶ。

同時分布において特定の値$y$が定められたときの$x$の確率分布を**条件付き確率分布**(conditional distribution)と呼び、次のように定義する。

$$
p(x|y) = \frac{p(x, y)}{p(y)}
$$

この条件付き確率分布は$x$についての確率分布であり、$y$は分布の特性を決めるパラメータのようなものであると解釈できる。

また$x$が定められたときの$y$の条件付き分布も

$$
p(y|x) = \frac{p(x, y)}{p(x)}
$$

と表せることにより、以下の**ベイズの定理**(Bayes Theorem)が導かれる。

$$
p(x|y) = \frac{p(x, y)}{p(y)} = \frac{p(y|x)p(x)}{p(y)} = \frac{p(y|x)p(x)}{\int p(x, y) dx}
$$

直感的には、「原因$x$から結果$y$が得られる確率$p(y|x)$から、原因$y$から結果$x$が得られる確率$p(x|y)$を逆算する手続き」を表す。

さらに、同時分布$p(x, y)$が次の条件を満たすとき、$x$と$y$は独立であるという。

$$
p(x, y) = p(x)p(y)
$$

この式の両辺を$p(y)$で割り、条件付き確率分布の式を用いると、独立性を次のように書ける。

$$
p(x|y) = p(x)
$$

この式は、$x$の確率分布は$y$によって変わらないことを表す。

ある同時分布が与えられたときに、そこから興味のある条件分布や周辺分布を算出することを**ベイズ推論**(Bayesian Inference)と呼ぶ。

### 1.3 赤玉白玉問題

袋$a$: 赤玉2個、白玉1個

袋$b$: 赤玉1個、白玉３個

から袋を$\frac{1}{2}$づつの確率で選び、選んだ袋から玉を取り出す試行を考える。

袋$a, b$が選ばれる事象をそれぞれ$x=a, x=b$とすると

$$
p(x=a) = p(x=b) = \frac{1}{2}
$$

また、取り出された玉が赤、白である事象をそれぞれ$y=r, y=w$とする。

仮に、袋$a$が選ばれたとがわかっているとすると、赤玉白玉が選ばれる確率は

$$
p(y=r|x=a) = \frac{2}{3}\\
p(y=w|x=a) = \frac{1}{3}
$$

同様に、袋$b$が選ばれたとがわかっているとすると、赤玉白玉が選ばれる確率は

$$
p(y=r|x=b) = \frac{1}{4}\\
p(y=w|x=b) = \frac{3}{4}
$$

条件付き確率分布の定義式より、「選ばれた袋が$a$で、かつ赤玉が出る確率」は

$$
\begin{eqnarray}
p(x=a, y=r) &=& p(y=r|x=a)p(x=a)\\
                 &=& \frac{2}{3} \times \frac{1}{2}\\
                 &=& \frac{1}{3}
\end{eqnarray}
$$

同様に、「選ばれた袋が$b$で、かつ赤玉が出る確率」は

$$
\begin{eqnarray}
p(x=b, y=r) &=& p(y=r|x=b)p(x=b)\\
                 &=& \frac{1}{4} \times \frac{1}{2}\\
                 &=& \frac{1}{8}
\end{eqnarray}
$$

「選ばれた袋にかかわらず、赤玉が出る確率」は周辺確率$p(y=r)$に対応する。

$$
\begin{eqnarray}
p(y=r) &=& \sum_x p(x, y=r) \\
          &=& p(x=a, y=r) + p(x=b, y=r)
          &=& \frac{1}{3} + \frac{1}{8}
          &=& \frac{11}{24}
\end{eqnarray}
$$

ここまでは中学数学でもなんとかなる。

「取り出された玉が赤であることがわかった場合、選ばれた袋が$a$である確率」について考える。

これは$p(x=a|y=r)$で表せる。よって

$$
\begin{eqnarray}
p(x=a|y=r) &=& \frac{p(x=a, y=r)}{p(y|r)}
                &=& \frac{8}{11}
\end{eqnarray}
$$

「取り出された玉が赤であることがわかった場合、選ばれた袋が$b$である確率」について考える。

これは$p(x=b|y=r)$で表せる。

$p(x|y=r)$は$x$についての確率分布なので、すべての$x$に関して和を取れば1になる。

$$
\begin{eqnarray}
\sum_x p(x|y=r) &=& p(x=a, y=r) + p(x=b|y=r)
                        &=& 1
\end{eqnarray}
$$

よって、

$$
p(x=b|y=r) = 1 - p(x=a, y=r) = \frac{3}{11}
$$


ここで$p(x=a, y=r), p(x=b|y=r)$をデータ$y=r$が観測されたあとの**事後分布**(posterior)であるといい、データを観測する前の式$p(x=a), p(x=b)$は**事前分布**(prior)という。

### 1.4 観測データが複数ある場合

玉を選ぶ人を３人に増やし（復元抽出）、袋を選ぶ人が別にいるとする。３人が取り出した玉が

$$
\{y_1, y_2, y_3\} = \{r, r, w\}
$$

であったときに、選ばれた袋を推定する問題を考える。

式で書くと、$p(x|y_1=r, y_2=r, y_3=w)$を求める問題になる。

ぞれぞれの参加者が取り出す事象は独立であると仮定できるとすると

$$
p(y_1=r, y_2=r, y_3=w|x) = p(y_1=r|x)p(y_2=r|x)p(y_3=w|x)
$$

と書け、ベイズの定理を用いると

$$
\begin{eqnarray}
p(x|y_1=r, y_2=r, y_3=w) &=& \frac{p(y_1=r, y_2=r, y_3=w|x)p(x)}{p(y_1=r, y_2=r, y_3=w)} \\
                                     &=& \frac{p(y_1=r|x)p(y_2=r|x)p(y_3=w|x)}{p(y_1=r, y_2=r, y_3=w)}
\end{eqnarray}
$$

と書ける。

## 参考
「ベイズ推論による機械学習入門」須山敦志