##**最大尤度法 (MLE)**  

### どの平均値を持つ確率密度からこれらのサンプルが抽出されたのか？
Adapted from the Seeing Theory's amazing visualization of MLE

### 最大尤度法の定義
最大尤度法（Maximum Likelihood Estimation、以下 MLE）は、母数的なデータ密度推定方法であり、パラメータ $\theta = (\theta_1, \cdots, \theta_m)$ から構成される確率密度関数 $P(x | \theta)$ で観測されたサンプルデータ集合を $x = (x_1, x_2, \cdots, x_n)$ としたとき、このサンプルからパラメータ $\theta = (\theta_1, \cdots, \theta_m)$ を推定する方法です。

この説明だけでは、MLE が何かを理解するのは難しいので、例を使って MLE について学びましょう。

### MLEの簡単な例
MLE の核心的なアイデアを理解するために、以下のような非常にシンプルな例を考えてみましょう。

次のように 5 つのデータが得られたと仮定します。

$$
x = \{1, 4, 5, 6, 9\} \quad \tag{1}
$$

### 尤度関数
前述した数学的な推定方法を説明するために、データの尤度貢献度について話してみましょう。

**図2. オレンジ色の候補分布に対する各データの尤度貢献度を点線の高さで示しました。**

尤度（likelihood）とは、得られたデータがその分布から得られた可能性のことです。

この可能性を数値的に計算するためには、各データサンプルで候補分布に対する高さ（すなわち尤度貢献度）を計算して、すべてを掛け合わせたものを利用できます。

計算された高さを足さずに掛け合わせるのは、すべてのデータの抽出が独立して連続して起こる事象だからです。

こうして計算された可能性を考えられるすべての候補について計算し、これを比較することで、得られたデータを最もよく説明できる確率分布を見つけることができます。

これまで話してきた尤度をもう少し数学的に表すと、次のように書くことができます。

全体のサンプル集合の結合確率密度関数を尤度関数といいます。

$$
P(x | \theta) = \prod_{k=1}^{n} P(x_k | \theta) \quad \tag{2}
$$

この式の結果が最大になる $\theta$ を推定値 $\hat{\theta}$ とするのが最も合理的です。

この式を尤度関数（likelihood function）と呼び、通常は自然対数を用いて以下のように対数尤度関数 $L(\theta | x)$ を使用します。

$$
L(\theta | x) = \log P(x | \theta) = \sum_{i=1}^{n} \log P(x_i | \theta) \quad \tag{3}
$$

### 尤度関数の最大値を求める方法
結局のところ、最大尤度法（MLE）は尤度関数の最大値を求める方法といえます。

対数関数は単調増加関数なので、尤度関数の最大値を求めるのと、対数尤度関数の最大値を求めるのでは、どちらも最大値を与える定義域の関数入力値は同じです。

したがって、通常は計算の便宜のために対数尤度の最大値を求めます。

ある関数の最大値を求める方法の中で最も一般的な方法は微分係数を利用することです。

つまり、求めたいパラメータ $\theta$ に対して次のように偏微分し、その値が 0 になる $\theta$ を求めるプロセスを通じて、尤度関数を最大化する $\theta$ を見つけることができます。

$$
\frac{\partial}{\partial \theta} L(\theta | x) = \frac{\partial}{\partial \theta} \log P(x | \theta) = \sum_{i=1}^{n} \frac{\partial}{\partial \theta} \log P(x_i | \theta) = 0 \quad \tag{4}
$$

### MLEのもう少し複雑な例（母平均、母分散の推定）
平均 $\mu$ と分散 $\sigma^2$ を知らない正規分布からサンプル $x_1, x_2, \cdots, x_n$ を抽出したとき、これらの値を利用して母分布の平均と分散を推定してみましょう。聞いたことがあると思いますが、サンプルを上記のように抽出したとき、母平均の推定値は

$$
\hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_i \quad \tag{5}
$$

であり、母分散の推定値は

$$
\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 \quad \tag{6}
$$

です。これを最大尤度法を利用して確認してみましょう。

各サンプルは正規分布から抽出されるとしたとき、各サンプルのサンプル分布は

$$
f_{\mu, \sigma^2}(x_i) = \frac{1}{\sigma \sqrt{2\pi}} \exp\left(-\frac{(x_i - \mu)^2}{2\sigma^2}\right) \quad \tag{7}
$$

であり、$x_1, x_2, \cdots, x_n$ はすべて独立して抽出されたと仮定しましょう。すると、尤度（likelihood）は

$$
P(x | \theta) = \prod_{i=1}^{n} f_{\mu, \sigma^2}(x_i) = \prod_{i=1}^{n} \frac{1}{\sigma \sqrt{2\pi}} \exp\left(-\frac{(x_i - \mu)^2}{2\sigma^2}\right) \quad \tag{8}
$$

であり、対数尤度は

$$
L(\theta | x) = \sum_{i=1}^{n} \log\left(\frac{1}{\sigma \sqrt{2\pi}} \exp\left(-\frac{(x_i - \mu)^2}{2\sigma^2}\right)\right) \quad \tag{9}
$$

$$
= \sum_{i=1}^{n} \left\{\log\left(\exp\left(-\frac{(x_i - \mu)^2}{2\sigma^2}\right)\right) - \log\left(\sigma \sqrt{2\pi}\right)\right\} \quad \tag{10}
$$

$$
= \sum_{i=1}^{n} \left\{-\frac{(x_i - \mu)^2}{2\sigma^2} - \log(\sigma) -
 \log(\sqrt{2\pi})\right\} \quad \tag{11}
$$

です。したがって、$L(\theta | x)$ を $\mu$ について偏微分すると、

$$
\frac{\partial L(\theta | x)}{\partial \mu} = -\frac{1}{2\sigma^2} \sum_{i=1}^{n} \frac{\partial}{\partial \mu}\left(x_i^2 - 2x_i\mu + \mu^2\right) \quad \tag{12}
$$

$$
= -\frac{1}{2\sigma^2} \sum_{i=1}^{n} (-2x_i + 2\mu) \quad \tag{13}
$$

$$
= \frac{1}{\sigma^2} \sum_{i=1}^{n} (x_i - \mu) = \frac{1}{\sigma^2}\left(\sum_{i=1}^{n} x_i - n\mu\right) = 0 \quad \tag{14}
$$

したがって、最大尤度をもたらす母平均の推定量は

$$
\hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_i \quad \tag{15}
$$

です。

一方、$L(\theta | x)$ を標準偏差 $\sigma$ について偏微分すると

$$
\frac{\partial L(\theta | x)}{\partial \sigma} = -\frac{n}{\sigma} - \frac{1}{2} \sum_{i=1}^{n} (x_i - \mu)^2 \frac{\partial}{\partial \sigma}\left(\frac{1}{\sigma^2}\right) \quad \tag{16}
$$

$$
= -\frac{n}{\sigma} + \frac{1}{\sigma^3} \sum_{i=1}^{n} (x_i - \mu)^2 = 0 \quad \tag{17}
$$

したがって、最大尤度をもたらす母分散の推定量は

$$
\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 \quad \tag{18}
$$

であることがわかります。


