<a href="https://colab.research.google.com/github/yukinaga/bayesian_statistics/blob/main/section_2/05_likelihood.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 尤度
尤度（ゆうど）は、データの尤も（もっとも）らしさを表します。  
このノートブックには高校以上の数学が含まれるので、内容が難しい方はスキップしても構いません。

## ●尤度とは？

以下の個数がnのデータを考えます。  

$$x_1,x_2,\cdots ,x_n$$

これらの値が生じる確率を次のように表します。

$$p(x_1),p(x_2),\cdots ,p(x_n)$$


このとき「尤度」は、以下ように全てのデータの確率の積で表されます。

$$p(x_1)p(x_2)\cdots p(x_n) = \prod_{k=1}^n p(x_k)$$


正規分布に従う確率は、以下の確率密度関数で表されます。  

$$ p(x)=\frac{1}{ \sigma\sqrt{2\pi}}\exp\Bigl(-\frac{(x-\mu)^2}{2\sigma ^2}\Bigr) $$ 

$\mu$は平均値で、$\sigma$は標準偏差です。  
データの分布が正規分布である場合、尤度は確率密度関数を使って以下のように表すことができます。  
  
$$L = \prod_{k=1}^n p(x_k) = \Bigl(\frac{1}{ \sigma\sqrt{2\pi}}\Bigr)^n\prod_{k=1}^n\exp\Bigl(-\frac{(x_k-\mu)^2}{2\sigma ^2}\Bigr) = \Bigl(\frac{1}{ \sigma\sqrt{2\pi}}\Bigr)^n\exp\Bigl(-\sum_{k=1}^n \frac{(x_k-\mu)^2}{2\sigma ^2}\Bigr)$$
 
 尤度は確率の積なので、このままの形では0に限りなく近い値になってしまいます。  
 そこで、尤度はしばしば対数の形で扱われます。  
値の大小の傾向は、 対数の形であれば変わりません。  
対数尤度は、以下の式で表されます。  
 
 $$\log{L} = \sum_{k=1}^n \log p(x_k) = n\log\Bigl(\frac{1}{ \sigma\sqrt{2\pi}}\Bigr) - \sum_ {k=1}^n \frac{(x_k-\mu)^2}{2\sigma ^2}$$

## ●小さい尤度
データと、確率密度関数を重ねてグラフに描画します。  
確率密度関数で使用する平均値$\mu$は0、標準偏差$\sigma$は1とします。  
さらに、データがこの確率密度関数に従うとした場合の尤度と対数尤度を計算します。

In [None]:
import numpy as np
import matplotlib.pyplot as plt

x_data = np.array([2.3, 1.0, 2.5, 3.1, 4.6])  # データ
y_data = np.zeros(5)  # グラフ表示のための便宜的なデータ

mu = 0  # 平均値
sigma = 1  # 標準偏差

# 確率密度関数
def pdf(x, mu, sigma):
    return 1/(sigma*np.sqrt(2*np.pi))*np.exp(-(x-mu)**2 / (2*sigma**2))

x_pdf = np.linspace(-5, 5)
y_pdf = pdf(x_pdf, mu, sigma)

plt.scatter(x_data, y_data)
plt.plot(x_pdf, y_pdf)

plt.xlabel("x", size=14)
plt.ylabel("y", size=14)
plt.grid()

plt.show()

print("尤度: ", np.prod(pdf(x_data, mu, sigma)))  # 尤度の計算
print("対数尤度:", np.sum(np.log(pdf(x_data, mu, sigma))))  # 対数尤度の計算

In [None]:
# 練習用


データが確率密度関数の中心から大きくから外れています。  
この正規分布を想定する場合、これらのデータは「もっともらしさ」が小さいことになります。  

## ●大きい尤度
確率密度関数で使用する、標準偏差と平均値を変更します。  
今回は、データの標準偏差と平均値を使います。

In [None]:
import numpy as np
import matplotlib.pyplot as plt

x_data = np.array([2.3, 1.0, 2.5, 3.1, 4.6])  # データ
y_data = np.zeros(5)  # グラフ表示のための便宜的なデータ
 
mu = np.average(x_data)  # データの平均値
sigma = np.std(x_data)   # データの標準偏差

# 確率密度関数
def pdf(x, mu, sigma):
    return 1/(sigma*np.sqrt(2*np.pi))*np.exp(-(x-mu)**2 / (2*sigma**2))

x_pdf = np.linspace(-3, 8)
y_pdf = pdf(x_pdf, mu, sigma)

plt.scatter(x_data, y_data)
plt.plot(x_pdf, y_pdf)

plt.xlabel("x", size=14)
plt.ylabel("y", size=14)
plt.grid()

plt.show()

print("尤度: ", np.prod(pdf(x_data, mu, sigma)))  # 尤度の計算
print("対数尤度:", np.sum(np.log(pdf(x_data, mu, sigma))))  # 対数尤度の計算

In [None]:
# 練習用


この確率密度関数を想定する場合、データの分布はもっともらしく見えます。  
尤度と対数尤度は、先ほどよりも大きな値になりました。  
  
正規分布を想定する場合、確率密度関数にデータの標準偏差と平均値を使うと尤度は最大になります。  