## ベイズ推論による機械学習入門

### 第二章 基本的な確率分布

#### エントロピー

定義

$$
  H\left[ f(x)\right] = -\int p(x)\ln p(x)dx
$$

エントロピーは確率分布の「乱雑さ」、あるいは「予測のしにくさ」を表す指標となっている。

次のような例を考える。$p(x=0) = 1/3$、$p(x=1)=2/3$の時と、$p(x=0) = 1/2$、$p(x=1) = 1/2$の時のエントロピーを比べてみる。

In [4]:
import numpy as np

def entropy(x, p):
    """
    arguments: 
      x: tuple
      p: dict
      
    return:
      e: float
    """
    e = 0
    for v in x:
        e += p[v] * np.log(p[v])
    return -e

* $p(x=0) = 1/3$、$p(x=1) = 1/3$の場合

In [5]:
x = (0, 1)
p = {
    0: 1/3,
    1: 2/3
}
print(entropy(x, p))

0.6365141682948128


* $p(x = 0) = 1/2$、$p(x = 1) = 1/2$の場合

In [6]:
x = (0, 1)
p = {
    0: 1/2,
    1: 1/2
}
print(entropy(x, p))

0.6931471805599453


#### KLダイバージェンス

定義

２つの確率分布$p(x)$と$q(x)$の間に定義される指標

$$
  KL [q(x)||p(x)]=-\int q(x)\frac{p(x)}{q(x)}dx
$$

KLダイバージェンスは2つの分布の「距離」のような指標

ただし距離の公理は満たさない

#### サンプリングによる期待値の近似