# 第3章 情報理論

## 3.1 情報量

値 $\{x_i\}_{i=1}^{m}$ を取る確率変数 $X$ を考える. $X=x_i$ であるとわかったときに得られる（自己）情報量 $I_i$ を次で定義する.
$$
I(X=x_i) = -\log_2{P(X=x_i)}
$$
この定義の妥当性は次のように **議論** できる. 

$X$ と独立な確率変数 $Y$ を考える. $Y$が取りうる値を $\{y_i\}_{i=1}^{n}$ としよう. $X$ と $Y$ は独立であるため $X=x_i$ かつ $Y=y_j$ であるとわかったときに得られる情報量 $I(X=x_i, Y=y_i)$ は加法的, すなわち
$$
I(X=x_i, Y=y_i) = I(X=x_i) + I(Y=y_i)
$$
となるべきである. また, 情報量は確率のみの関数であるとしよう. 
$$
I(X) = I(P(X))
$$
このとき上述の加法性の式は（ $x_i$ や $y_j$ を省略して）
$$
I(P(X, Y)) = I(P(X)) + I(P(Y))
$$
と書ける.

一方で独立性から確率分布について
$$
P(X, Y) = P(X)P(Y)
$$
したがって
$$
I(P(X)P(Y)) = I(P(X)) + I(P(Y))
$$
これが任意の確率分布で成り立つためには, 連続変数 $x$, $y$ に対して
$$
I(xy) = I(x) + I(y)
$$
という関数等式が成立しなければいけない.

この式から, まず $x=1$, $y=1$ とおけば $I(1) = 0$ が得られる. 次に両辺を $y$ で微分して $y=1$ とおくと,
$$
xI^{\prime}(x) = I^{\prime}(1)
$$
この微分方程式を解くと $a$, $b$ を定数として
$$
I(x) = a\log_2{x}+b
$$
$I(1)=0$ であったから $b=0$で
$$
I(x) = a\log_2{x}
$$
となる.
よって
$$
I(X) = a\log_2{P(X)}
$$

最も基本的なケースとして$m=2$ で $P(X=x_1)=P(X=x_2)=\frac{1}{2}$ の場合を考える.
このときの情報量を $1$ 単位と定義すると（単位bit）,
$$
I(X=x_i) = a\log_2{\frac{1}{2}}
$$
が $1$ に等しくなければならない. よって比例定数 $a$ は $-1$ であり, 冒頭の定義式が得られる.

## 3.2 エントロピー

平均情報量 $H(X)$ を（平均）エントロピーと呼ぶ. 以降, 対数の底は常に $2$ であるとし明示しない. $p_i = P(X=x_i)$ として
$$
H(X) = -\sum_{i=1}^{n}p_i\log{p_i}
$$
である. 確率 $0 \le p_i \le 1$ に対して $-\log{p_i} \ge 0$ であるから
$$
H(X) \ge 0
$$
である.

結合分布に対しては結合エントロピーを
$$
H(X, Y) = -\sum_{x,y}{P(X=x, Y=y)}\log{P(X=x, Y=y)}
$$
で定義する.
また, 条件付き分布に対して条件付エントロピーを
$$
H(X|Y) = -\sum_{y}{ P(Y=y) \sum_{x}{P(X=x | Y=y)\log{P(X=x | Y=y)}} }
$$
で定義する.
このとき
$$
P(X=x | Y=y) = \frac{P(X=x, Y=y)}{P(Y=y)}
$$
であるから
$$
H(X|Y) = -\sum_{x,y}{P(X=x, Y=y)\log{P(X=x | Y=y)} }
$$
とも書ける.

また,
$$
\begin{aligned}
H(X|Y) &= -\sum_{x,y}{P(X=x, Y=y)\log{\frac{P(X=x, Y=y)}{P(Y=y)}} } \\
&= -\sum_{x,y}{P(X=x, Y=y)(\log{P(X=x, Y=y)} - \log{P(Y=y)}) } \\
&= H(X, Y) - H(Y)
\end{aligned}
$$
であるが, 平均エントロピーと同様に
$$
H(X, Y) \ge 0
$$
$$
H(X|Y) \ge 0
$$
なので
$$
H(X, Y) \ge H(Y)
$$
が得られる.

## 3.3 相互情報量

確率分布 $P(X)$ と $P(Y)$ の相互情報量を
$$
I(P(X);P(Y)) = \sum_{x, y}{ P(X=x, Y=y)\log{\frac{P(X=x, Y=y)}{P(X=x) P(Y=y)}} }
$$
で定義する.
$X$ と $Y$ が独立ならば $I(P(X);P(Y)) = 0$ である.

$$
\begin{aligned}
I(P(X);P(Y)) &= \sum_{x, y}{ P(X=x, Y=y)\log{P(X=x,Y=y)} } \\
 &\quad - \sum_{x, y}{ P(X=x, Y=y)\log{P(X=x)} } \\
 &\quad - \sum_{x, y}{ P(X=x, Y=y)\log{P(Y=y)} } \\
&= -H(X,Y)
 - \sum_{x}{ P(X=x)\log{P(X=x)} }
 - \sum_{y}{ P(Y=y)\log{P(Y=y)} } \\
&= H(X) + H(Y) - H(X,Y)
\end{aligned}
$$

## 3.3 Kullback-Leibler divergence

２つの確率分布 $P(X)$ と $Q(X)$ の違いを表す量として Kullback-Leibler divergence（KL divergence）
$$
D_{KL}(P||Q) = \sum_x{P(x)\log{\frac{P(x)}{Q(x)}}}
$$
を導入する.

KL divergence は引数について対称ではない.
$$
D_{KL}(P||Q) \ne D_{KL}(Q||P)
$$
したがって KL-divergence は距離ではない.
一方で２つの分布が一致するとき $D_{KL}(P||Q) = 0$ であり, 以下の議論からその逆も成り立つ.

以下 $D_{KL}(P||Q) \ge 0$ を示す.
$\log_2{x} = \frac{\ln{x}}{\ln{2}}$ であるから対数を自然対数にして示せば十分である.
自然対数では不等式
$$
\ln{x} \le x - 1
$$
が成立し, 等号は $x=1$ に限る. よって
$$
\begin{aligned}
\sum_x{P(x)\ln{\frac{P(x)}{Q(x)}}} &= -\sum_x{P(x)\ln{\frac{Q(x)}{P(x)}}} \\
&\ge -\sum_x{P(x) \big( \frac{Q(x)}{P(x)} - 1 \big) } \\
&= -\sum_x{Q(x)} + \sum_x{P(x)} \\
&= -1 +1 = 0
\end{aligned}
$$
であり, 等号はすべての$x$ に対して $\frac{Q(x)}{P(x)}=1$ 成り立つときに限る.
