# ダイバージェンス

情報理論において **ダイバージェンス（divergence）** とは、2つの確率分布がどれだけ異なっているかを数量化する指標

## エントロピー

### 自己情報量

情報理論において、ある事象$x$が起こる確率$P(x)$が小さい（めったに起こらない事象）ほど「情報量が多い」と考える。

そこで、確率の逆数の対数を surpriseあるいは **自己情報量（self-information）** という。

:::{card} Self-Information

$$
I(x) = \log \frac{1}{P(x)} = - \log P(x)
$$

:::

（対数を取ることで独立な事象の同時確率を確率の積として計算するときに計算しやすい）

### エントロピー

自己情報量の期待値を **エントロピー（entropy）** 、 **期待情報量** 、 **シャノン情報量** などと呼ぶ。

:::{card} Entropy

離散型確率変数の場合：

$$
H(P) = \sum_i P(x_i) \log \frac{1}{P(x_i)}
$$


連続型確率変数の場合：

$$
H(P) = \int_{-\infty}^{\infty} P(x) \log \frac{1}{P(x)} dx
$$

:::

### 交差エントロピー

:::{card} Cross-Entropy

離散型確率変数の場合：

$$
H(P, Q) = \sum_i P(x_i) \log \frac{1}{Q(x_i)}
$$


連続型確率変数の場合：

$$
H(P, Q) = \int_{-\infty}^{\infty}  P(x) \log \frac{1}{P(x)}
$$

:::





:::{margin}

$\log \frac{1}{P(x)} = - \log P(x)$なので書籍によっては

$$
H(p,q) = - \int_{-\infty}^{\infty}  P(x) \log Q(x) dx
$$

という定義で表されるが、同じものである

:::

## KLダイバージェンス

**KLダイバージェンス（Kullback-Leibler Divergance）** は 2つの確率分布の間の距離を測る関数。

:::{admonition} Kullback-Leibler Divergance

離散の場合

$$
D_{KL} (P||Q) = \sum_i P(x_i) \log \frac{P(x_i)}{Q(x_i)}
$$

連続の場合

$$
D_{KL} (P||Q) = \int_{-\infty}^{\infty}
P(x) \log \frac{ P(x) } { Q(x) } dx
$$

期待値の記号を使って次のように書くこともできる

$$
D_{KL} (P||Q) = \mathbb{E}_{x\sim P}\left[ \log \frac{P(x_i)}{Q(x_i)} \right]
$$

:::


**特徴**

- 対称性をもたない：$D_{KL} (P||Q) \neq D_{KL} (Q||P)$
    - → KLダイバージェンスは厳密な意味での距離ではない


:::{card} 別表現

$\log \frac{M}{N} = \log M - \log N$より、KLダイバージェンスは

$$
\begin{aligned}
D_{KL} (P||Q)
&= \sum_i P(x_i) \log \frac{P(x_i)}{Q(x_i)}\\
&= \sum_i P(x_i) \log P(x_i) - \sum_i P(x_i) \log Q(x_i)
\end{aligned}
$$

と変形できる。

:::

### 交差エントロピーとの関係

#### KLダイバージェンスの最小化 = 交差エントロピーの最小化

KLダイバージェンスは2つの分布$P,Q$の違いを定量評価する関数であるが、仮に$P$が観測データで$Q$が予測モデルの出力だとすると$P$の部分は定数なので

$$
\begin{aligned}
D_{KL} (P||Q)
&= \underbrace{ \sum_i P(x_i) \log P(x_i) }_{\text{定数}} - \sum_i P(x_i) \log Q(x_i)\\
&= - \sum_i P(x_i) \log Q(x_i)\\
&= H(P, Q)
\end{aligned}
$$

となる。よって、$\min D_{KL} (P||Q) = \min H(P,Q)$、つまり、ダイバージェンスの最小化をしたい場合は交差エントロピーを最小化すればよいことになる。


#### 式変形・エントロピーとの関係

:::{card}

$$
H(P, Q) = H(P) + D_{KL}(P||Q)
$$

が成り立つ

:::

:::{dropdown} 導出

$\log \frac{M}{N} = \log M - \log N$より、

$$
\begin{align}
H(P, Q) &= H(P) + D_{KL}(p||q)
\\
&= - \int P(x) \log P(x) dx
  + \int P(x) \log \frac{ P(x) } { Q(x) } dx\\
&= - \int P(x) \log P(x) dx
  + \int P(x) \big\{ \log P(x) - \log Q(x) \big\} dx
\\
&= \underbrace{ - \int P(x) \log P(x) dx }_{ H(P) }
  + \underbrace{ \int P(x) \log P(x) dx }_{ -H(P) }
  \underbrace{ - \int P(x) \log Q(x) dx }_{ H(P, Q) }
\\
&= H(P, Q)
\end{align}
$$


:::


:::{card}

$$
D_{KL}(p||q) = H(P, Q) - H(P)
$$

:::


:::{dropdown} 導出

$$
\begin{align}
D_{KL}(p||q) &= H(P, Q) - H(P)\\
&= - \int P(x) \log Q(x) dx
   + \int P(x) \log P(x) dx\\
&= \int P(x) \log P(x) dx - \int P(x) \log Q(x) dx\\
&= \int P(x) \log \frac{P(x)}{Q(x)} dx\\
\end{align}
$$
:::

## Density Power Divergence

$\beta$-divergenceとも

KLダイバージェンスの拡張で、外れ値に頑健

[Basu et al. (1998). Robust and efficient estimation by minimising a density power divergence. Biometrika, 85(3), 549-559.](https://academic.oup.com/biomet/article-abstract/85/3/549/228993)


$$
D_{\beta}(Q, P) = d_{\beta}(Q, P) - d_{\beta}(Q, Q)\\
d_{\beta}(Q, P) = - \frac{1}{\beta} \int P(x)^{\beta} dQ(x) + r
$$

### 積分を回避する案

- paper: [[2307.05251] A stochastic optimization approach to minimize robust density power-based divergences for general parametric density models](https://arxiv.org/abs/2307.05251)
- 著者tweet: [A. OkunoさんはTwitterを使っています: 「公開しました．ざっくりいうと，悪名高い累乗の積分項があり今まで正規分布や一部の確率モデルでしか最適化ができなかったロバストダイバージェンスを"一般の"確率モデルに対して最適化する方法を提案しています．個人的にはかなり非自明で，言われれば当たり前だけど，思いつくまで10年かかりました．」 / Twitter](https://twitter.com/public_aokn/status/1678938719414554624?t=fPhnFiLFTQbWT0o0tS-Chw&s=19)