# Wasserstein 距離（EMD）

**Wasserstein 距離**（ワッサースタイン距離）は、2つの確率分布 $P, Q$ の差を「確率質量を **どれだけ**・**どれだけ遠くへ** 移動させれば $P$ を $Q$ に変換できるか」
という **最適輸送（Optimal Transport）** の観点で定義する距離。

直感的には、分布を「土の山」とみなし、別の分布の形にするために土を運ぶときの **最小の運搬コスト** を測る量であり、 **Earth Mover’s Distance (EMD)** とも呼ばれる。

（自然言語処理における「編集距離」に近いかも？）

## 定義

もっとも一般化された定義は $p$-Wasserstein

### $p$-Wasserstein 距離

距離空間 $(\mathcal{X}, \|\cdot\|)$ 上の確率分布 $P, Q$ に対し、  
$p \ge 1$ とすると、$p$-Wasserstein 距離は次で定義される。

$$
W_p(P, Q)
=
\left(
\inf_{\gamma \in \Pi(P, Q)}
\int_{\mathcal{X} \times \mathcal{X}}
\|x - y\|^p
\, d\gamma(x, y)
\right)^{1/p}
$$

- $\Pi(P, Q)$：周辺分布がそれぞれ $P, Q$ となる結合分布（輸送計画）
- $\gamma(x, y)$：点 $x$ から $y$ へ運ばれる確率質量
- $\|x - y\|$：輸送コスト（通常はユークリッド距離）


### 1次 Wasserstein 距離

実務・理論の両面で最もよく使われるのが **1次 Wasserstein 距離** （Wasserstein-1 distance）。

$$
W_1(P, Q)
=
\inf_{\gamma \in \Pi(P, Q)}
\int \|x - y\| \, d\gamma(x, y)
$$

- 外れ値に比較的ロバスト
- 分布の平行移動を自然に反映



In [8]:
from scipy.stats import wasserstein_distance

p = [0, 1, 1]
q = [1, 0, 0]
wasserstein_distance(p, q)

0.3333333333333333

## 性質


### 距離の公理を満たす

Wasserstein 距離は、次の性質をすべて満たす。

- 非負性：$W_p(P, Q) \ge 0$
- 同一性：$W_p(P, Q) = 0 \iff P = Q$
- 対称性：$W_p(P, Q) = W_p(Q, P)$
- 三角不等式：$W_p(P, R) \le W_p(P, Q) + W_p(Q, R)$


### Kantorovich–Rubinstein 双対表現

$W_1$ には重要な双対表現が存在する。

$$
W_1(P, Q)
=
\sup_{\|f\|_{\mathrm{Lip}} \le 1}
\left(
\mathbb{E}_{P}[f(X)]
-
\mathbb{E}_{Q}[f(X)]
\right)
$$

- $\|f\|_{\mathrm{Lip}} \le 1$：1-Lipschitz 条件
- 期待値差の最大値として表現される
- **Wasserstein GAN (WGAN)** の理論的基盤


## KL ダイバージェンスとの比較

KL ダイバージェンスは

$$
D_{\mathrm{KL}}(P \| Q)
=
\int p(x) \log \frac{p(x)}{q(x)} \, dx
$$

で定義されるが、次のような違いがある。

| 観点 | KL | Wasserstein |
|---|---|---|
| 台の不一致 | 発散しやすい | 安定 |
| 幾何構造 | 反映しない | 反映する |
| 距離性 | なし | あり |
