[wasserstein GAN and the kantorovich-Rubinstein Duality](https://vincentherrmann.github.io/blog/wasserstein/)
# Wasserstein GAN(WGAN) and the Kantorovich-Rubinstein Duality

## Earth Mover's Distance

$l$ states로 이루어진 두 discrete probability distribution $P_r, P_\theta$ 이 주어져있다.

$EMD(P_r, P_\theta) = \inf_{\gamma \in \prod} \sum_{x,y} ||x-y||\gamma(x,y)= \inf_{\gamma \in \prod}\mathbb{E}_{(x,y)\sim \gamma}||x-y||$

$D=||x-y||, \Gamma =\gamma(x,y)$ 라고 하면, $\Gamma, D\in \mathbb{R}^{l\times l}$ 이게 되고 

$EMD(P_r, P_\theta)= \inf_{\gamma \in \prod}\langle D, \Gamma \rangle_{F}$ 

$\langle , \rangle_F$ 은  the Frobenius inner product이며, 두 matrix를 element-wise하게 곱한 후 다 더한 값이다.

## Linear Programming

$A \in \mathbb{R}^{m\times n}, b\in \mathbb{R}^m, c\in \mathbb{R}^n$이 고정되어 있을 때,

$Ax=b, x\geq 0$ 을 만족하면서 $z=c^Tx$를 최소화하는 $x\in \mathbb{R}^n$ 을 찾는 문제이다.  

위 문제를 mapping 해보면, $n= l^2, m=2l$ ($2l$ 개의 constraint가 존재하며, $l^2$ 의 변수를 찾는 문제이다. )

$x= vec(\Gamma), c=vec(D)$ 로 대응시킬 수 있으며, $b = \begin{bmatrix} P_r \\\ P_\theta \end{bmatrix}$

$A = \begin{bmatrix} 1&&1&&\cdots &&0&&0&&\cdots &&\cdots&&0 &&0&& \cdots\\ 0 && 0 &&\cdots &&1 && 1 &&\cdots &&\cdots && 0 && 0 && \cdots \\\vdots&&\vdots&&\vdots &&\vdots&&\vdots&&\vdots &&\vdots&&\vdots &&\vdots&& \vdots\\ 0 && 0 &&\cdots &&0 && 0 &&\cdots &&\cdots && 1 && 1 && \cdots  \\ 1 && 0 &&\cdots &&1 && 0 &&\cdots &&\cdots && 1 && 0 && \cdots \\ 0 && 1 &&\cdots &&0 && 1 &&\cdots &&\cdots && 0 && 1 && \cdots \\ \vdots && \vdots &&\ddots &&\vdots && \vdots &&\ddots &&\cdots && \vdots && \vdots && \ddots \\ 0 && 0 &&\cdots &&0 && 0 &&\cdots &&\cdots && 0 && 0 && \cdots \end{bmatrix}\in \mathbb{R}^{2l\times l^2}$,  
$x = \begin{bmatrix}\gamma(x_1, y_1) \\ \gamma(x_1,y_2)\\\vdots \\ \gamma(x_2, y_1)\\\gamma(x_2,y_2) \\ \vdots \\ \vdots \\ \gamma(x_n,y_1) \\ \gamma(x_n,y_2) \\\vdots \end{bmatrix}\in \mathbb{R}^{l^2}$

## Dual Form

실제 GAN에서 $$\gamma$$를 구하여 earth mover distance를 구하는 것은 불가능하다. 하지만, **EMD**(earth mover distance)를 구하도록 학습시킬 수는 있다.
Duality를 이용해서 **EMD**를 쉽게 구해보자.
모든 **LP**(linear programming) 문제들은 다음과 같이 문제를 정의할 수 있다.

**primal form**: 

minimize $z = c^Tx$ when $Ax=b$ and  $x\geq 0$ 

**dual form:**

maximize $\widetilde{z}=b^Ty$ when $A^Ty\leq c$

$z = c^T x \geq (A^Ty)^T x = y^T A x = y^Tb=\widetilde{z}^T = \widetilde{z}$

$A$ : fixed matrix

$b$ : marginal probability

$c$ : point-to-point distance

$z$ : **EMD**

## Farkas Theorem

1. $\hat{A}= [a_1 | a_2 | \cdots | a_n ]\in \mathbb{R}^{d\times n} $, $x\in\mathbb{R}^n_{\geq 0}$ 일 때 $\hat{A}x$ 가 표현할 수 있는 영역은 $\mathbb{R}^d$에서  원점을 꼭지점으로 가지는 어떤 도형으로 생각해 볼 수 있다.

2. $\hat{b}\in \mathbb{R}^d$ 에 대해서, $\hat{A}x = \hat{b}$으로 표현이 되는 $x \in \mathbb{R}^n_{\geq 0}$가 존재하는 경우와 존재하지 않는 경우를 생각해 볼 수 있다.

3. 존재하지 않는 경우, 다음과 같은 조건을 만족하는 hyperplane $h$가 존재한다.

   > * 원점을 지난다.
   > * $\hat{b}$ 와 $\hat{A}x(x \in \mathbb{R}^n_{\geq 0})$인 도형 사이에 존재한다.

4. hyperplane $h$에 수직인 $\hat{y}$ 를 생각해 볼 수 있고, $\hat{b}^T\hat{y}>0$이면서 $\hat{A}^T\hat{y} \leq 0$이게 잡을 수 있다. 

   이는 $h$를 중심으로 $\hat{b}$와 $a_i$ 들이 다른 위치에 있기 때문이다. 

## Strong Duality

**primal form**: 

minimize $z = c^Tx$ when $Ax=b$ and $x\geq 0$ 

* 위 문제를 만족하는 최소의 solution 을 $z^* = c^Tx^*, Ax^*=b$ 라고 하자.

$\hat{A} = \begin{bmatrix} A \\ -c^T \end{bmatrix}$, $\hat{b_{\epsilon}} = \begin{bmatrix} b \\-z^*+\epsilon \end{bmatrix}$ , $\hat{y} = \begin{bmatrix} y \\ \alpha\end{bmatrix}$

만약 $\epsilon = 0 $ 이면, $\hat{A}x^* = \hat{A} = \begin{bmatrix} Ax^* \\ -c^Tx^* \end{bmatrix}= \begin{bmatrix} b \\ -z^* \end{bmatrix}=\hat{b_0}$

만약 $\epsilon > 0 $ 이면, $\hat{A}x' = \hat{b_\epsilon}$ 이 존재한다면,

$Ax'=b$, and $c^Tx' = z^*-\epsilon$ 이 되어서 $x^*$의 최소성에 모순이 된다.

고로 $\hat{A} x = \hat{b_\epsilon}$의 해가 없게 되고 **Farkas theorem**에 의해

$\hat{y}$ 가 존재하여 $\hat{b_\epsilon}^T\hat{y}>0$이면서 $\hat{A}^T\hat{y}\leq 0$ 이 된다. 

$b^T y - z^* \alpha  + \epsilon \alpha > 0$ 이고 $A^Ty-c\alpha \leq 0 $



$b^T y > \alpha(z^* - \epsilon)$, $c^T\alpha \geq A^Ty $

$\alpha z^*=\alpha c^Tx^*\geq (A^Ty)^Tx^*=y^TAx^*=y^Tb>\alpha(z^*-\epsilon)$  

$\alpha\epsilon >0$  
$\therefore \alpha>0$

$y_1 = \frac{y}{\alpha}$

그러면, $b^Ty_1 > z^*-\epsilon$ 이고 $A^Ty_1\leq c$

$z^* = c^T x^* \geq (A^Ty_1)^T x^* = y_1^T A x^* = y_1^Tb=b^Ty_1$
