## f-GAN : Training Generative Neural Samplers using Variatioinal Divergence Minimization (Sebastian Nowozin et al. 2016)

*Reference* <br/>
[1] https://jaejunyoo.blogspot.com/2017/06/f-gan.html <br/>
[2] https://arxiv.org/pdf/1406.2661.pdf <br/>
[3]
[4]

### Landscape of Generative Models
- Generative model은 $p(x)$, 즉 input image의 distribution을 학습하는 것이 목표
- Generative model $Q$ from a class $\mathcal Q\text{(Set of possible models)}$ usually performs following operations.
    - Sampling : input image의 분포를 학습한 $Q$에서의 sampling을 통해 한 sample output을 내놓는 것
    - Estimation : 미지 sample ${x_1, ..., x_n}$이 주어졌을 때 True distribution을 잘 설명하는 $Q \in \mathcal Q$를 찾는 것
    - Point-wise likelihood evaluation : 한 sample point $x$가 주어지면, $Q(x)$를 계산해 특정 지점에서의 likelihood 계산하는 것
- 특히 GAN은 마치 VAE의 decoder model을 generator로 가져온 type 중 하나인데  input 단계에서 random sampling을 하기 때문에, VAE처럼 중간 latent space 단계에서의 sampling을 하지 않는다. 
- 그래서 *single forward pass through the network* $\to$ *one exact sample* 이라는 efficiency를 가진다. (Why efficient?)

### Problem Statement
- 이전에 Random input vector를 받아 network weight에 정의된 확률분포로 sample을 생성하는 확률적 모델인 Generative neural sampler가 제안됨.
- Generative adverserial approach는 auxilliary discriminator network를 통해 학습하는 방법이고, Jensen-Shannon Divergence(JSD)를 objective function으로 설정함.
- JSD의 generalization을 통해 JSD가 *f-divergence*의 특수한 경우에 불과하고 $\to$ 어떠한 f-divergence 으로도 generative neural sampler 학습이 가능, 즉 무수한 variation이 가능하다는 것을 증명하고자 함.

### Contribution
- Generalize GAN training objective to arbitarry f-divergences.
- **Generative Adverserial Nets, Goodfellow et al.**에서 언급한 saddle-point optimization 과정의 단순화, theroetical justification
- 한마디로 GAN model의 objective function을 조금씩 바꿔 가면서 깔짝거렸던 이전의 approach들을 generally wrapping하는 paper

### Proposed Method
#### Overview
|Index|Title|
|:-:|:-:|
|01.|Measurng the difference of two probability distributions|
|02.|Variational Estimation of f-divergences|
|03.|Variational Divergence Minimization(VDM)|
|04.|Representation of Variational function|
|05.|Algorithms for VDM|
|06.|Practical Considerations|

- **Section 01~04 is defining objective function, and Section 05 is presenting alorithms to solve objective function optimization problem.**

### 01. Measurng the difference of two probability distributions
**1) IPM(Integral Probability Metrics)**
- $\gamma_\mathcal{F}(Q,P) = sup_{f \in \mathcal F}|\int fdQ - \int fdP|$ <br/>
- 주어진 함수 class $\mathcal F$에 대해, $\mathcal F$에 속한 함수 $f$의 $P$, $Q$ 두 분포에 대하한 expectation 값의 차이를 계산 $\to$ supremum을 분포 간 차이 Metric으로 활용.
- $\mathcal F$, 즉 정의되는 함수 공간의 형태에 따라 distance는 다르게 정의됨.
- *Wasserstein distance*
$W(P_r,P_g)=inf_{γ∈Π(Pr,Pg)}E_{(x,y)∼γ}[∥x−y∥], \\ \text{where } Π(Pr,Pg) = \text{joint probability distribution}$

**2) Proper Scoring Rules**
- Maximum likelihood approach가 Proper scoring rule에 해당.
- 우리가 분포를 알고 있는 모델 $Q$와 근사하고자 하는 모델 $P$ 사이의 fitting score에 대한 expectation value로 계산.
- $S(Q,P) = \int S(Q,x) dP(x)$는 $P, Q$가 일치할 때 최소화되므로 loss function처럼 사용 가능.

**3) ```f-divergence```**
- $D_f{(Q||P)} = \int p(x)f({q(x) \over p(x)})dx$
- *Constraints on f* : $f$는 $f(1) = 0$에서 global minimum을 가지고, convex function이어야 함. 
- *KL divergence* : $D_KL{(Q||P)} = \int p(x) \log{q(x) \over p(x)}$
- *KL divergence*에서 Q와 P의 분포가 동일할 때 0으로 최솟값을 가졌던 것과 같은 맥락.
- 논문에서는 위 조건만 만족하면 되는 $f$를 갈아 끼우면 다양한 divergence를 만들 수 있으므로 Table 형태로 Divergence들을 제시하고 있음.
<img src = "attachment:image-2.png" width = "700dp"><img>

**4) Why f-divergence for GAN?**
- 그러나 단순한 $Q$ 근사 분포는 아는 반면, 추정하고자 하는 $P$의 분포를 모르는 문제가 발생하여 f-divergence를 계산하기 어려움. 
- f는 general fucntion이므로 더 이상 expectation으로 표현할 수 없고, expectation은 sample로부터 계산하여 추정 가능했으나 f-divergence에서는 불가함.
- **GAN은 distribution-distribution 사이의 discrepancy를 계산하는 문제를 expectation-expectation 사이의 문제로 바꾸어 주는 역할을 하기 때문에 f-divergence가 사용될 수 있음!**

### 02. Variational Estimation of f-divergences : [Nguyen et al., 2010.](https://statistics.berkeley.edu/sites/default/files/tech-reports/764.pdf) <br/>
**1) Fenchel conjugate**
- Every convex, lower-semicontinuous function $f$ has a *convex conjugate* $f^*$(*Fenchel conjugate*).
- $f^*(t) = \sup_{u \in dom_f} [ut - f(u)]$
- convex and lower-semicountinuous function $f$의 Fenchel conjugate를 위와 같이 정의하면 $\to$ $f^*$는 다시 convex이고 lower-semicontinuous하며, $(f,f^*)$ 는 dual i.e. $f^{**} = f$
- 마찬가지로 $f(u) = \sup_{t \in dom_f^*} [tu - f^*(t)]$로 정의 가능.
- 이 식의 의미 : 임의의 convex function의 각 point는 linear function의 supremum으로 표현 가능 $\to$ convex function에 접하는 직선들을 생각하면 직관적임.

**2) Lower bound of f-divergence : Objectie function**
- $D_f(P||Q) = \int_\mathcal X q(x) \sup_{t \in dom_{f^*}}[t {p(x) \over q(x)} - f^*(t)] dx \\ \geq \sup_{T \in \mathcal T}[\int _\mathcal X p(x)T(x)dx - \int _\mathcal X q(x) f^*(T(x))dx] - (*)\\ \text{(t is replaced to T(x))}$ <br/>
- Why this inequality holds? 
    - Sum of maximums are always greater than maximum of sum
    - $ \mathcal T $ may contain only a subset of all possible functions <br/> <br/>
- $(*) = \sup_{T \in \mathcal T}((\mathbb E_{x \sim P}[T(x)] - \mathbb E_{x \sim Q}[f^*(T(x))]) \\ = \sup_{T_w \in \mathcal T}((\mathbb E_{x \sim P}[T_w(x)] - \mathbb E_{x \sim Q_\theta}[f^*(T_w(x))]) \text{ (explicitly) }\\ (\mathcal T = \text{arbitrary class of functions } T : \mathcal X \to \mathbb R) $ <br/>
- Variational Inference : 목적함수를 직접 optimize하는 것이 어려울 때 Lower bound를 maximize하는 방식으로 우회
- 그리고 Expectation form으로 정리됨!!! Discrepancy of distribution $\to$ difference of expectation
- $D_f(P||Q) \geq \sup_{T \in \mathcal T}((\mathbb E_{x \sim P}[T(x)] - \mathbb E_{x \sim Q}[f^*(T(x))]$ 이고, 이때 $T^*(x) = f'({p(x) \over q(x)})$이기만 하면 위의 부등식이 tight bound임이 알려져 있음.

### 03. Variational Divergence Minimization (VDM)
- f-divergence에서 유도된 식과, GAN에서 제시한 Objective function의 유사성 <br/>
<img src = "attachment:image.png" width = "400dp"></img> <br/>
- 위의 Objective function을 활용하면 true distribution $P$를 generative model $Q$로 estimate 가능.
- $T_w(x)$는 general한 variational function이지만, $T_w$의 치역이 $dom_{F^*}$인에 적어도 속해야 함. 
- Neural network view에서는, $T_w(x)$를 input $x$를 받는 discriminator network + output activation function으로 분해할 수 있음.
- $T_w(x) = g_f(V_w(x))$
<img src = "attachment:image-2.png" width = "600dp"></img>
<img src = "attachment:image-3.png" width = "700dp"></img>

### 04. Representation for the variationial function
- $T_w(x) = g_f(V_w(x))$, then saddle objective is equivalent with...
    - $F(\theta, w) = \mathbb E_{x \sim P}[g_f(V_w(x))] - \mathbb E_{x \sim Q_\theta}[f ^*(g_f(V_w(x)))]$
- GAN case에서는...
    - $F(\theta, w) = \mathbb E_{x \sim P}[\log D_w(x)] + \mathbb E_{x \sim Q_\theta}[\log(1 - D_w(x))]$
- 만약 GAN Discriminator에서의 last nonlinearity function이 sigmoid function이었다면, 대응되는 f-divergence discriminator의 output activation function을 $g_f(v) = -\log(1+e^{-v})$로 하면 equivalent함!
- $T_w(x) = g_f(V_w(x)) = \log(D_w(x)) = \log(\sigma(V_w(x))), g_f(v) = -\log(1+e^{-v})$
<img src = "attachment:image-4.png" width = "500dp"></img>

**Examples of f-GAN and justification**
TBD

### 05. Algorithms for Variational Divergence Minimization

**1) GAN Training vs. VDM algorithm**
- **GAN Training algorithm**
    <img src = "attachment:image-5.png" width = "500dp"></img>
    - Alternative method : Discriminator update $\to$ Generator update
- **VDM algorithm**
    <img src = "attachment:image-6.png" width = "500dp"></img>
    - Single-step gradient method
    - Back-propagation을 한 번만 하면 되므로 computationally efficient
    
**2) Local Convergence of VDM algorithm**
- ***Claim : Saddle point 근방에서는 언제나 Saddle point로 수렴한다.***
- **Mathematical notation**
    - $\nabla_\theta F(\theta^*,w^*) = 0, \nabla_w F(\theta^*, w^*) = 0, {\nabla^2_\theta} F(\theta, w) \geq \delta I, {\nabla^2_w} F(\theta, w) \leq -\delta I  \dots (*) \\ \to F(\theta, w) \text{ Converges.(Strongly convex in }\theta \text{ and strongly concave in }w)$ 
- **Convergence theorem**
    - $\text{Suppose that there is a saddle point } \pi^t = (\theta^t, w^t) \text{with a neighborhood that satisfies } (*).$
    - $\nabla F(\pi) = \begin{bmatrix}{\nabla_\theta F(\theta,w)  \\ \nabla_w F(\theta, w)} \end{bmatrix}$
    - $\tilde{\nabla} F(\pi) = \begin{bmatrix}{- \nabla_\theta F(\theta,w)  \\ \nabla_w F(\theta, w)} \end{bmatrix}$
    - $\pi^{t+1} = \pi^t + \eta \tilde{\nabla}F(\pi^t)$는 VDM algorithm과 equivalent

    