### Pytorch VAE example code

- [Basic VAE Example](https://github.com/pytorch/examples/blob/master/vae/main.py)

#### code를 보기전에 VAE의 특징을 알아보자. 

- VAE는 Generative model이라는 것. (training data가 주어졌을 때 이 data가 sampling된 분포와 같은 분포에서 새로운 sample을 생성하는 model)
- latent variable이라는 것이 있으며 이것을 바탕으로 데이터를 생성한다는 것(Decoder).
- 문제를 더 쉽게 만들기 위해 latent variable 이라는 것을 Encoder를 통해 추출한다는 것.
- VAE의 학습과정은 MLE라는 것.

<img src="https://www.dropbox.com/s/ce7x00eq6eltvho/Screenshot%202018-06-19%2022.05.22.png?dl=1" alt="drawing" width="800"/>

## 2. Variational Auto-Encoder

- $p_\theta(x)$ : probability density function ($\theta$라는 parameter가 주어졌을때 $x$라는 data가 나올 확률)

위 확률 밀도 함수를 **최대화**하는 것이 `Generative Model` 혹은 `density estimation`의 목표이다. 

$z$라는 **latent variable**을 사용해서 **식(1)**로 표현할 수 있다.

> $$ p_\theta(x) = \int p_\theta(z)p_\theta(x|z)dz \tag{1}\label{eq1}$$

**식(1)**을 그림으로 표현하면 다음과 같다. 

> <img src="https://www.dropbox.com/s/jyiu96dd3tp8rue/Screenshot%202018-06-20%2000.53.19.png?dl=1" alt="drawing" width="200"/> - 

즉, `VAE`는 기존 `Auto-Encoder`와 달리 latent variable($z$)을 정의하는데, 

#### Q1) 

- latent variable($z$) 필요한 이유는 무엇일까? 

#### A1) 

- 일반적으로 생성하고 싶은 데이터들은 차원이 매우 높고 datapoint 사이에 복잡한 관계가 있다. 따라서, 이러한 관계를 확률 모델로 모델링하는게 아니라 데이터를 표현하는 $z$가 있으면 그 $z$로부터 데이터를 생성하는 graphical model을 생각해보는 것이다. (**manifold 가정**)

앞으로 이 식(1) 을 미분해서 그 미분값에 따라 **stochastic gradient ascent**를 할 것입니다.

식 (1)의 구성요소는 다음과 같다.

- $p_\theta(z)$ : latent variable $z$를 sampling 할 수 있는 pdf

- $p_\theta(x|z)$ : $z$가 주어졌을 때 $x$를 생성해내는 pdf

<img src="https://www.dropbox.com/s/h0kcdfe7r0o2lqa/Screenshot%202018-06-20%2008.09.47.png?dl=1" alt="drawing" width="600"/> 

#### Q2)
- stochastic gradient ascent를 하려면 미분을 해야하는데 왜 미분이 불가능할까?

#### A2)
- 오른쪽 항을 보면, 모든 $z$에 대해 integral(적분)을 해야하는데, 모든 $z$를 구할 수 없기 때문에 integral을 할 수 없으므로, 최적의 $\theta$를 추정하기 위한 미분 역시 불가능

그럼에도 불구하고, **MLE**문제를 풀기위해서는 미분을 해야한다.

#### Q3)
- 어떻게 **MLE**를 풀 수 있을까? 우선, 미분을 위해 적분 문제를 해결할 수 있을까?

#### A3) 
- integral의 경우 integral을 다 계산하지 않고 `Monte-Carlo estimation`을 통해 estimate 할 것입니다. 아래 식으로 표현함. 대부분의 $z$에 대해서는 simple한 Gaussian 분포로부터 sampling하기 때문에 $p_\theta(x|z)$는 거의 0의 값을 가질 것이다. 따라서 sampling이 상당히 많이 필요합니다. 데이터셋이 클 경우에 이것은 너무 cost가 큽니다. 좀 더 efficient하게 이 sampling 과정을 진행하려면 data($x$)에 dependent하게 $z$를 sampling 할 필요가 있다. 여기서 **Bayesian이 등장**합니다. 

> $$ p_\theta(x) = \int p_\theta(z)p_\theta(x|z)dz \tag{1}\label{eq1} \approx \frac{1}{N} \sum_{i=1}^{N}p_\theta(x|z^{i}) $$

- 더 효율적으로 sampling하기 위해서 $x$에 dependent한 $z$를 sampling을 하는 $p_\theta(z|x)$를 생각해보는 것이다. 이는 $x$가 주어졌을 때 $x$를 생성해낼 것 같은 $z$에 대한 확률분포를 만드는 것이다. 이를 bayes'rule을 이용하면 다음과 같이 표현할 수 있다.

<img src="https://www.dropbox.com/s/fi8reyjhzjh2h46/Screenshot%202018-06-20%2008.49.00.png?dl=1" alt="drawing" width="600"/> 

- 그럼 이제, $p_\theta(z|x)$를 미분하려고 위의 식 오른쪽 항을 미분하려는데, 우리가 알고 싶어(목적으로)하는 $p_\theta(x)$를 모르기 때문에 미분이 불가능하다.

- 따라서 이 poterior를 approximate 하는 새로운 함수를 정의합니다.

- $q_\phi(z|x)$ : $\phi$라는 새로운 parameter로 표현되는 함수. (encoder 역할, 원래 poseterior를 approximate 했기 때문에 error가 존재할 것이며, 이를 고려하여 lower bound를 정의한다.)

lower bound를 고려하기 전에 VAE의 네트워크 구조를 살펴보자

<img src="https://www.dropbox.com/s/dxn7qfpfztrjduh/Screenshot%202018-06-20%2008.53.53.png?dl=1" alt="drawing" width="800"/>

**step 1** : "Encoder network"는 $q_\phi(z|x)$이며, $x$를 input으로 받아서 $z$ space 상에서 확률분포를 만든다. 이 확률 분포는 $Gaussian$으로 가정하자. 이렇게 $x$에 dependent한 $Gaussian$분포로부터 $z$를 sampling.

**step 2** : "Decoder network"는 $p_\theta(x|z)$이며, $x$의 space 상의 $Gaussian$ 또는 $Bernoulli$ 분포를 output으로 내놓는다. 그러면 $x$를 이 분포로부터 sampling할 수 있다.

즉, 위와 같은 구조를 가지기 때문에 "Auto-Encoder"가 되는 것이며 학습이 되고 나면 latent variable $z$라는 data의 의미있는  representation을 얻을 수 있습니다.

## 3. ELBO(Evidence Lower Bound)

이제 VAE를 어떻게 학습시키는지를 살펴보기 위해 objective function을 변형시켜보겠습니다. log likelihood는 다음과 같습니다. 이 값을 최대화시키는 것이 목표입니다. 이 식 자체는 intractable 하기 때문에 변형이 필요합니다.

> $$ \log p_\theta(x^{(i)})$$

위 `log likelihood`를 $q_\phi(z|x)$로부터 sampling한 latent variable $z$에 대한 기댓값으로 변경하면 아래와 같다.

> $$ \log p_\theta(x^{(i)}) = \mathbb{E}_{z~q_\phi(z|x^{(i)})} [\log p_\theta(x^{(i)})]$$

위 식에 Bayes' Rule을 적용해보자.

> $$p_\theta(z|x^{(i)}) = \frac{p_\theta(x^{(i)}|z)p_\theta(z)}{p_\theta (x^{(i)})}$$

$p_\theta (x^{(i)})$를 기준으로 정리해보자.

> $$p_\theta (x^{(i)})= \frac{p_\theta(x^{(i)}|z)p_\theta(z)}{p_\theta(z|x^{(i)})}$$

이를 `log likelihood`에 대입해보자.

> $$ \log p_\theta(x^{(i)}) = \mathbb{E}_{z~q_\phi(z|x^{(i)})} [\log \frac{p_\theta(x^{(i)}|z)p_\theta(z)}{p_\theta(z|x^{(i)})}]$$

그 다음에 expectation 안의 항에 같은 $q_\phi(z|x^{i})$를 값을 곱하고 나눕니다.

> $$ \log p_\theta(x^{(i)}) = \mathbb{E}_{z~q_\phi(z|x^{(i)})} [\log \frac{p_\theta(x^{(i)}|z)p_\theta(z)}{p_\theta(z|x^{(i)})} \times \frac{q_\phi(z|x^{(i)})}{q_\phi(z|x^{(i)})}]$$

이 때, $p_\theta(z)$와 $q_\phi(z|x^{(i)})$를 하나로 묶고 $p_\theta(x^{(i)}|z)$와 $q_\phi(z|x^{(i)})$를 하나로 묶어서 별도의 Expectation으로 내보내보자.

> $$ \log p_\theta(x^{(i)}) = \mathbb{E}_z[p_\theta(x^{(i)}|z)]\ - \ \mathbb{E}_z[\log \frac{q_\phi(z|x^{(i)})}{p_\theta(z)}] \ + \ \mathbb{E}_z [\log \frac{q_\phi(z|x^{(i)}}{p_\theta(z|x^{(i)})}]$$

우변의 두번째 항과 세번째 항은 잘 보면 **KL-Divergence**의 형태인 것을 알 수 있습니다. 따라서 KL의 형태로 바꿔쓰면 다음과 같습니다.

> $$ \log p_\theta(x^{(i)}) = \mathbb{E}_z[p_\theta(x^{(i)}|z)]\ - \ D_{KL}[q_\phi(z|x^{(i)})||p_\theta(z)] \ + \ D_{KL} [q_\phi(z|x^{(i)}||p_\theta(z|x^{(i)})]$$

- 우변의 첫번째 항 : $\mathbb{E}_z[p_\theta(x^{(i)}|z)]$ 의미 
    - $q_\phi(z|x^{(i)})$로부터 sampling한 $z$가 있으며, 그 $z$를 가지고 $p_\theta(x^{(i)}|z)$가 $x^{(i)}$를 생성할 `log likelihood` 이다.

- 우변의 두번째 항 : $D_{KL}[\log \frac{q_\phi(z|x^{(i)})}{p_\theta(z)}]$ 의미 
    - prior인 $p_\theta(z)$와 근사된 posterior인 $q_\phi(z|x^{(i)})$ 사이의 KL-divergence
    - 즉, 근사된 posterior의 분포가 얼마나 normal distribution과 가까운지에 대한 척도!

- 우변의 세번째 항 : $\mathbb{E}_z [\log \frac{q_\phi(z|x^{(i)}}{p_\theta(z|x^{(i)})}]$ 의미 
    - 원래의 posterior과 근사된 posterior의 차이로서 `approximation error`로 볼 수 있다.
    - 하지만, 앞에서 살펴봤듯이 $p_\theta(z|x^{(i)})$는 intractable 해서 세번째 항을 계산하기 어렵다. 하지만, KL 성질대로 세번째 항은 무조건 0보다 크거나 같다.

<img src="https://www.dropbox.com/s/ph4mzl3un2ai0dx/Screenshot%202018-06-20%2013.47.01.png?dl=1" alt="drawing" width="800"/>

따라서 첫번째 항과 두번째 항을 하나로 묶어주면 원래의 objective function에 대한 tractable한 lower bound를 정의할 수 있습니다. MLE 문제를 풀기 위해 objective function을 미분해서 gradient ascent 할 것입니다. Lower bound가 정의된다면 이 lower bound를 최대화하는 문제로 바꿀 수 있고 결국 lower bound의 gradient를 구하게 될 것입니다. lower bound의 두 항은 모두 미분가능하기 때문에(어떻게 미분가능한건지는 뒤에서 살펴보겠습니다) 이제 우리는 최적화를 할 수 있습니다.

<img src="https://www.dropbox.com/s/6wm7uf3nejsp21t/Screenshot%202018-06-20%2013.57.12.png?dl=1" alt="drawing" width="800"/>

lower bound를 다시 정의하자면 다음과 같습니다.

> $$L(x^{(i)}, \theta, \phi) = \mathbb{E}_z[p_\theta(x^{(i)}|z)]\ - \ D_{KL}[q_\phi(z|x^{(i)})||p_\theta(z)] $$

이 lower bound 식은 evidence의 $\log$ 값인 $p_\theta(x^{(i)}$의 lower bound이기 때문에 **Evidence Lower Bound, ELBO**라고 부릅니다.

> $$ \log p_\theta(x^{(i)}) \ge L(x^{(i)}, \theta, \phi)$$

따라서 원래 $p_\theta(x^{(i)})$를 최대화하는 문제는 다음과 같이 바뀝니다. (sampling 과정을 통해 구해지만 $x$는 모두 i.i.d로 가정

> $$ \theta^{*}, \phi^{*} = argmax_{\theta, \phi} \sum_{i=1}^{N} L(x^{(i)}, \theta, \phi) $$

지금까지 **`ELBO`**를 전개하는 과정을 정리하면 다음과 같다.

<img src="https://www.dropbox.com/s/2ro3zzf3dgo2v31/Screenshot%202018-06-20%2014.09.01.png?dl=1" alt="drawing" width="800"/>

이 ELBO를 구하는 과정은 다음 그림을 통해 이해해볼 수 있습니다. x를 encoder의 input으로 집어넣으면 encoder는 latent space 상에서의 mean과 variance를 내보냅니다(이 때, mean과 variance는 latent vector의 dimension마다 하나씩입니다). 그러면 이 mean과 variance가 posterior를 나타내게 되고 prior와의 KL을 구할 수 있습니다. 그 이후에 $z$로부터 decoder는 data의 space 상의 mean과 variance를 내보냅니다(만약 decoder의 output을 gaussian이라고 가정했다면. Bernoulli 분포라고 가정했다면 다른 형태). 그러면 ELBO의 첫번째 항 값을 구할 수 있고 ELBO가 구해집니다. 구한 값에 Backprop을 해서 업데이트하면 VAE의 학습과정이 완성됩니다.

<img src="https://www.dropbox.com/s/geesw2b5yt21bx7/Screenshot%202018-06-20%2014.10.27.png?dl=1" alt="drawing" width="800"/>

## 4. Variational Inference & Reparameterization Trick

#### VAE가 하고 싶은 것은 명확합니다. 또한 그것을 가로막는 문제도 명확히 제시합니다.

**목표**: efficient inference and learning in directed probabilistic models, in the presence of continuous latent variables  
**문제**: intractable posterior, large dataset

> $$L(x^{(i)}, \theta, \phi) = \mathbb{E}_z[p_\theta(x^{(i)}|z)]\ - \ D_{KL}[q_\phi(z|x^{(i)})||p_\theta(z)] $$

> $$ \theta^{*}, \phi^{*} = argmax_{\theta, \phi} \sum_{i=1}^{N} L(x^{(i)}, \theta, \phi) $$

위 식을 만족하는 parameter를 구하는 방법은 다음과 같다.

방법 1 : **analytic** (Mean-Field Variational Bayes)  
방법 2 : **stochastic gradient ascent**

논문에서는 방법 1을 통해 하는 경우, likelihood function인 $p_\theta(x|z)$가 NN과 같은 복잡한 함수로 표현될 경우 intractable하다고 함.  
따라서 방법 2인, gradient를 구해서 stochastic하게 parameter를 업데이트하는 방식을 사용!

#### Q4)

- $\theta$에 대한 미분은 문제 없으나, $\phi$에 대해서 미분하는 것은 불가능한것은 아니지만 왜 문제가 있다고 하는걸까? 이를 해결하기 위한 방법은? 

#### A4)

- 첫번째 항이 문제가 있다. 예를 들어 기댓값 안에 있는 함수(pdf)를 $f(z)$로 가정해보자. 이 기댓값에 대한 미분은 다음과 같이 표현할 수 있다. 

> $$\nabla_{\phi} \mathbb{E}_{q_\phi(z)}[f(z))] = \int \nabla_{\phi}q_\phi(z)f(z)dz $$

> $$ = \int q_\phi(z) \frac{\nabla_{\phi}q_\phi(z)}{q_\phi(z)}f(z)dz $$

> $$ = \mathbb{E}_{q_\phi(z)}[f(z) \nabla_{\phi} \log q_\phi(z))] $$

즉, 위에서 구한 미분값은 monte-carlo estimation을 통해 estimate 할 수 있다. 이때, $z^{(i)}$는 $q_\phi(z|x^{i})$로부터 sampling 한다.
따라서 gradient 값은 sampling 때문에 variance가 높을 것이다. 이 경우에 의해 현실적으로 미분이 어렵다는 이유라고 합니다.

> $$ \frac{1}{L} \sum_{i=1}^{L} f(z^{l}) \nabla_{\phi} \log \ q_\phi(z^{(l)})$$

- variance가 크다는 문제점을 해결하기 위해 **VAE**는 **reparameterization trick**이라는 **technique**을 사용. 즉 $z$를 posterior $q_\phi(z|x)$로부터 sampling 하는게 아니라 미분 가능한 함수 $q_\phi(\epsilon, x)$로부터 **deterministic**하게 정해진다고 보는 것이다. 이때 $\epsilon$은 noise variable이다. 

> $$\tilde z = g_\phi(\epsilon, x) \qquad where \quad \epsilon \sim p(\epsilon)$$

이 경우 다음과 같이 $p(z)$의 $q_\phi(z)$에 대한 기댓값을 $\epsilon$에 대한 기댓값으로 바꿀 수 있다.

> $$ \mathbb{E}_{q_\phi(z|x^{(i)})}[f(z)] = \mathbb{E}_{\epsilon}[f(g_\phi(\epsilon, x^{(i)}))] = \frac{1}{L}\sum_{l=1}^{L}f(g_\phi(z^{(l)}, x^{(i)})) $$

위 수식을 이용해서 **ELBO**를 고쳐쓸 수 있다. `SGVB(Stochastic Gradient Variational Bayes) estimator`라고 부름

- $z^{(i, l)}$ = $g_\phi(\epsilon^{l}, x^{(i)})$, (여기서는  $g_\phi(\epsilon, x) = \mu + \sigma\epsilon$으로 사용함(univariate gaussian case),
- $\epsilon^{(l)} \sim p(\theta)$ (헷갈림 $p(\theta)$ 맞는지 확인 필요)

> $$\tilde L ^{\mathcal{B}} (x^{(i)}, \theta, \phi) = \frac{1}{L}\sum_{l=1}^{L}f(g_\phi(x^{(i)}, z^{(i, l)}))- \ D_{KL}[q_\phi(z|x^{(i)})||p_\theta(z)] $$

이러한 `reparameterization trick`을 그림으로 보자면 다음과 같습니다. 원래는 encoder로부터 구한 data dependent한 mean과 variance를 가지고 posterior를 만듭니다. 그 posterior로부터 $z$를 샘플링한 다음에 그 $z$를 가지고 decoder는 data를 generation 했습니다. 하지만 reparametization을 하면 computation graph 내의 sampling 과정이 noise sampling이 되어 옆으로 빠져버립니다. 따라서 Back propagation을 통해 decoder output으로부터 encoder까지 gradient가 전달될 수 있습니다.

<img src="https://www.dropbox.com/s/5249ixq6r4t38l8/Screenshot%202018-06-21%2000.57.08.png?dl=1" alt="drawing" width="800"/>

이렇게 업데이트를 하는 알고리즘이 Auto-Encoding Variational Bayes이며 다음과 같습니다

<img src="https://www.dropbox.com/s/hxacd2bhz1hi3yl/Screenshot%202018-06-21%2001.05.46.png?dl=1" alt="drawing" width="800"/>

## VAE code example

**code에서 목적 함수가 가장 중요**

목적 함수를 설정하기 전에 우선 가정이 필요하다. 

- prior와 posterior를 모두 gaussian으로 가정
- likelihood를 Bernoulli라고 가정 

**`ELBO`** 식은 다음과 같이 쓸 수 있습니다. 

- 참고 : https://docs.google.com/presentation/d/175UzsMfZQ8-uuTxGO8L05KjV3iz7LOCRSAwcVVhr3-s/edit#slide=id.p36

> $$\tilde L ^{\mathcal{B}} (x^{(i)}, \theta, \phi) = \frac{1}{L}\sum_{l=1}^{L}f(g_\phi(x^{(i)}, z^{(i, l)}))- \ D_{KL}[q_\phi(z|x^{(i)})||p_\theta(z)] $$

- 오른쪽 변의 두번째 항은 다음과 같이 정리할 수 있다.
- [`Multivariate normal distributions`인 경우의 $D_{KL}$ 전개 (Example 참고)](https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence)

> $$D_{KL}[q_\phi(z|x^{(i)})||p_\theta(z)] = \frac{1}{2} \sum_{j=1}^{J}(1+\log((\alpha_j^{(i)})^2) - (\mu_j^{(i)})^2 - (\alpha_j^{(i)})^2)$$

- 오른쪽 변의 첫번째 항은 다음과 같이 정리할 수 있다.
- $y$는 $z$와 decoder를 통해 나온 값 
- 첫번째 항은 잘 보면 cross-entropy

> $$\frac{1}{L}\sum_{l=1}^{L}f(g_\phi(x^{(i)}, z^{(i, l)})) = \frac{1}{L}\sum_{l=1}^{L}((x_i \log y_{(i,l)} + (1-x_i)(1-y_{(i,l)}))$$

- 최종적으로 다음과 같이 나타낼 수 있다.

> $$\tilde L ^{\mathcal{B}} (x^{(i)}, \theta, \phi) =  \frac{1}{L}\sum_{l=1}^{L}((x_i \log y_{(i,l)} + (1-x_i)(1-y_{(i,l)})) + \frac{1}{2} \sum_{j=1}^{J}(1+\log((\alpha_j^{(i)})^2) - (\mu_j^{(i)})^2 - (\alpha_j^{(i)})^2)$$

In [97]:
from __future__ import print_function
import argparse
import torch
import torch.utils.data
from torch import nn, optim
from torch.nn import functional as F
from torchvision import datasets, transforms
from torchvision.utils import save_image


# 현재 Setup 되어있는 device 확인
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print ('Available devices ', torch.cuda.device_count())
print ('Current cuda device ', torch.cuda.current_device())
print(torch.cuda.get_device_name(device))

Available devices  8
Current cuda device  0
GeForce GTX 1080


In [98]:
torch.manual_seed(1)

<torch._C.Generator at 0x7f7bed501e10>

In [99]:
batch_size = 64

train_loader = torch.utils.data.DataLoader(
    datasets.MNIST('../data', train=True, download=True,
                   transform=transforms.ToTensor()),
    batch_size=batch_size, shuffle=True)
test_loader = torch.utils.data.DataLoader(
    datasets.MNIST('../data', train=False, transform=transforms.ToTensor()),
    batch_size=batch_size, shuffle=True)

In [110]:
import numpy as np

In [106]:
class VAE(nn.Module):
    def __init__(self):
        super(VAE, self).__init__()

        self.fc1 = nn.Linear(784, 400)
        self.fc21 = nn.Linear(400, 20)
        self.fc22 = nn.Linear(400, 20)
        self.fc3 = nn.Linear(20, 400)
        self.fc4 = nn.Linear(400, 784)

    def encode(self, x):
        h1 = F.relu(self.fc1(x))
        return self.fc21(h1), self.fc22(h1)

    def reparameterize(self, mu, logvar):
        std = torch.exp(0.5*logvar) # variance는 0보다 크거나 같아야함, 하지만, logvar는 음의 값이 나올 수 있기 때문에 이를 양수로 만들어주는 과정
        eps = torch.randn_like(std) # noise 부분
        return mu + eps*std

    def decode(self, z):
        h3 = F.relu(self.fc3(z))
        
         # likelhood를 bern 분포로 가정했기 때문에 0~1이 나올 수 있는 sigmoid 함수 사용.
        return torch.sigmoid(self.fc4(h3))

    def forward(self, x):
        mu, logvar = self.encode(x.view(-1, 784))
        z = self.reparameterize(mu, logvar)
        return self.decode(z), mu, logvar

In [101]:
model = VAE().to(device)
optimizer = optim.Adam(model.parameters(), lr=1e-3)

In [102]:
# Reconstruction + KL divergence losses summed over all elements and batch
def loss_function(recon_x, x, mu, logvar):
    BCE = F.binary_cross_entropy(recon_x, x.view(-1, 784), reduction='sum')

    # see Appendix B from VAE paper:
    # Kingma and Welling. Auto-Encoding Variational Bayes. ICLR, 2014
    # https://arxiv.org/abs/1312.6114
    # 0.5 * sum(1 + log(sigma^2) - mu^2 - sigma^2)
    KLD = -0.5 * torch.sum(1 + logvar - mu.pow(2) - logvar.exp())

    return BCE + KLD

In [103]:
def train(epoch):
    model.train()
    train_loss = 0
    for batch_idx, (data, _) in enumerate(train_loader):
        data = data.to(device)
        optimizer.zero_grad()
        recon_batch, mu, logvar = model(data)
        loss = loss_function(recon_batch, data, mu, logvar)
        loss.backward()
        train_loss += loss.item()
        optimizer.step()
        if batch_idx % batch_size == 0:
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                epoch, batch_idx * len(data), len(train_loader.dataset),
                100. * batch_idx / len(train_loader),
                loss.item() / len(data)))

    print('====> Epoch: {} Average loss: {:.4f}'.format(
          epoch, train_loss / len(train_loader.dataset)))

In [104]:
def test(epoch):
    model.eval()
    test_loss = 0
    with torch.no_grad():
        for i, (data, _) in enumerate(test_loader):
            data = data.to(device)
            recon_batch, mu, logvar = model(data)
            test_loss += loss_function(recon_batch, data, mu, logvar).item()
            if i == 0:
                n = min(data.size(0), 8)
                comparison = torch.cat([data[:n], recon_batch.view(batch_size, 1, 28, 28)[:n]])
                save_image(comparison.to(device), 'results/reconstruction_' + str(epoch) + '.png', nrow=n)

    test_loss /= len(test_loader.dataset)
    print('====> Test set loss: {:.4f}'.format(test_loss))

In [105]:
for epoch in range(1, 51):
    train(epoch)
    test(epoch)
    with torch.no_grad():
        sample = torch.randn(64, 20).to(device)
        sample = model.decode(sample).to(device)
        save_image(sample.view(64, 1, 28, 28),
                   'results/sample_' + str(epoch) + '.png')

====> Epoch: 1 Average loss: 146.9338
====> Test set loss: 119.2208
====> Epoch: 2 Average loss: 115.8327
====> Test set loss: 111.9809
====> Epoch: 3 Average loss: 111.3244
====> Test set loss: 109.2093
====> Epoch: 4 Average loss: 109.2723
====> Test set loss: 108.1597
====> Epoch: 5 Average loss: 108.0395
====> Test set loss: 107.0045
====> Epoch: 6 Average loss: 107.2543
====> Test set loss: 106.5271
====> Epoch: 7 Average loss: 106.6123
====> Test set loss: 106.0340
====> Epoch: 8 Average loss: 106.1722
====> Test set loss: 105.4308
====> Epoch: 9 Average loss: 105.8061
====> Test set loss: 105.6108


====> Epoch: 10 Average loss: 105.4424
====> Test set loss: 105.2621
====> Epoch: 11 Average loss: 105.2087
====> Test set loss: 104.7285
====> Epoch: 12 Average loss: 104.9112
====> Test set loss: 104.4340
====> Epoch: 13 Average loss: 104.6818
====> Test set loss: 104.6050
====> Epoch: 14 Average loss: 104.5058
====> Test set loss: 104.2896
====> Epoch: 15 Average loss: 104.3369
====> Test set loss: 104.0356
====> Epoch: 16 Average loss: 104.1791
====> Test set loss: 104.0711
====> Epoch: 17 Average loss: 103.9865
====> Test set loss: 103.8629
====> Epoch: 18 Average loss: 103.8768
====> Test set loss: 103.6807
====> Epoch: 19 Average loss: 103.7276
====> Test set loss: 103.4739


====> Epoch: 20 Average loss: 103.5720
====> Test set loss: 103.6074
====> Epoch: 21 Average loss: 103.4173
====> Test set loss: 103.5476
====> Epoch: 22 Average loss: 103.3144
====> Test set loss: 103.0327
====> Epoch: 23 Average loss: 103.2593
====> Test set loss: 103.1073
====> Epoch: 24 Average loss: 103.1718
====> Test set loss: 103.2761
====> Epoch: 25 Average loss: 103.0430
====> Test set loss: 103.2950
====> Epoch: 26 Average loss: 102.9398
====> Test set loss: 102.8853
====> Epoch: 27 Average loss: 102.8479
====> Test set loss: 102.7952
====> Epoch: 28 Average loss: 102.7398
====> Test set loss: 102.9573
====> Epoch: 29 Average loss: 102.7406
====> Test set loss: 102.7017


====> Epoch: 30 Average loss: 102.6424
====> Test set loss: 102.6840
====> Epoch: 31 Average loss: 102.5572
====> Test set loss: 102.7589
====> Epoch: 32 Average loss: 102.4814
====> Test set loss: 102.5394
====> Epoch: 33 Average loss: 102.4486
====> Test set loss: 102.7883
====> Epoch: 34 Average loss: 102.3662
====> Test set loss: 102.4434
====> Epoch: 35 Average loss: 102.2807
====> Test set loss: 102.3093
====> Epoch: 36 Average loss: 102.2300
====> Test set loss: 102.5109
====> Epoch: 37 Average loss: 102.1943
====> Test set loss: 102.2917
====> Epoch: 38 Average loss: 102.0753
====> Test set loss: 102.0267


====> Epoch: 39 Average loss: 102.0648
====> Test set loss: 102.2140
====> Epoch: 40 Average loss: 102.0045
====> Test set loss: 102.2273
====> Epoch: 41 Average loss: 101.9329
====> Test set loss: 102.2622
====> Epoch: 42 Average loss: 101.9256
====> Test set loss: 102.1275
====> Epoch: 43 Average loss: 101.8577
====> Test set loss: 102.1308
====> Epoch: 44 Average loss: 101.7912
====> Test set loss: 102.1061
====> Epoch: 45 Average loss: 101.8037
====> Test set loss: 102.0795
====> Epoch: 46 Average loss: 101.7027
====> Test set loss: 102.1572
====> Epoch: 47 Average loss: 101.7112
====> Test set loss: 101.8323
====> Epoch: 48 Average loss: 101.6379
====> Test set loss: 101.8040


====> Epoch: 49 Average loss: 101.6163
====> Test set loss: 101.8406
====> Epoch: 50 Average loss: 101.5396
====> Test set loss: 102.0479
