![GAN.png](images/GAN.png)

## 1. Import required libraries

In [1]:
# Vanilla GAN with Multi GPUs + Naming Layers using OrderedDict
# Code by GunhoChoi

import torch
import torch.nn as nn
import torch.utils as utils
import torch.nn.init as init
from torch.autograd import Variable
import torchvision.utils as v_utils
import torchvision.datasets as dset
import torchvision.transforms as transforms
import numpy as np
import matplotlib.pyplot as plt
from collections import OrderedDict

## 2. Hyperparameter setting

In [2]:
# Set Hyperparameters
# change num_gpu to the number of gpus you want to use

epoch = 100
batch_size = 200
learning_rate = 0.0002
num_gpus = 1

## 3. Data Setting

In [3]:
# Download Data

mnist_train = dset.MNIST("./", train=True, transform=transforms.ToTensor(), target_transform=None, download=True)
#MNIST 데이터를 다운로드 받는다.

# Set Data Loader(input pipeline)

train_loader = torch.utils.data.DataLoader(dataset=mnist_train,batch_size=batch_size,shuffle=True,drop_last=True)
#Data Loader를 만들어 준다.

## 4. Generator

In [4]:
# Generator receives random noise z and create 1x28x28 image
# we can name each layer using OrderedDict

class Generator(nn.Module): #Generator는 이미지를 생성한다. #Autoencoder의 decoder가 GAN의 Generator에 해당. 
    #Autoencoder의 decoder에는 원래 latent vector가 있어야 하지만 GAN에서는 random noise에서 생성하는 것이 기본이다.
    def __init__(self):
        super(Generator, self).__init__()
        
        self.layer1 = nn.Linear(100, 7*7*256) #size가 100인 데이터를 7*7*256로 늘린다.
        
        self.layer2 = nn.Sequential(OrderedDict([
            ("conv1", nn.ConvTranspose2d(256, 128, 3, 2, 1, 1)), 
            ("relu1", nn.LeakyReLU()),
            ("bn1", nn.BatchNorm2d(128)), #일괄 정규화. 성능과 안정성을 향상시킨다. 
            #Gradient Vanishing / Gradient Exploding를 방지한다.
            #배치 정규화는 레이어의 입력 데이터 분포가 치우쳐져 있을 때 평균과 분산을 조정해주는 역할을 한다. 
            #이는 역전파가 각 레이어에 쉽게 전달되도록 해 학습이 안정적으로 이뤄지도록 돕는 데 중요한 역할을 한다.
            #https://shuuki4.wordpress.com/2016/01/13/batch-normalization-%EC%84%A4%EB%AA%85-%EB%B0%8F-%EA%B5%AC%ED%98%84/
            ("conv2", nn.ConvTranspose2d(128, 64, 3, 1, 1)), 
            ("relu2", nn.LeakyReLU()), #relu와 비슷하지만, -가 되도 0이 아닌 약간의 값을 가진다.
            ("bn2", nn.BatchNorm2d(64))
        ]))
        
        self.layer3 = nn.Sequential(OrderedDict([
            ("conv3", nn.ConvTranspose2d(64, 16, 3, 1, 1)), 
            ("relu3", nn.LeakyReLU()),
            ("bn3", nn.BatchNorm2d(16)),
            ("conv4", nn.ConvTranspose2d(16, 1, 3, 2, 1, 1)), 
            ("relu4", nn.LeakyReLU())
        ]))
        
    def forward(self, z):
        out = self.layer1(z)
        out = out.view(batch_size//num_gpus, 256, 7, 7) #size 변환
        out = self.layer2(out)
        out = self.layer3(out)

        return out

## 5. Discriminator

In [5]:
# Discriminator receives 1x28x28 image and returns a float number 0~1
# we can name each layer using OrderedDict

class Discriminator(nn.Module): #Discriminator는 생성된 이미지를 판별한다.
    #Generator가 fake data를 생성하고, real data와 번갈아 가면서 Discriminator에 넣어준다.
    #Discriminator는 fake data는 0로, real data는 1로 판별해야 한다.
    #즉, Generator는 fake data를 Discriminator가 real로 판단하도록 학습되어야 한다.
    #따라서, Discriminator가 모두 올바르게 판단하면 loss는 0. 모두 잘못 판단하면, 무한대가 나온다.
    
    def __init__(self):
        super(Discriminator, self).__init__()
        
        self.layer1 = nn.Sequential(OrderedDict([
            ("conv1", nn.ConvTranspose2d(1, 16, 3, padding=1)), #batch x 16 x 28 x 28
            ("relu1", nn.LeakyReLU()),
            ("bn1", nn.BatchNorm2d(16)),
            ("conv2", nn.ConvTranspose2d(16, 32, 3, padding=1)), #batch x 32 x 28 x 28
            ("relu2", nn.LeakyReLU()), #relu와 비슷하지만, -가 되도 0이 아닌 약간의 값을 가진다.
            ("bn2", nn.BatchNorm2d(32)), 
            ("max1", nn.MaxPool2d(2)) #batch x 32 x 14 x 14
        ]))
        
        self.layer2 = nn.Sequential(OrderedDict([
            ("conv3", nn.ConvTranspose2d(32, 64, 3, padding=1)), #batch x 64 x 14 x 14
            ("relu3", nn.LeakyReLU()),
            ("bn3", nn.BatchNorm2d(64)),
            ("max2", nn.MaxPool2d(2)), #batch x 64 x 7 x 7
            ("conv4", nn.ConvTranspose2d(64, 128, 3, padding=1)), #batch x 128 x 7 x 7
            ("relu4", nn.LeakyReLU())
        ]))
        
        self.fc = nn.Sequential(
            nn.Linear(128*7*7, 1), 
            nn.Sigmoid() #최종적으로 0 또는 1의 값을 내야 하므로 sigmoid로 0~1의 값으로 만들어 준다.
        )
                                    
    def forward(self, x):
        out = self.layer1(x)
        out = self.layer2(out)
        out = out.view(batch_size//num_gpus, -1)
        out = self.fc(out)

        return out

## 6. Put instances on Multi-gpu

In [6]:
# Put class objects on Multiple GPUs using 
# torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0)
# device_ids: default all devices / output_device: default device 0 
# along with .cuda()

# generator = nn.DataParallel(Generator()).cuda()
# discriminator = nn.DataParallel(Discriminator()).cuda()
#DataParallel는 Multi GPU에 모델을 올릴 수 있다.

generator = Generator()
discriminator = Discriminator()

## 7. Check layers

In [7]:
# Get parameter list by using class.state_dict().keys()

gen_params = generator.state_dict().keys()
dis_params = discriminator.state_dict().keys()

for i in gen_params:
    print(i)

layer1.weight
layer1.bias
layer2.conv1.weight
layer2.conv1.bias
layer2.bn1.weight
layer2.bn1.bias
layer2.bn1.running_mean
layer2.bn1.running_var
layer2.bn1.num_batches_tracked
layer2.conv2.weight
layer2.conv2.bias
layer2.bn2.weight
layer2.bn2.bias
layer2.bn2.running_mean
layer2.bn2.running_var
layer2.bn2.num_batches_tracked
layer3.conv3.weight
layer3.conv3.bias
layer3.bn3.weight
layer3.bn3.bias
layer3.bn3.running_mean
layer3.bn3.running_var
layer3.bn3.num_batches_tracked
layer3.conv4.weight
layer3.conv4.bias


## 8. Set Loss function & Optimizer

In [8]:
# loss function, optimizers, and labels for training

loss_func = nn.BCELoss()
#label이 0 또는 1이기 때문에 Binary Cross Entropy loss를 사용한다. 
gen_optim = torch.optim.Adam(generator.parameters(), lr=learning_rate)
dis_optim = torch.optim.Adam(discriminator.parameters(), lr=learning_rate)
#model.parameters() 로 업데이트해야 할 모든 변수들을 한 번에 가져와 간단히 구현할 수 있다.
#손실에서 lr만큼 움직이고 업데이트 하던 것을 알아서 최적화해서 처리해 준다.
#각 파라미터들을 따로 학습해야 하기 때문에 모델의 optim을 따로 정의해 준다.

# ones_label = torch.ones(batch_size,1).cuda()
# zeros_label = torch.zeros(batch_size,1).cuda()

ones_label = torch.ones(batch_size, 1) #정답. real은 1에 가깝게 나와야 한다.
zeros_label = torch.zeros(batch_size, 1) #정답. fake는 0에 가깝게 나와야 한다.

## 9. Restore Model

In [9]:
# model restore if any

try:
    generator, discriminator = torch.load('./model/vanilla_gan.pkl')
    print("\n--------model restored--------\n")
except:
    print("\n--------model not restored--------\n")
    pass


--------model not restored--------



## 10. Train Model

In [10]:
# train

for i in range(epoch):
    for j,(image,label) in enumerate(train_loader): #DataLoader에서 batch 만큼씩 가져온다.
#         image = image.cuda()
        
        # Generator
        
        for k in range(5):
#         z = Variable(init.normal(torch.Tensor(batch_size,z_size),mean=0,std=0.1)).cuda()
            z = torch.rand(batch_size, 100) #noise 생성
            #매번 랜덤한 noise를 생성해서 이미지를 generate한다.
            #Autoencoder의 decoder에는 원래 latent vector가 있어야 하지만 GAN에서는 random noise에서 생성하는 것이 기본이다.
            gen_optim.zero_grad() #optimiser.step() 으로 업데이트된 그라디언트 값들을 초기화해 줘야 한다.
            gen_fake = generator.forward(z) #noise vector를 generator에 넣어주면, fake data가 생성된다.
            dis_fake = discriminator.forward(gen_fake) #fake data를 discriminator에 넣어준다.
            #0 ~ 1 사이의 값이 나온다.
            gen_loss = torch.sum(loss_func(dis_fake, ones_label)) #예측한 값과, 정답 # fake classified as real
            #Generator 입장에서는 생성된 fake data를 Discriminator가 모두 1로 판단해야 하므로, 정답 label은 모두 1인 tensor가 된다.
            gen_loss.backward(retain_graph=True) #역전파 해준다.
            gen_optim.step() #변수 업데이트
        
        
        
        
        # Discriminator
        
        dis_optim.zero_grad() #optimiser.step() 으로 업데이트된 그라디언트 값들을 초기화해 줘야 한다.
        dis_real = discriminator.forward(image) #real data를 discriminator에 넣어준다.
        dis_loss = torch.sum(loss_func(dis_fake, zeros_label)) + torch.sum(loss_func(dis_real, ones_label))
        #Discriminator 입장에서는 생성된 fake data를 0로 판단하고, real data는 1로 판단해야 한다.
        #두 과정의 loss를 더해준다.
        dis_loss.backward() #역전파 해준다.
        dis_optim.step() #변수 업데이트
        
    # model save
    if i % 5 == 0:
        print(gen_loss, dis_loss)

        torch.save([generator, discriminator],'./model/vanilla_gan.pkl') #모델 저장

    print("{}th iteration gen_loss: {} dis_loss: {}".format(i,gen_loss.data,dis_loss.data))
    v_utils.save_image(gen_fake.data[0:20],"./result/gen_{}_{}.png".format(i,j), nrow=5)
    #이미지 저장

#학습이 잘 되면, Discriminator의 결과값은 0.5에 수렴하게 된다. 이는 진짜 인지 아닌지 구별이 불가능한 상태를 의미한다.
#하지만, Discriminator가 제대로 학습이 안되서 구별을 못하는 경우에도 0.5에 수렴하게 나올 수 있다.
#아직은 따로 결과를 판단하는 metric이 없어 사람이 직접 눈으로 생성된 이미지를 보고 학습이 제대로 되었는지 판단해야 한다.  

KeyboardInterrupt: 

GAN의 대표적인 문제점은 다음과 같다.

- **Mode Collapse** : 서로 다른 노이즈 값들로 generate해도 하나의 mode로 수렴하는 현상. 네트워크가 다양한 실제 이미지 같은 결과를 내기를 기대하는데 그러싸한 이미지만 만들어냄
- **Oscillation** : GAN output들이 목표 카테고리가 여러 가지일 경우, 왔다 갔다 하면서 다양한 결과값들을 만들어 내고 하나에 수렴하지 못하는 경우

요즘에는 이런 문제를 해결한 DCGAN을 많이 사용