# DCGAN([Radford et al. (2015)](https://arxiv.org/abs/1511.06434)解説)

## GANの基本

GANでは, GeneratorとDiscrminatorという2つのネットワークが登場します。Generatorは訓練データと同じようなデータを生成しようとします。一方、discriminatorはデータが訓練データから来たものか、それとも生成モデルから来たものかを識別します。

<img src="https://elix-tech.github.io/images/2017/gan/gan.png">

## DCGAN

今回実装するのは, [Radford et al. (2015)](https://arxiv.org/abs/1511.06434)で提案されたDCGAN(Deep Convolutional GAN)です。 DCGANは, 下図のように, CNN(convolutional neural network)を使用したモデルです。 画像生成するには, GANでもCNNを使うのが良いと考えたものです。

<img src="https://elix-tech.github.io/images/2017/gan/dcgan_generator.png">

後述する、学習をうまく進めるためのテクニックも紹介されています。

### プーリングをやめる

* Discriminator: CNNでは最大プーリングを用いてダウンサンプリングするのが一般的ですが、DCGANのdiscriminatorでは, stride2の畳み込みで行います。
* Generator: transposed convolutionを使ってアップサンプリングを行います。

### 全結合層でなく, global average poolingを使う

CNNでは最後の方の層で全結合層になっていることがよくありますが、DCGANのdiscrimatorでは全結合層ではなくglobal average poolingを用います。(Global average pooling 参考: [Lin et al. (2013)](https://arxiv.org/abs/1312.4400))

全結合層では通常ドロップアウトを使って過学習を防ぐ必要がありますが、global average poolingではパラメータがなくなるため、過学習を防ぐ効果があります。

### Batch Normalizationを使う

DCGANではbatch normalizationをgeneratorとdiscriminatorの両方に適用します。但し、全ての層に適用すると不安定になってしまうようで、generatorの出力層と、discriminatorの入力層には適用しないようにします。

### Leaky ReLuを使う

Generatorでは活性化関数に出力層だけTanhを使いますが、それ以外の層では全てReLUを使います。一方、discriminatorの方では全ての層でLeaky ReLUを使います。

### 実験結果

[Radford et al. (2015)](https://arxiv.org/abs/1511.06434)における実験結果.

ベッドルームの画像のデータ・セットを用いて学習した結果です。

<img src="https://elix-tech.github.io/images/2017/gan/bedroom.png">

また, GANでも入力のzベクトルを使って, 演算を行うことができる結果も紹介されています。

<img src="https://elix-tech.github.io/images/2017/gan/glasses.png">

***

# 実装・実験

In [2]:
import os
import cv2
import numpy as np
from sklearn.utils import shuffle
import math
import torch
from torch import nn, optim
from torch.autograd import Variable
import scipy
from PIL import Image

dir_name = 'ramen_image'

## 0. データの用意

任意のディレクトリに学習に使用するイメージを用意する. 以下の`dir_name`にディレクトリのパスを入れる.

In [7]:
dir_name = './source_imgs'

## 1. Discrminatorの定義

* 最大プーリングではなく, stride2で畳み込みを行う
* LeakyReluの使用
* 入力層以外にBatch Normalizationを使用

In [4]:
class Discriminator(nn.Module):
    def __init__(self):
        super(Discriminator, self).__init__()
        convLayers = [
            nn.Conv2d(3, 64, 4, 2, 1, bias=False),
            nn.LeakyReLU(0.2),
            nn.Conv2d(64, 128, 4, 2, 1, bias=False),
            nn.BatchNorm2d(128),
            nn.LeakyReLU(0.2),
            nn.Conv2d(128, 256, 4, 2, 1, bias=False),
            nn.BatchNorm2d(256),
            nn.LeakyReLU(0.2),
            nn.Conv2d(256, 256, 4, 2, 1, bias=False),
            nn.BatchNorm2d(256),
            nn.LeakyReLU(0.2),
            nn.Conv2d(256, 1, 4, 1, 0, bias=False),
            nn.Sigmoid()
        ]
        self.convLayers = nn.Sequential(*convLayers)

    def forward(self, input):
        X = self.convLayers(input)
        return X

## 2. Generatorの定義

* 出力層以外でBatchNormalizationを用いる.
* transposed convolutionを使用したアップサンプリングを行う

In [5]:
class Generator(nn.Module):
    def __init__(self):
        super(Generator, self).__init__()
        tconvLayers = [
            nn.ConvTranspose2d(100, 256, 4, 1, 0, bias=False),
            nn.BatchNorm2d(256),
            nn.ReLU(True),
            nn.ConvTranspose2d(256, 256, 4, 2, 1, bias=False),
            nn.BatchNorm2d(256),
            nn.ReLU(True),
            nn.ConvTranspose2d(256, 128, 4, 2, 1, bias=False),
            nn.BatchNorm2d(128),
            nn.ReLU(True),
            nn.ConvTranspose2d(128, 64, 4, 2, 1, bias=False),
            nn.BatchNorm2d(64),
            nn.ReLU(True),
            nn.ConvTranspose2d(64, 3, 4, 2, 1, bias=False),
            nn.Sigmoid()
        ]
        self.tconvLayers = nn.Sequential(*tconvLayers)

    def forward(self, input):
        X = self.tconvLayers(input)
        return X

## 3. 訓練

まず, 便利さのため画像を読み込む関数を用意

In [6]:
def read_images():
    files = os.listdir(dir_name)
    result = []
    for i in files:
        img = cv2.imread('%s/%s' % (dir_name, i))
        img = cv2.resize(img, (64, 64))
        img = img.transpose(2, 0, 1) / 255.
        result.append(img)
    return np.array(result)

訓練の実行

In [None]:
images = read_images()
shuffle(images)

batch_size = 10
epoch = 10000
image_size = images.shape[0]
epoch_time = math.ceil(image_size / batch_size)

D = Discriminator()
G = Generator()
optimizer_D = optim.Adam(D.parameters())
optimizer_G = optim.Adam(G.parameters())
# criterion = nn.BCELoss()
criterion = nn.MSELoss() # LSGan

for e in range(epoch):
    for i in range(epoch_time):
        D.zero_grad()
        G.zero_grad()
        start = i * batch_size
        end = start + batch_size
        batch_image = images[start:end]
        minibatch_size = len(batch_image)
        img_tensor = Variable(torch.FloatTensor(batch_image))
        one_labels = Variable(torch.ones(minibatch_size, 1, 1, 1))
        zero_labels = Variable(torch.zeros(minibatch_size, 1, 1, 1))
        fixed_noise = torch.FloatTensor(minibatch_size, 100, 1, 1)
        fixed_noise = Variable(fixed_noise.normal_(0, 1))
        generated = G(fixed_noise)

        if i % 2 == 0:
            real_output = D(img_tensor)
            fake_output = D(generated.detach())

            d_loss = criterion(real_output, one_labels) + criterion(fake_output, zero_labels)
            if d_loss.data[0] > 0.1:
                d_loss.backward()
                optimizer_D.step()
                print("EPOCH :%s, D: %s" % (e, d_loss.data[0]))
        else:
            fake_output = D(generated)
            g_loss = criterion(fake_output, one_labels)
            g_loss.backward()
            optimizer_G.step()
            print("EPOCH :%s, G: %s" % (e, g_loss.data[0]))
    torch.save(D, "D.model")
    torch.save(G, "G.model")
    fixed_noise = torch.FloatTensor(1, 100, 1, 1)
    fixed_noise = Variable(fixed_noise.normal_(0, 1))
    generated = G(fixed_noise)
    save_generated_image = generated[0].cpu().data.numpy().transpose(1, 2, 0) * 255.
    scipgy.misc.imsave("generated/"+str(e)+".jpg", save_generated_image.astype(np.uint8)[:, :, ::-1])

***

## Appendix

* [Goodfellow et al. (2014)](https://arxiv.org/abs/1406.2661)
* [Radford et al. (2015)](https://arxiv.org/abs/1511.06434)
* [はじめてのGAN](https://elix-tech.github.io/ja/2017/02/06/gan.html)
* [How to Train a GAN](https://github.com/soumith/ganhacks)
* [Improved Techniques for Training GANs](https://arxiv.org/abs/1606.03498)