# GAN - Генеративно-состязательные нейронные сети

### TOC
* Введение
    * Задача генерации
    * Latent space
    * Наивный подход


* GAN - Генеративно-состязательная сеть (англ. Generative adversarial network, сокращённо GAN)
    * Дискриминатор
    * GAN - принципы работы
    * Пример генерации точек на параболе


* DCGAN (Deep Convolutional Generative Adversarial Nets)
    * DCGAN - GAN для генерации изображений
    * deconv - обратные свёртки
    * Пример генерации изборажений


* cGAN - Условные порождающие состязательные сети (Conditional Generative Adversarial Nets)
    * Принципы работы cGAN
    * Модификации cGAN


* GAN Zoo
    * ProGAN - метод обучения сетей до высокого разрешения
    * Domain Transfer Network - перенос стиля с помомщью GAN
    * SRGAN и StackGANs - сети для увеличения разрешения
    * pix2pix - генерация изображения по его рисунку или из сегментации
    * Семантическая генерация - изображение по входному вектору из целевых свойств
    * ControlGAN и Text to Image - генерация изображения по текстовому описанию

* Заключение

* Ссылки

## Введение

Когда мы изучаем окружающий мир, то у нас нет ответов что представляет из себя окружающая действительность, однако, со временем, мы учимся распознавать образы, речь, движения, благодаря тому, что мы просто смотрим и слушаем!

Положим, если давать человеку бит в секунду, и, учитывая что человек живёт в среднем $10^9$ секунд, а так же то, что в мозге человека примерно $10^{14}$ нейронных связей, значит человек использует мозг на одну стотысячную. Откуда ему получить столько информации чтобы стать человеком? Изучать мир самому! Анализируя все входные источники своего тела: глаза, уши и так далее.

В курсе нейронных сетей, мы привыкли что изображения размечены, однако в жизни такие метки, отсутствуют. То есть преимущественно мы учимся без учителя. Однако мы способны к творчеству, мы можем писать картины, музыку. Придумывать и прогнозировать. Мы можем генерировать что-то новое.

Как подойти к такой задаче с помощью нейронных сетей?

## Поставим задачу генерации.

Мы имеем неразмеченные данные, и хотим генерировать новые данные, которые будут удовлетворять следующим условиям:
* Новые данные должны быть похожи на исходные.
* Но не повторять их в точности (или повторять, при случайном стечении обстоятельств).
* Чтобы результат генерации был различным при разных запусках, нам нужен элемент случайности.

### Эволюция в генерации изображений лиц:

Множество примеров различных генераторов: **https://thisxdoesnotexist.com**

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/face_evol.JPG" width="600">

## Latent space

Поскольку мы обусловились о случайности, то нам эту случайность нужно реализовать. Если вспомнить сети, которые мы проходили, то всегда если мы подавали один и тот же вход, то получали один и тот же выход. Как реализовать случайность в нейронной сети? Случайно изменять веса сети? Есть способ лучше - давать в качестве входа случайных шум.

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/random_example.png" width="200">

Почему именно вектор? Почему не одно случайное число. Ответ таков: изменяя одно случайное число, мы будем перемещаться на очень небольшое расстояние и генерация будет однообразной. Поскольку мы физически не можем генерировать числа в бесконечных пределах, мы вынуждены использовать фиксированный диапазон.

В одномерном случае, взяв диапазон [0,1] у нас всего одна размерность нашего перемещения.
Если взять двухмерный, или трёхмерный случай, то у нас уже есть две и три **степени свободы**.

То есть случайный шум большой размерности даёт нам больше объёма для генерации. Это называется **input latent space** - входное латентное простанство.

Note: из-за неустоявшейся терминологии, случайное распределение на входе генератора называется латентным пространством, так же как и скрытое пространство в автоэнкодерах. Поэтому в этой лекции будем называть его **входным** латентным пространством. Так же встречается вариант: predefined latent space.

#### Какую размерность и форму выбрать?

Длина вектора (размерность латентного пространства) выбирается больше, чем количество разных
независимых свойств объекта, которые мы хотим получить. Если длина 0, то случайности
нет и генератор будет всегда производить один и тот же объект. Если длина 1, то будет
шкала, вдоль которой будут расположены, например, генерируемые изображения. Для генератора
лиц, это будет, в лучшем случае, шкала от молодой женщины блондинки к пожилому мужчине
брюнету. Лучший способ выбрать длину вектора - это посмотреть похожую задачу в публикациях,
взять подобную размерность, и начать экспериментировать с размерностью оттуда.

У большого латентного пространства есть минусы: увеличивая размерность латентного пространства мы можем расширить его настолько, что при обучении модели точек в этом латентром пространстве будет настолько мало, что в основном пространство будет состоять из пустот. Тогда модель будет крайне некачественно "понимать" что ей нужно генерировать в точке, которой не было на обучающей выборке.

Аналогичный вопрос встаёт и по поводу формы распределения входного латентного пространства. Как мы знаем из лекции про обучение сети, инициализация весов и нормализация имеют существенный вклад в работу модели. Поэтому, принято использовать многомерное нормальное распределение для input latent space, потому что оно лучше взаимодействует с весами модели и увеличивает сходимость.

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/MultivariateNormal.png" width="400">

## Наивный подход
(как делать на практике не нужно)

Давайте попробуем создать генератор точек на параболе. Самым тривиальным решением кажется подача случайного шума на вход сети и будем ожидать на выходе точки параболы. Проверим как это будет работать.

In [None]:
import os
import numpy as np
import math
import requests
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.utils import shuffle
from IPython.display import clear_output
from PIL import Image

import torch
import torch.nn as nn
from torch import autograd
from torch.nn import functional as F
from torch.utils.data import DataLoader, TensorDataset
from torch.utils.data.dataset import Dataset, random_split
import torchvision
import torchvision.transforms as transforms
from torchvision import datasets
from torchvision.datasets import FashionMNIST
from torchvision.utils import make_grid
from torchvision.utils import save_image

device = "cuda"

In [None]:
def gen_pair(num=100):
    x = np.random.uniform(low=-1, high=1, size=(num,))
    y = x*x
    return np.hstack((x.reshape(-1,1), y.reshape(-1,1))) # Создадим num корректных точек (x,y) на параболе

pairs = gen_pair(100)
plt.scatter(pairs[:,0], pairs[:,1])
plt.title("Случайные точки на параболе,\nкоторые будем используем в качестве датасета.")
plt.show()

Возьмём размерность входного латентного пространства $ls = 3$ и объединим шум с точками в датасеты.

In [None]:
n_batches = 10
batch_size = 128
ls = 3 # latent space

noise = np.random.normal(size=(n_batches*batch_size, ls))
noise = torch.tensor(noise, dtype=torch.float)
print(f"NN Input: noise.shape: {noise.shape}")

xy_pair = gen_pair(num = n_batches*batch_size)
xy_pair = torch.tensor(xy_pair, dtype=torch.float)
print(f"NN Output: xy_pair.shape: {xy_pair.shape}")

dataset = TensorDataset(noise, xy_pair) # model inputs, model outputs

len_tr = int(len(dataset)*0.8)
len_tst = len(dataset) - len_tr
trainset, testset = random_split(dataset,[len_tr,len_tst])

train_loader = DataLoader(trainset, batch_size=batch_size, shuffle=True)
test_loader = DataLoader(testset, batch_size=batch_size, shuffle=True)

In [None]:
def get_test_loss(model,test_loader,loss_function):
    with torch.no_grad():
        loss_test_total = 0
        for samples, labels in test_loader:
            #print(samples.shape, labels.shape)
            outputs = model(samples.to(device))
            loss = loss_function(outputs, labels.to(device))
            loss_test_total += loss.item()
        return loss_test_total/len(test_loader)

Определим простую модель, которая будет ожидать шум на вход, и генерировать точки на выходе. (Обратите внимание, что функция активации на последнем слое отсутствует, поскольку мы не ограничиваем наш генератор в каком-то диапазоне.)

In [None]:
class GenModel(nn.Module):
    def __init__(self, latent_space):
        super().__init__()
        self.model = nn.Sequential(
            nn.Linear(latent_space, 50),
            nn.ReLU(),
            nn.Linear(50, 50),
            nn.ReLU(),
            nn.Linear(50,2))

    def forward(self, x):
        return self.model(x)

In [None]:
def test_image(model, ls = 3):
    model.cpu()
    noice = torch.tensor(np.random.normal(size=(1000, ls)), dtype=torch.float)
    xy_pair_gen = model(noice)

    xy_pair_gen = xy_pair_gen.detach().numpy()
    plt.scatter(xy_pair_gen[:,0], xy_pair_gen[:,1])
    plt.axis([-1, 1, 0, 1])
    plt.show()
    model.to(device)
#test_image(model)

In [None]:
def custom_losss(pair,label):
  # All inputs are batches
  x_fake = pair[:,0] 
  y_fake = pair[:,1]
  return torch.abs(x_fake*x_fake - y_fake).mean() # average by batch

epochs = 300
model = GenModel(latent_space = ls)
model.to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
#loss_function = nn.L1Loss().to(device)
loss_function = custom_losss

for epoch in range(epochs):
    loss_epoch = 0
    for samples, labels in train_loader:
        optimizer.zero_grad()
        outputs = model(samples.to(device))
        loss = loss_function(outputs.to(device), labels.to(device))
        loss.backward()
        optimizer.step()
        loss_epoch += loss.item()
        
    loss_test = get_test_loss(model,test_loader,loss_function)
    if epoch%50==0:
        print(f"Epoch={epoch} train_loss={loss_epoch/len(train_loader):.4} test_loss={loss_test:.4}")
        test_image(model)

Посмотрим результаты генерации на шуме

**Причина неудачи**

Как видно, модель обучается плохо. Нужно придумать как сделать так, чтобы точки "растолкать" из области, где парабола отсутствует. (Хотя в целом, обучать таким способом реально).

## Дискриминатор

Чтобы решить проблему сильного разброса точек (оттолкнуть их от пустот) можно наказывать нейронную сеть не напрямую лосс функцией, а сетью, которая будет говорить нам что точка лежит на параболе или не лежит. Однако, проверять это условие анализируя пару x, y на принадлежность к параболе плохая идея. Потому что точки получаются из случайного шума и ожидать что они попадут точно в параболу мы не имеем права. Поскольку попадание должно быть выше чем точность типа данных (32-bit floating point для torch.float). Мы рискуем не получить в процессе обучения ни одной точки, попавшей в параболу. Нам нужно дейстовать мягче.

Поэтому, определим сеть-классификатор точек (лежит/не лежит), которую назовём **дискриминатор или критик**.

In [None]:
class DisModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.model = nn.Sequential(
            nn.Linear(2, 25),
            nn.ReLU(),
            nn.Linear(25, 15),
            nn.ReLU(),
            nn.Linear(15,1),
            nn.Sigmoid())
        
    def forward(self, x):
        return self.model(x)

Итого мы имеем: генератор, выдающий точки то ли попадая в параболу, то ли не попадая в неё. А так же дискриминатор, который будет учиться их различать. Поэтому мы будем подавать на генератор синтетические правильные точки, считая их реальными, и точки, которые выдаёт генератор, считая их подделкой.

Таким образом, генератор будет учиться подражать реальным данным, а дискриминатор будет учиться отличать реальные точки, от подделок. 

Мы пришли к идее генеративно-состязательных нейронных сетей.

##  Generative adversarial network (GAN)

Генеративно-состязательную сеть описал Ян Гудфеллоу из компании Google в 2014 году. Сейчас он возглавляет подразделение машинного обучения в Apple. Принцип состязательности в сети GAN нередко описывается через метафоры.

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/11-15.png" width="700">

### Генератор - фальшивомонетчик!

Назовем нашего фальшивомонетчика $G$ (или generator), а банкира — $D$ (или discriminator). У нас есть какое-то количество оригинальных денег $X$ для банкира, и пусть на выходе у него будет число диапазоном от нуля до единицы, чтобы оно выражало уверенность банкира в том, что выданные ему на рассмотрение деньги настоящие. Еще — поскольку фальшивомонетчик у нас нейронная сеть, ей нужны какие-то входные данные, назовем их $z$ - это наш случайный шум, который модель будет стараться превратить в деньги.

Тогда, очевидно, цель фальшивомонетчика — это максимизировать $D(G(z))$, то есть сделать так, чтобы банкир был уверен, что подделки — настоящие.

Цель банкира посложнее — ему нужно одновременно положительно опознавать оригиналы, и отрицательно — подделки. Запишем это как максимизацию $D(x)(1-D(G(z)))$. Умножение можно превратить в сложение, если взять логарифм, поэтому получаем:

Для банкира: максимизировать $log(D(X))+log(1-D(G(z)))$

Для фальшивомонетчика: максимизировать $log(D(G(z)))$

Математически - это игра двух игроков:

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/gan_loss1.png" width="700">

Мы знаем, что дискриминатор максимизирует эту функцию относительно своих параметров $\theta_d$, где при фиксированном генераторе ${G}_{\theta_{g}}$ он выполняет двоичную классификацию: он присваивает вероятность 1 точкам данных из обучающего набора $E_{x∼p_{data}}$ и присваивает вероятность 0 сгенерированным выборкам $E_{z∼p(z)}$

Поскольку используется подход из теории игр, наша лосс-функция представлена как минимаксная функция. Дискриминатор пытается максимизировать целевую функцию, поэтому мы можем выполнить градиентный подъем целевой функции. Генератор пытается минимизировать целевую функцию, поэтому мы можем выполнить градиентный спуск для целевой функции. Посредством чередования градиентного подъема и спуска сеть можно обучить.

Градиентный подъем на дискриминаторе:

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/gan_loss2.png" width="700">

Градиентный спуск на генераторе:

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/gan_loss3.png" width="450">

Однако вместо того, чтобы минимизировать вероятность того, что дискриминатор будет правильным, мы максимизируем вероятность того, что дискриминатор ошибается. Поэтому мы выполняем градиентный подъем на генераторе в соответствии с этой целевой функцией.

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/gan_loss4.png" width="450">

На практике это достигается за счет того что при обучении генератора метки для изображений которые он сгенерировал меняются на True.

В процессе совместного конкурентного обучения, если система достаточно сбалансирована, достигается минимаксное состояние равновесия, в котором обе сети значительно улучшили своё качество, и теперь сгенерированные изображения могут быть использованы практически как настоящие.

Подробнее о математике GAN-ов можно почитать тут:

https://arxiv.org/pdf/1701.07875.pdf

**Преимущества GAN**
* Теоретические гарантии сходимости
* Можно обучать обычным SGD/Adam
* Решает в явном виде задачу generative modeling
* Но неявным образом (нейросети)


**Недостатки GAN**
* Нестабильное обучение
* Очень долгая сходимость
* Mode-collapsing
* Generator starvation
* Поиск оптимальных параметров - **pure luck**

https://developers.google.com/machine-learning/gan/problems

https://developers.google.com/machine-learning/gan/loss

### GAN Практический пример

Создадим две функции возвращающие батчи:

Первая функция будет создавать случайный вектор на вход генератора и метками классов будут единицы, потому что мы хотим чтобы генератор давал такие точки, чтобы классификатор их распознавал как единицы (верные). Поэтому лосс функция будет подгонять веса генератора к единицам.

In [None]:
def get_g_batch(batch_size, latent_dim):
    g_input = torch.randn(size=(batch_size, latent_dim)).to(device)
    labels = torch.ones(size=(batch_size,)).to(device)
    return g_input, labels

Вторая функция будет давать батч на вход дискриминатора, смешивая:
* Истиные точки на параболе (чтобы обучать дискриминатор)
* Точки не на параболе (чтобы дискриминатор знал где "не парабола")
* Выход генератора как неверный (чтобы генератор не коллапсировал в одну верную точку)

In [None]:
def get_mix_batch(batch_size, latent_dim, netG):
    types_of_points = []
    
    # Generate true pairs and true labels
    x = torch.distributions.Uniform(-1, +1).sample((batch_size,)).to(device)
    true_pair = torch.vstack((x, x*x)).T.to(device)
    true_labels = torch.ones(size=(batch_size,)).unsqueeze(1).to(device)
    types_of_points.append(torch.hstack((true_pair, true_labels)))
    
    # Generate fake uniform pairs and fake labels
    if True:
        x_fake = torch.distributions.Uniform(-1, +1).sample((batch_size,)).to(device)
        y_fake = torch.distributions.Uniform(-1, +1).sample((batch_size,)).to(device)
        fake_pair = torch.vstack((x_fake, y_fake)).T
        fake_labels = torch.zeros(size=(batch_size,)).unsqueeze(1).to(device)
        types_of_points.append(torch.hstack((fake_pair, fake_labels)))

    # Generate points from generator and set labels as fake
    if True:
        gan_pair = netG(torch.randn(size=(batch_size, latent_dim)).to(device))
        gan_labels = torch.zeros(size=(batch_size,)).unsqueeze(1).to(device)
        types_of_points.append(torch.hstack((gan_pair, gan_labels)))
    
    # Stack all types of points
    z = torch.vstack(types_of_points)
    # Shuffle
    z=z[torch.randperm(z.size()[0])]
    
    # Split back to samples and labels
    mixed_pairs = z[:, :2]
    mixed_labels = z[:, 2]
    return mixed_pairs, mixed_labels

Для удобства обернём в функции шаги backpropagation дискриминатора и генератора

In [None]:
def netD_step(netD, batchD, loss_func, optimizer):
    samples, labels = batchD
    optimizer.zero_grad()
    outputs = netD(samples.to(device))
    loss = loss_func(outputs.to(device), labels.unsqueeze(1).detach().to(device))
    loss.backward()
    optimizer.step()

In [None]:
def netG_step(netD, netG, batchG, loss_func, optimizer):
    samples, labels = batchG
    optimizer.zero_grad()
    outputs = netD(netG(samples.to(device)))
    loss = loss_func(outputs.to(device), labels.unsqueeze(1).detach().to(device))
    loss.backward()
    optimizer.step()

Будем каждую эпоху отображать что уже умеет генерировать генератор

In [None]:
def plot_gen(netG, epoch="Not provided"):
    Gin, _ = get_g_batch(1000, latent_dim)
    out = netG(Gin).cpu()
    plt.scatter(out.detach().numpy()[:, 0], out.detach().numpy()[:, 1], color="blue", s=1)
    plt.title(f'Generator points. End of epoch= {epoch+1}', fontsize=10)
    plt.axis([-1,1,-0.5,1])
    plt.show()

Поскольку сети обучаются по очереди, то создадим два оптимайзера.

In [None]:
latent_dim = 5
batch_size = 128
batch_per_epoch = 1000
epochs = 5

netG = GenModel(latent_dim).to(device)
netD = DisModel().to(device)
loss_func = nn.BCELoss().to(device)
optD = torch.optim.Adam(netD.parameters(), lr=0.001)
optG = torch.optim.Adam(netG.parameters(), lr=0.001)

В цикле обучения будет создаваться батч данных (размера batch_size) для генератора, и батч из смеси точек (размера 3\*batch_size) для дискриминатора. С балансом данных подаваемых на обе сети можно эксперементировать.

In [None]:
def train(netD, netG, batch_per_epoch, batch_size, latent_dim, epochs, loss_func, optD, optG):
    for epoch in range(epochs):
        for _ in range(batch_per_epoch):
            batchG = get_g_batch(batch_size, latent_dim)
            batchD = get_mix_batch(batch_size, latent_dim, netG)
            
            netD.train(True)
            netG.train(False)
            netD_step(netD, batchD, loss_func, optD)
            
            netD.train(False)
            netG.train(True)
            netG_step(netD, netG, batchG, loss_func, optG)
            
        # clear_output()
        plot_gen(netG, epoch)

In [None]:
train(netD, netG, batch_per_epoch, batch_size, latent_dim, epochs, loss_func, optD, optG)

Сеть отлично обучилась при подаче в дискриминатор всех типов точек. Можно отключить некоторые типы и посмотреть что получится.

## DCGAN - Генерация изображений

С помощью GAN можно, разумеется, генерировать не только точки на параболе. Можно генерировать, например, изображения. Но поднимаются закономерные вопросы.

### Как из шума на входе сети получить изображение?

Самым простым ответом будет: взять шум, пропустить его через полносвязные слои и сделать reshape до нужного разрешения. В целом, это будет работать.


Однако **DCGAN - Deep Convolutional GAN** использует сверточные и сверточно-транспонированные (convolutional and convolutional-transpose) слои в дискриминаторе и генераторе соответственно. Впервые метод DCGAN был описан Рэдфордом и др. в статье "Обучение неконтролируемому представлению с помощью Глубоких Сверточных генеративных состязательных сетей".

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/dcgan_arcit.JPG" width="600">

Ниже видна разница в генерации при помощи исключительно полносвязных слоёв и при помощи обратных свёрток. Очевидно, результат DCGAN лучше чем GAN.

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/gan_dcgan.png" width="600">

### Архитектура DCGAN

На вход порождающей сети поступает шум, который по факту представляет из себя вектор произвольной размерности. Отсюда следует, что нет никакой необходимости расчленять его на признаки с помощью сверточных слоев в отличие от дискриминатора, а требуется, наоборот, преобразовать в результирующее изображение. Для выполнения этой задачи будут использоваться так называемые разверточные (deconvolutional) слои, которые являются обратными к сверточным. Принцип их действия заключается в том, что они дополняют вход нулями до матрицы необходимого размера.

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/dcgan.png" width="700">

### Deconvolutional layer

Обратные свёртки/Развёртки (deconvolutional, convolutional-transpose). Входное разрешение дополняется нулями (подобно паддингу) до такого разрешения, чтобы выходное разрешение было больше входного. Вы можете возразить: но ведь сильно увеличить изображение не получится! Для этого слоёв ставится несколько, чтобы каждый новый слой лучше восстанавливал то, что в него подают. Итеративно увеличивая разрешения, ядра свёрток учатся генерировать изображения.

Из изображения 2х2 в изображение 4х4:

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/deconv.gif" width="300">

Из изображения 3х3 в изображение 5х5 с использованием паддинга:

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/deconv_padding.gif" width="300">

[nn.ConvTranspose2d](https://pytorch.org/docs/stable/generated/torch.nn.ConvTranspose2d.html#torch.nn.ConvTranspose2d)


<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/convtransponce_doc.JPG" width="700">

In [None]:
x = torch.rand((1, 3, 10, 10))*255 # Like one 3-channal image with 10x10 size
x.shape

In [None]:
convT = nn.ConvTranspose2d(in_channels=3, out_channels=3, kernel_size=2, stride =2)
y = convT(x)
y.shape  # One -channel image with 20x20 size

Полученное изображение не похоже на входное - потому что были применены свёрточные ядра со случайными коэффициентами.

In [None]:
fig, ax = plt.subplots(ncols=2, sharex=True, sharey=True)
ax[0].imshow(x[0].permute(1,2,0).detach().numpy().astype(np.uint8))
ax[1].imshow(y[0].permute(1,2,0).detach().numpy().astype(np.uint8))
plt.show()

### Пример обученного DCGAN

https://github.com/pytorch/hub/blob/master/facebookresearch_pytorch-gan-zoo_dcgan.md

In [None]:
use_gpu = True if torch.cuda.is_available() else False
model = torch.hub.load('facebookresearch/pytorch_GAN_zoo:hub', 'DCGAN', pretrained=True, useGPU=use_gpu)
clear_output()

In [None]:
num_images = 16
noise, _ = model.buildNoiseData(num_images)
with torch.no_grad():
    generated_images = model.test(noise)

fig, ax = plt.subplots(figsize=(16*3, 2*3))
ax.imshow(torchvision.utils.make_grid(generated_images).permute(1, 2, 0).cpu().numpy(), interpolation='nearest', aspect='equal')
plt.show()

### Поиск направлений в пространстве признаков

In [None]:
n1 = noise[0].clone()
print(n1.shape)

In [None]:
first_image = model.test(n1.unsqueeze(0))
plt.imshow(torchvision.utils.make_grid(first_image).permute(1, 2, 0).cpu().numpy(), interpolation='nearest', aspect='equal')
plt.show()

In [None]:
new_batch = []
for i in range(0,120,8):
  tmp = n1.clone()
  tmp[0:i] = 1
  new_batch.append(tmp)
new_batch = torch.stack(new_batch)
generated_images = model.test(new_batch)
fig, ax = plt.subplots(figsize=(16*3, 2*3))
ax.imshow(torchvision.utils.make_grid(generated_images).permute(1, 2, 0).cpu().numpy(), interpolation='nearest', aspect='equal')
plt.show()



https://machinelearningmastery.com/how-to-interpolate-and-perform-vector-arithmetic-with-faces-using-a-generative-adversarial-network/

https://arxiv.org/abs/2002.03754

## Другие способы повышения разрешения  - Upsampling

Помимо обратных свёрток, существует другие методы повышения разрешения из низкой размерности.

Самый простой способ - выполнить повышение разрешения с помощью интерполяции. В PyTorch это осуществляется слоем Upsample

https://pytorch.org/docs/stable/generated/torch.nn.Upsample.html

In [None]:
x = torch.rand((1, 3, 10, 10)) # Like one 3-channal image with 10x10 size
print("Input shape:", x.shape)
    
upsample = nn.Upsample(scale_factor=2, mode="bilinear", align_corners=False)
y = upsample(x)

print("Output shape", y.shape)

In [None]:
fig, ax = plt.subplots(ncols=2)
ax[0].imshow((x[0].permute(1,2,0)*256).detach().numpy().astype(np.uint8))
ax[1].imshow((y[0].permute(1,2,0).detach().numpy()*256).astype(np.uint8))
plt.show()

## Практический пример DCGAN

Обучим DCGAN на датасете Fashion MNIST

In [None]:
n_epochs=2  #number of epochs of training
batch_size=64 #size of the batches
lr=0.0002     #adam: learning rate
b1=0.5 #adam: decay of first order momentum of gradient
b2=0.999 #adam: decay of first order momentum of gradient
n_cpu=8 # number of cpu threads to use during batch generation
latent_dim=100 #dimensionality of the latent space
img_size=32 #size of each image dimension
channels=1 #number of image channels
sample_interval=100 #interval between image sampling

In [None]:
def weights_init_normal(m):
    classname = m.__class__.__name__
    if classname.find("Conv") != -1:
        torch.nn.init.normal_(m.weight.data, 0.0, 0.02)
    elif classname.find("BatchNorm2d") != -1:
        torch.nn.init.normal_(m.weight.data, 1.0, 0.02)
        torch.nn.init.constant_(m.bias.data, 0.0)

Обратите внимание, как преобразуется шум в генераторе:
* Сначала с помощью полносвязного слоя он преобразуется в первичные фичи
* Потом с помощью функции view, ресэмплится в картинку низкого разрешения
* Потом, проходя через conv_blocks поочерёдно применяются Upsample и ОБЫЧНЫЕ свёртки

In [None]:
class Generator(nn.Module):
    def __init__(self):
        super(Generator, self).__init__()

        self.init_size = img_size // 4
        self.l1 = nn.Sequential(nn.Linear(latent_dim, 128 * self.init_size ** 2))

        self.conv_blocks = nn.Sequential(
            nn.BatchNorm2d(128),
            nn.Upsample(scale_factor=2),
            nn.Conv2d(128, 128, 3, stride=1, padding=1),
            nn.BatchNorm2d(128, 0.8),
            nn.LeakyReLU(0.2, inplace=True),
            nn.Upsample(scale_factor=2),
            nn.Conv2d(128, 64, 3, stride=1, padding=1),
            nn.BatchNorm2d(64, 0.8),
            nn.LeakyReLU(0.2, inplace=True),
            nn.Conv2d(64, channels, 3, stride=1, padding=1),
            nn.Tanh(),
        )

    def forward(self, z):
        out = self.l1(z)
        out = out.view(out.shape[0], 128, self.init_size, self.init_size)
        img = self.conv_blocks(out)
        return img

In [None]:
class Discriminator(nn.Module):
    def __init__(self):
        super(Discriminator, self).__init__()

        def discriminator_block(in_filters, out_filters, bn=True):
            block = [nn.Conv2d(in_filters, out_filters, 3, 2, 1), nn.LeakyReLU(0.2, inplace=True), nn.Dropout2d(0.25)]
            if bn:
                block.append(nn.BatchNorm2d(out_filters, 0.8))
            return block

        self.model = nn.Sequential(
            *discriminator_block(channels, 16, bn=False),
            *discriminator_block(16, 32),
            *discriminator_block(32, 64),
            *discriminator_block(64, 128),
        )

        # The height and width of downsampled image
        ds_size = img_size // 2 ** 4
        self.adv_layer = nn.Sequential(nn.Linear(128 * ds_size ** 2, 1), nn.Sigmoid())

    def forward(self, img):
        out = self.model(img)
        out = out.view(out.shape[0], -1)
        validity = self.adv_layer(out)

        return validity

In [None]:
# Initialize generator and discriminator
generator = Generator()
discriminator = Discriminator()

# Initialize weights
generator.apply(weights_init_normal)
discriminator.apply(weights_init_normal)

# Loss function
adversarial_loss = torch.nn.BCELoss()

generator.to(device)
discriminator.to(device)
adversarial_loss.to(device)

In [None]:
def show_gen_img(model, latent_dim=100):
    z = Tensor(np.random.normal(0, 1, (9, latent_dim)))
    sample_images = generator(z)
    sample_images = sample_images.cpu().detach()

    grid = make_grid(sample_images, nrow=3, ncols=3, normalize=True).permute(1,2,0).numpy()
    fig, ax = plt.subplots(figsize=(5,5))
    ax.imshow(grid)
    plt.axis('off')
    plt.show()

In [None]:
# Configure data loader
os.makedirs("../../data/mnist", exist_ok=True)
dataloader = torch.utils.data.DataLoader(
    datasets.FashionMNIST(
        "../../data/mnist",
        train=True,
        download=True,
        transform=transforms.Compose(
            [transforms.Resize(img_size), transforms.ToTensor(), transforms.Normalize([0.5], [0.5])]
        ),
    ),
    batch_size=batch_size,
    shuffle=True,
)
clear_output()

In [None]:
# Optimizers
optimizer_G = torch.optim.Adam(generator.parameters(), lr=lr, betas=(b1, b2))
optimizer_D = torch.optim.Adam(discriminator.parameters(), lr=lr, betas=(b1, b2))

Tensor = torch.cuda.FloatTensor

for epoch in range(n_epochs):
    for i, (imgs, _) in enumerate(dataloader):

        # Adversarial ground truths
        valid = Tensor(imgs.shape[0], 1).fill_(1.0)
        fake = Tensor(imgs.shape[0], 1).fill_(0.0)

        # Configure input
        real_imgs = imgs.type(Tensor)

        # -----------------
        #  Train Generator
        # -----------------

        optimizer_G.zero_grad()

        # Sample noise as generator input
        z = Tensor(np.random.normal(0, 1, (imgs.shape[0], latent_dim)))

        # Generate a batch of images
        gen_imgs = generator(z)

        # Loss measures generator's ability to fool the discriminator
        g_loss = adversarial_loss(discriminator(gen_imgs), valid)

        g_loss.backward()
        optimizer_G.step()

        # ---------------------
        #  Train Discriminator
        # ---------------------

        optimizer_D.zero_grad()

        # Measure discriminator's ability to classify real from generated samples
        real_loss = adversarial_loss(discriminator(real_imgs), valid)
        fake_loss = adversarial_loss(discriminator(gen_imgs.detach()), fake)
        d_loss = (real_loss + fake_loss) / 2

        d_loss.backward()
        optimizer_D.step()
        
        batches_done = epoch * len(dataloader) + i
        if batches_done % sample_interval == 0:
            print("[Epoch %d/%d] [Batch %d/%d] [D loss: %f] [G loss: %f]"
                % (epoch, n_epochs, i, len(dataloader), d_loss.item(), g_loss.item()))
            show_gen_img(generator)

            # save_image(gen_imgs.data[:25], "images/%d.png" % batches_done, nrow=5, normalize=True)

Чтобы картинки обрели приличный вид, хватает 2 эпох. Чтобы стали выглядеть хорошо - 5 эпох.

## cGAN - GAN с условием

cGAN расшифровывается как Conditional Generative Adversarial Net - это GAN с условием. Условие может быть любым, например, генерация конкретной цифры. В этом случае нам нужен уже размеченный датасет, для того чтобы обучить дискриминатор.

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/cGAN_switcher.JPG" width="400">

Уловием в данном случае будет label, который на рисунке обозначен **Y**. Label добавляется к случайному шуму, тем самым мы говорим генератору генерировать случайное изображение нужного класса. Так же он подаётся в дискриминатор в качестве входа, чтобы дискриминатор знал какое изображение классифицировать как реальное, а какое как вымышленное.

Обучение в данном случае будет аналогичным обучению GAN, мы будем обучать сети, чередуя реальные данные и сгенерированные, добавив label.

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/cGANS_results.JPG" width="700">

### Как закодировать метки?

https://pytorch.org/docs/stable/generated/torch.nn.Embedding.html

Поскольку подавать в сеть числа от 0 до 9 (в случае MNSIT) нет смысла, то нужно придумать как подавать их в нейронную сеть. На помощь приходят Embeddings. Мы можем представить каждую метку в виде вектора с десятью элементами.

In [None]:
samples, labels = next(iter(dataloader))


label_emb = nn.Embedding(10, 10)

e = label_emb(labels)

print(f"Label: {labels[0]}")
print(f"Embedding for this label: {e[0]}")

После чего, эмбединги меток обычно склеиваются с входами сетей.

#### Почему нельзя подать просто число?

Если мы будем подавать просто число, например 0.1 для единицы, и 0.5 для пяти, то вход у нас будет непрерывным, что довольно нелогчино, тогда при небольшом изменении входа, мы будем генерировать другую цифру. А так же потому что сети будет сложнее выучить небольшие расхождения в этом небольшом интервале. В случае с векторным представлением мы избегаем этих проблем.

#### Модификации cGAN

Метки классов можно подавать не только способом, описанным выше. Можно вместо подачи их в дискриминатор сделать так, чтобы он их предсказывал - **Semi-Supervized GAN**.

При этом на вход дискриминатора подаются:
- размеченные изображения 
- неразмеченные изображения (в 4-5 раз больше чем размеченных)
- выходы генератора.

https://livebook.manning.com/book/gans-in-action/chapter-7/v-6/30

Ещё одна модификация cGAN - это **AC-GAN** (auxiliary classifier) в которой единственное различие заключается в том, что дискриминатор дожен помимо распознавания реальных и фейковых изображений ещё и классифицировать их. Он имеет эффект стабилизации процесса обучения и позволяет генерировать большие высококачественные изображения, изучая представление в скрытом пространстве, которое не зависит от метки класса.


Conditional Batch Norm:
https://www.programmersought.com/article/43745882207/
https://github.com/pytorch/pytorch/issues/8985#issuecomment-405080775

# GAN Zoo

GAN моделей настолько много, что нет смысла рассказывать о всех. Так или иначе, сейчас многие новые нейросети используют принципы GAN для обучения. Будь-то распознавание или сегментация.

https://paperswithcode.com/methods/category/generative-models

### ProGAN

https://arxiv.org/pdf/1710.10196.pdf

"PROGRESSIVE GROWING OF GANS FOR IMPROVED QUALITY, STABILITY, AND VARIATION" - метод, призванный ускорить обучение сети генерации изображений с помощью добавления слоёв во время генерации. Сначала сеть учится генерировать изображения низкого разрешения, потом добавляется слой, который создаёт более высокое разрешение из фич предыдушего слоя. Эта идея позволяет плавно обучать сеть и добиваться лучшей сходимости.


<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/ProGAN.gif" width="600">

### Pix2Pix

https://arxiv.org/abs/1611.07004v3

Pix2Pix - сети, переводящая пиксельные рисунки в реалистичные изображения. Она тоже использует принципы GAN для работы.

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/pix2pix.png" width="500">

 - Обучается на размеченных парах изображений. 
 - На вход дискриминатору подаются пары изображений: рисунок + оригинал / результат работы генератора
 - Вместо шума на вход генератору вместо шума подается изображение (не шум!)
 - Вход сначала сжимается при помощи encoder-decoder архитектуры (UNet) 
 - К Loss добавляется компонент(regression) отвечающий за разницу в исходной и полученной картинке.


Попробовать сеть можно на сайте:

**https://affinelayer.com/pixsrv/**

**https://affinelayer.com/pix2pix/**

Ещё примеры:


<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/pix2pix2.JPG" width="500">


<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/pix2pix3.JPG" width="500">

### Domain transfer network

https://arxiv.org/abs/1611.02200

Domain transfer network (DTN)- сеть, совмещающая в себе автоэнкодер и gan.

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/11-27.png" width="600">

- В отличие от предидущего примера изображения не размечаются на пары
- В качестве генератора используется encoder+decoder 
- Добавляется Loss для encoder+decoder 


#### Результаты

From SVHN to MNIST

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/domain1.png" width="600">

From Photos to Emoji 

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/domain2.png" width="600">

### SRGAN и StackGANs

https://arxiv.org/pdf/1609.04802v5.pdf

SRGAN (Super resolution GAN), StackGANs - сети для повышения разрешения изображений, отличающаяся от других сетей повышенным качеством восстановления мелких деталей и текстур изображения.

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/SRGAN.JPG" width="700">

Сравнение с другими методами повышения разрешения:

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/SRGAN_res.JPG" width="700">

# Очистка изображенией

Изображения полученные при помощи с телескопов оказываются зашумленными по причинам:

 * атмосферных помех
 * шумам которые даёт сенсор телескопа

Классический способ борьбы с этой проблемой состоит в подборе сигнала похожего на суммарный шум: point spread function (PSF). И последующей сверке изображения с этим сигналом.


<img src ="http://edunet.kea.su/repo/src/L01_Intro/img/mp/galaxy.png" width="700" >

<img src ="http://edunet.kea.su/repo/src/L01_Intro/img/mp/galaxy2.png" width="700" >

https://academic.oup.com/mnrasl/article/467/1/L110/2931732

### Семантическая генерация

Помимо шума, в модель можно подавать описание того что мы хотим получить. Это описание может быть разным, например текст или вектор заданных свойств.

Например:
* Класс объекта
* Углы и повороты
* Заданные параметры трансформаций
* Сегментация

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/11-06.png" width="700">

Результат:

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/11-07.png" width="300">

### Text to image

https://arxiv.org/abs/2001.06658

Описание может быть представлено в виде естественного текста.  Цель состоит в том, чтобы генерировать изображения из текста, а также позволить пользователю манипулировать синтетическими изображениями, используя описания на естественном языке, в одной структуре


Одна из возможных архитектур сетей text-to-image с использованием RNN-сети на входе:

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/11-32.png" width="700">


**ControlGAN** - Pytorch реализация  для управляемого преобразования текста в изображение. На входе используется эмбеддинг слов. Который подаётся во множество генераторов и дискриминаторов:

https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8641270

https://github.com/mrlibw/ControlGAN

.


Результаты:

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/11-31.png" width="500">


Поэкспериментировать:

**Тут можно вводить собственный текст, работает плохо:**

**https://deepai.org/machine-learning-model/text2img**


**Тут можно выбрать комбинацию из текстовых шаблонов, работает хорошо:**

**https://openai.com/blog/dall-e/**

### Сегментация

<img src ="http://edunet.kea.su/repo/src/L01_Intro/img/mp/oneshot.png" width="700" >


https://indico.cern.ch/event/967970/contributions/4118959/attachments/2151681/3628080/Burnaev_Manifold_Knowledge_Transfer_v2.pdf

# Заключение

Принципы генеративно-состязательных сетей вышли далеко за пределы генерации из шума. Сейчас с помощью GAN создаются сложнейшие state-of-art сети для самых разнообразных задач. В лекции были рассмотрены самые главные модели: GAN - для генерации из шума, DCGAN - для генерации изображений, с помощью развёрток и cGAN - сети с генерацией по условию. 

Совмещая различные сети и подходы можно сконструировать множество самых разнообразных моделей.

# Ссылки

**GAN**

https://deepgenerativemodels.github.io/notes/gan/

**cDCGAN**

https://github.com/znxlwm/pytorch-MNIST-CelebA-cGAN-cDCGAN

**StackGAN**

https://arxiv.org/pdf/1612.03242v2.pdf

https://arxiv.org/pdf/1710.10916.pdf

https://medium.com/@rangerscience/lets-read-science-stackgan-text-to-photo-realistic-image-synthesis-4562b2b14059

https://www.rulit.me/data/programs/resources/pdf/Generative-Adversarial-Networks-with-Python_RuLit_Me_610886.pdf

Видео:

https://www.youtube.com/watch?v=PXWIaLE7_NU

https://www.youtube.com/watch?v=crI5K4RCZws

https://github.com/zeusm9/Text-to-Photo-realistic-Image-Synthesis-with-Stacked-Generative-Adversarial-Networks

**ControlGAN**

https://github.com/mrlibw/ControlGAN

https://github.com/taki0112/ControlGAN-Tensorflow

https://arxiv.org/pdf/1708.00598.pdf

https://arxiv.org/pdf/1909.07083.pdf

https://arxiv.org/pdf/1910.05774.pdf

https://meta-guide.com/data/data-processing/text-to-image-systems/natural-language-text-to-image-2019

**AC-GAN**

https://pytorch.org/tutorials/beginner/dcgan_faces_tutorial.html

https://machinelearningmastery.com/how-to-develop-an-auxiliary-classifier-gan-ac-gan-from-scratch-with-keras/

https://towardsdatascience.com/understanding-acgans-with-code-pytorch-2de35e05d3e4

https://arxiv.org/pdf/1909.05370.pdf

https://openaccess.thecvf.com/content/WACV2021/papers/Kavalerov_A_Multi-Class_Hinge_Loss_for_Conditional_GANs_WACV_2021_paper.pdf

https://github.com/lukedeo/keras-acgan

<img src ="http://edunet.kea.su/repo/src/L13_GAN_cGAN/img/11-23.gif" width="700">