# Генеративно-состязательные сети (Generative Adversarial Networks, GAN)

Генеративно-состязательная сеть состоит из двух сетей — выполняющей подделку и оценивающей эту подделку, постепенно обучающих друг друга:

1) сеть-генератор — получает на входе случайный вектор (случайную точку в скрытом пространстве) и декодирует его в искусственное изображение;

2) сеть-дискриминатор (или противник) — получает изображение (настоящее или поддельное) и определяет, взято ли это изображение из обучающего набора или сгенерировано сетью-генератором.

Сеть-генератор обучается обманывать сеть-дискриминатор и, соответственно, учится создавать все более реалистичные изображения: поддельные изображения, неотличимые от настоящих в той мере, на какую способна сеть-дискриминатор. Сеть-дискриминатор, в свою очередь, постоянно адаптируется к увеличивающейся способности сети-генератора и устанавливает все более высокую планку реализма для генерируемых изображений. По окончании обучения генератор способен превратить любую точку из своего входного пространства в правдоподобное изображение. В отличие от вариационных автокодировщиков, это скрытое пространство дает меньше гарантий наличия в нем значимой структуры; в частности, оно не является непрерывным.

Данная реализация — глубокая сверточная генеративно-состязательная сеть (Deep Convolutional GAN, DCGAN), в которой генератор и дискриминатор являются глубокими сверточными сетями. В ней, например, используется слой Conv2DTranspose для увеличения разрешения изображения в генераторе.
Мы будем обучать GAN на изображениях из набора CIFAR10, содержащего 50 000 изображений 32 × 32 в формате RGB, которые делятся на 10 классов (по 5000 изображений в каждом классе). Для простоты мы используем только изображения, принадлежащие классу «лягушка».
В общих чертах GAN выглядит примерно так:
    
1) Сеть generator отображает векторы с формой (размерность_скрытого_пространства,) в изображения с формой (32, 32, 3).

2) Сеть discriminator отображает изображения с формой (32, 32, 3) в оценку вероятности того, что изображение является настоящим.

3) Сеть gan объединяет генератор и дискриминатор gan(x) = discriminator(generator(x)). То есть сеть gan отображает скрытое пространство векторов в оценку реализма этих скрытых векторов, декодированных генератором.

4) Мы обучим дискриминатор на примерах реальных и искусственных изображений, отмеченных метками «настоящее»/«поддельное», как самую обычную модель классификации изображений.
5) Для обучения генератора мы используем градиенты весов генератора в отношении потерь модели gan. То есть на каждом шаге мы будем смещать веса генератора в направлении увеличения вероятности классификации дискриминатором изображений, декодированных генератором как «настоящие». Иными словами, мы будем обучать генератор обманывать дискриминатор.

## Набор хитростей

1) В качестве последней функции активации в генераторе мы используем tanh вместо sigmoid, которую часто можно встретить в моделях других типов.

2) Мы будем выбирать точки из скрытого пространства, используя нормальное распределение (распределение Гаусса), а не равномерное.

3) Стохастичность повышает устойчивость. Поскольку целью обучения является динамическое равновесие, генеративно-состязательные сети легко могут застревать на разных препятствиях. Введение случайной составляющей в процесс обучения помогает предотвратить это. Мы вводим случайный компонент двумя способами: используя прореживание в дискриминаторе и добавляя случайный шум в метки для дискриминатора.

4) Разреженные градиенты могут препятствовать обучению GAN. В глубоком обучении разреженность часто является желательным свойством, но не в случае с GAN. Разреженность градиента могут вызывать: операции выбора максимального значения по соседним элементам (max pooling) и активации ReLU. Вместо выбора максимального значения для уменьшения разрешения мы рекомендуем использовать чередующиеся свертки, а вместо функции активации ReLU — слой LeakyReLU. Он напоминает ReLU, но ослабляет ограничение разреженности, допуская небольшие отрицательные значения активации.

5) В сгенерированных изображениях часто наблюдаются артефакты типа «шахматная доска», обусловленные неравномерным охватом пространства пикселов в генераторе (рис. 8.17). Для их устранения мы будем выбирать размер ядра, кратный размеру шага, при каждом использовании разреженных слоев Conv2DTranpose или Conv2D в генераторе и дискриминаторе.

### Генератор

In [2]:
import tensorflow.keras
from tensorflow.keras import layers
import numpy as np

latent_dim = 32
height = 32
width = 32
channels = 3

generator_input = tensorflow.keras.Input(shape=(latent_dim,))

x = layers.Dense(128 * 16 * 16)(generator_input) # Преобразование входа в карту признаков 16 × 16 со 128 каналами
x = layers.LeakyReLU()(x)
x = layers.Reshape((16, 16, 128))(x) 

x = layers.Conv2D(256, 5, padding='same')(x) # Увеличение разрешения до 32 × 32
x = layers.LeakyReLU()(x) 

x = layers.Conv2DTranspose(256, 4, strides=2, padding='same')(x)
x = layers.LeakyReLU()(x) 

x = layers.Conv2D(256, 5, padding='same')(x)
x = layers.LeakyReLU()(x)

x = layers.Conv2D(256, 5, padding='same')(x)
x = layers.LeakyReLU()(x)

x = layers.Conv2D(channels, 7, activation='tanh', padding='same')(x) # Производит карту признаков 32 × 32 с 1 каналом (форма изображений в наборе CIFAR10)
generator = tensorflow.keras.models.Model(generator_input, x) # Создание модели генератора, которая отображает вход с формой (размерность_скрытого_пространства,) в изображение с формой (32, 32, 3)
generator.summary()

Model: "model"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_1 (InputLayer)         [(None, 32)]              0         
_________________________________________________________________
dense (Dense)                (None, 32768)             1081344   
_________________________________________________________________
leaky_re_lu (LeakyReLU)      (None, 32768)             0         
_________________________________________________________________
reshape (Reshape)            (None, 16, 16, 128)       0         
_________________________________________________________________
conv2d (Conv2D)              (None, 16, 16, 256)       819456    
_________________________________________________________________
leaky_re_lu_1 (LeakyReLU)    (None, 16, 16, 256)       0         
_________________________________________________________________
conv2d_transpose (Conv2DTran (None, 32, 32, 256)       104883

### Дискриминатор

Принимает на входе изображение-кандидат (реальное или искусственное) и относит его к одному из двух классов: «подделка» или «настоящее, имеющееся в обучающем наборе»

In [4]:
discriminator_input = layers.Input(shape=(height, width, channels))
x = layers.Conv2D(128, 3)(discriminator_input)
x = layers.LeakyReLU()(x)
x = layers.Conv2D(128, 4, strides=2)(x)
x = layers.LeakyReLU()(x)
x = layers.Conv2D(128, 4, strides=2)(x)
x = layers.LeakyReLU()(x)
x = layers.Conv2D(128, 4, strides=2)(x)
x = layers.LeakyReLU()(x)
x = layers.Flatten()(x)

x = layers.Dropout(0.4)(x) #Уровень прореживания: важная хитрость!
x = layers.Dense(1, activation='sigmoid')(x) #Уровень классификации

discriminator = tensorflow.keras.models.Model(discriminator_input, x)
discriminator.summary()

discriminator_optimizer = tensorflow.keras.optimizers.RMSprop(lr=0.0008, clipvalue=1.0, decay=1e-8) # Для стабилизации используется затухание скорости обучения
discriminator.compile(optimizer=discriminator_optimizer, loss='binary_crossentropy')

Model: "model_2"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_3 (InputLayer)         [(None, 32, 32, 3)]       0         
_________________________________________________________________
conv2d_8 (Conv2D)            (None, 30, 30, 128)       3584      
_________________________________________________________________
leaky_re_lu_9 (LeakyReLU)    (None, 30, 30, 128)       0         
_________________________________________________________________
conv2d_9 (Conv2D)            (None, 14, 14, 128)       262272    
_________________________________________________________________
leaky_re_lu_10 (LeakyReLU)   (None, 14, 14, 128)       0         
_________________________________________________________________
conv2d_10 (Conv2D)           (None, 6, 6, 128)         262272    
_________________________________________________________________
leaky_re_lu_11 (LeakyReLU)   (None, 6, 6, 128)         0   

## Состязательная сеть

Перейдем к состязательной сети, объединяющей генератор и дискриминатор. В процессе обучения эта модель будет смещать веса генератора в направлении увеличения способности обмана дискриминатора. Эта модель преобразует точки скрытого пространства в классифицирующее решение — «подделка» или «настоящее» — и предназначена для обучения с метками, которые всегда говорят: «это настоящие изображения». То есть обучение gan будет смещать веса в модели generator так, чтобы увеличить вероятность получить от дискриминатора ответ «настоящее», когда тот будет просматривать поддельное изображение. Важно также отметить, что дискриминатор нужно «заморозить» на время обучения (отключить его обучение): его веса не должны обновляться при обучении gan. В противном случае все сведется к тому, что вы обучите дискриминатор всегда отвечать «настоящее»

In [6]:
discriminator.trainable = False #заморозка дискриминатора

gan_input = tensorflow.keras.Input(shape=(latent_dim,))
gan_output = discriminator(generator(gan_input))

gan = tensorflow.keras.models.Model(gan_input, gan_output)
gan_optimizer = tensorflow.keras.optimizers.RMSprop(lr=0.0004, clipvalue=1.0, decay=1e-8)
gan.compile(optimizer=gan_optimizer, loss='binary_crossentropy')

## Как обучить сеть DCGAN

Теперь можно приступать к обучению. Ниже схематически описывается общий цикл обучения. В каждой эпохе нужно выполнить следующие действия:

1.Извлечь случайные точки из скрытого пространства (случайный шум).

2.Создать изображения с помощью генератора, использовав случайный шум.

3.Смешать сгенерированные изображения с настоящими.

4.Обучить дискриминатор на этом смешанном наборе изображений, добавив соответствующие цели: «настоящее» (для настоящих изображений) или «подделка» (для сгенерированных изображений).

5.Выбрать новые случайные точки из скрытого пространства.

6.Обучить gan, использовав эти случайные векторы, с целями, которые всегда говорят: «это настоящие изображения». Это приведет к смещению весов генератора (и только генератора, потому что внутри gan дискриминатор «замораживается») в направлении, увеличивающем вероятность получить от дискриминатора ответ «настоящее» для сгенерированных изображений: это научит генератор обманывать дискриминатор.

In [None]:
import os
from tensorflow.keras.preprocessing import image

(x_train, y_train), (_, _) = tensorflow.keras.datasets.cifar10.load_data() #Загрузка данных CIFAR10

x_train = x_train[y_train.flatten() == 6]
x_train = x_train.reshape((x_train.shape[0],) + (height, width, channels)).astype('float32') / 255.

iterations = 10000
batch_size = 20
save_dir = 'C:/Users/Vladuk/1_books_ML/1_Tensorflow_Keras/GENER_DEEP_LEARNING/pic' #каталог для сохранения сгенерированных изображений 
start = 0

for step in range(iterations): 
    random_latent_vectors = np.random.normal(size=(batch_size, latent_dim)) #Выбор случайных точек из скрытого пространства
    
    generated_images = generator.predict(random_latent_vectors) #создание поддельного изображения
    
    stop = start + batch_size 
    real_images = x_train[start: stop] 
    combined_images = np.concatenate([generated_images, real_images])  #объединение поддельного изображения с настоящими
    
    labels = np.concatenate([np.ones((batch_size, 1)), np.zeros((batch_size, 1))]) #cборка меток отличающих настоящее изображение от поддельного
    
    labels += 0.05 * np.random.random(labels.shape) #добавление случайного шума в метки
    
    d_loss = discriminator.train_on_batch(combined_images, labels) #обучение дискриминатора
    
    random_latent_vectors = np.random.normal(size=(batch_size, latent_dim)) #выбор случайных точек из скрытого пространства
    
    misleading_targets = np.zeros((batch_size, 1)) #сборка меток которые всегда говорят, что это настоящие изображения
    
    a_loss = gan.train_on_batch(random_latent_vectors, misleading_targets) #обучение генератора через gan
    start += batch_size 
    if start > len(x_train) - batch_size: 
        start = 0 
    if step % 100 == 0: #сохранение изображения через каждые 100 шагов
        gan.save_weights('gan.h5') # сохранение весов модели
        
        print('discriminator loss:', d_loss) #вывод метрик
        print('adversarial loss:', a_loss) 
        
        img = image.array_to_img(generated_images[0] * 255., scale=False)  #сохранение одного сгенерированного изображения
        img.save(os.path.join(save_dir, 'generated_frog' + str(step) + '.png')) 
        img = image.array_to_img(real_images[0] * 255., scale=False) #сохранение настойщего изображения для сравнения
        img.save(os.path.join(save_dir, 'real_frog' + str(step) + '.png'))

Downloading data from https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz
discriminator loss: 0.6877128
adversarial loss: 0.69653255


## Подведение итогов

1) Генеративно-состязательная сеть состоит из двух сетей: генератора и дискриминатора. Дискриминатор обучается отличать изображения, созданные генератором, от настоящих, имеющихся в обучающем наборе, а генератор обучается обманывать дискриминатор. Примечательно, что генератор вообще не видит изображений из обучающего набора; вся информация, которую он имеет, поступает из дискриминатора.

2) Генеративно-состязательные сети сложны в обучении, потому что обучение GAN — это динамический процесс, отличный от обычного процесса градиентного спуска по фиксированному ландшафту потерь. Для правильного обучения GAN приходится использовать ряд эвристических трюков, а также уделять большое внимание настройкам.

3) Генеративно-состязательные сети потенциально способны производить очень реалистичные изображения. Однако в отличие от вариационных автокодировщиков получаемое ими скрытое пространство не имеет четко выраженной непрерывной структуры, и поэтому они могут не подходить для некоторых практических применений, таких как редактирование изображений с использованием концептуальных векторов.