##### Copyright 2018 The TensorFlow Authors.

Licensed under the Apache License, Version 2.0 (the "License").

# Pix2Pix: Пример использования с tf.keras и eager

<table class="tfo-notebook-buttons" align="left"><td>
<a target="_blank"  href="https://colab.research.google.com/github/tensorflow/docs/blob/master/site/en/tutorials/images/_pix2pix.ipynb">
    <img src="https://www.tensorflow.org/images/colab_logo_32px.png" />Запусти в Google Colab</a>  
</td><td>
<a target="_blank"  href="https://github.com/tensorflow/docs/blob/master/site/en/tutorials/images/_pix2pix.ipynb"><img width=32px src="https://www.tensorflow.org/images/GitHub-Mark-32px.png" />Изучай код на GitHub</a></td></table>

В этом интерактивном уроке мы рассмотрим перенос изображений при помощи генеративно-состязательных сетей (GAN), по методу, описанному в работе [Image-to-Image Translation with Conditional Adversarial Networks](https://arxiv.org/abs/1611.07004). С помощью этой техники мы можем окрашивать черно-белые фотографии, конвертировать карты Google в локации на земном шаре Google Earth и многое другое. Сегодня мы научимся переводить эскизы фасадов зданий в настоящие дома. Для решения этой задачи будем использовать API [tf.keras](https://www.tensorflow.org/guide/keras)  и режим [eager execution](https://www.tensorflow.org/guide/keras).

Для этого примера мы воспользуемся [базой данных фасадов зданий CMP](http://cmp.felk.cvut.cz/~tylecr1/facade/), любезно предоставленную [Центром машинного восприятия](http://cmp.felk.cvut.cz/) [Чешского технического университета в Праге](https://www.cvut.cz/). Чтобы урок получился кратким и лаконичным, давай загрузим уже подготовленную [копию](https://people.eecs.berkeley.edu/~tinghuiz/projects/pix2pix/datasets/) этого датасета, созданную авторами этой [научной работы](https://arxiv.org/abs/1611.07004) выше.

Проход по каждой эпохе занимает примерно 58 секунд на одном GPU P100.

Ниже пример сгенерированных изображений после обучения модели в течение 200 эпох.


![sample output_1](https://www.tensorflow.org/images/gan/pix2pix_1.png)
![sample output_2](https://www.tensorflow.org/images/gan/pix2pix_2.png)

## Импортируем TensorFlow и включаем eager execution

In [0]:
# Импортируем TensorFlow >= 1.10 и включаем eager execution
import tensorflow as tf
tf.enable_eager_execution()

import os
import time
import numpy as np
import matplotlib.pyplot as plt
import PIL
from IPython.display import clear_output

## Загружаем датасет

Ты можешь скачать этот и другие похожие датасеты [здесь](https://people.eecs.berkeley.edu/~tinghuiz/projects/pix2pix/datasets). Как упоминается в [работе](https://arxiv.org/abs/1611.07004), мы добавим случайные артефакты и зеркально исказим изображения из тренировочного датасета.
* Для добавления артефактов размер изображений будет изменен на `286 x 286`, а затем случаным образом обрезан до  `256 x 256`
* Для искажения изображений мы также случайным образом перевернем их горизонтально, например слева направо

In [0]:
path_to_zip = tf.keras.utils.get_file('facades.tar.gz',
                                      cache_subdir=os.path.abspath('.'),
                                      origin='https://people.eecs.berkeley.edu/~tinghuiz/projects/pix2pix/datasets/facades.tar.gz', 
                                      extract=True)

PATH = os.path.join(os.path.dirname(path_to_zip), 'facades/')

In [0]:
BUFFER_SIZE = 400
BATCH_SIZE = 1
IMG_WIDTH = 256
IMG_HEIGHT = 256

In [0]:
def load_image(image_file, is_train):
  image = tf.read_file(image_file)
  image = tf.image.decode_jpeg(image)

  w = tf.shape(image)[1]

  w = w // 2
  real_image = image[:, :w, :]
  input_image = image[:, w:, :]

  input_image = tf.cast(input_image, tf.float32)
  real_image = tf.cast(real_image, tf.float32)

  if is_train:
    # Добавляем случаные артефакты на изображения.
    
    # Изменяем размер на 286 x 286 x 3:
    input_image = tf.image.resize_images(input_image, [286, 286], 
                                        align_corners=True, 
                                        method=tf.image.ResizeMethod.NEAREST_NEIGHBOR)
    real_image = tf.image.resize_images(real_image, [286, 286], 
                                        align_corners=True, 
                                        method=tf.image.ResizeMethod.NEAREST_NEIGHBOR)
    
    # Обрезаем случайным образом на 256 x 256 x 3:
    stacked_image = tf.stack([input_image, real_image], axis=0)
    cropped_image = tf.random_crop(stacked_image, size=[2, IMG_HEIGHT, IMG_WIDTH, 3])
    input_image, real_image = cropped_image[0], cropped_image[1]

    if np.random.random() > 0.5:
      # Зеркально искажаем:
      input_image = tf.image.flip_left_right(input_image)
      real_image = tf.image.flip_left_right(real_image)
  else:
    input_image = tf.image.resize_images(input_image, size=[IMG_HEIGHT, IMG_WIDTH], 
                                         align_corners=True, method=tf.image.ResizeMethod.NEAREST_NEIGHBOR)
    real_image = tf.image.resize_images(real_image, size=[IMG_HEIGHT, IMG_WIDTH], 
                                        align_corners=True, method=tf.image.ResizeMethod.NEAREST_NEIGHBOR)
  
  # Нормализуем изображения до [-1, 1]
  input_image = (input_image / 127.5) - 1
  real_image = (real_image / 127.5) - 1

  return input_image, real_image

## Создаем батчи с tf.data, размечаем и перемешиваем данные

In [0]:
train_dataset = tf.data.Dataset.list_files(PATH+'train/*.jpg')
train_dataset = train_dataset.shuffle(BUFFER_SIZE)
train_dataset = train_dataset.map(lambda x: load_image(x, True))
train_dataset = train_dataset.batch(1)

In [0]:
test_dataset = tf.data.Dataset.list_files(PATH+'test/*.jpg')
test_dataset = test_dataset.map(lambda x: load_image(x, False))
test_dataset = test_dataset.batch(1)

## Напишем модели генератора и дискриминатора

* **Генератор** 

  * Архитектурой генератора является модифицированная U-Net
  * Каждый блок в кодировщике представлен как (Conv -> Batchnorm -> Leaky ReLU)
  * Каждый блок в декордировщике представлен (Transposed Conv -> Batchnorm -> Dropout (применен к первым 3 блокам) -> ReLU)
  * Также между обоими кодировщиками есть пропущенные соединения
  
* **Дискриминатор**
    
  * Архитектура дискриминатора представлена как PatchGAN
  * Каждый блок дискриминатора - (Conv -> BatchNorm -> Leaky ReLU)
  * Форма вывода после последнего слоя - (batch_size, 30, 30, 1)
  * Каждый патч вывода 30x30 классифицирует часть входящего изображения размером 70x70 (поэтому она и называется PatchGAN)
  * Дискриминатор получает 2 единицы вводных данных
    * Входящее и целевое изображение, которые должны быть классифицированы как реальные
    * Входящее и сгенерированное изображение (вывод генератора), должны быть классифицированы как ненастоящие
    * Объединяем эти 2 входящих изображения в коде как (`tf.concat([inp, tar], axis=-1)`)

* Форма входящих изображений, проходящих через генератор и дискриминатор описаны в комментариях в коде ниже
    
Узнай больше об архитектуре этой генеративно-состязательной сети (GAN) в [научной работе](https://arxiv.org/abs/1611.07004).

In [0]:
OUTPUT_CHANNELS = 3

In [0]:
class Downsample(tf.keras.Model):
    
  def __init__(self, filters, size, apply_batchnorm=True):
    super(Downsample, self).__init__()
    self.apply_batchnorm = apply_batchnorm
    initializer = tf.random_normal_initializer(0., 0.02)

    self.conv1 = tf.keras.layers.Conv2D(filters, 
                                        (size, size), 
                                        strides=2, 
                                        padding='same',
                                        kernel_initializer=initializer,
                                        use_bias=False)
    if self.apply_batchnorm:
        self.batchnorm = tf.keras.layers.BatchNormalization()
  
  def call(self, x, training):
    x = self.conv1(x)
    if self.apply_batchnorm:
        x = self.batchnorm(x, training=training)
    x = tf.nn.leaky_relu(x)
    return x 


class Upsample(tf.keras.Model):
    
  def __init__(self, filters, size, apply_dropout=False):
    super(Upsample, self).__init__()
    self.apply_dropout = apply_dropout
    initializer = tf.random_normal_initializer(0., 0.02)

    self.up_conv = tf.keras.layers.Conv2DTranspose(filters, 
                                                   (size, size), 
                                                   strides=2, 
                                                   padding='same',
                                                   kernel_initializer=initializer,
                                                   use_bias=False)
    self.batchnorm = tf.keras.layers.BatchNormalization()
    if self.apply_dropout:
        self.dropout = tf.keras.layers.Dropout(0.5)

  def call(self, x1, x2, training):
    x = self.up_conv(x1)
    x = self.batchnorm(x, training=training)
    if self.apply_dropout:
        x = self.dropout(x, training=training)
    x = tf.nn.relu(x)
    x = tf.concat([x, x2], axis=-1)
    return x


class Generator(tf.keras.Model):
    
  def __init__(self):
    super(Generator, self).__init__()
    initializer = tf.random_normal_initializer(0., 0.02)
    
    self.down1 = Downsample(64, 4, apply_batchnorm=False)
    self.down2 = Downsample(128, 4)
    self.down3 = Downsample(256, 4)
    self.down4 = Downsample(512, 4)
    self.down5 = Downsample(512, 4)
    self.down6 = Downsample(512, 4)
    self.down7 = Downsample(512, 4)
    self.down8 = Downsample(512, 4)

    self.up1 = Upsample(512, 4, apply_dropout=True)
    self.up2 = Upsample(512, 4, apply_dropout=True)
    self.up3 = Upsample(512, 4, apply_dropout=True)
    self.up4 = Upsample(512, 4)
    self.up5 = Upsample(256, 4)
    self.up6 = Upsample(128, 4)
    self.up7 = Upsample(64, 4)

    self.last = tf.keras.layers.Conv2DTranspose(OUTPUT_CHANNELS, 
                                                (4, 4), 
                                                strides=2, 
                                                padding='same',
                                                kernel_initializer=initializer)
  
  @tf.contrib.eager.defun
  def call(self, x, training):
    # форма x == (bs, 256, 256, 3)    
    x1 = self.down1(x, training=training) # (bs, 128, 128, 64)
    x2 = self.down2(x1, training=training) # (bs, 64, 64, 128)
    x3 = self.down3(x2, training=training) # (bs, 32, 32, 256)
    x4 = self.down4(x3, training=training) # (bs, 16, 16, 512)
    x5 = self.down5(x4, training=training) # (bs, 8, 8, 512)
    x6 = self.down6(x5, training=training) # (bs, 4, 4, 512)
    x7 = self.down7(x6, training=training) # (bs, 2, 2, 512)
    x8 = self.down8(x7, training=training) # (bs, 1, 1, 512)

    x9 = self.up1(x8, x7, training=training) # (bs, 2, 2, 1024)
    x10 = self.up2(x9, x6, training=training) # (bs, 4, 4, 1024)
    x11 = self.up3(x10, x5, training=training) # (bs, 8, 8, 1024)
    x12 = self.up4(x11, x4, training=training) # (bs, 16, 16, 1024)
    x13 = self.up5(x12, x3, training=training) # (bs, 32, 32, 512)
    x14 = self.up6(x13, x2, training=training) # (bs, 64, 64, 256)
    x15 = self.up7(x14, x1, training=training) # (bs, 128, 128, 128)

    x16 = self.last(x15) # (bs, 256, 256, 3)
    x16 = tf.nn.tanh(x16)

    return x16

In [0]:
class DiscDownsample(tf.keras.Model):
    
  def __init__(self, filters, size, apply_batchnorm=True):
    super(DiscDownsample, self).__init__()
    self.apply_batchnorm = apply_batchnorm
    initializer = tf.random_normal_initializer(0., 0.02)

    self.conv1 = tf.keras.layers.Conv2D(filters, 
                                        (size, size), 
                                        strides=2, 
                                        padding='same',
                                        kernel_initializer=initializer,
                                        use_bias=False)
    if self.apply_batchnorm:
        self.batchnorm = tf.keras.layers.BatchNormalization()
  
  def call(self, x, training):
    x = self.conv1(x)
    if self.apply_batchnorm:
        x = self.batchnorm(x, training=training)
    x = tf.nn.leaky_relu(x)
    return x 

class Discriminator(tf.keras.Model):
    
  def __init__(self):
    super(Discriminator, self).__init__()
    initializer = tf.random_normal_initializer(0., 0.02)
    
    self.down1 = DiscDownsample(64, 4, False)
    self.down2 = DiscDownsample(128, 4)
    self.down3 = DiscDownsample(256, 4)
    
    # Мы используем здесь нулевой Padding, так как нам нужно, чтобы форма
    # изменилась с (batch_size, 32, 32, 256) на (batch_size, 31, 31, 512).
    self.zero_pad1 = tf.keras.layers.ZeroPadding2D()
    self.conv = tf.keras.layers.Conv2D(512, 
                                       (4, 4), 
                                       strides=1, 
                                       kernel_initializer=initializer, 
                                       use_bias=False)
    self.batchnorm1 = tf.keras.layers.BatchNormalization()
    
    # Меняем форму с (batch_size, 31, 31, 512) на (batch_size, 30, 30, 1):
    self.zero_pad2 = tf.keras.layers.ZeroPadding2D()
    self.last = tf.keras.layers.Conv2D(1, 
                                       (4, 4), 
                                       strides=1,
                                       kernel_initializer=initializer)
  
  @tf.contrib.eager.defun
  def call(self, inp, tar, training):
    # Объединяем входящее и целевое изображение:
    x = tf.concat([inp, tar], axis=-1) # (bs, 256, 256, каналов*2)
    x = self.down1(x, training=training) # (bs, 128, 128, 64)
    x = self.down2(x, training=training) # (bs, 64, 64, 128)
    x = self.down3(x, training=training) # (bs, 32, 32, 256)

    x = self.zero_pad1(x) # (bs, 34, 34, 256)
    x = self.conv(x)      # (bs, 31, 31, 512)
    x = self.batchnorm1(x, training=training)
    x = tf.nn.leaky_relu(x)
    
    x = self.zero_pad2(x) # (bs, 33, 33, 512)
    # Здесь мы не используем сигмовидную активацию,
    # поскольку функция потерь принимает только логиты.
    x = self.last(x)      # (bs, 30, 30, 1)

    return x

In [0]:
# Функция вызова генератора и дискриминатора была декорирована при помощи
# tf.contrib.eager.defun(). Это позволит нам получить ускорение производительности,
# если используем defun (~25 секунд на эпоху).
generator = Generator()
discriminator = Discriminator()

## Определяем функции потерь и оптимизатор

* **Потери дискриминатора**
  
  * Функция потерь дискриминатора принимает 2 ввода; **реальные и сгенерированные изображения**
  * real_loss - это потери сигмоидной перекрестной энтропии **реальных изображений** и **массива единиц(поскольку все они реальные изображений)**
  * generated_loss - потери сигмоидной перекрестной энтропии **сгенерированных изображений** и **массива нулей (изображения - ненастоящие)**
  * Наконец, total_loss - это сумма обоих потерь real_loss и generated_loss
  
* **Потери генератора**

  * Определены как потери сигмоидной перекрестной энтропии сгенерированных изображений и **массива единиц**
  * В [работе](https://arxiv.org/abs/1611.07004) также включены потери L1, которые являются MAE (среднее абсолютное отклонение) между сгенерированным и целевым изображением
  * Это позволит сгенерированному изображению стать структурно похожим на целевое
  * Формула для расчета итоговых потерь генератора = gan_loss + LAMBDA * l1_loss, где LAMBDA = 100. Это значение было определено авторами [научной работы](https://arxiv.org/abs/1611.07004)

In [0]:
LAMBDA = 100

In [0]:
def discriminator_loss(disc_real_output, disc_generated_output):
  real_loss = tf.losses.sigmoid_cross_entropy(multi_class_labels = tf.ones_like(disc_real_output), 
                                              logits = disc_real_output)
  generated_loss = tf.losses.sigmoid_cross_entropy(multi_class_labels = tf.zeros_like(disc_generated_output), 
                                                   logits = disc_generated_output)

  total_disc_loss = real_loss + generated_loss

  return total_disc_loss

In [0]:
def generator_loss(disc_generated_output, gen_output, target):
  gan_loss = tf.losses.sigmoid_cross_entropy(multi_class_labels = tf.ones_like(disc_generated_output),
                                             logits = disc_generated_output) 
  # Среднее абсолютное отклонение
  l1_loss = tf.reduce_mean(tf.abs(target - gen_output))

  total_gen_loss = gan_loss + (LAMBDA * l1_loss)

  return total_gen_loss

In [0]:
generator_optimizer = tf.train.AdamOptimizer(2e-4, beta1=0.5)
discriminator_optimizer = tf.train.AdamOptimizer(2e-4, beta1=0.5)

## Контрольные точки (сохранение на основе объектов)

In [0]:
checkpoint_dir = './training_checkpoints'
checkpoint_prefix = os.path.join(checkpoint_dir, "ckpt")
checkpoint = tf.train.Checkpoint(generator_optimizer=generator_optimizer,
                                 discriminator_optimizer=discriminator_optimizer,
                                 generator=generator,
                                 discriminator=discriminator)

## Обучение

* Начинаем обучение с прохода по всем данным датасета
* Генератора получает входящее изображение, получаем сгенерированный вывод
* Дискриминатор получает входящее изображение `input_image` и сгенерированное - как первый свой первый ввод. Вторым вводом являются `input_image` и целевое `target_image`
* Затем рассчитываем потери генератора и дискриминатора
* Далее, рассчитываем градиенты потерь с учетом переменных (вводов) генератора и дискриминатора, и применяем их к оптимизатору
* Вся процедура целиком показана на схеме ниже

![Discriminator Update Image](https://raw.githubusercontent.com/tensorflow/docs/master/site/en/tutorials/images/images/dis.jpg)


---


![Generator Update Image](https://raw.githubusercontent.com/tensorflow/docs/master/site/en/tutorials/images/images/gen.jpg)

## Генерируем изображения

* Обучение окончено, пришло время сгенерировать новые изображения!
* Мы пропустим изображения из проверочного датасета через генератор
* Затем генератор переведет входящее изображений в ожидаемое целевое
* Последний шаг - сделать график получившихся предсканий и  **вуаля!**

In [0]:
EPOCHS = 200

In [0]:
def generate_images(model, test_input, tar):
  # Аргумент `training=True` здесь указан специально, поскольку
  # нам нужна статистика по батчам когда модель проходила по данным из
  # проверочного датасета. Если мы укажем training=False, то мы получим
  # полную статистику, включая метрики из обучения 
  # (которые нам не нужны).
  prediction = model(test_input, training=True)
  plt.figure(figsize=(15,15))

  display_list = [test_input[0], tar[0], prediction[0]]
  title = ['Входящее изображение', 'Эталонное изображение', 'Сгенерированное']

  for i in range(3):
    plt.subplot(1, 3, i+1)
    plt.title(title[i])
    # Получаем значения пикселей между [0, 1] для построения графика.
    plt.imshow(display_list[i] * 0.5 + 0.5)
    plt.axis('off')
  plt.show()

In [0]:
def train(dataset, epochs):  
  for epoch in range(epochs):
    start = time.time()

    for input_image, target in dataset:

      with tf.GradientTape() as gen_tape, tf.GradientTape() as disc_tape:
        gen_output = generator(input_image, training=True)

        disc_real_output = discriminator(input_image, target, training=True)
        disc_generated_output = discriminator(input_image, gen_output, training=True)

        gen_loss = generator_loss(disc_generated_output, gen_output, target)
        disc_loss = discriminator_loss(disc_real_output, disc_generated_output)

      generator_gradients = gen_tape.gradient(gen_loss, 
                                              generator.variables)
      discriminator_gradients = disc_tape.gradient(disc_loss, 
                                                   discriminator.variables)

      generator_optimizer.apply_gradients(zip(generator_gradients, 
                                              generator.variables))
      discriminator_optimizer.apply_gradients(zip(discriminator_gradients, 
                                                  discriminator.variables))

    if epoch % 1 == 0:
        clear_output(wait=True)
        for inp, tar in test_dataset.take(1):
          generate_images(generator, inp, tar)
          
    # Сохраняем модель в контрольную точку каждые 20 эпох.
    if (epoch + 1) % 20 == 0:
      checkpoint.save(file_prefix = checkpoint_prefix)

    print ('Время проходения эпохи {} : {} секунд\n'.format(epoch + 1,
                                                        time.time()-start))

In [0]:
train(train_dataset, EPOCHS)

## Загружаем последнюю контрольную точку для теста

In [0]:
# Загружаем последнюю контрольную точку из папки checkpoint_dir
checkpoint.restore(tf.train.latest_checkpoint(checkpoint_dir))

## Тестируем на проверочном датасете

In [0]:
# Запускаем обученную модель на полном проверочном датасете
for inp, tar in test_dataset:
  generate_images(generator, inp, tar)