# Style Transfer

<img src="https://i0.wp.com/chelseatroy.com/wp-content/uploads/2018/12/neural_style_transfer.png?resize=768%2C311&ssl=1">

La idea de este trabajo final es reproducir el siguiente paper:

https://arxiv.org/pdf/1508.06576.pdf

El objetivo es transferir el estilo de una imagen dada a otra imagen distinta. 

Como hemos visto en clase, las primeras capas de una red convolucional se activan ante la presencia de ciertos patrones vinculados a detalles muy pequeños.

A medida que avanzamos en las distintas capas de una red neuronal convolucional, los filtros se van activando a medida que detectan patrones de formas cada vez mas complejos.

Lo que propone este paper es asignarle a la activación de las primeras capas de una red neuronal convolucional (por ejemplo VGG19) la definición del estilo y a la activación de las últimas capas de la red neuronal convolucional, la definición del contenido.

La idea de este paper es, a partir de dos imágenes (una que aporte el estilo y otra que aporte el contenido) analizar cómo es la activación de las primeras capas para la imagen que aporta el estilo y cómo es la activación de las últimas capas de la red convolucional para la imagen que aporta el contenido. A partir de esto se intentará sintetizar una imagen que active los filtros de las primeras capas que se activaron con la imagen que aporta el estilo y los filtros de las últimas capas que se activaron con la imagen que aporta el contenido.

A este procedimiento se lo denomina neural style transfer.

# En este trabajo se deberá leer el paper mencionado y en base a ello, entender la implementación que se muestra a continuación y contestar preguntas sobre la misma.

# Una metodología posible es hacer una lectura rápida del paper (aunque esto signifique no entender algunos detalles del mismo) y luego ir analizando el código y respondiendo las preguntas. A medida que se planteen las preguntas, volviendo a leer secciones específicas del paper terminará de entender los detalles que pudieran haber quedado pendientes.

Lo primero que haremos es cargar dos imágenes, una que aporte el estilo y otra que aporte el contenido. A tal fin utilizaremos imágenes disponibles en la web.

In [0]:
#Fix para utilizar version legacy de Tensorflow 1.x
%tensorflow_version 1.x

In [25]:
# Imagen para estilo
#!wget https://upload.wikimedia.org/wikipedia/commons/5/52/La_noche_estrellada1.jpg
#!wget https://upload.wikimedia.org/wikipedia/en/1/14/Picasso_The_Weeping_Woman_Tate_identifier_T05010_10.jpg
#!wget https://radiococoa.com/RC/wp-content/uploads/mediterraneo-1024x856.jpg
!wget https://upload.wikimedia.org/wikipedia/commons/thumb/9/94/The_Nightwatch_by_Rembrandt_-_Rijksmuseum.jpg/737px-The_Nightwatch_by_Rembrandt_-_Rijksmuseum.jpg
# Imagen para contenido
#!wget https://upload.wikimedia.org/wikipedia/commons/thumb/f/f4/Neckarfront_T%C3%BCbingen_Mai_2017.jpg/775px-Neckarfront_T%C3%BCbingen_Mai_2017.jpg
#!wget https://learnodo-newtonic.com/wp-content/uploads/2017/12/The-Hay-Wain-1821-John-Constable.jpg
#!wget https://ec.europa.eu/eurostat/documents/4187653/10321591/Peteri_shutterstock_611156066_cp.jpg
#!wget https://www.costacruceros.es/content/dam/costa/inventory-assets/ports/DBV/24-DUBROVNIK_2880x1536.jpg.image.750.563.low.jpg
!wget https://cg1.cgsociety.org/uploads/images/medium/venushin-the-two-towers-night--48bcd651-w1aj.jpg
# Creamos el directorio para los archivos de salida
!mkdir /content/output

--2020-05-06 23:35:38--  https://upload.wikimedia.org/wikipedia/commons/thumb/9/94/The_Nightwatch_by_Rembrandt_-_Rijksmuseum.jpg/737px-The_Nightwatch_by_Rembrandt_-_Rijksmuseum.jpg
Resolving upload.wikimedia.org (upload.wikimedia.org)... 91.198.174.208, 2620:0:862:ed1a::2:b
Connecting to upload.wikimedia.org (upload.wikimedia.org)|91.198.174.208|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 111310 (109K) [image/jpeg]
Saving to: ‘737px-The_Nightwatch_by_Rembrandt_-_Rijksmuseum.jpg.1’


2020-05-06 23:35:38 (8.20 MB/s) - ‘737px-The_Nightwatch_by_Rembrandt_-_Rijksmuseum.jpg.1’ saved [111310/111310]

--2020-05-06 23:35:42--  https://cg1.cgsociety.org/uploads/images/medium/venushin-the-two-towers-night--48bcd651-w1aj.jpg
Resolving cg1.cgsociety.org (cg1.cgsociety.org)... 35.227.221.53
Connecting to cg1.cgsociety.org (cg1.cgsociety.org)|35.227.221.53|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 257839 (252K) [image/jpeg]
Saving to: ‘ven

In [0]:
from keras.preprocessing.image import load_img, save_img, img_to_array
import numpy as np
from scipy.optimize import fmin_l_bfgs_b
import time
import argparse

from keras.applications import vgg19
from keras import backend as K
from pathlib import Path

In [0]:
# Definimos las imagenes que vamos a utilizar, y el directorio de salida

#base_image_path = Path("/content/775px-Neckarfront_Tübingen_Mai_2017.jpg")
#base_image_path = Path("The-Hay-Wain-1821-John-Constable.jpg")
#base_image_path = Path("Peteri_shutterstock_611156066_cp.jpg")
#base_image_path = Path("24-DUBROVNIK_2880x1536.jpg.image.750.563.low.jpg")
base_image_path = Path("venushin-the-two-towers-night--48bcd651-w1aj.jpg")
#style_reference_image_path = Path("/content/La_noche_estrellada1.jpg")
#style_reference_image_path = Path("mediterraneo-1024x856.jpg")
style_reference_image_path = Path("737px-The_Nightwatch_by_Rembrandt_-_Rijksmuseum.jpg")
result_prefix = Path("/content/output")
iterations = 75

# 1) En base a lo visto en el paper ¿Qué significan los parámetros definidos en la siguiente celda?

Respuesta:


In [0]:
#Default values: total_variation 0.1 style 10 content 1
total_variation_weight = 0.5
style_weight = 1000
content_weight = 1

Total variation weight: es un hiperparametro que ajusta el termino de la loss correpondiente a variacion total.  En este caso es un 10% del valor.  
Style weight y Content weight: son hiperparametros que ajustan la contribucion del estilo y contenido.  La relacion es 1/10 es decir 1 x e-1.  En el paper figuran como beta y alfa respectivamente.

In [29]:
# Definimos el tamaño de las imágenes a utilizar
width, height = load_img(base_image_path).size
img_nrows = 400
img_ncols = int(width * img_nrows / height)
print(img_ncols,img_nrows,img_ncols/img_nrows)

680 400 1.7


# 2) Explicar qué hace la siguiente celda. En especial las últimas dos líneas de la función antes del return. ¿Por qué?

Ayuda: https://keras.io/applications/

Respuesta:

In [0]:
def preprocess_image(image_path):
    img = load_img(image_path, target_size=(img_nrows, img_ncols))
    img = img_to_array(img)
    img = np.expand_dims(img, axis=0)
    img = vgg19.preprocess_input(img)
    return img

Las primeras 2 lineas cargan la imagen y la convierten a un vector numpy de 3 dimensiones (height, width, channels).  Los canales están representados por un float32 que usualmente contiene 24 bits de informacion 3 canales x 8 bits.
El expand_dims agrega una dimension al comienzo del array que representa la cantidad de imagenes (similar al batch size) en este caso 1.
Finalmente el preprocess_input hace las modificaciones (normalizacion, etc.) para que la red la acepte.

# 3) Habiendo comprendido lo que hace la celda anterior, explique de manera muy concisa qué hace la siguiente celda. ¿Qué relación tiene con la celda anterior?

Respuesta:

Primero le hace un reshape a 3 dimensiones (filas, columnas, canales).
Luego le suma un valor promedio a cada canal (0 es B, 1 es G y 2 es R)
A continuacion se acomodan la dimension de los canales invirtiendo el orden (queda el rojo primero, luego el verde y el azul al final).
Finalmente el clip acota los valores a un mínimo de 0 y un maximo de 255, casteando el resultado a un unsigned int de 8 bits.

In [0]:
def deprocess_image(x):
    x = x.reshape((img_nrows, img_ncols, 3))
    # Remove zero-center by mean pixel
    x[:, :, 0] += 103.939
    x[:, :, 1] += 116.779
    x[:, :, 2] += 123.68
    # 'BGR'->'RGB'
    x = x[:, :, ::-1]
    x = np.clip(x, 0, 255).astype('uint8')
    return x

In [0]:
# get tensor representations of our images
# K.variable convierte un numpy array en un tensor, para 
base_image = K.variable(preprocess_image(base_image_path))
style_reference_image = K.variable(preprocess_image(style_reference_image_path))

In [0]:
combination_image = K.placeholder((1, img_nrows, img_ncols, 3))

Aclaración:

La siguiente celda sirve para procesar las tres imagenes (contenido, estilo y salida) en un solo batch.

In [0]:
# combine the 3 images into a single Keras tensor
input_tensor = K.concatenate([base_image,
                              style_reference_image,
                              combination_image], axis=0)

In [35]:
# build the VGG19 network with our 3 images as input
# the model will be loaded with pre-trained ImageNet weights
model = vgg19.VGG19(input_tensor=input_tensor,
                    weights='imagenet', include_top=False)
print('Model loaded.')

# get the symbolic outputs of each "key" layer (we gave them unique names).
outputs_dict = dict([(layer.name, layer.output) for layer in model.layers])

Model loaded.


In [36]:
print(outputs_dict['block1_conv1'])
print(outputs_dict['block2_conv1'])
model.summary()

Tensor("block1_conv1_1/Relu:0", shape=(3, 400, 680, 64), dtype=float32)
Tensor("block2_conv1_1/Relu:0", shape=(3, 200, 340, 128), dtype=float32)
Model: "vgg19"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_2 (InputLayer)         (None, None, None, 3)     0         
_________________________________________________________________
block1_conv1 (Conv2D)        (None, None, None, 64)    1792      
_________________________________________________________________
block1_conv2 (Conv2D)        (None, None, None, 64)    36928     
_________________________________________________________________
block1_pool (MaxPooling2D)   (None, None, None, 64)    0         
_________________________________________________________________
block2_conv1 (Conv2D)        (None, None, None, 128)   73856     
_________________________________________________________________
block2_conv2 (Conv2D)        (None, None, None, 

# 4) En la siguientes celdas:

- ¿Qué es la matriz de Gram?¿Para qué se usa?
- ¿Por qué se permutan las dimensiones de x?

La matrix de Gram contiene las correlaciones entre los filtros de una determinada capa. Se calcula como el producto interno de cada una de las matrices del filtro (width x height) por su matriz traspuesta.

Se permutan las dimensiones para que el batch_flatten afecte a width y height y no a los filtros.  De esta manera se obtiene un vector de 2d con los filtros como primera dimensión y (width x height) como segunda dimensión.

In [0]:
def gram_matrix(x):
    features = K.batch_flatten(K.permute_dimensions(x, (2, 0, 1)))
    gram = K.dot(features, K.transpose(features))
    return gram

# 5) Losses:

Explicar qué mide cada una de las losses en las siguientes tres celdas.

Rta:

La style_loss mide, a grandes rasgos, la sumatoria del cuadrado de las diferencias entre la matriz Gram de la imagen generada y matrix Gram de la imagen de estilo de referencia.

La content_loss mide la sumatoria del cuadrado de las diferencias entre los pesos (activaciones) de la imagen generada y la imagen base.

La total variation loss mide la diferencia cuadrada entre pixeles vecinos de la imagen generada (a se desplaza por filas y b por columnas).  Es una forma de medir el ruido en la imagen generada.

In [0]:
def style_loss(style, combination):
    assert K.ndim(style) == 3
    assert K.ndim(combination) == 3
    S = gram_matrix(style)
    C = gram_matrix(combination)
    channels = 3
    size = img_nrows * img_ncols
    return K.sum(K.square(S - C)) / (4.0 * (channels ** 2) * (size ** 2))

In [0]:
def content_loss(base, combination):
    return K.sum(K.square(combination - base))


In [0]:
def total_variation_loss(x):
    assert K.ndim(x) == 4
    a = K.square(
        x[:, :img_nrows - 1, :img_ncols - 1, :] - x[:, 1:, :img_ncols - 1, :])
    b = K.square(
        x[:, :img_nrows - 1, :img_ncols - 1, :] - x[:, :img_nrows - 1, 1:, :])
    return K.sum(K.pow(a + b, 1.25))


In [0]:
# Armamos la loss total
loss = K.variable(0.0)
layer_features = outputs_dict['block5_conv2']
base_image_features = layer_features[0, :, :, :]
combination_features = layer_features[2, :, :, :]
loss = loss + content_weight * content_loss(base_image_features,
                                            combination_features)

feature_layers = ['block1_conv1', 'block2_conv1',
                  'block3_conv1', 'block4_conv1',
                  'block5_conv1']
for layer_name in feature_layers:
    layer_features = outputs_dict[layer_name]
    style_reference_features = layer_features[1, :, :, :] 
    combination_features = layer_features[2, :, :, :]
    sl = style_loss(style_reference_features, combination_features)
    loss = loss + (style_weight / len(feature_layers)) * sl
loss = loss + total_variation_weight * total_variation_loss(combination_image)

In [0]:
grads = K.gradients(loss, combination_image)

outputs = [loss]
if isinstance(grads, (list, tuple)):
    outputs += grads
else:
    outputs.append(grads)

f_outputs = K.function([combination_image], outputs)

# 6) Explique el propósito de las siguientes tres celdas. ¿Qué hace la función fmin_l_bfgs_b? ¿En qué se diferencia con la implementación del paper? ¿Se puede utilizar alguna alternativa?

Respuesta:

En las primeras 2 se define una clase Evaluator que contendrá por cada iteración el valor total de la loss y el gradiente de la función de loss.

En la última celda se itera utilizando la función fmin_l_bfgs_b (que es un optimizador de funciones) para minimizar la función de loss.  Esta función toma como parametros la función objetivo y el gradiente de dicha función.

Con los valores obtenidos se arma la imagen combinada y se guarda a archivo.

Se podría utilizar otro algoritmo de optimización para obtener el mínimo de la función de loss, por ejemplo, gradient descent.

En el paper original no se implementa una total variation loss y no se habla de que algoritmo se utiliza para minimizar la loss, aunque, si sugiere el uso de standard back propagation.  Esto puede sugerir utilizar gradient descent.

In [0]:
def eval_loss_and_grads(x):
    x = x.reshape((1, img_nrows, img_ncols, 3))
    outs = f_outputs([x])
    loss_value = outs[0]
    if len(outs[1:]) == 1:
        grad_values = outs[1].flatten().astype('float64')
    else:
        grad_values = np.array(outs[1:]).flatten().astype('float64')
    return loss_value, grad_values

# this Evaluator class makes it possible
# to compute loss and gradients in one pass
# while retrieving them via two separate functions,
# "loss" and "grads". This is done because scipy.optimize
# requires separate functions for loss and gradients,
# but computing them separately would be inefficient.

In [0]:
class Evaluator(object):

    def __init__(self):
        self.loss_value = None
        self.grads_values = None

    def loss(self, x):
        assert self.loss_value is None
        loss_value, grad_values = eval_loss_and_grads(x)
        self.loss_value = loss_value
        self.grad_values = grad_values
        return self.loss_value

    def grads(self, x):
        assert self.loss_value is not None
        grad_values = np.copy(self.grad_values)
        self.loss_value = None
        self.grad_values = None
        return grad_values

# 7) Ejecute la siguiente celda y observe las imágenes de salida en cada iteración.

In [45]:
evaluator = Evaluator()

# run scipy-based optimization (L-BFGS) over the pixels of the generated image
# so as to minimize the neural style loss
x = preprocess_image(base_image_path)

for i in range(iterations):
    print('Start of iteration', i)
    start_time = time.time()
    x, min_val, info = fmin_l_bfgs_b(evaluator.loss, x.flatten(),
                                     fprime=evaluator.grads, maxfun=20)
    print('Current loss value:', min_val)
    # save current generated image
    img = deprocess_image(x.copy())
    fname = result_prefix / ('output_at_iteration_%d.png' % i)
    save_img(fname, img)
    end_time = time.time()
    print('Image saved as', fname)
    print('Iteration %d completed in %ds' % (i, end_time - start_time))

Start of iteration 0
Current loss value: 2161642000000.0
Image saved as /content/output/output_at_iteration_0.png
Iteration 0 completed in 9s
Start of iteration 1
Current loss value: 712488850000.0
Image saved as /content/output/output_at_iteration_1.png
Iteration 1 completed in 9s
Start of iteration 2
Current loss value: 459866930000.0
Image saved as /content/output/output_at_iteration_2.png
Iteration 2 completed in 9s
Start of iteration 3
Current loss value: 345108700000.0
Image saved as /content/output/output_at_iteration_3.png
Iteration 3 completed in 9s
Start of iteration 4
Current loss value: 288215860000.0
Image saved as /content/output/output_at_iteration_4.png
Iteration 4 completed in 9s
Start of iteration 5
Current loss value: 251061290000.0
Image saved as /content/output/output_at_iteration_5.png
Iteration 5 completed in 9s
Start of iteration 6
Current loss value: 215377100000.0
Image saved as /content/output/output_at_iteration_6.png
Iteration 6 completed in 9s
Start of ite

# 8) Generar imágenes para distintas combinaciones de pesos de las losses. Explicar las diferencias. (Adjuntar las imágenes generadas como archivos separados.)

Respuesta:
Se generaron los siguientes sets de imagenes
<li>total variation 0.1 - style 1000 - content 1: Se aprecia muy definido el 
estilo en especial en el arbol de la izquierda y el cielo que parece  reemplazar a la imagen de contenido con la imagen de estilo.
<li>tv 0.1 - style 10 - content 100: Se obtiene una imagen balanceada, se ven trazos del estilo pero sin afectar demasiado a las casas de la derecha que no están muy representadas en la imagen de estilo.
<li>tv 0.8 - style 1000 - content 1: Produce una imagen similar a la primera pero puede apreciarse que hay un efecto de suavizado de los bordes.
<li>tv 0.1 - style 100 - content 1: Se obtiene una imagen balanceada entre estilo y contenido aunque hay ciertos objetos que ya no se aprecian demasiado (personas sentadas al borde del muelle).

# 9) Cambiar las imágenes de contenido y estilo por unas elegidas por usted. Adjuntar el resultado.

Respuesta: