# Style Transfer

<img src="https://i0.wp.com/chelseatroy.com/wp-content/uploads/2018/12/neural_style_transfer.png?resize=768%2C311&ssl=1">

La idea de este trabajo final es reproducir el siguiente paper:

https://arxiv.org/pdf/1508.06576.pdf

El objetivo es transferir el estilo de una imagen dada a otra imagen distinta. 

Como hemos visto en clase, las primeras capas de una red convolucional se activan ante la presencia de ciertos patrones vinculados a detalles muy pequeños.

A medida que avanzamos en las distintas capas de una red neuronal convolucional, los filtros se van activando a medida que detectan patrones de formas cada vez mas complejos.

Lo que propone este paper es asignarle a la activación de las primeras capas de una red neuronal convolucional (por ejemplo VGG19) la definición del estilo y a la activación de las últimas capas de la red neuronal convolucional, la definición del contenido.

La idea de este paper es, a partir de dos imágenes (una que aporte el estilo y otra que aporte el contenido) analizar cómo es la activación de las primeras capas para la imagen que aporta el estilo y cómo es la activación de las últimas capas de la red convolucional para la imagen que aporta el contenido. A partir de esto se intentará sintetizar una imagen que active los filtros de las primeras capas que se activaron con la imagen que aporta el estilo y los filtros de las últimas capas que se activaron con la imagen que aporta el contenido.

A este procedimiento se lo denomina neural style transfer.

# En este trabajo se deberá leer el paper mencionado y en base a ello, entender la implementación que se muestra a continuación y contestar preguntas sobre la misma.

# Una metodología posible es hacer una lectura rápida del paper (aunque esto signifique no entender algunos detalles del mismo) y luego ir analizando el código y respondiendo las preguntas. A medida que se planteen las preguntas, volviendo a leer secciones específicas del paper terminará de entender los detalles que pudieran haber quedado pendientes.

Lo primero que haremos es cargar dos imágenes, una que aporte el estilo y otra que aporte el contenido. A tal fin utilizaremos imágenes disponibles en la web.

In [6]:
# Imagen para estilo
# !wget https://upload.wikimedia.org/wikipedia/commons/5/52/La_noche_estrellada1.jpg

# Imagen para contenido
# !wget https://upload.wikimedia.org/wikipedia/commons/thumb/f/f4/Neckarfront_Tübingen_Mai_2017.jpg/775px-Neckarfront_T%C3%BCbingen_Mai_2017.jpg

# Creamos el directorio para los archivos de salida
# !mkdir \content\output



In [7]:
from keras.preprocessing.image import load_img, save_img, img_to_array
import numpy as np
from scipy.optimize import fmin_l_bfgs_b
import time
import argparse


from keras.applications import vgg19
from keras import backend as K
from pathlib import Path
# tensorflow.compat.v1.disable_eager_execution()

import tensorflow as tf
tf.compat.v1.disable_eager_execution()

In [8]:
# Definimos las imagenes que vamos a utilizar, y el directorio de salida

base_image_path = Path("C:\\Users\\dlagreca\\content\\775px-Neckarfront_Tübingen_Mai_2017.jpg")
style_reference_image_path = Path("C:\\Users\\dlagreca\\content\\La_noche_estrellada1.jpg")
result_prefix = Path("C:\\Users\\dlagreca\\content\\output")
iterations = 100


# 1) En base a lo visto en el paper ¿Qué significan los parámetros definidos en la siguiente celda?

Respuesta: Son los diferentes pesos de las funciones de costo. Es la relación entre asignar mas importancia al style o al content (content_weight=Alpha, style_weight=Beta y Total_Variation_weight= alpha/beta)


In [9]:
total_variation_weight = 0.018
style_weight = 10
content_weight = 0.025

In [10]:
# Definimos el tamaño de las imágenes a utilizar
width, height = load_img(base_image_path).size
img_nrows = 400
img_ncols = int(width * img_nrows / height)

# 2) Explicar qué hace la siguiente celda. En especial las últimas dos líneas de la función antes del return. ¿Por qué?

Ayuda: https://keras.io/applications/

Respuesta: La celda abre la imagen y la transforma en un tensor. np.expand inserta un eje. vgg19.preprocess_input prepara el tensor como lo necesita VGG19 "will convert the input images from RGB to BGR, then will zero-center each color channel with respect to the ImageNet dataset, without scaling"

In [11]:
def preprocess_image(image_path):
    img = load_img(image_path, target_size=(img_nrows, img_ncols))
    img = img_to_array(img)
    img = np.expand_dims(img, axis=0)
    img = vgg19.preprocess_input(img)
    return img

# 3) Habiendo comprendido lo que hace la celda anterior, explique de manera muy concisa qué hace la siguiente celda. ¿Qué relación tiene con la celda anterior?

Respuesta: convierte un tensor en una imagen.

"Zero-centeringby removingthemean pixel value from ImageNet. This reverses a transformation doneby vgg19.preprocess_input." (Deep Learning with Python)

In [12]:
def deprocess_image(x):
    x = x.reshape((img_nrows, img_ncols, 3))
    # Remove zero-center by mean pixel
    x[:, :, 0] += 103.939
    x[:, :, 1] += 116.779
    x[:, :, 2] += 123.68
    # 'BGR'->'RGB'
    x = x[:, :, ::-1]
    x = np.clip(x, 0, 255).astype('uint8')
    return x

In [13]:
# get tensor representations of our images
# K.variable convierte un numpy array en un tensor, para 
base_image = K.variable(preprocess_image(base_image_path))
style_reference_image = K.variable(preprocess_image(style_reference_image_path))

In [14]:
combination_image = K.placeholder((1, img_nrows, img_ncols, 3))

Aclaración:

La siguiente celda sirve para procesar las tres imagenes (contenido, estilo y salida) en un solo batch.

In [15]:
# combine the 3 images into a single Keras tensor
input_tensor = K.concatenate([base_image,
                              style_reference_image,
                              combination_image], axis=0)

In [16]:
# build the VGG19 network with our 3 images as input
# the model will be loaded with pre-trained ImageNet weights
model = vgg19.VGG19(input_tensor=input_tensor,
                    weights='imagenet', include_top=False)
print('Model loaded.')

# get the symbolic outputs of each "key" layer (we gave them unique names).
outputs_dict = dict([(layer.name, layer.output) for layer in model.layers])

Model loaded.


# 4) En la siguientes celdas:

- ¿Qué es la matriz de Gram?¿Para qué se usa? 

En álgebra lineal, la matriz de Gram de un conjunto de vectores v_1,\dots, v_n en un espacio prehilbertiano, es la matriz que define el producto escalar, cuyas entradas vienen dadas por Gij
Se usa para construir la representación del estilo (Artwork). " at computes the correlations between the different filter responses, where the expectation is
taken over the spatial extend of the input image". 

"This inner product can be understood as representing a map of the correlations between the layer’s features. These feature correlations capture the statistics of the patterns of a particular spatial scale, which empirically correspond to the appearance of the textures found at this scale" (Deep Learning with Python)

![image.png](attachment:fd26c9e5-3b38-41b3-835b-0327420777cc.png)
- ¿Por qué se permutan las dimensiones de x?
Para poder obtener el producto punto

In [17]:
def gram_matrix(x):
    features = K.batch_flatten(K.permute_dimensions(x, (2, 0, 1)))
    gram = K.dot(features, K.transpose(features))
    return gram

# 5) Losses:

Explicar qué mide cada una de las losses en las siguientes tres celdas.

Rta:
Style_loss:

es el MSE entre la gram matrix de la imagen original y la imagen generada. mantiene el estilo de la imagen original. el producto interno de la matriz de Gram se entiende como la representación de las correlaciones de los diferentes layers.

Content_loss: 

la loss del contenido es la suma de cuadrados entre la base y la imagen de destino. 

"A good candidate for content loss is thus the L2 norm between the activations of an upper layer in a pretrained convnet, computed over the target image, and the activations of the same layer computed over the generated image. This guarantees that, as seen from the upper layer, the generated image will look similar to the original target image." (Deep Learning with Python)

Total_Variation_loss:

Minimiza localmente la variación comparando efectivamente píxeles uno al lado del otro y minimizando la variación. Esto mantiene la imagen resultante algo borrosa, pero evita grandes saltos en los píxeles y mantiene la imagen localmente coherente.

"To these two loss components, you add a third: the total variation loss, which operates on the pixels of the generated combination image. It encourages spatial continuity in
the generated image, thus avoiding overly pixelated results. You can interpret it as a regularization loss." (Deep Learning with Python)



In [18]:
def style_loss(style, combination):
    assert K.ndim(style) == 3
    assert K.ndim(combination) == 3
    S = gram_matrix(style)
    C = gram_matrix(combination)
    channels = 3
    size = img_nrows * img_ncols
    return K.sum(K.square(S - C)) / (4.0 * (channels ** 2) * (size ** 2))

In [19]:
def content_loss(base, combination):
    return K.sum(K.square(combination - base))


In [20]:
def total_variation_loss(x):
    assert K.ndim(x) == 4
    a = K.square(
        x[:, :img_nrows - 1, :img_ncols - 1, :] - x[:, 1:, :img_ncols - 1, :])
    b = K.square(
        x[:, :img_nrows - 1, :img_ncols - 1, :] - x[:, :img_nrows - 1, 1:, :])
    return K.sum(K.pow(a + b, 1.25))


In [21]:
# Armamos la loss total
loss = K.variable(0.0)
layer_features = outputs_dict['block5_conv2']
base_image_features = layer_features[0, :, :, :]
combination_features = layer_features[2, :, :, :]
loss = loss + content_weight * content_loss(base_image_features,
                                            combination_features)

feature_layers = ['block1_conv1', 'block2_conv1',
                  'block3_conv1', 'block4_conv1',
                  'block5_conv1']
for layer_name in feature_layers:
    layer_features = outputs_dict[layer_name]
    style_reference_features = layer_features[1, :, :, :] 
    combination_features = layer_features[2, :, :, :]
    sl = style_loss(style_reference_features, combination_features)
    loss = loss + (style_weight / len(feature_layers)) * sl
loss = loss + total_variation_weight * total_variation_loss(combination_image)

In [22]:
grads = K.gradients(loss, combination_image)

outputs = [loss]
if isinstance(grads, (list, tuple)):
    outputs += grads
else:
    outputs.append(grads)

f_outputs = K.function([combination_image], outputs)

# 6) Explique el propósito de las siguientes tres celdas. ¿Qué hace la función fmin_l_bfgs_b? ¿En qué se diferencia con la implementación del paper? ¿Se puede utilizar alguna alternativa?

Respuesta: Scipy.optimize requiere dos funciones separadas de loss y grad, por lo que en lugar de calcularlas dos veces, almacenamos en caché los valores en un objeto Evaluator. Usamos el mismo objeto para almacenar el valor de dónde estamos entre las dos imágenes de estilo.

"It would be inefficient to compute the value of the loss function and the value of the gradients independently, because doing so would lead to a lot of redundant computation between the two; the process would be almost twice as slow as computing them jointly. To bypass this, you’ll set up a Python class named Evaluator that computes
both the loss value and the gradients value at once, returns the loss value when called the first time, and caches the gradients for the next call." (Deep Learning with Python)

usamos el algoritmo L-BFGS para el descenso por gradiente.

"Finally, you’ll set up the gradient-descent process. In the original Gatys et al. paper,
optimization is performed using the L-BFGS algorithm" (Deep Learning with Python)


In [23]:
def eval_loss_and_grads(x):
    x = x.reshape((1, img_nrows, img_ncols, 3))
    outs = f_outputs([x])
    loss_value = outs[0]
    if len(outs[1:]) == 1:
        grad_values = outs[1].flatten().astype('float64')
    else:
        grad_values = np.array(outs[1:]).flatten().astype('float64')
    return loss_value, grad_values

# this Evaluator class makes it possible
# to compute loss and gradients in one pass
# while retrieving them via two separate functions,
# "loss" and "grads". This is done because scipy.optimize
# requires separate functions for loss and gradients,
# but computing them separately would be inefficient.

In [24]:
class Evaluator(object):

    def __init__(self):
        self.loss_value = None
        self.grads_values = None

    def loss(self, x):
        assert self.loss_value is None
        loss_value, grad_values = eval_loss_and_grads(x)
        self.loss_value = loss_value
        self.grad_values = grad_values
        return self.loss_value

    def grads(self, x):
        assert self.loss_value is not None
        grad_values = np.copy(self.grad_values)
        self.loss_value = None
        self.grad_values = None
        return grad_values

# 7) Ejecute la siguiente celda y observe las imágenes de salida en cada iteración.

In [None]:
evaluator = Evaluator()

# run scipy-based optimization (L-BFGS) over the pixels of the generated image
# so as to minimize the neural style loss
x = preprocess_image(base_image_path)

for i in range(iterations):
    print('Start of iteration', i)
    start_time = time.time()
    x, min_val, info = fmin_l_bfgs_b(evaluator.loss, x.flatten(),
                                     fprime=evaluator.grads, maxfun=20)
    print('Current loss value:', min_val)
    # save current generated image
    img = deprocess_image(x.copy())
    fname = result_prefix / ('output_at_iteration_%d.png' % i)
    save_img(fname, img)
    end_time = time.time()
    print('Image saved as', fname)
    print('Iteration %d completed in %ds' % (i, end_time - start_time))

# 8) Generar imágenes para distintas combinaciones de pesos de las losses. Explicar las diferencias. (Adjuntar las imágenes generadas como archivos separados.)

Respuesta:

En el adjunto están las carpetas con cada corrida. En cada corrida se utilizaron los siguientes pesos para las losses

V1:
total_variation_weight = 0.1
style_weight = 10
content_weight = 1

V2:
total_variation_weight = 0.01
style_weight = 1
content_weight = 10

V3:
total_variation_weight = 0.00001
style_weight = 1
content_weight = 100

V4:
total_variation_weight = 0.5
style_weight = 10
content_weight = 1

V5:
total_variation_weight = 0.1
style_weight = 10
content_weight = 1

V6:
total_variation_weight = 0.002
style_weight = 0.002
content_weight = 1

V7:
total_variation_weight = 0.002
style_weight = 0.002
content_weight = 10

V8:
total_variation_weight = 0.002
style_weight = 0.002
content_weight = 1

V9:
total_variation_weight = 0.002
style_weight = 0.002
content_weight = 0.00006

V10:
total_variation_weight = 0.002
style_weight = 0.00000002
content_weight = 0.6

V11:
total_variation_weight = 0.002
style_weight = 0.00000002
content_weight = 0.6

V12:
total_variation_weight = 10
style_weight = 0.00000002
content_weight = 0.6

V13:
total_variation_weight = 0.002
style_weight = 0.002
content_weight = 0.6

V14:
total_variation_weight = 10
style_weight = 100
content_weight = 10

V15:
total_variation_weight = 10
style_weight = 100
content_weight = 10

V16:
total_variation_weight = 0.018
style_weight = 10
content_weight = 0.025

# 9) Cambiar las imágenes de contenido y estilo por unas elegidas por usted. Adjuntar el resultado.

Respuesta:

Las dos primeras carpetas son con las imágenes iniciales, las demás son con otras imágenes
