# Style Transfer

<img src="https://i0.wp.com/chelseatroy.com/wp-content/uploads/2018/12/neural_style_transfer.png?resize=768%2C311&ssl=1">

La idea de este trabajo final es reproducir el siguiente paper:

https://arxiv.org/pdf/1508.06576.pdf

El objetivo es transferir el estilo de una imagen dada a otra imagen distinta. 

Como hemos visto en clase, las primeras capas de una red convolucional se activan ante la presencia de ciertos patrones vinculados a detalles muy pequeños.

A medida que avanzamos en las distintas capas de una red neuronal convolucional, los filtros se van activando a medida que detectan patrones de formas cada vez mas complejos.

Lo que propone este paper es asignarle a la activación de las primeras capas de una red neuronal convolucional (por ejemplo VGG19) la definición del estilo y a la activación de las últimas capas de la red neuronal convolucional, la definición del contenido.

La idea de este paper es, a partir de dos imágenes (una que aporte el estilo y otra que aporte el contenido) analizar cómo es la activación de las primeras capas para la imagen que aporta el estilo y cómo es la activación de las últimas capas de la red convolucional para la imagen que aporta el contenido. A partir de esto se intentará sintetizar una imagen que active los filtros de las primeras capas que se activaron con la imagen que aporta el estilo y los filtros de las últimas capas que se activaron con la imagen que aporta el contenido.

A este procedimiento se lo denomina neural style transfer.

# En este trabajo se deberá leer el paper mencionado y en base a ello, entender la implementación que se muestra a continuación y contestar preguntas sobre la misma.

# Una metodología posible es hacer una lectura rápida del paper (aunque esto signifique no entender algunos detalles del mismo) y luego ir analizando el código y respondiendo las preguntas. A medida que se planteen las preguntas, volviendo a leer secciones específicas del paper terminará de entender los detalles que pudieran haber quedado pendientes.

Lo primero que haremos es cargar dos imágenes, una que aporte el estilo y otra que aporte el contenido. A tal fin utilizaremos imágenes disponibles en la web.

In [85]:
%cd /content/
# Imagen para estilo
!wget https://upload.wikimedia.org/wikipedia/commons/5/52/La_noche_estrellada1.jpg
!wget https://www.artmajeur.com/medias/standard/k/u/kujundzic/artwork/14969045_apstrakcija-jpg.jpg

# Imagen para contenido
!wget https://upload.wikimedia.org/wikipedia/commons/thumb/f/f4/Neckarfront_T%C3%BCbingen_Mai_2017.jpg/775px-Neckarfront_T%C3%BCbingen_Mai_2017.jpg
!wget https://static.scientificamerican.com/sciam/cache/file/7A715AD8-449D-4B5A-ABA2C5D92D9B5A21_source.png

# Creamos el directorio para los archivos de salida
# !mkdir /content/output

/content
--2023-02-26 21:48:11--  https://upload.wikimedia.org/wikipedia/commons/5/52/La_noche_estrellada1.jpg
Resolving upload.wikimedia.org (upload.wikimedia.org)... 103.102.166.240, 2001:df2:e500:ed1a::2:b
Connecting to upload.wikimedia.org (upload.wikimedia.org)|103.102.166.240|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 223725 (218K) [image/jpeg]
Saving to: ‘La_noche_estrellada1.jpg.1’


2023-02-26 21:48:11 (30.3 MB/s) - ‘La_noche_estrellada1.jpg.1’ saved [223725/223725]

--2023-02-26 21:48:11--  https://www.artmajeur.com/medias/standard/k/u/kujundzic/artwork/14969045_apstrakcija-jpg.jpg
Resolving www.artmajeur.com (www.artmajeur.com)... 87.98.172.92
Connecting to www.artmajeur.com (www.artmajeur.com)|87.98.172.92|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 531975 (520K) [image/jpeg]
Saving to: ‘14969045_apstrakcija-jpg.jpg’


2023-02-26 21:48:14 (510 KB/s) - ‘14969045_apstrakcija-jpg.jpg’ saved [531975/531975]

--2023-02

In [86]:
import tensorflow as tf
tf.compat.v1.disable_eager_execution()
from tensorflow.keras.preprocessing.image import load_img, save_img, img_to_array
import numpy as np
from scipy.optimize import fmin_l_bfgs_b
import time
import argparse

from tensorflow.keras.applications import vgg19
from tensorflow.keras import backend as K
from pathlib import Path

In [87]:
# Definimos las imagenes que vamos a utilizar, y el directorio de salida

# base_image_path = Path("/content/775px-Neckarfront_Tübingen_Mai_2017.jpg")
base_image_path = Path("/content/7A715AD8-449D-4B5A-ABA2C5D92D9B5A21_source.png")
# style_reference_image_path = Path("/content/La_noche_estrellada1.jpg")
style_reference_image_path = Path("/content/14969045_apstrakcija-jpg.jpg")
from google.colab import drive
drive.mount('/content/drive')
%cd /content/drive/MyDrive/'Colab Notebooks'/itba/CNN/TP_Final
result_prefix = Path("./tests/")
iterations = 100

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
/content/drive/MyDrive/Colab Notebooks/itba/CNN/TP_Final


# 1) En base a lo visto en el paper ¿Qué significan los parámetros definidos en la siguiente celda?

Respuesta:

**total_variation_weight**: Es un parámetro de regularización que sirve para reforzar el filtro de ruido que se aplica a la imagen.

**style_weight**: Este parámetro puede identificarse como el beta de la función de costo que va a determinar cuánta injerencia va a tener el estilo de la imagen utilizada para extraer el estilo sobre la imagen generada.

**content_weight**: Este parámetro puede identificarse como el alpha de la función de costo que va a determinar cuánta injerencia va a tener el contenido de la imagen original sobre la imagen generada.

In [88]:
total_variation_weight = 1
style_weight = 10
content_weight = 1

In [89]:
# Definimos el tamaño de las imágenes a utilizar
width, height = load_img(base_image_path).size
img_nrows = 400
img_ncols = int(width * img_nrows / height)

# 2) Explicar qué hace la siguiente celda. En especial las últimas dos líneas de la función antes del return. ¿Por qué?

Ayuda: https://keras.io/applications/

Respuesta:

La siguiente celda primero toma el path de la imagen que queremos preprocesar, luego convierte la imagen a un array del formato PIL, luego del array generado hace una expansión de las dimensiones para llevarlo a un formato que el vgg19.preprocess_input pueda aceptar. Finalmente como dice la documentación la función vgg19.preprocess_input  convertirá la imagen de entrada de RGB a BGR, y luego centrara en 0 cada color del canal con respecto al dataset de ImagNet, sin ecalarla. Esto es debido a que para entrar al modelo la imagen tiene que cumplir con ciertos requisitos.

In [90]:
def preprocess_image(image_path):
    img = load_img(image_path, target_size=(img_nrows, img_ncols))
    img = img_to_array(img)
    img = np.expand_dims(img, axis=0)
    img = vgg19.preprocess_input(img)
    return img

# 3) Habiendo comprendido lo que hace la celda anterior, explique de manera muy concisa qué hace la siguiente celda. ¿Qué relación tiene con la celda anterior?

Respuesta:

La siguiente celda realiza la operación inversa a las transformaciones aplicadas en la función anterior, pero en vez de aplicar funciones, lo realiza de forma manual. Primero realiza un reshape sobre la imagen x, convirtiendo dicha imagen a un formato (img_nrows, img_ncols, 3), luego vuelve a establecer el offset aplicado con respecto al cero según la media de cada pixel, y finalmente convierte a x de un formato BGR a uno RGB.

In [91]:
def deprocess_image(x):
    x = x.reshape((img_nrows, img_ncols, 3))
    # Remove zero-center by mean pixel
    x[:, :, 0] += 103.939
    x[:, :, 1] += 116.779
    x[:, :, 2] += 123.68
    # 'BGR'->'RGB'
    x = x[:, :, ::-1]
    x = np.clip(x, 0, 255).astype('uint8')
    return x

In [92]:
# get tensor representations of our images
# K.variable convierte un numpy array en un tensor, para 
base_image = K.variable(preprocess_image(base_image_path))
style_reference_image = K.variable(preprocess_image(style_reference_image_path))

In [93]:
combination_image = K.placeholder((1, img_nrows, img_ncols, 3))

Aclaración:

La siguiente celda sirve para procesar las tres imagenes (contenido, estilo y salida) en un solo batch.

In [94]:
# combine the 3 images into a single Keras tensor
input_tensor = K.concatenate([base_image,
                              style_reference_image,
                              combination_image], axis=0)

In [95]:
# build the VGG19 network with our 3 images as input
# the model will be loaded with pre-trained ImageNet weights
model = vgg19.VGG19(input_tensor=input_tensor,
                    weights='imagenet', include_top=False)
print('Model loaded.')

# get the symbolic outputs of each "key" layer (we gave them unique names).
outputs_dict = dict([(layer.name, layer.output) for layer in model.layers])

Model loaded.


# 4) En la siguientes celdas:

- ¿Qué es la matriz de Gram?¿Para qué se usa?

La matriz de Gram es el producto interno entre el mapa de features vectorizado con su transpuesto para cada una de las layers. Y se utiliza para poder realizar la correlación entre cada uno de los filtros de cada layer. Posteriormente esta información se utiliza para extraer la textura o estilo de la imagen de referencia, mediante la minimización del MSE de la matriz de Gram de la imagen generada y la matriz de Gram de la imagen de referencia.

- ¿Por qué se permutan las dimensiones de x?

Las dimensiones de x se deben permutar para poder hacer la vectorización de los mapas de características en el orden adecuado.

In [96]:
def gram_matrix(x):
    features = K.batch_flatten(K.permute_dimensions(x, (2, 0, 1)))
    gram = K.dot(features, K.transpose(features))
    return gram

# 5) Losses:

Explicar qué mide cada una de las losses en las siguientes tres celdas.

Respuesta:

**style_loss:** La style_loss mide la mean squared distance entre las gramm matrix de la imagen de referencia y la imagen generada. Se utiliza para ir igualando los filtros que definen la textura de la imagen generada con la imagen de referencia.

**content_loss:** La content_loss se utiliza para ir replicando el contenido de la imagen original en la imagen generada. Y se va midiendo mediante la suma del error cuadrático.

**total_variation_loss:** La total variation loss funciona como un filtro de ruido de la imagen. Se utiliza sobre todo en procesamiento de imágenes y se controla mediante un parámetro de regularización.


In [97]:
def style_loss(style, combination):
    assert K.ndim(style) == 3
    assert K.ndim(combination) == 3
    S = gram_matrix(style)
    C = gram_matrix(combination)
    channels = 3
    size = img_nrows * img_ncols
    return K.sum(K.square(S - C)) / (4.0 * (channels ** 2) * (size ** 2))

In [98]:
def content_loss(base, combination):
    return K.sum(K.square(combination - base))


In [99]:
def total_variation_loss(x):
    assert K.ndim(x) == 4
    a = K.square(
        x[:, :img_nrows - 1, :img_ncols - 1, :] - x[:, 1:, :img_ncols - 1, :])
    b = K.square(
        x[:, :img_nrows - 1, :img_ncols - 1, :] - x[:, :img_nrows - 1, 1:, :])
    return K.sum(K.pow(a + b, 1.25))


In [100]:
# Armamos la loss total
loss = K.variable(0.0)
layer_features = outputs_dict['block5_conv2']
base_image_features = layer_features[0, :, :, :]
combination_features = layer_features[2, :, :, :]
loss = loss + content_weight * content_loss(base_image_features,
                                            combination_features)

feature_layers = ['block1_conv1', 'block2_conv1',
                  'block3_conv1', 'block4_conv1',
                  'block5_conv1']
for layer_name in feature_layers:
    layer_features = outputs_dict[layer_name]
    style_reference_features = layer_features[1, :, :, :] 
    combination_features = layer_features[2, :, :, :]
    sl = style_loss(style_reference_features, combination_features)
    loss = loss + (style_weight / len(feature_layers)) * sl
loss = loss + total_variation_weight * total_variation_loss(combination_image)

In [101]:
grads = K.gradients(loss, combination_image)

outputs = [loss]
if isinstance(grads, (list, tuple)):
    outputs += grads
else:
    outputs.append(grads)

f_outputs = K.function([combination_image], outputs)

# 6) Explique el propósito de las siguientes tres celdas. ¿Qué hace la función fmin_l_bfgs_b? ¿En qué se diferencia con la implementación del paper? ¿Se puede utilizar alguna alternativa?

Respuesta:

La primera celda es la definición de la función eval_loss_and_grads, dicha función obtiene los valores de la loss y los gradientes con respecto a los pesos actuales con que cuenta la red.

La siguiente celda es la clase Evaluator, que se utiliza para poder calcular el gradiente y la loss en simultáneo en una sola iteración, de forma de poder pasar dichos valores a la función optimize de scipy.

Y la última celda corresponde al entrenamiento propiamente dicho, donde los pesos del modelo se van actualizando a medida que la función de optimización encuentra la mínima loss.

La función fmin_l_bfgs_b es la función de optimización, permite obtener el mínimo de la función utilizando una cantidad limitada de memoria, y solo le hace falta su función y su gradiente. Se diferencia con el paper debido a que en él se plantea el uso del clásico ajuste por SGD.

Una alternativa sería utilizar dicho método, o tal vez alguno de los aprendidos durante el curso.

In [102]:
def eval_loss_and_grads(x):
    x = x.reshape((1, img_nrows, img_ncols, 3))
    outs = f_outputs([x])
    loss_value = outs[0]
    if len(outs[1:]) == 1:
        grad_values = outs[1].flatten().astype('float64')
    else:
        grad_values = np.array(outs[1:]).flatten().astype('float64')
    return loss_value, grad_values

# this Evaluator class makes it possible
# to compute loss and gradients in one pass
# while retrieving them via two separate functions,
# "loss" and "grads". This is done because scipy.optimize
# requires separate functions for loss and gradients,
# but computing them separately would be inefficient.

In [103]:
class Evaluator(object):

    def __init__(self):
        self.loss_value = None
        self.grads_values = None

    def loss(self, x):
        assert self.loss_value is None
        loss_value, grad_values = eval_loss_and_grads(x)
        self.loss_value = loss_value
        self.grad_values = grad_values
        return self.loss_value

    def grads(self, x):
        assert self.loss_value is not None
        grad_values = np.copy(self.grad_values)
        self.loss_value = None
        self.grad_values = None
        return grad_values

# 7) Ejecute la siguiente celda y observe las imágenes de salida en cada iteración.

In [104]:
evaluator = Evaluator()

# run scipy-based optimization (L-BFGS) over the pixels of the generated image
# so as to minimize the neural style loss
x = preprocess_image(base_image_path)

for i in range(iterations):
    print('Start of iteration', i)
    start_time = time.time()
    x, min_val, info = fmin_l_bfgs_b(evaluator.loss, x.flatten(),
                                     fprime=evaluator.grads, maxfun=20)
    print('Current loss value:', min_val)
    # save current generated image
    img = deprocess_image(x.copy())
    fname = result_prefix / ('output_at_iteration_%d.png' % i)
    save_img(fname, img)
    end_time = time.time()
    print('Image saved as', fname)
    print('Iteration %d completed in %ds' % (i, end_time - start_time))

Start of iteration 0
Current loss value: 121146606000.0
Image saved as tests/output_at_iteration_0.png
Iteration 0 completed in 11s
Start of iteration 1
Current loss value: 49298256000.0
Image saved as tests/output_at_iteration_1.png
Iteration 1 completed in 7s
Start of iteration 2
Current loss value: 37382038000.0
Image saved as tests/output_at_iteration_2.png
Iteration 2 completed in 7s
Start of iteration 3
Current loss value: 32778525000.0
Image saved as tests/output_at_iteration_3.png
Iteration 3 completed in 7s
Start of iteration 4
Current loss value: 30146679000.0
Image saved as tests/output_at_iteration_4.png
Iteration 4 completed in 7s
Start of iteration 5
Current loss value: 26925343000.0
Image saved as tests/output_at_iteration_5.png
Iteration 5 completed in 7s
Start of iteration 6
Current loss value: 25017651000.0
Image saved as tests/output_at_iteration_6.png
Iteration 6 completed in 8s
Start of iteration 7
Current loss value: 23662627000.0
Image saved as tests/output_at_it

# 8) Generar imágenes para distintas combinaciones de pesos de las losses. Explicar las diferencias. (Adjuntar las imágenes generadas como archivos separados.)

Respuesta:

**Original**

total_variation_weight = 0.1
style_weight = 10
content_weight = 1

**Style Weight Predominante**

total_variation_weight = 0.1
style_weight = 100
content_weight = 1

Se puede observar que en este caso el style predomina en la imagen, viendo sobretodo cómo se reflajan los patrones de la textura en el cielo de la figura.

**Content Weight Predominante**

total_variation_weight = 0.1
style_weight = 1
content_weight = 100

En este caso, pese a que la imagen presenta una textura o estilo particular, a diferencia de la anterior donde el refuerzo está hecho sobre el estilo, en esta se pueden identificar bien todos los objetos que intervienen en la imagen.

**Total Variation Weight Predominante**

total_variation_weight = 1
style_weight = 10
content_weight = 1

Esta imagen es bastante parecida a la original, con la salvedad que se puede ver un suavizado en la imagen, debido al refuerzo en el factor de regularización que hace un muy buen filtrado del ruido en la imagen, haciendo los bordes más difusos.


# 9) Cambiar las imágenes de contenido y estilo por unas elegidas por usted. Adjuntar el resultado.

Respuesta: