<a href="https://colab.research.google.com/github/gepascual/style_transfer_tp/blob/master/Trabajo_Final_CNN_Style_Transfer_GP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Style Transfer

<img src="https://i0.wp.com/chelseatroy.com/wp-content/uploads/2018/12/neural_style_transfer.png?resize=768%2C311&ssl=1">

La idea de este trabajo final es reproducir el siguiente paper:

https://arxiv.org/pdf/1508.06576.pdf

El objetivo es transferir el estilo de una imagen dada a otra imagen distinta. 

Como hemos visto en clase, las primeras capas de una red convolucional se activan ante la presencia de ciertos patrones vinculados a detalles muy pequeños.

A medida que avanzamos en las distintas capas de una red neuronal convolucional, los filtros se van activando a medida que detectan patrones de formas cada vez mas complejos.

Lo que propone este paper es asignarle a la activación de las primeras capas de una red neuronal convolucional (por ejemplo VGG19) la definición del estilo y a la activación de las últimas capas de la red neuronal convolucional, la definición del contenido.

La idea de este paper es, a partir de dos imágenes (una que aporte el estilo y otra que aporte el contenido) analizar cómo es la activación de las primeras capas para la imagen que aporta el estilo y cómo es la activación de las últimas capas de la red convolucional para la imagen que aporta el contenido. A partir de esto se intentará sintetizar una imagen que active los filtros de las primeras capas que se activaron con la imagen que aporta el estilo y los filtros de las últimas capas que se activaron con la imagen que aporta el contenido.

A este procedimiento se lo denomina neural style transfer.

# En este trabajo se deberá leer el paper mencionado y en base a ello, entender la implementación que se muestra a continuación y contestar preguntas sobre la misma.

# Una metodología posible es hacer una lectura rápida del paper (aunque esto signifique no entender algunos detalles del mismo) y luego ir analizando el código y respondiendo las preguntas. A medida que se planteen las preguntas, volviendo a leer secciones específicas del paper terminará de entender los detalles que pudieran haber quedado pendientes.

Lo primero que haremos es cargar dos imágenes, una que aporte el estilo y otra que aporte el contenido. A tal fin utilizaremos imágenes disponibles en la web.

In [1]:
# Imagen para estilo
!wget https://upload.wikimedia.org/wikipedia/commons/5/52/La_noche_estrellada1.jpg

# Imagen para contenido
!wget https://upload.wikimedia.org/wikipedia/commons/thumb/f/f4/Neckarfront_T%C3%BCbingen_Mai_2017.jpg/775px-Neckarfront_T%C3%BCbingen_Mai_2017.jpg

# Creamos el directorio para los archivos de salida
!mkdir /content/output

--2020-04-30 23:27:42--  https://upload.wikimedia.org/wikipedia/commons/5/52/La_noche_estrellada1.jpg
Resolving upload.wikimedia.org (upload.wikimedia.org)... 91.198.174.208, 2620:0:862:ed1a::2:b
Connecting to upload.wikimedia.org (upload.wikimedia.org)|91.198.174.208|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 223725 (218K) [image/jpeg]
Saving to: ‘La_noche_estrellada1.jpg’


2020-04-30 23:27:42 (12.6 MB/s) - ‘La_noche_estrellada1.jpg’ saved [223725/223725]

--2020-04-30 23:27:45--  https://upload.wikimedia.org/wikipedia/commons/thumb/f/f4/Neckarfront_T%C3%BCbingen_Mai_2017.jpg/775px-Neckarfront_T%C3%BCbingen_Mai_2017.jpg
Resolving upload.wikimedia.org (upload.wikimedia.org)... 91.198.174.208, 2620:0:862:ed1a::2:b
Connecting to upload.wikimedia.org (upload.wikimedia.org)|91.198.174.208|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 153015 (149K) [image/jpeg]
Saving to: ‘775px-Neckarfront_Tübingen_Mai_2017.jpg’


2020-04-30 23:27

In [2]:
from keras.preprocessing.image import load_img, save_img, img_to_array
import numpy as np
from scipy.optimize import fmin_l_bfgs_b
import time
import argparse

from keras.applications import vgg19
from keras import backend as K
from pathlib import Path

Using TensorFlow backend.


In [0]:
# Definimos las imagenes que vamos a utilizar, y el directorio de salida

base_image_path = Path("/content/775px-Neckarfront_Tübingen_Mai_2017.jpg")
style_reference_image_path = Path("/content/La_noche_estrellada1.jpg")
result_prefix = Path("/content/output")
iterations = 100

# 1) En base a lo visto en el paper ¿Qué significan los parámetros definidos en la siguiente celda?

Respuesta: Son los pesos de los diferentes componentes de la loss. Permiten controlar el impacto tanto del content como del estilo en la loss total. total_variation_weight es el peso que controla el 'nivel de ruido' en la imagen generada, corresponde al término de regularización de la loss (total variation loss)


In [0]:
#original
total_variation_weight = 0.1
style_weight = 10
content_weight = 1


In [0]:
# Definimos el tamaño de las imágenes a utilizar
width, height = load_img(base_image_path).size
img_nrows = 400
img_ncols = int(width * img_nrows / height)

# 2) Explicar qué hace la siguiente celda. En especial las últimas dos líneas de la función antes del return. ¿Por qué?

Ayuda: https://keras.io/applications/

Respuesta: define una funcion para preprocesar la imagen, abre la imagen, la convierte en un array, luego expande el shape del array y lo convierte en un tensor para ser procesado por VGG19 

In [0]:
def preprocess_image(image_path):
    img = load_img(image_path, target_size=(img_nrows, img_ncols))
    img = img_to_array(img)
    img = np.expand_dims(img, axis=0)
    img = vgg19.preprocess_input(img)
    return img

# 3) Habiendo comprendido lo que hace la celda anterior, explique de manera muy concisa qué hace la siguiente celda. ¿Qué relación tiene con la celda anterior?

Respuesta: Convierte un tensor en una imagen. Es lo inverso a la celda anterior. 

In [0]:
def deprocess_image(x):
    x = x.reshape((img_nrows, img_ncols, 3))
    # Remove zero-center by mean pixel
    x[:, :, 0] += 103.939
    x[:, :, 1] += 116.779
    x[:, :, 2] += 123.68
    # 'BGR'->'RGB'
    x = x[:, :, ::-1]
    x = np.clip(x, 0, 255).astype('uint8')
    return x

In [0]:
# get tensor representations of our images
# K.variable convierte un numpy array en un tensor, para 
base_image = K.variable(preprocess_image(base_image_path))
style_reference_image = K.variable(preprocess_image(style_reference_image_path))

In [0]:
combination_image = K.placeholder((1, img_nrows, img_ncols, 3))

Aclaración:

La siguiente celda sirve para procesar las tres imagenes (contenido, estilo y salida) en un solo batch.

In [0]:
# combine the 3 images into a single Keras tensor
input_tensor = K.concatenate([base_image,
                              style_reference_image,
                              combination_image], axis=0)

In [83]:
# build the VGG19 network with our 3 images as input
# the model will be loaded with pre-trained ImageNet weights
model = vgg19.VGG19(input_tensor=input_tensor,
                    weights='imagenet', include_top=False)
print('Model loaded.')

# get the symbolic outputs of each "key" layer (we gave them unique names).
outputs_dict = dict([(layer.name, layer.output) for layer in model.layers])

Model loaded.


# 4) En la siguientes celdas:

- ¿Qué es la matriz de Gram?¿Para qué se usa? 
La matriz de Gram da las correlaciones entre los features. Es el producto punto entre los vectores de activación.  Los features extraídos de la red convolucional contienen información de contenido (estrtuctura y ubicación), esa información puede eliminarse aplicando la matriz de Gram a esos features. Permitiendo separar estilo de contenido.

- ¿Por qué se permutan las dimensiones de x?
Por definición la matriz de Gram es el producto punto del feature map por su transpuesta en una capa. 


In [0]:
def gram_matrix(x):
    features = K.batch_flatten(K.permute_dimensions(x, (2, 0, 1)))
    gram = K.dot(features, K.transpose(features))
    return gram

# 5) Losses:

Explicar qué mide cada una de las losses en las siguientes tres celdas.

Rta:
"style loss" distancia entre el estilo de la imagen de referencia y el de la imagen generada. 

- For the style loss, we first define something called a Gram matrix. The terms of this matrix are proportional to the covariances of corresponding sets of features, and thus captures information about which features tend to activate together. By only capturing these aggregate statistics across the image, they are blind to the specific arrangement of objects inside the image. This is what allows them to capture information about style independent of content. **The style loss is then the (scaled, squared) Frobenius norm of the difference between the Gram matrices of the style and combination images.**

"content loss" distancia entre el contenido de las imagenes de referencia y la generada

- **The content loss is the (scaled, squared) Euclidean distance between feature representations of the content and combination images.**

"total variation loss" regularización, permite mantener la imagen generada 'coherente' - intenta minimizar las diferencias entre la imagen de contenido, la de estilo y la imagen generada

- If you were to solve the optimisation problem with only the two loss terms we've introduced so far (style and content), you'll find that the output is quite noisy. We thus add another term, called **the total variation loss (a regularisation term) that encourages spatial smoothness.**

http://www.sai-tai.com/blog/transfer-learning-lstm/
https://towardsdatascience.com/light-on-math-machine-learning-intuitive-guide-to-neural-style-transfer-ef88e46697ee


In [0]:
def style_loss(style, combination):
    assert K.ndim(style) == 3
    assert K.ndim(combination) == 3
    S = gram_matrix(style)
    C = gram_matrix(combination)
    channels = 3
    size = img_nrows * img_ncols
    return K.sum(K.square(S - C)) / (4.0 * (channels ** 2) * (size ** 2))

In [0]:
def content_loss(base, combination):
    return K.sum(K.square(combination - base))


In [0]:
def total_variation_loss(x):
    assert K.ndim(x) == 4
    a = K.square(
        x[:, :img_nrows - 1, :img_ncols - 1, :] - x[:, 1:, :img_ncols - 1, :])
    b = K.square(
        x[:, :img_nrows - 1, :img_ncols - 1, :] - x[:, :img_nrows - 1, 1:, :])
    return K.sum(K.pow(a + b, 1.25))


In [0]:
# Armamos la loss total
loss = K.variable(0.0)
layer_features = outputs_dict['block5_conv2']
base_image_features = layer_features[0, :, :, :]
combination_features = layer_features[2, :, :, :]
loss = loss + content_weight * content_loss(base_image_features,
                                            combination_features)

feature_layers = ['block1_conv1', 'block2_conv1',
                  'block3_conv1', 'block4_conv1',
                  'block5_conv1']
for layer_name in feature_layers:
    layer_features = outputs_dict[layer_name]
    style_reference_features = layer_features[1, :, :, :] 
    combination_features = layer_features[2, :, :, :]
    sl = style_loss(style_reference_features, combination_features)
    loss = loss + (style_weight / len(feature_layers)) * sl
loss = loss + total_variation_weight * total_variation_loss(combination_image)

In [0]:
grads = K.gradients(loss, combination_image)

outputs = [loss]
if isinstance(grads, (list, tuple)):
    outputs += grads
else:
    outputs.append(grads)

f_outputs = K.function([combination_image], outputs)

# 6) Explique el propósito de las siguientes tres celdas. ¿Qué hace la función fmin_l_bfgs_b? ¿En qué se diferencia con la implementación del paper? ¿Se puede utilizar alguna alternativa?

Respuesta: 

Como indica el comentario en la clase Evaluator:
Se define una clase Evaluator que calcula la loss y los gradientes en un paso, y los devuelve en dos funciones separadas loss y grads. Se hace de esta manera porque scipy.optimize requiere funciones separadas para loss y gradientes pero calcularlos por separado es ineficiente.

De acuerdo a la documentación, la función fmin_l_bfgs_b minimiza una función (en este caso recive evaluator.loss) usando el algoritmo L-BFGS **'a quasi-Newton algorithm that's significantly quicker to converge than standard gradient descent'**. En el paper de  Leon A. Gatys, se utiliza el algoritmo L-BFGS. 

Una alternativa sería utilizar Adam (https://blog.slavv.com/picking-an-optimizer-for-style-transfer-86e7b8cba84b)

http://ai.stanford.edu/~acoates/papers/LeNgiCoaLahProNg11.pdf








In [0]:
def eval_loss_and_grads(x):
    x = x.reshape((1, img_nrows, img_ncols, 3))
    outs = f_outputs([x])
    loss_value = outs[0]
    if len(outs[1:]) == 1:
        grad_values = outs[1].flatten().astype('float64')
    else:
        grad_values = np.array(outs[1:]).flatten().astype('float64')
    return loss_value, grad_values

# this Evaluator class makes it possible
# to compute loss and gradients in one pass
# while retrieving them via two separate functions,
# "loss" and "grads". This is done because scipy.optimize
# requires separate functions for loss and gradients,
# but computing them separately would be inefficient.

In [0]:
class Evaluator(object):

    def __init__(self):
        self.loss_value = None
        self.grads_values = None

    def loss(self, x):
        assert self.loss_value is None
        loss_value, grad_values = eval_loss_and_grads(x)
        self.loss_value = loss_value
        self.grad_values = grad_values
        return self.loss_value

    def grads(self, x):
        assert self.loss_value is not None
        grad_values = np.copy(self.grad_values)
        self.loss_value = None
        self.grad_values = None
        return grad_values

# 7) Ejecute la siguiente celda y observe las imágenes de salida en cada iteración.

In [92]:
evaluator = Evaluator()

# run scipy-based optimization (L-BFGS) over the pixels of the generated image
# so as to minimize the neural style loss
x = preprocess_image(base_image_path)

for i in range(iterations):
    print('Start of iteration', i)
    start_time = time.time()
    x, min_val, info = fmin_l_bfgs_b(evaluator.loss, x.flatten(),
                                     fprime=evaluator.grads, maxfun=20)
    print('Current loss value:', min_val)
    # save current generated image
    img = deprocess_image(x.copy())
    fname = result_prefix / ('output_at_iteration_%d.png' % i)
    save_img(fname, img)
    end_time = time.time()
    print('Image saved as', fname)
    print('Iteration %d completed in %ds' % (i, end_time - start_time))

Start of iteration 0
Current loss value: 44987700000.0
Image saved as /content/output_combinacion_2/output_at_iteration_0.png
Iteration 0 completed in 2s
Start of iteration 1
Current loss value: 20410763000.0
Image saved as /content/output_combinacion_2/output_at_iteration_1.png
Iteration 1 completed in 2s
Start of iteration 2
Current loss value: 14303830000.0
Image saved as /content/output_combinacion_2/output_at_iteration_2.png
Iteration 2 completed in 2s
Start of iteration 3
Current loss value: 11617439000.0
Image saved as /content/output_combinacion_2/output_at_iteration_3.png
Iteration 3 completed in 2s
Start of iteration 4
Current loss value: 10091311000.0
Image saved as /content/output_combinacion_2/output_at_iteration_4.png
Iteration 4 completed in 2s
Start of iteration 5
Current loss value: 8982728000.0
Image saved as /content/output_combinacion_2/output_at_iteration_5.png
Iteration 5 completed in 2s
Start of iteration 6
Current loss value: 8147597000.0
Image saved as /content

# 8) Generar imágenes para distintas combinaciones de pesos de las losses. Explicar las diferencias. (Adjuntar las imágenes generadas como archivos separados.)

Respuesta: La loss contiene dos términos, uno correspondiente al estilo y el otro al contenido. Lo que permite regular el énfasis en reconstruir el estilo o bien el contenido de la imagen. Las imágenes generadas originalmente hacían mayor énfasis en el estilo, nosotros generamos la inversa, haciendo mayor énfasis en el contenido. Se adjuntan las imágenes. 


En este caso se genera la imagen con peso 1 para estilo y 10 para contenido. Las imágenes de salida se generan en el directorio output2. El resultado es una imagen con mas contenido y sin tanto estilo, que a simple vista se nota en no verse las formas redondeadas que tenía la foto artística.

In [0]:
total_variation_weight=0.1
style_weight=1
content_weight=10

!mkdir /content/output2
result_prefix = Path("/content/output2")

En este otro caso se genera nuevamente con peso 1 para estilo y 10 para contenido, pero tambien se modificó la "variación total" por 5. Las imágenes de salida se generan en el directorio output3. Al modificar el peso de la "variación total" se va perdiendo la coherencia entre los pixels de las imagenes dando una imagen como fuera de foco.

In [0]:
total_variation_weight=0.1
style_weight=1
content_weight=10

!mkdir /content/output3
result_prefix = Path("/content/output3")

#9) Cambiar las imágenes de contenido y estilo por unas elegidas por usted. Adjuntar el resultado.
Respuesta: Se adjuntan dos combinaciones diferentes, debajo la modificación del código para cargar las imágenes y cambiar el directorio de salida

In [0]:
# 2 en estilo y 8 en contenido.
!mkdir /content/output_combinacion_1
total_variation_weight=0.1
style_weight=2
content_weight=8

base_image_path = Path("/content/foto_combinacion_1.jpg")
style_reference_image_path = Path("/content/art_combinacion_1.jpg")
result_prefix = Path("/content/output_combinacion_1")
iterations = 100

In [0]:
# 10 tanto en estilo como contenido
!mkdir /content/output_combinacion_2
total_variation_weight=0.1
style_weight=10
content_weight=10

base_image_path = Path("/content/foto_combinacion_2.jpg")
style_reference_image_path = Path("/content/art_combinacion_2.jpg")
result_prefix = Path("/content/output_combinacion_2")
iterations = 100