<a href="https://colab.research.google.com/github/nferrucho/NPL/blob/main/curso2/ciclo5/M5U5_Redes_Siamesas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src = "https://drive.google.com/uc?export=view&id=1Hh_G3M13P9xSNgSiQ-WnALg93XwK_hG8" alt = "Encabezado MLDS" width = "100%">  </img>

# **Redes Siamesas**
---

## **Introducción**
---
Una red neuronal siamesa (SNN - _Siamese Neural Network_) es una clase de arquitectura de red neuronal que contiene **dos o más subredes _idénticas_** en paralelo. _Idénticas_ significa que tienen la misma configuración con los mismos parámetros y pesos, y además que la actualización durante el entrenamiento de los parámetros se refleja igual en ambas subredes.

A grandes rasgos, un modelo de este tipo se utiliza para aprender a reconocer la **similitud** (o diferencia) entre las muestras de un conjunto de datos comparando sus vectores de características, por lo que sus aplicaciones son amplias.

- El siguiente es un esquema básico de un modelo de red siamesa:

<center><img src="https://drive.google.com/uc?export=view&id=1WssDwZIEWUXlkitVpPhkiWgqUh6HRG4F" alt = "Gráfico ilustrativo del esquema básico de un modelo de red siamesa  " width="54%" /></center>

- El modelo tiene dos entradas, cada una pasa por un modelo base de red neuronal exactamente igual, y las salidas de ese modelo se comparan según la función de pérdida, para al final determinar si las entradas son similares o no.

**Nota**: el modelo que se replica en cada rama se escoge dependiendo de la tarea. Su labor va a ser la de un **extractor de características**. Entonces, si vamos a trabajar con imágenes, muy seguramente debemos usar una red convolucional. Pero si vamos a trabajar con textos, podemos usar una red recurrente o el _encoder_ de un _transformer_.

### **Un cambio de enfoque**

Tradicionalmente, una red neuronal aprende a predecir múltiples clases. Esto plantea un problema cuando necesitamos añadir o eliminar nuevas clases a los datos. En este caso, tenemos que actualizar la red neuronal y volver a entrenarla en todo el conjunto de datos. Además, las redes neuronales profundas necesitan un gran volumen de datos para entrenarse.

- En cambio, **las redes siamesas aprenden una función de similitud**. Así, podemos entrenarla para ver si dos imágenes son iguales, o pertenecen a la misma clase. Esto nos permite, por ejemplo, clasificar nuevas clases de datos sin necesidad de volver a entrenar la red.







## **Ventajas e inconvenientes de las redes siamesas**

Las principales ventajas de las redes siamesas son:

*    **Tienen más resistencia al desbalanceo de clases**: Con la ayuda de técnicas de aprendizaje como _One-shot learning_, dadas unas pocas muestras por clase es suficiente para que las redes siamesas reconozcan esas imágenes en el futuro.
*    **Aprendizaje por similitud semántica**: Las redes siamesas se centran en el aprendizaje de representaciones en espacios vectoriales donde (se espera que) los elementos de las mismas clases o conceptos estén _cerca_, y los elementos de clases diferentes estén _lejos_. Por lo tanto, puede aprender la similitud semántica. Lo _cerca_ o lo _lejos_ que queden dos muestras del conjunto de datos en el espacio de representación depende de la función de similitud que se use.

<center><img src="https://drive.google.com/uc?export=view&id=1CNgdo3ZQL0HJgm8naRo2WMBhK2PlfB7r"  alt = "Gráfico ilustrativo de una red neuronal siamesa y una red neuronal convolucional en un espacio vectorial " width="48%" /></center>

Los inconvenientes de las redes siamesas pueden ser:

*    **Necesitan más tiempo de entrenamiento que las redes normales**: Dado que las redes siamesas requieren pares cuadráticos para aprender (para ver toda la información disponible), son más lentas que las redes normales de clasificación.
*    **No genera probabilidades**: Al tratarse de un aprendizaje por pares, no muestra las probabilidades de la predicción, sino la distancia a cada clase.



## **¿En qué situaciones puede ser útil una red siamesa?**

Aunque se utilizan mucho en campos como el reconocimiento facial, las redes siamesas no se limitan al ámbito de las imágenes. Son muy populares en **NLP (Procesamiento de Lenguaje Natural)**, donde se pueden utilizar para identificar duplicados, textos que tratan el mismo tema, o incluso identificar si dos textos son del mismo estilo o autor. También pueden utilizarse para reconocer archivos de audio, por ejemplo, para comparar voces y saber si pertenecen a la misma persona.

**Aplicaciones de las redes siamesas:**

*    Verificación de firmas.
*    Reconocimiento facial.
*    Comparación de huellas dactilares.
*    Evaluar la gravedad de una enfermedad basándose en la clasificación clínica.
*    Similitud textual para emparejar el perfil de un puesto de trabajo con el currículum vitae.
*    Similitud de texto para emparejar preguntas similares.

## **Funcionamiento de una Red Siamesa**

El proceso de entrenamiento y evaluación son, en principio, iguales a los de cualquier modelo de _Machine Learning_. Lo diferente es el **tratamiento que se le da a los datos y cómo se alimenta el modelo**. Si tenemos un conjunto de imágenes para una tarea de reconocimiento facial, es necesario hacer parejas de fotos: el modelo se entrena a partir de ver varias imágenes al tiempo, porque necesita aprender a comparar. Por ejemplo, en el caso de reconocimiento facial, cada pareja de fotos tiene solo dos opciones:

*   Pertenecen a la misma persona (distancia = $0$), o
*   Pertenecen a personas diferentes (distancia = $1$).

es decir, **la tarea al final se convierte en una clasificación binaria**.

Pero puede ser que nos interese tener una medida de similitud menos categórica. Por ejemplo, si tenemos imágenes de diferentes estadios progresivos de una misma enfermedad. En este caso habrá varias distancias posibles, y la tarea final va a ser una regresión.

- De forma análoga, la evaluación es diferente a la que se hace para un modelo normal de clasificación. **Se deben construir parejas de datos de clases iguales y parejas de clases diferentes**, y evaluar la capacidad del modelo de reconocer la similitud o no similitud de los elementos en cada pareja.







### **Entrenamiento de la red neuronal siamesa**

Repasemos los detalles importantes al momento de entrenar un modelo de red siamesa:

*    Cargue el conjunto de datos que contiene las diferentes clases.
*    Cree pares de datos que cubran el espectro de posibilidades de comparación.
*    Construya el modelo de aprendizaje de representación. Este puede ser una CNN para imágenes, o un codificador tipo _Transformer_ para textos, o lo que mejor se ajuste a los datos y a la tarea a resolver. Este modelo será la base de los siameses a través de la cual pasaremos los datos.
*    Construya la capa de diferenciación para calcular la distancia entre las dos redes hermanas que codifican la salida.
*    Compile el modelo utilizando la entropía cruzada binaria (si solo hay dos clases posibles) o una función de pérdida de regresión (si queremos aproximar directamente una función de similitud), o alguna de las funciones de pérdida que veremos a continuación.

### **Evaluación de la red neuronal siamesa**

*    Envíe dos entradas al modelo entrenado para obtener la puntuación de similitud.
*    Si solo hay dos clases posibles, use métricas de clasificación sobre el conjunto de parejas de datos. Si hay más de dos clases, o la medida de diferencia no es categórica, use métricas de regresión para evaluar el desempeño.


## **Funciones de pérdida**

Queremos entrenar un modelo para minimizar la distancia entre muestras de la misma clase y aumentar la distancia entre clases. Aunque una simple distancia euclidiana puede ser la base de una buena función de pérdida para nuestro problema, existen varios tipos de funciones de similitud a través de las cuales se puede hacer un mejor trabajo diferenciando entre pares de muestras. Dos de las más comunes son la pérdida contrastiva (**_contrastive loss_**) y la pérdida de triplete (**_triplet loss_**).

<center><img src="https://drive.google.com/uc?export=view&id=1jl27ZOQpSu0ybmTRgJii14xWfhCp6eTu"  alt = "Gráfico ilustrativo de las funciones de perdida contrastive loss y triplet loss " width="90%" /></center>

### **_Contrastive Loss_**

En la pérdida contrastiva, se toman pares de datos:

* Para pares de la misma clase, el modelo debe predecir $1$.
* Para pares diferentes, el modelo debe predecir $0$.

La función de pérdida se define entonces por:

$$L = y * D^2 + (1-y) * \max\{margen - D, 0\}^2 ,$$

donde $y$ es la predicción del modelo, $D$ es la distancia (calculada por el modelo) entre las características de la muestra (que puede ser la distancia euclidiana) y $margen$ es un parámetro que nos ayuda a controlar la separación entre las distintas clases.

* Si $y≈1$, entonces $L≈D^2$. Es decir, si la pareja de datos es de la misma clase, la distancia se minimiza. Si $y≈0$, entonces $L≈\max\{margen - D, 0\}^2$. Es decir, si la pareja de datos es de clases diferentes, la distancia tiende a maximizarse y tiende a ser mayor que $margen$.

<center><img src="https://drive.google.com/uc?export=view&id=1YTjziO9l-Er9Qs_OQvKmrO0rS01HBk-3" alt = "Gráfico ilustrativo de la función de perdida contrastive loss " width="48%" /></center>

### **_Triplet Loss_**

La pérdida de triplete fue introducida por Google en 2015 para el reconocimiento facial. Aquí, el modelo toma tres entradas:

* **Un ancla** : Es una entrada de referencia.
* **Un ejemplo positivo** : La entrada positiva pertenece a la misma clase que la entrada de anclaje.
* **Un ejemplo negativo** : La entrada negativa pertenece a una clase aleatoria distinta de la clase de anclaje.


<center><img src="https://drive.google.com/uc?export=view&id=1AZ18mNDNJbwPovSJnO2_6TEyZecFzvY8" alt = "Gráfico ilustrativo de la función de perdida triplet loss " width="70%" /></center>

La idea que subyace a la función de pérdida de triplete es que **minimizamos la distancia entre el ancla y la muestra positiva** y, simultáneamente, también **maximizamos** la distancia entre el ancla y la muestra negativa.

<center><img src="https://drive.google.com/uc?export=view&id=1SIcFfPFHp556BZF3Z5uzKJA_3zCDYBs8" alt = "Gráfico ilustrativo de la minimización de la distancia entre el ancla y la muestra positiva " width="90%" /></center>


Veamos la fórmula matemática de la pérdida del triplete.

Si $d$ denota una métrica de distancia (por ejemplo, distancia euclidiana), y queremos que la distancia entre el ancla y la muestra positiva sea ser menor que la distancia entre la muestra negativa y el ancla, debemos tener:

$$d(a,p) - d(a,n) < 0.$$

La función de pérdida sería entonces minimizar lo siguiente:

$$L = d(a,p) - d(a,n).$$

Pero para mantenerla positiva, podemos modificarla así:

$$L = max(d(a,n) - d(a,p), 0).$$

Y para controlar la separación entre muestras positivas y negativas, se introduce un parámetro $margen$. Entonces nos queda:

$$L = max(d(a,n) - d(a,p) + margen, 0).$$

<center><img src="https://drive.google.com/uc?export=view&id=1zOMyTR6qA6YIPw8WOzgoBYYP3Lr6C35g" alt = "Gráfico ilustrativo del parámetro margen para la separación entre muestras positivas y negativas " width="90%" /></center>


## **1. Un ejemplo sencillo**
---
Este es un problema muy simple para demostrar el concepto detrás de las redes siamesas. Tenemos una base de datos de diferentes formas (triángulos, círculos y rectángulos) con 3 colores diferentes (rojo, verde y azul). Estas formas tienen diferentes tamaños, están en diferentes lugares respecto al borde de la imagen, y están giradas en diferentes ángulos.

<center><img src="https://drive.google.com/uc?export=view&id=1IerY9Gsoz864rcaTkK_RlX1bcxAkBsfG"  alt = "Ejemplo Gráfico de la base de datos de diferentes formas geométricas con 3 colores distintos  " width="50%" /></center>

Queremos **clasificar las imágenes en función de sus colores** aprendiendo una codificación de colores para imágenes. Por simplicidad, vamos a tomar solo 20 muestras de cada color.



### **1.1 Preparar los datos**
---
Debemos leer las imágenes y generar pares positivos y negativos. Hay dos matrices _NumPy_ que contienen pares de imágenes de tamaño Nx28x28x3. La etiqueta objetivo es `1` si el par es del mismo color y `0` si son de distinto color. Por ejemplo:

**Entrada**: triángulo rojo, cuadrado rojo (objetos del mismo color).

* **Salida**: 1

**Entrada**: triángulo rojo, triángulo azul (objetos de distinto color)

* **Salida**: 0

Los archivos originales los puede encontrar [aquí](https://github.com/AdityaDutt/MultiColor-Shapes-Database). Sin embargo los vamos a descargar en nuestro entorno con los siguientes comandos :


In [None]:
!gdown 10WoBy7NgWD3KCaW9YV43PAHSgPHZL3at
!unzip '/content/shapes.zip' -d '/content/' > /dev/null

Ahora vamos a importar los paquetes necesarios :

In [None]:
import os, sys, cv2, matplotlib.pyplot as plt, numpy as np, shutil
from random import random, randint, seed
import random
import pickle, itertools, sklearn, pandas as pd, seaborn as sn
from scipy.spatial import distance
from keras.models import Model, load_model, Sequential
from tensorflow.keras import backend as K
from tensorflow.keras.utils import plot_model
from scipy import spatial
from sklearn.metrics import confusion_matrix
import os, sys
import tensorflow as tf
import warnings
from keras.layers import Input, Dense, InputLayer, Conv2D, MaxPooling2D, UpSampling2D, InputLayer, Concatenate, Flatten, Reshape, Lambda, Embedding, dot, Dropout
from keras.models import Model, load_model, Sequential
from tensorflow.keras.optimizers import RMSprop
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn.model_selection import train_test_split
warnings.filterwarnings('ignore')

Se preparan pares positivos y negativos de muestras de datos. Vamos a almacenar los datos en `/content/shapes/`. Se preparan datos para distintas formas, pero con colores iguales:

In [None]:
dir = '/content/shapes/'

images = []
y_col = []

for root, dirs, files in os.walk(dir, topdown=False):
    for name in files:
        fullname = os.path.join(root, name)
        if fullname.find(".png") != -1 :
            images.append(fullname)
            if fullname.find("red") != -1 :
                y_col.append(0)
            elif fullname.find("blue") != -1 :
                y_col.append(1)
            else :
                y_col.append(2)

y_col = np.array(y_col)
images = np.array(images)

# Generación de muestras positivas
red_im_all = images[np.where(y_col==0)]
green_im_all = images[np.where(y_col==1)]
blue_im_all = images[np.where(y_col==2)]

# Se leen sólo 20 imágenes de cada clase para el entrenamiento
red_im = red_im_all[:20]
green_im = green_im_all[:20]
blue_im = blue_im_all[:20]

# Y definimos las imágenes de prueba
test_red_im = red_im_all[20:40]
test_green_im = green_im_all[20:40]
test_blue_im = blue_im_all[20:40]

In [None]:
# Creamos muestras de parejas de imágenes rojas, azules y verdes:
positive_red = list(itertools.combinations(red_im, 2))
positive_blue = list(itertools.combinations(blue_im, 2))
positive_green = list(itertools.combinations(green_im, 2))

# Y generamos muestras negativas
negative1 = itertools.product(red_im,green_im)
negative1 = list(negative1)
negative2 = itertools.product(green_im,blue_im)
negative2 = list(negative2)
negative3 = itertools.product(red_im,blue_im)
negative3 = list(negative3)

# Y repetimos todo para las imágenes de prueba
test_positive_red = list(itertools.combinations(test_red_im, 2))
test_positive_blue = list(itertools.combinations(test_blue_im, 2))
test_positive_green = list(itertools.combinations(test_green_im, 2))
test_negative1 = itertools.product(test_red_im,test_green_im)
test_negative1 = list(test_negative1)
test_negative2 = itertools.product(test_green_im,test_blue_im)
test_negative2 = list(test_negative2)
test_negative3 = itertools.product(test_red_im,test_blue_im)
test_negative3 = list(test_negative3)

In [None]:
# Se establece la etiqueta objetivo para ellas.
# La salida objetivo es 1 si el par de imágenes tienen el mismo color,
# de lo contrario es 0.

color_X1 = []
color_X2 = []
color_y = []
positive_samples = positive_blue + positive_green + positive_red
negative_samples = negative1 + negative2 + negative3

for fname in positive_samples :
    im = cv2.imread(fname[0])
    color_X1.append(im)
    im = cv2.imread(fname[1])
    color_X2.append(im)
    color_y.append(1)

for fname in negative_samples :
    im = cv2.imread(fname[0])
    color_X1.append(im)
    im = cv2.imread(fname[1])
    color_X2.append(im)
    color_y.append(0)

color_y = np.array(color_y)
color_X1 = np.array(color_X1)
color_X2 = np.array(color_X2)
color_X1 = color_X1.reshape((len(negative_samples) + len(positive_samples), 28, 28, 3))
color_X2 = color_X2.reshape((len(negative_samples) + len(positive_samples), 28, 28, 3))

color_X1 = 1 - color_X1/255
color_X2 = 1 - color_X2/255

print("Color data : ", color_X1.shape, color_X2.shape, color_y.shape)

# Guardar los datos de prueba
f = open(os.getcwd()+"/test_images.pkl", 'wb')
pickle.dump([test_red_im, test_blue_im, test_green_im], f)
f.close()

In [None]:
# Y repetimos todo para las imágenes de prueba

test_color_X1 = []
test_color_X2 = []
test_color_y = []
test_positive_samples = test_positive_blue + test_positive_green + test_positive_red
test_negative_samples = test_negative1 + test_negative2 + test_negative3

for fname in test_positive_samples:
    im = cv2.imread(fname[0])
    test_color_X1.append(im)
    im = cv2.imread(fname[1])
    test_color_X2.append(im)
    test_color_y.append(1)

for fname in test_negative_samples:
    im = cv2.imread(fname[0])
    test_color_X1.append(im)
    im = cv2.imread(fname[1])
    test_color_X2.append(im)
    test_color_y.append(0)

test_color_y = np.array(test_color_y)
test_color_X1 = np.array(test_color_X1)
test_color_X2 = np.array(test_color_X2)
test_color_X1 = test_color_X1.reshape((len(test_negative_samples) + len(test_positive_samples), 28, 28, 3))
test_color_X2 = test_color_X2.reshape((len(test_negative_samples) + len(test_positive_samples), 28, 28, 3))

test_color_X1 = 1 - test_color_X1/255
test_color_X2 = 1 - test_color_X2/255

print("Test Color data : ", test_color_X1.shape, test_color_X2.shape, test_color_y.shape)

# Guardar los datos de prueba
f = open(os.getcwd()+"/test_images.pkl", 'wb')
pickle.dump([test_red_im, test_blue_im, test_green_im], f)
f.close()

Veamos algunos pares de imágenes con su respectivo _label_:

In [None]:
color_X1.shape[0]

In [None]:
fig, ax = plt.subplots(4, 2, figsize=(10, 10))
for i in range(4):
    # Seleccionamos una imagen al azar
    idx = np.random.randint(color_X1.shape[0])
    ax[i, 0].imshow(color_X1[idx]); ax[i, 0].axis("off")
    ax[i, 1].imshow(color_X2[idx]); ax[i, 1].axis("off")
    ax[i, 0].set_title(f"label {color_y[idx]}")

### **1.2 Crear el modelo**
---
Vamos a definir una función, `train_color_encoder`, que crea, compila, entrena y guarda un modelo siames entrenado con parejas de imágenes `X1, X2` para predecir su similitud `y` como un valor entre 0 y 1:


In [None]:
# Se entrena el autoencoder y se guarda el modelo del encoder  y las
# codificaciones
def train_color_encoder(X1, X2, y) :

    # Encoder o extractor de características, esta es la rama que se duplica
    # luego en el modelo siamés
    input_layer = Input((28, 28, 3))
    layer1 = Conv2D(16, (3, 3), activation='relu', padding='same')(input_layer)
    layer2 = MaxPooling2D((2, 2), padding='same')(layer1)
    layer3 = Conv2D(8, (3, 3), activation='relu', padding='same')(layer2)
    layer4 = MaxPooling2D((2, 2), padding='same')(layer3)
    layer5 = Flatten()(layer4)
    embeddings = Dense(16, activation=None)(layer5)
    class NormalizeLayer(tf.keras.Layer):
        def call(self, embeddings):
            return tf.nn.l2_normalize(embeddings, axis=1)
    norm_embeddings = NormalizeLayer()(embeddings)

    # Creación del modelo siames

    model = Model(inputs=input_layer, outputs=norm_embeddings)
    # Creación de un modelo siamés:
    input1 = Input((28,28,3))
    input2 = Input((28,28,3))
    # Se crean modelos gemelos derecho e izquierdo
    left_model = model(input1)
    right_model = model(input2)
    # Capa de producto punto
    dot_product = dot([left_model, right_model], axes=1, normalize=False)

    siamese_model = Model(inputs=[input1, input2], outputs=dot_product)

    # Resumen del modelo
    print(siamese_model.summary())

    # Se compila el modelo
    siamese_model.compile(optimizer='adam', loss= 'mse')

    # Diagrama de flujo del modelo
    plot_model(siamese_model,
               to_file=os.getcwd()+'/siamese_model_mnist.png',
               show_shapes=1,
               show_layer_names=1)

    # Se ajusta el modelo
    siamese_model.fit([X1, X2],
                      y,
                      epochs=10,
                      batch_size=32
                      )

    return model, siamese_model

Entendamos el modelo. Primero, la base, o el extractor de características de las imágenes:

* En primer lugar, agregamos una capa de entrada. Después, las capas convolucionales y de _pooing_: _Conv2D_ y _MaxPool_, respectivamente.
* Después de eso, lo "aplanamos" (`flatten`) y añadimos una capa densa (hemos normalizado la capa densa después de eso porque estos actuarán como nuestras _features_ o características para las imágenes). Las _features_ son de longitud 16.

Después creamos dos instancias del mismo modelo y les pasamos las entradas. El producto punto será la función de similitud de las dos imágenes. Como ya hemos normalizado las características, estarán entre 0 y 1. Por lo tanto, podemos *compararlas fácilmente* con nuestras etiquetas de destino.

* La entrada del modelo siamés es una pareja de imágenes, según las hayamos construido anteriormente: `[X1,X2]`.
* La salida del modelo siamés es el producto punto de las representaciones de las imágenes.
* Usamos _Mean Squared Error_ como función de pérdida, y _Adam_ como optimizador.
* Entrenamos durante 100 _epochs_ con un _batch_size_ de 32.

**Nota**: Esto se trata de un ejemplo sencillo, por lo que no será tan bueno para imágenes y tareas complejas. Pero, el objetivo de este ejercicio es demostrar las redes siamesas utilizando un ejemplo elemental.

Construyamos y entrenemos el modelo:


In [None]:
model, siamese_model = train_color_encoder(color_X1, color_X2, color_y)

In [None]:
tf.keras.utils.plot_model(siamese_model, show_shapes=True)

### **1.3 Evaluar el modelo**
---
Vamos a cargar el modelo y probarlo con imágenes no vistas. Para comprobar la precisión y la separación entre clases, podemos hacer lo siguiente :

* En primer lugar, podemos utilizar un modelo de codificador único para codificar una imagen y obtener características que representar gráficamente. Podemos hacer un diagrama de dispersión de estas características para ver su grado de separación.

* En segundo lugar, podemos utilizar la salida de la red siamesa (que predice valores entre 1 y 0) para crear una matriz de confusión.

Ambas se muestran a continuación :

In [None]:
%matplotlib inline
# Se cargan los modelos
#model = load_model(os.getcwd()+"/color_encoder.h5")
#siamese_model = load_model(os.getcwd()+"/color_siamese_model.h5")

# Se cargan los datos de prueba
f = open(os.getcwd()+"/test_images.pkl", 'rb')
test_red_im, test_blue_im, test_green_im = pickle.load(f)
f.close()

# Se leen los archivos
names = list(test_red_im) + list(test_blue_im) + list(test_green_im)
names1 = [x for x in names if 'red' in x]
names2 = [x for x in names if 'blue' in x]
names3 = [x for x in names if 'green' in x]

test_im = []
for i in range(len(names)) :
    test_im.append(cv2.imread(names[i]))

r,c,_ = test_im[0].shape
test_im = np.array(test_im)
test_im = test_im.reshape((len(test_im), r,c,3))
names = [x.split("/")[-1] for x in names]

test_im = 1 - test_im/255

# Predicción
pred = model.predict(test_im)

num = int(pred.shape[0]/3)
colors = ['red', 'blue', 'green'] # Se definen los colores según las etiquetas

# Se establecen las etiquetas de destino
y = [colors[0] for i in range(num)]
y += [colors[1] for i in range(num)]
y += [colors[2] for i in range(num)]

# Tomamos las primeras tres dimensiones de cada representación
feat1 = pred[:,0]
feat2 = pred[:,1]
feat3 = pred[:,2]

# Gráfico de dispersión 3d
fig = plt.figure()
ax = fig.add_subplot(projection='3d')
ax.scatter(feat1, feat2, feat3, c=y, marker='.')
plt.show()

Note que la representación aprendida es tal que los elementos de cada clase se agrupan, y hay una marcada separación entre los elementos de clases diferentes. Ahora, calculamos la matriz de confusión para las similitudes entre los colores 1 y 2 con `tf.math.confusion_matrix`:

In [None]:
simil_pred = tf.math.round(
    siamese_model.predict([test_color_X1, test_color_X2,]))

print(tf.math.confusion_matrix(
    test_color_y,
    simil_pred)
)

La clasificación es perfecta!

## **2. Un ejemplo más complejo**
---
Ahora vamos a construir un modelo siamés con _Tensorflow_ capaz de comparar imágenes y devolver una diferencia entre ellas, identificando cuando las imágenes son del mismo tipo. Usaremos el MNIST Dataset de la Digit Recognizer Competition. Este Datset tiene 42000 imágenes de números escritos a mano.

- A continuación unas funciones para mostrar las imágenes :


In [None]:
def show_img_dataset(X, y=None, nrows = 4, ncols=4, firstimg=100, numimg=4):
    for i in range(numimg):
        sp = plt.subplot(nrows, ncols, i + 1)
        sp.axis('Off')
        plt.imshow(np.squeeze(X[firstimg+i]), cmap="Greys")
        if (y is not None):
            plt.title(y[firstimg+i])
    plt.show()

La función `show_pairs` sirve para mostrar algunos pares seleccionados, sólo para comprobar si están correctamente clasificados:

In [None]:
def show_pairs(X, y, image):
    sp = plt.subplot(1, 2, 1)
    plt.imshow(np.squeeze(X[image][0]))
    sp = plt.subplot(1, 2, 2)
    plt.imshow(np.squeeze(X[image][1]))
    plt.figtext(0.5, 0.01, str(y[image]), wrap=True, horizontalalignment='center', fontsize=12)
    plt.show()

### **2.1 Preparar los datos**
---
Estamos utilizando el conjunto de datos del concurso https://www.kaggle.com/competitions/digit-recognizer. Se trata de un sencillo conjunto de datos con imágenes de números, del 0 al 9, escritos a mano:

In [None]:
# Utilizamos pandas para leer los archivos csv que contienen los datos

!wget = https://drive.google.com/uc?id=1q3aFqOpXluMQLDnU2S5WlYq7j9-YMyNZ
train_df = pd.read_csv('/content/uc?id=1q3aFqOpXluMQLDnU2S5WlYq7j9-YMyNZ')

!wget = https://drive.google.com/uc?id=1Qhj3e4mfZh99fAVpNLNhy1oycyb7vFBk
test_df = pd.read_csv('/content/uc?id=1Qhj3e4mfZh99fAVpNLNhy1oycyb7vFBk')

In [None]:
# Se obtienen las características y etiquetas.
X = train_df.drop('label', axis=1)
y_train = train_df['label']

X.shape, y_train.shape

In [None]:
# Reshaping de los datos cargados para que tengan el formato  de una imagen.
X_train = np.array(X).reshape((-1, 28, 28, 1))
X_test = np.array(test_df).reshape((-1, 28, 28, 1))
X.shape, X_test.shape

In [None]:
#Se normalizan los datos
X_train = X_train.astype('float32') / 255
X_text = X_test.astype('float32') / 255

Visualicemos una muestra de números en el conjunto con sus etiquetas:

In [None]:
show_img_dataset(X_train, y = y_train, firstimg=700, nrows = 2, ncols=4, numimg=8)

Las funciones ```create_pairs``` crean pares de números a partir del conjunto de datos. Recordemos que en la red siamesa necesitamos pasar un par de objetos y una etiqueta que indique si los objetos son iguales o no.

* Si la etiqueta del número es la misma, vamos a pasar un `1` como etiqueta del par, indicando que no hay diferencias.
* Si la etiqueta del número es diferente, pasaremos un `0`, indicando que los números son diferentes.


In [None]:
# El tercer parámetro: min_equals, indica cuántas parejas de datos similares
# (es decir, con etiqueta 1) queremos como mínimo.
def create_pairs(X, y, min_equals = 3000):
    pairs = []
    labels = []
    equal_items = 0
    index = [np.where(y == i)[0] for i in range(10)]
    for n_item in range(len(X)):
        if equal_items < min_equals:
            num_rnd = np.random.randint(len(index[y[n_item]]))
            num_item_pair = index[y[n_item]][num_rnd]

            equal_items += 1
        else:
            num_item_pair = np.random.randint(len(X))
        labels += [int(y[n_item] == y[num_item_pair])]
        pairs += [[X[n_item], X[num_item_pair]]]

    return np.array(pairs), np.array(labels).astype('float32')

In [None]:
# Creamos conjuntos de entrenamiento y validación:
LIMIT_VAL = 2000
X_train2 = []
y_train2 = []
X_val = X_train[:LIMIT_VAL]
y_val = y_train[:LIMIT_VAL].reset_index(drop=True)
X_train2 = X_train[LIMIT_VAL:]
y_train2 = y_train[LIMIT_VAL:].reset_index(drop=True)

training_pairs, training_labels = create_pairs(X_train2, y_train2, min_equals=15000)
val_pairs, val_labels = create_pairs(X_val, y_val, min_equals=800)

Veamos algunos pares del conjunto de datos de entrenamiento y validación. Los pares con igual número están al principio del conjunto de datos.

In [None]:
show_pairs(training_pairs, training_labels, 34004)

In [None]:
show_pairs(training_pairs, training_labels, 34)

In [None]:
show_pairs(val_pairs, val_labels, 32)

In [None]:
show_pairs(val_pairs, val_labels, 1500)

### **2.2 Crear el modelo**
---

Las siguientes funciones son necesarias para calcular la Distancia Euclídea entre los vectores, y para dar forma a la salida del modelo.

* Ambas funciones se utilizarán en la capa de salida del modelo, que es una capa _lambda_ que llama a euclidean_distance con los vectores.

* La función `eucl_dist_output_shapes` se pasa al parámetro `output_shape` de la capa, sólo para dar formato a la salida.

In [None]:
def euclidean_distance(vects):
    x, y = vects
    sum_square = K.sum(K.square(x - y), axis=1, keepdims=True)
    return K.sqrt(K.maximum(sum_square, K.epsilon()))


def eucl_dist_output_shape(shapes):
    shape1, shape2 = shapes
    return (shape1[0], 1)

#### **2.2.1 Función de pérdida**
---
La función de pérdida que se muestra a continuación es una implementación de la pérdida contrastiva, que toma la salida de la red para un ejemplo positivo y calcula su distancia a un ejemplo de la misma clase y la contrasta con la distancia a los ejemplos negativos.

* **Recuerde**: la pérdida es baja si las muestras positivas se codifican en representaciones similares (más cercanas) y los ejemplos negativos se codifican en representaciones diferentes (más lejanas).

In [None]:
def contrastive_loss_with_margin(margin):
    def contrastive_loss(y_true, y_pred):
        square_pred = K.square(y_pred)
        margin_square = K.square(K.maximum(margin - y_pred, 0))
        return (y_true * square_pred + (1 - y_true) * margin_square)
    return contrastive_loss

#### **2.2.2 Parte compartida**
---
La siguiente función define la parte común del modelo: el extractor de características. Está compuesto por tres capas densas de 128 neuronas cada una, intercaladas por capas de _Dropout_, que tienen un efecto regularizador. El modelo es simple dado que no se busca obtener una puntuación fantástica, es sólo un ejercicio para entender cómo funcionan las redes siamesas. A pesar de ello, el modelo funciona muy bien.

In [None]:
def initialize_base_branch():
    input = Input(shape=(28,28,), name="base_input")
    x = Flatten(name="flatten_input")(input)
    x = Dense(128, activation='relu', name="first_base_dense")(x)
    x = Dropout(0.3, name="first_dropout")(x)
    x = Dense(128, activation='relu', name="second_base_dense")(x)
    x = Dropout(0.3, name="second_dropout")(x)
    x = Dense(128, activation='relu', name="third_base_dense")(x)

    #Returning a Model, with input and outputs, not just a group of layers.
    return Model(inputs=input, outputs=x)

base_model = initialize_base_branch()

#### **2.2.3 Modelo siamés**
---
Esta es la parte del modelo siamés. Definimos dos entradas diferentes y una capa de salida _lambda_ que utiliza las funciones `euclidean_distance` y `eucl_dist_output_shape`:

In [None]:
# Entrada para la parte izquierda del par. Vamos a pasar training_pairs[:,0]
# por esta entrada.
input_l = Input(shape=(28, 28,), name='left_input')
# base_model es el modelo base y estamos añadiendo nuestra capa de entrada.
vect_output_l = base_model(input_l)
# Capa de entrada para la parte derecha del modelo siames.
# Recibirá: training_pairs[:,1]
input_r = Input(shape=(28, 28,), name='right_input')
vect_output_r = base_model(input_r)
# La capa de salida lambda llama a las distancias euclidianas,
# devolverá la diferencia entre ambos vectores
output = Lambda(euclidean_distance,
                name='output_layer',
                output_shape=eucl_dist_output_shape)([vect_output_l, vect_output_r])

# Nuestro modelo tiene dos entradas y una salida.
# Cada una de las entradas contiene el modelo común.
model = Model([input_l, input_r], output)

Veamos cómo quedó el modelo:

In [None]:
from tensorflow.keras.utils import plot_model
tf.keras.utils.plot_model(model, to_file='siamese_model.png', show_shapes=True)

### **2.3 Entrenamiento**
---
Ahora vamos a entrenar. Utilizamos la función de pérdida que definimos antes: `contrastive_loss_with_margin`, que nos permite definir el margen. Recuerde que el margen permite mantener el equilibrio entre el valor asignado cuando hay similitudes o no. Con un valor grande las disimilitudes tienen más peso que las similitudes. Puede probar diferentes valores. Aquí lo hacemos con un margen de 1.

Usamos `RMSprop` como optimizador, y entrenamos durante 20 _epochs_:


In [None]:
model.compile(loss=contrastive_loss_with_margin(margin=1),
              optimizer=RMSprop())
history = model.fit(
    [training_pairs[:,0], training_pairs[:,1]],
    training_labels, epochs=20,
    batch_size=128,
    validation_data = ([val_pairs[:, 0], val_pairs[:, 1]], val_labels))

### **2.4 Evaluación**
---
Igual que en el ejemplo anterior, calculamos las predicciones del modelo y binarizamos los resultados: si la distancia predicha por el modelo es menor a $0.5$ definimos que son de la misma clase:

In [None]:
def compute_accuracy(y_true, y_pred):
    pred = y_pred.ravel() < 0.5
    return np.mean(pred == y_true)

In [None]:
y_pred_train = model.predict([training_pairs[:,0], training_pairs[:,1]])
train_accuracy = compute_accuracy(training_labels, y_pred_train)

y_pred_val = model.predict([val_pairs[:,0], val_pairs[:,1]])
val_accuracy = compute_accuracy(val_labels, y_pred_val)

print("Train Accuracy = {} Val accuracy = {}".format(train_accuracy, val_accuracy))

Para terminar, tenemos dos funciones para mostrar las imágenes en pares, con la etiqueta predicha por la red siamesa. Si la etiqueta está en rojo las imágenes son diferentes y si la etiqueta está en negro las imágenes son del mismo tipo. El número de la etiqueta indica la diferencia. Cuanto mayor sea el número, más diferentes serán las imágenes.

In [None]:
def visualize_images():
    plt.rc('image', cmap='gray_r')
    plt.rc('grid', linewidth=0)
    plt.rc('xtick', top=False, bottom=False, labelsize='large')
    plt.rc('ytick', left=False, right=False, labelsize='large')
    plt.rc('axes', facecolor='F8F8F8', titlesize="large", edgecolor='white')
    plt.rc('text', color='a8151a')
    plt.rc('figure', facecolor='F0F0F0')# Matplotlib fonts


# utility to display a row of digits with their predictions
def display_images(left, right, predictions, labels, title, n):
    plt.figure(figsize=(17,3))
    plt.title(title)
    plt.yticks([])
    plt.xticks([])
    plt.grid(None)
    left = np.reshape(left, [n, 28, 28])
    left = np.swapaxes(left, 0, 1)
    left = np.reshape(left, [28, 28*n])
    plt.imshow(left)
    plt.figure(figsize=(17,3))
    plt.yticks([])
    plt.xticks([28*x+14 for x in range(n)], predictions)
    for i,t in enumerate(plt.gca().xaxis.get_ticklabels()):
        if predictions[i] > 0.5: t.set_color('red') # bad predictions in red
    plt.grid(None)
    right = np.reshape(right, [n, 28, 28])
    right = np.swapaxes(right, 0, 1)
    right = np.reshape(right, [28, 28*n])
    plt.imshow(right)

In [None]:
indexes = np.random.choice(len(y_pred_train), size=8)
display_images(training_pairs[:, 0][indexes],
               training_pairs[:, 1][indexes],
               y_pred_train[indexes],
               training_labels[indexes],
               "Pairs of images with distance", 8)

Puede ver que las clasificaciones son correctas en casi todos los casos. Pero puede obtener resultados diferentes cada vez que ejecute la función `display_images`, porque muestra pares aleatorios.

In [None]:
indexes = np.random.choice(len(y_pred_train), size=8)
display_images(training_pairs[:, 0][indexes],
               training_pairs[:, 1][indexes],
               y_pred_train[indexes],
               training_labels[indexes],
               "Pairs of images with distance", 8)

In [None]:
indexes = np.random.choice(len(y_pred_train), size=8)
display_images(training_pairs[:, 0][indexes],
               training_pairs[:, 1][indexes],
               y_pred_train[indexes],
               training_labels[indexes],
               "Pairs of images with distance", 8)

# **Recursos adicionales**
---
Los siguientes enlaces corresponden a sitios en donde encontrará información muy útil para profundizar en los temas vistos :


- [*How to create a Siamese Network to compare images*](https://www.kaggle.com/code/peremartramanonellas/how-to-create-a-siamese-network-to-compare-images#Check-the-results)

- [*Siamese Networks Introduction and Implementation*](https://towardsdatascience.com/siamese-networks-introduction-and-implementation-2140e3443dee)


# **Créditos**
---

* **Profesor:** [Fabio Augusto Gonzalez](https://dis.unal.edu.co/~fgonza/)
* **Asistentes docentes :**
  * [Santiago Toledo Cortés](https://sites.google.com/unal.edu.co/santiagotoledo-cortes/)
* **Diseño de imágenes:**
    - [Mario Andres Rodriguez Triana](https://www.linkedin.com/in/mario-andres-rodriguez-triana-394806145/).
* **Coordinador de virtualización:**
    - [Edder Hernández Forero](https://www.linkedin.com/in/edder-hernandez-forero-28aa8b207/).

**Universidad Nacional de Colombia** - *Facultad de Ingeniería*