# Busca las 7 diferencias

**¿Qué 7 diferencias encuentras en estas imágenes?**

![7 diferencias](../data/img/7_diferencias.jpeg)

Intenta pensar, con tus palabras, como explicarías lo similares que son estas fotos.

**¿Qué diferencias encuentras entre estos dos textos?**

**Texto 1:**   
*El sol brilla intensamente en el cielo azul, mientras los pájaros cantan alegres en las ramas de los árboles frondosos. Un niño corre por el prado verde, persiguiendo a una mariposa colorida que vuela entre las flores. Cerca del estanque, una familia disfruta de un picnic, con una manta roja extendida sobre la hierba.*

**Texto 2:**   
*El sol brilla débilmente en el cielo gris, mientras los pájaros vuelan silenciosos en las ramas de los árboles desnudos. Una niña camina por el prado seco, buscando a una mariposa blanca que descansa entre las flores. Cerca del lago, una pareja disfruta de un picnic, con una manta azul extendida sobre la tierra.*

En este caso, ¿cómo explicarías la similaridad entre los textos?

**Ahora con música, ¿qué diferencias encuentras entre estas dos canciones?**

**Canción 1:**   
[Sam Smith - Stay With Me (Official Music Video)](https://www.youtube.com/watch?v=pB-5XG-DbAA)


**Canción 2:**   
[Tom Petty And The Heartbreakers - I Won't Back Down (Official Music Video)](https://www.youtube.com/watch?v=nvlTJrNJ5lA)


Cómo explicarias la similaridad de estas canciones, ¿dificil no?

Al intentar buscar las diferencias entre las imágenes, textos o canciones y luego intentar razonar sobre la similaridad entre ellos, no habremos dado cuenta de que estamos hablando de dos conceptos matemáticos complementarios: **la similaridad y la distancia.**

# Distancia 

Para entender los conceptos de similaridad y distancia de forma intuitiva, vamos a usar un ejemplo muy sencillo: la lista de la compra.

Imagina que quieres averiguar qué lista de la compra de tu grupo de amigos es más parecida a la tuya. Veamos las listas de la compra de tus amigos y la tuya:

tu lista de la compra: 5 manzanas, 7 plátanos y 2 zanahorias   
lista de paco: 3 manzanas, 2 platanos y 5 zanahorias   
lista de carla: 9 manzanas, 3 platanos y 6 zanahorias   

In [None]:
import numpy as np
# Expresamos la lista de la compra como una lista cuyos elementos son los productos. Corresponden de forma ordenada con [manzanas, plátanos, zanahorias].
tu_lista = np.array([5, 7, 2])
paco_lista = np.array([3, 2, 5])
carla_lista = np.array([12, 6, 10])

Para calcular de forma matemática, a cual se parece más tu lista de la compra, la respuesta más sencilla sería encontrar quien tiene menos cantidad de productos diferentes. Para calcular esto, podemos simplemente restar las cantidades de cada producto respectivamente, y sumar el valor absoluto de los resultados.

In [None]:
diferencia_con_paco = np.abs(tu_lista - paco_lista).sum()
diferencia_con_carla = np.abs(tu_lista - carla_lista).sum()
print(f"La diferencia con Paco es de {diferencia_con_paco} productos y con Carla es de {diferencia_con_carla} productos.")

Aquí hay un problema que no había mencionado, y es que mientras que paco vive solo y compra para él solo, carla vive en un piso compartido y compra para todos, pero no recuerdo exactamente cuántos son. Para hacer una comparación justa, deberíamos normalizar las cantidades de cada producto por el número de personas que compran, aunque también habría que tener en cuenta que paco está haciendo dieta y ahora come menos cantidad en general. 

Como no sabemos bien las condiciones particules de cada uno, lo que podemos hacer es normalizar las cantidades de cada producto por la suma total de productos de cada lista. De esta forma, obtenemos las proporciones de cada producto en cada lista.

In [None]:
# Normalizar las listas
tu_lista_normalizada = tu_lista / tu_lista.sum()
paco_lista_normalizada = paco_lista / paco_lista.sum()
carla_lista_normalizada = carla_lista / carla_lista.sum()

# Mostrar las listas normalizadas formateando cada elemento como porcentajes
etiquetas = ["manzana", "plátanos", "zanahorias"]
print("Tu lista\n"+"\n".join([f"{etiqueta}: {valor:.2%}" for etiqueta, valor in zip(etiquetas, tu_lista_normalizada)]))
print("\nLista de Paco\n"+"\n".join([f"{etiqueta}: {valor:.2%}" for etiqueta, valor in zip(etiquetas, paco_lista_normalizada)]))
print("\nLista de Carla\n"+"\n".join([f"{etiqueta}: {valor:.2%}" for etiqueta, valor in zip(etiquetas, carla_lista_normalizada)]))

Con las listas normalizadas, podemos volver a calcular las distancias entre ellas.

In [None]:
diferencia_normalizada_con_paco = np.abs(tu_lista_normalizada - paco_lista_normalizada).sum()
diferencia_normalizada_con_carla = np.abs(tu_lista_normalizada - carla_lista_normalizada).sum()
print(f"La diferencia con Paco es del {diferencia_normalizada_con_paco:.2%} y con Carla es del {diferencia_normalizada_con_carla:.2%} productos.")

Vaya, resulta que en realidad los gustos de Carla son mucho más parecidos a los tuyos de lo que pensabamos. La magnitud de las listas nos estaba engañando.

Este es un problema muy habitual a la hora de calcular distancias, y es que las magnitudes pequeñas tienen a estar más cerca que magnitudes más grandes (lógicamente). Normalizar los datos es imprescindible para comparar correctamente.

Esta operación intuitiva que hemos hecho para calcular la diferencia (resta) directa entre las listas de elementos es lo que llamamos Distancia de **Manhattan**:

 $  D_{\text{Manhattan}} = \sum_{i=1}^{n} |a_i - b_i|  $

 Se llama así porque si lo visualizaramos en un plano 2D sería como ir de una esquina de las típicas manzanas de Manhattan a la esquina opuesta, moviéndote solo en horizontal y vertical.

 El tipo de distancia más común es la **Euclideana**, que es la distancia en línea recta entre dos puntos:
 
$ D_{\text{Euclideana}} = \sqrt{\sum_{i=1}^{n} (a_i - b_i)^2}  $

 En el ejemplo anterior de la manzana de Manhattan sería como atravesar el edificio en diagonal.

![Distancias](../data/img/distancias.png)

Con esta formulación matemática, podríamos calcular la distancia entre distintos vectores de cualquier número de dimensiones (en nuestro ejemplo las dimensiones eran los productos de la cesta de la compra).

Es relativamente sencillo e intuitivo, pero tiene un problema, y es que, como hemos visto en el ejemplo, no tiene en cuenta la dirección de los vectores, solo la magnitud. Si no hubieramos normalizado, nos habríamos equivocado al comparar las listas de la compra.

Pero, un momento. Si antes hemos dicho que la distancia es el complementario de la similaridad, ¿cómo podemos medir la similaridad entre dos vectores?

# Similaridad

Vamos a dar un paso para atrás y utilizando el mismo ejempo de la lista de la compra pero esta vez el número de productos tiene que ser 0 o 1.

In [None]:
tu_lista_binaria = np.array([1, 1, 1])
paco_lista_binaria = np.array([0, 1, 0])
carla_lista_binaria = np.array([1, 0, 1])

Si calcularamos la distancia como antes, obtendriamos:

In [None]:
diferencia_binaria_paco = np.abs(tu_lista_binaria - paco_lista_binaria).sum()
diferencia_binaria_carla = np.abs(tu_lista_binaria - carla_lista_binaria).sum()
print(f"La diferencia con Paco es de {diferencia_binaria_paco} productos y con Carla es de {diferencia_binaria_carla} producto.")

Puede parecer un ejemplo demasiado sencillo, pero nos va a ayudar a entender la similaridad. Se te ocurre como, en base a este ejemplo, podríamos sacar un número que indicase que la lista de Carla es más parecida a la tuya que la de Paco? Es decir, obtener una métrica cuyo resultado sea mayor al operar con la lista de Carla que con la de Paco.

In [None]:
similaritidad_paco = (tu_lista_binaria * paco_lista_binaria).sum()
similaritidad_carla = (tu_lista_binaria * carla_lista_binaria).sum()
print(f"La similaridad con Paco es de {similaritidad_paco} producto y con Carla es de {similaritidad_carla} productos.")

Voilà! Acabamos de descubrir que para expresar la similaridad entre dos vectores, podemos multiplicarlos elemento a elemento y luego sumarlos. A esta operación se le llama **producto escalar** (dot product en inglés) y se representa con un punto entre los vectores:

$  a \cdot b = \sum_{i=1}^{n} a_i \cdot b_i  $

Sin embargo, al simplificar el ejemplo y convertirlo en binario, hemos perdido la magnitud de los vectores y eso nos ha permitido calcular la similaridad correctamente, si no habríamos tenido el mismo problema de magnitud que con la distancia. Para el ejemplo real, bastaría con normalizar los vectores antes de calcular el producto escalar. Obtenemos el **producto escalar normalizado**:

$ a \cdot b = \sum_{i=1}^{n} \frac{a_i}{||a||} \cdot \frac{b_i}{||b||}  $

En este caso, lo que estamos haciendo es el producto escalar de dos vectores unitarios. Siendo el vector unitario:

$ \hat{a} = \frac{a}{||a||} $

La propiedad del vector unitario es que su magnitud es 1. Traducido a un plano de dos dimensiones, sería hacer un triángulo rectángulo con la hipotenusa de longitud 1. 

![Distancias](../data/img/distancias.png)

Si volvemos a ver la imágen de antes y recordamos como hemos normalizado la distancia podemos decir que el vector unitario es la forma que tenemos de normalizar cuando estamos calculando distnacias euclidianas, mientras que dividir entre la suma de los elementos del vector es la equivalente a normalizar cuando estamos calculando distnacias de manhattan. No es el mejor simil matemático del mundo, pero puede ayudar a entenderlo.

In [None]:
similaritidad_paco = np.dot(tu_lista/np.linalg.norm(tu_lista), paco_lista/np.linalg.norm(paco_lista))
similaritidad_carla = np.dot(tu_lista/np.linalg.norm(tu_lista), carla_lista/np.linalg.norm(carla_lista))
print(f"La similaridad con Paco es del {similaritidad_paco:.2%} de productos y con Carla es del {similaritidad_carla:.2%} productos.")

Genial, además coincide con la conclusión a la que llegamos antes cuando hemos calculado las distancias. Nuestra lista de la compra es más parecida a la de Carla que a la de Paco.

Pues ya estaría, ya sabéis todo lo necesario sobre similaridad y distancia. O no... 😈

# Similaridad de coseno

Resulta que antes te he mentido, perdón :D

En realidad lo que antes he llamado producto escalar normalizado, en realidad se llama **similaridad de coseno** y esta es su formula:

$ \cos(\theta) = \frac{a \cdot b}{||a|| \cdot ||b||} $

Ahora estarás pensando "WTF, en qué momento ha aparecido un angulo y una función trigonométrica en todo esto?". Te entiendo, así que voy a intentar explicarlo de forma sencilla con esta imágen:

![Similaridad de coseno](../data/img/cosine_similarity.jpeg)

Imagina que los vectores X e Y son nuestras listas de la compra. En cada uno de los casos estariamos comparando distintas listas de la compra. Visualmente es fácil decir que dos vectores se parecen cuanto más pequeño es el ángulo entre ellos. Y eso es precisamente lo que mide la similaridad de coseno, el coseno del ángulo entre los dos vectores.

Recordatorio de trigonometría: el coseno de un ángulo es el cateto adyacente a ese ángulo dividido por la hipotenusa. En este caso, el cateto adyacente es el producto escalar de los vectores y la hipotenusa es el producto de las magnitudes de los vectores. El rango de valores de la similaridad de coseno va de -1 a 1, siendo 1 cuando los vectores son iguales y -1 cuando son opuestos.

In [None]:
import numpy as np
import plotly.graph_objects as go

# Definir los vectores
tu_lista = np.array([5, 7])
paco_lista = np.array([3, 2])
carla_lista = np.array([12, 6])

# Calcular los vectores unitarios
tu_lista_unitario = tu_lista / np.linalg.norm(tu_lista)
paco_lista_unitario = paco_lista / np.linalg.norm(paco_lista)
carla_lista_unitario = carla_lista / np.linalg.norm(carla_lista)

# Crear el gráfico
fig = go.Figure()

# Agregar los vectores originales al gráfico
fig.add_trace(go.Scatter(x=[0, tu_lista[0]], y=[0, tu_lista[1]], mode='lines+markers', name='Tu lista'))
fig.add_trace(go.Scatter(x=[0, paco_lista[0]], y=[0, paco_lista[1]], mode='lines+markers', name='Paco lista'))
fig.add_trace(go.Scatter(x=[0, carla_lista[0]], y=[0, carla_lista[1]], mode='lines+markers', name='Carla lista'))

# Agregar los vectores unitarios al gráfico
fig.add_trace(go.Scatter(x=[0, tu_lista_unitario[0]], y=[0, tu_lista_unitario[1]], mode='lines+markers', name='Tu lista (unitario)', line=dict(dash='dash')))
fig.add_trace(go.Scatter(x=[0, paco_lista_unitario[0]], y=[0, paco_lista_unitario[1]], mode='lines+markers', name='Paco lista (unitario)', line=dict(dash='dash')))
fig.add_trace(go.Scatter(x=[0, carla_lista_unitario[0]], y=[0, carla_lista_unitario[1]], mode='lines+markers', name='Carla lista (unitario)', line=dict(dash='dash')))

# Configurar los ejes
fig.update_layout(
    title="Vectores y Vectores Unitarios en el Plano",
    xaxis_title="X",
    yaxis_title="Y",
    showlegend=True,
    xaxis=dict(range=[-1, max(tu_lista[0], paco_lista[0], carla_lista[0]) + 2]),
    yaxis=dict(range=[-1, max(tu_lista[1], paco_lista[1], carla_lista[1]) + 2]),
    width=800,
    height=600,
    autosize=False
)

# Mostrar el gráfico
fig.show()

Con este gráfico, es fácil ver que el ángulo entre los vectores nos dice claramente cuales se parecen más. Además, se entiende cómo la normalización (vector unitario) es un truco matemático para poder calcular el coseno del ángulo al generar triángulos rectángulos.

Ahora si, ya sabéis todo lo que necesitais saber sobre similaridad y distancia. Pero, ¿para qué nos sirve todo esto?

# Aplicaciones de la similaridad de coseno

## Sistemas de recomendación
![Sistemas de recomendación](../data/img/sistemas_recomendacion.png)

## Embeddings de texto

![Word embeddings](../data/img/word_embedding.png)

## Recuperación de información
Aplicado actualmente en los sistemas de recuperación de información de ChatGPT, como el modelo RAG.

![RAG](../data/img/rag_similarity.png)

## Transformers: Self-attention
Es parte del núcleo de los transformers, probablemente sea el mecanísmo más fundamental.

![Self-attention](../data/img/scaled_dot_product.jpeg)

![words-attention](../data/img/words_attention.png)