## Embeddings

Primero vamos a ver cómo funciona un word embedding de una forma simulada al tiempo que vemos como emplear la capa de embeddings de Keras, luego veremos como hacer sentence embedding utilizando un modulo o modelo preentrenado de Tensorflow.

In [1]:
# Importamos las librerías necesarias para trabajar con embeddings

# NumPy: Biblioteca fundamental para computación científica y manejo de arrays
import numpy as np

# TensorFlow: Framework de deep learning que usaremos para crear y entrenar modelos
# También incluye Keras, una API de alto nivel para redes neuronales
import tensorflow as tf

### Word Embeddings

Recuerda que un word embedding transforma las palabras de un texto en un vector de n dimensiones. Veamos como hacerlo con una capa de embeddings, sin entrenar y así podrás ver como instanciarla.

In [2]:
# ============================================================================
# EJEMPLO DE WORD EMBEDDING CON KERAS
# ============================================================================
# Vamos a crear un vocabulario de ejemplo basado en una frase conocida
# Cada palabra será convertida en un vector de números (embedding)

# Vocabulario de ejemplo: frase de "La princesa prometida"
categorias_ejemplo = ["Me","llamo","Iñigo","Montoya","soy","tú","mataste","a","mi","padre"]

# PASO 1: CONVERTIR PALABRAS A ÍNDICES NUMÉRICOS
# -----------------------------------------------
# StringLookup es una capa de preprocesamiento que asigna un número único a cada palabra
# Esto es necesario porque las redes neuronales trabajan con números, no con texto
pre_conversion = tf.keras.layers.StringLookup()

# adapt() es como hacer un "fit" en sklearn: analiza el vocabulario y crea el mapeo
# Después de esto, cada palabra tendrá asignado un número único
pre_conversion.adapt(categorias_ejemplo)

# PASO 2: CREAR EL MODELO DE LOOKUP + EMBEDDING
# ----------------------------------------------
# Sequential permite encadenar capas de forma secuencial
lookup_y_embedding = tf.keras.Sequential([
    # Capa de entrada: recibe strings (palabras)
    tf.keras.layers.InputLayer(shape=[], dtype=tf.string),
    
    # Capa 1: Convierte palabras en índices numéricos
    pre_conversion,
    
    # Capa 2: Embedding - convierte índices en vectores densos
    tf.keras.layers.Embedding(
        input_dim = pre_conversion.vocabulary_size(),  # Tamaño del vocabulario (cuántas palabras únicas tenemos)
        output_dim = 2  # Dimensión del embedding (convertiremos cada palabra en un vector de 2 números)
    )
])

# NOTA IMPORTANTE: input_dim es el tamaño del vocabulario
#                  output_dim es la dimensión del vector embedding resultante
# En este caso, cada palabra se convertirá en un vector de 2 dimensiones [x, y]

Este "modelo" no resuelve ningún tipo de problema solo pasa las palabras a traves de la capa de codificación y luego de la embeddings y genera por cadda palabra un vector de 2 dimensiones (output_dim). Pero además como no está entrenada funcionará porque tiene pesos inicializados de forma aleatoria. Es decir que si le pasamos como entrada la variable con la frase de ejemplo...

In [3]:
# VISUALIZACIÓN DEL PROCESO DE CODIFICACIÓN
# ==========================================
# Veamos cómo la capa StringLookup convierte nuestras palabras en índices numéricos
# Esto es el primer paso antes de crear los embeddings

pre_conversion(categorias_ejemplo)

# SALIDA ESPERADA: Un tensor con 10 números (uno por cada palabra)
# Cada número es el índice único asignado a esa palabra en el vocabulario
# Por ejemplo: "Me" -> 9, "llamo" -> 6, "Iñigo" -> 10, etc.

<tf.Tensor: shape=(10,), dtype=int64, numpy=array([ 9,  6, 10,  8,  2,  1,  5,  7,  4,  3])>

In [4]:
# APLICANDO EL EMBEDDING COMPLETO (LOOKUP + EMBEDDING)
# =====================================================
# Ahora pasamos nuestras palabras por todo el modelo secuencial:
# 1. InputLayer recibe las palabras como strings
# 2. StringLookup las convierte a índices
# 3. Embedding convierte los índices en vectores de 2 dimensiones

lookup_y_embedding(np.array(categorias_ejemplo))

# SALIDA ESPERADA: Una matriz de forma (10, 2)
# - 10 filas: una por cada palabra
# - 2 columnas: las dos dimensiones del embedding
# 
# Cada palabra ahora está representada por 2 números (ej: [-0.044, 0.034])
# IMPORTANTE: Como la capa Embedding no está entrenada, los valores son ALEATORIOS
# En un modelo real, estos valores se aprenderían durante el entrenamiento
# para capturar el significado semántico de las palabras

<tf.Tensor: shape=(10, 2), dtype=float32, numpy=
array([[ 0.03401686, -0.00235046],
       [-0.02659954,  0.01250937],
       [-0.00532951, -0.02168022],
       [ 0.03785313, -0.04871581],
       [-0.00275348, -0.02229967],
       [-0.01817041, -0.0452095 ],
       [-0.01664084, -0.02652472],
       [-0.02542669,  0.02751217],
       [ 0.03865668,  0.04478984],
       [-0.00220744, -0.00280324]], dtype=float32)>

Nos convierte cada palabra en un embedding (sin sentido)...

Otra forma de hacerlo

In [5]:
# FORMA ALTERNATIVA: PROCESANDO UNA FRASE COMPLETA
# =================================================
# En lugar de pasar una lista de palabras, podemos procesar una frase directamente
# usando split() para separar las palabras

frase = "Me llamo Iñigo Montoya"

# split() divide la frase en palabras usando espacios como separador
# ["Me", "llamo", "Iñigo", "Montoya"]
lookup_y_embedding(np.array(frase.split()))

# SALIDA: Matriz de (4, 2) - 4 palabras convertidas en vectores de 2 dimensiones
# Observa que las palabras que aparecían en el vocabulario original
# tendrán los mismos embeddings que antes (porque son las mismas palabras)

<tf.Tensor: shape=(4, 2), dtype=float32, numpy=
array([[ 0.03401686, -0.00235046],
       [-0.02659954,  0.01250937],
       [-0.00532951, -0.02168022],
       [ 0.03785313, -0.04871581]], dtype=float32)>

Para poder darle valor tendríamos que incluir nuestras dos capas (la codificadora y la de embedding) en un modelo con un objetivo determinado y la capa de embeddings se entrenaría para generar los embeddings que mejor se adapten al problema a solucionar con ese modelo

### Sentences embedding

Vamos a convertir una serie de frases en embeddings. En concreto de 50 dimensiones. Lo haremos utilizando un modelo preentrenado el nnlem-en-dim50 de Google. Internamente es un modelo word embeddings que convierte cada palabra en un embedding de 50 dimensiones y luego calcular el centroide de todos los vectores obtenidos para una frase.

In [None]:
#%pip install tensorflow-hub

In [7]:
# ============================================================================
# SENTENCE EMBEDDINGS CON TENSORFLOW HUB
# ============================================================================
# Ahora vamos a usar un modelo PREENTRENADO para convertir frases completas en embeddings
# A diferencia del ejemplo anterior, este modelo ya ha sido entrenado con millones de textos

# Importamos TensorFlow Hub: repositorio de modelos preentrenados
import tensorflow_hub as hub

# CARGANDO EL MODELO PREENTRENADO
# --------------------------------
# Modelo: NNLM (Neural Network Language Model) de Google
# - "en": entrenado en inglés
# - "dim50": genera embeddings de 50 dimensiones
# - "2": versión 2 del modelo
# 
# Este modelo funciona así:
# 1. Toma cada palabra de la frase y la convierte en un embedding de 50 dimensiones
# 2. Calcula el CENTROIDE (promedio) de todos los vectores de las palabras
# 3. El resultado es un único vector de 50 dimensiones que representa toda la frase
hub_layer = hub.KerasLayer("https://tfhub.dev/google/nnlm-en-dim50/2")

# PROBANDO EL MODELO CON DOS FRASES FAMOSAS DE SHAKESPEARE
# ---------------------------------------------------------
# "To be" y "Not to be" son frases del famoso soliloquio de Hamlet
sentence_embeddings = hub_layer(tf.constant(["To be", "Not to be"]))

# Mostramos los embeddings redondeados a 2 decimales para mejor legibilidad
sentence_embeddings.numpy().round(2)

# SALIDA ESPERADA: Matriz de (2, 50)
# - 2 filas: una por cada frase
# - 50 columnas: las 50 dimensiones del embedding
# 
# VENTAJA: Estos embeddings SÍ tienen significado semántico porque el modelo
# fue entrenado con grandes cantidades de texto. Frases similares tendrán
# embeddings cercanos en el espacio vectorial de 50 dimensiones.




















array([[-0.25,  0.28,  0.01,  0.1 ,  0.14,  0.16,  0.25,  0.02,  0.07,
         0.13, -0.19,  0.06, -0.04, -0.07,  0.  , -0.08, -0.14, -0.16,
         0.02, -0.24,  0.16, -0.16, -0.03,  0.03, -0.14,  0.03, -0.09,
        -0.04, -0.14, -0.19,  0.07,  0.15,  0.18, -0.23, -0.07, -0.08,
         0.01, -0.01,  0.09,  0.14, -0.03,  0.03,  0.08,  0.1 , -0.01,
        -0.03, -0.07, -0.1 ,  0.05,  0.31],
       [-0.2 ,  0.2 , -0.08,  0.02,  0.19,  0.05,  0.22, -0.09,  0.02,
         0.19, -0.02, -0.14, -0.2 , -0.04,  0.01, -0.07, -0.22, -0.1 ,
         0.16, -0.44,  0.31, -0.1 ,  0.23,  0.15, -0.05,  0.15, -0.13,
        -0.04, -0.08, -0.16, -0.1 ,  0.13,  0.13, -0.18, -0.04,  0.03,
        -0.1 , -0.07,  0.07,  0.03, -0.08,  0.02,  0.05,  0.07, -0.14,
        -0.1 , -0.18, -0.13, -0.04,  0.15]], dtype=float32)

Probemos ahora algunas cosas como por ejemplo obtener la similitud entre sentencias

In [8]:
# CORPUS DE EJEMPLO: FRASES EN ESPAÑOL SOBRE DIFERENTES TEMAS
# =============================================================
# Vamos a probar el modelo con frases en español (aunque fue entrenado en inglés)
# Tenemos dos categorías de frases:
# - Frases 1 y 2: Sobre fútbol (Real Madrid y Barcelona)
# - Frases 3 y 4: Sobre la guerra Rusia-Ucrania

sentences = ['El Real Madrid lo tiene difícil para ganar al Manchester City.',
             'El Barcelona puede clasificar frente al PSG, si se esfuerza.',
             'Las tropas rusas han tomado Dubroknic.',
             'El ejercito ucraniano se ha replegado']

# OBJETIVO: Verificar si el modelo puede capturar la similitud semántica
# incluso en español (idioma diferente al de entrenamiento)
# - Las frases 1-2 deberían ser similares entre sí (ambas de fútbol)
# - Las frases 3-4 deberían ser similares entre sí (ambas de guerra)
# - Las frases de diferentes temas deberían ser menos similares

In [9]:
# GENERANDO EMBEDDINGS PARA NUESTRAS 4 FRASES EN ESPAÑOL
# ========================================================
# Convertimos cada frase en un vector de 50 dimensiones

sentence_embeddings = hub_layer(tf.constant(sentences))

# RESULTADO: Matriz de (4, 50)
# - 4 frases → 4 vectores
# - Cada vector tiene 50 dimensiones
# 
# Ahora cada frase está representada en un espacio vectorial donde:
# - Frases con significados similares estarán CERCA
# - Frases con significados diferentes estarán LEJOS

In [10]:
# ============================================================================
# CALCULANDO SIMILITUD ENTRE TODAS LAS FRASES
# ============================================================================
# Vamos a comparar cada frase con todas las demás usando dos métricas:
# 1. SIMILITUD DE COSENO: mide el ángulo entre vectores (valores entre -1 y 1)
# 2. DISTANCIA EUCLIDIANA: mide la distancia "directa" entre vectores

# Importamos las herramientas necesarias
from sklearn.metrics.pairwise import cosine_similarity  # Para calcular similitud de coseno
from itertools import combinations  # Para generar todas las combinaciones posibles

# COMPARACIÓN DE TODAS LAS COMBINACIONES POSIBLES
# -----------------------------------------------
# combinations(lista, r=2) genera todos los pares posibles sin repetir
# Por ejemplo: (1,2), (1,3), (1,4), (2,3), (2,4), (3,4)

for (frase1, vec1), (frase2, vec2) in combinations(zip(sentences, sentence_embeddings.numpy()), r=2):
    # Calculamos dos métricas de similitud:
    
    # 1. SIMILITUD DE COSENO (valores cercanos a 1 = muy similares)
    similitud_coseno = cosine_similarity([vec1], [vec2])
    
    # 2. DISTANCIA EUCLIDIANA (valores pequeños = muy similares)
    distancia_euclidiana = np.linalg.norm(vec1 - vec2)
    
    # Mostramos los resultados
    print(frase1, "vs", frase2, similitud_coseno, distancia_euclidiana)

# INTERPRETACIÓN DE RESULTADOS:
# -----------------------------
# SIMILITUD DE COSENO:
# - Valores cercanos a 1: frases muy similares
# - Valores cercanos a 0: frases no relacionadas
# - Valores cercanos a -1: frases opuestas
#
# DISTANCIA EUCLIDIANA:
# - Valores pequeños: frases similares
# - Valores grandes: frases diferentes
#
# ESPERADO: Las frases de fútbol (1-2) y las de guerra (3-4) deberían
# tener mayor similitud entre sí que frases de temas diferentes

El Real Madrid lo tiene difícil para ganar al Manchester City. vs El Barcelona puede clasificar frente al PSG, si se esfuerza. [[0.82780886]] 1.058024
El Real Madrid lo tiene difícil para ganar al Manchester City. vs Las tropas rusas han tomado Dubroknic. [[0.5830585]] 1.505526
El Real Madrid lo tiene difícil para ganar al Manchester City. vs El ejercito ucraniano se ha replegado [[0.6408398]] 1.4179276
El Barcelona puede clasificar frente al PSG, si se esfuerza. vs Las tropas rusas han tomado Dubroknic. [[0.60794]] 1.3915229
El Barcelona puede clasificar frente al PSG, si se esfuerza. vs El ejercito ucraniano se ha replegado [[0.7498946]] 1.1573553
Las tropas rusas han tomado Dubroknic. vs El ejercito ucraniano se ha replegado [[0.5510596]] 1.1434852


Con el coseno tendríamos algún problema con la distancia quedan mejor emparejadas.

In [11]:
# ============================================================================
# SISTEMA DE PREGUNTAS Y RESPUESTAS CON EMBEDDINGS
# ============================================================================
# Vamos a crear un sistema básico de Q&A que encuentra la respuesta más relevante
# para una pregunta dada, basándose en la similitud de embeddings

# PREGUNTA 1: Sobre el Barcelona
# --------------------------------
question = "¿Contra quién juega el Barcelona?"

# Paso 1: Convertir la pregunta en un embedding de 50 dimensiones
pregunta = hub_layer(tf.constant([question]))
vec_q = pregunta.numpy()  # Convertimos a numpy array para facilitar cálculos

# Paso 2: Calcular distancia entre la pregunta y cada frase candidata
distancias = []  # Almacenará las distancias
respuestas = []  # Almacenará las frases candidatas

for answer, vec_a in zip(sentences, sentence_embeddings.numpy()):
    respuestas.append(answer)
    
    # Calculamos distancia euclidiana entre embedding de pregunta y respuesta
    # Menor distancia = mayor similitud semántica
    distancias.append(np.linalg.norm(vec_q - vec_a))

# Paso 3: Encontrar la respuesta con menor distancia (más similar)
# np.argmin() devuelve el índice del valor mínimo
indice_mejor_respuesta = np.argmin(distancias)

# Mostramos pregunta y respuesta
print(f"P:{question}")
print(f"R:{respuestas[indice_mejor_respuesta]}")

# FUNCIONAMIENTO:
# ---------------
# El modelo encuentra que "El Barcelona puede clasificar frente al PSG..."
# es la frase más similar a la pregunta porque:
# - Ambas contienen la palabra "Barcelona"
# - Ambas tienen contexto de fútbol
# - Los embeddings capturan esta similitud semántica

P:¿Contra quién juega el Barcelona?
R:El Barcelona puede clasificar frente al PSG, si se esfuerza.


In [12]:
# PREGUNTA 2: Sobre Ucrania
# --------------------------
# Probamos el mismo sistema con una pregunta sobre tema militar

question = "¿Qué hacen los ucranianos?"

# Convertimos la pregunta en embedding
pregunta = hub_layer(tf.constant([question]))
vec_q = pregunta.numpy()

# Calculamos distancias con todas las frases candidatas
distancias = []
respuestas = []

for answer, vec_a in zip(sentences, sentence_embeddings.numpy()):
    respuestas.append(answer)
    distancias.append(np.linalg.norm(vec_q - vec_a))

# Encontramos la frase más similar
print(f"P:{question}")
print(f"R:{respuestas[np.argmin(distancias)]}")

# RESULTADO ESPERADO:
# -------------------
# Debería devolver "El ejercito ucraniano se ha replegado"
# porque es la única frase que menciona acciones de los ucranianos
# 
# NOTA: El embedding captura que "ucranianos" y "ucraniano" son similares
# incluso con diferente forma (plural vs singular)

P:¿Qué hacen los ucranianos?
R:El ejercito ucraniano se ha replegado


In [13]:
# PREGUNTA 3: Sobre una ubicación específica
# -------------------------------------------
# Probamos con una pregunta sobre un lugar específico (Dubrovnik)

question = "¿Qué han pasado en Dubrocnick?"

# Convertimos la pregunta en embedding
pregunta = hub_layer(tf.constant([question]))
vec_q = pregunta.numpy()

# Calculamos distancias con todas las frases candidatas
distancias = []
respuestas = []

for answer, vec_a in zip(sentences, sentence_embeddings.numpy()):
    respuestas.append(answer)
    distancias.append(np.linalg.norm(vec_q - vec_a))

# Encontramos la frase más similar
print(f"P:{question}")
print(f"R:{respuestas[np.argmin(distancias)]}")

# RESULTADO ESPERADO:
# -------------------
# Debería devolver "Las tropas rusas han tomado Dubroknic."
# 
# ASPECTO INTERESANTE:
# --------------------
# Observa que en la pregunta escribimos "Dubrocnick" (con error ortográfico)
# pero el sistema encuentra la respuesta correcta con "Dubroknic"
# Esto demuestra la ROBUSTEZ de los embeddings ante pequeñas variaciones
# en la escritura, porque capturan el significado semántico general
# 
# APLICACIONES PRÁCTICAS:
# -----------------------
# Este tipo de sistema se usa en:
# - Chatbots que buscan respuestas en una base de conocimiento
# - Buscadores semánticos que encuentran documentos relevantes
# - Sistemas de recomendación de contenido similar
# - FAQ automáticos que encuentran la pregunta frecuente más parecida

P:¿Qué han pasado en Dubrocnick?
R:Las tropas rusas han tomado Dubroknic.
