# Introducci√≥n a los Embeddings de Texto con Modelos Abiertos

Este cuaderno te ense√±ar√° los conceptos fundamentales de los **embeddings de texto** usando modelos abiertos disponibles en Hugging Face. Los embeddings son representaciones num√©ricas de palabras o frases que capturan su significado sem√°ntico de manera que las computadoras puedan procesarlo.

## ¬øQu√© vas a aprender?

1. **Qu√© son los embeddings** y por qu√© son √∫tiles en el procesamiento de lenguaje natural
2. **C√≥mo generar embeddings** usando modelos pre-entrenados abiertos
3. **Calcular similitudes** entre textos usando embeddings
4. **Diferencias** entre embeddings de palabras y de oraciones
5. **Aplicaciones pr√°cticas** de los embeddings
6. **Comparar diferentes modelos** para encontrar el mejor para espa√±ol

## Ventajas de usar modelos abiertos

- **Gratuitos**: No hay costos por uso como con APIs comerciales
- **Transparentes**: Pod√©s inspeccionar y entender c√≥mo funcionan
- **Personalizables**: Los pod√©s afinar para tu dominio espec√≠fico
- **Privacidad**: Tus datos no salen de tu computadora

## Configuraci√≥n del Entorno

Primero instalamos las librer√≠as necesarias. Vamos a usar:
- **sentence-transformers**: Para generar embeddings de alta calidad
- **scikit-learn**: Para calcular similitudes
- **numpy**: Para manipulaci√≥n de arrays
- **ipywidgets**: Para interfaces interactivas

Si est√°s corriendo esto localmente, descoment√° la siguiente l√≠nea:

In [None]:
!pip install sentence-transformers scikit-learn numpy ipywidgets -q

[?25l   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.0/1.6 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[91m‚ï∏[0m [32m1.6/1.6 MB[0m [31m45.8 MB/s[0m eta [36m0:00:01[0m[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m1.6/1.6 MB[0m [31m24.4 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
# Importamos las librer√≠as necesarias
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
import warnings
warnings.filterwarnings('ignore')  # Silenciamos warnings menores

print("‚úÖ Librer√≠as importadas correctamente")

‚úÖ Librer√≠as importadas correctamente


## Selecci√≥n del Modelo

Vamos a usar un modelo pre-entrenado que funciona bien con espa√±ol. Te mostramos varias opciones:

1. **`paraphrase-multilingual-MiniLM-L12-v2`**: R√°pido, funciona bien con espa√±ol
2. **`distiluse-base-multilingual-cased`**: Buena calidad, multiidioma
3. **`all-MiniLM-L6-v2`**: Muy r√°pido, principalmente ingl√©s pero funciona con espa√±ol

Empezamos con el modelo multiling√ºe que da buenos resultados en espa√±ol:

In [None]:
# Cargamos el modelo de embeddings
modelo_nombre = 'sentence-transformers/distiluse-base-multilingual-cased-v2'
modelo_embeddings = SentenceTransformer(modelo_nombre)

print(f"‚úÖ Modelo cargado: {modelo_nombre}")
print(f"üìä Dimensi√≥n de los embeddings: {modelo_embeddings.get_sentence_embedding_dimension()}")

modules.json:   0%|          | 0.00/341 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/610 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/539M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/531 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/114 [00:00<?, ?B/s]

2_Dense/model.safetensors:   0%|          | 0.00/1.58M [00:00<?, ?B/s]

‚úÖ Modelo cargado: sentence-transformers/distiluse-base-multilingual-cased-v2
üìä Dimensi√≥n de los embeddings: 512


## Tu Primer Embedding

Vamos a generar el embedding de una palabra simple y ver qu√© aspecto tiene:

In [None]:
# Generamos el embedding de una palabra
palabra = "vida"
embedding = modelo_embeddings.encode([palabra])

print(f"Palabra: '{palabra}'")
print(f"Longitud del embedding: {len(embedding[0])}")
print(f"Primeros 10 valores: {embedding[0][:10]}")
print(f"Tipo de datos: {type(embedding[0][0])}")

Palabra: 'vida'
Longitud del embedding: 512
Primeros 10 valores: [ 0.01135431  0.03165706  0.0005522  -0.00983733 -0.05544117 -0.02832641
 -0.04866723 -0.01849577 -0.02111436 -0.06133432]
Tipo de datos: <class 'numpy.float32'>


### ¬øQu√© acabamos de ver?

- **Un embedding es un vector**: Una lista de n√∫meros que representa el significado de la palabra
- **Dimensionalidad fija**: Todos los embeddings tienen la misma longitud (384 en este modelo)
- **N√∫meros decimales**: Los valores pueden ser positivos o negativos, generalmente entre -1 y 1
- **Significado distribuido**: Cada dimensi√≥n captura alg√∫n aspecto del significado

## Embeddings de Oraciones

Los modelos modernos pueden generar embeddings que representan oraciones completas, considerando el contexto y el orden de las palabras:

In [None]:
# Generamos el embedding de una oraci√≥n completa
oracion = "¬øCu√°l es el sentido de la vida?"
embedding = modelo_embeddings.encode([oracion])

print(f"Oraci√≥n: '{oracion}'")
print(f"Longitud del embedding: {len(embedding[0])}")
print(f"Primeros 10 valores: {embedding[0][:10]}")

Oraci√≥n: '¬øCu√°l es el sentido de la vida?'
Longitud del embedding: 512
Primeros 10 valores: [ 0.01623319 -0.04003485  0.03519869  0.00145082 -0.07798815 -0.04161033
 -0.04850182  0.00988518 -0.00833548 -0.11256867]


## Calculando Similitudes

Una de las aplicaciones m√°s √∫tiles de los embeddings es medir qu√© tan similares son dos textos. Usamos la **similitud coseno**, que va de 0 (nada similar) a 1 (id√©ntico).

Probemos con tres oraciones de diferente similitud:

In [None]:
# Definimos tres oraciones para comparar
oracion_1 = "¬øCu√°l es el sentido de la vida?"
oracion_2 = "¬øC√≥mo podemos vivir una vida plena y significativa?"
oracion_3 = "¬øTe gustar√≠a una ensalada?"

# Generamos los embeddings
emb_1 = modelo_embeddings.encode([oracion_1])
emb_2 = modelo_embeddings.encode([oracion_2])
emb_3 = modelo_embeddings.encode([oracion_3])

print("üîç Comparando similitudes:")
print(f"Oraci√≥n 1: '{oracion_1}'")
print(f"Oraci√≥n 2: '{oracion_2}'")
print(f"Oraci√≥n 3: '{oracion_3}'")
print()

# Calculamos similitudes
sim_1_2 = cosine_similarity(emb_1, emb_2)[0][0]
sim_1_3 = cosine_similarity(emb_1, emb_3)[0][0]
sim_2_3 = cosine_similarity(emb_2, emb_3)[0][0]

print(f"üìä Similitud entre Oraci√≥n 1 y 2: {sim_1_2:.3f}")
print(f"üìä Similitud entre Oraci√≥n 1 y 3: {sim_1_3:.3f}")
print(f"üìä Similitud entre Oraci√≥n 2 y 3: {sim_2_3:.3f}")

üîç Comparando similitudes:
Oraci√≥n 1: '¬øCu√°l es el sentido de la vida?'
Oraci√≥n 2: '¬øC√≥mo podemos vivir una vida plena y significativa?'
Oraci√≥n 3: '¬øTe gustar√≠a una ensalada?'

üìä Similitud entre Oraci√≥n 1 y 2: 0.613
üìä Similitud entre Oraci√≥n 1 y 3: 0.171
üìä Similitud entre Oraci√≥n 2 y 3: 0.077


### Interpretando los Resultados

- **Alta similitud (>0.7)**: Los textos tratan temas muy relacionados
- **Similitud media (0.3-0.7)**: Hay alguna relaci√≥n sem√°ntica
- **Baja similitud (<0.3)**: Los textos son sobre temas diferentes

¬øLos resultados coinciden con tu intuici√≥n? Las primeras dos oraciones deber√≠an ser m√°s similares entre s√≠ que con la tercera.

## Embeddings de Palabras vs. Embeddings de Oraciones

Vamos a explorar la diferencia entre promediar embeddings de palabras individuales y generar embeddings de oraciones completas. Esto te ayudar√° a entender por qu√© los modelos modernos son mejores.

Usemos dos oraciones que tienen las mismas palabras pero significados diferentes:

In [None]:
# Dos oraciones con las mismas palabras pero diferente significado
oracion_1 = "Los ni√±os juegan en el parque"
oracion_2 = "La obra de teatro fue para ni√±os en el parque"

print(f"Oraci√≥n 1: '{oracion_1}'")
print(f"Oraci√≥n 2: '{oracion_2}'")
print()

# Palabras clave (sin art√≠culos, preposiciones, etc.)
palabras_clave = ["ni√±os", "juegan", "parque", "obra", "teatro"]
print(f"Palabras clave extra√≠das: {palabras_clave}")

Oraci√≥n 1: 'Los ni√±os juegan en el parque'
Oraci√≥n 2: 'La obra de teatro fue para ni√±os en el parque'

Palabras clave extra√≠das: ['ni√±os', 'juegan', 'parque', 'obra', 'teatro']


### M√©todo 1: Promediando Embeddings de Palabras

Este es el m√©todo "naive" - simplemente promediamos los embeddings de cada palabra:

In [None]:
# Generamos embeddings para cada palabra individualmente
embeddings_palabras = modelo_embeddings.encode(palabras_clave)
print(f"Forma del array de embeddings: {embeddings_palabras.shape}")
print(f"(Tenemos {len(palabras_clave)} palabras, cada una con {embeddings_palabras.shape[1]} dimensiones)")

# Calculamos el promedio
embedding_promedio = np.mean(embeddings_palabras, axis=0)
print(f"\nForma del embedding promedio: {embedding_promedio.shape}")
print(f"Primeros 5 valores: {embedding_promedio[:5]}")

### M√©todo 2: Embeddings de Oraciones Completas

Ahora usamos el modelo para generar embeddings que consideran el contexto y el orden:

In [None]:
# Generamos embeddings de las oraciones completas
emb_oracion_1 = modelo_embeddings.encode([oracion_1])
emb_oracion_2 = modelo_embeddings.encode([oracion_2])

print("Embeddings de oraciones completas:")
print(f"Oraci√≥n 1 - Primeros 5 valores: {emb_oracion_1[0][:5]}")
print(f"Oraci√≥n 2 - Primeros 5 valores: {emb_oracion_2[0][:5]}")

# Calculamos la similitud entre las dos oraciones
similitud_oraciones = cosine_similarity(emb_oracion_1, emb_oracion_2)[0][0]
print(f"\nüìä Similitud entre las oraciones: {similitud_oraciones:.3f}")

### Comparando los M√©todos

Veamos qu√© tan diferentes son los embeddings generados por cada m√©todo:

In [None]:
# Comparamos el embedding promedio con los embeddings de oraciones
# Nota: necesitamos ajustar las dimensiones para la comparaci√≥n
embedding_promedio_reshaped = embedding_promedio.reshape(1, -1)

sim_promedio_oracion1 = cosine_similarity(embedding_promedio_reshaped, emb_oracion_1)[0][0]
sim_promedio_oracion2 = cosine_similarity(embedding_promedio_reshaped, emb_oracion_2)[0][0]

print("üîç Resultados de la comparaci√≥n:")
print(f"Similitud: Promedio de palabras vs Oraci√≥n 1: {sim_promedio_oracion1:.3f}")
print(f"Similitud: Promedio de palabras vs Oraci√≥n 2: {sim_promedio_oracion2:.3f}")
print(f"Similitud: Oraci√≥n 1 vs Oraci√≥n 2: {similitud_oraciones:.3f}")

print("\nüí° Observaciones:")
if abs(sim_promedio_oracion1 - sim_promedio_oracion2) < 0.1:
    print("- El m√©todo de promedio ve las oraciones como muy similares")
    print("- Esto se debe a que ignora el orden y el contexto")
else:
    print("- Incluso el promedio detecta algunas diferencias")

if similitud_oraciones < 0.8:
    print("- Los embeddings de oraciones capturan mejor las diferencias de significado")
    print("- Consideran el contexto y la estructura gramatical")

## Aplicaciones Pr√°cticas

Los embeddings tienen muchas aplicaciones √∫tiles. Veamos algunas:

### 1. B√∫squeda Sem√°ntica

Pod√©s buscar documentos por significado, no solo por palabras exactas:

In [None]:
# Base de documentos de ejemplo
documentos = [
    "C√≥mo preparar una deliciosa pasta carbonara italiana",
    "Los beneficios del ejercicio f√≠sico para la salud mental",
    "Tutorial de programaci√≥n en Python para principiantes",
    "Receta tradicional de empanadas argentinas",
    "Introducci√≥n al aprendizaje autom√°tico y redes neuronales",
    "Beneficios de la meditaci√≥n y mindfulness para reducir estr√©s"
]

# Consulta del usuario
consulta = "quiero aprender a cocinar"

print(f"üîç Buscando documentos relacionados con: '{consulta}'")
print()

# Generamos embeddings
emb_consulta = modelo_embeddings.encode([consulta])
emb_documentos = modelo_embeddings.encode(documentos)

# Calculamos similitudes
similitudes = cosine_similarity(emb_consulta, emb_documentos)[0]

# Ordenamos por similitud
indices_ordenados = np.argsort(similitudes)[::-1]

print("üìä Resultados ordenados por relevancia:")
for i, idx in enumerate(indices_ordenados):
    print(f"{i+1}. [{similitudes[idx]:.3f}] {documentos[idx]}")

üîç Buscando documentos relacionados con: 'quiero aprender a cocinar'

üìä Resultados ordenados por relevancia:
1. [0.336] C√≥mo preparar una deliciosa pasta carbonara italiana
2. [0.272] Tutorial de programaci√≥n en Python para principiantes
3. [0.169] Receta tradicional de empanadas argentinas
4. [0.165] Introducci√≥n al aprendizaje autom√°tico y redes neuronales
5. [0.041] Los beneficios del ejercicio f√≠sico para la salud mental
6. [0.033] Beneficios de la meditaci√≥n y mindfulness para reducir estr√©s


### 2. Agrupamiento de Textos

Pod√©s agrupar textos similares autom√°ticamente:

In [None]:
# Comentarios de usuarios sobre diferentes temas
comentarios = [
    "Me encanta la pizza margherita",
    "El f√∫tbol argentino es apasionante",
    "Python es un lenguaje muy √∫til",
    "Las empanadas est√°n deliciosas",
    "Messi es el mejor jugador del mundo",
    "JavaScript es complicado a veces",
    "Prefiero el asado a la parrilla",
    "La programaci√≥n requiere pr√°ctica"
]

# Generamos embeddings
emb_comentarios = modelo_embeddings.encode(comentarios)

# Calculamos matriz de similitudes
matriz_similitudes = cosine_similarity(emb_comentarios)

print("üîç Encontrando comentarios similares (similitud > 0.3):")
print()

for i in range(len(comentarios)):
    similares = []
    for j in range(len(comentarios)):
        if i != j and matriz_similitudes[i][j] > 0.3:
            similares.append((j, matriz_similitudes[i][j]))

    if similares:
        similares.sort(key=lambda x: x[1], reverse=True)
        print(f"'{comentarios[i]}'")
        for j, sim in similares:
            print(f"  ‚îî‚îÄ [{sim:.3f}] '{comentarios[j]}'")
        print()

üîç Encontrando comentarios similares (similitud > 0.3):

'Me encanta la pizza margherita'
  ‚îî‚îÄ [0.545] 'Las empanadas est√°n deliciosas'
  ‚îî‚îÄ [0.510] 'Prefiero el asado a la parrilla'

'El f√∫tbol argentino es apasionante'
  ‚îî‚îÄ [0.545] 'Messi es el mejor jugador del mundo'
  ‚îî‚îÄ [0.342] 'Las empanadas est√°n deliciosas'

'Python es un lenguaje muy √∫til'
  ‚îî‚îÄ [0.385] 'JavaScript es complicado a veces'

'Las empanadas est√°n deliciosas'
  ‚îî‚îÄ [0.545] 'Me encanta la pizza margherita'
  ‚îî‚îÄ [0.419] 'Prefiero el asado a la parrilla'
  ‚îî‚îÄ [0.342] 'El f√∫tbol argentino es apasionante'

'Messi es el mejor jugador del mundo'
  ‚îî‚îÄ [0.545] 'El f√∫tbol argentino es apasionante'

'JavaScript es complicado a veces'
  ‚îî‚îÄ [0.385] 'Python es un lenguaje muy √∫til'

'Prefiero el asado a la parrilla'
  ‚îî‚îÄ [0.510] 'Me encanta la pizza margherita'
  ‚îî‚îÄ [0.419] 'Las empanadas est√°n deliciosas'



## Experiment√° con Tus Propios Textos

Ahora es tu turno. Prob√° con textos que te interesen:

In [None]:
# Cambi√° estos textos por los que quieras probar
mis_textos = [
    "Escrib√≠ aqu√≠ tu primer texto",
    "Y aqu√≠ tu segundo texto",
    "Pod√©s agregar m√°s textos si quer√©s"
]

# Generamos embeddings y calculamos similitudes
mis_embeddings = modelo_embeddings.encode(mis_textos)
mis_similitudes = cosine_similarity(mis_embeddings)

print("üîç Similitudes entre tus textos:")
for i in range(len(mis_textos)):
    for j in range(i+1, len(mis_textos)):
        sim = mis_similitudes[i][j]
        print(f"Texto {i+1} vs Texto {j+1}: {sim:.3f}")
        print(f"  '{mis_textos[i]}'")
        print(f"  '{mis_textos[j]}'")
        print()

## Comparaci√≥n de Modelos: Prob√° los Mejores para Espa√±ol

Ahora que entend√©s los conceptos b√°sicos, es hora de comparar diferentes modelos para ver cu√°l funciona mejor para tus necesidades. Incluimos los nuevos **EmbeddingGemma** de Google y otros modelos top-rankeados para espa√±ol.

In [None]:
# Instalamos ipywidgets para el men√∫ desplegable interactivo
# !pip install ipywidgets

import ipywidgets as widgets
from IPython.display import display, clear_output
import time
import gc

# Definimos los modelos a comparar
modelos_disponibles = {
    "Google EmbeddingGemma (Nuevo)": "google/embeddinggemma-300m",
    "Multilingual MiniLM (R√°pido)": "paraphrase-multilingual-MiniLM-L12-v2",
    "E5 Multilingual Large (Alta Calidad)": "intfloat/multilingual-e5-large",
    "Sentence-BERT Espa√±ol": "sentence-transformers/distiluse-base-multilingual-cased-v2",
    "Universal Sentence Encoder": "sentence-transformers/distiluse-base-multilingual-cased",
    "BGE Multilingual (Estado del Arte)": "BAAI/bge-m3"
}

print("üéØ Modelos disponibles para comparaci√≥n:")
for nombre, modelo_id in modelos_disponibles.items():
    print(f"‚Ä¢ {nombre}: {modelo_id}")

üéØ Modelos disponibles para comparaci√≥n:
‚Ä¢ Google EmbeddingGemma (Nuevo): google/embeddinggemma-300m
‚Ä¢ Multilingual MiniLM (R√°pido): paraphrase-multilingual-MiniLM-L12-v2
‚Ä¢ E5 Multilingual Large (Alta Calidad): intfloat/multilingual-e5-large
‚Ä¢ Sentence-BERT Espa√±ol: sentence-transformers/distiluse-base-multilingual-cased-v2
‚Ä¢ Universal Sentence Encoder: sentence-transformers/distiluse-base-multilingual-cased
‚Ä¢ BGE Multilingual (Estado del Arte): BAAI/bge-m3


### Men√∫ Interactivo de Comparaci√≥n

Us√° el men√∫ desplegable para seleccionar un modelo y probar su rendimiento con oraciones en espa√±ol:

In [None]:
# Oraciones de prueba en espa√±ol para evaluar los modelos
oraciones_prueba = [
    "Me gusta mucho la comida argentina",
    "Disfruto de la gastronom√≠a de Argentina",
    "El f√∫tbol es mi deporte favorito",
    "Prefiero mirar partidos de soccer",
    "Necesito ayuda con mi tarea de matem√°ticas",
    "¬øPod√©s explicarme este problema de √°lgebra?",
    "El clima est√° muy lindo hoy",
    "Hace un d√≠a hermoso para salir",
    "Ma√±ana tengo un examen importante",
    "Voy al supermercado a comprar verduras"
]

# Creamos el widget de selecci√≥n
selector_modelo = widgets.Dropdown(
    options=list(modelos_disponibles.keys()),
    value=list(modelos_disponibles.keys())[0],
    description='Modelo:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='70%')
)

boton_evaluar = widgets.Button(
    description='üîç Evaluar Modelo',
    button_style='primary',
    layout=widgets.Layout(width='200px')
)

area_resultados = widgets.Output()

# Variable global para almacenar el modelo actual
modelo_actual = None
nombre_modelo_actual = None

def cargar_modelo(nombre_modelo):
    """Carga un modelo de manera segura con manejo de errores"""
    global modelo_actual, nombre_modelo_actual

    modelo_id = modelos_disponibles[nombre_modelo]

    try:
        # Liberamos memoria del modelo anterior
        if modelo_actual is not None:
            del modelo_actual
            gc.collect()

        print(f"‚è≥ Cargando {nombre_modelo}...")
        start_time = time.time()

        # Intentamos cargar el modelo
        modelo_actual = SentenceTransformer(modelo_id)
        nombre_modelo_actual = nombre_modelo

        load_time = time.time() - start_time
        dimensiones = modelo_actual.get_sentence_embedding_dimension()

        print(f"‚úÖ Modelo cargado exitosamente")
        print(f"‚ö° Tiempo de carga: {load_time:.2f} segundos")
        print(f"üìä Dimensiones: {dimensiones}")

        return True

    except Exception as e:
        print(f"‚ùå Error cargando {nombre_modelo}: {str(e)}")
        print(f"üí° Prob√° con otro modelo o verific√° tu conexi√≥n a internet")
        return False

def evaluar_modelo(button):
    """Eval√∫a el modelo seleccionado con las oraciones de prueba"""
    with area_resultados:
        clear_output(wait=True)

        nombre_seleccionado = selector_modelo.value

        # Cargamos el modelo si no est√° cargado o cambi√≥
        if nombre_modelo_actual != nombre_seleccionado:
            if not cargar_modelo(nombre_seleccionado):
                return

        print(f"\nüß™ Evaluando: {nombre_seleccionado}")
        print("=" * 50)

        try:
            # Generamos embeddings
            start_time = time.time()
            embeddings = modelo_actual.encode(oraciones_prueba)
            inference_time = time.time() - start_time

            print(f"‚ö° Tiempo de inferencia: {inference_time:.2f} segundos")
            print(f"üìä {len(oraciones_prueba)} oraciones procesadas")
            print(f"üî¢ Dimensiones por embedding: {embeddings.shape[1]}")

            # Calculamos similitudes entre pares relacionados
            similitudes_esperadas = [
                (0, 1, "Comida argentina"),  # Comida argentina vs gastronom√≠a Argentina
                (2, 3, "F√∫tbol/Soccer"),     # F√∫tbol vs soccer
                (4, 5, "Ayuda matem√°ticas"), # Ayuda matem√°ticas vs √°lgebra
                (6, 7, "Clima lindo"),       # Clima lindo vs d√≠a hermoso
            ]

            print("\nüéØ Similitudes entre oraciones relacionadas:")
            matriz_sim = cosine_similarity(embeddings)

            total_similitud = 0
            for i, j, descripcion in similitudes_esperadas:
                sim = matriz_sim[i][j]
                total_similitud += sim
                print(f"‚Ä¢ {descripcion}: {sim:.3f}")
                print(f"  '{oraciones_prueba[i]}'")
                print(f"  '{oraciones_prueba[j]}'")
                print()

            # Calculamos una m√©trica de calidad promedio
            calidad_promedio = total_similitud / len(similitudes_esperadas)
            print(f"üìà Calidad promedio: {calidad_promedio:.3f}")

            # Interpretaci√≥n de la calidad
            if calidad_promedio > 0.7:
                print("üåü Excelente calidad para espa√±ol")
            elif calidad_promedio > 0.5:
                print("üëç Buena calidad para espa√±ol")
            elif calidad_promedio > 0.3:
                print("‚ö†Ô∏è Calidad moderada para espa√±ol")
            else:
                print("‚ùå Calidad baja para espa√±ol")

        except Exception as e:
            print(f"‚ùå Error durante la evaluaci√≥n: {str(e)}")

# Conectamos el bot√≥n a la funci√≥n
boton_evaluar.on_click(evaluar_modelo)

# Mostramos los widgets
print("üéÆ Interfaz Interactiva de Comparaci√≥n de Modelos")
print("" * 50)
display(widgets.VBox([
    widgets.HBox([selector_modelo, boton_evaluar]),
    area_resultados
]))

üéÆ Interfaz Interactiva de Comparaci√≥n de Modelos



VBox(children=(HBox(children=(Dropdown(description='Modelo:', layout=Layout(width='70%'), options=('Google Emb‚Ä¶

### Informaci√≥n T√©cnica de los Modelos

Ac√° ten√©s detalles t√©cnicos sobre cada modelo incluido en la comparaci√≥n:

#### üÜï **Google EmbeddingGemma (Nuevo)**
- **Modelo**: `google/embeddinggemma-300m`
- **Par√°metros**: 300M
- **Especialidad**: √öltimo modelo de Google, optimizado para similitud sem√°ntica
- **Ventajas**: Arquitectura moderna, eficiente en memoria

#### ‚ö° **Multilingual MiniLM (Recomendado para empezar)**
- **Modelo**: `paraphrase-multilingual-MiniLM-L12-v2`
- **Par√°metros**: ~118M
- **Especialidad**: Balance perfecto velocidad/calidad, excelente con espa√±ol
- **Ventajas**: R√°pido, confiable, bien documentado

#### üåü **E5 Multilingual Large**
- **Modelo**: `intfloat/multilingual-e5-large`
- **Par√°metros**: ~560M
- **Especialidad**: Estado del arte en calidad multiling√ºe
- **Ventajas**: M√°xima calidad, muy bueno con espa√±ol

#### üá™üá∏ **DistilRoBERTa Espa√±ol**
- **Modelo**: `sentence-transformers/paraphrase-spanish-distilroberta`
- **Par√°metros**: ~125M
- **Especialidad**: Entrenado espec√≠ficamente en espa√±ol
- **Ventajas**: Optimizado para espa√±ol, entiende jerga regional

#### üîÑ **BGE Multilingual (Estado del Arte)**
- **Modelo**: `BAAI/bge-m3`
- **Par√°metros**: ~560M
- **Especialidad**: √öltimo estado del arte en embeddings multiling√ºes
- **Ventajas**: M√°ximo rendimiento, soporte para 100+ idiomas

### üí° **Recomendaciones de Uso**

- **Para aprendizaje**: Empez√° con Multilingual MiniLM
- **Para producci√≥n con calidad**: E5 Multilingual Large o BGE-M3
- **Para espa√±ol espec√≠fico**: DistilRoBERTa Espa√±ol
- **Para experimentar**: Google EmbeddingGemma (muy nuevo)
- **Para velocidad**: Multilingual MiniLM o Universal Sentence Encoder

## Pr√≥ximos Pasos

Ahora que entend√©s los conceptos b√°sicos, pod√©s explorar:

1. **Otros modelos**: Prob√° modelos especializados en espa√±ol como `sentence-transformers/paraphrase-spanish-distilroberta`
2. **Fine-tuning**: Entren√° un modelo espec√≠fico para tu dominio
3. **Aplicaciones avanzadas**:
   - Sistemas de recomendaci√≥n
   - Clasificaci√≥n de textos
   - Traducci√≥n autom√°tica
   - Chatbots inteligentes

### Modelos Recomendados para Espa√±ol

```python
# Otros modelos que pod√©s probar:
modelos_espa√±ol = [
    'sentence-transformers/paraphrase-spanish-distilroberta',
    'sentence-transformers/distiluse-base-multilingual-cased',
    'hiiamsid/sentence_similarity_spanish_es',
]
```

## Resumen

En este cuaderno aprendiste:

‚úÖ **Qu√© son los embeddings**: Representaciones num√©ricas del significado de textos

‚úÖ **C√≥mo generarlos**: Usando modelos pre-entrenados de Hugging Face

‚úÖ **Calcular similitudes**: Con la similitud coseno para medir qu√© tan parecidos son dos textos

‚úÖ **Diferencias importantes**: Entre embeddings de palabras promediados y embeddings de oraciones contextuales

‚úÖ **Aplicaciones pr√°cticas**: B√∫squeda sem√°ntica y agrupamiento de textos

‚úÖ **Comparaci√≥n de modelos**: Herramientas para encontrar el mejor modelo para tus necesidades

Los embeddings son una herramienta fundamental en el procesamiento de lenguaje natural moderno. ¬°Segu√≠ experimentando con diferentes textos y modelos para profundizar tu comprensi√≥n!