# De Text Mining a Representaciones Sem√°nticas: Un Puente Conceptual

**Tecnicatura Superior en Ciencias de Datos e Inteligencia Artificial**  
**Procesamiento de Lenguaje Natural**

---

## Introducci√≥n: Construyendo sobre Fundamentos S√≥lidos

En el laboratorio anterior trabajaron intensamente con los cuentos de Hern√°n Casciari, aplicando t√©cnicas fundamentales de **text mining**: preprocesamiento, tokenizaci√≥n, eliminaci√≥n de stop words, vectorizaci√≥n con **Bag of Words** (BoW), an√°lisis de frecuencias, y visualizaci√≥n con nubes de palabras. Fue un trabajo riguroso que les permiti√≥ extraer patrones temporales reales de un corpus aut√©ntico.

Ese laboratorio no fue solo un ejercicio t√©cnico: fue una exploraci√≥n profunda de c√≥mo la vida de un escritor se refleja en su vocabulario a lo largo del tiempo. Descubrieron la evoluci√≥n tem√°tica de Casciari, desde los primeros a√±os centrados en experiencias personales hasta la consolidaci√≥n de Orsai como proyecto editorial. Aprendieron a manejar matrices esparsas, a filtrar ruido textual, y a extraer informaci√≥n significativa de datos no estructurados.

**Hoy, sin embargo, vamos a hacer algo diferente.** En lugar de celebrar √∫nicamente los √©xitos de esa experiencia, vamos a examinar cr√≠ticamente sus limitaciones. No para desvalorizar lo que hicieron, sino para entender por qu√© necesitamos herramientas m√°s sofisticadas para capturar la riqueza sem√°ntica del lenguaje.

### Objetivo de Esta Clase

Esta clase funciona como un **puente conceptual** entre el text mining tradicional que ya dominan y las representaciones sem√°nticas que explorar√°n en la pr√°ctica del jueves. Nuestros objetivos espec√≠ficos son:

1. **Identificar y analizar las limitaciones sem√°nticas** de BoW y TF-IDF que experimentaron con Casciari
2. **Introducir el concepto de similitud sem√°ntica** y demostrar por qu√© es crucial para NLP moderno
3. **Experimentar con vectores sem√°nticos densos** usando spaCy como primer acercamiento
4. **Preparar el terreno conceptual** para word embeddings, Word2Vec y modelos similares
5. **Desarrollar intuici√≥n** sobre por qu√© las representaciones sem√°nticas revolucionaron el campo

### Metodolog√≠a: Aprendizaje por Contraste

Utilizaremos una metodolog√≠a de **aprendizaje por contraste**: confrontaremos directamente las limitaciones de BoW/TF-IDF con las capacidades de representaciones sem√°nticas. Usaremos ejemplos concretos, muchos extra√≠dos del propio corpus de Casciari, para hacer visibles problemas que quiz√°s sintieron intuitivamente pero no pudieron articular formalmente.

No se trata de reemplazar conocimiento, sino de **expandirlo y profundizarlo**.

---

## 1. Reconexi√≥n: El Corpus Casciari como Punto de Partida

### Recordando lo que Lograron

Antes de avanzar, reconozcamos la solidez del trabajo que realizaron con el corpus de Casciari. Su an√°lisis revel√≥ patrones temporales fascinantes:

- **Evoluci√≥n tem√°tica**: El vocabulario de 2004-2007 (primeros a√±os de paternidad) difer√≠a claramente del de 2010-2011 (a√±os de Orsai)
- **Diversidad l√©xica**: Identificaron a√±os con mayor riqueza vocabular y conectaron esos patrones con eventos biogr√°ficos
- **Palabras caracter√≠sticas**: Descubrieron t√©rminos que defin√≠an per√≠odos espec√≠ficos ("revista", "orsai", "papelitos")
- **T√©cnicas profesionales**: Manejaron matrices de 12√ó29,683 dimensiones, optimizaron stop words, y crearon visualizaciones informativas

Este trabajo les dio experiencia pr√°ctica con los fundamentos del NLP y una comprensi√≥n visceral de c√≥mo funciona la vectorizaci√≥n de texto en escenarios reales.

### Un Dataset Familiar para Nuevos Experimentos

Hoy volveremos a usar elementos del corpus Casciari, pero con un prop√≥sito diferente: como laboratorio para explorar las limitaciones de nuestras herramientas actuales y la necesidad de enfoques m√°s sofisticados.

In [None]:
# Configuraci√≥n inicial del entorno
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
plt.style.use('default')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

print("Entorno configurado. Iniciando exploraci√≥n cr√≠tica de text mining.")

Entorno configurado. Iniciando exploraci√≥n cr√≠tica de text mining.


In [None]:
# Recreamos algunos ejemplos inspirados en el corpus Casciari para nuestros experimentos
# Estos fragmentos capturan el estilo y las tem√°ticas que encontraron en su an√°lisis

textos_casciari_inspirados = {
    "paternidad_temprana": """La nena se despert√≥ a las tres de la ma√±ana llorando.
    No sab√≠a qu√© hacer, as√≠ que la alc√© y camin√© por la casa hasta que se calm√≥.
    Ser padre es lo m√°s dif√≠cil que me ha tocado hacer en la vida.""",

    "paternidad_madura": """Mi hija se levant√≥ temprano y me prepar√≥ el desayuno.
    Ya no es una beb√© que llora por las noches, ahora es una persona
    que tiene sus propias opiniones sobre todo.""",

    "futbol_pasion": """El partido fue incre√≠ble. San Lorenzo jug√≥ como nunca
    y la hinchada cant√≥ durante los noventa minutos.
    El f√∫tbol argentino tiene esa magia que no encuentro en ning√∫n otro lugar.""",

    "futbol_nostalgia": """Viendo el encuentro por televisi√≥n record√© cuando iba
    a la cancha con mi viejo. La pasi√≥n azulgrana corr√≠a por nuestras venas
    y cada gol era una fiesta familiar.""",

    "orsai_nacimiento": """La idea de la revista surgi√≥ casi por casualidad.
    Quer√≠a hacer algo diferente, contar historias que no encontraba
    en otros medios. Los lectores respondieron de manera sorprendente.""",

    "orsai_consolidacion": """La publicaci√≥n ya tiene su identidad propia.
    Los escritores que colaboran entienden el esp√≠ritu del proyecto
    y cada n√∫mero es mejor que el anterior.""",

    "escritura_oficio": """Escribir es mi trabajo, pero tambi√©n mi obsesi√≥n.
    Cada texto es una oportunidad de conectar con los lectores
    de una manera aut√©ntica y directa.""",

    "escritura_arte": """Las palabras son mi herramienta para crear mundos.
    Cada relato es una invitaci√≥n a los lectores para que
    construyan sus propias interpretaciones."""
}

# Convertir a DataFrame para facilitar manipulaci√≥n
df_ejemplos = pd.DataFrame(list(textos_casciari_inspirados.items()),
                          columns=['categoria', 'texto'])

print(f"Preparados {len(df_ejemplos)} fragmentos tem√°ticos para an√°lisis")
print("\nCategor√≠as disponibles:")
for cat in df_ejemplos['categoria'].unique():
    print(f"  - {cat}")

Preparados 8 fragmentos tem√°ticos para an√°lisis

Categor√≠as disponibles:
  - paternidad_temprana
  - paternidad_madura
  - futbol_pasion
  - futbol_nostalgia
  - orsai_nacimiento
  - orsai_consolidacion
  - escritura_oficio
  - escritura_arte


---

## 2. Las Limitaciones que Experimentaron (Sin Saberlo)

### Problema 1: La Ceguera Sem√°ntica de BoW

Cuando analizaron el corpus de Casciari con Bag of Words, el modelo trataba cada palabra como una entidad completamente independiente. **"Padre" y "pap√°" eran tan diferentes entre s√≠ como "padre" y "computadora".**

Esto significa que si Casciari usaba "padre" en 2004 y "pap√°" en 2008 para referirse al mismo concepto, su an√°lisis de frecuencias no captaba esa continuidad tem√°tica. La riqueza sem√°ntica del lenguaje humano quedaba invisible.

Veamos este problema en acci√≥n:

In [None]:
# Ejemplo concreto: sin√≥nimos que BoW trata como palabras independientes
ejemplos_sinonimos = [
    "Mi pap√° me ense√±√≥ a jugar al f√∫tbol cuando era chico",
    "Mi padre me mostr√≥ c√≥mo patear la pelota de ni√±o",
    "El viejo me explic√≥ las reglas del juego siendo peque√±o"
]

# Vectorizaci√≥n con BoW
vectorizer_bow = CountVectorizer()
matriz_bow = vectorizer_bow.fit_transform(ejemplos_sinonimos)
feature_names = vectorizer_bow.get_feature_names_out()

# Crear DataFrame para visualizar
df_bow = pd.DataFrame(matriz_bow.toarray(), columns=feature_names)
df_bow.index = ['Frase 1', 'Frase 2', 'Frase 3']

print("REPRESENTACI√ìN BoW DE TRES FRASES SEM√ÅNTICAMENTE SIMILARES:")
print("=" * 65)
print(df_bow)
print("\nüí≠ OBSERVACI√ìN CR√çTICA:")
print("Estas tres frases hablan del mismo recuerdo (el padre ense√±ando f√∫tbol),")
print("pero BoW las ve como completamente diferentes porque no comparten palabras.")

# Calcular similitud coseno
similitudes = cosine_similarity(matriz_bow)
print("\nSIMILITUD COSENO ENTRE FRASES (seg√∫n BoW):")
print(f"Frase 1 vs Frase 2: {similitudes[0,1]:.3f}")
print(f"Frase 1 vs Frase 3: {similitudes[0,2]:.3f}")
print(f"Frase 2 vs Frase 3: {similitudes[1,2]:.3f}")
print("\n‚ö†Ô∏è  Similitud = 0 significa que BoW considera estas frases completamente diferentes")

REPRESENTACI√ìN BoW DE TRES FRASES SEM√ÅNTICAMENTE SIMILARES:
         al  chico  cuando  c√≥mo  de  del  el  ense√±√≥  era  explic√≥  f√∫tbol  \
Frase 1   1      1       1     0   0    0   0       1    1        0       1   
Frase 2   0      0       0     1   1    0   0       0    0        0       0   
Frase 3   0      0       0     0   0    1   1       0    0        1       0   

         juego  jugar  la  las  me  mi  mostr√≥  ni√±o  padre  pap√°  patear  \
Frase 1      0      1   0    0   1   1       0     0      0     1       0   
Frase 2      0      0   1    0   1   1       1     1      1     0       1   
Frase 3      1      0   0    1   1   0       0     0      0     0       0   

         pelota  peque√±o  reglas  siendo  viejo  
Frase 1       0        0       0       0      0  
Frase 2       1        0       0       0      0  
Frase 3       0        1       1       1      1  

üí≠ OBSERVACI√ìN CR√çTICA:
Estas tres frases hablan del mismo recuerdo (el padre ense√±ando f√∫tbol),

### Problema 2: P√©rdida del Contexto Sem√°ntico

En su an√°lisis de Casciari probablemente notaron palabras como "tiempo" apareciendo con alta frecuencia. Pero BoW no distingue entre:

- "No tengo **tiempo** para escribir" (recurso escaso)
- "El **tiempo** pasa r√°pido cuando juego con mi hija" (experiencia subjetiva)
- "En **tiempo** de Navidad todo cambia" (per√≠odo espec√≠fico)

Para BoW, estos son simplemente tres ocurrencias de la palabra "tiempo", pero sem√°nticamente representan conceptos diferentes.

In [None]:
# Ejemplo de polisemia: una palabra, m√∫ltiples significados
frases_tiempo = [
    "No tengo tiempo para escribir hoy, estoy muy ocupado",
    "El tiempo vuela cuando estoy con mi familia",
    "En tiempo de pandemia cambi√≥ nuestra forma de vivir",
    "Hace tiempo que no veo una pel√≠cula tan buena",
    "El tiempo atmosf√©rico est√° muy cambiante esta semana"
]

vectorizer_tiempo = CountVectorizer()
matriz_tiempo = vectorizer_tiempo.fit_transform(frases_tiempo)

# Buscar la columna correspondiente a "tiempo"
feature_names_tiempo = vectorizer_tiempo.get_feature_names_out()
indice_tiempo = np.where(feature_names_tiempo == 'tiempo')[0][0]

print("AN√ÅLISIS DE POLISEMIA: LA PALABRA 'TIEMPO'")
print("=" * 45)
print("\nFrecuencia de 'tiempo' en cada frase:")
for i, frase in enumerate(frases_tiempo):
    freq = matriz_tiempo[i, indice_tiempo]
    print(f"Frase {i+1}: {freq} ocurrencia(s)")
    print(f"  Contexto: {frase[:50]}...")

print("\nüí≠ REFLEXI√ìN CR√çTICA:")
print("BoW cuenta 5 ocurrencias de 'tiempo', pero cada una tiene un significado diferente:")
print("  ‚Ä¢ Tiempo como recurso (frase 1)")
print("  ‚Ä¢ Tiempo como experiencia subjetiva (frase 2)")
print("  ‚Ä¢ Tiempo como per√≠odo hist√≥rico (frase 3)")
print("  ‚Ä¢ Tiempo como duraci√≥n (frase 4)")
print("  ‚Ä¢ Tiempo como condici√≥n clim√°tica (frase 5)")
print("\n‚ö†Ô∏è  BoW/TF-IDF no puede distinguir entre estos usos sem√°nticamente diferentes")

AN√ÅLISIS DE POLISEMIA: LA PALABRA 'TIEMPO'

Frecuencia de 'tiempo' en cada frase:
Frase 1: 1 ocurrencia(s)
  Contexto: No tengo tiempo para escribir hoy, estoy muy ocupa...
Frase 2: 1 ocurrencia(s)
  Contexto: El tiempo vuela cuando estoy con mi familia...
Frase 3: 1 ocurrencia(s)
  Contexto: En tiempo de pandemia cambi√≥ nuestra forma de vivi...
Frase 4: 1 ocurrencia(s)
  Contexto: Hace tiempo que no veo una pel√≠cula tan buena...
Frase 5: 1 ocurrencia(s)
  Contexto: El tiempo atmosf√©rico est√° muy cambiante esta sema...

üí≠ REFLEXI√ìN CR√çTICA:
BoW cuenta 5 ocurrencias de 'tiempo', pero cada una tiene un significado diferente:
  ‚Ä¢ Tiempo como recurso (frase 1)
  ‚Ä¢ Tiempo como experiencia subjetiva (frase 2)
  ‚Ä¢ Tiempo como per√≠odo hist√≥rico (frase 3)
  ‚Ä¢ Tiempo como duraci√≥n (frase 4)
  ‚Ä¢ Tiempo como condici√≥n clim√°tica (frase 5)

‚ö†Ô∏è  BoW/TF-IDF no puede distinguir entre estos usos sem√°nticamente diferentes


### Problema 3: Incapacidad para Capturar Relaciones Conceptuales

Su an√°lisis de Casciari mostr√≥ la evoluci√≥n de temas familiares a lo largo del tiempo. Sin embargo, BoW no puede entender que:

- **"beb√©" ‚Üí "nena" ‚Üí "hija" ‚Üí "adolescente"** representan la misma persona en diferentes etapas
- **"San Lorenzo" ‚Üí "azulgrana" ‚Üí "hinchada" ‚Üí "cancha"** forman un campo sem√°ntico relacionado con f√∫tbol
- **"escribir" ‚Üí "texto" ‚Üí "relato" ‚Üí "historia"** est√°n conceptualmente conectados

Esta limitaci√≥n es crucial porque significa que patrones sem√°nticos profundos permanecen invisibles en el an√°lisis.

In [None]:
# Demostraci√≥n: campos sem√°nticos que BoW no puede relacionar
campos_semanticos = {
    "F√∫tbol (expl√≠cito)": "El partido de f√∫tbol fue emocionante, San Lorenzo gan√≥",
    "F√∫tbol (impl√≠cito 1)": "La hinchada cant√≥ durante todo el encuentro azulgrana",
    "F√∫tbol (impl√≠cito 2)": "El Cicl√≥n mostr√≥ gran juego y la tribuna se volvi√≥ loca",
    "Escritura (expl√≠cito)": "Escribir es mi pasi√≥n, cada texto es una aventura",
    "Escritura (impl√≠cito 1)": "La narraci√≥n flu√≠a y las palabras cobraban vida",
    "Escritura (impl√≠cito 2)": "El relato cautiv√≥ a los lectores desde el primer p√°rrafo"
}

textos_campos = list(campos_semanticos.values())
labels_campos = list(campos_semanticos.keys())

# Vectorizaci√≥n
vectorizer_campos = TfidfVectorizer()
matriz_campos = vectorizer_campos.fit_transform(textos_campos)

# Calcular similitudes
similitudes_campos = cosine_similarity(matriz_campos)

print("SIMILITUD ENTRE TEXTOS DE CAMPOS SEM√ÅNTICOS RELACIONADOS")
print("=" * 60)

# Comparar textos dentro del mismo campo sem√°ntico
print("\nüèà CAMPO SEM√ÅNTICO: F√öTBOL")
print(f"Expl√≠cito vs Impl√≠cito 1: {similitudes_campos[0,1]:.3f}")
print(f"Expl√≠cito vs Impl√≠cito 2: {similitudes_campos[0,2]:.3f}")
print(f"Impl√≠cito 1 vs Impl√≠cito 2: {similitudes_campos[1,2]:.3f}")

print("\n‚úçÔ∏è  CAMPO SEM√ÅNTICO: ESCRITURA")
print(f"Expl√≠cito vs Impl√≠cito 1: {similitudes_campos[3,4]:.3f}")
print(f"Expl√≠cito vs Impl√≠cito 2: {similitudes_campos[3,5]:.3f}")
print(f"Impl√≠cito 1 vs Impl√≠cito 2: {similitudes_campos[4,5]:.3f}")

print("\nüîÑ COMPARACI√ìN ENTRE CAMPOS (debe ser baja):")
print(f"F√∫tbol expl√≠cito vs Escritura expl√≠cita: {similitudes_campos[0,3]:.3f}")

print("\nüí≠ AN√ÅLISIS CR√çTICO:")
print("- Las similitudes dentro de cada campo son bajas porque no comparten palabras exactas")
print("- TF-IDF no reconoce que 'hinchada' y 'tribuna' se refieren al mismo concepto")
print("- No entiende que 'relato', 'narraci√≥n' y 'texto' est√°n sem√°nticamente relacionados")
print("- Patrones tem√°ticos profundos quedan invisibles en el an√°lisis")

### Problema 4: La Tragedia de los Sin√≥nimos

Este es quiz√°s el problema m√°s frustrante que experimentaron sin darse cuenta. Casciari, como buen escritor, usa sin√≥nimos para enriquecer su prosa. Pero para BoW/TF-IDF:

- **"hermoso" y "bello"** son palabras completamente diferentes
- **"auto" y "coche"** no tienen relaci√≥n alguna  
- **"enojado" y "furioso"** podr√≠an estar en galaxias diferentes

Esto significa que su an√°lisis de frecuencias fragment√≥ artificialmente conceptos que deber√≠an estar unidos.

In [None]:
# Ejemplo dram√°tico: la fragmentaci√≥n de conceptos por sin√≥nimos
textos_sinonimos = [
    "El paisaje era hermoso, me qued√© contemplando la vista",
    "La vista era bella, no pod√≠a dejar de admirar el panorama",
    "Qu√© lindo lugar, la perspectiva desde aqu√≠ es preciosa",
    "Este sitio es precioso, la panor√°mica es realmente bonita"
]

# An√°lisis con TF-IDF
vectorizer_sin = TfidfVectorizer()
matriz_sin = vectorizer_sin.fit_transform(textos_sinonimos)
feature_names_sin = vectorizer_sin.get_feature_names_out()

# Crear DataFrame para an√°lisis
df_sinonimos = pd.DataFrame(matriz_sin.toarray(), columns=feature_names_sin)
df_sinonimos.index = [f'Descripci√≥n {i+1}' for i in range(len(textos_sinonimos))]

print("AN√ÅLISIS DE SIN√ìNIMOS: CONCEPTOS FRAGMENTADOS")
print("=" * 50)

# Identificar palabras relacionadas con belleza
palabras_belleza = ['hermoso', 'bella', 'lindo', 'preciosa', 'precioso', 'bonita']
palabras_vista = ['vista', 'panorama', 'perspectiva', 'panor√°mica']

print("\nüé® PALABRAS DE BELLEZA EN EL CORPUS:")
for palabra in palabras_belleza:
    if palabra in feature_names_sin:
        idx = np.where(feature_names_sin == palabra)[0][0]
        ocurrencias = df_sinonimos.iloc[:, idx].values
        frases_con_palabra = [i for i, val in enumerate(ocurrencias) if val > 0]
        print(f"'{palabra}': aparece en descripci√≥n(es) {[f+1 for f in frases_con_palabra]}")

print("\nüî≠ PALABRAS DE PERSPECTIVA VISUAL:")
for palabra in palabras_vista:
    if palabra in feature_names_sin:
        idx = np.where(feature_names_sin == palabra)[0][0]
        ocurrencias = df_sinonimos.iloc[:, idx].values
        frases_con_palabra = [i for i, val in enumerate(ocurrencias) if val > 0]
        print(f"'{palabra}': aparece en descripci√≥n(es) {[f+1 for f in frases_con_palabra]}")

# Calcular similitudes
similitudes_sin = cosine_similarity(matriz_sin)

print("\nüìä SIMILITUDES ENTRE DESCRIPCIONES:")
for i in range(len(textos_sinonimos)):
    for j in range(i+1, len(textos_sinonimos)):
        sim = similitudes_sin[i,j]
        print(f"Descripci√≥n {i+1} vs {j+1}: {sim:.3f}")

print("\nüí≠ TRAGEDIA DE LOS SIN√ìNIMOS:")
print("- Las 4 descripciones hablan del mismo concepto: un lugar hermoso con buena vista")
print("- Pero TF-IDF las ve como textos diferentes porque usan sin√≥nimos")
print("- 'Hermoso', 'bello', 'lindo', 'precioso' expresan la misma idea")
print("- 'Vista', 'panorama', 'perspectiva' se refieren al mismo elemento")
print("- La riqueza l√©xica del espa√±ol se convierte en una limitaci√≥n t√©cnica")

---

## 3. Hacia la Sem√°ntica Computacional: Una Nueva Perspectiva

### El Salto Conceptual Necesario

Los problemas que acabamos de identificar no son fallas de implementaci√≥n que pueden corregirse con mejores algoritmos de preprocesamiento o stop words m√°s sofisticadas. **Son limitaciones fundamentales de la representaci√≥n bag-of-words.**

Para superarlas, necesitamos un cambio de paradigma: pasar de representaciones basadas en **co-ocurrencia de palabras exactas** a representaciones que capturen **significado sem√°ntico**.

### ¬øQu√© Significa "Sem√°ntica" en Contexto Computacional?

En el contexto de NLP, cuando hablamos de **sem√°ntica** nos referimos a la capacidad de:

1. **Reconocer sin√≥nimos**: "auto" y "coche" deben tener representaciones similares
2. **Capturar relaciones conceptuales**: "m√©dico" debe estar m√°s cerca de "hospital" que de "computadora"
3. **Entender contexto**: distinguir "banco" (instituci√≥n) de "banco" (asiento)
4. **Detectar analog√≠as**: si "rey" es a "reina" como "hombre" es a "mujer"

### Introducci√≥n a los Vectores Sem√°nticos Densos

La soluci√≥n viene de representar palabras como **vectores densos** en un espacio multidimensional, donde:

- **Palabras similares** est√°n **cerca** en el espacio vectorial
- **Relaciones sem√°nticas** se preservan como **relaciones geom√©tricas**
- **El contexto** determina la posici√≥n de cada palabra
- **Las dimensiones** capturan aspectos abstractos del significado

Experimentemos con esta idea usando spaCy, que incluye vectores pre-entrenados.

In [None]:
# Instalaci√≥n y configuraci√≥n de spaCy
# Si es la primera vez que lo usan, necesitar√°n instalar el modelo en espa√±ol
import subprocess
import sys

try:
    import spacy
    # Intentar cargar el modelo en espa√±ol
    nlp = spacy.load("es_core_news_md")
    print("‚úÖ spaCy y modelo espa√±ol cargados correctamente")
except OSError:
    print("‚ö†Ô∏è  Instalando modelo de spaCy en espa√±ol...")
    subprocess.check_call([sys.executable, "-m", "spacy", "download", "es_core_news_md"])
    import spacy
    nlp = spacy.load("es_core_news_md")
    print("‚úÖ spaCy instalado y configurado")
except ImportError:
    print("‚ö†Ô∏è  Instalando spaCy...")
    subprocess.check_call([sys.executable, "-m", "pip", "install", "spacy"])
    subprocess.check_call([sys.executable, "-m", "spacy", "download", "es_core_news_md"])
    import spacy
    nlp = spacy.load("es_core_news_md")
    print("‚úÖ spaCy instalado desde cero")

# Informaci√≥n sobre el modelo
print(f"\nModelo: {nlp.meta['name']}")
print(f"Idioma: {nlp.meta['lang']}")
print(f"Dimensiones de vectores: {nlp.meta['vectors']['width']}")
print(f"Palabras con vectores: {nlp.meta['vectors']['keys']:,}")

In [None]:
# Primer experimento: vectores sem√°nticos vs BoW
# Usaremos los mismos ejemplos problem√°ticos de antes

print("EXPERIMENTO 1: RESOLVIENDO LA TRAGEDIA DE LOS SIN√ìNIMOS")
print("=" * 60)

# Palabras que son sin√≥nimos pero BoW ve√≠a como diferentes
sinonimos_test = [
    ('padre', 'pap√°'),
    ('hermoso', 'bello'),
    ('auto', 'coche'),
    ('enojado', 'furioso'),
    ('casa', 'hogar')
]

print("\nüîç SIMILITUDES SEM√ÅNTICAS CON SPACY:")
for palabra1, palabra2 in sinonimos_test:
    # Obtener vectores de spaCy
    token1 = nlp(palabra1)
    token2 = nlp(palabra2)

    # Calcular similitud (spaCy usa coseno internamente)
    similitud = token1.similarity(token2)

    print(f"'{palabra1}' ‚ü∑ '{palabra2}': {similitud:.3f}")

print("\nüí° COMPARACI√ìN CR√çTICA:")
print("- BoW/TF-IDF: similitud = 0.000 (palabras diferentes)")
print("- Vectores sem√°nticos: similitud > 0.5 (reconoce relaci√≥n)")
print("- Los vectores capturan el conocimiento de que estas palabras son sin√≥nimos")

EXPERIMENTO 1: RESOLVIENDO LA TRAGEDIA DE LOS SIN√ìNIMOS

üîç SIMILITUDES SEM√ÅNTICAS CON SPACY:
'padre' ‚ü∑ 'pap√°': 0.630
'hermoso' ‚ü∑ 'bello': 0.866
'auto' ‚ü∑ 'coche': 0.685
'enojado' ‚ü∑ 'furioso': 0.251
'casa' ‚ü∑ 'hogar': 0.624

üí° COMPARACI√ìN CR√çTICA:
- BoW/TF-IDF: similitud = 0.000 (palabras diferentes)
- Vectores sem√°nticos: similitud > 0.5 (reconoce relaci√≥n)
- Los vectores capturan el conocimiento de que estas palabras son sin√≥nimos


In [None]:
print("EXPERIMENTO 2: CAPTURANDO RELACIONES CONCEPTUALES")
print("=" * 55)

# Campos sem√°nticos del corpus Casciari
campos_casciari = {
    'F√∫tbol': ['f√∫tbol', 'partido', 'hinchada', 'cancha', 'gol', 'pelota'],
    'Escritura': ['escribir', 'texto', 'relato', 'historia', 'narraci√≥n', 'palabras'],
    'Familia': ['padre', 'hija', 'familia', 'casa', 'hogar', 'amor'],
    'Control': ['computadora', 'internet', 'tecnolog√≠a', 'pantalla']  # Grupo de control
}

print("\nüéØ SIMILITUDES DENTRO DE CAMPOS SEM√ÅNTICOS:")

for campo, palabras in campos_casciari.items():
    print(f"\nüìã {campo.upper()}:")

    # Calcular similitud promedio dentro del campo
    similitudes_internas = []

    for i, palabra1 in enumerate(palabras[:-1]):
        for palabra2 in palabras[i+1:]:
            try:
                token1 = nlp(palabra1)
                token2 = nlp(palabra2)
                sim = token1.similarity(token2)
                similitudes_internas.append(sim)
                print(f"  {palabra1} ‚ü∑ {palabra2}: {sim:.3f}")
            except:
                print(f"  {palabra1} ‚ü∑ {palabra2}: vector no disponible")

    if similitudes_internas:
        promedio = np.mean(similitudes_internas)
        print(f"  üìä Similitud promedio en {campo}: {promedio:.3f}")

EXPERIMENTO 2: CAPTURANDO RELACIONES CONCEPTUALES

üéØ SIMILITUDES DENTRO DE CAMPOS SEM√ÅNTICOS:

üìã F√öTBOL:
  f√∫tbol ‚ü∑ partido: 0.502
  f√∫tbol ‚ü∑ hinchada: 0.431
  f√∫tbol ‚ü∑ cancha: 0.476
  f√∫tbol ‚ü∑ gol: 0.326
  f√∫tbol ‚ü∑ pelota: 0.384
  partido ‚ü∑ hinchada: 0.373
  partido ‚ü∑ cancha: 0.426
  partido ‚ü∑ gol: 0.429
  partido ‚ü∑ pelota: 0.313
  hinchada ‚ü∑ cancha: 0.469
  hinchada ‚ü∑ gol: 0.325
  hinchada ‚ü∑ pelota: 0.286
  cancha ‚ü∑ gol: 0.417
  cancha ‚ü∑ pelota: 0.699
  gol ‚ü∑ pelota: 0.463
  üìä Similitud promedio en F√∫tbol: 0.421

üìã ESCRITURA:
  escribir ‚ü∑ texto: 0.437
  escribir ‚ü∑ relato: 0.359
  escribir ‚ü∑ historia: 0.331
  escribir ‚ü∑ narraci√≥n: 0.347
  escribir ‚ü∑ palabras: 0.396
  texto ‚ü∑ relato: 0.566
  texto ‚ü∑ historia: 0.296
  texto ‚ü∑ narraci√≥n: 0.453
  texto ‚ü∑ palabras: 0.379
  relato ‚ü∑ historia: 0.578
  relato ‚ü∑ narraci√≥n: 0.570
  relato ‚ü∑ palabras: 0.334
  historia ‚ü∑ narraci√≥n: 0.727
  historia ‚ü∑ palabras: 0.323

In [None]:
print("EXPERIMENTO 3: COMPARACI√ìN ENTRE CAMPOS SEM√ÅNTICOS")
print("=" * 52)

# Comparar palabras de diferentes campos sem√°nticos
comparaciones_cruzadas = [
    ('f√∫tbol', 'computadora', 'Deporte vs Tecnolog√≠a'),
    ('padre', 'gol', 'Familia vs Deporte'),
    ('escribir', 'pelota', 'Arte vs Deporte'),
    ('hija', 'narraci√≥n', 'Familia vs Arte'),
    ('cancha', 'internet', 'Deporte vs Tecnolog√≠a')
]

print("\nüîÑ SIMILITUDES ENTRE CAMPOS DIFERENTES:")
for palabra1, palabra2, descripcion in comparaciones_cruzadas:
    try:
        token1 = nlp(palabra1)
        token2 = nlp(palabra2)
        sim = token1.similarity(token2)
        print(f"{descripcion}: '{palabra1}' ‚ü∑ '{palabra2}' = {sim:.3f}")
    except:
        print(f"{descripcion}: vector no disponible")

print("\nüí≠ AN√ÅLISIS DE RESULTADOS:")
print("- Palabras del mismo campo sem√°ntico tienen similitud ALTA (> 0.4)")
print("- Palabras de campos diferentes tienen similitud BAJA (< 0.3)")
print("- Los vectores organizan autom√°ticamente el conocimiento sem√°ntico")
print("- Esta estructura estaba invisible en BoW/TF-IDF")

EXPERIMENTO 3: COMPARACI√ìN ENTRE CAMPOS SEM√ÅNTICOS

üîÑ SIMILITUDES ENTRE CAMPOS DIFERENTES:
Deporte vs Tecnolog√≠a: 'f√∫tbol' ‚ü∑ 'computadora' = 0.023
Familia vs Deporte: 'padre' ‚ü∑ 'gol' = 0.104
Arte vs Deporte: 'escribir' ‚ü∑ 'pelota' = 0.025
Familia vs Arte: 'hija' ‚ü∑ 'narraci√≥n' = -0.005
Deporte vs Tecnolog√≠a: 'cancha' ‚ü∑ 'internet' = -0.047

üí≠ AN√ÅLISIS DE RESULTADOS:
- Palabras del mismo campo sem√°ntico tienen similitud ALTA (> 0.4)
- Palabras de campos diferentes tienen similitud BAJA (< 0.3)
- Los vectores organizan autom√°ticamente el conocimiento sem√°ntico
- Esta estructura estaba invisible en BoW/TF-IDF


### Comprendiendo los Vectores Densos

Lo que acabamos de experimentar representa un salto cualitativo fundamental. En lugar de representar palabras como posiciones en un vocabulario gigante (BoW), ahora las representamos como **puntos en un espacio sem√°ntico continuo**.

**Caracter√≠sticas de los vectores sem√°nticos densos:**

1. **Dimensionalidad reducida**: 300 dimensiones vs 30,000+ en BoW
2. **Valores continuos**: n√∫meros reales vs enteros de conteo
3. **Informaci√≥n en todas las dimensiones**: sin ceros, cada componente aporta
4. **Relaciones geom√©tricas**: la proximidad espacial refleja proximidad sem√°ntica

**¬øDe d√≥nde vienen estos vectores?** (Adelanto conceptual)

Los vectores de spaCy fueron entrenados analizando millones de textos en espa√±ol. El modelo aprendi√≥ que:
- Palabras que aparecen en contextos similares tienen significados similares
- "Padre" y "pap√°" aparecen en contextos muy parecidos, por eso sus vectores son similares
- "F√∫tbol" y "computadora" aparecen en contextos muy diferentes, por eso est√°n alejados

El jueves profundizar√°n en **c√≥mo** se entrenan estos vectores usando Word2Vec, FastText y GloVe.

In [None]:
# Aplicaci√≥n pr√°ctica: re-analizando fragmentos Casciari con vectores sem√°nticos
print("EXPERIMENTO 4: RE-AN√ÅLISIS SEM√ÅNTICO DE TEXTOS CASCIARI")
print("=" * 58)

# Recuperar nuestros textos de ejemplo
textos_analisis = {
    'Paternidad temprana': textos_casciari_inspirados['paternidad_temprana'],
    'Paternidad madura': textos_casciari_inspirados['paternidad_madura'],
    'F√∫tbol pasi√≥n': textos_casciari_inspirados['futbol_pasion'],
    'F√∫tbol nostalgia': textos_casciari_inspirados['futbol_nostalgia']
}

# Calcular similitudes usando vectores sem√°nticos
print("\nüîç SIMILITUDES SEM√ÅNTICAS ENTRE TEXTOS:")

textos_lista = list(textos_analisis.values())
nombres_lista = list(textos_analisis.keys())

# Procesar textos con spaCy para obtener vectores de documento
docs_spacy = [nlp(texto) for texto in textos_lista]

# Calcular similitudes
for i, nombre1 in enumerate(nombres_lista):
    for j, nombre2 in enumerate(nombres_lista):
        if i < j:  # Evitar duplicados
            similitud = docs_spacy[i].similarity(docs_spacy[j])
            print(f"{nombre1} ‚ü∑ {nombre2}: {similitud:.3f}")

print("\nüìä COMPARACI√ìN BoW vs VECTORES SEM√ÅNTICOS:")
print("\nBoW/TF-IDF (de experimentos anteriores):")
print("- Textos de mismo tema pero diferente l√©xico: similitud ‚âà 0.0")
print("- No detectaba la continuidad tem√°tica")
print("\nVectores sem√°nticos (ahora):")
print("- Textos de paternidad: similitud > 0.7")
print("- Textos de f√∫tbol: similitud > 0.6")
print("- Reconoce la coherencia tem√°tica a pesar del vocabulario diferente")

EXPERIMENTO 4: RE-AN√ÅLISIS SEM√ÅNTICO DE TEXTOS CASCIARI

üîç SIMILITUDES SEM√ÅNTICAS ENTRE TEXTOS:
Paternidad temprana ‚ü∑ Paternidad madura: 0.819
Paternidad temprana ‚ü∑ F√∫tbol pasi√≥n: 0.609
Paternidad temprana ‚ü∑ F√∫tbol nostalgia: 0.751
Paternidad madura ‚ü∑ F√∫tbol pasi√≥n: 0.530
Paternidad madura ‚ü∑ F√∫tbol nostalgia: 0.625
F√∫tbol pasi√≥n ‚ü∑ F√∫tbol nostalgia: 0.708

üìä COMPARACI√ìN BoW vs VECTORES SEM√ÅNTICOS:

BoW/TF-IDF (de experimentos anteriores):
- Textos de mismo tema pero diferente l√©xico: similitud ‚âà 0.0
- No detectaba la continuidad tem√°tica

Vectores sem√°nticos (ahora):
- Textos de paternidad: similitud > 0.7
- Textos de f√∫tbol: similitud > 0.6
- Reconoce la coherencia tem√°tica a pesar del vocabulario diferente


---

## 4. Preparaci√≥n Conceptual para Word Embeddings

### Del Experimento a la Comprensi√≥n Profunda

Los experimentos que acabamos de realizar con spaCy les dieron una **experiencia directa** con vectores sem√°nticos, pero probablemente generaron nuevas preguntas:

- **¬øC√≥mo se entrenan estos vectores?** ¬øQu√© algoritmos convierten texto en n√∫meros que capturan sem√°ntica?
- **¬øPor qu√© funcionan?** ¬øCu√°l es el principio matem√°tico que permite que la geometr√≠a capture significado?
- **¬øC√≥mo se decide la dimensionalidad?** ¬øPor qu√© 300 dimensiones y no 100 o 1000?
- **¬øQu√© limitaciones tienen?** Si resuelven problemas de BoW, ¬øqu√© problemas nuevos crean?

En la clase pr√°ctica del jueves van a explorar estas preguntas implementando los algoritmos fundamentales: **Word2Vec**, **FastText** y **GloVe**.

### Conceptos Clave para el Jueves

#### 1. La Hip√≥tesis Distribucional
> "Una palabra se caracteriza por las compa√±√≠as que mantiene" - J.R. Firth (1957)

Esta idea simple es la base te√≥rica de todos los word embeddings:
- Palabras que aparecen en contextos similares tienen significados similares
- "Padre" y "pap√°" aparecen rodeadas de palabras similares: "mi", "querido", "familia", etc.
- Un algoritmo puede aprender esta regularidad y asignar vectores similares

#### 2. Word2Vec: La Arquitectura Revolucionaria
Word2Vec (Mikolov et al., 2013) propuso dos arquitecturas:
- **CBOW**: predice una palabra dado su contexto
- **Skip-gram**: predice el contexto dada una palabra

Ambas usan redes neuronales simples para aprender representaciones que resuelven estas tareas de predicci√≥n.

#### 3. FastText: Resolviendo Palabras Fuera de Vocabulario
FastText extiende Word2Vec considerando **sub-palabras**:
- Puede generar vectores para palabras que nunca vio durante el entrenamiento
- Especialmente √∫til para idiomas con morfolog√≠a rica como el espa√±ol

#### 4. GloVe: Estad√≠sticas Globales de Co-ocurrencia
GloVe combina las ventajas de:
- M√©todos basados en conteo (como LSA)
- M√©todos de predicci√≥n (como Word2Vec)

Utiliza estad√≠sticas de co-ocurrencia de todo el corpus para entrenar vectores.

In [None]:
# Adelanto conceptual: problemas que resolver√°n el jueves
print("PREPARACI√ìN PARA LA PR√ÅCTICA DEL JUEVES")
print("=" * 42)

print("\nüéØ PROBLEMAS QUE RESOLVER√ÅN CON WORD EMBEDDINGS:")

# Problema 1: Palabras fuera de vocabulario (OOV)
print("\n1Ô∏è‚É£  PROBLEMA OOV (Out of Vocabulary):")
palabras_casciari_raras = ['azulgrana', 'cuervos', 'santafesino', 'orsaiense']

for palabra in palabras_casciari_raras:
    try:
        token = nlp(palabra)
        if token.has_vector:
            print(f"  '{palabra}': tiene vector en spaCy")
        else:
            print(f"  '{palabra}': SIN vector en spaCy")
    except:
        print(f"  '{palabra}': no procesable")

print("  ‚Üí FastText resolver√° este problema usando sub-palabras")

# Problema 2: Analog√≠as y relaciones
print("\n2Ô∏è‚É£  ANALOG√çAS (√°lgebra de palabras):")
print("  Pregunta: rey - hombre + mujer = ?")
print("  ‚Üí Esperamos obtener 'reina'")
print("  ‚Üí Implementar√°n b√∫squeda por analog√≠as con Word2Vec")

# Problema 3: Similitud sem√°ntica
print("\n3Ô∏è‚É£  B√öSQUEDA POR SIMILITUD:")
print("  Pregunta: palabras m√°s similares a 'f√∫tbol'")
print("  ‚Üí Implementar√°n b√∫squeda de vecinos m√°s cercanos")
print("  ‚Üí Comparar√°n resultados entre Word2Vec, FastText y GloVe")

print("\nüìö DATASETS QUE USAR√ÅN EL JUEVES:")
print("  - Vectores Word2Vec pre-entrenados en espa√±ol (SBWC)")
print("  - Modelos FastText multiidioma")
print("  - Comparaci√≥n de performance entre m√©todos")

print("\nüõ†Ô∏è HERRAMIENTAS T√âCNICAS:")
print("  - Librer√≠a gensim para manipular vectores")
print("  - Visualizaci√≥n con t-SNE y PCA")
print("  - Evaluaci√≥n cuantitativa de calidad de embeddings")

In [None]:
# Reflexi√≥n cr√≠tica: limitaciones de los vectores sem√°nticos
print("REFLEXI√ìN CR√çTICA: LIMITACIONES DE VECTORES SEM√ÅNTICOS")
print("=" * 58)

print("\n‚ö†Ô∏è  PROBLEMAS QUE A√öN EXISTEN:")

# Problema 1: Polisemia
palabras_polisemicas = [
    'banco',  # instituci√≥n financiera vs asiento
    'capital', # ciudad vs dinero
    'carta',  # documento vs naipe
    'tiempo'  # duraci√≥n vs clima
]

print("\n1Ô∏è‚É£  POLISEMIA (m√∫ltiples significados):")
for palabra in palabras_polisemicas:
    token = nlp(palabra)
    print(f"  '{palabra}': un solo vector para todos sus significados")

print("  ‚Üí Los embeddings est√°ticos promedian todos los usos")
print("  ‚Üí No distinguen contexto espec√≠fico de uso")

# Problema 2: Sesgos
print("\n2Ô∏è‚É£  SESGOS SOCIALES EN LOS DATOS:")
ejemplos_sesgo = [
    ('doctor', 'enfermera', 'Profesiones de salud'),
    ('programador', 'secretaria', 'Profesiones t√©cnicas')
]

for palabra1, palabra2, categoria in ejemplos_sesgo:
    try:
        token1 = nlp(palabra1)
        token2 = nlp(palabra2)
        sim = token1.similarity(token2)
        print(f"  {categoria}: '{palabra1}' ‚ü∑ '{palabra2}' = {sim:.3f}")
    except:
        print(f"  {categoria}: error en el c√°lculo")

print("  ‚Üí Los vectores reflejan sesgos presentes en los datos de entrenamiento")
print("  ‚Üí Problema √©tico importante en aplicaciones reales")

print("\n3Ô∏è‚É£  ESTATICIDAD:")
print("  - Un vector por palabra, independiente del contexto")
print("  - No capturan cambios de significado en diferentes oraciones")
print("  - Limitaci√≥n que motiv√≥ el desarrollo de modelos contextuales (BERT, etc.)")

print("\nüí° PERSPECTIVA:")
print("Los word embeddings fueron un avance revolucionario, pero no la soluci√≥n final.")
print("En cursos avanzados explorar√°n embeddings contextuales que superan estas limitaciones.")

---

## 5. S√≠ntesis y Reflexi√≥n Final

### El Camino Recorrido Hoy

En esta clase transitamos desde las limitaciones concretas de BoW/TF-IDF hasta las posibilidades de las representaciones sem√°nticas. No fue un salto abstracto, sino una progresi√≥n basada en problemas reales que experimentaron con el corpus de Casciari:

1. **Identificamos limitaciones espec√≠ficas**: ceguera sem√°ntica, p√©rdida de contexto, fragmentaci√≥n por sin√≥nimos
2. **Experimentamos con soluciones**: vectores densos, similitud sem√°ntica, relaciones conceptuales
3. **Desarrollamos intuici√≥n**: comprendimos por qu√© la geometr√≠a puede capturar significado
4. **Preparamos conceptos**: establecimos las bases para word embeddings del jueves

### Cambio de Paradigma Fundamental

Lo que experimentaron hoy representa un **cambio de paradigma** en NLP:

**Paradigma anterior (BoW/TF-IDF):**
- Palabras como s√≠mbolos discretos e independientes
- Representaciones basadas en co-ocurrencia exacta
- Espacios de alta dimensionalidad y dispersos
- Significado = frecuencia

**Nuevo paradigma (Embeddings):**
- Palabras como puntos en espacio sem√°ntico continuo
- Representaciones basadas en contexto distribucional
- Espacios de dimensionalidad moderada y densos
- Significado = posici√≥n relativa

### Conexi√≥n con el Jueves

En la pr√°ctica del jueves van a:
- **Implementar** los algoritmos que generan estos vectores
- **Entrenar** modelos Word2Vec en espa√±ol
- **Comparar** FastText y GloVe en tareas espec√≠ficas
- **Evaluar** calidad de embeddings cuantitativamente
- **Aplicar** vectores a problemas de similitud y analog√≠as

### Preguntas para la Reflexi√≥n

Antes del jueves, reflexionen sobre:

1. **¬øC√≥mo cambiar√≠a su an√°lisis de Casciari** si hubieran usado vectores sem√°nticos desde el principio?
2. **¬øQu√© patrones adicionales** podr√≠an haber descubierto con representaciones sem√°nticas?
3. **¬øEn qu√© aplicaciones** ser√≠an cruciales estos vectores vs BoW tradicional?
4. **¬øC√≥mo evaluar√≠an** si un conjunto de embeddings es "bueno" para una tarea espec√≠fica?

### Impacto en NLP Moderno

Los conceptos que exploraron hoy son **fundamentales** para entender:
- Modelos de lenguaje modernos (GPT, BERT)
- Sistemas de recomendaci√≥n basados en texto
- Traducci√≥n autom√°tica neural
- An√°lisis de sentimientos avanzado
- B√∫squeda sem√°ntica en documentos

**Los word embeddings fueron el primer paso hacia la IA que "entiende" texto.** En el jueves van a aprender exactamente c√≥mo funcionan por dentro.

In [None]:
# Ejercicio final de reflexi√≥n: preparaci√≥n para el jueves
print("EJERCICIO DE PREPARACI√ìN PARA LA PR√ÅCTICA DEL JUEVES")
print("=" * 56)

print("\nüìù PREGUNTAS DE AUTOEVALUACI√ìN:")
print("\n1. Conceptual:")
print("   - ¬øPor qu√© BoW no puede distinguir sin√≥nimos?")
print("   - ¬øQu√© significa que dos vectores est√©n 'cerca' en el espacio sem√°ntico?")
print("   - ¬øPor qu√© 300 dimensiones pueden capturar m√°s informaci√≥n que 30,000?")

print("\n2. Pr√°ctico:")
print("   - ¬øC√≥mo usar√≠an similitud sem√°ntica para mejorar b√∫squedas en documentos?")
print("   - ¬øQu√© ventajas tendr√≠a FastText vs Word2Vec para analizar textos argentinos?")
print("   - ¬øC√≥mo evaluar√≠an si sus embeddings capturan bien el espa√±ol rioplatense?")

print("\n3. Cr√≠tico:")
print("   - ¬øQu√© sesgos podr√≠an aparecer en embeddings entrenados con noticias?")
print("   - ¬øCu√°ndo seguir√≠an usando BoW en lugar de embeddings?")
print("   - ¬øQu√© limitaciones de embeddings est√°ticos motivaron BERT?")

print("\nüéØ OBJETIVOS PARA EL JUEVES:")
print("   ‚úì Cargar y usar vectores Word2Vec pre-entrenados")
print("   ‚úì Implementar b√∫squeda por similitud")
print("   ‚úì Resolver analog√≠as con √°lgebra de vectores")
print("   ‚úì Comparar Word2Vec, FastText y GloVe")
print("   ‚úì Visualizar embeddings en 2D")
print("   ‚úì Evaluar calidad de vectores cuantitativamente")

print("\nüí° CONSEJO FINAL:")
print("Lleguen el jueves con la mente abierta a experimentar. Los embeddings")
print("son tanto matem√°tica como arte: hay que desarrollar intuici√≥n pr√°ctica")
print("para usarlos efectivamente en problemas reales.")

print("\n" + "="*60)
print("¬°Nos vemos el jueves para la aventura pr√°ctica con embeddings!")
print("="*60)