# Analogías con embeddings en español
En este ejercicio vamos a trabajar con modelos de word embeddings en español para explorar su capacidad de capturar relaciones semánticas entre palabras. Uno de los usos más interesantes de los embeddings es la posibilidad de resolver analogías del tipo:

“Rey es a hombre como ¿? es a mujer” → Resultado esperado: reina

Este tipo de operación se basa en relaciones vectoriales dentro del espacio semántico aprendido por el modelo. Otro ejemplo de analogía sería:

“España es al español como Italia es al ¿?” → Resultado esperado: italiano

El objetivo de este ejercicio es justamente probar y observar cómo el modelo puede inferir este tipo de relaciones a partir de los vectores de palabras. Para eso, vamos a trabajar con Python y un modelo preentrenado en español.

¡Vamos al código!

# Modelo preentrenado de vectores de palabras en español. 
Este modelo fue entrenado sobre un gran corpus y está disponible #públicamente en Kaggle: 

In [1]:
#https://www.kaggle.com/datasets/rtatman/pretrained-word-vectors-for-spanish

# Instalación de librerías necesarias

In [2]:
#Instalamos la librería gensim, que nos permite trabajar con modelos de word embeddings
!pip install gensim -q


[notice] A new release of pip is available: 24.2 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


# Carga del modelo de vectores

In [3]:
# Cargamos los vectores en formato Word2Vec
# Asegurate de tener descargado el archivo 'SBW-vectors-300-min5.txt'

In [8]:
import gensim

In [9]:
vectores = gensim.models.KeyedVectors.load_word2vec_format('SBW-vectors-300-min5.txt')

Este archivo contiene los vectores de palabras entrenados sobre un corpus amplio en español, con 300 dimensiones por palabra.

# Función para resolver analogías

In [10]:
def analogias(v1, v2, v3):
    """
    Realiza una analogía del tipo: v1 es a v2 como ¿? es a v3.
    Por ejemplo: rey es a hombre como ¿? es a mujer → reina
    """
    similitud = vectores.most_similar(positive=[v1, v3], negative=[v2]) #La función most_similar() de Gensim toma listas llamadas positive y negative porque hace una suma ponderada de vectores:
    print(f"{v1} es a {v2} como {similitud[0][0]} es a {v3}") 

La función toma tres palabras y aplica la operación vectorial:
v1 - v2 + v3 ≈ ?, y devuelve la palabra más cercana a ese resultado.

# Probamos algunas analogías interesantes

In [12]:
analogias('rey', 'hombre', 'mujer')

rey es a hombre como reina es a mujer


In [13]:
analogias('alemania', 'alemán', 'español')

alemania es a alemán como España es a español


In [14]:
analogias('pan', 'trigo', 'leche')

pan es a trigo como yogur es a leche


In [18]:
analogias('vaca', 'leche', 'gallina')

vaca es a leche como chancho es a gallina


In [20]:
analogias('chimenea', 'humo', 'canilla')

chimenea es a humo como patinillo es a canilla


In [12]:
analogias('carnívoro', 'carne', 'herbívoro')

carnívoro es a carne como sinápsido es a herbívoro


In [13]:
analogias('Chile', 'Argentina', 'Japón')

Chile es a Argentina como nipón es a Japón


In [24]:
analogias('cordoba', 'Argentina', 'Milan')

cordoba es a Argentina como milan es a Milan


 Algunas respuestas pueden ser sorprendentes, pero muchas muestran cómo el modelo captura patrones reales de lenguaje y conocimiento.

# Función para explorar palabras cercanas

In [25]:
def cercanos(v):
    """
    Muestra las palabras más cercanas a una dada, según la similitud de vectores.
    """
    vecinos = vectores.most_similar(positive=[v])
    print(f"vecinos de: {v}")
    for word, score in vecinos:
        print("\t%s" % word)

Esta función sirve para explorar el "barrio semántico" de una palabra, es decir, qué palabras el modelo considera similares o relacionadas.

# Probamos la función con distintas palabras

In [26]:
cercanos('rey')

vecinos de: rey
	monarca
	reyes
	reino
	príncipe
	reina
	Harthacnut
	Ragnald
	Sverkersson
	regente
	Hardeknut


In [27]:
cercanos('Chile')

vecinos de: Chile
	chileno
	Perú
	Argentina
	chilena
	Valparaíso
	Coquimbo
	Bolivia
	Ecuador
	Antofagasta
	chilenos


In [28]:
cercanos('chile')

vecinos de: chile
	tomate
	jalapeño
	chiles
	ají
	jitomate
	piquín
	cilantro
	aguacate
	cebolla
	frijol


Notá que 'Chile' (con mayúscula) remite al país, mientras que 'chile' (en minúscula) refiere al alimento. Esto muestra cómo el modelo puede capturar diferencias de contexto gracias al entrenamiento.

In [35]:
cercanos('Argentinos')

vecinos de: Argentinos
	Banfield
	Juniors
	Newells
	Lanús
	Temperley
	Chacarita
	Platense
	Trenes
	Talleres
	JuniorsDIGITO


In [20]:
cercanos('carnívoro')

vecinos de: carnívoro
	herbívoro
	mamífero
	reptil
	insectívoro
	carnívoros
	omnívoro
	semiacuático
	piscívoro
	marsupial
	mustélido


In [21]:
cercanos('vegetariano')

vecinos de: vegetariano
	vegetariana
	vegano
	vegetarianismo
	vegetarianos
	vegana
	abstemio
	veganismo
	crudiveganismo
	veganos
	crudivorismo


# Conclusiones
Este ejercicio nos permite:

- Ver en acción cómo los embeddings capturan relaciones semánticas complejas.

- Aplicar operaciones vectoriales simples para explorar analogías y sinónimos.

- Usar modelos preentrenados con Gensim para tareas de procesamiento del lenguaje natural.

