In [1]:
import numpy as np
import gensim.downloader as api

In [2]:
# Descargamos un modelo preentrenado compatible con GloVe en español
print("Descargando modelo preentrenado...")
word_vectors = api.load("glove-wiki-gigaword-50")  # Usa un modelo de 50 dimensiones
print("Modelo cargado correctamente.")

Descargando modelo preentrenado...
Modelo cargado correctamente.


In [3]:
# Definimos un pequeño corpus en español
corpus = [
    "El gato juega en el jardín",
    "Los perros corren en el parque",
    "Las flores son hermosas"
]

In [4]:
# Función para obtener el vector de una palabra
def obtener_vector(palabra):
    if palabra in word_vectors:
        return word_vectors[palabra]
    else:
        return np.zeros(50)  # Si la palabra no está, devolvemos un vector de ceros

In [5]:
# Vectorizamos una oración sumando los vectores de sus palabras
def vectorizar_oracion(oracion):
    palabras = oracion.lower().split()
    vectores = [obtener_vector(p) for p in palabras]
    return np.mean(vectores, axis=0)  # Calculamos el promedio de los vectores

In [6]:

# Aplicamos la vectorización al corpus
vectores_corpus = [vectorizar_oracion(oracion) for oracion in corpus]

In [7]:
# Mostramos resultados
for i, oracion in enumerate(corpus):
    print(f"Oración: {oracion}")
    print(f"Vector (primeros 5 valores): {vectores_corpus[i][:5]}")
    print("-")

Oración: El gato juega en el jardín
Vector (primeros 5 valores): [ 0.126292    0.54628001 -0.29774166  0.52370834 -0.34521499]
-
Oración: Los perros corren en el parque
Vector (primeros 5 valores): [ 0.03372711  0.4244348  -0.31058332  0.70803165 -0.6291933 ]
-
Oración: Las flores son hermosas
Vector (primeros 5 valores): [ 0.3337725   0.438271   -0.12068499  0.6496675   0.05737   ]
-
