
# Uso de Embeddings con SpaCy en Español

Este Jupyter Notebook proporciona ejemplos de cómo usar **word embeddings** en español utilizando la biblioteca **SpaCy**. Los embeddings permiten representar palabras o frases como vectores numéricos, lo que facilita el cálculo de similitudes semánticas entre palabras o frases.

## Instalación de SpaCy y el modelo en español
Antes de ejecutar los ejemplos en este notebook, asegúrate de instalar la biblioteca SpaCy y el modelo con vectores preentrenados para español. Puedes hacerlo con los siguientes comandos:

```bash
pip install spacy
python -m spacy download es_core_news_md  # Modelo con word vectors
```


In [1]:
!pip install spacy
!python -m spacy download es_core_news_md

Collecting es-core-news-md==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_md-3.8.0/es_core_news_md-3.8.0-py3-none-any.whl (42.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.3/42.3 MB[0m [31m18.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: es-core-news-md
Successfully installed es-core-news-md-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_md')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [4]:
import spacy

# Cargar el modelo en español con vectores preentrenados
nlp = spacy.load("es_core_news_md")

# Crear un objeto Doc con una frase en español
doc = nlp("El gato está en la casa")

# Obtener el vector de la palabra "gato"
gato_vector = doc[1].vector

print(f"Vector de 'gato':\n { gato_vector }")

Vector de 'gato':
 [-0.3633   -0.48841  -2.7278    2.3517    1.6459   -0.14743  -3.071
  0.43446   2.376     2.939    -3.1857   -1.3094    1.8059   -1.7071
 -0.98022  -1.7231   -2.4354   -2.9543    0.64656  -2.2967    0.34807
 -2.8105    1.1762    3.2424    0.18839  -2.8763   -0.85192  -1.8524
 -2.2221    3.7512   -3.0247    0.58154   1.5971    1.6494   -0.64399
  1.8924    0.77904  -1.6907   -0.94121  -0.28061   0.9683    2.1969
  1.0211    2.092    -2.2401   -1.7143   -0.44994   0.071469  1.3566
 -3.014     1.2851    0.27378   1.2742    0.55748  -3.4488   -0.16216
 -0.24527  -0.93641   0.94152   2.3763    0.53665   0.89439   2.1799
  1.0793    1.0502   -2.5831    1.8174   -2.0587   -3.7014    3.5125
 -2.5576   -0.21629  -3.1582   -2.1678    2.6088   -2.1502   -1.7187
  2.1234   -3.6737   -4.2948    0.28615  -1.4556    1.5618   -1.1729
 -4.9728    0.60744  -2.2477   -3.1606   -1.5781   -0.69417  -0.32749
  1.5317   -1.2592   -2.7738    1.14      0.46923  -0.87273  -0.21848
  0.22565  


## Calcular la similitud entre palabras

Una aplicación común de los embeddings es calcular la similitud entre palabras.  
En este ejemplo, comparamos las palabras "gato" y "perro" para ver qué tan similares son en el espacio de vectores.


In [15]:
# Crear documentos para cada palabra
gato = nlp("gato")
perro = nlp("perro")

# Calcular la similitud entre los vectores de "gato" y "perro"
similaridad = gato.similarity(perro)

print(f"Similitud entre 'gato' y 'perro': { similaridad }")

Similitud entre 'gato' y 'perro': 0.8487286567687988



## Calcular la similitud entre frases

También puedes comparar frases completas usando embeddings. Los embeddings de una frase son, en general, un promedio de los vectores de las palabras que la componen.


In [16]:
# Crear objetos Doc para las frases
frase_1 = nlp("El gato está en la casa")
frase_2 = nlp("El perro duerme en el jardín")

# Calcular la similitud entre las dos frases
similaridad_frases = frase_1.similarity(frase_2)

print(f"Similitud entre las frases: { similaridad_frases }")

Similitud entre las frases: 0.7609798312187195



## Obtener el vector de una frase completa

También es posible obtener el **embedding** promedio de todas las palabras en una frase.


In [17]:
# Obtener el vector para toda la frase
vector_frase = frase_1.vector

print(f"Vector de la frase 'El gato está en la casa':\n { vector_frase }")

Vector de la frase 'El gato está en la casa':
 [ 2.14393333e-01  5.21314979e-01  5.22298396e-01  5.57366788e-01
  1.89340818e+00 -1.13828826e+00 -1.98866680e-01  4.49193507e-01
  1.07705832e+00 -1.92526817e+00 -8.09166670e-01  5.33816576e-01
  2.18054342e+00 -2.95427632e+00 -3.68596643e-01  4.20696646e-01
 -2.67783254e-01  1.09818840e+00 -1.06603205e-01  9.01215017e-01
 -2.84586638e-01 -1.34965169e+00 -1.39365518e+00  2.16133666e+00
  1.72486508e+00 -1.78616837e-01  9.84063148e-01  1.82244670e+00
 -1.07233442e-01  9.98576701e-01 -4.57103699e-01 -9.82980013e-01
  1.38643324e+00  8.63183320e-01  2.00636685e-01 -2.60723853e+00
  5.05411625e-01  1.67163324e+00  1.37247992e+00 -1.55748022e+00
 -7.69106805e-01  1.09973061e+00 -2.89684987e+00  1.55511487e+00
 -2.17049980e+00  2.12296653e+00  1.74752009e+00  2.03754857e-01
 -9.72191811e-01 -7.03999996e-01  3.19599986e-01  1.09098673e+00
  2.49531674e+00  1.47053003e+00  3.45366716e-01 -5.36143303e-01
 -2.19624996e+00 -1.40903330e+00 -2.8553998


## Embeddings para palabras fuera del vocabulario

Si intentas obtener el vector de una palabra que no está en el vocabulario del modelo, SpaCy asigna un vector de ceros.  
Por ejemplo:


In [18]:
# Palabra que no está en el vocabulario
doc = nlp("supercalifragilisticoespialidoso")

# Verificar el vector
print(f"Vector de 'supercalifragilisticoespialidoso':\n { doc[0].vector }")

Vector de 'supercalifragilisticoespialidoso':
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]



## Comparar palabras de diferentes tipos (sustantivos, verbos, etc.)

Puedes comparar palabras que no necesariamente son similares en significado pero que quieras medir.  
Por ejemplo, comparar un verbo y un sustantivo:

In [24]:
# Comparar un verbo y un sustantivo
correr = nlp("correr")  # computadora
gato = nlp("gato")      # computación

similaridad_correr_gato = correr.similarity(gato)
print(f"Similitud entre 'correr' y 'gato': { similaridad_correr_gato }")

Similitud entre 'correr' y 'gato': 0.21468470990657806
