# Cómo utilizar los vectores de palabras (word embedings) de Spacy. 

Spacy incluye diferentes modelos de vectores de palabras (https://spacy.io/usage/vectors-similarity). Entre ellos, los modelos con sufijo '_lg' incluye vectores de palabras que nos van a permitir obtener la similitud entre palabras y documentos. 

El primer paso es descargar el modelo. Tendrás que reiniciar el entorno de ejecución (En el menú Runtime > Restart runtime).




In [14]:
!python -m spacy download en_core_web_lg

2023-01-30 17:12:23.864335: E tensorflow/stream_executor/cuda/cuda_driver.cc:271] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting en-core-web-lg==3.4.1
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_lg-3.4.1/en_core_web_lg-3.4.1-py3-none-any.whl (587.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m587.7/587.7 MB[0m [31m2.2 MB/s[0m eta [36m0:00:00[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_lg')


Ahora vamos a crear un objeto cargando ese modelo, y vamos a analizar una secuencia de palabras. Para cada palabra vamos a recuperar los siguiente atributos:
- text: el texto del token.
- has_vector: nos informa si el token cuenta con un vector.
- vector_norm: nos devuelve la norma del vector (la raíz cuadrada de la suma de los cuadrados de sus componentes).
- is_oov: es True si la palabra forma parte del vocabulario y False en otro caso. 

Mira que atributos muestra cada palabra en la secuencia:

In [21]:
import spacy

nlp = spacy.load("en_core_web_lg")
tokens = nlp("horse cow apple orange iansdiufnas")

for token in tokens:
    print(token.text, token.has_vector, token.vector_norm, token.is_oov)

horse True 46.892216 False
cow True 54.67789 False
apple True 43.366478 False
orange True 38.471573 False
iansdiufnas False 0.0 True


You can also access to the word vector using the .vector attribute of each token:

In [22]:
token1=tokens[0]
print(token1.vector)

[ 0.64303   0.77474  -3.0145   -1.1485    1.4978    0.69403  -0.08648
  7.9744    1.0765    4.0077    3.7039   -0.05152  -1.1523    3.8192
  2.0791    0.17663   5.1429   -1.0672    2.1802   -3.1451   -2.7753
  2.0465    3.7391   -6.9302    1.6819   -0.11232  -2.9267   -0.22154
  1.0612    0.79061  -1.1144    0.19591  -1.4913   -3.4074    1.6202
 -1.4298   -0.52047   4.8791   -1.0442   -2.3247   -0.13873   2.0687
  5.1688    3.8267   -3.3838   -1.517    -2.4958   -1.0546    0.62907
  1.5875    2.6928    5.1874    1.493     0.55656  -0.69242  -2.6394
  1.34     -2.0892    2.619     2.2504   -3.9171   -6.7628    2.1034
  2.4107    2.4431    0.041677 -0.64522  -2.9572   -1.1394    0.20984
  0.93855   1.6479   -1.3632    0.49943   2.482    -1.0086    1.2374
  2.4374   -2.7413    1.2011   -3.8423    3.2397   -1.0295    1.4107
  0.60999  -0.38193   3.6324    0.28095  -4.2943    1.3377   -1.7533
 -5.4283    2.7186   -3.3175    1.6948   -4.7825   -1.9384    1.9937
 -0.97536  -0.8333    2.7006  

Spacy nos proporciona un método para calcular la similaridad entre dos tokens. El método también se puedes aplicar a objetos de tipo document y Span ().

In [17]:
token1=tokens[0]#horse
for token in tokens[1:]:
    print(token1,token,token1.similarity(token))


horse cow 0.5475298762321472
horse apple 0.19814327359199524
horse orange 0.19781306385993958
horse iansdiufnas 0.0


  print(token1,token,token1.similarity(token))


También podemos comparar dos oraciones. El método siempre va a devolver un valor entre 0 y 1, donde los valores cercanos a 1 significa que ambas oraciones tienen un significado similar, mientras que los valores a 0 indican que no tienen un significado similar. 

In [18]:
doc1 = nlp("How can I uninstall the application?")
doc2 = nlp("How can I find true love?")
doc1.similarity(doc2)

0.8370712993197219

En el anterior ejemplo, el resultado es bastante alto (0.83) aunque las oraciones no tienen el mismo significado. Esto es debido a que ambas oraciones comparten el principiio de la oración (“How can I”). Si eliminamos ese comienzo, la similitud baja.


In [19]:
doc1 = nlp("uninstall the application")
doc2 = nlp("find true lovet")
doc1.similarity(doc2)

0.21691564807033714

In [20]:
doc1 = nlp("uninstall the application")
doc2 = nlp("remove the software")
doc1.similarity(doc2)

0.9160291599882977

## Conclusión:
Spacy incluye diferentes modelos con vectores de palabras. Estos vectores de palabras pueden ser utilizados para representar documentos. Además, gracias el método similarity, Spacy nos proporciona el nivel de similitud entre palabras y entre documentos de una forma sencilla. 