___
# Modelos de spacy

Como vimos en la teoría, en general no vamos a entrenar embeddings desde 0 sino que utilizaremos embeddings ya entrenados y luego, si es necesario, los adaptaremos a nuestros datos (no en esta clase).

En este notebook, queremos acceder a embeddings de palabras. El modelo de spacy con el que venimos trabajando hasta ahora es: [**en_core_web_sm**](https://spacy.io/models/en#en_core_web_sm) (35MB). El mismo nos provee vocabulario, sintaxis, entidades y todo lo que estuvimos viendo hasta ahora, pero no embeddings.

Para utilizar embeddings (en inglés) en spacy tenemos las siguientes opciones:
> [**en_core_web_md**](https://spacy.io/models/en#en_core_web_md) (116MB) Vectors: 685k keys, 20k unique vectors (300 dimensions)

> [**en_core_web_lg**](https://spacy.io/models/en#en_core_web_lg) (812MB) Vectors: 685k keys, 685k unique vectors (300 dimensions)

> [**en_vectors_web_lg**](https://spacy.io/models/en#en_vectors_web_lg) (631MB) Vectors: 1.1m keys, 1.1m unique vectors (300 dimensions)

En nuestro caso, con  **en_core_web_md** será suficiente. Pueden probar luego los otros modelos.

Por defecto en colab no tenemos los modelos más pesados, por lo que **la siguiente celda les dará un error:**

Por lo tanto debemos descargarlo:

In [2]:
!python -m spacy download en_core_web_lg

Collecting en-core-web-lg==3.7.1
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_lg-3.7.1/en_core_web_lg-3.7.1-py3-none-any.whl (587.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m587.7/587.7 MB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: en-core-web-lg
Successfully installed en-core-web-lg-3.7.1
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_lg')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


Luego de instalarlo deberán resetear su runtime de colab.

Para esto van a runtime -> restart runtime.

Ahora si deberían poder cargar el modelo:

In [4]:
import spacy
nlp = spacy.load('en_core_web_lg')

# Embeddings en spacy

En spacy vimos que los vectores que se utilizan tienen 300 dimensiones.

Podemos acceder a los mismos de la siguiente manera:

In [5]:
nlp(u'lion').vector

array([  1.2746  ,   0.46242 ,  -1.1829  ,  -5.2661  ,  -2.7128  ,
         1.8521  ,  -0.94273 ,   2.1865  ,   6.503   ,   0.6704  ,
         1.5361  ,   2.5992  ,  -0.36233 ,   4.3965  ,  -6.5644  ,
         1.6141  ,  -1.2897  ,   2.1184  ,  -0.63654 ,  -3.4572  ,
        -4.3771  ,   4.2074  ,  -3.6411  ,  -0.97214 ,   1.3253  ,
        -2.3125  ,  -3.6531  ,  -2.8398  ,   2.7913  ,  -1.53    ,
        -2.9984  ,  -2.6357  ,   0.50615 ,  -2.6925  ,   4.3401  ,
        -5.6017  ,   0.045691,   4.3832  ,  -0.19535 ,  -1.0751  ,
         0.32172 ,   2.4395  ,   4.6638  ,   3.4471  ,  -3.3847  ,
        -1.8238  ,   0.70212 ,   0.58557 ,   5.0032  ,  -3.1072  ,
         1.2364  ,   7.4595  ,   0.057368,   1.0111  ,  -1.0827  ,
         0.69113 ,   2.8009  ,  -3.4383  ,  -1.0599  ,  -2.2627  ,
        -5.149   ,  -5.0636  ,   3.1405  ,   1.0793  ,  -0.72892 ,
        -3.9939  ,  -0.69551 ,  -0.55767 ,   3.2555  ,  -2.9449  ,
         4.7114  ,   1.6388  ,   1.3828  ,   1.4255  ,  -3.233

Otra forma de hacer lo mismo:

In [6]:
nlp.vocab['lion'].vector

array([  1.2746  ,   0.46242 ,  -1.1829  ,  -5.2661  ,  -2.7128  ,
         1.8521  ,  -0.94273 ,   2.1865  ,   6.503   ,   0.6704  ,
         1.5361  ,   2.5992  ,  -0.36233 ,   4.3965  ,  -6.5644  ,
         1.6141  ,  -1.2897  ,   2.1184  ,  -0.63654 ,  -3.4572  ,
        -4.3771  ,   4.2074  ,  -3.6411  ,  -0.97214 ,   1.3253  ,
        -2.3125  ,  -3.6531  ,  -2.8398  ,   2.7913  ,  -1.53    ,
        -2.9984  ,  -2.6357  ,   0.50615 ,  -2.6925  ,   4.3401  ,
        -5.6017  ,   0.045691,   4.3832  ,  -0.19535 ,  -1.0751  ,
         0.32172 ,   2.4395  ,   4.6638  ,   3.4471  ,  -3.3847  ,
        -1.8238  ,   0.70212 ,   0.58557 ,   5.0032  ,  -3.1072  ,
         1.2364  ,   7.4595  ,   0.057368,   1.0111  ,  -1.0827  ,
         0.69113 ,   2.8009  ,  -3.4383  ,  -1.0599  ,  -2.2627  ,
        -5.149   ,  -5.0636  ,   3.1405  ,   1.0793  ,  -0.72892 ,
        -3.9939  ,  -0.69551 ,  -0.55767 ,   3.2555  ,  -2.9449  ,
         4.7114  ,   1.6388  ,   1.3828  ,   1.4255  ,  -3.233

Si le pedimos el embedding que un documento, lo calculara como el promedio de los vectores de todas las palabras. Con esto, podemos computar similaridad entre documentos.

In [7]:
doc = nlp(u'The quick brown fox jumped over the lazy dogs.')
doc.vector

array([-1.7769655 ,  0.39714497, -1.695121  , -0.1089559 ,  3.861494  ,
       -0.10778303, -0.02750097,  3.191314  ,  1.0857747 , -0.2615487 ,
        4.0720797 ,  1.5932049 , -2.7569218 ,  0.70982707,  2.0976841 ,
        0.08150103,  0.8847861 , -0.505237  ,  0.767067  , -2.88911   ,
       -0.28514975, -0.331664  ,  0.306348  , -2.25347   ,  0.96798134,
       -0.030282  , -3.765162  , -2.168157  ,  1.3985709 ,  2.175709  ,
       -0.81103534, -0.55156004, -1.033463  , -2.3130198 , -2.892054  ,
       -2.843568  , -0.33247897,  1.620013  ,  3.03307   , -0.42730814,
        1.298548  ,  0.18969259,  1.234282  , -0.14263602, -1.427765  ,
       -0.05807757,  0.33836406, -1.6987331 , -2.13661   ,  0.10412004,
        0.62479395,  3.9712129 , -0.31110606, -1.9676571 , -0.11860895,
        0.55582994, -0.660888  ,  1.947435  ,  1.6391805 ,  0.6569032 ,
        0.054408  , -2.08993   ,  1.0370519 ,  0.5363236 ,  0.00807395,
       -0.91060096, -3.3870788 , -1.4823462 ,  1.4170542 ,  0.32

# Identificando vectores similares

Spacy nos provee el método .similarity() para evaluar la similitud entre palabras.

El método similarity es de los tokens.

In [8]:
tokens = nlp(u'lion cat pet')

for token1 in tokens:
    for token2 in tokens:
        print(token1.text, token2.text, token1.similarity(token2))

lion lion 1.0
lion cat 0.3854507803916931
lion pet 0.20031584799289703
cat lion 0.3854507803916931
cat cat 1.0
cat pet 0.732966423034668
pet lion 0.20031584799289703
pet cat 0.732966423034668
pet pet 1.0


<font color=red>El orden NO importa. `token1.similarity(token2)` retorna lo mismo que `token2.similarity(token1)`.</font>

Como es de esperar, vemos la relación más fuerte entre "cat" y "pet" y la más débil es "lion" con "pet".

# Palabras opuestas

Como palabras opuestas pueden aparecer muchas veces en los mismos contextos, seguramente vamos a encontrar casos con palabras opuestas y distancias pequeñas.

In [9]:
tokens = nlp(u'like love hate')

for token1 in tokens:
    for token2 in tokens:
        print(token1.text, token2.text, token1.similarity(token2))

like like 1.0
like love 0.5212638974189758
like hate 0.5065140724182129
love like 0.5212638974189758
love love 1.0
love hate 0.5708349943161011
hate like 0.5065140724182129
hate love 0.5708349943161011
hate hate 1.0


# Operaciones con vectores

También podemos calcular nuevos vectores haciendo sumas y restas. Existe un ejemplo famoso sobre Word2vec que dice que:

<pre>"king" - "man" + "woman" = "queen"</pre>

Lo podemos probar:

In [10]:
from scipy import spatial

#Función para calcular distancia coseno
def cosine_similarity(x, y):
  return 1 - spatial.distance.cosine(x, y)

king = nlp.vocab['king'].vector
man = nlp.vocab['man'].vector
woman = nlp.vocab['woman'].vector

new_vector = king - man + woman
computed_similarities = []

# Comparamos con todo el vocabulario
for word in nlp.vocab:
    # Ignoramos palabras sin embedding en el modelo
    if word.has_vector:
      #Ignoramos palabras en mayúsculas
      if word.is_lower:
            # Nos quedamos con palabras
            if word.is_alpha:
              #Calculamos distancia coseno
                  similarity = cosine_similarity(new_vector, word.vector)
              # Se almacenan los resultados en la lista de tuplas
              # Cada tupla tiene como primer valor el token y segundo valor la similaridad
                  computed_similarities.append((word, similarity))

# Ordenamos de mayor a menor
computed_similarities = sorted(computed_similarities, key=lambda item: -item[1])

print([f"{w[0].text}:{w[1]}" for w in computed_similarities[:10]])

['king:0.8489541411399841', 'the:0.39655405282974243', 'and:0.3899005055427551', 'that:0.38483577966690063', 'where:0.3385923206806183', 'she:0.32445624470710754', 'they:0.3206636309623718', 'woman:0.30994713306427', 'there:0.30542072653770447', 'should:0.29837310314178467']


En este caso, con estos embeddings no nos dió que la palabra más similar es "queen", pero sale en el 2do lugar!