# Ejemplo de *embeddings* con `glove`

En este cuaderno cargamos modelos de *embeddings* de palabras, preentrenados utilizando bases de datos de tweets y del proyecto [*Spanish Billion Word Corpus*](http://crscardellino.github.io/SBWCE/) (SBWC)

Para cargar estos *embeddings* utilizaremos la librería `gensim`

In [1]:
from gensim.scripts.glove2word2vec import glove2word2vec
from gensim.models import KeyedVectors
import gensim
gensim.__version__

'3.8.0'

## Importando el archivo de *embeddings* de Twitter

In [2]:
# Convertimos el archivo de glove a formato word2Vec
glove_input_file = '../../Glove/glove.twitter.27B.200d.txt'
word2vec_output_file = '../../Glove/glove.twitter.27B.200d.word2vec'
glove2word2vec(glove_input_file, word2vec_output_file)

(1193514, 25)

In [6]:
# Cargar el modelo Stanford Glove
word2vec_file = '../../Glove/glove.twitter.27B.200d.word2vec'
model = KeyedVectors.load_word2vec_format(word2vec_file, binary=False)

In [10]:
# Vamos a calcular un resultado interesante: 
#   (king - man) + woman = ?
exampleResult = model.most_similar(positive=['woman', 'king'], negative=['man'], topn=1)
print(exampleResult)

[('queen', 0.6820898056030273)]


In [11]:
model.most_similar(positive=['bitcoin'], topn=5)

[('bitcoins', 0.6961264610290527),
 ('gox', 0.613304853439331),
 ('currency', 0.5955000519752502),
 ('exchange', 0.5862643718719482),
 ('btc', 0.5816957354545593)]

In [13]:
model.most_similar(positive=['goal'], topn=5)

[('goals', 0.8308355808258057),
 ('score', 0.7244269847869873),
 ('scored', 0.7031205892562866),
 ('scores', 0.7027187943458557),
 ('scoring', 0.6796466112136841)]

In [14]:
model.most_similar(positive=['barcelona'], topn=5)

[('league', 0.8500511646270752),
 ('ucl', 0.7902396321296692),
 ('bayern', 0.714336633682251),
 ('semis', 0.703933596611023),
 ('europa', 0.7037068009376526)]

In [52]:
model.most_similar(positive=['messi'], topn=5)

[('iniesta', 0.7260959148406982),
 ('xavi', 0.7120282053947449),
 ('ronaldo', 0.681218683719635),
 ('lionel', 0.6473872065544128),
 ('guardiola', 0.6223856210708618)]

In [36]:
# Conjugación de verbos
model.most_similar(positive=['go','playing'],negative=['play'])

[('going', 0.8315241932868958),
 ('now', 0.7833804488182068),
 ('out', 0.7351419925689697),
 ('gonna', 0.7180647253990173),
 ('just', 0.715401828289032),
 ('right', 0.711840808391571),
 ('here', 0.7060959339141846),
 ('went', 0.7059710621833801),
 ('still', 0.7032345533370972),
 ('there', 0.7017902135848999)]

In [37]:
# Santiago es a Chile, como ? es a Venezuela
model.most_similar_cosmul(positive=['santiago','venezuela'],negative=['chile'])

[('caracas', 0.9006860852241516),
 ('bolívar', 0.8420948386192322),
 ('antonio', 0.8349326252937317),
 ('bolivar', 0.831375777721405),
 ('ccs', 0.8311764597892761),
 ('maracaibo', 0.8281850814819336),
 ('valencia', 0.8225287795066833),
 ('pueblo', 0.8219658732414246),
 ('vzla', 0.8169875144958496),
 ('ciudad', 0.8144233226776123)]

In [39]:
# Encontrar la palabra que no encaja
model.doesnt_match(['white','blue','red','chilli'])

'chilli'

In [53]:
model.doesnt_match(['monday', 'tuesday', 'september', 'thursday', 'friday'])

'september'

## Glove embeddings en español

Ahora vamos a mostrar un modelo de *embeddings* entrenado utilizado un corpus principalmente en español. Vea [*Spanish Billion Word Corpus*](http://crscardellino.github.io/SBWCE/)

In [43]:
# ¿Qué pasa si utilizamos nuestra analogía en español con los embeddings de Twitter?
model.most_similar(positive=['mujer', 'rey'], negative=['hombre'], topn=1)

[('lana', 0.6366966366767883)]

In [45]:
spanish_glove_file = '../../Glove/glove-sbwc.i25.vec'
model = KeyedVectors.load_word2vec_format(spanish_glove_file)

In [47]:
model.most_similar(positive=['mujer', 'rey'], negative=['hombre'], topn=1)

[('reina', 0.6732202768325806)]

In [48]:
model.most_similar_cosmul(positive=['rey','mujer'],negative=['hombre'])

[('reina', 0.9141066670417786),
 ('isabel', 0.8743277192115784),
 ('princesa', 0.843113124370575),
 ('infanta', 0.8425983190536499),
 ('monarca', 0.8357319831848145),
 ('hija', 0.8211697340011597),
 ('consorte', 0.8179485201835632),
 ('iv', 0.813984215259552),
 ('esposa', 0.8115168213844299),
 ('ii', 0.8099035620689392)]

In [49]:
model.most_similar_cosmul(positive=['actor','mujer'],negative=['hombre'])

[('actriz', 0.9732905030250549),
 ('actores', 0.8580312728881836),
 ('actrices', 0.8464058041572571),
 ('cantante', 0.8347789645195007),
 ('reparto', 0.8277631402015686),
 ('protagonista', 0.8202100396156311),
 ('invitada', 0.8101590871810913),
 ('papel', 0.8021049499511719),
 ('guionista', 0.7968517541885376),
 ('intérprete', 0.7961310744285583)]

In [50]:
model.most_similar_cosmul(positive=['ir','jugando'],negative=['jugar'])

[('yendo', 0.881558895111084),
 ('llevando', 0.8737362623214722),
 ('ido', 0.8687229156494141),
 ('saliendo', 0.8531793355941772),
 ('seguir', 0.8456405997276306),
 ('haciendo', 0.8450909852981567),
 ('va', 0.8442757725715637),
 ('vaya', 0.838218629360199),
 ('dando', 0.8275400996208191),
 ('estamos', 0.8271223306655884)]

In [51]:
model.doesnt_match(['abril', 'mayo', 'septiembre', 'martes', 'julio'])

'martes'

## Matriz de **embeddings** 

En esta matriz, de dimensiones (tamaño del vocabulario, número de vectores de representación) se encuentran todas las palabras de nuestro modelo de *embeddings*.

In [68]:
# Embedding matrix
print('Dimensiones de la matriz: ', model.wv.syn0.shape)
model.wv.syn0

Dimensiones de la matriz:  (855380, 300)


array([[ 0.46591 , -0.306953, -0.121611, ..., -0.519945, -0.181563,
         0.053406],
       [ 0.422498, -0.3078  , -0.280862, ..., -0.485321, -0.335308,
         0.061957],
       [ 0.476166, -0.530399, -0.346721, ..., -0.221037,  0.328242,
        -0.029409],
       ...,
       [-0.123679,  0.125201,  0.015841, ...,  0.211024,  0.038727,
         0.017024],
       [-0.1969  ,  0.060876,  0.277485, ...,  0.090367,  0.034666,
         0.063083],
       [-0.137711,  0.071672,  0.077311, ...,  0.206016, -0.009296,
         0.041523]], dtype=float32)

In [69]:
# Buscamos el índice de una de las palabras de nuestro vocabulario
model.vocab['messi'].index

8218

In [73]:
# Mostramos su representación 300-dimensional
# Señoras y señores, este es 'messi': 
# model.wv.syn0[694]