# Word Embedding

## Motivación

¿Cómo representar las dimensiones semánticas de cada palabra?

Ejemplo:

1. Quiero una naranja.
2. Quiero una manzana.

Los métodos que toman en cuenta solo la forma de las palabras no tienen la capacidad de calcular que las frases 1 y 2 tienen un sentido "similar". 

Necesitamos una manera de representar que las palabras 'naranja' y 'manzana' comparten caracterícas semánticas comunes.

## Definición de "Word Embedding"

El concepto de **word embedding** se refiere a un conjunto de técnicas utilizadas para aprender representaciones matemáticas de la "semántica" de cada palabra. El objeto matemático que permite representar la semántica de una palabra es el **vector**.

Una de las técnicas más populares es __Word2Vec__ propuesto por un equipo de investigación de Google en 2013 (Efficient Estimation of Word Representations in Vector Space [Mikolov et al., 2013]). Alternativas populares se basan sobre __GloVe__ (propuesta por la Universidad de Stanford en 2014) y __FastText__ (propuesta por Facebook en 2016), que extende Word2Vec para considerar de mejor manera las palabras con errores ortográficas.

<img src="img/word2vec4.png"/>

Habitualmente, en tratamiento automático del lenguaje, se representan las palabras con vectores de 25, 50, 100 o 300 dimensiones.

## Un ejemplo práctico para acercarse al concepto de Word Embedding

La clase <code>word2vec</code> de Gensim permite manejar word embeddings de palabras (ver documentación: https://radimrehurek.com/gensim/models/word2vec.html).

In [2]:
from gensim.models import word2vec

In [4]:
sentences = word2vec.Text8Corpus('data/text8.txt')
model = word2vec.Word2Vec(sentences,vector_size=200,hs=1)

In [5]:
model.save("data/text8_model")

In [6]:
model=word2vec.Word2Vec.load("data/text8_model")

In [7]:
print(model)

Word2Vec(vocab=71290, vector_size=200, alpha=0.025)


In [8]:
model.wv['computer']

array([-0.4750526 ,  0.28976187,  0.38863212, -0.9668308 ,  0.80221444,
        1.5536107 , -0.7473335 , -1.2108333 ,  0.9019541 , -0.08830222,
       -1.1577853 , -0.43256226,  0.67274344,  0.4902007 ,  0.5526762 ,
        1.0338655 ,  1.294052  , -1.8699862 , -0.12018216, -0.17123851,
       -0.12552847,  0.96788377, -1.3385379 ,  0.7592566 , -0.72655714,
       -0.41344744,  0.32699534,  0.54991597, -1.0608418 ,  0.11056432,
        0.419322  ,  0.12575264,  1.7193593 , -0.55634993, -0.7909115 ,
        0.6164369 ,  0.8432884 , -1.0142394 , -1.4164286 ,  1.2311203 ,
       -0.74148065,  0.8788119 , -0.5071327 , -0.46919817,  0.8426847 ,
        1.4220482 , -0.8212121 , -0.21774657,  0.9496805 , -0.47412476,
       -0.03405823, -1.2005451 , -0.8131298 , -0.30827165, -0.67405665,
       -0.10851738, -0.333103  , -0.3722968 ,  0.09006216, -1.452254  ,
       -0.86730033,  0.4266357 , -0.68121684,  0.96824515,  1.2678099 ,
       -0.8802508 , -1.1197585 ,  1.1102018 , -0.45635596, -2.18

Los parámetros de cada vector fueron aprendidos a través de un proceso de aprendizaje supervisado de una red neuronal, utilizando una dataset de entrenamiento. Las técnicas más comunes para aprender vectores de palabras se llaman CBOW (continuous bag of words) y Skip gram.

In [9]:
model.wv.most_similar(positive=['life'],topn=5)

[('childhood', 0.5218274593353271),
 ('lives', 0.4888582229614258),
 ('career', 0.48029983043670654),
 ('mankind', 0.4540000259876251),
 ('humanity', 0.45173171162605286)]

In [10]:
model.wv.most_similar(positive=["conflict","weapon"])

[('confrontation', 0.5610774755477905),
 ('weapons', 0.5424944162368774),
 ('fighting', 0.5220940709114075),
 ('struggle', 0.5182028412818909),
 ('conflicts', 0.49886053800582886),
 ('pistol', 0.4968554973602295),
 ('threat', 0.4939129948616028),
 ('warfare', 0.4918963611125946),
 ('hostilities', 0.4856746196746826),
 ('rifle', 0.4836275577545166)]

In [11]:
model.wv.most_similar(positive=["conflict"],negative=["weapon"])

[('clashes', 0.5167396068572998),
 ('conflicts', 0.5029823780059814),
 ('disagreements', 0.48314568400382996),
 ('disputes', 0.4498971998691559),
 ('tensions', 0.44021129608154297),
 ('dispute', 0.4338757395744324),
 ('hostilities', 0.4326581656932831),
 ('reconciliation', 0.429973840713501),
 ('negotiations', 0.4135918617248535),
 ('antagonism', 0.4083492159843445)]

In [12]:
model.wv.doesnt_match("brazil chile france peru argentina".split())

'france'

In [13]:
model.wv.similarity('man','engineer')

0.0780152

In [14]:
model.wv.similarity('woman','engineer')

0.049329914

In [15]:
model.wv.similarity('man','power')

0.11197498

In [16]:
model.wv.similarity('woman','power')

0.0045317276

## Cargar un modelo Word2Vec pre-entrenado para el español

ver: https://github.com/dccuchile/spanish-word-embeddings

In [17]:
from gensim.models import KeyedVectors

model = KeyedVectors.load_word2vec_format('./data/SBW-vectors-300-min5.bin.gz', binary=True)

In [23]:
print(model.similarity('hombre','poder'))
print(model.similarity('mujer','poder'))

0.33151585
0.32905576


In [24]:
print(model.similarity('hombre','martillo'))
print(model.similarity('mujer','martillo'))

0.29862916
0.21502514
