# Ejemplos de uso de word embeddings computados con FastText

Primero cargamos los vectores/embeddings usando [gensim](https://radimrehurek.com/gensim/). Hay al menos dos formas posibles. La primera es cargar todos los vectores desde el archivo binario (.bin) en su formato nativo de FastText. Esta opción es más demandante en recursos (tiempo y memoria), pero es mucho más versatil por ejemplo para obtener vectores para palabras que no se ecuentran en el vocabulario. Esta forma se encuentra comentada en la siguiente celda

In [1]:
# opción 1: cargar todos los vectores desde el formato binario (lento, requiere mucha memoria)
# from gensim.models.wrappers import FastText
# wordvectors_file = 'fasttext-sbwc.3.6.e20'
# wordvectors = FastText.load_fasttext_format(wordvectors_file).wv

La segunda forma, mucho más rápida, es cargar sólo una parte de los vectores. Para esto usamos el formato nativo de word2vec y cargamos una cantidad fija de vectores (se pueden cargar vectores generados por diversos métodos como FastText).

In [2]:
# opción 2: cargar una cantidad fija de vectores (más rápido dependiendo de la cantidad cargada)
from gensim.models.keyedvectors import KeyedVectors
wordvectors_file_vec = 'fasttext-sbwc.3.6.e20.vec'
cantidad = 100000
wordvectors = KeyedVectors.load_word2vec_format(wordvectors_file_vec, limit=cantidad).wv

Using Theano backend.


## Word vectors en analogías

Ejemplo de uso: `most_similar_cosmul(positive=lista_palabras_positivas, negative=lista_palabras_negativas)`

Esta llamada encuentra las palabras del vocabulario que están más cercanas a las palabras en `listas_palabras_positivas` y no estén cercanas a `lista_palabras_negativas` (para una formalización del procedimiento, ver la Sección 3 de [este artículo](http://www.aclweb.org/anthology/W14-1618)).

Cuando `lista_palabras_positivas` contiene dos palabras, digamos `a` y `b_p`, y `lista_palabras_negativas` contiene una palabra, digamos `a_p`, el anterior procedimiento se lee coloquialmente como el encontrar la palabra `b` que responde a la pregunta: `a_p` es a `a` como `b_p` es a ???. El ejemplo clásico se tiene cuando `a` es `rey`, `b_p` es `mujer`, y `a_p` es `hombre`. La palabra buscada `b` es `reina`, pues `hombre` es a `rey` como `mujer` es a `reina`. (Personalmente considero que la intuición de palabras  más lejanas y más cercanas es mucho mejor que la de analogías, pero la de analogías es más común en los tutoriales de word embeddings). 

### Ejemplos considerando género

In [3]:
wordvectors.most_similar_cosmul(positive=['rey','mujer'],negative=['hombre'])[0][0]

'reina'

In [4]:
wordvectors.most_similar_cosmul(positive=['actor','mujer'],negative=['hombre'])[0][0]

'actriz'

In [5]:
wordvectors.most_similar_cosmul(positive=['hijo','mujer'],negative=['hombre'])[0][0]

'hija'

### Ejemplos considerando conjugaciones

In [6]:
wordvectors.most_similar_cosmul(positive=['jugar','canta'],negative=['cantar'])[0][0]

'juega'

In [7]:
wordvectors.most_similar_cosmul(positive=['jugar','cantaría'],negative=['cantar'])[0][0]

'jugaría'

In [8]:
wordvectors.most_similar_cosmul(positive=['ir','canta'],negative=['cantar'])[0][0]

'va'

### Ejemplos de política

In [9]:
wordvectors.most_similar_cosmul(positive=['pinochet','argentino'],negative=['chileno'])[0][0]

'alfonsín'

In [10]:
wordvectors.most_similar_cosmul(positive=['pinochet','peruano'],negative=['chileno'])[0][0]

'fujimori'

In [11]:
wordvectors.most_similar_cosmul(positive=['bachelet','argentina'],negative=['chile'])[0][0]

'kirchner'

In [12]:
wordvectors.most_similar_cosmul(positive=['bachelet','brasil'],negative=['chile'])[0][0]

'rousseff'

### Ejemplos capitales y países

In [13]:
wordvectors.most_similar_cosmul(positive=['santiago','venezuela'],negative=['chile'])[0][0]

'caracas'

In [14]:
wordvectors.most_similar_cosmul(positive=['habana','chile'],negative=['santiago'])[0][0]

'cuba'

## Word vectors en términos excluídos

Ejemplo de uso: `doesnt_match(lista_palabras_positivas)`

Esta llamada selecciona la palabra dentro de `listas_palabras_positivas` que está más lejana del resto de las palabras de la lista. La distancia es simplemente el ángulo entre las direcciones de los vectores de las palabras.

In [15]:
wordvectors.doesnt_match(['blanco','azul','rojo','chile'])

'chile'

In [16]:
wordvectors.doesnt_match(['sol','luna','almuerzo','jupiter'])

'almuerzo'

In [17]:
wordvectors.doesnt_match(['abril', 'mayo', 'septiembre', 'martes', 'julio'])

'martes'

In [18]:
wordvectors.doesnt_match(['lunes', 'martes', 'septiembre', 'jueves', 'viernes'])

'septiembre'

In [19]:
wordvectors.doesnt_match(['everton', 'cobreloa', 'huachipato', 'talca'])

'talca'

In [20]:
wordvectors.doesnt_match(['santiago', 'paris', 'talca', 'concepcion'])

'paris'

In [21]:
wordvectors.doesnt_match(['talca', 'paris', 'londres'])

'talca'