# Fasttext

Para calcular vectores de palabras (embeddings), se necesita un gran corpus de texto. Dependiendo del corpus, los vectores de palabras capturarán información diferente. 

En este tutorial, nos centramos en los artículos de Wikipedia. 


## Data
La descarga del corpus de Wikipedia lleva algún tiempo. Entonces, limitaremos nuestro estudio a los primeros mil millones de bytes de Wikipedia en inglés. Se pueden encontrar en el sitio web de Matt Mahoney y descargar mediante el siguiente código:

```bash
mkdir data
wget -c http://mattmahoney.net/dc/enwik9.zip -P data
unzip data/enwik9.zip -d data
```

Los datos de Wikipedia contienen una gran cantidad de datos HTML / XML. Los preprocesamos con el script wikifil.pl incluido en el [github](https://github.com/facebookresearch/fastText) fastText 

```bash
perl wikifil.pl data/enwik9 > data/fil9
```

Podemos verificar el archivo ejecutando el siguiente comando:

```bash
$ head -c 80 data/fil9
anarchism originated as a term of abuse first used against early working class
```

Podemos ver que el texto está bien preprocesado y se puede utilizar para aprender nuestros vectores de palabras.

## El Modelo
El aprendizaje de vectores de palabras sobre estos datos ahora se puede lograr con un solo comando:

In [4]:
import fasttext
model = fasttext.train_unsupervised('data/fil9')

Tener en cuenta que esto puede demorar una hora o mas dado que la versión en python es mas lenta y son muchisimos datos.

Una vez que finalizado el entrenamiento, tenemos nuestro modelo listo para poder usar para realizar consultas.

In [5]:
model.words

['the',
 'of',
 'one',
 'zero',
 'and',
 'in',
 'two',
 'a',
 'nine',
 'to',
 'is',
 'eight',
 'three',
 'four',
 'five',
 'six',
 'seven',
 'for',
 'are',
 'as',
 'was',
 's',
 'with',
 'by',
 'from',
 'that',
 'on',
 'or',
 'it',
 'at',
 'his',
 'an',
 'he',
 'have',
 'which',
 'be',
 'this',
 'there',
 'age',
 'also',
 'has',
 'population',
 'not',
 'were',
 'who',
 'other',
 'had',
 'but',
 'years',
 'all',
 'km',
 'their',
 'out',
 'new',
 'city',
 'under',
 'first',
 'more',
 'its',
 'american',
 'county',
 'they',
 'mi',
 'living',
 'income',
 'some',
 'median',
 'been',
 'after',
 'total',
 'most',
 'can',
 'united',
 'no',
 'when',
 'many',
 'states',
 'people',
 'over',
 'time',
 'census',
 'into',
 'used',
 'such',
 'may',
 'i',
 'up',
 'town',
 'average',
 'see',
 'older',
 'area',
 'families',
 'only',
 'family',
 'those',
 'males',
 'females',
 'households',
 'line',
 'made',
 'world',
 'them',
 'these',
 'her',
 'than',
 'would',
 'any',
 'every',
 'during',
 'war',
 'ex

Devuelve todas las palabras del vocabulario, ordenadas por frecuencia decreciente. Podemos obtener tamibén la palabra vector mediante la siguiente línea

In [6]:
model.get_word_vector("the")

array([-0.02632042, -0.24961016, -0.03810176, -0.08363393,  0.17189504,
        0.17880219,  0.1072038 ,  0.15014821,  0.1954687 ,  0.01911135,
       -0.04647756, -0.00761587, -0.13115846,  0.1712115 ,  0.09849525,
        0.06910376, -0.13694933,  0.15284032, -0.28793445,  0.10451043,
        0.1526004 ,  0.32726157,  0.19839802, -0.06864461, -0.09726731,
        0.02672472,  0.05838011,  0.46633056, -0.22053744, -0.10376953,
        0.01865205,  0.17347327, -0.2944164 , -0.10139454,  0.02832289,
        0.22598654,  0.17671743, -0.2040942 , -0.29931232,  0.08886325,
       -0.02379124,  0.03572726, -0.18761243, -0.07018941,  0.11839328,
       -0.13705416,  0.18952958,  0.01830937,  0.16742   ,  0.0677211 ,
       -0.03569897,  0.19195762,  0.14106458, -0.15976259,  0.23845533,
       -0.03598373, -0.1233262 ,  0.2336837 ,  0.18061058,  0.24142714,
       -0.1091122 ,  0.1610991 ,  0.12832   , -0.00399957, -0.03390944,
       -0.36903015,  0.20828909, -0.05053389, -0.1125346 , -0.17

Si lo deseamos podemos guardar este modelo en el disco como un archivo binario

In [7]:
model.save_model("wiki.bin")

y recargarlo cuando queramos en vze de entrenar nuevamente:

In [9]:
model = fasttext.load_model("wiki.bin")



## Jugando con los parámetros

Hasta ahora, ejecutamos fastText con los parámetros predeterminados, pero dependiendo de los datos, estos parámetros pueden no ser óptimos. Como explicamos en al teórica, algunos de estos parámetros son importantes y tienen una considerable influencia en nuestro modelo final.

Los parámetros más importantes del modelo son su dimensión y el rango de tamaño de las subpalabras. La dimensión (dim) controla el tamaño de los vectores, cuanto más grandes son, más información pueden capturar, pero requiere que se aprendan más datos. Pero, si son demasiado grandes, son más difíciles y lentos de entrenar. De forma predeterminada, usamos 100 dimensiones, pero cualquier valor en el rango de 100 a 300 es igual de popular. Las subpalabras son todas las subcadenas contenidas en una palabra entre el tamaño mínimo (minn) y el tamaño máximo (maxn). Por defecto, tomamos todas las subpalabras entre 3 y 6 caracteres, pero otro rango podría ser más apropiado para diferentes idiomas:

In [None]:
model = fasttext.train_unsupervised('data/fil9', minn=2, maxn=5, dim=300)

Dependiendo de la cantidad de datos que tenga, es posible que desee cambiar los parámetros del entrenamiento. El parámetro epoch controla cuántas veces el modelo recorrerá sus datos. De forma predeterminada, recorremos el conjunto de datos 5 veces. Si el conjunto de datos es extremadamente masivo, es posible que desee recorrerlo con menos frecuencia. 

Otro parámetro importante es la tasa de aprendizaje lr. Cuanto mayor sea la tasa de aprendizaje, más rápido convergerá el modelo a una solución, pero corremos el riesgo de sobreajustarse al conjunto de datos. El valor predeterminado es 0.05, que es un buen tradeoff. Si quieren jugar con él, les sugerimos que se mantengan en el rango de \[0.01, 1\]:

In [None]:
model = fasttext.train_unsupervised('data/fil9', epoch=1, lr=0.5)

Finalmente, FastText es multiproceso y usa 12 cores por defecto. Si tiene menos núcleos nuestro CPU (digamos 4), puede establecer fácilmente el número de subprocesos utilizando el flag thread:

In [None]:
model = fasttext.train_unsupervised('data/fil9', thread=4)

## Imprimiendo los word vectors

Buscar e imprimir los word vectors directamente desde el archivo fil9.vec es engorroso. Afortunadamente, hay una funcionalidad de hacerlo en fastText.

Por ejemplo, podemos imprimir los wordvectors de las palabras  asparagus, pidgey and yellow con el siguiente comando:

In [10]:
[model.get_word_vector(x) for x in ["asparagus", "pidgey", "yellow"]]

[array([-0.01506518,  0.4541949 ,  0.19321598,  0.5288826 , -0.42807326,
        -0.30431366, -0.17672932,  0.40030366, -0.40666378, -0.03253674,
         0.30891153,  0.08248681, -0.40068316,  0.5158829 ,  0.2209085 ,
         0.4941609 , -0.38837457, -0.15517345, -0.13741846, -0.18254507,
        -0.3497715 ,  0.7594063 , -0.36996326, -0.1199929 , -0.52514315,
         0.5830892 ,  0.07602929,  0.45518115, -0.31864527, -0.5182843 ,
         0.44003353, -0.2759131 , -0.7020693 ,  0.49431813, -0.29585573,
         0.21835111,  0.68666893, -0.06382492,  0.39405414, -0.39237866,
         0.28952232, -0.66669345, -0.5487205 ,  0.3580609 ,  0.35222614,
        -0.48933667,  0.27267668,  0.06543619,  0.44272575, -0.358011  ,
         0.1707241 ,  0.23901255,  0.30167413,  0.01029939, -0.04695751,
        -0.2618878 , -0.08864275,  0.2924017 ,  0.20568264,  0.49246463,
        -0.6709726 ,  0.19605027, -0.50157964, -0.09929345, -0.18812884,
        -0.11779808, -0.04046599,  0.3065234 , -0.0

Una característica interesante es que también pueden consultar palabras que no aparecieron en sus datos. De hecho, las palabras están representadas por la suma de sus subcadenas. Siempre que la palabra desconocida esté formada por subcadenas conocidas, ¡hay una representación de ella!

Como ejemplo, intentemos con una palabra mal escrita (enviroment en vez enviroNment):

In [11]:
model.get_word_vector("enviroment")

array([ 0.24546665,  0.17185892,  0.36975354,  0.15062103,  0.05924705,
       -0.18265083,  0.20884101,  0.29403046,  0.26728413, -0.04502287,
       -0.05671503,  0.31518966, -0.20782839,  0.05031516, -0.21250737,
       -0.29691422, -0.22266586, -0.07359225,  0.19458035, -0.18314838,
       -0.23749383,  0.39292747, -0.07799876, -0.2924569 , -0.20469038,
        0.18595292, -0.10828631,  0.19247656, -0.04968495, -0.15305763,
        0.17281617,  0.15498145, -0.16324265, -0.09012615, -0.10538822,
        0.14633149,  0.4234822 ,  0.35851237, -0.21599425,  0.10492532,
        0.12876286, -0.19906555, -0.3965619 ,  0.03541358,  0.35185996,
       -0.23164453,  0.13202028, -0.47295228, -0.06744   ,  0.07074037,
        0.07173958, -0.02897722,  0.17869046, -0.17137827,  0.40009668,
        0.02940893,  0.17360994,  0.25939098, -0.00396638,  0.31027418,
       -0.14148653,  0.45694497, -0.24414116, -0.09693296, -0.17908624,
       -0.26552296,  0.31199968,  0.01826492,  0.11359236,  0.47

¡Aún obtienes un word vector para ella! ¿Pero qué tan bueno es?

## Nearest neighbor queries

Una forma sencilla de comprobar la calidad de un word vector es mirar a sus vecinos más cercanos. Esto da una intuición del tipo de información semántica que los vectores son capaces de capturar.

Se puede lograr con la funcionalidad de vecino más cercano (nn). Por ejemplo, podemos consultar los 10 vecinos más cercanos de la palabra asparagus (esparragos) ejecutando el siguiente comando:

In [12]:
model.get_nearest_neighbors('asparagus')

[(0.7928065657615662, 'spinach'),
 (0.7857974767684937, 'cabbage'),
 (0.7840216755867004, 'beetroot'),
 (0.7822654843330383, 'tomato'),
 (0.7815334796905518, 'asparagales'),
 (0.7767889499664307, 'beets'),
 (0.7748492956161499, 'cabbages'),
 (0.7702080607414246, 'horseradish'),
 (0.7677841186523438, 'lingonberries'),
 (0.7674185633659363, 'carrots')]

¡Bien! Parece que los vectores de vegetales son similares. 

¿Qué pasa con los pokemons?

In [13]:
 model.get_nearest_neighbors('pidgey')

[(0.9004228115081787, 'pidgeotto'),
 (0.8991588354110718, 'pidgeot'),
 (0.8793633580207825, 'pidge'),
 (0.7655767798423767, 'pikachu'),
 (0.7634807825088501, 'beedrill'),
 (0.7627153992652893, 'pidgeon'),
 (0.756135880947113, 'jigglypuff'),
 (0.7553478479385376, 'squirtle'),
 (0.746259868144989, 'pok'),
 (0.7327038645744324, 'charizard')]

¡Diferentes evoluciones del mismo Pokémon tienen vectores cercanos! 

¿Qué pasará con nuestra palabra mal escrita, su vector se acerca será algo razonable? Vamos a averiguarlo:

In [14]:
model.get_nearest_neighbors('enviroment')

[(0.8919543623924255, 'enviromental'),
 (0.8458593487739563, 'environ'),
 (0.8340750336647034, 'enviro'),
 (0.7590425610542297, 'environnement'),
 (0.7503014802932739, 'environs'),
 (0.7456784844398499, 'enviromission'),
 (0.7164572477340698, 'environment'),
 (0.6881601810455322, 'realclimate'),
 (0.6581783890724182, 'environmentally'),
 (0.6508368849754333, 'acclimatation')]

Gracias a la información contenida en la palabra, el vector de nuestra palabra mal escrita coincide con palabras razonables. 

## Analogías

Con un espíritu similar, se puede jugar con analogías de palabras. Por ejemplo, podemos ver si nuestro modelo puede adivinar que palabra es para Argentina dado lo qué Berlín es para Alemania.

Esto se puede hacer con la funcionalidad de analogías. Toma un triplete de palabras (como Alemania, Berlín, Argentina) y genera la analogía:

In [16]:
model.get_analogies("berlin", "germany", "argentina")

[(0.8049203157424927, 'buenos'),
 (0.7984284162521362, 'aires'),
 (0.7456688284873962, 'argentinas'),
 (0.7436091303825378, 'argentinos'),
 (0.739849865436554, 'argentinan'),
 (0.7182493805885315, 'argentine'),
 (0.7181199193000793, 'argentino'),
 (0.7162852883338928, 'costa'),
 (0.7085649371147156, 'caracas'),
 (0.7032025456428528, 'argentinean')]

La respuesta que nos da nuestro modelo es Buenos y Aires, que es correcto. 
Echemos un vistazo a un ejemplo menos obvio:

In [18]:
model.get_analogies("psx", "sony", "nintendo")

[(0.7334167957305908, 'gamecube'),
 (0.7265833020210266, 'gba'),
 (0.722352147102356, 'gameboy'),
 (0.7193081974983215, 'sega'),
 (0.7175946235656738, 'puyo'),
 (0.7135152220726013, 'dreamcast'),
 (0.7043899893760681, 'arcade'),
 (0.6925106644630432, 'wario'),
 (0.6905795335769653, 'psp'),
 (0.6879773139953613, 'nintendogs')]

Nuestro modelo considera que la analogía de nintendo con una psx es el gamecube, lo que parece razonable. Por supuesto, la calidad de las analogías depende del conjunto de datos utilizado para entrenar el modelo y uno solo puede esperar cubrir conceptos que esten en el conjunto de datos.

In [33]:
model.get_analogies("usa", "bush", "brazil")

[(0.6249924898147583, 'euramerica'),
 (0.6145680546760559, 'brazillia'),
 (0.605961799621582, 'guarany'),
 (0.6026880741119385, 'europeo'),
 (0.6024648547172546, 'argentina'),
 (0.5876622796058655, 'gasport'),
 (0.5858680009841919, 'netherlands'),
 (0.5822027325630188, 'uruguay'),
 (0.5817792415618896, 'esporte'),
 (0.5752928853034973, 'venezolano')]

## Importancia de los n-gramas

El uso de información a nivel de tokens es particularmente interesante para construir vectores para palabras desconocidas. Por ejemplo, la palabra gearshift (palanca de cambios) no existe en este dataset de Wikipedia, pero aún podemos consultar sus palabras existentes más cercanas:

In [34]:
model.get_nearest_neighbors('gearshift')

[(0.7920395135879517, 'driveshaft'),
 (0.7858796119689941, 'driveshafts'),
 (0.7773779630661011, 'gears'),
 (0.7700628042221069, 'gearing'),
 (0.7678226232528687, 'daisywheel'),
 (0.7628052830696106, 'flywheel'),
 (0.759106457233429, 'flywheels'),
 (0.7532490491867065, 'wheelsets'),
 (0.752494215965271, 'wheelset'),
 (0.7506456971168518, 'crankshaft')]

La mayoría de las palabras devueltas comparten subcadenas sustanciales, pero algunas son bastante diferentes, como rueda cogwheel (engranaje). 

Ahora que hemos visto la importancia de la información de los tokens de ngrams para palabras desconocidas, veamos cómo se compara con un modelo que no usa información de subpalabras. Para entrenar un modelo sin subpalabras, simplemente llevamos el maxn a 0:

In [35]:
model_without_subwords = fasttext.train_unsupervised('data/fil9', maxn=0)

Para ilustrar la diferencia, tomemos una palabra poco común en Wikipedia, como accomodation, que es un error ortográfico de accomModation. Aquí están los vecinos más cercanos obtenidos sin subpalabras:

In [36]:
model_without_subwords.get_nearest_neighbors('accomodation')

[(0.7584854960441589, 'directgov'),
 (0.7546752691268921, 'sunnhordland'),
 (0.7497950792312622, 'massgov'),
 (0.749082088470459, 'agrotourism'),
 (0.747370183467865, 'accomodations'),
 (0.7438468933105469, 'whitepages'),
 (0.7434263825416565, 'jaring'),
 (0.7432680726051331, 'maranoa'),
 (0.7413424253463745, 'municipals'),
 (0.7408892512321472, 'radzima')]

El resultado no tiene mucho sentido, la mayoría de estas palabras no están relacionadas. Por otro lado, el uso de información de subpalabras da la siguiente lista de vecinos más cercanos

In [37]:
model.get_nearest_neighbors('accomodation')

[(0.9609587788581848, 'accomodations'),
 (0.9394452571868896, 'accommodation'),
 (0.917659342288971, 'accommodations'),
 (0.8432504534721375, 'accommodative'),
 (0.7997313737869263, 'accommodating'),
 (0.7738526463508606, 'lodging'),
 (0.7409136295318604, 'amenities'),
 (0.7281052470207214, 'catering'),
 (0.7241303324699402, 'hospitality'),
 (0.7029680013656616, 'accomodated')]

Los vecinos más cercanos capturan diferentes variaciones en torno a la palabra alojamiento. También obtenemos palabras relacionadas semánticamente como amenities o catering.