# <span style="color:green"><center>Diplomado en Inteligencia Artificial y Aprendizaje Profundo</center></span>

# <span style="color:red"><center>Introducción a FastText</center></span>

<center>Library for efficient text classification and representation learning</center>

##   <span style="color:blue">Profesores</span>

1. Alvaro Mauricio Montenegro Díaz, ammontenegrod@unal.edu.co
2. Daniel Mauricio Montenegro Reyes, dextronomo@gmail.com 
3. Campo Elías Pardo Turriago, cepardot@unal.edu.co 

##   <span style="color:blue">Asesora Medios y Marketing digital</span>
 

4. Maria del Pilar Montenegro, pmontenegro88@gmail.com 

## <span style="color:blue">Asistentes</span>

5. Oleg Jarma, ojarmam@unal.edu.co 
6. Laura Lizarazo, ljlizarazore@unal.edu.co 

## <span style="color:blue">Referencias</span> 

1. P. Bojanowski*, E. Grave*, A. Joulin, T. Mikolov, [Enriching Word Vectors with Subword Information](https://arxiv.org/pdf/1607.04606.pdf)
2. A. Joulin, E. Grave, P. Bojanowski, T. Mikolov, [Bag of Tricks for Efficient Text Classification](https://arxiv.org/pdf/1607.01759.pdf)
3. A. Joulin, E. Grave, P. Bojanowski, M. Douze, H. Jégou, T. Mikolov, [FastText.zip: Compressing text classification models](https://arxiv.org/pdf/1612.03651.pdf)

## <span style="color:blue">Contenido</span>

* [Introducción](#Introducción)
* [Instalación](#Instalación)
* [Modelo No Supervisado](#Modelo-No-Suervisado)
    * [Uso del Modelo (Toy Example)](#Uso-del-Modelo-\(Toy-Example\))
        * [Jugando con los Parámetros](#Jugando-con-los-Parámetros)
        * [Palabras vecinas más cercanas](#Palabras-vecinas-más-cercanas)
    * [Uso del Modelo (Wikipedia)](#Uso-del-Modelo-(Wikipedia))
        * [Preprocesamiento](#Preprocesamiento)
        * [Entrenando el Modelo](#Entrenando-el-Modelo)
        * [Palabras más cercanas](#Palabras-más-cercanas)
        * [Curiosidades](#Curiosidades)
        * [Analogía de Palabras](#Analogía-de-Palabras)
* [Modelo Supervisado](#Modelo-Supervisado)
    * [Uso del Modelo](#Uso-del-Modelo)
    * [Mejorando el Modelo](#Mejorando-el-Modelo)
    * [Autotuning de Parámtros](#Autotuning-de-Parámetros)

## <span style="color:blue">Introducción</span>

El modelo [FastText](https://fasttext.cc/) fue introducido por primera vez por Facebook en 2016 como una extensión y supuestamente una mejora del modelo vainilla de Word2Vec. 

Está basado en el artículo original titulado [Enriching Word Vectors with Subword Information](https://arxiv.org/pdf/1607.04606.pdf) de Mikolov et al. que es una lectura excelente para obtener una comprensión profunda de cómo funciona este modelo. En general, FastText es un marco para el aprendizaje de representaciones de palabras y también para realizar una clasificación de texto sólida, rápida y precisa. 

El marco es de código abierto de Facebook en GitHub y afirma tener lo siguiente.

1. Vectores de palabras en inglés de última generación.
2. Vectores de palabras para 157 idiomas entrenados en Wikipedia y rastreo.
3. Modelos para identificación de idiomas y diversas tareas supervisadas.

De acuedo con los autores,  en general, los modelos predictivos como el modelo *Word2Vec* suelen considerar cada palabra como una entidad distinta (por ejemplo, dónde) y generan una incrustación densa para la palabra. 

Sin embargo, esto representa una seria limitación con los idiomas que tienen un vocabulario masivo y muchas palabras raras que pueden no aparecer mucho en diferentes corpus. El modelo Word2Vec normalmente ignora la estructura morfológica de cada palabra y considera una palabra como una sola entidad. 

El modelo **FastText** considera cada palabra como una bolsa de n-gramas de caracteres. Esto también se denomina modelo de subpalabras en el documento.


Se agregan símbolos de límites especiales <y> al principio y al final de las palabras. Esto  permite distinguir prefijos y sufijos de otras secuencias de caracteres. También incluiyen la propia palabra *w* en el conjunto de sus n-gramas, para aprender una representación de cada palabra (además de su carácter n-gramas). 
    
    
Tomando la palabra *where* y n = 3 (tri-gramas) como ejemplo, estará representada por el carácter n-gramas: <wh, whe, her, ere, re> y la secuencia especial <where> que representa la palabra completa . 
    
 Tenga en cuenta que la secuencia, correspondiente a la palabra <her> es diferente del trigrama ella de la palabra where.
    
En la práctica, el artículo recomienda extraer todos los n-gramas para $3\le n \le 6$ Este es un enfoque muy simple, y se podrían considerar diferentes conjuntos de n-gramas, por ejemplo, tomando todos los prefijos y sufijos. 
    
Normalmente asociamos una representación vectorial (incrustación) a cada n-grama de una palabra. Por tanto, podemos representar una palabra mediante la suma de las representaciones vectoriales de sus n-gramas o el promedio de la incrustación de estos n-gramas. 
    
Según los autores, debido a este efecto de aprovechar los n-gramas de palabras individuales basadas en sus caracteres, existe una mayor probabilidad de que las palabras raras obtengan una buena representación, ya que sus n-gramas basados en caracteres deben aparecer en otras palabras del corpus.
    
Vamos a la práctica.

[[Volver al inicio]](#Contenido)

## <span style="color:blue">Instalación</span>

`$ git clone https://github.com/facebookresearch/fastText.git`

`$ cd fastText`

`$ sudo pip install .`

`$ # or :`

`$ sudo python setup.py install`

Si todo va bien, el siguiente comando debería funcionar:

In [1]:
import fasttext as ft

In [8]:
help(ft.FastText)

Help on module fasttext.FastText in fasttext:

NAME
    fasttext.FastText

DESCRIPTION
    # Copyright (c) 2017-present, Facebook, Inc.
    # All rights reserved.
    #
    # This source code is licensed under the MIT license found in the
    # LICENSE file in the root directory of this source tree.

FUNCTIONS
    cbow(*kargs, **kwargs)
    
    load_model(path)
        Load a model given a filepath and return a model object.
    
    read_args(arg_list, arg_dict, arg_names, default_values)
    
    skipgram(*kargs, **kwargs)
    
    supervised(*kargs, **kwargs)
    
    tokenize(text)
        Given a string of text, tokenize it and return a list of tokens
    
    train_supervised(*kargs, **kwargs)
        Train a supervised model and return a model object.
        
        input must be a filepath. The input text does not need to be tokenized
        as per the tokenize function, but it must be preprocessed and encoded
        as UTF-8. You might want to consult standard preprocessi

In [3]:
dir(ft)

['BOW',
 'EOS',
 'EOW',
 'FastText',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 'absolute_import',
 'cbow',
 'division',
 'load_model',
 'print_function',
 'skipgram',
 'supervised',
 'tokenize',
 'train_supervised',
 'train_unsupervised',
 'unicode_literals']

Como podemos observar, contamos con dos modelos: **unsupervised** y **supervised**.

Veamos cómo funcionan.

[[Volver al inicio]](#Contenido)

## Modelo No Supervisado

Para este ejemplo de juguete, usemos los poemas de Daniel.

## Uso del Modelo (Toy Example)

In [4]:
model = ft.train_unsupervised('../Datos/Poemas_Todo.txt')

Read 0M words
Number of words:  184
Number of labels: 0
Progress: 100.0% words/sec/thread:  159899 lr:  0.000000 avg.loss:  4.119662 ETA:   0h 0m 0s


Veamos qué tiene el modelo por dentro:

In [None]:
dir(model)

In [4]:
print(model.words)

['</s>', 'y', 'de', 'que', 'la', 'el', 'en', 'las', 'con', 'los', 'por', 'un', 'se', 'tu', 'del', 'a', 'una', 'no', 'mi', 'te', 'es', 'me', 'como', 'su', 'mis', 'para', 'sin', 'tus', 'entre', 'porque', 'más', 'lo', 'sus', 'nos', 'noche', 'ese', 'cada', 'hasta', 'pero', 'al', 'todo', 'manos', 'Y', 'cielo', 'cuerpo', 'día', 'ojos', 'ni', 'sueño', 'cuando', 'son', 'ser', 'qué', 'le', 'o', 'Me', 'Te', 'labios', 'ya', 'palabras', 'cuerpos', 'luna', 'cosas', 'si', 'mundo', 'vida', 'eres', 'mujer', 'sobre', 'esa', 'sólo', 'donde', 'este', 'toda', 'sueños', 'jamás', 'En', 'piel,', 'amor', 'e', 'Es', 'siempre', 'Ese', 'va', 'hay', 'visto', 'tan', 'he', 'gusta', 'sueños,', 'lleno', 'imagen', 'contra', 'mar', 'dos', 'Yo', 'He', 'rostro', 'La', 'noche,', 'pasión', 'nuestra', 'quien', 'deseo', 'ha', 'nubes', 'puedo', 'frío', 'abismo', 'alma', 'aire', 'lejos', 'profundo', 'éste', 'volando', 'ésta', 'aún', 'dulce', 'colores', 'cara', 'mismo', 'música', 'El', 'vez', 'letras', 'formas', 'apenas', 'ojos

In [11]:
len(model.words)

184

In [9]:
soy_vector = model.get_word_vector("soy")
soy_vector

array([-3.0347307e-03,  6.1599063e-03, -1.3848637e-03, -3.1608273e-03,
        6.5026223e-03,  6.3184551e-03, -4.6846778e-03, -2.2446606e-03,
        8.9806495e-03,  3.7756080e-03,  1.1548055e-03, -4.1064568e-04,
        1.2033727e-03,  7.6985159e-03, -5.0652046e-03, -2.6354317e-03,
       -2.4917696e-03,  7.0066674e-04, -6.4257701e-04, -4.5810528e-03,
        7.7987812e-04,  2.5302153e-03,  1.4552932e-03, -3.1920432e-03,
        4.0789871e-03, -2.7199865e-03,  3.3235915e-03, -2.0251921e-03,
       -2.2953239e-03,  6.2371460e-03, -3.2799956e-03,  8.9811842e-04,
       -2.5823724e-03, -4.4579767e-03, -7.3911683e-03, -1.6582392e-04,
        2.8145671e-04, -3.2918619e-03, -2.6939313e-03, -5.1317532e-03,
        2.5532853e-03,  6.5070619e-03,  1.0551591e-03,  3.2300127e-03,
       -1.1547272e-03, -1.2535534e-03,  1.4361716e-03,  1.7629942e-03,
       -2.8988889e-03,  2.0974237e-03, -5.8227698e-03,  8.1397137e-03,
       -2.8023466e-03,  9.3555875e-04, -5.7098031e-04, -1.3912616e-03,
      

In [10]:
soy_vector.shape

(100,)

In [7]:
model.save_model("../Modelos/Poemas.bin")

In [2]:
model = ft.load_model("../Modelos/Poemas.bin")

Por defecto, el modelo entrenado es skipgram, pero también tenemos disponible la arquitectura cbow.

![ft](https://fasttext.cc/img/cbo_vs_skipgram.png)

Fuente: [FastText, Word Representations](https://fasttext.cc/docs/en/unsupervised-tutorial.html)

In [8]:
# model_cbow = fasttext.train_unsupervised('../Datos/Poemas_Todo.txt', "cbow")

En palabras de Facebook,

***In practice, we observe that skipgram models works better with subword information than cbow.***

[[Volver al inicio]](#Contenido)

### Jugando con los Parámetros 

Dependiendo del problema, puede ser que los parámetros por defecto no sean los más adecuados.

Para conocer todos los parámetros de FastText, podemos ingresar [aquí](https://fasttext.cc/docs/en/python-module.html#train_unsupervised-parameters)

Por ejemplo, modifiquemos los parámetros **mínimos** y **máximos** de lo n-gramas permitidos, la **dimensión** del vector, las **epochs** y la frecuencia mínima de palabras:

In [1]:
import fasttext as ft

In [2]:
model = ft.train_unsupervised('../Datos/Poemas_Todo.txt', minCount=2, minn=2, maxn=5, dim=300)

Read 0M words
Number of words:  846
Number of labels: 0
Progress: 100.0% words/sec/thread:   80034 lr:  0.000000 avg.loss:  3.471876 ETA:   0h 0m 0s


Verifiquemos la longitud de las palabras:

In [3]:
model.get_word_vector("soy").shape

(300,)

[[Volver al inicio]](#Contenido)

### Palabras vecinas más cercanas

Como cada palabra en el corpus tiene un vector asociado, podemos obtener palabras cercanas usando la similaridad de coseno:

In [4]:
 model.get_nearest_neighbors('sueño')

[(0.999998927116394, 'sueño,'),
 (0.9999988079071045, 'sueños,'),
 (0.9999986290931702, 'contra'),
 (0.9999985694885254, 'sueños'),
 (0.9999983906745911, 'suelo,'),
 (0.9999983906745911, 'cielo'),
 (0.9999983906745911, 'mundo'),
 (0.9999982714653015, 'manera'),
 (0.9999982118606567, 'lienzo'),
 (0.9999982118606567, 'repletas')]

[[Volver al inicio]](#Contenido)

## Uso del Modelo (Wikipedia) 

Primero que todo, obtengamos los datos que necesitamos:

In [5]:
# Corpus Completo
#!wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 -o ../Datos/enwiki-latest-pages-articles.xml.bz2
# Corpus 1 billón de bytes (1 Giga)
!wget -c http://mattmahoney.net/dc/enwik9.zip -P ../Datos

--2021-11-19 16:13:05--  http://mattmahoney.net/dc/enwik9.zip
Resolving mattmahoney.net (mattmahoney.net)... 67.195.197.24
Connecting to mattmahoney.net (mattmahoney.net)|67.195.197.24|:80... connected.
HTTP request sent, awaiting response... 206 Partial Content
Length: 322592222 (308M), 294168810 (281M) remaining [application/zip]
Saving to: ‘../Datos/enwik9.zip’


2021-11-19 16:21:34 (565 KB/s) - ‘../Datos/enwik9.zip’ saved [322592222/322592222]



Como el formato viene en `.zip`, descomprimamos el contenido

In [7]:
!unzip ../Datos/enwik9.zip -d ../Datos

Archive:  ../Datos/enwik9.zip
  inflating: ../Datos/enwik9         


Miremos algo de información:

In [12]:
!head -c 2000 ../Datos/enwik9

<mediawiki xmlns="http://www.mediawiki.org/xml/export-0.3/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.3/ http://www.mediawiki.org/xml/export-0.3.xsd" version="0.3" xml:lang="en">
  <siteinfo>
    <sitename>Wikipedia</sitename>
    <base>http://en.wikipedia.org/wiki/Main_Page</base>
    <generator>MediaWiki 1.6alpha</generator>
    <case>first-letter</case>
      <namespaces>
      <namespace key="-2">Media</namespace>
      <namespace key="-1">Special</namespace>
      <namespace key="0" />
      <namespace key="1">Talk</namespace>
      <namespace key="2">User</namespace>
      <namespace key="3">User talk</namespace>
      <namespace key="4">Wikipedia</namespace>
      <namespace key="5">Wikipedia talk</namespace>
      <namespace key="6">Image</namespace>
      <namespace key="7">Image talk</namespace>
      <namespace key="8">MediaWiki</namespace>
      <namespace key="9">MediaWiki talk</namespace>
      <namespa

Como un archivo raw de Wikipedia contiene toneladas de datos HTML/XML, preprocesaremos la información con el archivo wikifil.pl, escrito por Matt Mahoney y puede ser encontrado el script original en su paǵina personal [aquí](http://mattmahoney.net/).

El script asociado funciona usando el lenguaje de programación PERL, y se ejecuta a continuación:

### Preprocesamiento

In [13]:
!perl ../Datos/wikifil.pl ../Datos/enwik9 > ../Datos/fil9

Veamos algo del resultado obtenido:

In [2]:
!head -c 2000 ../Datos/fil9

 anarchism originated as a term of abuse first used against early working class radicals including the diggers of the english revolution and the sans culottes of the french revolution whilst the term is still used in a pejorative way to describe any act that used violent means to destroy the organization of society it has also been taken up as a positive label by self defined anarchists the word anarchism is derived from the greek without archons ruler chief king anarchism as a political philosophy is the belief that rulers are unnecessary and should be abolished although there are differing interpretations of what this means anarchism also refers to related social movements that advocate the elimination of authoritarian institutions particularly the state the word anarchy as most anarchists use it does not imply chaos nihilism or anomie but rather a harmonious anti authoritarian society in place of what are regarded as authoritarian political structures and coercive economic instituti

[[Volver al inicio]](#Contenido)

### Entrenando del Modelo

In [None]:
model = ft.train_unsupervised('../Datos/fil9')

Read 124M words3M words
Number of words:  218316
Number of labels: 0
Progress:  31.5% words/sec/thread:   45623 lr:  0.034237 avg.loss:  0.601562 ETA:   0h51m49sm 8s lr:  0.049049 avg.loss:  1.546121 ETA:   1h16m37s 1.495166 ETA:   1h17m48s  4.0% words/sec/thread:   42449 lr:  0.047977 avg.loss:  1.451111 ETA:   1h18m 2s words/sec/thread:   42355 lr:  0.046572 avg.loss:  1.341497 ETA:   1h15m55sh16m 3s% words/sec/thread:   44134 lr:  0.045075 avg.loss:  1.130582 ETA:   1h10m31s 16.0% words/sec/thread:   45933 lr:  0.041981 avg.loss:  0.870252 ETA:   1h 3m 6s 17.8% words/sec/thread:   45410 lr:  0.041112 avg.loss:  0.814919 ETA:   1h 2m31sh 2m25s  44928 lr:  0.038916 avg.loss:  0.719204 ETA:   0h59m48s57m30s 25.7% words/sec/thread:   45038 lr:  0.037161 avg.loss:  0.668852 ETA:   0h56m58s  0h54m58s 0.035755 avg.loss:  0.635238 ETA:   0h54m46s 30.9% words/sec/thread:   45385 lr:  0.034537 avg.loss:  0.608555 ETA:   0h52m32s

[[Volver al inicio]](#Contenido)

### Palabras más cercanas

In [None]:
model.get_nearest_neighbors('asparagus')

[[Volver al inicio]](#Contenido)

###  Curiosidades

In [None]:
model.get_nearest_neighbors('pidgey')

[[Volver al inicio]](#Contenido)

###  Analogía de Palabras

In [None]:
model.get_analogies("berlin", "germany", "france")

[[Volver al inicio]](#Contenido)

## Modelo Supervisado

Para este ejemplo, usaremos el conjunto de datos de preguntas de [the cooking section of Stackexchange](https://cooking.stackexchange.com/):

In [None]:
!wget https://dl.fbaipublicfiles.com/fasttext/data/cooking.stackexchange.tar.gz && tar xvzf cooking.stackexchange.tar.gz

In [None]:
!head cooking.stackexchange.txt

In [None]:
!wc cooking.stackexchange.txt

In [None]:
!head -n 12404 cooking.stackexchange.txt > cooking.train

In [None]:
!tail -n 3000 cooking.stackexchange.txt > cooking.valid

[[Volver al inicio]](#Contenido)

### Uso del Modelo

In [None]:
import fasttext as ft

In [None]:
model = fasttext.train_supervised(input="cooking.train")

In [None]:
model.predict("Which baking dish is best to bake a banana bread ?")

In [None]:
model.test("cooking.valid")

[[Volver al inicio]](#Contenido)

### Mejorando el Modelo 

In [None]:
!cat cooking.stackexchange.txt | sed -e "s/\([.\!?,'/()]\)/ \1 /g" | tr "[:upper:]" "[:lower:]" > cooking.preprocessed.txt
!head -n 12404 cooking.preprocessed.txt > cooking.train
!tail -n 3000 cooking.preprocessed.txt > cooking.valid

In [None]:
model = fasttext.train_supervised(input="cooking.train")

In [None]:
model.test("cooking.valid")

[[Volver al inicio]](#Contenido)

###  Autotuning de Parámetros

In [None]:
model = fasttext.train_supervised(input='cooking.train', autotuneValidationFile='cooking.valid')

In [None]:
model.test("cooking.valid")

[[Volver al inicio]](#Contenido)