# Tarea 2 - Named Entity Recognition

----------------------

- **Nombre:** Juan Pablo Cáceres y Javier Urrutia

- **Usuario o nombre de equipo en Codalab:** PanteraNegra



## Introducción a la tarea

### Objetivo


El objetivo de esta tarea es resolver una de las tasks mas importantes de Sequence Labelling: [Named Entity Recognition (NER)](http://www.cs.columbia.edu/~mcollins/cs4705-spring2019/slides/tagging.pdf). 

En particular, deberán participar, al igual que en la tarea anterior, en una competencia en donde deberán crear distintos modelos que apunten a resolver NER en español. Para esto, les proveeremos un dataset de NER de noticias etiquetadas en español mas este baseline en donde podrán comenzar a trabajar. 

Esperamos que (por lo menos) utilizen Redes Neuronales Recurrentes (RNN) para resolverla. Nuevamente, hay total libertad para utilizar software y los modelos que deseen, siempre y cuando estos no traigan los modelos ya implementados (como el caso de spacy).


**¿Qué es Sequence Labelling?** 

En breves palabras, dada una secuencia de tokens (frase u oración) sequence labelling tiene por objetivo asignar una etiqueta a cada token de dicha secuencia.

**Named Entity Recognition (NER)**

Esta tarea consiste en localizar y clasificar los tokens de una oración que representen entidades nombradas. Es decir, tokens que simbolicen (1) **personas**, (2) **organizaciones**, (3) **lugares** y (4) **adjetivos, eventos y otras entidades que no entren en las categorías anteriores** deberán ser taggeados como (1) **PER**, (2) **ORG**, (3) **LOC** y (4) **MISC** respectivamente. Adicionalmente, dado que existen entidades representadas en más de un token (como La Serena), se utiliza la notación BIO como prefijo al tag: Beginning, Inside, Outside. Es decir, si encuentro una entidad, el primer token etiquetado será precedido por B, el segundo por I y los n restantes por I. Por otra parte, si el token no representa ninguna entidad nombrada, se representa por O. Un ejemplo de esto es:

Por ejemplo:

```
Felipe B-PER
Bravo I-PER
es O
el O
profesor O
de O
PLN B-MISC
de O
la O
Universidad B-ORG
de I-ORG
Chile I-ORG
. O
```

Estos links son los más indicados para comenzar:

-  [Tagging, and Hidden Markov Models ](http://www.cs.columbia.edu/~mcollins/cs4705-spring2019/slides/tagging.pdf) (slides by Michael Collins), [notes](http://www.cs.columbia.edu/~mcollins/hmms-spring2013.pdf), [video 1](https://youtu.be/-ngfOZz8yK0), [video 2](https://youtu.be/PLoLKQwkONw), [video 3](https://youtu.be/aaa5Qoi8Vco), [video 4](https://youtu.be/4pKWIDkF_6Y)       
-  [Recurrent Neural Networks](slides/NLP-RNN.pdf) | [video 1](https://youtu.be/BmhjUkzz3nk), [video 2](https://youtu.be/z43YFR1iIvk), [video 3](https://youtu.be/7L5JxQdwNJk)


Recuerden que todo el material se encuentra disponible en el [github del curso](https://github.com/dccuchile/CC6205).

### Reglas de la tarea

Algunos detalles de la competencia:

- Para que su tarea sea evaluada, deben participar en la competencia como también, enviar este notebook con su informe.
- Para participar, deben registrarse en la competencia en Codalab en grupos de máximo 2 alumnos. Cada grupo debe tener un nombre de equipo. (¡Y deben reportarlo en su informe!)
- Las métricas usadas serán Precisión, Recall y F1.
- En esta tarea se recomienda usar GPU. Pueden ejecutar su tarea en colab (lo cual trae todo instalado) o pueden intentar correrlo en su computador. en este caso, deberá ser compatible con cuda y deberán instalar todo por su cuenta.
- En total pueden hacer un **máximo de 4 envíos**.
- Por favor, todas sus dudas haganlas en el hilo de U-cursos de la tarea. Los emails que lleguen al equipo docente serán remitidos a ese medio. Recuerden el ánimo colaborativo del curso!!
- Estar top 5 en alguna métrica equivale a 1 punto extra en la nota final.


**Link a la competencia:  https://competitions.codalab.org/competitions/25302?secret_key=690406c7-b3b0-4092-8694-d08d7991ca94**

### Modelos

La RNN del baseline adjunto a este notebook está programado en [`pytorch`](https://pytorch.org/) y contiene:

- La carga los datasets, creación de batches de texto y padding. En resumen, carga los datos y los deja listo para entrenar la red.
- La implementación básica de una red `LSTM` simple de solo un nivel y sin bi-direccionalidad. 
- La construcción un output para que lo puedan probar en la tarea en codelab.



roponer algunos experimentos a hacer:
(cambiar el batch size, dimensiones de las capas, cambiar el tipo de
RNN, cambiar el optimizer, usar una CRF loss, usar embeddings
pre-entrenados, usar BERT??). Quizás podemos sugerir usar algo como
https://github.com/flairNLP/flair

Se espera que ustedes experimenten con el baseline utilizando (pero no limitándose) estas sugerencias:

*   Probar Early stopping
*   Variar la cantidad de parámetros de la capa de embeddings.
*   Variar la cantidad de capas RNN.
*   Variar la cantidad de parámetros de las capas de RNN.
*   Inicializar la capa de embeddings con modelos pre-entrenados. (word2vec, glove, conceptnet, etc...).[Guía breve aquí](https://github.com/dccuchile/spanish-word-embeddings), [Embeddings en español aquí](https://github.com/dccuchile/spanish-word-embeddings).
*   Variar la cantidad de épocas de entrenamiento.
*   Variar el optimizador, learning rate, batch size, usar CRF loss, etc...
*   Probar bi-direccionalidad.
*   Probar teacher forcing.
*   Incluir dropout.
*   Probar modelos de tipo GRU
*   Probar Embedding Contextuales (les puede ser de utilidad [flair](https://github.com/flairNLP/flair))
*   Probar modelos de transformers en español usando [Huggingface](https://github.com/huggingface/transformers)

### Reporte

Este debe cumplir la siguiente estructura:

1.	**Introducción**: Presentar brevemente el problema a resolver, los modelos utilizados en el desarrollo de la tarea y conclusiones obtenidas. (0.5 Puntos)

2.	**Modelos**: Describir brevemente los modelos, métodos y hiperparámetros utilizados. (1.0 puntos)

4.	**Métricas de evaluación**: Describir las métricas utilizadas en la evaluación indicando que miden y cuál es su interpretación en este problema en particular. (0.5 puntos)

5.	**Experimentos**: Reportar todos sus experimentos y código en esta sección. Comparar los resultados obtenidos utilizando diferentes modelos. ¡Es vital haber realizado varios experimentos para sacar una buena nota! (3.0 puntos)

6.	**Conclusiones**: Discutir resultados, proponer trabajo futuro. (1.0 punto)

(Pueden eliminar cualquier celda con instrucciones...)

**Importante**: Recuerden poner su nombre y el de su usuario o de equipo (en caso de que aplique) tanto en el reporte. NO serán evaluados Notebooks sin nombre.


-----------------------------------------

## Introducción


El siguiente reporte tratá uno de los problemas más importantes de Sequence Labeling, llamado NER. Sequence Labeling o Tagging Problem corresponde a la tarea de dada una secuencia de entrada de dimensión finita, se tiene que entregar una salida de la misma dimensión de salida, es decir, a cada word de la secuencia de entrada se le asigna una etiqueta. En particular, el problema de Reconocimiento de Entidades Nombradas (NER), corresponde a localizar y clasificar entidades dentro de un texto en categorias predefinidas, como personas, organizaciones, lugares y adjetivos.  

Para este tipo de problemas, unos de los modelos que mejores resultados han tenido corresponden a las redes neuronales recursivas (RNN), en particular, las redes recursivas transducer. Teniendo en cuenta lo anterior, los modelos escogidos a experimentar corresponden:  

*   LSTM de 2 capas
*   BiLSTM de 1 y 2 capas.
*   BiGRU de 1 y 2 capas.
*   MLP

Para mejorar el rendimiento de las RNN, se suele acompañarlas con un modelo de word embeddings, en donde las palabras a clasificar se pasan un espacio en donde exiten metricas explicitas de comparación entre palabras. Los word embeddings utilizados en esta tarea serán:

*  Embeddings entrenados desde 0.
*  Embeddings pre-entrenados con Fasttext.
*  Embeddings contextual de Flair

Finalmente, las conclusiones obtenidas en la realización de esta tarea corresponden a, primero la utilización de embeddings pre-entrenados es mejor que la utilización entrenar un embedding desde cero, y más si estos embeddings son contextuales. Segundo, la utilización de LSTM y GRU en este tipo de problema no posee grandes diferencias, a menos que se este trabajando con un modelo muy profundo, donde la LSTM obtiene mejor rendimiento.    




## Modelos 


En este trabajo se utilizaron principalmente arquitecturas de tipo recurrente para resolver el problema NER, que se plantea como un problema de clasificación. La función de pérdida utilizada es entropía cruzada y se utilizó el optimizador ADAM.  El baseline correspondia a una red que contiene una capa de embeddings, seguida de una red recurrente LSTM y luego una capa *fully connected* para clasificar la palabra según el tag NER que le correspondería.

Para obtener los resultados, se realizaron tres entrenamientos por cada modelo probado y se promediaron los scores dado que el dropout introducía variaciones. 

### Red recurrente y embedding entrenado del corpus

Respecto al baseline se evaluaron variaciones, cambiando el número de capas recurrentes, el tamaño del estado oculto o el tamaño del embedding.

También se utilizaron redes de tipo GRU, variando hiperparámetros similares. Para estos casos, la entrada a la red es un mini batch de frases donde cada palabra es representada por un índice y se realiza padding con un caracter especíal para pasar el conjunto por la red. 

### Embeddings pre-entrenados con Flair

Además, se experimentó con la libreria Flair de NLP. Si bien esta contiene métodos para entrenar directamente una red para etiquetar palabras, resultaba dificil la evaluación utilizando el resto del código presente, por lo que se optó por sólo utilizar las funciones de embeddings pre-entrenados que posee. Así, para evaluar este sistema se cargan los datos con un método especifico de la librería y se utiliza un wrapper para que la red reciba directamente el embedding de cada palabra.

Utilizando embeddings pre-entrenados sobre un corpus más grande, se esperan mejores resultados o una mayor facilidad para llegar a un buen resultado. El primer embedding utilizado es fasttext entrenado sobre wikipedia en español. Este embedding no es contextual, así que se utilizó en conjunto con una red recurrente.

También se utilizó el embedding de Flair que es contextualizado. Este modelo del lenguaje analiza oraciones a nivel de los caracteres para producir un embedding para cada palabra que es modificado por su contexto. Como este embedding ya utiliza una red recurrente (LSTM), se probó sólo con una red simple MLP para ver cómo se comportaba en esta tarea. Como comparación se utilizó tambien una MLP directamente con el embedding de fasttext.

También se intentó utilizar un embedding BERT, pero la librería dio problemas en algunos ejemplos del set de entrenamiento.



## Métricas de evaluación

- **Precision:** Mide la razón de objetos clasificados como clase i que realmente corresponden a la clase i. Su interpretación en este problema corresponde, a la razón de entidades o palabras clasificadas como cierta categoría {(1),(2),(3),(4)} que realmente su tag corresponde a esa categoría. 

- **Recall:** Mide la razón de objetos clasificados como clase i del total de objetos que les corresponde la clase i. Su interpretación en este problema corresponde, a la razón de entidades o palabras correctamente clasificadas como cierta categoría {(1),(2),(3),(4)} con respecto al número total de entidades que realmente les corresponde a esa categoría.
- **F1 score:** Corresponde a una medida de acierto combinada entre la Precisión y el Recall. Esta medida tiende a acercarse más al mínimo entre ambas métricas. La interpretación de esta métrica en este problema es servir de trade-off entre el Recall y la Precisión, ya que lo que se busca es que se clasifiquen la mayor cantidad de palabras con cada categoria (Recall) y que de esas palabras categorizadas la mayor cantidad sea categorizada correctamente en su categoria real (Precisión).

## Experimentos


El código que les entregaremos servirá de baseline para luego implementar mejores modelos. 
En general, el código asociado a la carga de los datos, las funciones de entrenamiento, de evaluación y la predicción de los datos de la competencia no deberían cambiar. 
Solo deben preocuparse de cambiar la arquitectura del modelo, sus hiperparámetros y reportar, lo cual lo pueden hacer en las subsecciones *modelos*.


El resumen de los resultados obtenidos se puede ver en la siguiente tabla, donde se destacan los mejores puntajes y la red utilizada en la competencia:

| Arquitectura | F1 | Precision | Recall |
|-|-|-|-|
| Baseline (embedding + LSTM 2 capas) | 0.56 | 0.63 | 0.56 |
|  |  |  |  |
| Embedding + BiLSTM 1 capas + 0.5 dropout + 128 hidden + 100 emb + 0.001 lr | 0.62 | 0.68 | 0.62 |
| Embedding + BiLSTM 1 capas + 0.5 dropout + 256 hidden + 100 emb + 0.001 lr | 0.62 | 0.68 | 0.61 |
| Embedding + BiLSTM 2 capas + 0.5 dropout + 128 hidden + 100 emb + 0.001 lr | 0.58 | 0.65 | 0.58 |
| Embedding + BiLSTM 2 capas + 0.5 dropout + 256 hidden + 100 emb + 0.001 lr | 0.61 | 0.67 | 0.62 |
|  |  |  |  |
| Embedding + BiGRU 1 capas + 0.5 dropout + 128 hidden + 100 emb + 0.001 lr | 0.60 | 0.67 | 0.58 |
| Embedding + BiGRU 1 capas + 0.25 dropout + 128 hidden + 100 emb + 0.001 lr | 0.61 | 0.67 | 0.60 |
| Embedding + BiGRU 1 capas + 0.5 dropout + 256 hidden + 100 emb + 0.001 lr | 0.60 | 0.68 | 0.59 |
| Embedding + BiGRU 2 capas + 0.25 dropout + 128 hidden + 100 emb + 0.001 lr | 0.58 | 0.66 | 0.57 |
| Embedding + BiGRU 2 capas + 0.5 dropout + 128 hidden + 100 emb + 0.001 lr | 0.62 | 0.68 | 0.61 |
| Embedding + BiGRU 2 capas + 0.5 dropout + 256 hidden + 100 emb + 0.001 lr | 0.61 | 0.68 | 0.61 |
| Embedding + BiGRU 2 capas + 0.5 dropout + 128 hidden + 150 emb | 0.59 | 0.67 | 0.59 |
|  |  |  |  |
| **Embedding-Flair-fasttext + BILSTM 2 capas + 0.25 dropout + 128 hidden + 0.0005 lr** | **0.64** | **0.70** | 0.62 |
| Embedding-Flair-fasttext  + BiGRU 2 capas + 0.5 dropout + 256 hidden + 0.001 lr | 0.62 | 0.68 | 0.62 |
| Embedding-Flair-Contextual-bi + MLP 256 hidden + 0.5 dropout | 0.62 | 0.66 | **0.64** |
| Embedding-Flair-Fasttext + MLP 256 hidden + 0.5 dropout | 0.34 | 0.41 | 0.34 |

###  Carga de datos y Preprocesamiento

Para cargar los datos y preprocesarlos usaremos la librería [`torchtext`](https://github.com/pytorch/text).
En particular usaremos su módulo `data`, el cual según su documentación original provee: 

    - Ability to describe declaratively how to load a custom NLP dataset that's in a "normal" format
    - Ability to define a preprocessing pipeline
    - Batching, padding, and numericalizing (including building a vocabulary object)
    - Wrapper for dataset splits (train, validation, test)


El proceso será el siguiente: 

1. Descargar los datos desde github y examinarlos.
2. Definir los campos (`fields`) que cargaremos desde los archivos.
3. Cargar los datasets.
4. Crear el vocabulario.



In [None]:
# Instalar torchtext (en codalab) - Descomentar.
!pip3 install --upgrade torchtext
!pip3 install flair

Requirement already up-to-date: torchtext in /usr/local/lib/python3.6/dist-packages (0.7.0)


In [None]:
import torch
from torchtext import data, datasets


# Garantizar reproducibilidad 
SEED = 1234
torch.manual_seed(SEED)
torch.backends.cudnn.deterministic = True

#### Obtener datos

Descargamos los datos de entrenamiento, validación y prueba en nuestro directorio de trabajo

In [None]:
%%capture
!wget https://github.com/dccuchile/CC6205/releases/download/Data/train_NER_esp.txt -nc # Dataset de Entrenamiento
!wget https://github.com/dccuchile/CC6205/releases/download/Data/val_NER_esp.txt -nc    # Dataset de Validación (Para probar y ajustar el modelo)
!wget https://github.com/dccuchile/CC6205/releases/download/Data/test_NER_esp.txt -nc  # Dataset de la Competencia. Estos datos solo contienen los tokens. ¡¡SON LOS QUE DEBEN SER PREDICHOS!!

####  Fields

Un `field`:

* Define un tipo de datos junto con instrucciones para convertir el texto a Tensor.
* Contiene un objeto `Vocab` que contiene el vocabulario (palabras posibles que puede tomar ese campo).
* Contiene otros parámetros relacionados con la forma en que se debe numericalizar un tipo de datos, como un método de tokenización y el tipo de Tensor que se debe producir.


Analizemos el siguiente cuadro el cual contiene un ejemplo cualquiera de entrenamiento:


```
El O
Abogado B-PER
General I-PER
del I-PER
Estado I-PER
, O
Daryl B-PER
Williams I-PER
```

Cada linea contiene una palabra y su clase. Para que `torchtext` pueda cargar estos datos, debemos definir como va a leer y separar los componentes de cada una de las lineas.
Para esto, definiremos un field para cada uno de esos componentes: Las palabras (`TEXT`) y los NER_TAGS (`clase`).


In [None]:
# Primer Field: TEXT. Representan los tokens de la secuencia
TEXT = data.Field(lower=False) 

# Segundo Field: NER_TAGS. Representan los Tags asociados a cada palabra.
NER_TAGS = data.Field(unk_token=None)

fields = (("text", TEXT), ("nertags", NER_TAGS))



####  SequenceTaggingDataset

`SequenceTaggingDataset` es una clase de torchtext diseñada para contener datasets de sequence labelling. 
Los ejemplos que se guarden en una instancia de estos serán arreglos de palabras pareados con sus respectivos tags.
Por ejemplo, para Part-of-speech tagging:

[I, love, PyTorch, .] estará pareado con [PRON, VERB, PROPN, PUNCT]


La idea es que usando los fields que definimos antes, le indiquemos a la clase cómo cargar los datasets de prueba, validación y test.

In [None]:
train_data, valid_data, test_data = datasets.SequenceTaggingDataset.splits(
    path="./",
    train="train_NER_esp.txt",
    validation="val_NER_esp.txt",
    test="test_NER_esp.txt",
    fields=fields,
    encoding="iso-8859-1",
    separator=" "
)



In [None]:
print(f"Numero de ejemplos de entrenamiento: {len(train_data)}")
print(f"Número de ejemplos de validación: {len(valid_data)}")
print(f"Número de ejemplos de test (competencia): {len(test_data)}")

Numero de ejemplos de entrenamiento: 8323
Número de ejemplos de validación: 1915
Número de ejemplos de test (competencia): 1517


Visualizemos un ejemplo

In [None]:
import random
random_item_idx = random.randint(0, len(train_data))
random_example = train_data.examples[random_item_idx]
list(zip(random_example.text, random_example.nertags))

[('Con', 'O'),
 ('ese', 'O'),
 ('objetivo', 'O'),
 (',', 'O'),
 ('el', 'O'),
 ('viceministro', 'O'),
 ('panameño', 'O'),
 ('de', 'O'),
 ('Comercio', 'B-MISC'),
 ('Exterior', 'I-MISC'),
 (',', 'O'),
 ('Roberto', 'B-PER'),
 ('Henríquez', 'I-PER'),
 (',', 'O'),
 ('y', 'O'),
 ('el', 'O'),
 ('embajador', 'O'),
 ('estadounidense', 'O'),
 ('en', 'O'),
 ('Panamá', 'B-LOC'),
 (',', 'O'),
 ('Simón', 'B-PER'),
 ('Ferro', 'I-PER'),
 (',', 'O'),
 ('se', 'O'),
 ('reunieron', 'O'),
 ('el', 'O'),
 ('lunes', 'O'),
 ('en', 'O'),
 ('la', 'O'),
 ('capital', 'O'),
 ('panameña', 'O'),
 (',', 'O'),
 ('informaron', 'O'),
 ('hoy', 'O'),
 ('a', 'O'),
 ('EFE', 'B-ORG'),
 ('una', 'O'),
 ('fuente', 'O'),
 ('de', 'O'),
 ('ese', 'O'),
 ('ministerio', 'O'),
 ('y', 'O'),
 ('una', 'O'),
 ('funcionaria', 'O'),
 ('de', 'O'),
 ('la', 'O'),
 ('Embajada', 'B-ORG'),
 ('de', 'I-ORG'),
 ('EEUU', 'I-ORG'),
 ('.', 'O')]

#### Construir los vocabularios para el texto y las etiquetas

Los vocabularios son los obbjetos que contienen todos los tokens (de entrenamiento) posibles para ambos fields.
El siguiente paso consiste en construirlos. Para esto, hacemos uso del método `Field.build_vocab` sobre cada uno de nuestros `fields`. 

In [None]:
TEXT.build_vocab(train_data)
NER_TAGS.build_vocab(train_data)

In [None]:
print(f"Tokens únicos en TEXT: {len(TEXT.vocab)}")
print(f"Tokens únicos en NER_TAGS: {len(NER_TAGS.vocab)}")

Tokens únicos en TEXT: 26101
Tokens únicos en NER_TAGS: 10


In [None]:
#Veamos las posibles etiquetas que hemos cargado:
NER_TAGS.vocab.itos

['<pad>',
 'O',
 'B-ORG',
 'I-ORG',
 'B-LOC',
 'B-PER',
 'I-PER',
 'I-MISC',
 'B-MISC',
 'I-LOC']

Observen que ademas de los tags NER, tenemos \<pad\>, el cual es generado por el dataloader para cumplir con el padding de cada oración.

Veamos ahora los tokens mas frecuentes y especiales:

In [None]:
# Tokens mas frecuentes
TEXT.vocab.freqs.most_common(10)

[('de', 17657),
 (',', 14716),
 ('la', 9571),
 ('que', 7516),
 ('.', 7263),
 ('el', 6905),
 ('en', 6484),
 ('"', 5691),
 ('y', 5336),
 ('a', 4304)]

In [None]:
# Seteamos algunas variables que nos serán de utilidad mas adelante...
UNK_IDX = TEXT.vocab.stoi[TEXT.unk_token]
PAD_IDX = TEXT.vocab.stoi[TEXT.pad_token]

PAD_TAG_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
O_TAG_IDX = NER_TAGS.vocab.stoi['O']

#### Frecuencia de los Tags

Visualizemos rápidamente las cantidades y frecuencias de cada tag:

In [None]:
def tag_percentage(tag_counts):
    
    total_count = sum([count for tag, count in tag_counts])
    tag_counts_percentages = [(tag, count, count/total_count) for tag, count in tag_counts]
  
    return tag_counts_percentages

print("Tag Ocurrencia Porcentaje\n")

for tag, count, percent in tag_percentage(NER_TAGS.vocab.freqs.most_common()):
    print(f"{tag}\t{count}\t{percent*100:4.1f}%")

Tag Ocurrencia Porcentaje

O	231920	87.6%
B-ORG	7390	 2.8%
I-ORG	4992	 1.9%
B-LOC	4913	 1.9%
B-PER	4321	 1.6%
I-PER	3903	 1.5%
I-MISC	3212	 1.2%
B-MISC	2173	 0.8%
I-LOC	1891	 0.7%


#### Configuramos pytorch y dividimos los datos.

Importante: si tienes problemas con la ram de la gpu, disminuye el tamaño de los batches

In [None]:
BATCH_SIZE = 16  # disminuir si hay problemas de ram.

# Usar cuda si es que está disponible.
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print('Using', device)

# Dividir datos entre entrenamiento y test
train_iterator, valid_iterator, test_iterator = data.BucketIterator.splits(
    (train_data, valid_data, test_data),
    batch_size=BATCH_SIZE,
    device=device,
    sort=False,
)

Using cuda




#### Dataset para Flair

In [None]:
import flair
from flair.data import Corpus
from flair.datasets import ColumnCorpus
from flair.training_utils import store_embeddings
#flair.device = torch.device('cpu')
#flair.embeddings_storage_mode = 'cpu' 
# define columns
columns = {0: 'text', 1: 'nertags'}

# this is the folder in which train, test and dev files reside
data_folder = './'

# init a corpus using column format, data folder and the names of the train, dev and test files
corpus: Corpus = ColumnCorpus(data_folder, columns,
                              train_file='train_NER_esp.txt',
                              dev_file='val_NER_esp.txt',
                              test_file='test_NER_esp.txt',
                              #column_delimiter=' ',
                              encoding="iso-8859-1"
                              )

2020-08-02 21:41:11,390 Reading data from .
2020-08-02 21:41:11,390 Train: train_NER_esp.txt
2020-08-02 21:41:11,396 Dev: val_NER_esp.txt
2020-08-02 21:41:11,397 Test: test_NER_esp.txt


In [None]:
print(corpus)

Corpus: 8323 train + 1915 dev + 1517 test sentences


In [None]:
corpus.train[5]

Sentence: "Por su parte , el Abogado General de Victoria , Rob Hulls , indicó que no hay nadie que controle que las informaciones contenidas en CrimeNet son veraces ."   [− Tokens: 29  − Token-Labels: "Por su parte , el Abogado <B-PER> General <I-PER> de Victoria <B-LOC> , Rob <B-PER> Hulls <I-PER> , indicó que no hay nadie que controle que las informaciones contenidas en CrimeNet <B-MISC> son veraces ."]

In [None]:
import collections

Batch_col = collections.namedtuple('Batch_col', 'text nertags')

# Constructor de función para usar embeddings de Flair en batches 
class Flair_embedding_collate:
    def __init__(self, embeddings):
        self.embeddings = embeddings
    
    def __call__(self, batch):
        global NER_TAGS, PAD_TAG_IDX
        with torch.no_grad():
            self.embeddings.embed(batch)
            lengths = [len(sentence.tokens) for sentence in batch]
            longest_token_sequence_in_batch = max(lengths)

            pre_allocated_zero_tensor = torch.zeros(
              self.embeddings.embedding_length * longest_token_sequence_in_batch,
              dtype=torch.float,
              device=flair.device,
            )
            names = self.embeddings.get_names()
            all_embs = list()
            tags = list()
            for sentence in batch:
                all_embs += [
                      emb for token in sentence for emb in token.get_each_embedding(names)
                ]
                tags += [NER_TAGS.vocab.stoi[token.get_tag('nertags').value] for token in sentence]
                nb_padding_tokens = longest_token_sequence_in_batch - len(sentence)

                if nb_padding_tokens > 0:
                    t = pre_allocated_zero_tensor[
                        : self.embeddings.embedding_length * nb_padding_tokens
                    ]
                    all_embs.append(t)
                    tags += [PAD_TAG_IDX]*nb_padding_tokens

            sentence_tensor = torch.cat(all_embs).view(
                [
                    len(batch),
                    longest_token_sequence_in_batch,
                    self.embeddings.embedding_length,
                ]
            ).permute(1,0,2).to(device)
            tags_tensor = torch.tensor(tags).view((len(batch),longest_token_sequence_in_batch)).permute(1,0).contiguous().to(device)
            store_embeddings(batch, 'none') # Para limpiar embeddings de GPU
            return Batch_col(text=sentence_tensor, nertags=tags_tensor)

#### Métricas de evaluación

Además, definiremos las métricas que serán usadas tanto para la competencia como para evaluar el modelo: `precision`, `recall` y `f1`.
**Importante**: Noten que la evaluación solo se hace para las Named Entities (sin contar 'O').

In [None]:
# Definimos las métricas

from sklearn.metrics import f1_score, precision_score, recall_score
import warnings
import sklearn.exceptions
warnings.filterwarnings("ignore",
                        category=sklearn.exceptions.UndefinedMetricWarning)


def calculate_metrics(preds, y_true, pad_idx=PAD_TAG_IDX, o_idx=O_TAG_IDX):
    """
    Calcula precision, recall y f1 de cada batch.
    """

    # Obtener el indice de la clase con probabilidad mayor. (clases)
    y_pred = preds.argmax(dim=1, keepdim=True)
    # Obtenemos los indices distintos de 0.

    # filtramos <pad> y O para calcular los scores.
    mask = [(y_true != o_idx) & (y_true != pad_idx)]
    y_pred = y_pred[mask]
    y_true = y_true[mask]

    # traemos a la cpu
    y_pred = y_pred.view(-1).to('cpu')
    y_true = y_true.to('cpu')
    
    # calcular scores
    f1 = f1_score(y_true, y_pred, average='macro')
    precision = precision_score(y_true, y_pred, average='macro')
    recall = recall_score(y_true, y_pred, average='macro')

    return precision, recall, f1

def calculate_metrics_complete(preds, y_true, pad_idx=PAD_TAG_IDX, o_idx=O_TAG_IDX):
    """
    Calcula precision, recall y f1 de cada batch.
    """

    # Obtener el indice de la clase con probabilidad mayor. (clases)
    y_pred = preds.argmax(dim=1, keepdim=True)
    # Obtenemos los indices distintos de 0.

    # filtramos <pad> y O para calcular los scores.
    mask = [(y_true != o_idx) & (y_true != pad_idx)]
    #y_pred = y_pred[mask]
    #y_true = y_true[mask]

    # traemos a la cpu
    y_pred = y_pred.view(-1).to('cpu')
    y_true = y_true.to('cpu')
    
    # calcular scores
    f1 = f1_score(y_true, y_pred, average='macro')
    precision = precision_score(y_true, y_pred, average='macro')
    recall = recall_score(y_true, y_pred, average='macro')

    return precision, recall, f1

-------------------

### Modelo Baseline

Teniendo ya cargado los datos, toca definir nuestro modelo. Este baseline tendrá una capa de embedding, unas cuantas LSTM y una capa de salida y usará dropout en el entrenamiento.

Este constará de los siguientes pasos: 

1. Definir la clase que contendrá la red.
2. Definir los hiperparámetros e inicializar la red. 
3. Definir la época de entrenamiento
3. Definir la función de loss.



Recomendamos que para experimentar, encapsules los modelos en una sola variable y luego la fijes en model para entrenarla

In [None]:
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim


# Definir la red
class NER_RNN(nn.Module):
    def __init__(self, 
                 input_dim, 
                 embedding_dim, 
                 hidden_dim, 
                 output_dim,
                 n_layers, 
                 bidirectional, 
                 dropout, 
                 pad_idx):

        super().__init__()

        # Capa de embedding
        self.embedding = nn.Embedding(input_dim,
                                      embedding_dim,
                                      padding_idx=pad_idx)

        # Capa LSTM
        self.lstm = nn.LSTM(embedding_dim,
                           hidden_dim,
                           num_layers=n_layers,
                           bidirectional=bidirectional, 
                           dropout = dropout if n_layers > 1 else 0)

        # Capa de salida
        self.fc = nn.Linear(hidden_dim * 2 if bidirectional else hidden_dim,
                            output_dim)

        # Dropout
        self.dropout = nn.Dropout(dropout)

    

    def reset_parameters(self):
        for m in self.modules():
          # Inicializamos los pesos como aleatorios
          for name, param in m.named_parameters():
              nn.init.normal_(param.data, mean=0, std=0.1) 
              
          # Seteamos como 0 los embeddings de UNK y PAD.
          self.embedding.weight.data[UNK_IDX] = torch.zeros(EMBEDDING_DIM)
          self.embedding.weight.data[PAD_IDX] = torch.zeros(EMBEDDING_DIM)


    def forward(self, text):

        #text = [sent len, batch size]

        # Convertir lo enviado a embedding
        #embedded = [sent len, batch size, emb dim]
        embedded = self.dropout(self.embedding(text))
        
        # Pasar los embeddings por la rnn (LSTM)
        outputs, (hidden, cell) = self.lstm(embedded)
        #output = [sent len, batch size, hid dim * n directions]
        #hidden/cell = [n layers * n directions, batch size, hid dim]

        # Predecir usando la capa de salida.
        predictions = self.fc(self.dropout(outputs))
        #predictions = [sent len, batch size, output dim]

        return predictions

#### Hiperparámetros de la red

Definimos los hiperparámetros. 

In [None]:
# tamaño del vocabulario. recuerden que la entrada son vectores bag of word(one-hot).
INPUT_DIM = len(TEXT.vocab)
EMBEDDING_DIM = 100  # dimensión de los embeddings.
HIDDEN_DIM = 128  # dimensión de la capas LSTM
OUTPUT_DIM = len(NER_TAGS.vocab)  # número de clases

N_LAYERS = 2  # número de capas.
DROPOUT = 0.25
BIDIRECTIONAL = False

# Creamos nuestro modelo.
baseline_model = NER_RNN(INPUT_DIM, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         N_LAYERS, BIDIRECTIONAL, DROPOUT, PAD_IDX)

baseline_model_name = 'baseline'  # nombre que tendrá el modelo guardado...

In [None]:
baseline_n_epochs = 10

#### Definimos la función de loss

1.   Elemento de la lista
2.   Elemento de la lista



In [None]:
# Loss: Cross Entropy
TAG_PAD_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
baseline_criterion = nn.CrossEntropyLoss(ignore_index = TAG_PAD_IDX)

#### Optimizador

In [None]:
baseline_opt_params = {"params": baseline_model.parameters(),
              "lr": 0.001,
              "amsgrad": False}
baseline_opt_class = optim.Adam

--------------------
### Modelos a probar

En estas secciones pueden implementar nuevas redes al modificar los hiperparámetros, la cantidad de épocas de entrenamiento, el tamaño de los batches, loss, optimizador, etc... como también definir nuevas arquitecturas de red (mediante la creación de clases nuevas)


Al final de estas, hay 4 variables, las cuales deben setear con los modelos, épocas de entrenamiento, loss y optimizador que deseen probar.


#### Modelo 1

*   LSTM bidireccional de 2 capas  
*   Embedding de dimensión: 100 
*   LSTM hidden de dimensión: 256 
*   Dropout p: 0.5
*   Learning rate: 0.001
*   Optimizador: Adam
*   Custom Embedding 

In [None]:
# tamaño del vocabulario. recuerden que la entrada son vectores bag of word(one-hot).
INPUT_DIM = len(TEXT.vocab)
EMBEDDING_DIM = 100  # dimensión de los embeddings.
HIDDEN_DIM = 256  # dimensión de la capas LSTM
OUTPUT_DIM = len(NER_TAGS.vocab)  # número de clases

N_LAYERS = 2  # número de capas.
DROPOUT = 0.5
BIDIRECTIONAL = True

# Creamos nuestro modelo.
bilstm_model = NER_RNN(INPUT_DIM, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         N_LAYERS, BIDIRECTIONAL, DROPOUT, PAD_IDX)

bilstm_model_name = 'bilstm-2capas'  # nombre que tendrá el modelo guardado

In [None]:
bilstm_n_epochs = 20

In [None]:
# Loss: Cross Entropy
TAG_PAD_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
bisltm_criterion = nn.CrossEntropyLoss(ignore_index = TAG_PAD_IDX)

In [None]:
bilstm_opt_params = {"params": bilstm_model.parameters(),
              "lr": 0.001,
              "amsgrad": False}
bilstm_opt_class = optim.Adam

#### Modelo 2

*   LSTM bidireccional de 1 capa  
*   Embedding de dimensión: 100 
*   LSTM hidden de dimensión: 128
*   Dropout p: 0.5
*   Learning rate: 0.001
*   Optimizador: Adam
*   Custom Embedding 

In [None]:
# tamaño del vocabulario. recuerden que la entrada son vectores bag of word(one-hot).
INPUT_DIM = len(TEXT.vocab)
EMBEDDING_DIM = 100  # dimensión de los embeddings.
HIDDEN_DIM = 256  # dimensión de la capas LSTM
OUTPUT_DIM = len(NER_TAGS.vocab)  # número de clases

N_LAYERS = 1  # número de capas.
DROPOUT = 0.5
BIDIRECTIONAL = True

# Creamos nuestro modelo.
bilstm_model = NER_RNN(INPUT_DIM, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         N_LAYERS, BIDIRECTIONAL, DROPOUT, PAD_IDX)

bilstm_model_name = 'bilstm-1capa'  # nombre que tendrá el modelo guardado

In [None]:
bilstm_n_epochs = 20

In [None]:
# Loss: Cross Entropy
TAG_PAD_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
bisltm_criterion = nn.CrossEntropyLoss(ignore_index = TAG_PAD_IDX)

In [None]:
bilstm_opt_params = {"params": bilstm_model.parameters(),
              "lr": 0.001,
              "amsgrad": False}
bilstm_opt_class = optim.Adam

---------------

#### Modelo 3
*   GRU bidireccional de 1 capa  
*   Embedding de dimensión: 100 
*   LSTM hidden de dimensión: 128 
*   Dropout p: 0.25
*   Learning rate: 0.001
*   Optimizador: Adam
*   Custom Embedding 

In [None]:
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim


# Definir la red
class NER_RNN_2(nn.Module):
    def __init__(self, 
                 input_dim, 
                 embedding_dim, 
                 hidden_dim, 
                 output_dim,
                 n_layers, 
                 bidirectional, 
                 dropout, 
                 pad_idx):

        super().__init__()

        # Capa de embedding
        self.embedding = nn.Embedding(input_dim,
                                      embedding_dim,
                                      padding_idx=pad_idx)

        # Capa LSTM
        self.gru = nn.GRU(embedding_dim,
                           hidden_dim,
                           num_layers=n_layers,
                           bidirectional=bidirectional, 
                           dropout = dropout if n_layers > 1 else 0)

        # Capa de salida
        self.fc = nn.Linear(hidden_dim * 2 if bidirectional else hidden_dim,
                            output_dim)

        # Dropout
        self.dropout = nn.Dropout(dropout)

    

    def reset_parameters(self):
        for m in self.modules():
          # Inicializamos los pesos como aleatorios
          for name, param in m.named_parameters():
              nn.init.normal_(param.data, mean=0, std=0.1) 
              
          # Seteamos como 0 los embeddings de UNK y PAD.
          self.embedding.weight.data[UNK_IDX] = torch.zeros(EMBEDDING_DIM)
          self.embedding.weight.data[PAD_IDX] = torch.zeros(EMBEDDING_DIM)


    def forward(self, text):

        #text = [sent len, batch size]

        # Convertir lo enviado a embedding
        #embedded = [sent len, batch size, emb dim]
        embedded = self.dropout(self.embedding(text))
        
        # Pasar los embeddings por la rnn (LSTM)
        outputs, hidden = self.gru(embedded)
        #output = [sent len, batch size, hid dim * n directions]
        #hidden/cell = [n layers * n directions, batch size, hid dim]

        # Predecir usando la capa de salida.
        predictions = self.fc(self.dropout(outputs))
        #predictions = [sent len, batch size, output dim]

        return predictions

In [None]:
# tamaño del vocabulario. recuerden que la entrada son vectores bag of word(one-hot).
INPUT_DIM = len(TEXT.vocab)
EMBEDDING_DIM = 100  # dimensión de los embeddings.
HIDDEN_DIM = 256  # dimensión de la capas LSTM
OUTPUT_DIM = len(NER_TAGS.vocab)  # número de clases

N_LAYERS = 1  # número de capas.
DROPOUT = 0.5
BIDIRECTIONAL = True

# Creamos nuestro modelo.
bigru_model = NER_RNN_2(INPUT_DIM, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         N_LAYERS, BIDIRECTIONAL, DROPOUT, PAD_IDX)

bigru_model_name = 'bigru-1'  # nombre que tendrá el modelo guardado...

In [None]:
bigru_n_epochs = 20

In [None]:
# Loss: Cross Entropy
TAG_PAD_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
bigru_criterion = nn.CrossEntropyLoss(ignore_index = TAG_PAD_IDX)

In [None]:
bigru_opt_params = {"params": bigru_model.parameters(),
              "lr": 0.001}
bigru_opt_class = optim.Adam

---------------

#### Modelo 4
*   GRU bidireccional de 2 capas 
*   Embedding de dimensión: 100 
*   LSTM hidden de dimensión: 128 
*   Dropout p: 0.5
*   Learning rate: 0.001
*   Optimizador: Adam
*   Custom Embedding 

In [None]:
# tamaño del vocabulario. recuerden que la entrada son vectores bag of word(one-hot).
INPUT_DIM = len(TEXT.vocab)
EMBEDDING_DIM = 100  # dimensión de los embeddings.
HIDDEN_DIM = 128  # dimensión de la capas LSTM
OUTPUT_DIM = len(NER_TAGS.vocab)  # número de clases

N_LAYERS = 2  # número de capas.
DROPOUT = 0.5
BIDIRECTIONAL = True

# Creamos nuestro modelo.
bigru_model = NER_RNN_2(INPUT_DIM, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         N_LAYERS, BIDIRECTIONAL, DROPOUT, PAD_IDX)

bigru_model_name = 'bigru-2'  # nombre que tendrá el modelo guardado...

In [None]:
bigru_n_epochs = 20

In [None]:
# Loss: Cross Entropy
TAG_PAD_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
bigru_criterion = nn.CrossEntropyLoss(ignore_index = TAG_PAD_IDX)

In [None]:
bigru_opt_params = {"params": bigru_model.parameters(),
              "lr": 0.001}
bigru_opt_class = optim.Adam


---
#### Modelo 5
*   LSTM bidireccional de 2 capas 
*   Embedding de dimensión: 300 
*   LSTM hidden de dimensión: 128 
*   Dropout p: 0.25
*   Learning rate: 0.0005
*   Optimizador: Adam
*   Embedding Fasttext wikipedia español de Flair


In [None]:
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim


# Definir la red
class NER_RNN_FLAIR_EMB(nn.Module):
    def __init__(self, 
                 embedding_dim, 
                 hidden_dim, 
                 output_dim,
                 n_layers, 
                 bidirectional, 
                 dropout):

        super().__init__()

        # Capa LSTM
        self.lstm = nn.LSTM(embedding_dim,
                           hidden_dim,
                           num_layers=n_layers,
                           bidirectional=bidirectional, 
                           dropout = dropout if n_layers > 1 else 0)

        # Capa de salida
        self.fc = nn.Linear(hidden_dim * 2 if bidirectional else hidden_dim,
                            output_dim)

        # Dropout
        self.dropout = nn.Dropout(dropout)

    

    def reset_parameters(self):
        for m in self.modules():
          # Inicializamos los pesos como aleatorios
          for name, param in m.named_parameters():
              nn.init.normal_(param.data, mean=0, std=0.1) 


    def forward(self, embedded):

        #embedded = [sent len, batch size, emb dim]
        
        # Pasar los embeddings por la rnn (LSTM)
        outputs, (hidden, cell) = self.lstm(embedded)
        #output = [sent len, batch size, hid dim * n directions]
        #hidden/cell = [n layers * n directions, batch size, hid dim]

        # Predecir usando la capa de salida.
        predictions = self.fc(self.dropout(outputs))
        #predictions = [sent len, batch size, output dim]

        return predictions

In [None]:
from flair.embeddings import TokenEmbeddings, WordEmbeddings, StackedEmbeddings, FlairEmbeddings
# modelo_3 = ...
# model_name_3 = ...
# n_epochs_3 = ...
# loss_3 = ...

embedding_types = [

    WordEmbeddings('es'),
    #FlairEmbeddings('es-forward'),
    #FlairEmbeddings('es-backward')
]

embeddings: StackedEmbeddings = StackedEmbeddings(embeddings=embedding_types)

generate_flair_batch = Flair_embedding_collate(embeddings)
train_iterator = torch.utils.data.DataLoader(
        corpus.train,
        batch_size=16,
        shuffle=True,
        collate_fn=generate_flair_batch,
    )
valid_iterator = torch.utils.data.DataLoader(
        corpus.dev,
        batch_size=16,
        shuffle=False,
        collate_fn=generate_flair_batch,
    )

2020-08-02 23:12:28,431 https://s3.eu-central-1.amazonaws.com/alan-nlp/resources/embeddings-v0.4/es-wiki-fasttext-300d-1M.vectors.npy not found in cache, downloading to /tmp/tmpkalrjmcu


100%|██████████| 1182799328/1182799328 [01:06<00:00, 17849118.60B/s]

2020-08-02 23:13:35,468 copying /tmp/tmpkalrjmcu to cache at /root/.flair/embeddings/es-wiki-fasttext-300d-1M.vectors.npy





2020-08-02 23:13:40,181 removing temp file /tmp/tmpkalrjmcu
2020-08-02 23:13:40,919 https://s3.eu-central-1.amazonaws.com/alan-nlp/resources/embeddings-v0.4/es-wiki-fasttext-300d-1M not found in cache, downloading to /tmp/tmpktnb0oyw


100%|██████████| 39655801/39655801 [00:03<00:00, 11552560.37B/s]

2020-08-02 23:13:45,028 copying /tmp/tmpktnb0oyw to cache at /root/.flair/embeddings/es-wiki-fasttext-300d-1M





2020-08-02 23:13:45,066 removing temp file /tmp/tmpktnb0oyw


  'See the migration notes for details: %s' % _MIGRATION_NOTES_URL


In [None]:
# tamaño del vocabulario. recuerden que la entrada son vectores bag of word(one-hot).
EMBEDDING_DIM = embeddings.embedding_length  # dimensión de los embeddings.
HIDDEN_DIM = 128  # dimensión de la capas LSTM
OUTPUT_DIM = len(NER_TAGS.vocab)  # número de clases

N_LAYERS = 2  # número de capas.
DROPOUT = 0.25
BIDIRECTIONAL = True

# Creamos nuestro modelo.
embedded_model = NER_RNN_FLAIR_EMB(EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         N_LAYERS, BIDIRECTIONAL, DROPOUT)

embedded_model_name = 'flair-fasttext+BILSTM2'  # nombre que tendrá el modelo guardado...

embedded_n_epochs = 15

# Loss: Cross Entropy
TAG_PAD_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
embedded_criterion = nn.CrossEntropyLoss(ignore_index = TAG_PAD_IDX)

embedded_opt_params = {"params": embedded_model.parameters(),
              "lr": 0.0005,
              "amsgrad": True}
embedded_opt_class = optim.Adam



---
#### Modelo 6
*   GRU bidireccional de 2 capas 
*   Embedding de dimensión: 300 
*   GRU hidden de dimensión: 256 
*   Dropout p: 0.5
*   Learning rate: 0.001
*   Optimizador: Adam
*   Embedding Fasttext wikipedia español de Flair


In [None]:
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim


# Definir la red
class NER_RNN_GRU_FLAIR_EMB(nn.Module):
    def __init__(self, 
                 embedding_dim, 
                 hidden_dim, 
                 output_dim,
                 n_layers, 
                 bidirectional, 
                 dropout):

        super().__init__()

        # Capa LSTM
        self.gru = nn.GRU(embedding_dim,
                           hidden_dim,
                           num_layers=n_layers,
                           bidirectional=bidirectional, 
                           dropout = dropout if n_layers > 1 else 0)

        # Capa de salida
        self.fc = nn.Linear(hidden_dim * 2 if bidirectional else hidden_dim,
                            output_dim)

        # Dropout
        self.dropout = nn.Dropout(dropout)

    

    def reset_parameters(self):
        for m in self.modules():
          # Inicializamos los pesos como aleatorios
          for name, param in m.named_parameters():
              nn.init.normal_(param.data, mean=0, std=0.1) 


    def forward(self, embedded):

        #embedded = [sent len, batch size, emb dim]
        
        # Pasar los embeddings por la rnn (LSTM)
        outputs, hidden = self.gru(embedded)
        #output = [sent len, batch size, hid dim * n directions]
        #hidden/cell = [n layers * n directions, batch size, hid dim]

        # Predecir usando la capa de salida.
        predictions = self.fc(self.dropout(outputs))
        #predictions = [sent len, batch size, output dim]

        return predictions

In [None]:
from flair.embeddings import TokenEmbeddings, WordEmbeddings, StackedEmbeddings, FlairEmbeddings
# modelo_3 = ...
# model_name_3 = ...
# n_epochs_3 = ...
# loss_3 = ...

embedding_types = [

    WordEmbeddings('es'),
    #FlairEmbeddings('es-forward'),
    #FlairEmbeddings('es-backward')
]

embeddings: StackedEmbeddings = StackedEmbeddings(embeddings=embedding_types)

generate_flair_batch = Flair_embedding_collate(embeddings)
train_iterator = torch.utils.data.DataLoader(
        corpus.train,
        batch_size=16,
        shuffle=True,
        collate_fn=generate_flair_batch,
    )
valid_iterator = torch.utils.data.DataLoader(
        corpus.dev,
        batch_size=16,
        shuffle=False,
        collate_fn=generate_flair_batch,
    )

  'See the migration notes for details: %s' % _MIGRATION_NOTES_URL


In [None]:
# tamaño del vocabulario. recuerden que la entrada son vectores bag of word(one-hot).
EMBEDDING_DIM = embeddings.embedding_length  # dimensión de los embeddings.
HIDDEN_DIM = 256  # dimensión de la capas LSTM
OUTPUT_DIM = len(NER_TAGS.vocab)  # número de clases

N_LAYERS = 2  # número de capas.
DROPOUT = 0.5
BIDIRECTIONAL = True

# Creamos nuestro modelo.
embedded2_model = NER_RNN_GRU_FLAIR_EMB(EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         N_LAYERS, BIDIRECTIONAL, DROPOUT)

embedded2_model_name = 'flair-fasttext+BIGRU2'  # nombre que tendrá el modelo guardado...

embedded2_n_epochs = 20

# Loss: Cross Entropy
TAG_PAD_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
embedded2_criterion = nn.CrossEntropyLoss(ignore_index = TAG_PAD_IDX)

embedded2_opt_params = {"params": embedded_model.parameters(),
              "lr": 0.001,
              "amsgrad": True}
embedded2_opt_class = optim.Adam



---
#### Modelo 7

*   Embedding contextual bidireccional de Flair
*   Embedding de dimensión: 4096
*   MLP
*   Capa oculta: 256 
*   Dropout p: 0.5
*   Learning rate: 0.001
*   Optimizador: Adam



In [None]:
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim


# Definir la red
class NER_FLAIR_EMB(nn.Module):
    def __init__(self, 
                 embedding_dim, 
                 hidden_dim, 
                 output_dim,
                 dropout):

        super().__init__()

        # Capa oculta
        self.hidden = nn.Linear(embedding_dim,
                            hidden_dim)

        # Capa de salida
        self.fc = nn.Linear(hidden_dim,
                            output_dim)

        # Dropout
        self.dropout = nn.Dropout(dropout)

    

    def reset_parameters(self):
        for m in self.modules():
          # Inicializamos los pesos como aleatorios
          for name, param in m.named_parameters():
              nn.init.normal_(param.data, mean=0, std=0.1) 


    def forward(self, embedded):

        #embedded = [sent len, batch size, emb dim]
        
        # Pasar los embeddings por la rnn (LSTM)
        outputs = self.hidden(embedded)
        #output = [sent len, batch size, hid dim * n directions]
        #hidden/cell = [n layers * n directions, batch size, hid dim]

        # Predecir usando la capa de salida.
        predictions = self.fc(self.dropout(outputs))
        #predictions = [sent len, batch size, output dim]

        return predictions

In [None]:
from flair.embeddings import TokenEmbeddings, WordEmbeddings, StackedEmbeddings, FlairEmbeddings
# modelo_3 = ...
# model_name_3 = ...
# n_epochs_3 = ...
# loss_3 = ...

embedding_types = [

    #WordEmbeddings('es'),
    FlairEmbeddings('es-forward'),
    FlairEmbeddings('es-backward')
]

embeddings: StackedEmbeddings = StackedEmbeddings(embeddings=embedding_types)

generate_flair_batch = Flair_embedding_collate(embeddings)
train_iterator = torch.utils.data.DataLoader(
        corpus.train,
        batch_size=16,
        shuffle=True,
        collate_fn=generate_flair_batch,
    )
valid_iterator = torch.utils.data.DataLoader(
        corpus.dev,
        batch_size=16,
        shuffle=False,
        collate_fn=generate_flair_batch,
    )

Tesla T4 with CUDA capability sm_75 is not compatible with the current PyTorch installation.
The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_70.
If you want to use the Tesla T4 GPU with PyTorch, please check the instructions at https://pytorch.org/get-started/locally/



In [None]:
# tamaño del vocabulario. recuerden que la entrada son vectores bag of word(one-hot).
EMBEDDING_DIM = embeddings.embedding_length  # dimensión de los embeddings.
HIDDEN_DIM = 256  # dimensión de la capas LSTM
OUTPUT_DIM = len(NER_TAGS.vocab)  # número de clases

N_LAYERS = 2  # número de capas.
DROPOUT = 0.5
BIDIRECTIONAL = True

# Creamos nuestro modelo.
embedded3_model = NER_FLAIR_EMB(EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         DROPOUT)

embedded3_model_name = 'flairEmbeddings-Bi'  # nombre que tendrá el modelo guardado...

embedded3_n_epochs = 20

# Loss: Cross Entropy
TAG_PAD_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
embedded3_criterion = nn.CrossEntropyLoss(ignore_index = TAG_PAD_IDX)

embedded3_opt_params = {
              "lr": 0.001,
              "amsgrad": True}
embedded3_opt_class = optim.Adam



---
#### Modelo 8

*   Embedding contextual Transformer Bert
*   Embedding de dimensión: 3072
*   MLP
*   Capa oculta: 256 
*   Dropout p: 0.5
*   Learning rate: 0.001
*   Optimizador: Adam

In [None]:
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim


# Definir la red
class NER_FLAIR_EMB(nn.Module):
    def __init__(self, 
                 embedding_dim, 
                 hidden_dim, 
                 output_dim,
                 dropout):

        super().__init__()

        # Capa oculta
        self.hidden = nn.Linear(embedding_dim,
                            hidden_dim)

        # Capa de salida
        self.fc = nn.Linear(hidden_dim,
                            output_dim)

        # Dropout
        self.dropout = nn.Dropout(dropout)

    

    def reset_parameters(self):
        for m in self.modules():
          # Inicializamos los pesos como aleatorios
          for name, param in m.named_parameters():
              nn.init.normal_(param.data, mean=0, std=0.1) 


    def forward(self, embedded):

        #embedded = [sent len, batch size, emb dim]
        
        # Pasar los embeddings por la rnn (LSTM)
        outputs = self.hidden(embedded)
        #output = [sent len, batch size, hid dim * n directions]
        #hidden/cell = [n layers * n directions, batch size, hid dim]

        # Predecir usando la capa de salida.
        predictions = self.fc(self.dropout(outputs))
        #predictions = [sent len, batch size, output dim]

        return predictions

In [None]:
from flair.embeddings import TokenEmbeddings, WordEmbeddings, StackedEmbeddings, FlairEmbeddings
# modelo_3 = ...
# model_name_3 = ...
# n_epochs_3 = ...
# loss_3 = ...

embedding_types = [
    TransformerWordEmbeddings('bert-base-multilingual-cased')
    #TransformerWordEmbeddings('dccuchile/bert-base-spanish-wwm-uncased')
]

embeddings: StackedEmbeddings = StackedEmbeddings(embeddings=embedding_types)

generate_flair_batch = Flair_embedding_collate(embeddings)
train_iterator = torch.utils.data.DataLoader(
        corpus.train,
        batch_size=16,
        shuffle=True,
        collate_fn=generate_flair_batch,
    )
valid_iterator = torch.utils.data.DataLoader(
        corpus.dev,
        batch_size=16,
        shuffle=False,
        collate_fn=generate_flair_batch,
    )

ModuleNotFoundError: ignored

In [None]:
# tamaño del vocabulario. recuerden que la entrada son vectores bag of word(one-hot).
EMBEDDING_DIM = embeddings.embedding_length  # dimensión de los embeddings.
HIDDEN_DIM = 256  # dimensión de la capas LSTM
OUTPUT_DIM = len(NER_TAGS.vocab)  # número de clases

N_LAYERS = 2  # número de capas.
DROPOUT = 0.5
BIDIRECTIONAL = True

# Creamos nuestro modelo.
embedded4_model = NER_FLAIR_EMB(EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         DROPOUT)

embedded4_model_name = 'flairEmbeddings-BERT'  # nombre que tendrá el modelo guardado...

embedded4_n_epochs = 20

# Loss: Cross Entropy
TAG_PAD_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
embedded4_criterion = nn.CrossEntropyLoss(ignore_index = TAG_PAD_IDX)

embedded4_opt_params = {
              "lr": 0.001,
              "amsgrad": True}
embedded4_opt_class = optim.Adam


---
#### Modelo 9

*   Embedding Fasttext wikipedia español de Flair
*   Embedding de dimensión: 300
*   *MLP*
*   Capa oculta: 256 
*   Dropout p: 0.5
*   Learning rate: 0.001
*   Optimizador: Adam

In [None]:
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim


# Definir la red
class NER_FLAIR_EMB(nn.Module):
    def __init__(self, 
                 embedding_dim, 
                 hidden_dim, 
                 output_dim,
                 dropout):

        super().__init__()

        # Capa oculta
        self.hidden = nn.Linear(embedding_dim,
                            hidden_dim)

        # Capa de salida
        self.fc = nn.Linear(hidden_dim,
                            output_dim)

        # Dropout
        self.dropout = nn.Dropout(dropout)

    

    def reset_parameters(self):
        for m in self.modules():
          # Inicializamos los pesos como aleatorios
          for name, param in m.named_parameters():
              nn.init.normal_(param.data, mean=0, std=0.1) 


    def forward(self, embedded):

        #embedded = [sent len, batch size, emb dim]
        
        # Pasar los embeddings por la rnn (LSTM)
        outputs = self.hidden(embedded)
        #output = [sent len, batch size, hid dim * n directions]
        #hidden/cell = [n layers * n directions, batch size, hid dim]

        # Predecir usando la capa de salida.
        predictions = self.fc(self.dropout(outputs))
        #predictions = [sent len, batch size, output dim]

        return predictions

In [None]:
from flair.embeddings import TokenEmbeddings, WordEmbeddings, StackedEmbeddings, FlairEmbeddings
# modelo_3 = ...
# model_name_3 = ...
# n_epochs_3 = ...
# loss_3 = ...

embedding_types = [

    WordEmbeddings('es'),
]

embeddings: StackedEmbeddings = StackedEmbeddings(embeddings=embedding_types)

generate_flair_batch = Flair_embedding_collate(embeddings)
train_iterator = torch.utils.data.DataLoader(
        corpus.train,
        batch_size=16,
        shuffle=True,
        collate_fn=generate_flair_batch,
    )
valid_iterator = torch.utils.data.DataLoader(
        corpus.dev,
        batch_size=16,
        shuffle=False,
        collate_fn=generate_flair_batch,
    )

ModuleNotFoundError: ignored

In [None]:
# tamaño del vocabulario. recuerden que la entrada son vectores bag of word(one-hot).
EMBEDDING_DIM = embeddings.embedding_length  # dimensión de los embeddings.
HIDDEN_DIM = 256  # dimensión de la capas LSTM
OUTPUT_DIM = len(NER_TAGS.vocab)  # número de clases

N_LAYERS = 2  # número de capas.
DROPOUT = 0.5
BIDIRECTIONAL = True

# Creamos nuestro modelo.
embedded5_model = NER_FLAIR_EMB(EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         DROPOUT)

embedded5_model_name = 'flair-fasttext'  # nombre que tendrá el modelo guardado...

embedded5_n_epochs = 20

# Loss: Cross Entropy
TAG_PAD_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
embedded5_criterion = nn.CrossEntropyLoss(ignore_index = TAG_PAD_IDX)

embedded5_opt_params = {
              "lr": 0.001,
              "amsgrad": True}
embedded5_opt_class = optim.Adam

------
### Entrenamos y evaluamos


**Importante** : Fijen el modelo, el número de épocas de entrenamiento, la loss y el optimizador que usarán para entrenar y evaluar en las siguientes variables!!!

Modelo 1 BiLSTM 2 capas

In [None]:
model = bilstm_model
model_name = bilstm_model_name
criterion = bisltm_criterion
n_epochs = bilstm_n_epochs
opt_params = bilstm_opt_params
opt_class = bilstm_opt_class

Modelo 2 BiLSTM 1 capa

In [None]:
model = bilstm_model
model_name = bilstm_model_name
criterion = bisltm_criterion
n_epochs = bilstm_n_epochs
opt_params = bilstm_opt_params
opt_class = bilstm_opt_class

Modelo 3 BiGRU 1 capa

In [None]:
model = bigru_model
model_name = bigru_model_name
criterion = bigru_criterion
n_epochs = bigru_n_epochs
opt_params = bigru_opt_params
opt_class = bigru_opt_class

Modelo 4 BiGRU 2 capas

In [None]:
model = bigru_model
model_name = bigru_model_name
criterion = bigru_criterion
n_epochs = bigru_n_epochs
opt_params = bigru_opt_params
opt_class = bigru_opt_class

Modelo 5 embedding fasttext + BiLSTM


In [None]:
model = embedded_model
model_name = embedded_model_name
criterion = embedded_criterion
n_epochs = embedded_n_epochs
opt_params = embedded_opt_params
opt_class = embedded_opt_class

Modelo 6 embedding fasttext + BiGRU


In [None]:
model = embedded2_model
model_name = embedded2_model_name
criterion = embedded2_criterion
n_epochs = embedded2_n_epochs
opt_params = embedded2_opt_params
opt_class = embedded2_opt_class

Modelo 7 Embedding Flair contextual bidireccional + MLP


In [None]:
model = embedded3_model
model_name = embedded3_model_name
criterion = embedded3_criterion
n_epochs = embedded3_n_epochs
opt_params = embedded3_opt_params
opt_class = embedded3_opt_class



#### Inicializamos la red

iniciamos los pesos de la red de forma aleatoria (Usando una distribución normal).


In [None]:
def init_weights(m):
    # Inicializamos los pesos como aleatorios
    for name, param in m.named_parameters():
        nn.init.normal_(param.data, mean=0, std=0.1) 
        
    # Seteamos como 0 los embeddings de UNK y PAD.
    model.embedding.weight.data[UNK_IDX] = torch.zeros(EMBEDDING_DIM)
    model.embedding.weight.data[PAD_IDX] = torch.zeros(EMBEDDING_DIM)
        
#model.apply(init_weights)
model.reset_parameters()

In [None]:
model.modules

<bound method Module.modules of NER_RNN_2(
  (embedding): Embedding(26101, 150, padding_idx=1)
  (gru): GRU(150, 256, num_layers=2, dropout=0.5, bidirectional=True)
  (fc): Linear(in_features=512, out_features=10, bias=True)
  (dropout): Dropout(p=0.5, inplace=False)
)>

In [None]:
def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f'El modelo actual tiene {count_parameters(model):,} parámetros entrenables.')

El modelo actual tiene 5,729,688 parámetros entrenables.


#### Definimos el optimizador

In [None]:
# Optimizador
optimizer = optim.Adam(model.parameters())

In [None]:
opt_params["params"] = model.parameters()
optimizer = opt_class(**opt_params)

#### Enviamos el modelo a cuda


In [None]:
# Enviamos el modelo y la loss a cuda (en el caso en que esté disponible)
model = model.to(device)
criterion = criterion.to(device)

#### Definimos el entrenamiento de la red

Algunos conceptos previos: 

- `epoch` : una pasada de entrenamiento completa de una dataset.
- `batch`: una fracción de la época. Se utilizan para entrenar mas rápidamente la red. (mas eficiente pasar n datos que uno en cada ejecución del backpropagation)

Esta función está encargada de entrenar la red en una época. Para esto, por cada batch de la época actual, predice los tags del texto, calcula su loss y luego hace backpropagation para actualizar los pesos de la red."

Observación: En algunos comentarios aparecerá el tamaño de los tensores entre corchetes

In [None]:
def train(model, iterator, optimizer, criterion):

    epoch_loss = 0
    epoch_precision = 0
    epoch_recall = 0
    epoch_f1 = 0

    model.train()

    # Por cada batch del iterador de la época:
    for batch in iterator:

        # Extraemos el texto y los tags del batch que estamos procesado
        text = batch.text
        tags = batch.nertags

        # Reiniciamos los gradientes calculados en la iteración anterior
        optimizer.zero_grad()

        #text = [sent len, batch size]

        # Predecimos los tags del texto del batch.
        predictions = model(text)

        #predictions = [sent len, batch size, output dim]
        #tags = [sent len, batch size]

        # Reordenamos los datos para calcular la loss
        predictions = predictions.view(-1, predictions.shape[-1])
        tags = tags.view(-1)

        #predictions = [sent len * batch size, output dim]
        #tags = [sent len * batch size]

        # Calculamos el Cross Entropy de las predicciones con respecto a las etiquetas reales
        loss = criterion(predictions, tags)
        
        # Calculamos el accuracy
        precision, recall, f1 = calculate_metrics(predictions, tags)

        # Calculamos los gradientes
        loss.backward()

        # Actualizamos los parámetros de la red
        optimizer.step()

        # Actualizamos el loss y las métricas
        epoch_loss += loss.item()
        epoch_precision += precision
        epoch_recall += recall
        epoch_f1 += f1

    return epoch_loss / len(iterator), epoch_precision / len(
        iterator), epoch_recall / len(iterator), epoch_f1 / len(iterator)

#### `Definimos la función de evaluación`

Evalua el rendimiento actual de la red usando los datos de validación. 

Por cada batch de estos datos, calcula y reporta el loss y las métricas asociadas al conjunto de validación. 
Ya que las métricas son calculadas por cada batch, estas son retornadas promediadas por el número de batches entregados. (ver linea del return)

In [None]:
def evaluate(model, iterator, criterion):

    epoch_loss = 0
    epoch_precision = 0
    epoch_recall = 0
    epoch_f1 = 0

    model.eval()

    # Indicamos que ahora no guardaremos los gradientes
    with torch.no_grad():
        # Por cada batch
        for batch in iterator:

            text = batch.text
            tags = batch.nertags

            # Predecimos
            predictions = model(text)

            predictions = predictions.view(-1, predictions.shape[-1])
            tags = tags.view(-1)

            # Calculamos el Cross Entropy de las predicciones con respecto a las etiquetas reales
            loss = criterion(predictions, tags)

            # Calculamos las métricas
            precision, recall, f1 = calculate_metrics(predictions, tags)

            # Actualizamos el loss y las métricas
            epoch_loss += loss.item()
            epoch_precision += precision
            epoch_recall += recall
            epoch_f1 += f1

    return epoch_loss / len(iterator), epoch_precision / len(
        iterator), epoch_recall / len(iterator), epoch_f1 / len(iterator)

def evaluate_complete(model, iterator, criterion):

    epoch_loss = 0
    epoch_precision = 0
    epoch_recall = 0
    epoch_f1 = 0

    model.eval()

    # Indicamos que ahora no guardaremos los gradientes
    with torch.no_grad():
        # Por cada batch
        for batch in iterator:

            text = batch.text
            tags = batch.nertags

            # Predecimos
            predictions = model(text)

            predictions = predictions.view(-1, predictions.shape[-1])
            tags = tags.view(-1)

            # Calculamos el Cross Entropy de las predicciones con respecto a las etiquetas reales
            loss = criterion(predictions, tags)

            # Calculamos las métricas
            precision, recall, f1 = calculate_metrics_complete(predictions, tags)

            # Actualizamos el loss y las métricas
            epoch_loss += loss.item()
            epoch_precision += precision
            epoch_recall += recall
            epoch_f1 += f1

    return epoch_loss / len(iterator), epoch_precision / len(
        iterator), epoch_recall / len(iterator), epoch_f1 / len(iterator)

In [None]:
import time

def epoch_time(start_time, end_time):
    elapsed_time = end_time - start_time
    elapsed_mins = int(elapsed_time / 60)
    elapsed_secs = int(elapsed_time - (elapsed_mins * 60))
    return elapsed_mins, elapsed_secs


#### Entrenamiento de la red

En este cuadro de código ejecutaremos el entrenamiento de la red.
Para esto, primero definiremos el número de épocas y luego por cada época, ejecutaremos `train` y `evaluate`.

**Importante: Reiniciar los pesos del modelo**

Si ejecutas nuevamente esta celda, se seguira entrenando el mismo modelo una y otra vez. 
Para reiniciar el modelo se debe ejecutar nuevamente la celda que contiene la función `init_weights`



In [None]:
# Early stopping
bad_ep_count = 0
stop_cond = 2 # Number of bad epochs to stop
last_valid_loss = float('inf')

best_valid_loss = float('inf')

for epoch in range(n_epochs):

    start_time = time.time()

    # Recuerdo: train_iterator y valid_iterator contienen el dataset dividido en batches.

    # Entrenar
    train_loss, train_precision, train_recall, train_f1 = train(
        model, train_iterator, optimizer, criterion)

    # Evaluar (valid = validación)
    valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
        model, valid_iterator, criterion)

    end_time = time.time()

    epoch_mins, epoch_secs = epoch_time(start_time, end_time)

    # Si obtuvimos mejores resultados, guardamos este modelo en el almacenamiento (para poder cargarlo luego)
    # Si detienen el entrenamiento prematuramente, pueden cargar el modelo en el siguiente recuadro de código.
    if valid_loss < best_valid_loss:
        best_valid_loss = valid_loss
        torch.save(model.state_dict(), '{}.pt'.format(model_name))
    # Si ya no mejoramos el loss de validación, terminamos de entrenar.
    if valid_loss > last_valid_loss:
        bad_ep_count += 1
    else:
      bad_ep_count = 0
    
    last_valid_loss = valid_loss


    print(f'Epoch: {epoch+1:02} | Epoch Time: {epoch_mins}m {epoch_secs}s')
    print(
        f'\tTrain Loss: {train_loss:.3f} | Train f1: {train_f1:.2f} | Train precision: {train_precision:.2f} | Train recall: {train_recall:.2f}'
    )
    print(
        f'\t Val. Loss: {valid_loss:.3f} |  Val. f1: {valid_f1:.2f} |  Val. precision: {valid_precision:.2f} | Val. recall: {valid_recall:.2f}'
    )

    if bad_ep_count == stop_cond:
      print(f"Early Stopping at {epoch+1} epochs")
      break



KeyboardInterrupt: ignored

**Importante**: Recuerden que el último modelo entrenado no es el mejor (probablemente esté *overfitteado*), si no el que guardamos con la menor loss del conjunto de validación.
Para cargar el mejor modelo entrenado, ejecuten la siguiente celda.

Este problema lo pueden solucionar con *early stopping*.

In [None]:
# cargar el mejor modelo entrenado.
model.load_state_dict(torch.load('{}.pt'.format(model_name)))

<All keys matched successfully>

In [None]:
# Limpiar ram de cuda
torch.cuda.empty_cache()

#### Evaluamos el set de validación con el modelo final

Estos son los resultados de predecir el dataset de evaluación con el *mejor* modelo entrenado.

In [None]:
valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
    model, valid_iterator, criterion)

print(
    f'Val. Loss: {valid_loss:.3f} |  Val. f1: {valid_f1:.2f} | Val. precision: {valid_precision:.2f} | Val. recall: {valid_recall:.2f}'
)



Val. Loss: 0.201 |  Val. f1: 0.56 | Val. precision: 0.62 | Val. recall: 0.56


In [None]:
valid_loss, valid_precision, valid_recall, valid_f1 = evaluate_complete(
    model, valid_iterator, criterion)

print(
    f'Val. Loss: {valid_loss:.3f} |  Val. f1: {valid_f1:.2f} | Val. precision: {valid_precision:.2f} | Val. recall: {valid_recall:.2f}'
)



Val. Loss: 0.201 |  Val. f1: 0.54 | Val. precision: 0.57 | Val. recall: 0.59


#### Entrenamiento promediado

In [None]:
import numpy as np
def prom_train(model, model_name, criterion, opt_params, opt_class, n_epochs, train_iterator, valid_iterator, num_train, stop_cond):
  """
  num_train: Number of complete train to calculate mean 
  stop_cond: Number of bad epochs to stop
  """
  print(f"Training {model_name}")
  scores = np.zeros((num_train, 3))
  for i in range(num_train):
    # Configure model and optimizer
    model.reset_parameters()
    opt_params["params"] = model.parameters()
    optimizer = opt_class(**opt_params)
    model = model.to(device)
    criterion = criterion.to(device)
    # Early stopping
    bad_ep_count = 0
    last_valid_loss = float('inf')

    best_valid_loss = float('inf')
    best_scores = []

    for epoch in range(n_epochs):

        start_time = time.time()

        # Recuerdo: train_iterator y valid_iterator contienen el dataset dividido en batches.

        # Entrenar
        train_loss, train_precision, train_recall, train_f1 = train(
            model, train_iterator, optimizer, criterion)

        # Evaluar (valid = validación)
        valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
            model, valid_iterator, criterion)

        end_time = time.time()

        epoch_mins, epoch_secs = epoch_time(start_time, end_time)

        # Si obtuvimos mejores resultados, guardamos este modelo en el almacenamiento (para poder cargarlo luego)
        # Si detienen el entrenamiento prematuramente, pueden cargar el modelo en el siguiente recuadro de código.
        if valid_loss < best_valid_loss:
            best_valid_loss = valid_loss
            best_scores = [valid_f1, valid_precision, valid_recall]
            torch.save(model.state_dict(), '{}.pt'.format(model_name))
        # Si ya no mejoramos el loss de validación, terminamos de entrenar.
        if valid_loss > last_valid_loss:
            bad_ep_count += 1
        else:
          bad_ep_count = 0
        
        last_valid_loss = valid_loss


        print(f'Epoch: {epoch+1:02} | Epoch Time: {epoch_mins}m {epoch_secs}s')
        print(
            f'\tTrain Loss: {train_loss:.3f} | Train f1: {train_f1:.2f} | Train precision: {train_precision:.2f} | Train recall: {train_recall:.2f}'
        )
        print(
            f'\t Val. Loss: {valid_loss:.3f} |  Val. f1: {valid_f1:.2f} |  Val. precision: {valid_precision:.2f} | Val. recall: {valid_recall:.2f}'
        )

        if bad_ep_count == stop_cond:
          print(f"Early Stopping at {epoch+1} epochs")
          break
    # Save scores
    scores[i] = best_scores
    mean_scores = scores.mean(axis = 0)
    print( "Mean scores:")
    print(
            '\t Val. f1: {:.2f} |  Val. precision: {:.2f} | Val. recall: {:.2f}'.format(*mean_scores)
        )

  return scores

In [None]:
scores = prom_train(model, model_name,
           criterion, 
           opt_params, 
           opt_class, 
           n_epochs, 
           train_iterator, 
           valid_iterator,
           num_train = 3, stop_cond=3)

Training bigru-2




Epoch: 01 | Epoch Time: 0m 10s
	Train Loss: 0.430 | Train f1: 0.23 | Train precision: 0.34 | Train recall: 0.20
	 Val. Loss: 0.265 |  Val. f1: 0.44 |  Val. precision: 0.54 | Val. recall: 0.43
Epoch: 02 | Epoch Time: 0m 10s
	Train Loss: 0.172 | Train f1: 0.55 | Train precision: 0.62 | Train recall: 0.53
	 Val. Loss: 0.204 |  Val. f1: 0.55 |  Val. precision: 0.65 | Val. recall: 0.53
Epoch: 03 | Epoch Time: 0m 10s
	Train Loss: 0.100 | Train f1: 0.68 | Train precision: 0.73 | Train recall: 0.67
	 Val. Loss: 0.201 |  Val. f1: 0.59 |  Val. precision: 0.68 | Val. recall: 0.58
Epoch: 04 | Epoch Time: 0m 10s
	Train Loss: 0.068 | Train f1: 0.75 | Train precision: 0.79 | Train recall: 0.75
	 Val. Loss: 0.194 |  Val. f1: 0.61 |  Val. precision: 0.69 | Val. recall: 0.61
Epoch: 05 | Epoch Time: 0m 10s
	Train Loss: 0.049 | Train f1: 0.81 | Train precision: 0.83 | Train recall: 0.80
	 Val. Loss: 0.205 |  Val. f1: 0.61 |  Val. precision: 0.68 | Val. recall: 0.61
Epoch: 06 | Epoch Time: 0m 10s
	Train Lo

  avg = a.mean(axis)
  ret = ret.dtype.type(ret / rcount)


Epoch: 03 | Epoch Time: 0m 10s
	Train Loss: 0.098 | Train f1: nan | Train precision: nan | Train recall: nan
	 Val. Loss: 0.198 |  Val. f1: 0.59 |  Val. precision: 0.67 | Val. recall: 0.58
Epoch: 04 | Epoch Time: 0m 10s
	Train Loss: 0.067 | Train f1: 0.76 | Train precision: 0.79 | Train recall: 0.75
	 Val. Loss: 0.193 |  Val. f1: 0.61 |  Val. precision: 0.68 | Val. recall: 0.60
Epoch: 05 | Epoch Time: 0m 10s
	Train Loss: 0.050 | Train f1: 0.80 | Train precision: 0.82 | Train recall: 0.79
	 Val. Loss: 0.205 |  Val. f1: 0.61 |  Val. precision: 0.68 | Val. recall: 0.61
Epoch: 06 | Epoch Time: 0m 10s
	Train Loss: 0.038 | Train f1: 0.84 | Train precision: 0.86 | Train recall: 0.84
	 Val. Loss: 0.216 |  Val. f1: 0.62 |  Val. precision: 0.68 | Val. recall: 0.62
Epoch: 07 | Epoch Time: 0m 10s
	Train Loss: 0.031 | Train f1: 0.86 | Train precision: 0.88 | Train recall: 0.86
	 Val. Loss: 0.225 |  Val. f1: 0.64 |  Val. precision: 0.70 | Val. recall: 0.63
Early Stopping at 7 epochs
Mean scores:
	 V


### Predecir datos para la competencia

Ahora, a partir de los datos de **test** y nuestro modelo entrenado, predeciremos las etiquetas que serán evaluadas en la competencia.

In [None]:
def predict_labels(model, iterator, criterion, fields=fields):

    # Extraemos los vocabularios.
    text_field = fields[0][1]
    nertags_field = fields[1][1]
    tags_vocab = nertags_field.vocab.itos
    words_vocab = text_field.vocab.itos

    model.eval()

    predictions = []

    with torch.no_grad():

        for batch in iterator:

            text_batch = batch.text
            text_batch = torch.transpose(text_batch, 0, 1).tolist()

            # Predecir los tags de las sentences del batch
            predictions_batch = model(batch.text)
            predictions_batch = torch.transpose(predictions_batch, 0, 1)

            # por cada oración predicha:
            for sentence, sentence_prediction in zip(text_batch,
                                                     predictions_batch):
                for word_idx, word_predictions in zip(sentence,
                                                      sentence_prediction):
                    # Obtener el indice del tag con la probabilidad mas alta.
                    argmax_index = word_predictions.topk(1)[1]

                    current_tag = tags_vocab[argmax_index]
                    # Obtenemos la palabra
                    current_word = words_vocab[word_idx]

                    if current_word != '<pad>':
                        predictions.append([current_word, current_tag])


    return predictions


predictions = predict_labels(model, test_iterator, criterion)

In [None]:
# Predecir en modelo con flair
def get_words(batch):
    sentences = []
    for sentence in batch:
        sentences.append([token.text for token in sentence])
    return sentences
    
test_iterator = torch.utils.data.DataLoader(
        corpus.test,
        batch_size=16,
        shuffle=False,
        collate_fn=lambda x: (get_words(x),generate_flair_batch(x)),
    )

tags_vocab = NER_TAGS.vocab.itos
model.eval()
predictions = []
for sentences, batch in test_iterator:
    # Predecir los tags de las sentences del batch
    predictions_batch = model(batch.text)
    predictions_batch = torch.transpose(predictions_batch, 0, 1)
    # por cada oración predicha:
    for sentence, sentence_prediction in zip(sentences,
                                             predictions_batch):
        for ix, word in enumerate(sentence):
            argmax_index = sentence_prediction[ix,:].topk(1)[1]

            current_tag = tags_vocab[argmax_index]
            predictions.append([word, current_tag])

### Generar el archivo para la submission

No hay problema si aparecen unk en la salida. Estos no son relevantes para evaluarlos, usamos solo los tags.

In [None]:
import os, shutil

if (os.path.isfile('./predictions.zip')):
    os.remove('./predictions.zip')

if (not os.path.isdir('./predictions')):
    os.mkdir('./predictions')

else:
    # Eliminar predicciones anteriores:
    shutil.rmtree('./predictions')
    os.mkdir('./predictions')

f = open('predictions/predictions.txt', 'w')
for word, tag in predictions:
    f.write(word + ' ' + tag + '\n')
f.write('\n')
f.close()

a = shutil.make_archive('predictions', 'zip', './predictions')

In [None]:
# A veces no funciona a la primera. Ejecutar mas de una vez para obtener el archivo...
from google.colab import files
files.download('predictions.zip')  

## Conclusiones


Respecto del uso de embeddings pre-entrenados, se ve claramente que funcionan mejor que entrenar uno sobre el corpus que se tiene, y es lo esperado al poseer una representación más rica de las palabras cuando están entrenados sobre corpus grandes. Primero se ve que sólo cambiando el embedding por fasttext se mejoran los puntajes. También, se ve que usando el embedding contextualizado de Flair se logra superar el baseline incluso si se usa un clasificador simple como un MLP, en contraste con fasttext que tiene un mal desempeño por si sólo con el mismo clasificador.

Como RNN se utilizo LSTM y GRU, ambas redes conocidas por su uso de compuertas, que permiten controlar la información a actualizar u olvidar. A pesar de tener rendimiento en general similares en este problema, se puede obsevar que cuando se trabajo con un mayor número de capas y/o un mayor número de caracteristicas de capa oculta, la LSTM obtuvo superioridad. Lo anterior es debido, a que la LSTM utiliza 2 estados, lo cual le permite reducir el problema del gradiente descendiente, provocando que se pueda entrenar de mejor forma redes más profundas.

Finalmente, como trabajo futuro se propone la utilización de Transformers debido a su mejor eficiencia con respecto a las redes recursivas, ya que estos pueden paralelizar su trabajo en la GPU, hecho que no puede realizar las redes recurrentes. Consecuencias de lo anterior, seria poder entrenar con corpus más grandes y variados, que permitiria una mejor generalización de los modelos. 