# Tarea 2 - Named Entity Recognition

----------------------

- **Nombre: Joaquin Cubelli - Tomás de la Sotta**

- **Usuario o nombre de equipo en Codalab: Team NSOUBN** 



## Introducción a la tarea

### Objetivo


El objetivo de esta tarea es resolver una de las tasks mas importantes de Sequence Labelling: [Named Entity Recognition (NER)](http://www.cs.columbia.edu/~mcollins/cs4705-spring2019/slides/tagging.pdf). 

En particular, deberán participar, al igual que en la tarea anterior, en una competencia en donde deberán crear distintos modelos que apunten a resolver NER en español. Para esto, les proveeremos un dataset de NER de noticias etiquetadas en español mas este baseline en donde podrán comenzar a trabajar. 

Esperamos que (por lo menos) utilizen Redes Neuronales Recurrentes (RNN) para resolverla. Nuevamente, hay total libertad para utilizar software y los modelos que deseen, siempre y cuando estos no traigan los modelos ya implementados (como el caso de spacy).


**¿Qué es Sequence Labelling?** 

En breves palabras, dada una secuencia de tokens (frase u oración) sequence labelling tiene por objetivo asignar una etiqueta a cada token de dicha secuencia.

**Named Entity Recognition (NER)**

Esta tarea consiste en localizar y clasificar los tokens de una oración que representen entidades nombradas. Es decir, tokens que simbolicen (1) **personas**, (2) **organizaciones**, (3) **lugares** y (4) **adjetivos, eventos y otras entidades que no entren en las categorías anteriores** deberán ser taggeados como (1) **PER**, (2) **ORG**, (3) **LOC** y (4) **MISC** respectivamente. Adicionalmente, dado que existen entidades representadas en más de un token (como La Serena), se utiliza la notación BIO como prefijo al tag: Beginning, Inside, Outside. Es decir, si encuentro una entidad, el primer token etiquetado será precedido por B, el segundo por I y los n restantes por I. Por otra parte, si el token no representa ninguna entidad nombrada, se representa por O. Un ejemplo de esto es:

Por ejemplo:

```
Felipe B-PER
Bravo I-PER
es O
el O
profesor O
de O
PLN B-MISC
de O
la O
Universidad B-ORG
de I-ORG
Chile I-ORG
. O
```

Estos links son los más indicados para comenzar:

-  [Tagging, and Hidden Markov Models ](http://www.cs.columbia.edu/~mcollins/cs4705-spring2019/slides/tagging.pdf) (slides by Michael Collins), [notes](http://www.cs.columbia.edu/~mcollins/hmms-spring2013.pdf), [video 1](https://youtu.be/-ngfOZz8yK0), [video 2](https://youtu.be/PLoLKQwkONw), [video 3](https://youtu.be/aaa5Qoi8Vco), [video 4](https://youtu.be/4pKWIDkF_6Y)       
-  [Recurrent Neural Networks](slides/NLP-RNN.pdf) | [video 1](https://youtu.be/BmhjUkzz3nk), [video 2](https://youtu.be/z43YFR1iIvk), [video 3](https://youtu.be/7L5JxQdwNJk)


Recuerden que todo el material se encuentra disponible en el [github del curso](https://github.com/dccuchile/CC6205).

### Reglas de la tarea

Algunos detalles de la competencia:

- Para que su tarea sea evaluada, deben participar en la competencia como también, enviar este notebook con su informe.
- Para participar, deben registrarse en la competencia en Codalab en grupos de máximo 2 alumnos. Cada grupo debe tener un nombre de equipo. (¡Y deben reportarlo en su informe!)
- Las métricas usadas serán Precisión, Recall y F1.
- En esta tarea se recomienda usar GPU. Pueden ejecutar su tarea en colab (lo cual trae todo instalado) o pueden intentar correrlo en su computador. en este caso, deberá ser compatible con cuda y deberán instalar todo por su cuenta.
- En total pueden hacer un **máximo de 4 envíos**.
- Por favor, todas sus dudas haganlas en el hilo de U-cursos de la tarea. Los emails que lleguen al equipo docente serán remitidos a ese medio. Recuerden el ánimo colaborativo del curso!!
- Estar top 5 en alguna métrica equivale a 1 punto extra en la nota final.


**Link a la competencia:  https://competitions.codalab.org/competitions/25302?secret_key=690406c7-b3b0-4092-8694-d08d7991ca94**

### Modelos

La RNN del baseline adjunto a este notebook está programado en [`pytorch`](https://pytorch.org/) y contiene:

- La carga los datasets, creación de batches de texto y padding. En resumen, carga los datos y los deja listo para entrenar la red.
- La implementación básica de una red `LSTM` simple de solo un nivel y sin bi-direccionalidad. 
- La construcción un output para que lo puedan probar en la tarea en codelab.



roponer algunos experimentos a hacer:
(cambiar el batch size, dimensiones de las capas, cambiar el tipo de
RNN, cambiar el optimizer, usar una CRF loss, usar embeddings
pre-entrenados, usar BERT??). Quizás podemos sugerir usar algo como
https://github.com/flairNLP/flair

Se espera que ustedes experimenten con el baseline utilizando (pero no limitándose) estas sugerencias:

*   Probar Early stopping
*   Variar la cantidad de parámetros de la capa de embeddings.
*   Variar la cantidad de capas RNN.
*   Variar la cantidad de parámetros de las capas de RNN.
*   Inicializar la capa de embeddings con modelos pre-entrenados. (word2vec, glove, conceptnet, etc...).[Guía breve aquí](https://github.com/dccuchile/spanish-word-embeddings), [Embeddings en español aquí](https://github.com/dccuchile/spanish-word-embeddings).
*   Variar la cantidad de épocas de entrenamiento.
*   Variar el optimizador, learning rate, batch size, usar CRF loss, etc...
*   Probar bi-direccionalidad.
*   Probar teacher forcing.
*   Incluir dropout.
*   Probar modelos de tipo GRU
*   Probar Embedding Contextuales (les puede ser de utilidad [flair](https://github.com/flairNLP/flair))
*   Probar modelos de transformers en español usando [Huggingface](https://github.com/huggingface/transformers)

### Reporte

Este debe cumplir la siguiente estructura:

1.	**Introducción**: Presentar brevemente el problema a resolver, los modelos utilizados en el desarrollo de la tarea y conclusiones obtenidas. (0.5 Puntos)

2.	**Modelos**: Describir brevemente los modelos, métodos y hiperparámetros utilizados. (1.0 puntos)

4.	**Métricas de evaluación**: Describir las métricas utilizadas en la evaluación indicando que miden y cuál es su interpretación en este problema en particular. (0.5 puntos)

5.	**Experimentos**: Reportar todos sus experimentos y código en esta sección. Comparar los resultados obtenidos utilizando diferentes modelos. ¡Es vital haber realizado varios experimentos para sacar una buena nota! (3.0 puntos)

6.	**Conclusiones**: Discutir resultados, proponer trabajo futuro. (1.0 punto)

(Pueden eliminar cualquier celda con instrucciones...)

**Importante**: Recuerden poner su nombre y el de su usuario o de equipo (en caso de que aplique) tanto en el reporte. NO serán evaluados Notebooks sin nombre.


-----------------------------------------

## Introducción

Dentro de los estudios de gran interés en el área de comunicación y comprensión del lenguaje, ser capaz de reconocer entidades es vital para la clasificación. El procesamiento de lenguaje natural tiene tres áreas centrales: "semantics", "syntaxis" y "speech", de esto nace la idea del NER, que busca resolver el problema de reconocimiento, tomando un lugar en el área de "semantics", extendiéndose hacia lo que es la interpretabilidad contextual de los documentos.

El siguiente informe desarrolla distintos experimentos para determinar técnicas útiles para hacer este procedimiento. Dentro del consiguiente, se muestra el estudio de 10 modelos diferentes, desde el baseline hasta BERT, pasando por variados modelos de RNN y regresiones, los cuales se tratarán con mayor detalle en la sección definida para ello.

Haciendo un acercamiento hacia el final de la investigación, se concluye que, con los parámetros utilizados y el dataset predefinido, se obtiene un mejor resultado con modelos LSTM por sobre GRU, Redes Bidireccionales sobre Unidireccionales, Profundidad de las RNN con resultados inconsistentes y la regresión logística muy por debajo de todos los modelos evaluados. 
Con respecto a los optimizadores utilizados para las RNN, todos se comportan similarmente, sin embargo destacan Adam y RMSprop. 

Finalmente se menciona que no todos los modelos desarrollados presentan el funcionamiento esperado y algunos no fueron completamente implementables durante el desarrollo de la investigación.



## Modelos 
En esta tarea, se definieron 4 clases de modelos principales:

- Regresión Logistica
- RNN-LTSM
- RNN-GRU
- Bert

De los cuales se iteró modificando en una primera instancia los Métodos n_layers y bidireccional, dando origen a los siguientes submodelos:

- biLTSM 
- biGRU
- deepLTSM
- deepGRU

Hiperparámetros a considerar:

Para la Regresión Logistica: Embedding_dim # Dimensiones de embeddings

Para las RNN: 

- Embedding_dim # Dimensiones de embeddings.
- hidden_dim # Dimensiones de la capa oculta.
- n_layers # Cantidad de capas tanto de LTSM como de GRU.
- Dropout: Proporcion de neuronas cuyos pesos son llevadas a cero para evitar overfitting.

Para todos los modelos a entrenar, también se iteran los hiperparámetros Batch_size y n_epochs, que corresponden a la cantidad de veces que el train_dataset utiliza en la red para entrenar por época, y la cantidad de épocas en las que se entrena respectivamente.

## Métricas de evaluación

- **Precision:** La precision es la razon entre las observaciones correctamente predecidas con el total de las observaciones predictas positivas. Una precision alta se relaciona con pocos falsos positivos. Precision = VP / (VP + FP). Dado un precision de 0.3, por ejemplo, esto significa que el 30% de las veces que prediga positivamente, estará en lo correcto y 70% de las veces, no.

- **Recall:** Recall es la razon entre observaciones correctamente clasificadas como positivas respecto al total de las observaciones en la clase actual. Recall = VP / (VP + FN). El recall o exhaustividad nos informa de la cantidad que es capaz el modelo de identificar. Utilizando un ejemplo similar, con un recall de 0.25, el modelo sería capaz de identificar solo un 25% de los verdaderos positivos.

- **F1 score:** El score F1 es la media ponderada entre Precision y Recall. Bajo la idea de que la presición y la exhaustividad tienen igual importancia dentro del modelo, el score F1 es una medida que combina ambas. 

## Experimentos


El código que les entregaremos servirá de baseline para luego implementar mejores modelos. 
En general, el código asociado a la carga de los datos, las funciones de entrenamiento, de evaluación y la predicción de los datos de la competencia no deberían cambiar. 
Solo deben preocuparse de cambiar la arquitectura del modelo, sus hiperparámetros y reportar, lo cual lo pueden hacer en las subsecciones *modelos*.



###  Carga de datos y Preprocesamiento

Para cargar los datos y preprocesarlos usaremos la librería [`torchtext`](https://github.com/pytorch/text).
En particular usaremos su módulo `data`, el cual según su documentación original provee: 

    - Ability to describe declaratively how to load a custom NLP dataset that's in a "normal" format
    - Ability to define a preprocessing pipeline
    - Batching, padding, and numericalizing (including building a vocabulary object)
    - Wrapper for dataset splits (train, validation, test)


El proceso será el siguiente: 

1. Descargar los datos desde github y examinarlos.
2. Definir los campos (`fields`) que cargaremos desde los archivos.
3. Cargar los datasets.
4. Crear el vocabulario.



In [None]:
# Instalar torchtext (en codalab) - Descomentar.
!pip3 install --upgrade torchtext

Collecting torchtext
[?25l  Downloading https://files.pythonhosted.org/packages/b9/f9/224b3893ab11d83d47fde357a7dcc75f00ba219f34f3d15e06fe4cb62e05/torchtext-0.7.0-cp36-cp36m-manylinux1_x86_64.whl (4.5MB)
[K     |████████████████████████████████| 4.5MB 7.1MB/s 
[?25hCollecting sentencepiece
[?25l  Downloading https://files.pythonhosted.org/packages/d4/a4/d0a884c4300004a78cca907a6ff9a5e9fe4f090f5d95ab341c53d28cbc58/sentencepiece-0.1.91-cp36-cp36m-manylinux1_x86_64.whl (1.1MB)
[K     |████████████████████████████████| 1.1MB 38.3MB/s 
Installing collected packages: sentencepiece, torchtext
  Found existing installation: torchtext 0.3.1
    Uninstalling torchtext-0.3.1:
      Successfully uninstalled torchtext-0.3.1
Successfully installed sentencepiece-0.1.91 torchtext-0.7.0


In [None]:
#!pip freeze | grep torch

In [None]:
#!pip uninstall --yes torch torchvision && pip install torch torchvision

In [None]:
import torch
from torchtext import data, datasets


# Garantizar reproducibilidad 
SEED = 1234
torch.manual_seed(SEED)
torch.backends.cudnn.deterministic = True

In [None]:
torch.cuda.is_available()

True

#### Obtener datos

Descargamos los datos de entrenamiento, validación y prueba en nuestro directorio de trabajo

In [None]:
%%capture
!wget https://github.com/dccuchile/CC6205/releases/download/Data/train_NER_esp.txt -nc # Dataset de Entrenamiento
!wget https://github.com/dccuchile/CC6205/releases/download/Data/val_NER_esp.txt -nc    # Dataset de Validación (Para probar y ajustar el modelo)
!wget https://github.com/dccuchile/CC6205/releases/download/Data/test_NER_esp.txt -nc  # Dataset de la Competencia. Estos datos solo contienen los tokens. ¡¡SON LOS QUE DEBEN SER PREDICHOS!!

####  Fields

Un `field`:

* Define un tipo de datos junto con instrucciones para convertir el texto a Tensor.
* Contiene un objeto `Vocab` que contiene el vocabulario (palabras posibles que puede tomar ese campo).
* Contiene otros parámetros relacionados con la forma en que se debe numericalizar un tipo de datos, como un método de tokenización y el tipo de Tensor que se debe producir.


Analizemos el siguiente cuadro el cual contiene un ejemplo cualquiera de entrenamiento:


```
El O
Abogado B-PER
General I-PER
del I-PER
Estado I-PER
, O
Daryl B-PER
Williams I-PER
```

Cada linea contiene una palabra y su clase. Para que `torchtext` pueda cargar estos datos, debemos definir como va a leer y separar los componentes de cada una de las lineas.
Para esto, definiremos un field para cada uno de esos componentes: Las palabras (`TEXT`) y los NER_TAGS (`clase`).


In [None]:
# Primer Field: TEXT. Representan los tokens de la secuencia
TEXT = data.Field(lower=False) 

# Segundo Field: NER_TAGS. Representan los Tags asociados a cada palabra.
NER_TAGS = data.Field(unk_token=None)

fields = (("text", TEXT), ("nertags", NER_TAGS))



####  SequenceTaggingDataset

`SequenceTaggingDataset` es una clase de torchtext diseñada para contener datasets de sequence labelling. 
Los ejemplos que se guarden en una instancia de estos serán arreglos de palabras pareados con sus respectivos tags.
Por ejemplo, para Part-of-speech tagging:

[I, love, PyTorch, .] estará pareado con [PRON, VERB, PROPN, PUNCT]


La idea es que usando los fields que definimos antes, le indiquemos a la clase cómo cargar los datasets de prueba, validación y test.

In [None]:
train_data, valid_data, test_data = datasets.SequenceTaggingDataset.splits(
    path="./",
    train="train_NER_esp.txt",
    validation="val_NER_esp.txt",
    test="test_NER_esp.txt",
    fields=fields,
    encoding="iso-8859-1",
    separator=" "
)



In [None]:
print(f"Numero de ejemplos de entrenamiento: {len(train_data)}")
print(f"Número de ejemplos de validación: {len(valid_data)}")
print(f"Número de ejemplos de test (competencia): {len(test_data)}")

Numero de ejemplos de entrenamiento: 8323
Número de ejemplos de validación: 1915
Número de ejemplos de test (competencia): 1517


Visualizemos un ejemplo

In [None]:
import random
random_item_idx = random.randint(0, len(train_data))
random_example = train_data.examples[random_item_idx]
list(zip(random_example.text, random_example.nertags))

[('Cáceres', 'B-LOC'),
 (',', 'O'),
 ('23', 'O'),
 ('may', 'O'),
 ('(', 'O'),
 ('EFE', 'B-ORG'),
 (')', 'O'),
 ('.', 'O')]

#### Construir los vocabularios para el texto y las etiquetas

Los vocabularios son los obbjetos que contienen todos los tokens (de entrenamiento) posibles para ambos fields.
El siguiente paso consiste en construirlos. Para esto, hacemos uso del método `Field.build_vocab` sobre cada uno de nuestros `fields`. 

In [None]:
TEXT.build_vocab(train_data)
NER_TAGS.build_vocab(train_data)

In [None]:
print(f"Tokens únicos en TEXT: {len(TEXT.vocab)}")
print(f"Tokens únicos en NER_TAGS: {len(NER_TAGS.vocab)}")

Tokens únicos en TEXT: 26101
Tokens únicos en NER_TAGS: 10


In [None]:
#Veamos las posibles etiquetas que hemos cargado:
NER_TAGS.vocab.itos

['<pad>',
 'O',
 'B-ORG',
 'I-ORG',
 'B-LOC',
 'B-PER',
 'I-PER',
 'I-MISC',
 'B-MISC',
 'I-LOC']

Observen que ademas de los tags NER, tenemos \<pad\>, el cual es generado por el dataloader para cumplir con el padding de cada oración.

Veamos ahora los tokens mas frecuentes y especiales:

In [None]:
# Tokens mas frecuentes
TEXT.vocab.freqs.most_common(10)

[('de', 17657),
 (',', 14716),
 ('la', 9571),
 ('que', 7516),
 ('.', 7263),
 ('el', 6905),
 ('en', 6484),
 ('"', 5691),
 ('y', 5336),
 ('a', 4304)]

In [None]:
# Seteamos algunas variables que nos serán de utilidad mas adelante...
UNK_IDX = TEXT.vocab.stoi[TEXT.unk_token]
PAD_IDX = TEXT.vocab.stoi[TEXT.pad_token]

PAD_TAG_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
O_TAG_IDX = NER_TAGS.vocab.stoi['O']

#### Frecuencia de los Tags

Visualizemos rápidamente las cantidades y frecuencias de cada tag:

In [None]:
def tag_percentage(tag_counts):
    
    total_count = sum([count for tag, count in tag_counts])
    tag_counts_percentages = [(tag, count, count/total_count) for tag, count in tag_counts]
  
    return tag_counts_percentages

print("Tag Ocurrencia Porcentaje\n")

for tag, count, percent in tag_percentage(NER_TAGS.vocab.freqs.most_common()):
    print(f"{tag}\t{count}\t{percent*100:4.1f}%")

Tag Ocurrencia Porcentaje

O	231920	87.6%
B-ORG	7390	 2.8%
I-ORG	4992	 1.9%
B-LOC	4913	 1.9%
B-PER	4321	 1.6%
I-PER	3903	 1.5%
I-MISC	3212	 1.2%
B-MISC	2173	 0.8%
I-LOC	1891	 0.7%


#### Configuramos pytorch y dividimos los datos.

Importante: si tienes problemas con la ram de la gpu, disminuye el tamaño de los batches

In [None]:
BATCH_SIZE = 16  # disminuir si hay problemas de ram.

# Usar cuda si es que está disponible.
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print('Using', device)

# Dividir datos entre entrenamiento y test
train_iterator, valid_iterator, test_iterator = data.BucketIterator.splits(
    (train_data, valid_data, test_data),
    batch_size=BATCH_SIZE,
    device=device,
    sort=False,
)

Using cuda




#### Métricas de evaluación

Además, definiremos las métricas que serán usadas tanto para la competencia como para evaluar el modelo: `precision`, `recall` y `f1`.
**Importante**: Noten que la evaluación solo se hace para las Named Entities (sin contar 'O').

In [None]:
# Definimos las métricas

from sklearn.metrics import f1_score, precision_score, recall_score
import warnings
import sklearn.exceptions
warnings.filterwarnings("ignore",
                        category=sklearn.exceptions.UndefinedMetricWarning)


def calculate_metrics(preds, y_true, pad_idx=PAD_TAG_IDX, o_idx=O_TAG_IDX):
    """
    Calcula precision, recall y f1 de cada batch.
    """

    # Obtener el indice de la clase con probabilidad mayor. (clases)
    y_pred = preds.argmax(dim=1, keepdim=True)
    # Obtenemos los indices distintos de 0.

    # filtramos <pad> y O para calcular los scores.
    mask = [(y_true != o_idx) & (y_true != pad_idx)]
    y_pred = y_pred[mask]
    y_true = y_true[mask]

    # traemos a la cpu
    y_pred = y_pred.view(-1).to('cpu')
    y_true = y_true.to('cpu')
    
    # calcular scores
    f1 = f1_score(y_true, y_pred, average='macro')
    precision = precision_score(y_true, y_pred, average='macro')
    recall = recall_score(y_true, y_pred, average='macro')

    return precision, recall, f1

-------------------

### Modelo Baseline

Teniendo ya cargado los datos, toca definir nuestro modelo. Este baseline tendrá una capa de embedding, unas cuantas LSTM y una capa de salida y usará dropout en el entrenamiento.

Este constará de los siguientes pasos: 

1. Definir la clase que contendrá la red.
2. Definir los hiperparámetros e inicializar la red. 
3. Definir la época de entrenamiento
3. Definir la función de loss.



Recomendamos que para experimentar, encapsules los modelos en una sola variable y luego la fijes en model para entrenarla

In [None]:
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

# Definimos la Regresión Logistica https://towardsdatascience.com/logistic-regression-on-mnist-with-pytorch-b048327f8d19
class LogisticRegression(torch.nn.Module):
    def __init__(self, input_dim, embedding_dim, output_dim, pad_idx):
        super(LogisticRegression, self).__init__()
        
        self.embedding = nn.Embedding(input_dim,
                                          embedding_dim,
                                          padding_idx=pad_idx)
        
        self.linear = torch.nn.Linear(embedding_dim, output_dim)

    def forward(self, x):
        embedded = self.embedding(x)
        outputs = self.linear(embedded)
        return outputs

    
# Definir la red
class RNN_LSTM(nn.Module):
    def __init__(self,
                 input_dim, 
                 embedding_dim, 
                 hidden_dim, 
                 output_dim,
                 n_layers, 
                 bidirectional, 
                 dropout, 
                 pad_idx) :

        super().__init__()

        # Capa de embedding
        self.embedding = nn.Embedding(input_dim,
                                      embedding_dim,
                                      padding_idx=pad_idx)

        # Agregamos una capa con GRU a modo de comparación
        self.lstm = nn.LSTM(embedding_dim,
                           hidden_dim,
                           num_layers=n_layers,
                           bidirectional=bidirectional, 
                           dropout = dropout if n_layers > 1 else 0)

        # Capa de salida
        self.fc = nn.Linear(hidden_dim * 2 if bidirectional else hidden_dim,
                            output_dim)

        # Dropout
        self.dropout = nn.Dropout(dropout)

    def forward(self, text):

        #text = [sent len, batch size]

        # Convertir lo enviado a embedding
        embedded = self.dropout(self.embedding(text))

        outputs, (hidden, cell) = self.lstm(embedded)

        #embedded = [sent len, batch size, emb dim]

        # Pasar los embeddings por la rnn (LSTM)

        #output = [sent len, batch size, hid dim * n directions]
        #hidden/cell = [n layers * n directions, batch size, hid dim]

        # Predecir usando la capa de salida.
        predictions = self.fc(self.dropout(outputs))
        #predictions = [sent len, batch size, output dim]

        return predictions

class RNN_GRU(nn.Module):
    def __init__(self,
                 input_dim, 
                 embedding_dim, 
                 hidden_dim, 
                 output_dim,
                 n_layers, 
                 bidirectional, 
                 dropout, 
                 pad_idx) :

        super().__init__()

        # Capa de embedding
        self.embedding = nn.Embedding(input_dim,
                                      embedding_dim,
                                      padding_idx=pad_idx)

        # Agregamos una capa con GRU a modo de comparación
        self.gru = nn.GRU(embedding_dim,
                           hidden_dim,
                           num_layers=n_layers,
                           bidirectional=bidirectional, 
                           dropout = dropout if n_layers > 1 else 0)

        # Capa de salida
        self.fc = nn.Linear(hidden_dim * 2 if bidirectional else hidden_dim,
                            output_dim)

        # Dropout
        self.dropout = nn.Dropout(dropout)

    def forward(self, text):

        #text = [sent len, batch size]

        # Convertir lo enviado a embedding
        embedded = self.dropout(self.embedding(text))

        outputs, hidden = self.gru(embedded) 

        #embedded = [sent len, batch size, emb dim]

        # Pasar los embeddings por la rnn (LSTM)

        #output = [sent len, batch size, hid dim * n directions]
        #hidden/cell = [n layers * n directions, batch size, hid dim]

        # Predecir usando la capa de salida.
        predictions = self.fc(self.dropout(outputs))
        #predictions = [sent len, batch size, output dim]

        return predictions



#### Hiperparámetros de la red

Definimos los hiperparámetros. 

In [None]:
# tamaño del vocabulario. recuerden que la entrada son vectores bag of word(one-hot).
INPUT_DIM = len(TEXT.vocab)
EMBEDDING_DIM = 100 #200  # dimensión de los embeddings.
HIDDEN_DIM = 128 #120  # dimensión de la capas LSTM
OUTPUT_DIM = len(NER_TAGS.vocab)  # número de clases

N_LAYERS = 1  # número de capas.
DROPOUT = 0.25
BIDIRECTIONAL = False

# Creamos nuestro modelo.
baseline_model = RNN_LSTM(INPUT_DIM, 100, 128, OUTPUT_DIM,
                         1, False, 0.25, PAD_IDX) # Baseline con parametros de baseline.

baseline_model_name = 'baseline_LSTM'  # nombre que tendrá el modelo guardado...

In [None]:
baseline_n_epochs = 10

#### Definimos la función de loss

In [None]:
TAG_PAD_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]

# Loss: Cross Entropy

cross_entropy = nn.CrossEntropyLoss(ignore_index = TAG_PAD_IDX)
NegLogLikelihood = nn.NLLLoss(ignore_index = TAG_PAD_IDX)
L1_Loss = nn.L1Loss()
MSE_Loss = nn.MSELoss()
PoissonNNL = nn.PoissonNLLLoss()
MLSoftMarg = nn.MultiLabelSoftMarginLoss()

criterion = cross_entropy

--------------------
### Modelo 1

LSTM bidireccional, de una capa, con capa de embeddings, y dropout de 0.25.


In [None]:
model_1 = RNN_LSTM(INPUT_DIM, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         1, True, DROPOUT, PAD_IDX)
model_name_1 = 'biLSTM'
n_epochs_1 = 20
loss_1 = nn.CrossEntropyLoss(ignore_index = TAG_PAD_IDX)

---------------

### Modelo 2

Queremos ver si hay alguna diferencia entre LSTM y GRU y cómo afecta la ausencia del atributo 'cell' en GRU en la clasificación.

In [None]:
# Modelo 2 no funciona bien:

# ValueError: not enough values to unpack (expected 2, got 1)
# --> 110         outputs, (hidden, cell) = self.gru(embedded)

# Sorprendentemente funciona bien el 3.

model_2 = RNN_GRU(INPUT_DIM, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         1, False, DROPOUT, PAD_IDX)
model_name_2 = 'GRU'

---------------


### Modelo 3

Se replica el modelo 2 pero con GRU.

In [None]:
model_3 = RNN_GRU(INPUT_DIM, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         1, True, DROPOUT, PAD_IDX)
model_name_3 = 'biGRU'

---------------


### Modelo 4

Se usa un modelo que generalmente no es tan bueno en NER respecto a cualquier RNN a modo de comparación, la Regresión Lineal. 

In [None]:
model_4 = LogisticRegression(INPUT_DIM, EMBEDDING_DIM, OUTPUT_DIM, PAD_IDX)
model_name_4 = 'LogisticRegression'


---------------


### Modelo 5 y 6

Dado que hasta ahora la red que ha dado mejores resultados ha sido una biLSTM, probaremos haciendo una biLSTM profunda. Suponemos que usar muchas capas va a ser contraproducente, por lo que crearemos una con 2 y 3 capas respectivamente.

In [None]:
model_5 = RNN_LSTM(INPUT_DIM, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         2, True, DROPOUT, PAD_IDX)
model_name_5 = 'Deep_biLSTM(2)'

model_6 = RNN_LSTM(INPUT_DIM, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         3, True, DROPOUT, PAD_IDX)
model_name_6 = 'Deep_biLSTM(3)'

---------------


### Modelo 7 y 8

Veremos asimismo que ocurre cuando el dropout cambia en una biLSTM

In [None]:
model_7 = RNN_LSTM(INPUT_DIM, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         1, True, 0, PAD_IDX)

model_name_7 = 'Drop_biLSTM(0)'

model_8 = RNN_LSTM(INPUT_DIM, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         1, True, 0.5, PAD_IDX)

model_name_8 = 'Drop_biLSTM(0.5)'

---------------


### Modelo 9

Aunque hasta ahora todos los modelos han funcionado correctamente, se encuentra que es de importancia el hacer una mención a un modelo que no pudo ser completamente implementado, con resultados prometedores. Este modelo corresponde a BERT, en lo que se adjunta el código desarrollado.

In [None]:
#from torch.utils.data import Dataset
#import pandas as pd

#class SSTDataset(Dataset):
#    # Inicializacion de la clase
#    def __init__(self, filename, maxlen):
#        #Guardar los contenidos del dataframe
#        self.df = pd.read_csv(filename, delimiter = '\t', quoting=csv.QUOTE_NONE, encoding="iso-8859-1")
#        #Initialize the BERT tokenizer
#        self.tokenizer = BertTokenizer.from_pretrained('dccuchile/bert-base-spanish-wwm-uncased')
#        # Establecer el largo máximo
#        self.maxlen = maxlen
#
#    # Funcion auxiliar que retorna el largo del dataframe
#    def __len__(self):
#        return len(self.df)
#
#    def __getitem__(self, index):
#        sentence = self.df.loc[index, 'sentence']
#        label = self.df.loc[index, 'label']
#        tokens = self.tokenizer.tokenize(sentence)
#        tokens = ['[CLS]'] + tokens + ['[SEP]']
#        if len(tokens) < self.maxlen:
#            tokens = tokens + ['[PAD]' for _ in range(self.maxlen - len(tokens))]
#        else:
#            tokens = tokens[:self.maxlen-1] + ['[SEP]']
#        tokens_ids = self.tokenizer.convert_tokens_to_ids(tokens)
#        tokens_ids_tensor = torch.tensor(tokens_ids)
#        attn_mask = (tokens_ids_tensor != 0).long()
#        return tokens_ids_tensor, attn_mask, label
#
#from torch.utils.data import DataLoader
#
#train_set = SSTDataset(filename = 'train_NER_esp.txt', maxlen = 30)
#val_set = SSTDataset(filename = 'val_NER_esp.txt', maxlen = 30)
#
#train_loader = DataLoader(train_set, batch_size = 64, num_workers = 5)
#val_loader = DataLoader(val_set, batch_size = 64, num_workers = 5)
#
#from transformers import BertTokenizer, BertModel
#import torch
#
#tokenizer = BertTokenizer.from_pretrained('dccuchile/bert-base-spanish-wwm-uncased')
#model = BertModel.from_pretrained('dccuchile/bert-base-spanish-wwm-uncased')
#
#import torch.nn as nn
#class Classifier(nn.Module):
#    def __init__(self, freeze_bert = True):
#        super(Classifier, self).__init__()
#        self.bert_layer = BertModel.from_pretrained('dccuchile/bert-base-spanish-wwm-uncased').cuda()
#        if freeze_bert:
#            for p in self.bert_layer.parameters():
#                p.requires_grad = False
#        self.cls_layer = nn.Linear(768, 1).cuda()
#
#    def forward(self, seq, attn_masks):
#        cont_reps, _ = self.bert_layer(seq, attention_mask = attn_masks)
#        cls_rep = cont_reps[:, 0]
#        logits = self.cls_layer(cls_rep)
#        return logits

#def get_accuracy_from_logits(logits, labels):
#    probs = torch.sigmoid(logits.unsqueeze(-1))
#    soft_probs = (probs > 0.5).long()
#    acc = (soft_probs.squeeze() == labels).float().mean()
#    return acc
    
#def evaluate(net, criterion, dataloader):
#    net.eval()
#    mean_acc, mean_loss = 0, 0
#    count = 0
#    with torch.no_grad():
#        for seq, attn_masks, labels in dataloader:
#            seq, attn_masks, labels = seq.cuda(), attn_masks.cuda(), labels.cuda()
#            logits = net(seq, attn_masks)
#            mean_loss += criterion(logits.squeeze(-1), labels.float()).item()
#            mean_acc += get_accuracy_from_logits(logits, labels)
#            count += 1
#
#    return mean_acc / count, mean_loss / count
#
#def BertTrain(net, criterion, opti, train_loader, val_loader, epochs):
#    for ep in range(epochs):
#        for it, (seq, attn_masks, labels) in enumerate(train_loader):
#            opti.zero_grad()  
#            seq, attn_masks, labels = seq.cuda(), attn_masks.cuda(), labels.cuda()
#            logits = net(seq, attn_masks)
#            loss = criterion(logits.squeeze(-1), labels.float())
#            loss.backward()
#            opti.step()
#            if (it + 1) % 100 == 0:
#                acc = get_accuracy_from_logits(logits, labels)
#                print("Iteration {} of epoch {} complete. Loss : {} Train Accuracy : {}".format(it+1, ep+1, loss.item(), acc))
#        val_acc, val_loss = evaluate(net, criterion, val_loader)
#        print("Epoch {} complete! Validation Accuracy : {}, Validation Loss : {}".format(ep+1, val_acc, val_loss))

#import torch.optim as optim
#net_freezed = SentimentClassifier(freeze_bert = True)
#net_not_freezed = SentimentClassifier(freeze_bert = False)
#criterion = nn.BCEWithLogitsLoss()
#opti_freezed = optim.Adam(net_freezed.parameters(), lr = 2e-5)
#opti_not_freezed = optim.Adam(net_not_freezed.parameters(), lr = 2e-5)

#epochs = 5

#try:
#  BertTrain(net_freezed, criterion, opti_freezed, train_loader, val_loader, epochs)
#except:
#  pass

---------------


### Conjunto de modelos

------
### Entrenamos y evaluamos


**Importante** : Fijen el modelo, el número de épocas de entrenamiento, la loss y el optimizador que usarán para entrenar y evaluar en las siguientes variables!!!

In [None]:

criterion = loss_1
n_epochs = n_epochs_1



#### Inicializamos la red

iniciamos los pesos de la red de forma aleatoria (Usando una distribución normal).


In [None]:
def init_weights(m):
    # Inicializamos los pesos como aleatorios
    for name, param in m.named_parameters():
        nn.init.normal_(param.data, mean=0, std=0.1) 
        
    # Seteamos como 0 los embeddings de UNK y PAD.
    model.embedding.weight.data[UNK_IDX] = torch.zeros(EMBEDDING_DIM)
    model.embedding.weight.data[PAD_IDX] = torch.zeros(EMBEDDING_DIM)

Por último, definimos los embeddings que representan a \<unk\> y \<pad\>  como [0, 0, ..., 0]

#### Definimos el optimizador

In [None]:
# Lista de optimizadores de pytorch. 
#optimizerList = [optim.Adam(model.parameters()), optim.SGD(model.parameters()), 
#                 optim.Adadelta(model.parameters()), optim.Adagrad(model.parameters()), 
#                 optim.AdamW(model.parameters()), optim.Adamax(model.parameters()), 
#                 optim.ASDG(model.parameters()), optim.LBFGS(model.parameters()),
#                 optim.RMSprop(model.parameters()), optim.Rprop(model.parameters())]

#### Definimos el entrenamiento de la red

Algunos conceptos previos: 

- `epoch` : una pasada de entrenamiento completa de una dataset.
- `batch`: una fracción de la época. Se utilizan para entrenar mas rápidamente la red. (mas eficiente pasar n datos que uno en cada ejecución del backpropagation)

Esta función está encargada de entrenar la red en una época. Para esto, por cada batch de la época actual, predice los tags del texto, calcula su loss y luego hace backpropagation para actualizar los pesos de la red."

Observación: En algunos comentarios aparecerá el tamaño de los tensores entre corchetes

In [None]:
def train(model, iterator, optimizer, criterion):

    epoch_loss = 0
    epoch_precision = 0
    epoch_recall = 0
    epoch_f1 = 0

    model.train()

    # Por cada batch del iterador de la época:
    for batch in iterator:

        # Extraemos el texto y los tags del batch que estamos procesado
        text = batch.text
        tags = batch.nertags

        # Reiniciamos los gradientes calculados en la iteración anterior
        optimizer.zero_grad()

        #text = [sent len, batch size]

        # Predecimos los tags del texto del batch.
        predictions = model(text)

        #predictions = [sent len, batch size, output dim]
        #tags = [sent len, batch size]

        # Reordenamos los datos para calcular la loss
        predictions = predictions.view(-1, predictions.shape[-1])
        tags = tags.view(-1)

        #predictions = [sent len * batch size, output dim]
        #tags = [sent len * batch size]

        # Calculamos el Cross Entropy de las predicciones con respecto a las etiquetas reales
        loss = criterion(predictions, tags)
        
        # Calculamos el accuracy
        precision, recall, f1 = calculate_metrics(predictions, tags)

        # Calculamos los gradientes
        loss.backward()

        # Actualizamos los parámetros de la red
        optimizer.step()

        # Actualizamos el loss y las métricas
        epoch_loss += loss.item()
        epoch_precision += precision
        epoch_recall += recall
        epoch_f1 += f1

    return epoch_loss / len(iterator), epoch_precision / len(
        iterator), epoch_recall / len(iterator), epoch_f1 / len(iterator)

#### `Definimos la función de evaluación`

Evalua el rendimiento actual de la red usando los datos de validación. 

Por cada batch de estos datos, calcula y reporta el loss y las métricas asociadas al conjunto de validación. 
Ya que las métricas son calculadas por cada batch, estas son retornadas promediadas por el número de batches entregados. (ver linea del return)

In [None]:
def evaluate(model, iterator, criterion):

    epoch_loss = 0
    epoch_precision = 0
    epoch_recall = 0
    epoch_f1 = 0

    model.eval()

    # Indicamos que ahora no guardaremos los gradientes
    with torch.no_grad():
        # Por cada batch
        for batch in iterator:

            text = batch.text
            tags = batch.nertags

            # Predecimos
            predictions = model(text)

            predictions = predictions.view(-1, predictions.shape[-1])
            tags = tags.view(-1)

            # Calculamos el Cross Entropy de las predicciones con respecto a las etiquetas reales
            loss = criterion(predictions, tags)

            # Calculamos las métricas
            precision, recall, f1 = calculate_metrics(predictions, tags)

            # Actualizamos el loss y las métricas
            epoch_loss += loss.item()
            epoch_precision += precision
            epoch_recall += recall
            epoch_f1 += f1

    return epoch_loss / len(iterator), epoch_precision / len(
        iterator), epoch_recall / len(iterator), epoch_f1 / len(iterator)

In [None]:
import time

def epoch_time(start_time, end_time):
    elapsed_time = end_time - start_time
    elapsed_mins = int(elapsed_time / 60)
    elapsed_secs = int(elapsed_time - (elapsed_mins * 60))
    return elapsed_mins, elapsed_secs


#### Entrenamiento de la red

En este cuadro de código ejecutaremos el entrenamiento de la red.
Para esto, primero definiremos el número de épocas y luego por cada época, ejecutaremos `train` y `evaluate`.

**Importante: Reiniciar los pesos del modelo**

Si ejecutas nuevamente esta celda, se seguira entrenando el mismo modelo una y otra vez. 
Para reiniciar el modelo se debe ejecutar nuevamente la celda que contiene la función `init_weights`



In [None]:
def run(model, model_n, optimizer, t_iterator, v_iterator, criterion, n_epoch, early_stopping):
  model = model.to(device)
  criterion = criterion.to(device)
  best_valid_loss = float('inf')
  model.apply(init_weights)
  print(model_n)
  print('*******************************************')
  num = 0
  for epoch in range(n_epoch):

    start_time = time.time()

    # Recuerdo: train_iterator y valid_iterator contienen el dataset dividido en batches.

    # Entrenar
    train_loss, train_precision, train_recall, train_f1 = train(
        model, t_iterator, optimizer, criterion)

    # Evaluar (valid = validación)
    valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
        model, v_iterator, criterion)

    end_time = time.time()

    epoch_mins, epoch_secs = epoch_time(start_time, end_time)

    # Si obtuvimos mejores resultados, guardamos este modelo en el almacenamiento (para poder cargarlo luego)
    # Si detienen el entrenamiento prematuramente, pueden cargar el modelo en el siguiente recuadro de código.
    if valid_loss < best_valid_loss:
        best_valid_loss = valid_loss
        num = 0 
        torch.save(model.state_dict(), '{}.pt'.format(model_name))
    # Si ya no seguimos disminuyendo el loss de validación, terminamos de entrenar.
    if best_valid_loss < valid_loss and early_stopping:
      num += 1
      if num == 3:
        print('Early Stopped')
        break
      if num == 2: 
        print('Running one more iteration:')
      else:
        print('Running two more iterations:') 

    print(f'Epoch: {epoch+1:02} | Epoch Time: {epoch_mins}m {epoch_secs}s')
    print(
        f'\tTrain Loss: {train_loss:.3f} | Train f1: {train_f1:.2f} | Train precision: {train_precision:.2f} | Train recall: {train_recall:.2f}'
    )
    print(
        f'\t Val. Loss: {valid_loss:.3f} |  Val. f1: {valid_f1:.2f} |  Val. precision: {valid_precision:.2f} | Val. recall: {valid_recall:.2f}'
    )

In [None]:
Early_Stopping = True

models = [baseline_model, 
          model_1, 
          model_2, 
          model_3, 
          model_4, # Descartado por bajo rendimiento Min F1.
          model_5,
          model_6,
          model_7,
          model_8
          ]
model_name = [baseline_model_name, 
              model_name_1, 
              model_name_2, 
              model_name_3, 
              model_name_4, # Descartado por bajo rendimiento Min F1.
              model_name_5, 
              model_name_6, 
              model_name_7, 
              model_name_8
              ]

LossList = [cross_entropy, 
            #NegLogLikelihood ## Loss negativos.
            #L1_Loss, # Error: Dimensionalidad
            #MSE_Loss, # The size of tensor a (560) must match 
            #PoissonNNL, # the size of tensor b (10) at 
            #MLSoftMarg # non-singleton dimension 1.
            ] 

for i in range(len(models)):
  model = models[i]   
                                                      # LSTM BLSTM BGRU LR : Puntajes F1
  optimizerList = [optim.Adam(model.parameters()),     # 0.55 0.62 0.58 0.39  Best F1 = 0.62  Mejor hasta ahora con biLSTM
                  #optim.SGD(model.parameters()),      # Falla
                  #optim.Adadelta(model.parameters()), # 0.54 0.53 0.54 0.34  Best F1 = 0.54  Descartado
                  #optim.Adagrad(model.parameters()),  # Falla
                  #optim.AdamW(model.parameters()),     # 0.57 0.58 0.57 0.39  Best F1 = 0.58
                  #optim.Adamax(model.parameters()),   # 0.52 0.57 0.56 0.38  Best F1 = 0.57  Descartado
                  #optim.ASGD(model.parameters()),     # Falla
                  #optim.LBFGS(model.parameters()),    # Falla
                  optim.RMSprop(model.parameters())   # 0.56 0.60 0.55 0.37  Best F1 = 0.60
                  #optim.Rprop(model.parameters())     # 0.50 0.54 0.53 0.28  Best F1 = 0.54  Descartado
  ]
   # Elegimos los mejores optimizadores para ahorrar tiempo de computo y poder iterar en otras categorías.
   # Asimismo tambien damos de baja a la regresión lineal como modelo.
                                    
  for optimizer in optimizerList:
    print(optimizer)
    
    for loss in LossList:
      #print('*******************************************')
      #print(loss)
      run(model, model_name[i], optimizer, train_iterator, valid_iterator, loss, n_epochs, Early_Stopping)

Adam (
Parameter Group 0
    amsgrad: False
    betas: (0.9, 0.999)
    eps: 1e-08
    lr: 0.001
    weight_decay: 0
)
baseline_LSTM
*******************************************




Epoch: 01 | Epoch Time: 0m 11s
	Train Loss: 0.434 | Train f1: 0.17 | Train precision: 0.22 | Train recall: 0.16
	 Val. Loss: 0.307 |  Val. f1: 0.33 |  Val. precision: 0.41 | Val. recall: 0.32
Epoch: 02 | Epoch Time: 0m 10s
	Train Loss: 0.170 | Train f1: 0.50 | Train precision: 0.56 | Train recall: 0.50
	 Val. Loss: 0.246 |  Val. f1: 0.50 |  Val. precision: 0.60 | Val. recall: 0.49
Epoch: 03 | Epoch Time: 0m 10s
	Train Loss: 0.101 | Train f1: 0.67 | Train precision: 0.71 | Train recall: 0.67
	 Val. Loss: 0.208 |  Val. f1: 0.56 |  Val. precision: 0.64 | Val. recall: 0.55
Running two more iterations:
Epoch: 04 | Epoch Time: 0m 9s
	Train Loss: 0.069 | Train f1: 0.76 | Train precision: 0.79 | Train recall: 0.76
	 Val. Loss: 0.218 |  Val. f1: 0.57 |  Val. precision: 0.64 | Val. recall: 0.57
Epoch: 05 | Epoch Time: 0m 9s
	Train Loss: 0.051 | Train f1: 0.80 | Train precision: 0.83 | Train recall: 0.80
	 Val. Loss: 0.206 |  Val. f1: 0.60 |  Val. precision: 0.66 | Val. recall: 0.59
Running two m

  avg = a.mean(axis)
  ret = ret.dtype.type(ret / rcount)


Epoch: 02 | Epoch Time: 0m 10s
	Train Loss: 0.179 | Train f1: nan | Train precision: nan | Train recall: nan
	 Val. Loss: 0.209 |  Val. f1: 0.51 |  Val. precision: 0.59 | Val. recall: 0.51
Epoch: 03 | Epoch Time: 0m 10s
	Train Loss: 0.114 | Train f1: 0.63 | Train precision: 0.68 | Train recall: 0.63
	 Val. Loss: 0.201 |  Val. f1: 0.55 |  Val. precision: 0.63 | Val. recall: 0.54
Epoch: 04 | Epoch Time: 0m 10s
	Train Loss: 0.081 | Train f1: 0.72 | Train precision: 0.76 | Train recall: 0.72
	 Val. Loss: 0.183 |  Val. f1: 0.59 |  Val. precision: 0.66 | Val. recall: 0.58
Running two more iterations:
Epoch: 05 | Epoch Time: 0m 10s
	Train Loss: 0.061 | Train f1: 0.77 | Train precision: 0.80 | Train recall: 0.77
	 Val. Loss: 0.191 |  Val. f1: 0.60 |  Val. precision: 0.67 | Val. recall: 0.59
Running one more iteration:
Epoch: 06 | Epoch Time: 0m 10s
	Train Loss: 0.048 | Train f1: 0.81 | Train precision: 0.84 | Train recall: 0.81
	 Val. Loss: 0.191 |  Val. f1: 0.61 |  Val. precision: 0.67 | Val.

**Importante**: Recuerden que el último modelo entrenado no es el mejor (probablemente esté *overfitteado*), si no el que guardamos con la menor loss del conjunto de validación.
Para cargar el mejor modelo entrenado, ejecuten la siguiente celda.

Este problema lo pueden solucionar con *early stopping*.

In [None]:
# Modelo seleccionado para la competencia:

model_comp = RNN_LSTM(INPUT_DIM, 200, 200, OUTPUT_DIM,
                         1, True, 0.25, PAD_IDX)
model_comp_name = 'model_Comp'

optim_comp = optim.Adam(model_comp.parameters())

run(model_comp, model_comp_name, optim_comp, train_iterator, valid_iterator, cross_entropy, 5, False)

# cargar el mejor modelo entrenado.
#model.load_state_dict(torch.load('{}.pt'.format(model_comp_name)))
# Lo vamos a ejecutar diretamente en usando el modelo entrenado en el epoch 5.

model_Comp
*******************************************




Epoch: 01 | Epoch Time: 0m 14s
	Train Loss: 0.306 | Train f1: 0.34 | Train precision: 0.42 | Train recall: 0.32
	 Val. Loss: 0.232 |  Val. f1: 0.50 |  Val. precision: 0.59 | Val. recall: 0.49
Epoch: 02 | Epoch Time: 0m 14s
	Train Loss: 0.099 | Train f1: 0.67 | Train precision: 0.72 | Train recall: 0.67
	 Val. Loss: 0.231 |  Val. f1: 0.55 |  Val. precision: 0.63 | Val. recall: 0.55
Epoch: 03 | Epoch Time: 0m 14s
	Train Loss: 0.051 | Train f1: 0.80 | Train precision: 0.82 | Train recall: 0.80
	 Val. Loss: 0.245 |  Val. f1: 0.60 |  Val. precision: 0.66 | Val. recall: 0.61
Epoch: 04 | Epoch Time: 0m 14s
	Train Loss: 0.030 | Train f1: 0.87 | Train precision: 0.88 | Train recall: 0.87
	 Val. Loss: 0.235 |  Val. f1: 0.59 |  Val. precision: 0.65 | Val. recall: 0.60
Epoch: 05 | Epoch Time: 0m 14s
	Train Loss: 0.020 | Train f1: 0.91 | Train precision: 0.92 | Train recall: 0.91
	 Val. Loss: 0.249 |  Val. f1: 0.61 |  Val. precision: 0.66 | Val. recall: 0.63


In [None]:
# Limpiar ram de cuda
torch.cuda.empty_cache()

#### Evaluamos el set de validación con el modelo final

Estos son los resultados de predecir el dataset de evaluación con el *mejor* modelo entrenado.

In [None]:
valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
    model_comp, valid_iterator, criterion) # Se evalua el modelo de competencia 
                                           # especificamente, cargando la ultima 
                                           # epoch a propósito.

print(
    f'Val. Loss: {valid_loss:.3f} |  Val. f1: {valid_f1:.2f} | Val. precision: {valid_precision:.2f} | Val. recall: {valid_recall:.2f}'
)



Val. Loss: 0.249 |  Val. f1: 0.61 | Val. precision: 0.66 | Val. recall: 0.63



### Predecir datos para la competencia

Ahora, a partir de los datos de **test** y nuestro modelo entrenado, predeciremos las etiquetas que serán evaluadas en la competencia.

In [None]:
def predict_labels(model, iterator, criterion, fields=fields):

    # Extraemos los vocabularios.
    text_field = fields[0][1]
    nertags_field = fields[1][1]
    tags_vocab = nertags_field.vocab.itos
    words_vocab = text_field.vocab.itos

    model.eval()

    predictions = []

    with torch.no_grad():

        for batch in iterator:

            text_batch = batch.text
            text_batch = torch.transpose(text_batch, 0, 1).tolist()

            # Predecir los tags de las sentences del batch
            predictions_batch = model(batch.text)
            predictions_batch = torch.transpose(predictions_batch, 0, 1)

            # por cada oración predicha:
            for sentence, sentence_prediction in zip(text_batch,
                                                     predictions_batch):
                for word_idx, word_predictions in zip(sentence,
                                                      sentence_prediction):
                    # Obtener el indice del tag con la probabilidad mas alta.
                    argmax_index = word_predictions.topk(1)[1]

                    current_tag = tags_vocab[argmax_index]
                    # Obtenemos la palabra
                    current_word = words_vocab[word_idx]

                    if current_word != '<pad>':
                        predictions.append([current_word, current_tag])


    return predictions


predictions = predict_labels(model_comp, test_iterator, criterion)



### Generar el archivo para la submission

No hay problema si aparecen unk en la salida. Estos no son relevantes para evaluarlos, usamos solo los tags.

In [None]:
import os, shutil

if (os.path.isfile('./predictions.zip')):
    os.remove('./predictions.zip')

if (not os.path.isdir('./predictions')):
    os.mkdir('./predictions')

else:
    # Eliminar predicciones anteriores:
    shutil.rmtree('./predictions')
    os.mkdir('./predictions')

f = open('predictions/predictions.txt', 'w')
for word, tag in predictions:
    f.write(word + ' ' + tag + '\n')
f.write('\n')
f.close()

a = shutil.make_archive('predictions', 'zip', './predictions')

In [None]:
# A veces no funciona a la primera. Ejecutar mas de una vez para obtener el archivo...
#from google.colab import files
#files.download('predictions.zip')  

## Conclusiones

Como se puede observar en los resultados obtenidos, se concluye que, con los parámetros utilizados y el dataset predefinido, destacan los modelos basados en RNN, en específico los LSTM bidireccionales.
Siguiendo la línea de los procedimientos, lamentablemente las regresiones logísticas no tuvieron lugar. Los resultados obtenidos en F1 con estas corresponden a valores por bajo del 60% de los valores logrados con cualquier RNN. 

Dentro de lo obtenido con RNN se observan mejores resultados con el modelo LSTM por sobre GRU, en conjunto con estructuras Bidireccionales sobre Unidireccionales. Con respecto a la profundidad de las RNN, se obtienen resultados inconsistentes, variando mucho entre entrenamiento y entrenamiento, por lo cual no es confiable dentro de lo esperado.

Con respecto a los optimizadores utilizados para las RNN, todos se comportan similarmente, sin embargo, destacan en rendimiento los optimizadores Adam y RMSprop.

Finalmente, es de importancia mencionar que los mejores resultados se obtuvieron con una mayor cantidad neuronas respecto al baseline, siendo el mejor de los casos probados en orden de las 200 en ambas capas (hidden y embeddings), sin embargo, estos valores altos de neuronas requieren un mayor dropout para evitar overfitting.

Con esto se evalua el uso del dropout variándolo entre 0 y 0.5, mostrando que usando 0.5 recien se observa overfitting en epochs muy altas, como 20-30, pero tampoco convergencia, mientras que en 0 se observa gran tendencia a overfitting en las primeras 5 epochs. 

Cuando se evalúa el uso del Early stopping se puede observar que no necesariamente muestra mejores resultados en términos de F1, sino que arroja el epoch con mínimo loss de validación, por lo que se implementó un early stopping retardado, en donde se corren dos iteraciones adicionales para ver cómo evoluciona el loss y F1 de validación. 

A trabajos futuros, nos gustaría poder implementar flair para poder compararlo con los valores obtenidos, al igual que terminar la implementacióón de BERT. Aprendimos mucho de RNN y de diversos optimizadores que son utilizables en general.