# **Competencia 2 - CC6205 Natural Language Processing 📚**

Integrantes: Matías Seda

Usuario del equipo en CodaLab (Obligatorio): x_y_z

Fecha límite de entrega 📆: 24 de Junio.

Tiempo estimado de dedicación: 12 horas

Link competencia: Poner el link [aquí](https://codalab.lisn.upsaclay.fr/competitions/5098?secret_key=09955d45-6210-4a35-a171-8050aa050855#learn_the_details)

### **Objetivo**

El objetivo de esta competencia es resolver una de las tareas más importantes en el área del procesamiento de lenguage natural, relacionada con la extracción de información: [Named Entity Recognition (NER)](http://www.cs.columbia.edu/~mcollins/cs4705-spring2019/slides/tagging.pdf). 

En particular, y al igual que en la competencia anterior, deberán crear distintos modelos que apunten a resolver la tarea de NER en Español. Para esto, les entregaremos un dataset real perteneciente a la lista de espera NO GES en Chile. Es importante destacar que existe una falta de trabajos realizados en el área de NER en Español y aún más en el contexto clínico, por ende puede ser considerado como una tarea bien desafiante y quizás les interesa trabajar en el área más adelante en sus carreras.

En este notebook les entregaremos un baseline como referencia de los resultados que esperamos puedan obtener. Recuerden que el no superar a los baselines en alguna de las tres métricas conlleva un descuento de 0.5 puntos hasta 1.5 puntos.

Como hemos estado viendo redes neuronales tanto en catedras, tareas y auxiliares (o próximamente lo harán), esperamos que (por lo menos) utilicen Redes Neuronales Recurrentes (RNN) para resolverla. 

Nuevamente, hay total libertad para utilizar el software y los modelos que deseen, siempre y cuando estos no traigan los modelos ya implementados. (De todas maneras como es un corpus nuevo, es difícil que haya algún modelo ya implementado con estas entidades)

### **Explicación de la competencia**

La tarea **NER** que van a resolver en esta competencia es comúnmente abordada como un problema de Sequence Labeling.

**¿Qué es Sequence Labeling?** 

En breves palabras, dada una secuencia de tokens (oración) sequence labeling tiene por objetivo asignar una etiqueta a cada token de dicha secuencia. En pocas palabras, dada una lista de tokens esperamos encontrar la mejor secuencia de etiquetas asociadas a esa lista. Ahora veamos de qué se trata este problema.

**Named Entity Recognition (NER)**

NER es un ejemplo de un problema de Sequence Labeling. Pero antes de definir formalmente esta tarea, es necesario definir algunos conceptos claves para poder entenderla de la mejor manera:

- *Token*: Un token es una secuencia de caracteres, puede ser una palabra, un número o un símbolo.

- *Entidad*: No es más que un trozo de texto (uno o más tokens) asociado a una categoría predefinida. Originalmente se solían utilizar categorías como nombres de personas, organizaciones, ubicaciones, pero actualmente se ha extendido a diferentes dominios.

- *Límites de una entidad*: Son los índices de los tokens de inicio y fín dentro de una entidad.

- *Tipo de entidad*: Es la categoría predefinida asociada a la entidad.

Dicho esto, definimos formalmente una entidad como una tupla: $(s, e, t)$, donde $s, t$ son los límites de la entidad (índices de los tokens de inicio y fin, respectivamente) y t corresponde al tipo de entidad o categoría. Ya veremos más ejemplos luego de describir el Dataset.

**Corpus de la Lista de espera**

Trabajaran con un conjunto de datos reales correspondiente a interconsultas de la lista de espera NO GES en Chile. Si quieren saber más sobre cómo fueron generados los datos pueden revisar el paper publicado hace unos meses atrás en el workshop de EMNLP, una de las conferencias más importantes de NLP: [https://www.aclweb.org/anthology/2020.clinicalnlp-1.32/](https://www.aclweb.org/anthology/2020.clinicalnlp-1.32/).

Este corpus Chileno está constituido originalmente por 7 tipos de entidades pero por simplicidad en esta competencia trabajarán con las siguientes:

- **Disease**
- **Body_Part**
- **Medication** 
- **Procedures** 
- **Family_Member**

Si quieren obtener más información sobre estas entidades pueden consultar la [guía de anotación](https://plncmm.github.io/annodoc/). Además, mencionar que este corpus está restringido bajo una licencia que permite solamente su uso académico, así que no puede ser compartido más allá de este curso o sin permisos por parte de los autores en caso que quieran utilizarlo fuera. Si este último es el caso entonces pueden escribir directamente al correo: pln@cmm.uchile.cl. Al aceptar los términos y condiciones de la competencia están de acuerdo con los puntos descritos anteriormente.


**Formato ConLL**

Los archivos que serán entregados a ustedes vienen en un formato estándar utilizado en NER, llamado ConLL. No es más que un archivo de texto, que cumple las siguientes propiedades.

- Un salto de linea corresponde a la separación entre oraciones. Esto es importante ya que al entrenar una red neuronal ustedes pasaran una lista de oraciones como input, más conocidos como batches.

- La primera columna del archivo contiene todos los tokens de la partición.

- La segunda columna del archivo contiene el tipo de entidad asociado al token de la primera columna.

- Los tipos de entidades siguen un formato clásico en NER denominado *IOB2*. Si un tipo de entidad comienza con el prefijo "B-" (Beginning) significa que es el token de inicio de una entidad, si comienza con "I-" (Inside) es un token distinto al de inicio y si un token está asociado a la categoría O (Outside) significa que no pertenece a ninguna entidad.

Aquí va un ejemplo:

```
PACIENTE O
PRESENTA O
FRACTURA B-Disease
CORONARIA I-Disease
COMPLICADA I-Disease
EN O
PIE B-Body_Part
IZQUIERDO I-Body_Part
. O
SE O
REALIZA O
INSTRUMENTACION B-Procedure
INTRACONDUCTO I-Procedure
. O
```

Según nuestra definición tenemos las siguientes tres entidades (enumerando desde 0): 

- $(2, 4, Disease)$
- $(6, 7, Body Part)$
- $(11, 12, Procedure)$

Repasen un par de veces todos estos conceptos antes de pasar a la siguiente sección del notebook.
Es importante entender bien este formato ya que al medir el rendimiento de sus modelos, consideraremos una **métrica estricta**. Esta métrica se llama así ya que considera correcta una predicción de su modelo, sólo si al compararlo con las entidades reales **coinciden tanto los límites de la entidad como el tipo.** 

Para ejemplificar, tomando el caso anterior, si el modelo es capaz de encontrar la siguiente entidad: $(2, 3, Disease)$, entonces se considera incorrecto ya que pudo predecir dos de los tres tokens de dicha enfermedad. Es decir, buscamos una métrica que sea alta a nivel de entidad y no a nivel de token.

Antes de pasar a explicar las reglas, se recomienda visitar los siguientes links para entender bien el baseline de la competencia:

-  [Tagging, and Hidden Markov Models ](http://www.cs.columbia.edu/~mcollins/cs4705-spring2019/slides/tagging.pdf) (slides by Michael Collins), [notes](http://www.cs.columbia.edu/~mcollins/hmms-spring2013.pdf), [video 1](https://youtu.be/-ngfOZz8yK0), [video 2](https://youtu.be/PLoLKQwkONw), [video 3](https://youtu.be/aaa5Qoi8Vco), [video 4](https://youtu.be/4pKWIDkF_6Y)       
-  [Recurrent Neural Networks](slides/NLP-RNN.pdf) | [video 1](https://youtu.be/BmhjUkzz3nk), [video 2](https://youtu.be/z43YFR1iIvk), [video 3](https://youtu.be/7L5JxQdwNJk)


Recuerden que todo el material se encuentra disponible en el [github del curso](https://github.com/dccuchile/CC6205).

### **Reglas de la competencia**

**texto en negrita**- Para que su competencia sea evaluada, deben participar en la competencia y enviar este notebook con su informe.
- Para participar, deben registrarse en la competencia en Codalab en grupos de máximo 4 alumnos. Cada grupo debe tener un nombre de equipo. (¡Y deben reportarlo en su informe, por favor!)
- Las métricas usadas serán métricas estrictas (ya explicado anteriormente) utilizando métricas clásicas como lo son precisión, recall y micro f1-score.
- En esta tarea se recomienda usar GPU. Pueden ejecutar su tarea en colab (lo cual trae todo instalado) o pueden intentar ejecutándolo en su computador. En este caso, deberá ser compatible con cuda y deberán instalar todo por su cuenta.
- En total pueden hacer un **máximo de 5 envíos**.
- Por favor, todas sus dudas haganlas por el canal de Discord. Los emails que lleguen al equipo docente serán remitidos a ese medio. Recuerden el ánimo colaborativo del curso.
- Estar top 5 en alguna de las tres métricas equivale a una bonificación en su nota final.

Éxito!


### **Baseline**

En este punto esperamos que tengan conocimiento sobre redes neuronales y en particular redes neuronales recurrentes (RNN), si no siempre pueden escribirnos por el canal de Discord para aclarar dudas. La RNN del baseline adjunto a este notebook está programado en la librería [`pytorch`](https://pytorch.org/) pero ustedes pueden utilizar keras, tensorflow si así lo desean. El código contiene lo siguiente:

- La carga de los datasets, creación de batches de texto y padding (esto es importante ya que si utilizan redes neuronales tienen que tener el mismo largo los inputs). 

- La implementación básica de una red `LSTM` simple de solo un nivel y sin bi-direccionalidad. 

- La construcción del formato del output requerido para que lo puedan probar en la tarea en codalab.

Se espera que como mínimo ustedes puedan experimentar con el baseline utilizando (pero no limitándose) estas sugerencias:

*   Probar la técnica de early stopping.
*   Variar la cantidad de parámetros de la capa de embeddings.
*   Variar la cantidad de capas RNN.
*   Variar la cantidad de parámetros de las capas de RNN.
*   Inicializar la capa de embeddings con modelos pre-entrenados. (word2vec, glove, conceptnet, etc...). [Embeddings en español aquí](https://github.com/dccuchile/spanish-word-embeddings). También aquí pueden encontrar unos embeddings clínicos en Español: [https://zenodo.org/record/3924799](https://zenodo.org/record/3924799)
*   Variar la cantidad de épocas de entrenamiento.
*   Variar el optimizador, learning rate, batch size, usar CRF loss, etc.
*   Probar una capa de CRF para garantizar el     formato IOB2.
*   Probar bi-direccionalidad.
*   Incluir dropout.
*   Probar modelos de tipo GRU.
*   Probar usando capas de atención.
*   Probar Embedding Contextuales (les puede ser de utilidad [flair](https://github.com/flairNLP/flair))
*   Probar modelos de transformers en español usando [Huggingface](https://github.com/huggingface/transformers) o el framework Flair.

### **Reporte**

Este debe cumplir la siguiente estructura:

1.	**Introducción**: Presentar brevemente el contexto, problema a resolver, incluyendo la formalización de la task (cómo son los inputs y outputs del problema) y los desafíos que ven al analizar el corpus entregado. (**0.5 puntos**)

2.	**Modelos**: Describir brevemente los modelos, métodos e hiperparámetros utilizados. (**1.0 puntos**)

4.	**Métricas de evaluación**: Describir las métricas utilizadas en la evaluación indicando qué miden y cuál es su interpretación en este problema en particular. (**0.5 puntos**)

5.  **Diseño experimental**: Esta es una de las secciones más importantes del reporte. Deben describir minuciosamente los experimentos que realizarán en la siguiente sección. Describir las variables de control que manejarán, algunos ejemplos pueden ser: Los hiperparámetros de los modelos, tipo de embeddings utilizados, tipos de arquitecturas. Ser claros con el conjunto de hiperparámetros que probarán, la decisión en las funciones de optimización, función de pérdida,  regulación, etc. Básicamente explicar qué es lo que veremos en la siguiente sección.
(**1 punto**)

6.	**Experimentos**: Reportar todos sus experimentos y código en esta sección. Comparar los resultados obtenidos utilizando diferentes modelos. ¡Es vital haber realizado varios experimentos para sacar una buena nota! (**2.0 puntos**)

7.	**Conclusiones**: Discutir resultados, proponer trabajo futuro. (**1 punto**)

# **Entregable.**

## **Introducción**


En el siguiente trabajo se busca resolver un problema de *etiquetados* de secuencias. Más es particular, se busca resolver una tarea de reconocimiento de entidades en un contexto clínico. Se utilizará el Corpus de lista de espera propuesto en el enunciado. El corpus mencionado está compuesto por derivaciones de consultas de la lista de espera NO GES de los hospitales públicos chilenos. Este corpus está constituido, originalmente, por 7 tipos de entidades, pero por simplicidad en esta competencia trabajarán con las siguientes:
- Disease
- Body_Part
- Medication
- Procedures
- Family_Member

El dataset entregado para la competencia viene en un formato denominado ConLL. Los archivos asociados a este formato consisten en archivo de texto con dos columnas y saltos de línea que separan cada oración. La primera columna contiene los tokens de la secuencia. Por el otro lado, la segunda columna, contiene las etiquetas para cada token de la oración. Las etiquetas para cada token siguen formato IOB2 (convención explicada en el enunciado de la competencia).

Así, el trabajo busca, dado los dataset de entrenamiento, validación y testing, entrenar un modelo *RNN* para predecir las etiquetas de una secuencias siguiendo los formatos y estándares mencionados anteriormente. Así, el modelo a entrenar entregará una secuencia de etiquetas para una oración, es decir, para una oración con una cantidad específica de tokens, el modelo *predice* la etiqueta para cada token.

## **Modelos**

**Modelo baseline**: Es una *RNN* entregada en el enunciado. Posee las siguientes características:
- Dimensión de capa embedding: *200*
- Tipo de capas intermedias: *LSTM*
- Número de capas LSTM: *3*
- Dimensión de capas LSTM: *128*
- Dimensión output: *12*
- Tamaño de los batches: *22*
- Función de pérdida: *Cross entropy loss*
- Algormito pptimizador: *Adam*
- Learning rate: 0.001
- Bireccionalidad: *No posee*
- Valor dropout: *0.5*
- Cantidad de épocas de entrenamiento: *10*
   

**Modelo baseline escogiendo mejores hiperparámetros**: Es la red baseline pero con una elección de hiperparámetros mediante *grid search*. En particular, la búsqueda mediante *grid search* utilizó los siguientes parámetros con sus respectivos valores posibles:
- Dimensión de capa embedding: *[128, 200, 256]*
- Número de capas LSTM: *[3, 4]*
- Dimensión de capas LSTM: *[128, 200, 256]*
- Valor dropout: *[0.4, 0.5]*
- Bireccionalidad: *[Posee, No posee]*

En la sección de experimentos se muestra los resultados obtenidos para la búsqueda pero, adelantando la información, el modelo con los mejores resultados posee las siguientes características:
- Dimensión de capa embedding: *128*
- Tipo de capas intermedias: *LSTM*
- Número de capas LSTM: *3*
- Dimensión de capas LSTM: *256*
- Dimensión output: *12*
- Tamaño de los batches: *22*
- Función de pérdida: *Cross entropy loss*
- Algormito optimizador: *Adam*
- Learning rate: 0.001
- Bireccionalidad: *Posee*
- Valor dropout: *0.5*
- Cantidad de épocas de entrenamiento: *10*

**Modelo baseline escogiendo mejores hiperparámetros y cantidad de épocas de entrenamiento**: Es la red baseline pero con una elección de algunos hiperparámetros y la cantidad de épocas de entreniamento mediante *grid search*. En particular, la búsqueda mediante *grid search* utilizó los siguientes parámetros con sus respectivos valores posibles:
- Dimensión de capa embedding: *[128, 200, 256]*
- Dimensión de capas LSTM: *[128, 200, 256]*
- Cantidad de épocas de entrenamiento: *[15, 20]*

Nótese que, en este caso, el número de capas LSTM, la bireccionalidad y el valor dropout son valores fijos. En específico, se fijó dichos valores acorde a los resultados del experimento del modelo anterior, definiendo así como 3 el número de capas LSTM, *Posee* como valor de la bireccionalidad y 0.5 el valor dropout.

Del mismo modo el modelo anterior, en la sección de experimentos se muestra los resultados obtenidos para la búsqueda pero, adelantando la información, el modelo con los mejores resultados posee las siguientes características:
- Dimensión de capa embedding: *200*
- Tipo de capas intermedias: *LSTM*
- Número de capas LSTM: *3*
- Dimensión de capas LSTM: *200*
- Dimensión output: *12*
- Tamaño de los batches: *22*
- Función de pérdida: *Cross entropy loss*
- Algormito optimizador: *Adam*
- Learning rate: 0.001
- Bireccionalidad: *Posee*
- Valor dropout: *0.5*
- Cantidad de épocas de entrenamiento: *20*

**Mejores modelos variando optimizador y learning rate**: Son los dos modelos escogidos en las dos secciones pero con una elección de optimizador y *learning rate* mediante *grid search*. En particular, la búsqueda mediante *grid search* utilizó los siguientes parámetros con sus respectivos valores posibles:
- Algormito optimizador: *[Adam, SGD]*
- Learning rate: *[0.01, 0.001, 0.0001]*

En la sección de experimentos se muestra los resultados obtenidos para la búsqueda pero, adelantando la información, el modelo con los mejores resultados posee las siguientes características:
- Dimensión de capa embedding: *128*
- Tipo de capas intermedias: *LSTM*
- Número de capas LSTM: *3*
- Dimensión de capas LSTM: *256*
- Dimensión output: *12*
- Tamaño de los batches: *22*
- Función de pérdida: *Cross entropy loss*
- Algormito optimizador: *Adam*
- Learning rate: 0.001
- Bireccionalidad: *Posee*
- Valor dropout: *0.5*
- Cantidad de épocas de entrenamiento: *10*



## **Métricas de evaluación**



- **Métrica estricta:** El modelo a entrenar entrega una secuencia de etiquetas para una oración, es decir, para una oración con una cantidad específica de tokens, el modelo *predice* la etiqueta para cada token. En ese sentido, una métrica no estricta mediría la calidad del modelo evaluando la predicción de cada token con su etiqueta, de manera individual e independiente. Sin embargo, en esta tarea se busca identificar entidades (y no etiquetas independientes) y, por tanto, se necesita utilizar métricas que reconozcan tanto la ubicación y el tipo de entidades asociadas a cada oración. En ese sentido, las métricas estrictas resuelven los problemas mencionados y permiten medir el modelo en su capacidad de predecir **entidades** (y no solo la capacidad de los modelos de precedir etiquetas independientes).

- **Precision:** Dada una entidad, la precisión mide la cantidad de veces que el modelo predice correctamente dicha entidad versus la cantidad total de veces que el modelo predice dicha entidad (tanto correctamente como incorrectamente).

- **Recall:** Dada una entidad, el recall mide la cantidad de veces que el modelo predice correctamente dicha entidad versus la cantidad total de veces que dicha entidad está presente, es decir, mide la proporción entre la veces que se predijo correctamente la entidad versus la cantidad total de *apariciones* de la entidad. 

- **Micro F1 score:** Dada una entidad, la métrica F1 score es la media armónica entre la *precision* y el *recall*. Ahora, dada todas las entidades, se puede definir una métrica global asocida a *F1 score*. Dicha métrica global puede considerar la proporción de las clases o no. En caso de no considerar la proporción de la clases, la métrica se denomina *macro f1 score* y no es más que el promedio *normal* de los *f1 scores* de todas las clases. Por el otro lado, en caso de considerar la proporción de las entidades, la métrica se denomina *micro f1 score* y es un promedio *ponderado* de los *f1 scores* de todas las entidades, es decir, es una media que considera la proporción de entidades de cada tipo a la hora de promediar los *f1 scores*.


## **Diseño experimental**

El diseño experimental está estrechamente correlacionado con la metodología para escoger modelos descrita en la sección **Modelos**. Así, con lo anterior en mente, se tiene que se realizó lo siguiente:

- Iniclamente se entrenará el modelo entregado en el enunciado para observar sus resultados.
- Luego, con la RNN baseline, se realizará una elección de hiperparámetros mediante *grid search*. En particular, la búsqueda mediante *grid search* utilizará los siguientes parámetros con sus respectivos valores posibles:
 - Dimensión de capa embedding: *[128, 200, 256]*
 - Número de capas LSTM: *[3, 4]*
 - Dimensión de capas LSTM: *[128, 200, 256]*
 - Valor dropout: *[0.4, 0.5]*
 - Bireccionalidad: *[Posee, No posee]*
- Posteriormente, se realizará una elección de hiperparámetros y número de épocas de entrenamiento mediante *grid search*. En particular, la búsqueda mediante *grid search* utilizará los siguientes parámetros con sus respectivos valores posibles:
 - Dimensión de capa embedding: *[128, 200, 256]*
 - Dimensión de capas LSTM: *[128, 200, 256]*
 - Cantidad de épocas de entrenamiento: *[15, 20]*
- Finalmente, se escogerá el mejor modelo para ambas búsquedas y se realizará una elección del algoritmo optimizador y el learning rate. En particular, la búsqueda mediante *grid search* utilizará los siguientes parámetros con sus respectivos valores posibles:
 - Algormito optimizador: *[Adam, SGD]*
 - Learning rate: *[0.01, 0.001, 0.0001]*


## **Experimentos**


El código que les entregaremos servirá de baseline para luego implementar mejores modelos. 
En general, el código asociado a la carga de los datos, las funciones de entrenamiento, de evaluación y la predicción de los datos de la competencia no deberían cambiar. 
Solo deben preocuparse de cambiar la arquitectura del modelo, sus hiperparámetros y reportar, lo cual lo pueden hacer en las subsecciones *modelos*.



###  **Carga de datos y Preprocesamiento**

Para cargar los datos y preprocesarlos usaremos la librería [`torchtext`](https://github.com/pytorch/text). Tener cuidado ya que hace algunos meses esta librería tuvo cambios radicales, quedando las funcionalidades pasadas en un nuevo paquete llamado legacy. Esto ya que si quieren usar más funciones de la librería entonces vean los cambios en la documentación.

En particular usaremos su módulo `data`, el cual según su documentación original provee: 

    - Ability to describe declaratively how to load a custom NLP dataset that's in a "normal" format
    - Ability to define a preprocessing pipeline
    - Batching, padding, and numericalizing (including building a vocabulary object)
    - Wrapper for dataset splits (train, validation, test)


El proceso será el siguiente: 

1. Descargar los datos desde github y examinarlos.
2. Definir los campos (`fields`) que cargaremos desde los archivos.
3. Cargar los datasets.
4. Crear el vocabulario.

In [1]:
# Instalamos torchtext que nos facilitará la vida en el pre-procesamiento del formato ConLL.
!pip install -U torchtext==0.10.0

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting torchtext==0.10.0
  Downloading torchtext-0.10.0-cp37-cp37m-manylinux1_x86_64.whl (7.6 MB)
[K     |████████████████████████████████| 7.6 MB 5.3 MB/s 
Collecting torch==1.9.0
  Downloading torch-1.9.0-cp37-cp37m-manylinux1_x86_64.whl (831.4 MB)
[K     |████████████████████████████████| 831.4 MB 2.8 kB/s 
Installing collected packages: torch, torchtext
  Attempting uninstall: torch
    Found existing installation: torch 1.11.0+cu113
    Uninstalling torch-1.11.0+cu113:
      Successfully uninstalled torch-1.11.0+cu113
  Attempting uninstall: torchtext
    Found existing installation: torchtext 0.12.0
    Uninstalling torchtext-0.12.0:
      Successfully uninstalled torchtext-0.12.0
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
torchvision 0.12.0+

In [2]:
import torch
from torchtext import data, datasets, legacy


# Garantizar reproducibilidad de los experimentos
SEED = 1234
torch.manual_seed(SEED)
torch.backends.cudnn.deterministic = True

#### **Obtener datos**

Descargamos los datos de entrenamiento, validación y prueba en nuestro directorio de trabajo

In [3]:
#%%capture

!wget https://github.com/dccuchile/CC6205/releases/download/v1.0/train.txt -nc # Dataset de Entrenamiento
!wget https://github.com/dccuchile/CC6205/releases/download/v1.0/dev.txt -nc    # Dataset de Validación (Para probar y ajustar el modelo)
!wget https://github.com/dccuchile/CC6205/releases/download/v1.0/test.txt -nc  # Dataset de la Competencia. Estos datos solo contienen los tokens. ¡¡SON LOS QUE DEBEN SER PREDICHOS!!

--2022-06-29 17:39:18--  https://github.com/dccuchile/CC6205/releases/download/v1.0/train.txt
Resolving github.com (github.com)... 140.82.113.3
Connecting to github.com (github.com)|140.82.113.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/196273020/77198f00-c145-11eb-83d1-11e647241ab6?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20220629%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20220629T173918Z&X-Amz-Expires=300&X-Amz-Signature=5329c8797157e06cac4587a3db74f854a76307483c52f2d403e6e04e1c4c2b07&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=196273020&response-content-disposition=attachment%3B%20filename%3Dtrain.txt&response-content-type=application%2Foctet-stream [following]
--2022-06-29 17:39:18--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/196273020/77198f00-c145-11eb-83d1-11e647241ab6?X-Amz-Algorithm=AWS4-H

####  **Fields**

Un `field`:

* Define un tipo de datos junto con instrucciones para convertir el texto a Tensor.
* Contiene un objeto `Vocab` que contiene el vocabulario (palabras posibles que puede tomar ese campo).
* Contiene otros parámetros relacionados con la forma en que se debe numericalizar un tipo de datos, como un método de tokenización y el tipo de Tensor que se debe producir.


Analizemos el siguiente cuadro el cual contiene un ejemplo cualquiera de entrenamiento:


```
El O
paciente O
padece O
de O
cancer B-Disease
de I-Disease
colon I-Disease
. O
```

Cada linea contiene un token y el tipo de entidad asociado en el formato IOB2 ya explicado. Para que `torchtext` pueda cargar estos datos, debemos definir como va a leer y separar los componentes de cada una de las lineas.
Para esto, definiremos un field para cada uno de esos componentes: Las palabras (`TEXT`) y las etiquetas o categorías (`NER_TAGS`).


In [4]:
# Primer Field: TEXT. Representan los tokens de la secuencia
TEXT = legacy.data.Field(lower=False) 

# Segundo Field: NER_TAGS. Representan los Tags asociados a cada palabra.
NER_TAGS = legacy.data.Field(unk_token=None)
fields = (("text", TEXT), ("nertags", NER_TAGS))

In [5]:
fields

(('text', <torchtext.legacy.data.field.Field at 0x7fc27c115510>),
 ('nertags', <torchtext.legacy.data.field.Field at 0x7fc27c183990>))

####  **SequenceTaggingDataset**

`SequenceTaggingDataset` es una clase de torchtext diseñada para contener datasets de sequence labeling. Los ejemplos que se guarden en una instancia de estos serán arreglos de palabras asociados con sus respectivos tags.

Por ejemplo, para Part-of-speech tagging:

[I, love, PyTorch, .] estará asociado con [PRON, VERB, PROPN, PUNCT]


La idea es que usando los fields que definimos antes, le indiquemos a la clase cómo cargar los datasets de prueba, validación y test.

In [6]:
train_data, valid_data, test_data = legacy.datasets.SequenceTaggingDataset.splits(
    path="./",
    train="train.txt",
    validation="dev.txt",
    test="test.txt",
    fields=fields,
    encoding="utf-8",
    separator=" "
)

In [7]:
train_data

<torchtext.legacy.datasets.sequence_tagging.SequenceTaggingDataset at 0x7fc27c1839d0>

In [8]:
print(f"Numero de ejemplos de entrenamiento: {len(train_data)}")
print(f"Número de ejemplos de validación: {len(valid_data)}")
print(f"Número de ejemplos de test (competencia): {len(test_data)}")

Numero de ejemplos de entrenamiento: 8025
Número de ejemplos de validación: 891
Número de ejemplos de test (competencia): 992


Visualizemos un ejemplo

In [9]:
import random
random_item_idx = random.randint(0, len(train_data))
random_example = train_data.examples[random_item_idx]
list(zip(random_example.text, random_example.nertags))

[('ANTERIOR', 'O'),
 ('CESARIA', 'B-Procedure'),
 ('POR', 'O'),
 ('PRECLAMPSIA', 'B-Disease'),
 ('AÑO', 'O'),
 ('2011', 'O'),
 ('.', 'O')]

#### **Construir los vocabularios para el texto y las etiquetas**

Los vocabularios son los objetos que contienen todos los tokens (de entrenamiento) posibles para ambos fields. El siguiente paso consiste en construirlos. Para esto, hacemos uso del método `Field.build_vocab` sobre cada uno de nuestros `fields`. 

In [10]:
TEXT.build_vocab(train_data)
NER_TAGS.build_vocab(train_data)

In [11]:
print(f"Tokens únicos en TEXT: {len(TEXT.vocab)}")
print(f"Tokens únicos en NER_TAGS: {len(NER_TAGS.vocab)}")

Tokens únicos en TEXT: 17591
Tokens únicos en NER_TAGS: 12


In [12]:
#Veamos las posibles etiquetas que hemos cargado:
NER_TAGS.vocab.itos

['<pad>',
 'O',
 'I-Disease',
 'B-Disease',
 'I-Body_Part',
 'B-Body_Part',
 'B-Procedure',
 'I-Procedure',
 'B-Medication',
 'B-Family_Member',
 'I-Medication',
 'I-Family_Member']

Observen que ademas de los tags NER, tenemos \<pad\>, el cual es generado por el dataloader para cumplir con el padding de cada oración.

Veamos ahora los tokens mas frecuentes y especiales:

In [13]:
# Tokens mas frecuentes (Será necesario usar stopwords, eliminar símbolos o nos entregan información (?) )
TEXT.vocab.freqs.most_common(10)

[('.', 7396),
 (',', 6821),
 ('-', 4985),
 ('de', 3811),
 ('DE', 3645),
 ('/', 2317),
 (':', 2209),
 ('con', 1484),
 ('y', 1439),
 ('APS', 1429)]

In [14]:
# Seteamos algunas variables que nos serán de utilidad mas adelante...
UNK_IDX = TEXT.vocab.stoi[TEXT.unk_token]
PAD_IDX = TEXT.vocab.stoi[TEXT.pad_token]

PAD_TAG_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
O_TAG_IDX = NER_TAGS.vocab.stoi['O']

#### **Frecuencia de los Tags**

Visualizemos rápidamente las cantidades y frecuencias de cada tag:

In [15]:
def tag_percentage(tag_counts):
    
    total_count = sum([count for tag, count in tag_counts])
    tag_counts_percentages = [(tag, count, count/total_count) for tag, count in tag_counts]
  
    return tag_counts_percentages

print("Tag Ocurrencia Porcentaje\n")

for tag, count, percent in tag_percentage(NER_TAGS.vocab.freqs.most_common()):
    print(f"{tag}\t{count}\t{percent*100:4.1f}%")

Tag Ocurrencia Porcentaje

O	101671	68.1%
I-Disease	21629	14.5%
B-Disease	8831	 5.9%
I-Body_Part	6489	 4.3%
B-Body_Part	3755	 2.5%
B-Procedure	2891	 1.9%
I-Procedure	2819	 1.9%
B-Medication	784	 0.5%
B-Family_Member	228	 0.2%
I-Medication	116	 0.1%
I-Family_Member	9	 0.0%


#### **Configuramos pytorch y dividimos los datos.**

Importante: si tienes problemas con la ram de la gpu, disminuye el tamaño de los batches

In [16]:
BATCH_SIZE = 22  # disminuir si hay problemas de ram.

# Usar cuda si es que está disponible.
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print('Using', device)

# Dividir datos entre entrenamiento y test. Si van a hacer algún sort no puede ser sobre
# el conjunto de testing ya que al hacer sus predicciones sobre el conjunto de test sin etiquetas
# debe conservar el orden original para ser comparado con los golden_labels. 

train_iterator, valid_iterator, test_iterator = legacy.data.BucketIterator.splits(
    (train_data, valid_data, test_data),
    batch_size=BATCH_SIZE,
    device=device,
    sort=False,
)

Using cuda


#### **Métricas de evaluación**

Además, definiremos las métricas que serán usadas tanto para la competencia como para evaluar el modelo: `precision`, `recall` y `micro f1-score`.
**Importante**: Noten que la evaluación solo se hace para las Named Entities (sin contar 'O'), toda esta funcionalidad nos la entrega la librería seqeval, pueden revisar más documentación aquí: https://github.com/chakki-works/seqeval. No utilicen el código entregado por sklearn para calcular las métricas ya que esta lo hace a nivel de token y no a nivel de entidad.

In [17]:
!pip install seqeval

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting seqeval
  Downloading seqeval-1.2.2.tar.gz (43 kB)
[K     |████████████████████████████████| 43 kB 977 kB/s 
Building wheels for collected packages: seqeval
  Building wheel for seqeval (setup.py) ... [?25l[?25hdone
  Created wheel for seqeval: filename=seqeval-1.2.2-py3-none-any.whl size=16180 sha256=08b2c72c8bdcb433a4c21abbe8a0edb9f6bd3fa8047a7aa349efc4e86b585f80
  Stored in directory: /root/.cache/pip/wheels/05/96/ee/7cac4e74f3b19e3158dce26a20a1c86b3533c43ec72a549fd7
Successfully built seqeval
Installing collected packages: seqeval
Successfully installed seqeval-1.2.2


In [18]:
# Definimos las métricas

from seqeval.metrics import f1_score, precision_score, recall_score

def calculate_metrics(preds, y_true, pad_idx=PAD_TAG_IDX, o_idx=O_TAG_IDX):
    """
    Calcula precision, recall y f1 de cada batch.
    """

    # Obtener el indice de la clase con probabilidad mayor. (clases)
    y_pred = preds.argmax(dim=1, keepdim=True)

    # filtramos <pad> para calcular los scores.
    mask = [(y_true != pad_idx)]
    y_pred = y_pred[mask]
    y_true = y_true[mask]

    # traemos a la cpu
    y_pred = y_pred.view(-1).to('cpu').numpy()
    y_true = y_true.to('cpu').numpy()
    y_pred = [[NER_TAGS.vocab.itos[v] for v in y_pred]]
    y_true = [[NER_TAGS.vocab.itos[v] for v in y_true]]
    
    # calcular scores
    f1 = f1_score(y_true, y_pred, mode='strict')
    precision = precision_score(y_true, y_pred, mode='strict')
    recall = recall_score(y_true, y_pred, mode='strict')

    return precision, recall, f1



### **Modelo Baseline**

Teniendo ya cargado los datos, toca definir nuestro modelo. Este baseline tendrá una capa de embedding, unas cuantas LSTM y una capa de salida y usará dropout en el entrenamiento.

Este constará de los siguientes pasos: 

1. Definir la clase que contendrá la red.
2. Definir los hiperparámetros e inicializar la red. 
3. Definir el número de épocas de entrenamiento
4. Definir la función de loss.



Recomendamos que para experimentar, encapsules los modelos en una sola variable y luego la fijes en model para entrenarla

In [19]:
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim


# Definir la red
class NER_RNN(nn.Module):
    def __init__(self, 
                 input_dim, 
                 embedding_dim, 
                 hidden_dim, 
                 output_dim,
                 n_layers, 
                 bidirectional, 
                 dropout, 
                 pad_idx):

        super().__init__()

        # Capa de embedding
        self.embedding = nn.Embedding(input_dim,
                                      embedding_dim,
                                      padding_idx=pad_idx,
                                      )

        # Capa LSTM
        self.lstm = nn.LSTM(embedding_dim,
                           hidden_dim,
                           num_layers=n_layers,
                           bidirectional=bidirectional, 
                           dropout = dropout if n_layers > 1 else 0)

        # Capa de salida
        self.fc = nn.Linear(hidden_dim * 2 if bidirectional else hidden_dim,
                            output_dim)

        # Dropout
        self.dropout = nn.Dropout(dropout)

    def forward(self, text):

        #text = [sent len, batch size]

        # Convertir lo enviado a embedding
        embedded = self.dropout(self.embedding(text))
        
        outputs, (hidden, cell) = self.lstm(embedded)
        #embedded = [sent len, batch size, emb dim]

        # Pasar los embeddings por la rnn (LSTM)

        #output = [sent len, batch size, hid dim * n directions]
        #hidden/cell = [n layers * n directions, batch size, hid dim]

        # Predecir usando la capa de salida.
        predictions = self.fc(self.dropout(outputs))
        #predictions = [sent len, batch size, output dim]

        return predictions

#### **Hiperparámetros de la red**



In [20]:
# tamaño del vocabulario. recuerden que la entrada son vectores bag of word(one-hot).
INPUT_DIM = len(TEXT.vocab)
EMBEDDING_DIM = 200  # dimensión de los embeddings.
HIDDEN_DIM = 128  # dimensión de la capas LSTM
OUTPUT_DIM = len(NER_TAGS.vocab)  # número de clases

N_LAYERS = 3  # número de capas.
DROPOUT = 0.5
BIDIRECTIONAL = False

# Creamos nuestro modelo.
baseline_model = NER_RNN(INPUT_DIM, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         N_LAYERS, BIDIRECTIONAL, DROPOUT, PAD_IDX)

baseline_model_name = 'baseline'  # nombre que tendrá el modelo guardado...

In [21]:
baseline_n_epochs = 10

#### Definimos la función de loss

In [22]:
# Loss: Cross Entropy
TAG_PAD_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
baseline_criterion = nn.CrossEntropyLoss(ignore_index = TAG_PAD_IDX)

#### Entrenamiento y evaluación modelo baseline

In [23]:
model = baseline_model
model_name = baseline_model_name
criterion = baseline_criterion
n_epochs = baseline_n_epochs



#### **Inicializamos la red**

Iniciamos los pesos de la red de forma aleatoria (Usando una distribución normal).


In [24]:
def init_weights(m):
    # Inicializamos los pesos como aleatorios
    for name, param in m.named_parameters():
        nn.init.normal_(param.data, mean=0, std=0.1) 
        
    # Seteamos como 0 los embeddings de UNK y PAD.
    model.embedding.weight.data[UNK_IDX] = torch.zeros(EMBEDDING_DIM)
    model.embedding.weight.data[PAD_IDX] = torch.zeros(EMBEDDING_DIM)
        
model.apply(init_weights)

NER_RNN(
  (embedding): Embedding(17591, 200, padding_idx=1)
  (lstm): LSTM(200, 128, num_layers=3, dropout=0.5)
  (fc): Linear(in_features=128, out_features=12, bias=True)
  (dropout): Dropout(p=0.5, inplace=False)
)

In [25]:
def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f'El modelo actual tiene {count_parameters(model):,} parámetros entrenables.')

El modelo actual tiene 3,952,900 parámetros entrenables.


Notar que definimos los embeddings que representan a \<unk\> y \<pad\>  como [0, 0, ..., 0]

#### **Definimos el optimizador**

In [None]:
# Optimizador
optimizer = optim.Adam(model.parameters())

#### **Enviamos el modelo a cuda**


In [None]:
# Enviamos el modelo y la loss a cuda (en el caso en que esté disponible)
model = model.to(device)
criterion = criterion.to(device)

#### **Definimos el entrenamiento de la red**

Algunos conceptos previos: 

- `epoch` : una pasada de entrenamiento completa de una dataset.
- `batch`: una fracción de la época. Se utilizan para entrenar mas rápidamente la red. (mas eficiente pasar n datos que uno en cada ejecución del backpropagation)

Esta función está encargada de entrenar la red en una época. Para esto, por cada batch de la época actual, predice los tags del texto, calcula su loss y luego hace backpropagation para actualizar los pesos de la red.

Observación: En algunos comentarios aparecerá el tamaño de los tensores entre corchetes

In [26]:
def train(model, iterator, optimizer, criterion):

    epoch_loss = 0
    epoch_precision = 0
    epoch_recall = 0
    epoch_f1 = 0

    model.train()

    # Por cada batch del iterador de la época:
    for batch in iterator:

        # Extraemos el texto y los tags del batch que estamos procesado
        text = batch.text
        tags = batch.nertags

        # Reiniciamos los gradientes calculados en la iteración anterior
        optimizer.zero_grad()

        #text = [sent len, batch size]

        # Predecimos los tags del texto del batch.
        predictions = model(text)

        #predictions = [sent len, batch size, output dim]
        #tags = [sent len, batch size]

        # Reordenamos los datos para calcular la loss
        predictions = predictions.view(-1, predictions.shape[-1])
        tags = tags.view(-1)

        #predictions = [sent len * batch size, output dim]



        # Calculamos el Cross Entropy de las predicciones con respecto a las etiquetas reales
        loss = criterion(predictions, tags)
        
        # Calculamos el accuracy
        precision, recall, f1 = calculate_metrics(predictions, tags)

        # Calculamos los gradientes
        loss.backward()

        # Actualizamos los parámetros de la red
        optimizer.step()

        # Actualizamos el loss y las métricas
        epoch_loss += loss.item()
        epoch_precision += precision
        epoch_recall += recall
        epoch_f1 += f1

    return epoch_loss / len(iterator), epoch_precision / len(
        iterator), epoch_recall / len(iterator), epoch_f1 / len(iterator)

#### **Definimos la función de evaluación**

Evalua el rendimiento actual de la red usando los datos de validación. 

Por cada batch de estos datos, calcula y reporta el loss y las métricas asociadas al conjunto de validación. 
Ya que las métricas son calculadas por cada batch, estas son retornadas promediadas por el número de batches entregados. (ver linea del return)

In [27]:
def evaluate(model, iterator, criterion):

    epoch_loss = 0
    epoch_precision = 0
    epoch_recall = 0
    epoch_f1 = 0

    model.eval()

    # Indicamos que ahora no guardaremos los gradientes
    with torch.no_grad():
        # Por cada batch
        for batch in iterator:

            text = batch.text
            tags = batch.nertags

            # Predecimos
            predictions = model(text)

            predictions = predictions.view(-1, predictions.shape[-1])
            tags = tags.view(-1)

            # Calculamos el Cross Entropy de las predicciones con respecto a las etiquetas reales
            loss = criterion(predictions, tags)

            # Calculamos las métricas
            precision, recall, f1 = calculate_metrics(predictions, tags)

            # Actualizamos el loss y las métricas
            epoch_loss += loss.item()
            epoch_precision += precision
            epoch_recall += recall
            epoch_f1 += f1

    return epoch_loss / len(iterator), epoch_precision / len(
        iterator), epoch_recall / len(iterator), epoch_f1 / len(iterator)

In [28]:
import time

def epoch_time(start_time, end_time):
    elapsed_time = end_time - start_time
    elapsed_mins = int(elapsed_time / 60)
    elapsed_secs = int(elapsed_time - (elapsed_mins * 60))
    return elapsed_mins, elapsed_secs


#### **Entrenamiento de la red**

En este cuadro de código ejecutaremos el entrenamiento de la red.
Para esto, primero definiremos el número de épocas y luego por cada época, ejecutaremos `train` y `evaluate`.

**Importante: Reiniciar los pesos del modelo**

Si ejecutas nuevamente esta celda, se seguira entrenando el mismo modelo una y otra vez. 
Para reiniciar el modelo se debe ejecutar nuevamente la celda que contiene la función `init_weights`



In [None]:

best_valid_loss = float('inf')

for epoch in range(n_epochs):

    start_time = time.time()

    # Recuerdo: train_iterator y valid_iterator contienen el dataset dividido en batches.

    # Entrenar
    train_loss, train_precision, train_recall, train_f1 = train(
        model, train_iterator, optimizer, criterion)

    # Evaluar (valid = validación)
    valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
        model, valid_iterator, criterion)

    end_time = time.time()

    epoch_mins, epoch_secs = epoch_time(start_time, end_time)

    # Si obtuvimos mejores resultados, guardamos este modelo en el almacenamiento (para poder cargarlo luego)
    # Si detienen el entrenamiento prematuramente, pueden cargar el modelo en el siguiente recuadro de código.
    if valid_loss < best_valid_loss:
        best_valid_loss = valid_loss
        torch.save(model.state_dict(), '{}.pt'.format(model_name))
    # Si ya no mejoramos el loss de validación, terminamos de entrenar.

    print(f'Epoch: {epoch+1:02} | Epoch Time: {epoch_mins}m {epoch_secs}s')
    print(
        f'\tTrain Loss: {train_loss:.3f} | Train f1: {train_f1:.2f} | Train precision: {train_precision:.2f} | Train recall: {train_recall:.2f}'
    )
    print(
        f'\t Val. Loss: {valid_loss:.3f} |  Val. f1: {valid_f1:.2f} |  Val. precision: {valid_precision:.2f} | Val. recall: {valid_recall:.2f}'
    )

  _warn_prf(average, modifier, msg_start, len(result))


Epoch: 01 | Epoch Time: 0m 6s
	Train Loss: 0.992 | Train f1: 0.24 | Train precision: 0.43 | Train recall: 0.19
	 Val. Loss: 0.628 |  Val. f1: 0.54 |  Val. precision: 0.71 | Val. recall: 0.44
Epoch: 02 | Epoch Time: 0m 6s
	Train Loss: 0.561 | Train f1: 0.60 | Train precision: 0.69 | Train recall: 0.54
	 Val. Loss: 0.475 |  Val. f1: 0.65 |  Val. precision: 0.75 | Val. recall: 0.58
Epoch: 03 | Epoch Time: 0m 6s
	Train Loss: 0.418 | Train f1: 0.70 | Train precision: 0.74 | Train recall: 0.66
	 Val. Loss: 0.430 |  Val. f1: 0.70 |  Val. precision: 0.74 | Val. recall: 0.67
Epoch: 04 | Epoch Time: 0m 6s
	Train Loss: 0.339 | Train f1: 0.76 | Train precision: 0.78 | Train recall: 0.74
	 Val. Loss: 0.413 |  Val. f1: 0.72 |  Val. precision: 0.75 | Val. recall: 0.70
Epoch: 05 | Epoch Time: 0m 6s
	Train Loss: 0.289 | Train f1: 0.79 | Train precision: 0.80 | Train recall: 0.78
	 Val. Loss: 0.404 |  Val. f1: 0.73 |  Val. precision: 0.75 | Val. recall: 0.72
Epoch: 06 | Epoch Time: 0m 6s
	Train Loss: 0.

**Importante**: Recuerden que el último modelo entrenado no es el mejor (probablemente esté *overfitteado*), si no el que guardamos con la menor loss del conjunto de validación. Este problema lo pueden solucionar con *early stopping*.
Para cargar el mejor modelo entrenado, ejecuten la siguiente celda.



In [None]:
# cargar el mejor modelo entrenado.
model.load_state_dict(torch.load('{}.pt'.format(model_name)))

<All keys matched successfully>

In [None]:
# Limpiar ram de cuda
torch.cuda.empty_cache()

#### **Evaluamos el set de validación con el modelo final**

Estos son los resultados de predecir el dataset de evaluación con el *mejor* modelo entrenado.

In [None]:
valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
    model, valid_iterator, criterion)

print(
    f'Val. Loss: {valid_loss:.3f} |  Val. f1: {valid_f1:.2f} | Val. precision: {valid_precision:.2f} | Val. recall: {valid_recall:.2f}'
)

Val. Loss: 0.397 |  Val. f1: 0.75 | Val. precision: 0.76 | Val. recall: 0.74


### Modelo baseline escogiendo mejores hiperparámetros:

Ahora, dada la estructura *base* del modelo anterior, mediante gridsearch, se buscó los mejores hiperparámetros (embedding dim, hidden dim, número de capaps, dropout y bidireccionalidad), es decir, los hiperparámetros que maximizaran el *f1-score*. Así, siguiendo un procedimiento similar realizado para el modelo anterior, se calculó *loss*, *f1-score*, *precision* y *recall* para cada caso.


In [None]:

embedding_dims = [128, 200, 256]
hidden_dims = [128, 200, 256]
n_layers = [3, 4]
dropouts = [0.4, 0.5]
bi_directionals = [True, False]

results = []

for embedding_dim in embedding_dims:
  for hidden_dim in hidden_dims:
    for n_layer in n_layers:
      for dropout in dropouts:
        for bi_directional in bi_directionals:
          model = NER_RNN(INPUT_DIM, embedding_dim, hidden_dim, OUTPUT_DIM,
                          n_layer, bi_directional, dropout, PAD_IDX)
          model_name = f"{embedding_dim}-{hidden_dim}-{n_layer}-{dropout}-{bi_directional}"

          def init_weights(m):
            # Inicializamos los pesos como aleatorios
            for name, param in m.named_parameters():
              nn.init.normal_(param.data, mean=0, std=0.1) 
              
              # Seteamos como 0 los embeddings de UNK y PAD.
              model.embedding.weight.data[UNK_IDX] = torch.zeros(embedding_dim)
              model.embedding.weight.data[PAD_IDX] = torch.zeros(embedding_dim)

          model.apply(init_weights)
          # Optimizador
          optimizer = optim.Adam(model.parameters())
          model = model.to(device)
          criterion = criterion.to(device)

          best_valid_loss = float('inf')
          
          for epoch in range(n_epochs):
            start_time = time.time()
            # Recuerdo: train_iterator y valid_iterator contienen el dataset dividido en batches.

            # Entrenar
            train_loss, train_precision, train_recall, train_f1 = train(
                model, train_iterator, optimizer, criterion)
            
            # Evaluar (valid = validación)
            valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
                model, valid_iterator, criterion)
            
            end_time = time.time()
            
            epoch_mins, epoch_secs = epoch_time(start_time, end_time)
            
            # Si obtuvimos mejores resultados, guardamos este modelo en el almacenamiento (para poder cargarlo luego)
            # Si detienen el entrenamiento prematuramente, pueden cargar el modelo en el siguiente recuadro de código.
            if valid_loss < best_valid_loss:
              best_valid_loss = valid_loss
              torch.save(model.state_dict(), '{}.pt'.format(model_name))
              # Si ya no mejoramos el loss de validación, terminamos de entrenar.

          # cargar el mejor modelo entrenado.
          model.load_state_dict(torch.load('{}.pt'.format(model_name)))

          # Limpiar ram de cuda
          torch.cuda.empty_cache()

          valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
              model, valid_iterator, criterion)
          results.append(
              {"embedding_dim": embedding_dim, 
               "hidden_dim": hidden_dim, 
               "n_layer": n_layer, 
               "dropout": dropout, 
               "bi_directional": bi_directional, 
               "loss": valid_loss, 
               "precision": valid_precision, 
               "recall": valid_recall, 
               "f1": valid_f1
              }
          )
          print(model_name)
          print(
              f'Val. Loss: {valid_loss:.3f} |  Val. f1: {valid_f1:.2f} | Val. precision: {valid_precision:.2f} | Val. recall: {valid_recall:.2f}'
              )
          print("")

  _warn_prf(average, modifier, msg_start, len(result))


128-128-3-0.4-True
Val. Loss: 0.353 |  Val. f1: 0.76 | Val. precision: 0.78 | Val. recall: 0.74

128-128-3-0.4-False
Val. Loss: 0.397 |  Val. f1: 0.74 | Val. precision: 0.76 | Val. recall: 0.72

128-128-3-0.5-True
Val. Loss: 0.339 |  Val. f1: 0.78 | Val. precision: 0.80 | Val. recall: 0.77

128-128-3-0.5-False
Val. Loss: 0.398 |  Val. f1: 0.74 | Val. precision: 0.75 | Val. recall: 0.73

128-128-4-0.4-True
Val. Loss: 0.358 |  Val. f1: 0.75 | Val. precision: 0.77 | Val. recall: 0.73

128-128-4-0.4-False
Val. Loss: 0.412 |  Val. f1: 0.71 | Val. precision: 0.72 | Val. recall: 0.71

128-128-4-0.5-True
Val. Loss: 0.360 |  Val. f1: 0.76 | Val. precision: 0.80 | Val. recall: 0.73

128-128-4-0.5-False
Val. Loss: 0.416 |  Val. f1: 0.72 | Val. precision: 0.77 | Val. recall: 0.69

128-200-3-0.4-True
Val. Loss: 0.344 |  Val. f1: 0.78 | Val. precision: 0.80 | Val. recall: 0.76

128-200-3-0.4-False
Val. Loss: 0.379 |  Val. f1: 0.75 | Val. precision: 0.78 | Val. recall: 0.73

128-200-3-0.5-True
Val. L

In [None]:
import pandas as pd
df_results = pd.DataFrame(results).sort_values("f1", ascending=False)
df_results

Unnamed: 0,embedding_dim,hidden_dim,n_layer,dropout,bi_directional,loss,precision,recall,f1
18,128,256,3,0.5,True,0.340089,0.809261,0.773710,0.788810
2,128,128,3,0.5,True,0.338731,0.798046,0.767236,0.780058
42,200,256,3,0.5,True,0.348018,0.782240,0.775647,0.777070
54,256,128,4,0.5,True,0.363783,0.795619,0.763093,0.776906
68,256,256,4,0.4,True,0.344051,0.789822,0.767525,0.776596
...,...,...,...,...,...,...,...,...,...
13,128,200,4,0.4,False,0.400231,0.754562,0.695353,0.721228
27,200,128,3,0.5,False,0.400483,0.731793,0.712543,0.720112
29,200,128,4,0.4,False,0.406946,0.725159,0.718274,0.719491
5,128,128,4,0.4,False,0.411971,0.723534,0.707200,0.713498


Nótese que el modelo con mejor f1-score es la red que utiliza 3 capas LSTM, sus embedding tienen un dimensión de tamaño 128, la *hidden layer* (capa LSTM) tiene un dimensión de tamaño 256, tiene un valor para el dropout 0.5 y posee biredicionalidad.

### Modelo baseline escogiendo mejores hiperparámetros y cantidad de épocas de entrenamiento

Similar a lo realizado en la sección anterior, se buscó algunos de los mejores hiperparámetros (embedding dim, hidden dim) y la mejor cantidad de épocas de entrenamiento, es decir, los hiperparámetros y la cantidad de épocas de entrenamiento que maximizaran el *f1-score*. Así, siguiendo un procedimiento similar realizado para el modelo anterior, se calculó *loss*, *f1-score*, *precision* y *recall* para cada caso.

Nótese que, para este caso, para no tener que entrenar una cantidad excesivamente grande de modelos, se dejó fijado el número de capas, el valor del dropout y la bidireccionalidad (los hiperparámetros se fijaron acorde a los resultados obtenidos anteriormente, es decir, acorde a qué valores tenían los mejores modelos para dichos hiperparámetros).

In [None]:
embedding_dims = [128, 200, 256]
hidden_dims = [128, 200, 256]
n_epochs = [15, 20]

results = []

for embedding_dim in embedding_dims:
    for hidden_dim in hidden_dims:
        for n_epoch in n_epochs:
            model = NER_RNN(INPUT_DIM, embedding_dim, hidden_dim, OUTPUT_DIM,
                            3, True, 0.5, PAD_IDX)
            model_name = f"{embedding_dim}-{hidden_dim}-{n_epoch}"
            
            def init_weights(m):
                # Inicializamos los pesos como aleatorios
                for name, param in m.named_parameters():
                    nn.init.normal_(param.data, mean=0, std=0.1) 
                    
                    # Seteamos como 0 los embeddings de UNK y PAD.
                    model.embedding.weight.data[UNK_IDX] = torch.zeros(embedding_dim)
                    model.embedding.weight.data[PAD_IDX] = torch.zeros(embedding_dim)
            
            model.apply(init_weights)
            # Optimizador
            optimizer = optim.Adam(model.parameters())
            model = model.to(device)
            criterion = criterion.to(device)
            
            best_valid_loss = float('inf')
            
            for epoch in range(n_epoch):
                start_time = time.time()
                # Recuerdo: train_iterator y valid_iterator contienen el dataset dividido en batches.
                
                # Entrenar
                train_loss, train_precision, train_recall, train_f1 = train(
                    model, train_iterator, optimizer, criterion)
                
                # Evaluar (valid = validación)
                valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
                    model, valid_iterator, criterion)
                
                end_time = time.time()
                epoch_mins, epoch_secs = epoch_time(start_time, end_time)
            
                # Si obtuvimos mejores resultados, guardamos este modelo en el almacenamiento (para poder cargarlo luego)
                # Si detienen el entrenamiento prematuramente, pueden cargar el modelo en el siguiente recuadro de código.
                if valid_loss < best_valid_loss:
                    best_valid_loss = valid_loss
                    torch.save(model.state_dict(), '{}.pt'.format(model_name))
                # Si ya no mejoramos el loss de validación, terminamos de entrenar.
            
            # cargar el mejor modelo entrenado.
            model.load_state_dict(torch.load('{}.pt'.format(model_name)))

            # Limpiar ram de cuda
            torch.cuda.empty_cache()

            valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
                model, valid_iterator, criterion)
            results.append(
                {
                    "embedding_dim": embedding_dim, 
                    "hidden_dim": hidden_dim, 
                    "n_epoch": n_epoch,
                    "loss": valid_loss, 
                    "precision": valid_precision, 
                    "recall": valid_recall, 
                    "f1": valid_f1
                }
            )
            print(model_name)
            print(
                f'Val. Loss: {valid_loss:.3f} |  Val. f1: {valid_f1:.2f} | Val. precision: {valid_precision:.2f} | Val. recall: {valid_recall:.2f}'
            )
            print("")

  _warn_prf(average, modifier, msg_start, len(result))


128-128-15
Val. Loss: 0.342 |  Val. f1: 0.77 | Val. precision: 0.78 | Val. recall: 0.76

128-128-20
Val. Loss: 0.357 |  Val. f1: 0.77 | Val. precision: 0.79 | Val. recall: 0.76

128-200-15
Val. Loss: 0.331 |  Val. f1: 0.77 | Val. precision: 0.79 | Val. recall: 0.75

128-200-20
Val. Loss: 0.338 |  Val. f1: 0.77 | Val. precision: 0.80 | Val. recall: 0.75

128-256-15
Val. Loss: 0.343 |  Val. f1: 0.77 | Val. precision: 0.81 | Val. recall: 0.73

128-256-20
Val. Loss: 0.337 |  Val. f1: 0.76 | Val. precision: 0.79 | Val. recall: 0.74

200-128-15
Val. Loss: 0.356 |  Val. f1: 0.76 | Val. precision: 0.80 | Val. recall: 0.72

200-128-20
Val. Loss: 0.362 |  Val. f1: 0.77 | Val. precision: 0.79 | Val. recall: 0.77

200-200-15
Val. Loss: 0.341 |  Val. f1: 0.78 | Val. precision: 0.79 | Val. recall: 0.76

200-200-20
Val. Loss: 0.338 |  Val. f1: 0.78 | Val. precision: 0.79 | Val. recall: 0.77

200-256-15
Val. Loss: 0.337 |  Val. f1: 0.78 | Val. precision: 0.80 | Val. recall: 0.76

200-256-20
Val. Loss:

In [None]:
import pandas as pd
df_results = pd.DataFrame(results).sort_values("f1", ascending=False)
df_results

Unnamed: 0,embedding_dim,hidden_dim,n_epoch,loss,precision,recall,f1
9,200,200,20,0.338304,0.793715,0.766753,0.777908
14,256,200,15,0.354253,0.806481,0.754923,0.777662
10,200,256,15,0.336663,0.798876,0.75795,0.775592
8,200,200,15,0.340753,0.793823,0.762109,0.77551
7,200,128,20,0.361722,0.789339,0.765319,0.774955
1,128,128,20,0.357079,0.793851,0.755611,0.772169
11,200,256,20,0.34139,0.796934,0.752001,0.771487
16,256,256,15,0.334235,0.778374,0.765669,0.769943
15,256,200,20,0.335145,0.784965,0.759378,0.769188
0,128,128,15,0.341908,0.778514,0.763791,0.768711


En este caso, el modelo con mejor f1-score es la red que utiliza 3 capas LSTM, sus embedding tienen un dimensión de tamaño 200, la *hidden layer* (capa LSTM) tiene un dimensión de tamaño 200, tiene un valor para el dropout 0.5, posee biredicionalidad y la cantidad de épocas de entrenamiento es 20.

### Mejores modelos variando optimizador y learning rate:

Dado los dos mejores modelos obtenidos en las dos búsquedas mediantes *grid search*, se utilizará dichos modelos para realizar otra *grid search* que varié el optimizador y el learning rate. Así, siguiendo un procedimiento similar realizado para las búsquedas anteriores, se calculó *loss*, *f1-score*, *precision* y *recall* para cada caso.

In [31]:
class ModelParams:
    def __init__(self, embedding_dim, hidden_dim, n_epoch):
        self.embedding_dim = embedding_dim
        self.hidden_dim = hidden_dim
        self.n_epoch = n_epoch
        self.name = f"{embedding_dim}-{hidden_dim}-{n_epoch}"

p_models = [ModelParams(128, 256, 10), ModelParams(200, 200, 20)]
f_optimizers = [optim.Adam, optim.SGD]
learning_rates = [0.01, 0.001, 0.0001]
results = []

for p_model in p_models:
    for f_optimizer in f_optimizers:
        for learning_rate in learning_rates:
            n_epoch = p_model.n_epoch
            
            model = NER_RNN(INPUT_DIM, p_model.embedding_dim, p_model.hidden_dim, OUTPUT_DIM,
                            3, True, 0.5, PAD_IDX)
            model_name = f"{p_model.name}-{f_optimizer}-{learning_rate}"
            
            def init_weights(m):
                # Inicializamos los pesos como aleatorios
                for name, param in m.named_parameters():
                    nn.init.normal_(param.data, mean=0, std=0.1) 
                    
                    # Seteamos como 0 los embeddings de UNK y PAD.
                    model.embedding.weight.data[UNK_IDX] = torch.zeros(p_model.embedding_dim)
                    model.embedding.weight.data[PAD_IDX] = torch.zeros(p_model.embedding_dim)
            
            model.apply(init_weights)
            # Optimizador
            optimizer = f_optimizer(model.parameters(), lr=learning_rate)
            model = model.to(device)
            criterion = criterion.to(device)
            
            best_valid_loss = float('inf')
            
            for epoch in range(p_model.n_epoch):
                start_time = time.time()
                # Recuerdo: train_iterator y valid_iterator contienen el dataset dividido en batches.
                
                # Entrenar
                train_loss, train_precision, train_recall, train_f1 = train(
                    model, train_iterator, optimizer, criterion)
                
                # Evaluar (valid = validación)
                valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
                    model, valid_iterator, criterion)
                
                end_time = time.time()
                epoch_mins, epoch_secs = epoch_time(start_time, end_time)
            
                # Si obtuvimos mejores resultados, guardamos este modelo en el almacenamiento (para poder cargarlo luego)
                # Si detienen el entrenamiento prematuramente, pueden cargar el modelo en el siguiente recuadro de código.
                if valid_loss < best_valid_loss:
                    best_valid_loss = valid_loss
                    torch.save(model.state_dict(), '{}.pt'.format(model_name))
                # Si ya no mejoramos el loss de validación, terminamos de entrenar.
            
            # cargar el mejor modelo entrenado.
            model.load_state_dict(torch.load('{}.pt'.format(model_name)))

            # Limpiar ram de cuda
            torch.cuda.empty_cache()

            valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
                model, valid_iterator, criterion)
            results.append(
                {
                    "model_name": p_model.name, 
                    "optimizer": f_optimizer, 
                    "learning_rate": learning_rate,
                    "loss": valid_loss, 
                    "precision": valid_precision, 
                    "recall": valid_recall, 
                    "f1": valid_f1
                }
            )
            print(model_name)
            print(
                f'Val. Loss: {valid_loss:.3f} |  Val. f1: {valid_f1:.2f} | Val. precision: {valid_precision:.2f} | Val. recall: {valid_recall:.2f}'
            )
            print("")

  _warn_prf(average, modifier, msg_start, len(result))


128-256-10-<class 'torch.optim.adam.Adam'>-0.01
Val. Loss: 0.377 |  Val. f1: 0.74 | Val. precision: 0.76 | Val. recall: 0.72

128-256-10-<class 'torch.optim.adam.Adam'>-0.001
Val. Loss: 0.349 |  Val. f1: 0.77 | Val. precision: 0.78 | Val. recall: 0.76

128-256-10-<class 'torch.optim.adam.Adam'>-0.0001
Val. Loss: 0.495 |  Val. f1: 0.63 | Val. precision: 0.74 | Val. recall: 0.55

128-256-10-<class 'torch.optim.sgd.SGD'>-0.01
Val. Loss: 0.980 |  Val. f1: 0.26 | Val. precision: 0.49 | Val. recall: 0.18

128-256-10-<class 'torch.optim.sgd.SGD'>-0.001
Val. Loss: 1.159 |  Val. f1: 0.00 | Val. precision: 0.00 | Val. recall: 0.00

128-256-10-<class 'torch.optim.sgd.SGD'>-0.0001
Val. Loss: 1.218 |  Val. f1: 0.00 | Val. precision: 0.00 | Val. recall: 0.00

200-200-20-<class 'torch.optim.adam.Adam'>-0.01
Val. Loss: 0.397 |  Val. f1: 0.73 | Val. precision: 0.75 | Val. recall: 0.72

200-200-20-<class 'torch.optim.adam.Adam'>-0.001
Val. Loss: 0.355 |  Val. f1: 0.77 | Val. precision: 0.78 | Val. recal

In [32]:
import pandas as pd
df_results = pd.DataFrame(results).sort_values("f1", ascending=False)
df_results

Unnamed: 0,model_name,optimizer,learning_rate,loss,precision,recall,f1
1,128-256-10,<class 'torch.optim.adam.Adam'>,0.001,0.348921,0.782067,0.762674,0.769946
7,200-200-20,<class 'torch.optim.adam.Adam'>,0.001,0.355335,0.7778,0.762061,0.767723
0,128-256-10,<class 'torch.optim.adam.Adam'>,0.01,0.377106,0.764,0.71757,0.738195
8,200-200-20,<class 'torch.optim.adam.Adam'>,0.0001,0.39662,0.772737,0.702574,0.733675
6,200-200-20,<class 'torch.optim.adam.Adam'>,0.01,0.397191,0.745995,0.723456,0.732899
2,128-256-10,<class 'torch.optim.adam.Adam'>,0.0001,0.495256,0.74201,0.552388,0.630273
9,200-200-20,<class 'torch.optim.sgd.SGD'>,0.01,0.910128,0.581795,0.22589,0.319024
3,128-256-10,<class 'torch.optim.sgd.SGD'>,0.01,0.979735,0.491899,0.175266,0.255771
4,128-256-10,<class 'torch.optim.sgd.SGD'>,0.001,1.158531,0.0,0.0,0.0
5,128-256-10,<class 'torch.optim.sgd.SGD'>,0.0001,1.217621,0.0,0.0,0.0


El modelo con mejor f1-score es la red que utiliza 3 capas LSTM, sus embedding tienen un dimensión de tamaño 128, la *hidden layer* (capa LSTM) tiene un dimensión de tamaño 256, tiene un valor para el dropout 0.5, posee biredicionalidad, tiene un algoritmo optimizador Adam y un learning rate de 0.001.

### Mejor modelo.

Finalmente, se entrenará el mejor modelo obtenido para generar las predicciones para la competencia.

In [46]:
# tamaño del vocabulario. recuerden que la entrada son vectores bag of word(one-hot).
INPUT_DIM = len(TEXT.vocab)
EMBEDDING_DIM = 128 # dimensión de los embeddings.
HIDDEN_DIM = 256  # dimensión de la capas LSTM
OUTPUT_DIM = len(NER_TAGS.vocab)  # número de clases

N_LAYERS = 3  # número de capas.
DROPOUT = 0.5
BIDIRECTIONAL = True

# Creamos nuestro modelo.
best_model = NER_RNN(INPUT_DIM, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         N_LAYERS, BIDIRECTIONAL, DROPOUT, PAD_IDX)

best_model_name = 'best'  # nombre que tendrá el modelo guardado...

best_n_epochs = 10
# Loss: Cross Entropy
TAG_PAD_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
best_criterion = nn.CrossEntropyLoss(ignore_index = TAG_PAD_IDX)
model = best_model
model_name = best_model_name
criterion = best_criterion
n_epochs = best_n_epochs

def init_weights(m):
    # Inicializamos los pesos como aleatorios
    for name, param in m.named_parameters():
        nn.init.normal_(param.data, mean=0, std=0.1) 
        
    # Seteamos como 0 los embeddings de UNK y PAD.
    model.embedding.weight.data[UNK_IDX] = torch.zeros(EMBEDDING_DIM)
    model.embedding.weight.data[PAD_IDX] = torch.zeros(EMBEDDING_DIM)
        
model.apply(init_weights)
def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f'El modelo actual tiene {count_parameters(model):,} parámetros entrenables.')
# Optimizador
optimizer = optim.Adam(model.parameters())
# Enviamos el modelo y la loss a cuda (en el caso en que esté disponible)
model = model.to(device)
criterion = criterion.to(device)

best_valid_loss = float('inf')

for epoch in range(n_epochs):

    start_time = time.time()

    # Recuerdo: train_iterator y valid_iterator contienen el dataset dividido en batches.

    # Entrenar
    train_loss, train_precision, train_recall, train_f1 = train(
        model, train_iterator, optimizer, criterion)

    # Evaluar (valid = validación)
    valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
        model, valid_iterator, criterion)

    end_time = time.time()

    epoch_mins, epoch_secs = epoch_time(start_time, end_time)

    # Si obtuvimos mejores resultados, guardamos este modelo en el almacenamiento (para poder cargarlo luego)
    # Si detienen el entrenamiento prematuramente, pueden cargar el modelo en el siguiente recuadro de código.
    if valid_loss < best_valid_loss:
        best_valid_loss = valid_loss
        torch.save(model.state_dict(), '{}.pt'.format(model_name))
    # Si ya no mejoramos el loss de validación, terminamos de entrenar.

    print(f'Epoch: {epoch+1:02} | Epoch Time: {epoch_mins}m {epoch_secs}s')
    print(
        f'\tTrain Loss: {train_loss:.3f} | Train f1: {train_f1:.2f} | Train precision: {train_precision:.2f} | Train recall: {train_recall:.2f}'
    )
    print(
        f'\t Val. Loss: {valid_loss:.3f} |  Val. f1: {valid_f1:.2f} |  Val. precision: {valid_precision:.2f} | Val. recall: {valid_recall:.2f}'
    )

El modelo actual tiene 6,202,252 parámetros entrenables.


  _warn_prf(average, modifier, msg_start, len(result))


Epoch: 01 | Epoch Time: 0m 11s
	Train Loss: 0.857 | Train f1: 0.38 | Train precision: 0.57 | Train recall: 0.30
	 Val. Loss: 0.557 |  Val. f1: 0.59 |  Val. precision: 0.73 | Val. recall: 0.50
Epoch: 02 | Epoch Time: 0m 11s
	Train Loss: 0.491 | Train f1: 0.66 | Train precision: 0.74 | Train recall: 0.60
	 Val. Loss: 0.415 |  Val. f1: 0.70 |  Val. precision: 0.79 | Val. recall: 0.63
Epoch: 03 | Epoch Time: 0m 11s
	Train Loss: 0.340 | Train f1: 0.76 | Train precision: 0.80 | Train recall: 0.72
	 Val. Loss: 0.368 |  Val. f1: 0.74 |  Val. precision: 0.78 | Val. recall: 0.71
Epoch: 04 | Epoch Time: 0m 11s
	Train Loss: 0.265 | Train f1: 0.81 | Train precision: 0.83 | Train recall: 0.79
	 Val. Loss: 0.357 |  Val. f1: 0.76 |  Val. precision: 0.77 | Val. recall: 0.76
Epoch: 05 | Epoch Time: 0m 11s
	Train Loss: 0.209 | Train f1: 0.85 | Train precision: 0.85 | Train recall: 0.84
	 Val. Loss: 0.355 |  Val. f1: 0.76 |  Val. precision: 0.81 | Val. recall: 0.72
Epoch: 06 | Epoch Time: 0m 11s
	Train Lo

In [47]:

# cargar el mejor modelo entrenado.
model.load_state_dict(torch.load('{}.pt'.format(model_name)))

# Limpiar ram de cuda
torch.cuda.empty_cache()

valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
    model, valid_iterator, criterion)
print(
    f'Val. Loss: {valid_loss:.3f} |  Val. f1: {valid_f1:.2f} | Val. precision: {valid_precision:.2f} | Val. recall: {valid_recall:.2f}'
    )

Val. Loss: 0.348 |  Val. f1: 0.78 | Val. precision: 0.81 | Val. recall: 0.76


### **Predecir datos para la competencia**

Ahora, a partir de los datos de **test** y nuestro modelo entrenado, vamos a predecir las etiquetas que serán evaluadas en la competencia.

In [48]:
def predict_labels(model, iterator, criterion, fields=fields):

    # Extraemos los vocabularios.
    text_field = fields[0][1]
    nertags_field = fields[1][1]
    tags_vocab = nertags_field.vocab.itos
    words_vocab = text_field.vocab.itos

    model.eval()

    predictions = []

    with torch.no_grad():

        for batch in iterator:

            text_batch = batch.text
            text_batch = torch.transpose(text_batch, 0, 1).tolist()

            # Predecir los tags de las sentences del batch
            predictions_batch = model(batch.text)
            predictions_batch = torch.transpose(predictions_batch, 0, 1)

            # por cada oración predicha:
            for sentence, sentence_prediction in zip(text_batch,
                                                     predictions_batch):
                for word_idx, word_predictions in zip(sentence,
                                                      sentence_prediction):
                    # Obtener el indice del tag con la probabilidad mas alta.
                    argmax_index = word_predictions.topk(1)[1]

                    current_tag = tags_vocab[argmax_index]
                    # Obtenemos la palabra
                    current_word = words_vocab[word_idx]

                    if current_word != '<pad>':
                        predictions.append([current_word, current_tag])
                predictions.append(['EOS', 'EOS'])


    return predictions


predictions = predict_labels(model, test_iterator, criterion)

In [None]:
predictions

### **Generar el archivo para la submission**

No hay problema si aparecen unk en la salida. Estos no son relevantes para evaluarlos, usamos solo los tags.

In [50]:
import os, shutil

if (os.path.isfile('./predictions.zip')):
    os.remove('./predictions.zip')

if (not os.path.isdir('./predictions')):
    os.mkdir('./predictions')

else:
    # Eliminar predicciones anteriores:
    shutil.rmtree('./predictions')
    os.mkdir('./predictions')

f = open('predictions/predictions.txt', 'w')
for i, (word, tag) in enumerate(predictions[:-1]):
    if word=='EOS' and tag=='EOS': f.write('\n')
    else: 
      if i == len(predictions[:-1])-1:
        f.write(word + ' ' + tag)
      else: f.write(word + ' ' + tag + '\n')

f.close()

a = shutil.make_archive('predictions', 'zip', './predictions')

## **Conclusiones**



 Respecto a los resultados obtenidos con los modelos entrenados, se tiene que la red *RNN* con las siguientes características fue la que obtuvo mejores resultados:
- Dimensión de capa embedding: *128*
- Tipo de capas intermedias: *LSTM*
- Número de capas LSTM: *3*
- Dimensión de capas LSTM: *256*
- Dimensión output: *12*
- Tamaño de los batches: *22*
- Función de pérdida: *Cross entropy loss*
- Algormito optimizador: *Adam*
- Learning rate: 0.001
- Bireccionalidad: *Posee*
- Valor dropout: *0.5*
- Cantidad de épocas de entrenamiento: *10*

En particular, dicha red obtuvo los siguientes valores para cada métrica:
- Precision: *0.809261*
- Recall: *0.773710*
- F1: *0.788810*

valores que superan al modelo baseline entregado inicialmente.

Nótese que, en el presente trabajo, la mejora del modelo se realizó, básicamente, mediante la búsqueda de mejores hiperparámetros a través *grid search* con *grillas* de un tamaño pequeño. En ese sentido, una simple mejora para realizar una búsqueda más completa es utilizar *grillas* más grandes, es decir, probar distintos modelos con variados hiperparámetros. Lo anterior permite búsqueda más completa de mejores modelos pero aumenta el costo y tiempo de procesamiento.

Otra forma de mejorar la búsqueda es probar modelos con distintas arquitecturas o distintos embeddings. En ese sentido, es importante destacar que uno de los mayores aprendizajes del presente trabajo fue conocer y explorar la complejidad de una red neuronal: encontrar el modelo que mejor resuelva un *problema* es una tarea titánica que puede suponer mucho esfuerzo y trabajo. De todas formas, las redes neuronales permiten encontrar soluciones decentes y/o buenas con una cantidad razonable de trabajo (los mayores esfuerzos se hayan en encontrar la mejor o las mejores redes que resuelvan el problema).