# **Competencia 2 - CC6205 Natural Language Processing 📚**

**Integrantes:** Vicente Ardiles, Rodrigo Oportot

**Usuario del equipo en CodaLab:** NLPachi

**Fecha límite de entrega 📆:** 12 de Julio.

**Tiempo estimado de dedicación:** 40 horas

## Introducción


La competencia tiene como objetivo resolver una task de NER sobre un corpus perteneciente a la lista de espera NO GES en Chile. La task en cuestión se aborda como un problema de Sequence Labeling. Tal como se explica en el enunciado de la competencia, se tiene lo siguiente:

- Dada una secuencia de tokens (oración), sequence labeling tiene por objetivo asignar una etiqueta a cada token de dicha secuencia. En pocas palabras, dada una lista de tokens, se espera encontrar la mejor secuencia de etiquetas asociadas a esa lista.

NER es un ejemplo de un problema de Sequence Labeling. Primero es necesario definir los siguientes conceptos, antes de formalizar la task en cuestión:

- *Token*: secuencia de caracteres, pudiendo ser una palabra, un número o un símbolo.

- *Entidad*: un trozo de texto (uno o más tokens) asociado a una categoría predefinida.

- *Límites de una entidad*: índices de inicio y fín de los tokens dentro de una entidad.

- *Tipo de entidad*: categoría predefinida asociada a la entidad.

Ahora se puede definir formalmente una entidad como una tupla: $(s, e, t)$, donde $s, e$ son los límites de la entidad (índices de los tokens de inicio y fin, respectivamente) y e corresponde al tipo de entidad o categoría.

El corpus está constituido originalmente por 7 tipos de entidades, pero por simplicidad de la competencia se trabajará con las siguientes:

- **Disease**
- **Body_Part**
- **Medication** 
- **Procedures** 
- **Family_Member**

La formalización del problema se construye tal como sigue:

**Formato ConLL**

Los archivos vienen en un formato estándar llamado ConLL. Es un archivo de texto que cumple las siguientes propiedades:

- Un salto de linea corresponde a la separación entre oraciones. Permite pasar una lista de oraciones como batches a las redes neuronales.

- La primera columna del archivo contiene todos los tokens de la partición.

- La segunda columna del archivo contiene el tipo de entidad asociado al token de la primera columna.

- Los tipos de entidades siguen un formato denominado *IOB2*. Si un tipo de entidad comienza con el prefijo "B-" (Beginning) significa que es el token de inicio de una entidad, si comienza con "I-" (Inside) es un token distinto al de inicio y si un token está asociado a la categoría O (Outside) significa que no pertenece a ninguna entidad.

Ejemplo:

```
PACIENTE O
PRESENTA O
FRACTURA B-Disease
CORONARIA I-Disease
COMPLICADA I-Disease
EN O
PIE B-Body_Part
IZQUIERDO I-Body_Part
. O
SE O
REALIZA O
INSTRUMENTACION B-Procedure
INTRACONDUCTO I-Procedure
. O
```

Por la definición se tienen las siguientes tres entidades (enumerando desde 0): 

- $(2, 4, Disease)$
- $(6, 7, Body Part)$
- $(11, 12, Procedure)$

El rendimiento de los modelos es sometido bajo **métricas estrictas**. Solamente se considera correcta una predicción si, al compararla con las entidades reales, **coinciden tanto los límites de la entidad como el tipo.** 

Tomando el caso anterior, si un modelo es capaz de encontrar la siguiente entidad: $(2, 3, Disease)$, entonces se considera incorrecto ya que pudo predecir dos de los tres tokens de dicha enfermedad. Se busca una métrica que sea alta a nivel de entidad y no a nivel de token.

Se vislumbra como desafío el diseño de redes neuronales capaces de solucionar la task correctamente. La información es de carácter nacional, lo que la hace aún más interesante. El formato del corpus exige predecir a nivel de entidad y no de token, también aumentando la dificultad para resolver la task correctamente. Por último, queda señalar que la naturaleza de los algoritmos a emplear, al ser no supervisada (Deep Learning), dificulta un poco estas primeras etapas de aprendizaje para los alumnos, por su grado de complejidad. No obstante, se espera aprender mucho al haber finalizado la competencia, acumulando experiencia para los siguientes cursos que los alumnos puedan tomar.

## Modelos 


En primera instancia, a los siguientes modelos se les fueron alterando los siguientes hiperparámetros (en caso de poseerlos) para realizar los experimentos:

- INPUT_DIM, tamaño del vocabulario.
- EMBEDDING_WEIGHT, embedding pre entrenados.
- EMBEDDING_DIM, dimensión de los embeddings.
- HIDDEN_DIM = 128, dimensión de la capas.
- OUTPUT_DIM, número de clases.
- N_LAYERS = 3, número de capas.
- DROPOUT = 0.2, valor del dropout (probabilidad de remover neuronas en las capas para evitar que se co-adapten entre ellas).
- BIDIRECTIONAL, booleano para activar bidireccionalidad.
- n_epochs, itereaciones para el entrenamiento.

Como función de loss, se mantuvo constante Cross Entropy.

### Modelo 1: LSTM Bidireccional

Este modelo es similar al de la baseline, pero se activó el parámetro bidireccional. Más adelante se fueron ajustado algunos hiperparámetros.

### Modelo 2: LSTM + Bidireccional + Embedding Clinicos

Este modelo es similar al de la baseline, pero se activó el parámetro bidireccional. También se le fueron ajustado algunos hiperparámetros más adelante. El punto importante fue la adición de embeddings clínicos pre-entrenados de la lista de espera chilena (obtenido de https://zenodo.org/record/3924799) a la arquitectura de la RNN. 

### Modelo 3: GRU + Bidireccional

GRU bidireccional. Como nota aparte, en las primeras instancias del trabajo, fue aquel que entregó mejores resultados preliminares, por lo que se prefirió por sobre los LSTM anteriormente mencionados en gran parte de los experimentos.

### Modelo 4: GRU + Bidireccional + Embedding 

Similar al modelo 3, pero con la adición de distintos embeddings pre-entrenados:

 - Los clínicos de https://zenodo.org/record/3924799 ya mencionados.
 - FastText embeddings de SUC.
 - GloveEmbeddings de SBWC.
 - FastText embeddings SBWC.

Se añadieron más embeddings en comparación al modelo 2 por lo mencionado en el modelo 3. Todos fueron obtenidos de https://github.com/dccuchile/spanish-word-embeddings

## Métricas de evaluación



- **Métrica estricta:** Para que una entidad se considere predicha exitosamente por un modelo, deben reconocerse correctamente los límites y el tipo de entidad en conjunto. Si al menos uno de esos dos aspectos es erróneo, toda la entidad estará incorrectamente catalogada.
- **Precision:** Esta métrica indica qué tan válidos son los resultados extraídos. Es la fracción de resultados de una categoría **que realmente lo son** sobre resultados seleccionados en dicha categoría por el algoritmo: $\frac{verdaderos \ positivos}{elementos \ seleccionados \ como \ positivos}$. 
- **Recall:** Esta métrica indica qué tan completos son los resultados extraídos. De manera sencilla, sería: $\frac{verdaderos \ positivos}{todos \ los \ positivos}$.
- **Micro F1 score:** Es el promedio armónico entre precision y recall, por lo tanto: $\frac{2}{recall^{-1} \ * \ precision^{-1}} = \frac{verdadero \ positivo}{verdadero \ positivo \ + \ 1/2 \ * \ (falso \ positivo \ + \ falso \ negativo)}$.

    Macro F1 computa las métricas de F1 para todas las clases de manera independiento para luego promediarlas , mientras que micro F1 suma las contribuciones de todas las clases (los verdaderos positivos) para calcular dicho promedio.

## Diseño experimental

### Experimentos preliminares

En un principio, se compararon los tres primeros modelos propuestos con los parámetros predeterminados (baseline), observando que el modelo 3 arrojaba mejores resultados de manera notoria en comparación a los otros dos modelos, haciendo referencia a las métricas estrictas como criterios de evaluación. Por esta razón, se prefirió continuar con él. A partir de esto, surgió el modelo 4, explicado más adelante. 

Cabe señalar que el modelo 2, que adoptaba embeddings pre-entrenados,  daba resultados inferiores al modelo 1. También que casi la totalidad de los experimentos incluyeron early stopping para prevenir modelos overfitteados. Esto será analizado más adelante en los resultados y conclusiones.

En relación a porqué no se optó por refinar los primeros dos modelos para continuar comparándolos, esto es a causa de no comprender en su totalidad la injerencia de los diversos parámetros e hiperparámetros de los modelos de redes neuronales. Si bien se pueden estudiar sus definiciones, conocer a fondo la totalidad de sus repercusiones en su procesamiento al ser estos alterados aún escapa de las habilidades de los estudiantes. Se fueron modificando y comparando los parámetros de manera muy sencilla, con el fin de aprender lo mejor posible, yendo en desmedro de complejizar las estructuras encargadas de resolver las tareas. Si bien esto puede resultar cuestionable, permitió acercarse de manera más didáctica a la competencia. Esto se pudo notar al superar los resultados de la baseline y aprender a identificar un modelo overfitteado, problema que el grupo pudo sobrellevar de mejor manera al mirar retrospectivamente el trabajo de la competencia 1.

### Experimentos principales

Luego de lo anterior, el resto de los experimentos involucraron al modelo 3 y 4, en donde se variaron una diversidad de parámetros y optimizadores (Adam, AdamW, Adafactor, etc) para realizarlos. Respecto a esto último, finalmente se le dio prioridad a Adam, dado que arrojó mejores resultados que el resto. Resumiendo este apartado, se observó que el modelo 3 era superior al modelo 4, tanto en loss como métricas estrictas. Por esta razón, se optó por continuar con éste.

### Experimentos finales

Finalizando los diseños, se buscó refinar lo más posible el modelo 3, ajustando sus hiperparámetros y aspectos asociados de manera exhaustiva. Esto es explicado en la sección de resultados.

## Experimentos



###  Carga de datos y Preprocesamiento

Para cargar los datos y preprocesarlos usaremos la librería [`torchtext`](https://github.com/pytorch/text).
En particular usaremos su módulo `data`, el cual según su documentación original provee: 

    - Ability to describe declaratively how to load a custom NLP dataset that's in a "normal" format
    - Ability to define a preprocessing pipeline
    - Batching, padding, and numericalizing (including building a vocabulary object)
    - Wrapper for dataset splits (train, validation, test)


El proceso será el siguiente: 

1. Descargar los datos desde github y examinarlos.
2. Definir los campos (`fields`) que cargaremos desde los archivos.
3. Cargar los datasets.
4. Crear el vocabulario.



In [1]:
# Instalamos torchtext que nos facilitará la vida en el pre-procesamiento del formato ConLL.
!pip3 install --upgrade torchtext

Requirement already up-to-date: torchtext in /usr/local/lib/python3.7/dist-packages (0.10.0)


In [2]:
import torch
from torchtext import data, datasets, legacy


# Garantizar reproducibilidad de los experimentos
SEED = 1234
torch.manual_seed(SEED)
torch.backends.cudnn.deterministic = True

#### Obtener datos

Descargamos los datos de entrenamiento, validación y prueba en nuestro directorio de trabajo

In [3]:
#%%capture

!wget https://github.com/dccuchile/CC6205/releases/download/v1.0/train.txt -nc # Dataset de Entrenamiento
!wget https://github.com/dccuchile/CC6205/releases/download/v1.0/dev.txt -nc    # Dataset de Validación (Para probar y ajustar el modelo)
!wget https://github.com/dccuchile/CC6205/releases/download/v1.0/test.txt -nc  # Dataset de la Competencia. Estos datos solo contienen los tokens. ¡¡SON LOS QUE DEBEN SER PREDICHOS!!

--2021-07-13 02:38:29--  https://github.com/dccuchile/CC6205/releases/download/v1.0/train.txt
Resolving github.com (github.com)... 140.82.113.3
Connecting to github.com (github.com)|140.82.113.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://github-releases.githubusercontent.com/196273020/77198f00-c145-11eb-83d1-11e647241ab6?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20210713%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20210713T023753Z&X-Amz-Expires=300&X-Amz-Signature=a51666ea45f4c403f7b515ef76d51e07d423d671239e052b1da4a189fcaf60af&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=196273020&response-content-disposition=attachment%3B%20filename%3Dtrain.txt&response-content-type=application%2Foctet-stream [following]
--2021-07-13 02:38:29--  https://github-releases.githubusercontent.com/196273020/77198f00-c145-11eb-83d1-11e647241ab6?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20210713%2F

#### Obtener embeddings


In [4]:
import csv
import gzip
import os
import shutil

import requests

Embeddings clinicos


In [5]:
VEC_FILE = "cwlce.vec"

# Descargar embeddings de aca
# https://zenodo.org/record/3924799/files/cwlce.vec?download=1
if not os.path.exists(VEC_FILE):
    print(f"Descargando {VEC_FILE}")
    url = "https://zenodo.org/record/3924799/files/cwlce.vec?download=1"
    response = requests.get(url, stream=True)
    try:
        open(VEC_FILE, "wb").write(response.content)
    except Exception as e:
        os.remove(VEC_FILE)
        raise e

Descargando cwlce.vec


Los siguientes embeddings son bastante pesados asi que estos fueron ejecutados en la medida que se requerian

Spanish Unannotated Corpora

In [6]:
'''
VEC2_FILE = "em1.vec"

# Descargar embeddings de aca
# https://zenodo.org/record/3234051/files/embeddings-l-model.vec?download=1
if not os.path.exists(VEC2_FILE):
    print(f"Descargando {VEC2_FILE}")
    url = "https://zenodo.org/record/3234051/files/embeddings-l-model.vec?download=1"
    response = requests.get(url, stream=True)
    try:
        open(VEC2_FILE, "wb").write(response.content)
    except Exception as e:
        os.remove(VEC2_FILE)
        raise e
'''

'\nVEC2_FILE = "em1.vec"\n\n# Descargar embeddings de aca\n# https://zenodo.org/record/3234051/files/embeddings-l-model.vec?download=1\nif not os.path.exists(VEC2_FILE):\n    print(f"Descargando {VEC2_FILE}")\n    url = "https://zenodo.org/record/3234051/files/embeddings-l-model.vec?download=1"\n    response = requests.get(url, stream=True)\n    try:\n        open(VEC2_FILE, "wb").write(response.content)\n    except Exception as e:\n        os.remove(VEC2_FILE)\n        raise e\n'

FastText embeddings from SBWC

In [7]:
'''
FASTTEXT_FILE = "fasttext300d.vec"

# Descargar vectores fasttext de aca
# http://dcc.uchile.cl/~jperez/word-embeddings/fasttext-sbwc.vec.gz
if not os.path.exists(FASTTEXT_FILE):
    print(f"Descargando {FASTTEXT_FILE}")
    url = "http://dcc.uchile.cl/~jperez/word-embeddings/fasttext-sbwc.vec.gz"
    response = requests.get(url, stream=True)
    try:
        with gzip.open(response.raw, "rb") as f_in:
            with open(FASTTEXT_FILE, "wb") as f_out:
                # Funcion util para copiar de un file-like object a otro
                shutil.copyfileobj(f_in, f_out)
    except Exception as e:
        os.remove(FASTTEXT_FILE)
        raise e
'''

'\nFASTTEXT_FILE = "fasttext300d.vec"\n\n# Descargar vectores fasttext de aca\n# http://dcc.uchile.cl/~jperez/word-embeddings/fasttext-sbwc.vec.gz\nif not os.path.exists(FASTTEXT_FILE):\n    print(f"Descargando {FASTTEXT_FILE}")\n    url = "http://dcc.uchile.cl/~jperez/word-embeddings/fasttext-sbwc.vec.gz"\n    response = requests.get(url, stream=True)\n    try:\n        with gzip.open(response.raw, "rb") as f_in:\n            with open(FASTTEXT_FILE, "wb") as f_out:\n                # Funcion util para copiar de un file-like object a otro\n                shutil.copyfileobj(f_in, f_out)\n    except Exception as e:\n        os.remove(FASTTEXT_FILE)\n        raise e\n'

GloVe embeddings from SBWC

In [8]:
'''
GLOVE_FILE = "glove300d.vec"

# Descargar vectores glove de aca
# https://github.com/dccuchile/spanish-word-embeddings
if not os.path.exists(GLOVE_FILE):
    print(f"Descargando {GLOVE_FILE}")
    url = "http://dcc.uchile.cl/~jperez/word-embeddings/glove-sbwc.i25.vec.gz"
    response = requests.get(url, stream=True)
    try:
        with gzip.open(response.raw, "rb") as f_in:
            with open(GLOVE_FILE, "wb") as f_out:
                # Funcion util para copiar de un file-like object a otro
                shutil.copyfileobj(f_in, f_out)
    except Exception as e:
        os.remove(GLOVE_FILE)
        raise e
'''

'\nGLOVE_FILE = "glove300d.vec"\n\n# Descargar vectores glove de aca\n# https://github.com/dccuchile/spanish-word-embeddings\nif not os.path.exists(GLOVE_FILE):\n    print(f"Descargando {GLOVE_FILE}")\n    url = "http://dcc.uchile.cl/~jperez/word-embeddings/glove-sbwc.i25.vec.gz"\n    response = requests.get(url, stream=True)\n    try:\n        with gzip.open(response.raw, "rb") as f_in:\n            with open(GLOVE_FILE, "wb") as f_out:\n                # Funcion util para copiar de un file-like object a otro\n                shutil.copyfileobj(f_in, f_out)\n    except Exception as e:\n        os.remove(GLOVE_FILE)\n        raise e\n'

####  Fields

Un `field`:

* Define un tipo de datos junto con instrucciones para convertir el texto a Tensor.
* Contiene un objeto `Vocab` que contiene el vocabulario (palabras posibles que puede tomar ese campo).
* Contiene otros parámetros relacionados con la forma en que se debe numericalizar un tipo de datos, como un método de tokenización y el tipo de Tensor que se debe producir.


Analizemos el siguiente cuadro el cual contiene un ejemplo cualquiera de entrenamiento:


```
El O
paciente O
padece O
de O
cancer B-Disease
de I-Disease
colon I-Disease
. O
```

Cada linea contiene un token y el tipo de entidad asociado en el formato IOB2 ya explicado. Para que `torchtext` pueda cargar estos datos, debemos definir como va a leer y separar los componentes de cada una de las lineas.
Para esto, definiremos un field para cada uno de esos componentes: Las palabras (`tokens`) y los NER_TAGS (`categorías`).


In [9]:
# Primer Field: TEXT. Representan los tokens de la secuencia
TEXT = legacy.data.Field(lower=False) 

# Segundo Field: NER_TAGS. Representan los Tags asociados a cada palabra.
NER_TAGS = legacy.data.Field(unk_token=None)
fields = (("text", TEXT), ("nertags", NER_TAGS))

Cargar embedding


In [10]:
from torchtext import vocab

# Para cargar los vectores de embeddings (que son esencialmente un vocabulario
# donde cada palabra tiene asociado un vector) pueden usar la clase vocab.Vectors

clinic_embeddings = vocab.Vectors(VEC_FILE)

# CARGAR LOS OTROS EMBEDDINGS

#suc_embeddings = vocab.Vectors(VEC2_FILE)
#fasttext_embeddings = vocab.Vectors(FASTTEXT_FILE)
#glove_embeddings = vocab.Vectors(GLOVE_FILE)

  0%|          | 0/57112 [00:00<?, ?it/s]Skipping token b'57112' with 1-dimensional vector [b'300']; likely a header
 99%|█████████▉| 56773/57112 [00:05<00:00, 10396.60it/s]


####  SequenceTaggingDataset

`SequenceTaggingDataset` es una clase de torchtext diseñada para contener datasets de sequence labelling. 
Los ejemplos que se guarden en una instancia de estos serán arreglos de palabras pareados con sus respectivos tags.
Por ejemplo, para Part-of-speech tagging:

[I, love, PyTorch, .] estará pareado con [PRON, VERB, PROPN, PUNCT]


La idea es que usando los fields que definimos antes, le indiquemos a la clase cómo cargar los datasets de prueba, validación y test.

In [11]:
train_data, valid_data, test_data = legacy.datasets.SequenceTaggingDataset.splits(
    path="./",
    train="train.txt",
    validation="dev.txt",
    test="test.txt",
    fields=fields,
    encoding="utf-8",
    separator=" "
)

In [12]:
print(f"Numero de ejemplos de entrenamiento: {len(train_data)}")
print(f"Número de ejemplos de validación: {len(valid_data)}")
print(f"Número de ejemplos de test (competencia): {len(test_data)}")

Numero de ejemplos de entrenamiento: 8025
Número de ejemplos de validación: 891
Número de ejemplos de test (competencia): 992


Visualizemos un ejemplo

In [13]:
import random
random_item_idx = random.randint(0, len(train_data))
random_example = train_data.examples[random_item_idx]
list(zip(random_example.text, random_example.nertags))

[('solicito', 'O'),
 ('poder', 'O'),
 ('evaluar', 'O'),
 ('posibilidad', 'O'),
 ('de', 'O'),
 ('retratamiento', 'B-Procedure'),
 ('o', 'O'),
 ('de', 'O'),
 ('ser', 'O'),
 ('necesario', 'O'),
 ('realizar', 'O'),
 ('derivación', 'O'),
 ('interna', 'O'),
 ('para', 'O'),
 ('cirugía', 'B-Procedure'),
 ('apical', 'I-Procedure')]

#### Construir los vocabularios para el texto y las etiquetas

Los vocabularios son los obbjetos que contienen todos los tokens (de entrenamiento) posibles para ambos fields.
El siguiente paso consiste en construirlos. Para esto, hacemos uso del método `Field.build_vocab` sobre cada uno de nuestros `fields`. 

In [14]:
TEXT.build_vocab(train_data)
NER_TAGS.build_vocab(train_data)

In [15]:
print(f"Tokens únicos en TEXT: {len(TEXT.vocab)}")
print(f"Tokens únicos en NER_TAGS: {len(NER_TAGS.vocab)}")

Tokens únicos en TEXT: 17591
Tokens únicos en NER_TAGS: 12


In [16]:
#Veamos las posibles etiquetas que hemos cargado:
NER_TAGS.vocab.itos

['<pad>',
 'O',
 'I-Disease',
 'B-Disease',
 'I-Body_Part',
 'B-Body_Part',
 'B-Procedure',
 'I-Procedure',
 'B-Medication',
 'B-Family_Member',
 'I-Medication',
 'I-Family_Member']

Observen que ademas de los tags NER, tenemos \<pad\>, el cual es generado por el dataloader para cumplir con el padding de cada oración.

Veamos ahora los tokens mas frecuentes y especiales:

In [17]:
# Tokens mas frecuentes
TEXT.vocab.freqs.most_common(10)

[('.', 7396),
 (',', 6821),
 ('-', 4985),
 ('de', 3811),
 ('DE', 3645),
 ('/', 2317),
 (':', 2209),
 ('con', 1484),
 ('y', 1439),
 ('APS', 1429)]

In [18]:
# Seteamos algunas variables que nos serán de utilidad mas adelante...
UNK_IDX = TEXT.vocab.stoi[TEXT.unk_token]
PAD_IDX = TEXT.vocab.stoi[TEXT.pad_token]

PAD_TAG_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
O_TAG_IDX = NER_TAGS.vocab.stoi['O']

#### Frecuencia de los Tags

Visualizemos rápidamente las cantidades y frecuencias de cada tag:

In [19]:
def tag_percentage(tag_counts):
    
    total_count = sum([count for tag, count in tag_counts])
    tag_counts_percentages = [(tag, count, count/total_count) for tag, count in tag_counts]
  
    return tag_counts_percentages

print("Tag Ocurrencia Porcentaje\n")

for tag, count, percent in tag_percentage(NER_TAGS.vocab.freqs.most_common()):
    print(f"{tag}\t{count}\t{percent*100:4.1f}%")

Tag Ocurrencia Porcentaje

O	101671	68.1%
I-Disease	21629	14.5%
B-Disease	8831	 5.9%
I-Body_Part	6489	 4.3%
B-Body_Part	3755	 2.5%
B-Procedure	2891	 1.9%
I-Procedure	2819	 1.9%
B-Medication	784	 0.5%
B-Family_Member	228	 0.2%
I-Medication	116	 0.1%
I-Family_Member	9	 0.0%


#### Configuramos pytorch y dividimos los datos.

Importante: si tienes problemas con la ram de la gpu, disminuye el tamaño de los batches

In [20]:
BATCH_SIZE = 16  # disminuir si hay problemas de ram.

# Usar cuda si es que está disponible.
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print('Using', device)

# Dividir datos entre entrenamiento y test
train_iterator, valid_iterator, test_iterator = legacy.data.BucketIterator.splits(
    (train_data, valid_data, test_data),
    batch_size=BATCH_SIZE,
    device=device,
    sort=False,
)

Using cuda


#### Métricas de evaluación

Además, definiremos las métricas que serán usadas tanto para la competencia como para evaluar el modelo: `precision`, `recall` y `f1`.
**Importante**: Noten que la evaluación solo se hace para las Named Entities (sin contar 'O').

In [21]:
!pip install seqeval

Collecting seqeval
[?25l  Downloading https://files.pythonhosted.org/packages/9d/2d/233c79d5b4e5ab1dbf111242299153f3caddddbb691219f363ad55ce783d/seqeval-1.2.2.tar.gz (43kB)
[K     |███████▌                        | 10kB 17.0MB/s eta 0:00:01[K     |███████████████                 | 20kB 24.3MB/s eta 0:00:01[K     |██████████████████████▌         | 30kB 29.0MB/s eta 0:00:01[K     |██████████████████████████████  | 40kB 31.0MB/s eta 0:00:01[K     |████████████████████████████████| 51kB 6.7MB/s 
Building wheels for collected packages: seqeval
  Building wheel for seqeval (setup.py) ... [?25l[?25hdone
  Created wheel for seqeval: filename=seqeval-1.2.2-cp37-none-any.whl size=16184 sha256=0c2c1a3b41321f3fecd2151b02d593c0849530f7c5d9e2024667803f8db31024
  Stored in directory: /root/.cache/pip/wheels/52/df/1b/45d75646c37428f7e626214704a0e35bd3cfc32eda37e59e5f
Successfully built seqeval
Installing collected packages: seqeval
Successfully installed seqeval-1.2.2


In [22]:
# Definimos las métricas

from seqeval.metrics import f1_score, precision_score, recall_score
import warnings

def calculate_metrics(preds, y_true, pad_idx=PAD_TAG_IDX, o_idx=O_TAG_IDX):
    """
    Calcula precision, recall y f1 de cada batch.
    """

    # Obtener el indice de la clase con probabilidad mayor. (clases)
    y_pred = preds.argmax(dim=1, keepdim=True)
    # Obtenemos los indices distintos de 0.

    # filtramos <pad> y O para calcular los scores.
    mask = [(y_true != pad_idx)]
    y_pred = y_pred[mask]
    y_true = y_true[mask]

    # traemos a la cpu
    y_pred = y_pred.view(-1).to('cpu').numpy()
    y_true = y_true.to('cpu').numpy()
    y_pred = [[NER_TAGS.vocab.itos[v] for v in y_pred]]
    y_true = [[NER_TAGS.vocab.itos[v] for v in y_true]]
    
    # calcular scores
    f1 = f1_score(y_true, y_pred, mode='strict')
    precision = precision_score(y_true, y_pred, mode='strict')
    recall = recall_score(y_true, y_pred, mode='strict')

    return precision, recall, f1

-------------------

### Baseline Model

Teniendo ya cargado los datos, toca definir nuestro modelo. Este baseline tendrá una capa de embedding, unas cuantas LSTM y una capa de salida y usará dropout en el entrenamiento.

Este constará de los siguientes pasos: 

1. Definir la clase que contendrá la red.
2. Definir los hiperparámetros e inicializar la red. 
3. Definir la época de entrenamiento
3. Definir la función de loss.


In [23]:
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

# Definir la red
class NER_RNN(nn.Module):
    def __init__(self, 
                 input_dim, 
                 embedding_dim, 
                 hidden_dim, 
                 output_dim,
                 n_layers, 
                 bidirectional, 
                 dropout, 
                 pad_idx):

        super().__init__()

        # Capa de embedding
        self.embedding = nn.Embedding(input_dim,
                                      embedding_dim,
                                      padding_idx=pad_idx)

        # Capa LSTM
        self.lstm = nn.RNN(embedding_dim,
                           hidden_dim,
                           num_layers=n_layers,
                           bidirectional=bidirectional, 
                           dropout = dropout if n_layers > 1 else 0)

        # Capa de salida
        self.fc = nn.Linear(hidden_dim * 2 if bidirectional else hidden_dim,
                            output_dim)

        # Dropout
        self.dropout = nn.Dropout(dropout)

    def forward(self, text):

        #text = [sent len, batch size]

        # Convertir lo enviado a embedding
        embedded = self.dropout(self.embedding(text))
        #print("EMBED SIZE", embedded.shape)
        
        outputs, (hidden) = self.lstm(embedded)
        #embedded = [sent len, batch size, emb dim]
        #print("outputs SIZE", outputs.shape)
        # Pasar los embeddings por la rnn (LSTM)

        #output = [sent len, batch size, hid dim * n directions]
        #hidden/cell = [n layers * n directions, batch size, hid dim]

        # Predecir usando la capa de salida.
        predictions = self.fc(self.dropout(outputs))
        #print("predictions SIZE", predictions.shape)
        #predictions = [sent len, batch size, output dim]

        return predictions

#### Hiperparámetros de la red

Definimos los hiperparámetros. 

In [24]:
# tamaño del vocabulario. recuerden que la entrada son vectores bag of word(one-hot).
INPUT_DIM = len(TEXT.vocab)
EMBEDDING_DIM = 200  # dimensión de los embeddings.
HIDDEN_DIM = 128  # dimensión de la capas LSTM
OUTPUT_DIM = len(NER_TAGS.vocab)  # número de clases

N_LAYERS = 3  # número de capas.
DROPOUT = 0.5
BIDIRECTIONAL = False

# Creamos nuestro modelo.
baseline_model = NER_RNN(INPUT_DIM, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         N_LAYERS, BIDIRECTIONAL, DROPOUT, PAD_IDX)

baseline_model_name = 'baseline'  # nombre que tendrá el modelo guardado...

In [25]:
baseline_n_epochs = 10

#### Definimos la función de loss

In [26]:
# Loss: Cross Entropy
TAG_PAD_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
baseline_criterion = nn.CrossEntropyLoss(ignore_index = TAG_PAD_IDX)

### Arquitecturas Modelos propuestos

#### 1- LSTM Embedding pre-entrenados

In [27]:
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

# Definir la red
class NER_RNN_EB(nn.Module):
    def __init__(self, 
                 input_dim,
                 embedding_weights, 
                 embedding_dim,
                 hidden_dim, 
                 output_dim,
                 n_layers, 
                 bidirectional, 
                 dropout, 
                 pad_idx):

        super().__init__()

        # Capa de embedding
        self.embedding = nn.Embedding.from_pretrained(embedding_weights.clone(),
                                                      freeze=True,
                                                      padding_idx=pad_idx)

        # Capa LSTM
        self.lstm = nn.RNN(embedding_dim,
                           hidden_dim,
                           num_layers=n_layers,
                           bidirectional=bidirectional, 
                           dropout = dropout if n_layers > 1 else 0)

        # Capa de salida
        self.fc = nn.Linear(hidden_dim * 2 if bidirectional else hidden_dim,
                            output_dim)

        # Dropout
        self.dropout = nn.Dropout(dropout)

    def forward(self, text):

        #text = [sent len, batch size]

        # Convertir lo enviado a embedding
        embedded = self.dropout(self.embedding(text))
        #print("EMBED SIZE", embedded.shape)
        
        outputs, (hidden) = self.lstm(embedded)
        #embedded = [sent len, batch size, emb dim]
        #print("outputs SIZE", outputs.shape)
        # Pasar los embeddings por la rnn (LSTM)

        #output = [sent len, batch size, hid dim * n directions]
        #hidden/cell = [n layers * n directions, batch size, hid dim]

        # Predecir usando la capa de salida.
        predictions = self.fc(self.dropout(outputs))
        #print("predictions SIZE", predictions.shape)
        #predictions = [sent len, batch size, output dim]

        return predictions

#### 2 - GRU 


In [28]:
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

# Definir la red
class GRU_RNN(nn.Module):
    def __init__(self, 
                 input_dim, 
                 embedding_dim, 
                 hidden_dim, 
                 output_dim,
                 n_layers, 
                 bidirectional, 
                 dropout, 
                 pad_idx):

        super().__init__()

        # Capa de embedding
        self.embedding = nn.Embedding(input_dim,
                                      embedding_dim,
                                      padding_idx=pad_idx)

        # Capa GRU
        self.gru = nn.GRU(embedding_dim,
                           hidden_dim,
                           num_layers=n_layers,
                           bidirectional=bidirectional, 
                           dropout = dropout if n_layers > 1 else 0)

        # Capa de salida
        self.fc = nn.Linear(hidden_dim * 2 if bidirectional else hidden_dim,
                            output_dim)

        # Dropout
        self.dropout = nn.Dropout(dropout)

    def forward(self, text):

        #text = [sent len, batch size]

        # Convertir lo enviado a embedding
        embedded = self.dropout(self.embedding(text))
        #print("EMBED SIZE", embedded.shape)
        
        outputs, (hidden) = self.gru(embedded)
        #embedded = [sent len, batch size, emb dim]
        #print("outputs SIZE", outputs.shape)
        # Pasar los embeddings por la rnn (LSTM)

        #output = [sent len, batch size, hid dim * n directions]
        #hidden/cell = [n layers * n directions, batch size, hid dim]

        # Predecir usando la capa de salida.
        predictions = self.fc(self.dropout(outputs))
        #print("predictions SIZE", predictions.shape)
        #predictions = [sent len, batch size, output dim]

        return predictions

#### 3 - GRU + Embedding pre-entrenados

In [29]:
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

# Definir la red
class GRU_RNN_EB(nn.Module):
    def __init__(self, 
                 input_dim, 
                 embedding_weights, 
                 embedding_dim,
                 hidden_dim, 
                 output_dim,
                 n_layers, 
                 bidirectional, 
                 dropout, 
                 pad_idx):

        super().__init__()

        # Capa de embedding
        self.embedding = nn.Embedding.from_pretrained(embedding_weights.clone(),
                                                      freeze=True,
                                                      padding_idx=pad_idx)

        # Capa GRU
        self.gru = nn.GRU(embedding_dim,
                           hidden_dim,
                           num_layers=n_layers,
                           bidirectional=bidirectional, 
                           dropout = dropout if n_layers > 1 else 0)

        # Capa de salida
        self.fc = nn.Linear(hidden_dim * 2 if bidirectional else hidden_dim,
                            output_dim)

        # Dropout
        self.dropout = nn.Dropout(dropout)

    def forward(self, text):

        #text = [sent len, batch size]

        # Convertir lo enviado a embedding
        embedded = self.dropout(self.embedding(text))
        #print("EMBED SIZE", embedded.shape)
        
        outputs, (hidden) = self.gru(embedded)
        #embedded = [sent len, batch size, emb dim]
        #print("outputs SIZE", outputs.shape)
        # Pasar los embeddings por la rnn (LSTM)

        #output = [sent len, batch size, hid dim * n directions]
        #hidden/cell = [n layers * n directions, batch size, hid dim]

        # Predecir usando la capa de salida.
        predictions = self.fc(self.dropout(outputs))
        #print("predictions SIZE", predictions.shape)
        #predictions = [sent len, batch size, output dim]

        return predictions

--------------------
### Modelo 1: LSTM Bidireccional



In [30]:
# tamaño del vocabulario. recuerden que la entrada son vectores bag of word(one-hot).
INPUT_DIM = len(TEXT.vocab)
EMBEDDING_DIM = 200  # dimensión de los embeddings.
HIDDEN_DIM = 128  # dimensión de la capas LSTM
OUTPUT_DIM = len(NER_TAGS.vocab)  # número de clases

N_LAYERS = 3  # número de capas.
DROPOUT = 0.5
BIDIRECTIONAL = True

# Creamos nuestro modelo.
model1 = NER_RNN(INPUT_DIM, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         N_LAYERS, BIDIRECTIONAL, DROPOUT, PAD_IDX)

model1_name = 'modelo1'  # nombre que tendrá el modelo guardado...

In [31]:
n_epochs1 = 15 # itereaciones

In [32]:
# Loss: Cross Entropy
TAG_PAD_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
criterion1 = nn.CrossEntropyLoss(ignore_index = TAG_PAD_IDX)

In [33]:
model_1 = model1
model_name_1 = model1_name
n_epochs_1 = n_epochs1
loss_1 = criterion1

---------------

### Modelo 2: LSTM + Bidireccional + Embedding Clinicos

In [45]:
from operator import attrgetter
# Para asociarle a los tokens vectores de embedding a partir de una lista
# de embeddings pueden usar el metodo .set_vector sobre el vocab del Field.
# Este metodo recibe 3 argumentos, un mapeo del token al indice dentro de la
# lista de embeddings que corresponde a dicho token, la lista de vectores
# de embedding y la dimension de los embeddings
TEXT.vocab.set_vectors(*attrgetter("stoi", "vectors", "dim")(clinic_embeddings))

In [46]:
# tamaño del vocabulario. recuerden que la entrada son vectores bag of word(one-hot).
INPUT_DIM = len(TEXT.vocab)
EMBEDDING_WEIGHT = TEXT.vocab.vectors # Embedding pre entrenados
EMBEDDING_DIM = EMBEDDING_WEIGHT.shape[1] # dimensión de los embeddings.
HIDDEN_DIM = 128  # dimensión de la capas LSTM
OUTPUT_DIM = len(NER_TAGS.vocab)  # número de clases

N_LAYERS = 3  # número de capas.
DROPOUT = 0.5
BIDIRECTIONAL = True

# Creamos nuestro modelo.
model2 = NER_RNN_EB(INPUT_DIM, EMBEDDING_WEIGHT, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         N_LAYERS, BIDIRECTIONAL, DROPOUT, PAD_IDX)

model2_name = 'modelo2'  # nombre que tendrá el modelo guardado...

In [47]:
n_epochs2 = 20 # itereaciones

In [48]:
# Loss: Cross Entropy
TAG_PAD_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
criterion2 = nn.CrossEntropyLoss(ignore_index = TAG_PAD_IDX)

In [49]:
model_2 = model2
model_name_2 = model2_name
n_epochs_2 = n_epochs2
loss_2 = criterion2

---------------


### Modelo 3: GRU + Bidireccional

In [291]:
# tamaño del vocabulario. recuerden que la entrada son vectores bag of word(one-hot).
INPUT_DIM = len(TEXT.vocab)
EMBEDDING_DIM = 200  # dimensión de los embeddings.
HIDDEN_DIM = 128  # dimensión de la capas GRU
OUTPUT_DIM = len(NER_TAGS.vocab)  # número de clases

N_LAYERS = 2  # número de capas.
DROPOUT = 0.2
BIDIRECTIONAL = True

# Creamos nuestro modelo.
model3 = GRU_RNN(INPUT_DIM, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         N_LAYERS, BIDIRECTIONAL, DROPOUT, PAD_IDX)

model3_name = 'modelo3'  # nombre que tendrá el modelo guardado...

In [292]:
n_epochs3 = 10 # itereaciones

In [293]:
# Loss: Cross Entropy
TAG_PAD_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
criterion3 = nn.CrossEntropyLoss(ignore_index = TAG_PAD_IDX)

In [294]:
model_3 = model3
model_name_3 = model3_name
n_epochs_3 = n_epochs3
loss_3 = criterion3

### Modelo 4: GRU + Bidireccional + Embedding 

Aqui se carga el embedding que se desea utilizar

In [59]:
#from operator import attrgetter
# Para asociarle a los tokens vectores de embedding a partir de una lista
# de embeddings pueden usar el metodo .set_vector sobre el vocab del Field.
# Este metodo recibe 3 argumentos, un mapeo del token al indice dentro de la
# lista de embeddings que corresponde a dicho token, la lista de vectores
# de embedding y la dimension de los embeddings

################################################################################
#                         v  EMBEDDINGS v                                      #
################################################################################


TEXT.vocab.set_vectors(*attrgetter("stoi", "vectors", "dim")(clinic_embeddings))
#TEXT.vocab.set_vectors(*attrgetter("stoi", "vectors", "dim")(suc_embeddings))
#TEXT.vocab.set_vectors(*attrgetter("stoi", "vectors", "dim")(fasttext_embeddings))
#TEXT.vocab.set_vectors(*attrgetter("stoi", "vectors", "dim")(glove_embeddings))

In [60]:
# tamaño del vocabulario. recuerden que la entrada son vectores bag of word(one-hot).
INPUT_DIM = len(TEXT.vocab)
EMBEDDING_WEIGHT = TEXT.vocab.vectors # Embedding pre entrenados
EMBEDDING_DIM = EMBEDDING_WEIGHT.shape[1] # dimensión de los embeddings.
HIDDEN_DIM = 128  # dimensión de la capas LSTM
OUTPUT_DIM = len(NER_TAGS.vocab)  # número de clases

N_LAYERS = 3  # número de capas.
DROPOUT = 0.5
BIDIRECTIONAL = True

# Creamos nuestro modelo.
model4 = GRU_RNN_EB(INPUT_DIM, EMBEDDING_WEIGHT, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         N_LAYERS, BIDIRECTIONAL, DROPOUT, PAD_IDX)

model4_name = 'modelo4'  # nombre que tendrá el modelo guardado...

In [61]:
n_epochs4 = 20 # itereaciones

In [62]:
# Loss: Cross Entropy
TAG_PAD_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
criterion4 = nn.CrossEntropyLoss(ignore_index = TAG_PAD_IDX)

In [63]:
model_4 = model4
model_name_4 = model4_name
n_epochs_4 = n_epochs4
loss_4 = criterion4

------
### Entrenamos y evaluamos:


#### Cargar modelo

##### Evaluacion Modelo 1


In [34]:
model = model_1
model_name = model_name_1
criterion = loss_1
n_epochs = n_epochs_1

##### Evaluacion Modelo 2



In [50]:
model = model_2
model_name = model_name_2
criterion = loss_2
n_epochs = n_epochs_2

##### Evaluacion Modelo 3



In [295]:
model = model_3
model_name = model_name_3
criterion = loss_3
n_epochs = n_epochs_3

##### Evaluacion Modelo 4


In [64]:
model = model_4
model_name = model_name_4
criterion = loss_4
n_epochs = n_epochs_4

#### Setear Modelo



##### Inicializamos la red

iniciamos los pesos de la red de forma aleatoria (Usando una distribución normal).


In [296]:
def init_weights(m):
    # Inicializamos los pesos como aleatorios
    for name, param in m.named_parameters():
        nn.init.normal_(param.data, mean=0, std=0.1) 
        
    # Seteamos como 0 los embeddings de UNK y PAD.
    model.embedding.weight.data[UNK_IDX] = torch.zeros(EMBEDDING_DIM)
    model.embedding.weight.data[PAD_IDX] = torch.zeros(EMBEDDING_DIM)
        
model.apply(init_weights)

GRU_RNN(
  (embedding): Embedding(17591, 200, padding_idx=1)
  (gru): GRU(200, 128, num_layers=2, dropout=0.2, bidirectional=True)
  (fc): Linear(in_features=256, out_features=12, bias=True)
  (dropout): Dropout(p=0.2, inplace=False)
)

In [297]:
def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f'El modelo actual tiene {count_parameters(model):,} parámetros entrenables.')

El modelo actual tiene 4,071,172 parámetros entrenables.


Por último, definimos los embeddings que representan a \<unk\> y \<pad\>  como [0, 0, ..., 0]

##### Definimos el optimizador

In [298]:
# Optimizador

#optimizer = optim.AdamW(model.parameters(), lr=0.0018)
optimizer = optim.AdamW(model.parameters(), lr= 0.0018, amsgrad=True)
#optimizer = optim.Adam(model.parameters())

#optimizer = optim.Adamax(model.parameters())
#optimizer = optim.Adadelta(model.parameters())
#optimizer = optim.SGD(model.parameters(), lr=0.5)
#optimizer = optim.ASGD(model.parameters())
#optimizer = optim.Rprop(model.parameters())
#optimizer = optim.RMSprop(model.parameters())
#optimizer = optim.Adagrad(model.parameters())

# Tambien se probo Adafactor de la libreria transformer
#optimizer = Adafactor(model.parameters()) 

##### Enviamos el modelo a cuda


In [299]:
# Enviamos el modelo y la loss a cuda (en el caso en que esté disponible)
model = model.to(device)
criterion = criterion.to(device)

##### Definimos el entrenamiento de la red

Algunos conceptos previos: 

- `epoch` : una pasada de entrenamiento completa de una dataset.
- `batch`: una fracción de la época. Se utilizan para entrenar mas rápidamente la red. (mas eficiente pasar n datos que uno en cada ejecución del backpropagation)

Esta función está encargada de entrenar la red en una época. Para esto, por cada batch de la época actual, predice los tags del texto, calcula su loss y luego hace backpropagation para actualizar los pesos de la red."

Observación: En algunos comentarios aparecerá el tamaño de los tensores entre corchetes

In [300]:
def train(model, iterator, optimizer, criterion):

    epoch_loss = 0
    epoch_precision = 0
    epoch_recall = 0
    epoch_f1 = 0

    model.train()

    # Por cada batch del iterador de la época:
    for batch in iterator:

        # Extraemos el texto y los tags del batch que estamos procesado
        text = batch.text
        tags = batch.nertags

        # Reiniciamos los gradientes calculados en la iteración anterior
        optimizer.zero_grad()

        #text = [sent len, batch size]

        # Predecimos los tags del texto del batch.
        predictions = model(text)

        #predictions = [sent len, batch size, output dim]
        #tags = [sent len, batch size]

        # Reordenamos los datos para calcular la loss
        predictions = predictions.view(-1, predictions.shape[-1])
        tags = tags.view(-1)

        #predictions = [sent len * batch size, output dim]
        #tags = [sent len * batch size]

        # Calculamos el Cross Entropy de las predicciones con respecto a las etiquetas reales
        loss = criterion(predictions, tags)
        
        # Calculamos el accuracy
        precision, recall, f1 = calculate_metrics(predictions, tags)

        # Calculamos los gradientes
        loss.backward()

        # Actualizamos los parámetros de la red
        optimizer.step()

        # Actualizamos el loss y las métricas
        epoch_loss += loss.item()
        epoch_precision += precision
        epoch_recall += recall
        epoch_f1 += f1

    return epoch_loss / len(iterator), epoch_precision / len(
        iterator), epoch_recall / len(iterator), epoch_f1 / len(iterator)

##### `Definimos la función de evaluación`

Evalua el rendimiento actual de la red usando los datos de validación. 

Por cada batch de estos datos, calcula y reporta el loss y las métricas asociadas al conjunto de validación. 
Ya que las métricas son calculadas por cada batch, estas son retornadas promediadas por el número de batches entregados. (ver linea del return)

In [301]:
def evaluate(model, iterator, criterion):

    epoch_loss = 0
    epoch_precision = 0
    epoch_recall = 0
    epoch_f1 = 0

    model.eval()

    # Indicamos que ahora no guardaremos los gradientes
    with torch.no_grad():
        # Por cada batch
        for batch in iterator:

            text = batch.text
            tags = batch.nertags

            # Predecimos
            predictions = model(text)

            predictions = predictions.view(-1, predictions.shape[-1])
            tags = tags.view(-1)

            # Calculamos el Cross Entropy de las predicciones con respecto a las etiquetas reales
            loss = criterion(predictions, tags)

            # Calculamos las métricas
            precision, recall, f1 = calculate_metrics(predictions, tags)

            # Actualizamos el loss y las métricas
            epoch_loss += loss.item()
            epoch_precision += precision
            epoch_recall += recall
            epoch_f1 += f1

    return epoch_loss / len(iterator), epoch_precision / len(
        iterator), epoch_recall / len(iterator), epoch_f1 / len(iterator)

In [302]:
import time

def epoch_time(start_time, end_time):
    elapsed_time = end_time - start_time
    elapsed_mins = int(elapsed_time / 60)
    elapsed_secs = int(elapsed_time - (elapsed_mins * 60))
    return elapsed_mins, elapsed_secs

### Entrenamientos


#### Entrenamiento sin EarlyStopping

Aqui se puede probar el modelo crgado sin EarlyStopping (por lo general casi todo fue ejecutado con EarlyStopping)



In [None]:
best_valid_loss = float('inf')

for epoch in range(n_epochs):

    start_time = time.time()

    # Recuerdo: train_iterator y valid_iterator contienen el dataset dividido en batches.

    # Entrenar
    train_loss, train_precision, train_recall, train_f1 = train(
        model, train_iterator, optimizer, criterion)

    # Evaluar (valid = validación)
    valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
        model, valid_iterator, criterion)

    end_time = time.time()

    epoch_mins, epoch_secs = epoch_time(start_time, end_time)

    # Si obtuvimos mejores resultados, guardamos este modelo en el almacenamiento (para poder cargarlo luego)
    # Si detienen el entrenamiento prematuramente, pueden cargar el modelo en el siguiente recuadro de código.
    if valid_loss < best_valid_loss:
        best_valid_loss = valid_loss
        torch.save(model.state_dict(), '{}.pt'.format(model_name))
    # Si ya no mejoramos el loss de validación, terminamos de entrenar.

    print(f'Epoch: {epoch+1:02} | Epoch Time: {epoch_mins}m {epoch_secs}s')
    print(
        f'\tTrain Loss: {train_loss:.3f} | Train f1: {train_f1:.2f} | Train precision: {train_precision:.2f} | Train recall: {train_recall:.2f}'
    )
    print(
        f'\t Val. Loss: {valid_loss:.3f} |  Val. f1: {valid_f1:.2f} |  Val. precision: {valid_precision:.2f} | Val. recall: {valid_recall:.2f}'
    )

In [None]:
# Limpiar ram de cuda
torch.cuda.empty_cache()

### EarlyStopping

In [42]:
#construiremos una clase propia para manejar el early stopping, dado
#que pytorch no posee una en concreto.

class EarlyStopping():

    patience = 0;
    delta = 0;
    loss = 0;
    stop = False;
    epoch_counter = 0;

    
    #1 - patience es la cantidad acumulada de epochs donde la loss no mejora 
    #    antes de detener el entrenamiento para prevenir overfitting
    #2 - delta es la diferencia minima entre la mejor loss hasta el momento
    #    y la loss de la epoch actual donde se verifica que ha mejorado
    #3 - loss es la mejor loss hasta el momento
    #4 - stop indica cuando se debe detener la iteracion de epochs
    #5 - epoch_counter indica la cantidad seguida de epochs que no han mejorado
    #    la loss, si llega a patience detendremos todo
    def __init__(self, patience, delta):
        self.patience = patience
        self.delta = delta

    #revisamos early stopping en cada epoch
    def call(self, current_loss):

        #primera iteracion
        if self.loss == 0:
            self.loss = current_loss
        
        #la diferencia es mayor que el delta, la loss ha mejorado
        elif self.loss - current_loss > delta:
            self.loss = current_loss
        
        #es menor, no ha mejorado lo suficiente, comenzamos a contar patience
        elif self.loss - current_loss < delta:
            self.epoch_counter += 1
            print(f"Contador early stopping en {self.epoch_counter} de {self.patience}")
            if self.epoch_counter >= self.patience:
                print('----- EARLY STOPPING EJECUTADO -----')
                print(' ')
                self.stop = True

In [43]:
def ES_training(patience, delta):
    best_valid_loss = float('inf')

    # Early stopping class
    # Creamos el objeto de early stop
    stop_checker = EarlyStopping(patience, delta)

    for epoch in range(n_epochs):

        start_time = time.time()

        # Recuerdo: train_iterator y valid_iterator contienen el dataset dividido en batches.

        # Entrenar
        train_loss, train_precision, train_recall, train_f1 = train(
            model, train_iterator, optimizer, criterion)
        # Evaluar (valid = validación)
        valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
            model, valid_iterator, criterion)

        end_time = time.time()

        epoch_mins, epoch_secs = epoch_time(start_time, end_time)

        # Si obtuvimos mejores resultados, guardamos este modelo en el almacenamiento (para poder cargarlo luego)
        # Si detienen el entrenamiento prematuramente, pueden cargar el modelo en el siguiente recuadro de código.
      
        if valid_loss < best_valid_loss:
            best_valid_loss = valid_loss
            torch.save(model.state_dict(), '{}.pt'.format(model_name))
        # Si ya no mejoramos el loss de validación, terminamos de entrenar.

        # Acá va el early stopping.
        # Iremos checkeando si se cumplen los criterios de patience y delta en cada
        # epoch del entrenamiento. Si el stop es true, debemos detenerlo
        # y deja el mejor hasta el momento, evitando overfittear.
        stop_checker.call(valid_loss)

        print(f'Epoch: {epoch+1:02} | Epoch Time: {epoch_mins}m {epoch_secs}s')
        print(
            f'\tTrain Loss: {train_loss:.3f} | Train f1: {train_f1:.2f} | Train precision: {train_precision:.2f} | Train recall: {train_recall:.2f}'
        )
        print(
            f'\t Val. Loss: {valid_loss:.3f} |  Val. f1: {valid_f1:.2f} |  Val. precision: {valid_precision:.2f} | Val. recall: {valid_recall:.2f}'
        ) 

        if stop_checker.stop:
            break

#### Entrenamiento red1

In [44]:
patience = 5
delta = 0.1
ES_training(patience, delta)



Epoch: 01 | Epoch Time: 0m 10s
	Train Loss: 1.221 | Train f1: 0.22 | Train precision: 0.34 | Train recall: 0.17
	 Val. Loss: 0.767 |  Val. f1: 0.52 |  Val. precision: 0.66 | Val. recall: 0.43
Epoch: 02 | Epoch Time: 0m 9s
	Train Loss: 0.647 | Train f1: 0.57 | Train precision: 0.67 | Train recall: 0.50
	 Val. Loss: 0.548 |  Val. f1: 0.63 |  Val. precision: 0.69 | Val. recall: 0.58
Contador early stopping en 1 de 5
Epoch: 03 | Epoch Time: 0m 10s
	Train Loss: 0.466 | Train f1: 0.67 | Train precision: 0.73 | Train recall: 0.63
	 Val. Loss: 0.483 |  Val. f1: 0.67 |  Val. precision: 0.74 | Val. recall: 0.61
Epoch: 04 | Epoch Time: 0m 10s
	Train Loss: 0.361 | Train f1: 0.74 | Train precision: 0.77 | Train recall: 0.71
	 Val. Loss: 0.447 |  Val. f1: 0.70 |  Val. precision: 0.71 | Val. recall: 0.70
Contador early stopping en 2 de 5
Epoch: 05 | Epoch Time: 0m 9s
	Train Loss: 0.295 | Train f1: 0.79 | Train precision: 0.80 | Train recall: 0.77
	 Val. Loss: 0.434 |  Val. f1: 0.73 |  Val. precision:

#### Entrenamiento red2

In [58]:
#Este es diferente a red1, se podría haber dejado trabajando más, pero por 
#temas de tiempo se prefirió que no

patience = 10
delta = 0.1
ES_training(patience, delta)



Epoch: 01 | Epoch Time: 0m 9s
	Train Loss: 1.245 | Train f1: 0.17 | Train precision: 0.32 | Train recall: 0.12
	 Val. Loss: 0.959 |  Val. f1: 0.35 |  Val. precision: 0.46 | Val. recall: 0.29
Epoch: 02 | Epoch Time: 0m 9s
	Train Loss: 0.921 | Train f1: 0.34 | Train precision: 0.54 | Train recall: 0.25
	 Val. Loss: 0.827 |  Val. f1: 0.38 |  Val. precision: 0.66 | Val. recall: 0.27
Contador early stopping en 1 de 10
Epoch: 03 | Epoch Time: 0m 9s
	Train Loss: 0.850 | Train f1: 0.39 | Train precision: 0.58 | Train recall: 0.30
	 Val. Loss: 0.742 |  Val. f1: 0.45 |  Val. precision: 0.64 | Val. recall: 0.36
Contador early stopping en 2 de 10
Epoch: 04 | Epoch Time: 0m 9s
	Train Loss: 0.810 | Train f1: 0.42 | Train precision: 0.60 | Train recall: 0.33
	 Val. Loss: 0.738 |  Val. f1: 0.46 |  Val. precision: 0.57 | Val. recall: 0.40
Epoch: 05 | Epoch Time: 0m 9s
	Train Loss: 0.785 | Train f1: 0.44 | Train precision: 0.61 | Train recall: 0.35
	 Val. Loss: 0.726 |  Val. f1: 0.46 |  Val. precision: 

#### Entrenamiento red3

##### Entrenamiento red 3.1
* DROPOUT: 0.5
* Capas: 3
* Optimizador: Adam

In [85]:
patience = 5
delta = 0.1
ES_training(patience, delta)



Epoch: 01 | Epoch Time: 0m 10s
	Train Loss: 0.841 | Train f1: 0.41 | Train precision: 0.56 | Train recall: 0.34
	 Val. Loss: 0.519 |  Val. f1: 0.63 |  Val. precision: 0.76 | Val. recall: 0.55
Epoch: 02 | Epoch Time: 0m 10s
	Train Loss: 0.471 | Train f1: 0.67 | Train precision: 0.73 | Train recall: 0.62
	 Val. Loss: 0.385 |  Val. f1: 0.72 |  Val. precision: 0.77 | Val. recall: 0.69
Contador early stopping en 1 de 5
Epoch: 03 | Epoch Time: 0m 10s
	Train Loss: 0.321 | Train f1: 0.77 | Train precision: 0.80 | Train recall: 0.75
	 Val. Loss: 0.360 |  Val. f1: 0.76 |  Val. precision: 0.79 | Val. recall: 0.73
Contador early stopping en 2 de 5
Epoch: 04 | Epoch Time: 0m 10s
	Train Loss: 0.243 | Train f1: 0.82 | Train precision: 0.84 | Train recall: 0.81
	 Val. Loss: 0.360 |  Val. f1: 0.77 |  Val. precision: 0.78 | Val. recall: 0.77
Contador early stopping en 3 de 5
Epoch: 05 | Epoch Time: 0m 10s
	Train Loss: 0.195 | Train f1: 0.86 | Train precision: 0.86 | Train recall: 0.85
	 Val. Loss: 0.387

##### Entrenamiento red 3.2
* DROPOUT: 0.2
* Capas: 3
* Optimizador: Adam

In [98]:
patience = 5
delta = 0.1
ES_training(patience, delta)

  _warn_prf(average, modifier, msg_start, len(result))


Epoch: 01 | Epoch Time: 0m 10s
	Train Loss: 0.655 | Train f1: 0.53 | Train precision: 0.65 | Train recall: 0.47
	 Val. Loss: 0.394 |  Val. f1: 0.70 |  Val. precision: 0.78 | Val. recall: 0.64
Contador early stopping en 1 de 5
Epoch: 02 | Epoch Time: 0m 10s
	Train Loss: 0.298 | Train f1: 0.79 | Train precision: 0.81 | Train recall: 0.77
	 Val. Loss: 0.349 |  Val. f1: 0.76 |  Val. precision: 0.79 | Val. recall: 0.73
Contador early stopping en 2 de 5
Epoch: 03 | Epoch Time: 0m 10s
	Train Loss: 0.178 | Train f1: 0.87 | Train precision: 0.88 | Train recall: 0.87
	 Val. Loss: 0.362 |  Val. f1: 0.76 |  Val. precision: 0.80 | Val. recall: 0.74
Contador early stopping en 3 de 5
Epoch: 04 | Epoch Time: 0m 10s
	Train Loss: 0.120 | Train f1: 0.91 | Train precision: 0.91 | Train recall: 0.91
	 Val. Loss: 0.401 |  Val. f1: 0.77 |  Val. precision: 0.79 | Val. recall: 0.75
Contador early stopping en 4 de 5
Epoch: 05 | Epoch Time: 0m 10s
	Train Loss: 0.090 | Train f1: 0.93 | Train precision: 0.93 | Tra

##### Entrenamiento red 3.3
* DROPOUT: 0.2
* Capas: 2
* Optimizador: Adam

In [111]:
patience = 5
delta = 0.1
ES_training(patience, delta)

  _warn_prf(average, modifier, msg_start, len(result))


Epoch: 01 | Epoch Time: 0m 8s
	Train Loss: 0.621 | Train f1: 0.55 | Train precision: 0.66 | Train recall: 0.49
	 Val. Loss: 0.402 |  Val. f1: 0.70 |  Val. precision: 0.74 | Val. recall: 0.66
Contador early stopping en 1 de 5
Epoch: 02 | Epoch Time: 0m 8s
	Train Loss: 0.279 | Train f1: 0.80 | Train precision: 0.82 | Train recall: 0.78
	 Val. Loss: 0.352 |  Val. f1: 0.76 |  Val. precision: 0.80 | Val. recall: 0.72
Contador early stopping en 2 de 5
Epoch: 03 | Epoch Time: 0m 8s
	Train Loss: 0.171 | Train f1: 0.87 | Train precision: 0.88 | Train recall: 0.87
	 Val. Loss: 0.365 |  Val. f1: 0.76 |  Val. precision: 0.79 | Val. recall: 0.73
Contador early stopping en 3 de 5
Epoch: 04 | Epoch Time: 0m 8s
	Train Loss: 0.112 | Train f1: 0.92 | Train precision: 0.92 | Train recall: 0.92
	 Val. Loss: 0.398 |  Val. f1: 0.76 |  Val. precision: 0.79 | Val. recall: 0.74
Contador early stopping en 4 de 5
Epoch: 05 | Epoch Time: 0m 8s
	Train Loss: 0.084 | Train f1: 0.94 | Train precision: 0.94 | Train re

##### Entrenamiento red 3.4
* DROPOUT: 0.2
* Capas: 4
* Optimizador: Adam

In [124]:
patience = 5
delta = 0.1
ES_training(patience, delta)

  _warn_prf(average, modifier, msg_start, len(result))


Epoch: 01 | Epoch Time: 0m 13s
	Train Loss: 0.703 | Train f1: 0.51 | Train precision: 0.64 | Train recall: 0.45
	 Val. Loss: 0.413 |  Val. f1: 0.70 |  Val. precision: 0.76 | Val. recall: 0.65
Contador early stopping en 1 de 5
Epoch: 02 | Epoch Time: 0m 13s
	Train Loss: 0.321 | Train f1: 0.77 | Train precision: 0.80 | Train recall: 0.75
	 Val. Loss: 0.357 |  Val. f1: 0.75 |  Val. precision: 0.77 | Val. recall: 0.74
Contador early stopping en 2 de 5
Epoch: 03 | Epoch Time: 0m 13s
	Train Loss: 0.194 | Train f1: 0.86 | Train precision: 0.86 | Train recall: 0.85
	 Val. Loss: 0.379 |  Val. f1: 0.77 |  Val. precision: 0.79 | Val. recall: 0.76
Contador early stopping en 3 de 5
Epoch: 04 | Epoch Time: 0m 13s
	Train Loss: 0.136 | Train f1: 0.90 | Train precision: 0.90 | Train recall: 0.90
	 Val. Loss: 0.425 |  Val. f1: 0.75 |  Val. precision: 0.73 | Val. recall: 0.77
Contador early stopping en 4 de 5
Epoch: 05 | Epoch Time: 0m 13s
	Train Loss: 0.104 | Train f1: 0.92 | Train precision: 0.92 | Tra

##### Entrenamiento red 3.5
* DROPOUT: 0.2
* Capas: 2
* Optimizador: AdamW (lr = 0.001 que viene por defecto)

In [137]:
patience = 5
delta = 0.1
ES_training(patience, delta)

  _warn_prf(average, modifier, msg_start, len(result))


Epoch: 01 | Epoch Time: 0m 8s
	Train Loss: 0.623 | Train f1: 0.55 | Train precision: 0.66 | Train recall: 0.48
	 Val. Loss: 0.395 |  Val. f1: 0.71 |  Val. precision: 0.77 | Val. recall: 0.66
Contador early stopping en 1 de 5
Epoch: 02 | Epoch Time: 0m 8s
	Train Loss: 0.287 | Train f1: 0.79 | Train precision: 0.82 | Train recall: 0.77
	 Val. Loss: 0.344 |  Val. f1: 0.76 |  Val. precision: 0.80 | Val. recall: 0.72
Contador early stopping en 2 de 5
Epoch: 03 | Epoch Time: 0m 8s
	Train Loss: 0.169 | Train f1: 0.88 | Train precision: 0.88 | Train recall: 0.87
	 Val. Loss: 0.356 |  Val. f1: 0.76 |  Val. precision: 0.79 | Val. recall: 0.74
Contador early stopping en 3 de 5
Epoch: 04 | Epoch Time: 0m 8s
	Train Loss: 0.112 | Train f1: 0.92 | Train precision: 0.92 | Train recall: 0.92
	 Val. Loss: 0.395 |  Val. f1: 0.76 |  Val. precision: 0.78 | Val. recall: 0.75
Contador early stopping en 4 de 5
Epoch: 05 | Epoch Time: 0m 8s
	Train Loss: 0.081 | Train f1: 0.94 | Train precision: 0.94 | Train re

##### Entrenamiento red 3.6
* DROPOUT: 0.2
* Capas: 2
* Optimizador: AdamW(lr = 0.0018)

In [277]:
patience = 5
delta = 0.1
ES_training(patience, delta)

  _warn_prf(average, modifier, msg_start, len(result))


Epoch: 01 | Epoch Time: 0m 11s
	Train Loss: 0.582 | Train f1: 0.59 | Train precision: 0.69 | Train recall: 0.54
	 Val. Loss: 0.367 |  Val. f1: 0.72 |  Val. precision: 0.81 | Val. recall: 0.66
Contador early stopping en 1 de 5
Epoch: 02 | Epoch Time: 0m 11s
	Train Loss: 0.248 | Train f1: 0.82 | Train precision: 0.84 | Train recall: 0.81
	 Val. Loss: 0.333 |  Val. f1: 0.77 |  Val. precision: 0.80 | Val. recall: 0.74
Contador early stopping en 2 de 5
Epoch: 03 | Epoch Time: 0m 11s
	Train Loss: 0.145 | Train f1: 0.89 | Train precision: 0.90 | Train recall: 0.89
	 Val. Loss: 0.373 |  Val. f1: 0.77 |  Val. precision: 0.79 | Val. recall: 0.75
Contador early stopping en 3 de 5
Epoch: 04 | Epoch Time: 0m 10s
	Train Loss: 0.102 | Train f1: 0.92 | Train precision: 0.92 | Train recall: 0.92
	 Val. Loss: 0.414 |  Val. f1: 0.75 |  Val. precision: 0.77 | Val. recall: 0.74
Contador early stopping en 4 de 5
Epoch: 05 | Epoch Time: 0m 10s
	Train Loss: 0.077 | Train f1: 0.94 | Train precision: 0.94 | Tra

##### Entrenamiento red 3.7
* DROPOUT: 0.2
* Capas: 3
* Optimizador: AdamW(lr = 0.0018)

In [290]:
patience = 5
delta = 0.1
ES_training(patience, delta)

  _warn_prf(average, modifier, msg_start, len(result))


Epoch: 01 | Epoch Time: 0m 11s
	Train Loss: 0.588 | Train f1: 0.59 | Train precision: 0.68 | Train recall: 0.53
	 Val. Loss: 0.372 |  Val. f1: 0.74 |  Val. precision: 0.75 | Val. recall: 0.73
Contador early stopping en 1 de 5
Epoch: 02 | Epoch Time: 0m 10s
	Train Loss: 0.249 | Train f1: 0.82 | Train precision: 0.84 | Train recall: 0.81
	 Val. Loss: 0.344 |  Val. f1: 0.77 |  Val. precision: 0.80 | Val. recall: 0.74
Contador early stopping en 2 de 5
Epoch: 03 | Epoch Time: 0m 10s
	Train Loss: 0.149 | Train f1: 0.89 | Train precision: 0.90 | Train recall: 0.89
	 Val. Loss: 0.372 |  Val. f1: 0.77 |  Val. precision: 0.78 | Val. recall: 0.76
Contador early stopping en 3 de 5
Epoch: 04 | Epoch Time: 0m 10s
	Train Loss: 0.107 | Train f1: 0.92 | Train precision: 0.92 | Train recall: 0.92
	 Val. Loss: 0.397 |  Val. f1: 0.76 |  Val. precision: 0.77 | Val. recall: 0.75
Contador early stopping en 4 de 5
Epoch: 05 | Epoch Time: 0m 10s
	Train Loss: 0.082 | Train f1: 0.94 | Train precision: 0.94 | Tra

##### Entrenamiento red 3.8
* DROPOUT: 0.2
* Capas: 2
* Optimizador: AdamW(lr = 0.00175)

In [177]:
patience = 5
delta = 0.1
ES_training(patience, delta)

  _warn_prf(average, modifier, msg_start, len(result))


Epoch: 01 | Epoch Time: 0m 8s
	Train Loss: 0.553 | Train f1: 0.60 | Train precision: 0.69 | Train recall: 0.54
	 Val. Loss: 0.360 |  Val. f1: 0.74 |  Val. precision: 0.78 | Val. recall: 0.70
Contador early stopping en 1 de 5
Epoch: 02 | Epoch Time: 0m 8s
	Train Loss: 0.235 | Train f1: 0.83 | Train precision: 0.84 | Train recall: 0.81
	 Val. Loss: 0.346 |  Val. f1: 0.76 |  Val. precision: 0.79 | Val. recall: 0.74
Contador early stopping en 2 de 5
Epoch: 03 | Epoch Time: 0m 8s
	Train Loss: 0.139 | Train f1: 0.90 | Train precision: 0.90 | Train recall: 0.89
	 Val. Loss: 0.363 |  Val. f1: 0.77 |  Val. precision: 0.80 | Val. recall: 0.74
Contador early stopping en 3 de 5
Epoch: 04 | Epoch Time: 0m 8s
	Train Loss: 0.092 | Train f1: 0.93 | Train precision: 0.93 | Train recall: 0.93
	 Val. Loss: 0.409 |  Val. f1: 0.76 |  Val. precision: 0.79 | Val. recall: 0.74
Contador early stopping en 4 de 5
Epoch: 05 | Epoch Time: 0m 8s
	Train Loss: 0.067 | Train f1: 0.95 | Train precision: 0.95 | Train re

##### Entrenamiento red 3.9
* DROPOUT: 0.2
* Capas: 3
* Optimizador: AdamW(lr = 0.00175)

In [192]:
patience = 5
delta = 0.1
ES_training(patience, delta)

  _warn_prf(average, modifier, msg_start, len(result))


Epoch: 01 | Epoch Time: 0m 11s
	Train Loss: 0.586 | Train f1: 0.59 | Train precision: 0.69 | Train recall: 0.53
	 Val. Loss: 0.374 |  Val. f1: 0.72 |  Val. precision: 0.78 | Val. recall: 0.67
Contador early stopping en 1 de 5
Epoch: 02 | Epoch Time: 0m 10s
	Train Loss: 0.251 | Train f1: 0.82 | Train precision: 0.83 | Train recall: 0.81
	 Val. Loss: 0.359 |  Val. f1: 0.75 |  Val. precision: 0.78 | Val. recall: 0.73
Contador early stopping en 2 de 5
Epoch: 03 | Epoch Time: 0m 10s
	Train Loss: 0.151 | Train f1: 0.89 | Train precision: 0.89 | Train recall: 0.89
	 Val. Loss: 0.386 |  Val. f1: 0.76 |  Val. precision: 0.78 | Val. recall: 0.75
Contador early stopping en 3 de 5
Epoch: 04 | Epoch Time: 0m 10s
	Train Loss: 0.109 | Train f1: 0.92 | Train precision: 0.92 | Train recall: 0.92
	 Val. Loss: 0.391 |  Val. f1: 0.75 |  Val. precision: 0.77 | Val. recall: 0.75
Contador early stopping en 4 de 5
Epoch: 05 | Epoch Time: 0m 10s
	Train Loss: 0.082 | Train f1: 0.94 | Train precision: 0.94 | Tra

##### Entrenamiento red 3.10
* DROPOUT: 0.2
* Capas: 2
* Optimizador: AdamW(lr = 0.0018, amsgrad=True)

In [303]:
patience = 5
delta = 0.1
ES_training(patience, delta)

  _warn_prf(average, modifier, msg_start, len(result))


Epoch: 01 | Epoch Time: 0m 8s
	Train Loss: 0.550 | Train f1: 0.60 | Train precision: 0.70 | Train recall: 0.55
	 Val. Loss: 0.355 |  Val. f1: 0.74 |  Val. precision: 0.79 | Val. recall: 0.70
Contador early stopping en 1 de 5
Epoch: 02 | Epoch Time: 0m 8s
	Train Loss: 0.236 | Train f1: 0.83 | Train precision: 0.84 | Train recall: 0.82
	 Val. Loss: 0.343 |  Val. f1: 0.77 |  Val. precision: 0.79 | Val. recall: 0.75
Contador early stopping en 2 de 5
Epoch: 03 | Epoch Time: 0m 8s
	Train Loss: 0.134 | Train f1: 0.90 | Train precision: 0.91 | Train recall: 0.90
	 Val. Loss: 0.375 |  Val. f1: 0.76 |  Val. precision: 0.78 | Val. recall: 0.76
Contador early stopping en 3 de 5
Epoch: 04 | Epoch Time: 0m 8s
	Train Loss: 0.089 | Train f1: 0.93 | Train precision: 0.93 | Train recall: 0.93
	 Val. Loss: 0.423 |  Val. f1: 0.75 |  Val. precision: 0.77 | Val. recall: 0.73
Contador early stopping en 4 de 5
Epoch: 05 | Epoch Time: 0m 8s
	Train Loss: 0.065 | Train f1: 0.95 | Train precision: 0.95 | Train re

##### Entrenamiento red 3.11
* DROPOUT: 0.2
* Capas: 2
* Optimizador: AdamW(lr = 0.00175, amsgrad=True)

In [226]:
patience = 5
delta = 0.1
ES_training(patience, delta)

  _warn_prf(average, modifier, msg_start, len(result))


Epoch: 01 | Epoch Time: 0m 8s
	Train Loss: 0.547 | Train f1: 0.60 | Train precision: 0.70 | Train recall: 0.55
	 Val. Loss: 0.358 |  Val. f1: 0.74 |  Val. precision: 0.77 | Val. recall: 0.72
Contador early stopping en 1 de 5
Epoch: 02 | Epoch Time: 0m 8s
	Train Loss: 0.234 | Train f1: 0.83 | Train precision: 0.84 | Train recall: 0.82
	 Val. Loss: 0.343 |  Val. f1: 0.77 |  Val. precision: 0.79 | Val. recall: 0.76
Contador early stopping en 2 de 5
Epoch: 03 | Epoch Time: 0m 8s
	Train Loss: 0.137 | Train f1: 0.90 | Train precision: 0.90 | Train recall: 0.90
	 Val. Loss: 0.356 |  Val. f1: 0.77 |  Val. precision: 0.79 | Val. recall: 0.76
Contador early stopping en 3 de 5
Epoch: 04 | Epoch Time: 0m 8s
	Train Loss: 0.088 | Train f1: 0.93 | Train precision: 0.93 | Train recall: 0.93
	 Val. Loss: 0.411 |  Val. f1: 0.77 |  Val. precision: 0.80 | Val. recall: 0.74
Contador early stopping en 4 de 5
Epoch: 05 | Epoch Time: 0m 8s
	Train Loss: 0.064 | Train f1: 0.95 | Train precision: 0.95 | Train re

##### Entrenamiento red 3.12
* DROPOUT: 0.2
* Capas: 3
* Optimizador: AdamW(lr = 0.00175, amsgrad=True)

In [251]:
patience = 5
delta = 0.1
ES_training(patience, delta)

  _warn_prf(average, modifier, msg_start, len(result))


Epoch: 01 | Epoch Time: 0m 10s
	Train Loss: 0.586 | Train f1: 0.58 | Train precision: 0.68 | Train recall: 0.53
	 Val. Loss: 0.368 |  Val. f1: 0.74 |  Val. precision: 0.77 | Val. recall: 0.72
Contador early stopping en 1 de 5
Epoch: 02 | Epoch Time: 0m 11s
	Train Loss: 0.253 | Train f1: 0.82 | Train precision: 0.84 | Train recall: 0.81
	 Val. Loss: 0.335 |  Val. f1: 0.76 |  Val. precision: 0.77 | Val. recall: 0.75
Contador early stopping en 2 de 5
Epoch: 03 | Epoch Time: 0m 10s
	Train Loss: 0.149 | Train f1: 0.89 | Train precision: 0.90 | Train recall: 0.89
	 Val. Loss: 0.353 |  Val. f1: 0.77 |  Val. precision: 0.79 | Val. recall: 0.76
Contador early stopping en 3 de 5
Epoch: 04 | Epoch Time: 0m 10s
	Train Loss: 0.103 | Train f1: 0.92 | Train precision: 0.93 | Train recall: 0.92
	 Val. Loss: 0.407 |  Val. f1: 0.76 |  Val. precision: 0.79 | Val. recall: 0.75
Contador early stopping en 4 de 5
Epoch: 05 | Epoch Time: 0m 11s
	Train Loss: 0.073 | Train f1: 0.95 | Train precision: 0.95 | Tra

##### Entrenamiento red 3.13
* DROPOUT: 0.2
* Capas: 3
* Optimizador: AdamW(lr = 0.0018, amsgrad=True)

In [265]:
patience = 5
delta = 0.1
ES_training(patience, delta)

  _warn_prf(average, modifier, msg_start, len(result))


Epoch: 01 | Epoch Time: 0m 11s
	Train Loss: 0.575 | Train f1: 0.59 | Train precision: 0.69 | Train recall: 0.54
	 Val. Loss: 0.385 |  Val. f1: 0.71 |  Val. precision: 0.75 | Val. recall: 0.68
Contador early stopping en 1 de 5
Epoch: 02 | Epoch Time: 0m 11s
	Train Loss: 0.250 | Train f1: 0.82 | Train precision: 0.83 | Train recall: 0.81
	 Val. Loss: 0.343 |  Val. f1: 0.76 |  Val. precision: 0.77 | Val. recall: 0.76
Contador early stopping en 2 de 5
Epoch: 03 | Epoch Time: 0m 10s
	Train Loss: 0.148 | Train f1: 0.89 | Train precision: 0.90 | Train recall: 0.89
	 Val. Loss: 0.354 |  Val. f1: 0.77 |  Val. precision: 0.79 | Val. recall: 0.76
Contador early stopping en 3 de 5
Epoch: 04 | Epoch Time: 0m 10s
	Train Loss: 0.101 | Train f1: 0.93 | Train precision: 0.93 | Train recall: 0.93
	 Val. Loss: 0.417 |  Val. f1: 0.76 |  Val. precision: 0.80 | Val. recall: 0.73
Contador early stopping en 4 de 5
Epoch: 05 | Epoch Time: 0m 11s
	Train Loss: 0.073 | Train f1: 0.95 | Train precision: 0.94 | Tra

#### Entrenamiento red4

In [72]:
patience = 10
delta = 0.1
ES_training(patience, delta)



Epoch: 01 | Epoch Time: 0m 10s
	Train Loss: 0.992 | Train f1: 0.29 | Train precision: 0.48 | Train recall: 0.21
	 Val. Loss: 0.792 |  Val. f1: 0.43 |  Val. precision: 0.64 | Val. recall: 0.33
Epoch: 02 | Epoch Time: 0m 10s
	Train Loss: 0.800 | Train f1: 0.43 | Train precision: 0.61 | Train recall: 0.34
	 Val. Loss: 0.688 |  Val. f1: 0.50 |  Val. precision: 0.67 | Val. recall: 0.40
Contador early stopping en 1 de 10
Epoch: 03 | Epoch Time: 0m 10s
	Train Loss: 0.721 | Train f1: 0.49 | Train precision: 0.66 | Train recall: 0.40
	 Val. Loss: 0.628 |  Val. f1: 0.53 |  Val. precision: 0.68 | Val. recall: 0.44
Contador early stopping en 2 de 10
Epoch: 04 | Epoch Time: 0m 10s
	Train Loss: 0.668 | Train f1: 0.52 | Train precision: 0.68 | Train recall: 0.43
	 Val. Loss: 0.589 |  Val. f1: 0.56 |  Val. precision: 0.74 | Val. recall: 0.46
Epoch: 05 | Epoch Time: 0m 10s
	Train Loss: 0.627 | Train f1: 0.56 | Train precision: 0.70 | Train recall: 0.47
	 Val. Loss: 0.566 |  Val. f1: 0.57 |  Val. precis

### Testeo y resultados finales

#### Evaluamos el set de validación con el modelo final

Estos son los resultados de predecir el dataset de evaluación con el *mejor* modelo entrenado.

In [None]:
# cargar el mejor modelo entrenado.
model.load_state_dict(torch.load('{}.pt'.format(model_name)))

In [None]:
valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
    model, valid_iterator, criterion)

print(
    f'Val. Loss: {valid_loss:.3f} |  Val. f1: {valid_f1:.2f} | Val. precision: {valid_precision:.2f} | Val. recall: {valid_recall:.2f}'
)


#### Predecir datos para la competencia

Ahora, a partir de los datos de **test** y nuestro modelo entrenado, predeciremos las etiquetas que serán evaluadas en la competencia.

In [306]:
def predict_labels(model, iterator, criterion, fields=fields):

    # Extraemos los vocabularios.
    text_field = fields[0][1]
    nertags_field = fields[1][1]
    tags_vocab = nertags_field.vocab.itos
    words_vocab = text_field.vocab.itos

    model.eval()

    predictions = []

    with torch.no_grad():

        for batch in iterator:

            text_batch = batch.text
            text_batch = torch.transpose(text_batch, 0, 1).tolist()

            # Predecir los tags de las sentences del batch
            predictions_batch = model(batch.text)
            predictions_batch = torch.transpose(predictions_batch, 0, 1)

            # por cada oración predicha:
            for sentence, sentence_prediction in zip(text_batch,
                                                     predictions_batch):
                for word_idx, word_predictions in zip(sentence,
                                                      sentence_prediction):
                    # Obtener el indice del tag con la probabilidad mas alta.
                    argmax_index = word_predictions.topk(1)[1]

                    current_tag = tags_vocab[argmax_index]
                    # Obtenemos la palabra
                    current_word = words_vocab[word_idx]

                    if current_word != '<pad>':
                        predictions.append([current_word, current_tag])
                predictions.append(['EOS', 'EOS'])


    return predictions


predictions = predict_labels(model, test_iterator, criterion)

#### Generar el archivo para la submission

No hay problema si aparecen unk en la salida. Estos no son relevantes para evaluarlos, usamos solo los tags.

In [307]:
import os, shutil

if (os.path.isfile('./predictions.zip')):
    os.remove('./predictions.zip')

if (not os.path.isdir('./predictions')):
    os.mkdir('./predictions')

else:
    # Eliminar predicciones anteriores:
    shutil.rmtree('./predictions')
    os.mkdir('./predictions')

f = open('predictions/predictions.txt', 'w')
for i, (word, tag) in enumerate(predictions[:-1]):
    if word=='EOS' and tag=='EOS': f.write('\n')
    else: 
      if i == len(predictions[:-1])-1:
        f.write(word + ' ' + tag)
      else: f.write(word + ' ' + tag + '\n')

f.close()

a = shutil.make_archive('predictions', 'zip', './predictions')

### Resultados notables


Los entrenamientos de las redes 3.6, 3.7 y 3.10 fueron los de mejor rendimiento en cuanto a métricas y loss se refiere. Acá una tabla comparativa:

| Modelo | Valid Loss | F1   | Precision | Recall |
|--------|------------|------|-----------|--------|
| 3.6    | 0.333      | 0.77 | 0.80      | 0.74   |
| 3.7    | 0.344      | 0.77 | 0.80      | 0.74   |
| 3.10   | 0.343      | 0.77 | 0.79      | 0.75   |



## Conclusiones



La competencia se presentó acompañada de un abánico de dificultades por superar, que permitieron al grupo aprender sostenidamente en el período de su realización.

Para extender lo dicho en el apartado de diseño 
experimental, el ajuste de aspectos como cantidad de capas, dimensiones, número de neuronas, valor del dropout, entre otros, comprender en profundidad el proceso computacional se tornó relativamente críptico y complicado. Se pudo observar cómo estos parámetros variaban los resultados, pero costó comprender las razones que generaron dichas distinciones, dado que los estudiantes del grupo aún no poseen el conocimiento necesario ni la experiencia requerida para diferenciar eso en mayor detalles.

El párrafo anterior podrá ser desalentador, pero en realidad es una muestra de lo extenso que es el mundo de NLP, aprendizaje de máquinas y deep learning. Esto motiva a los estudiantes del grupo para continuar explorando estas disciplinas. 

Ahondando en los experimentos y resultados, a partir de las pruebas realizadas:

- El entrenamiento de la red 2 podría haberse extendido con más iteraciones. Si bien su recall terminaba estancándose, existe la posibilidad de que, al ajustar otros parámetros y añadirle más configuraciones, podría haber arrojado mejores resultados.

- Pareciera que los embeddings utilizados no mejoraban los modelos, pero se cree que esto se debe a la falta de experiencia manejándolos y no a un caso donde éstos fueran perjudiciales para el procesamiento y aprendizaje de los modelos.

- GRU aportó mejores resultados que LSTM en este caso. Un dropout de 0.2 era un punto adecuado,en general, para resultados estables.

- Las redes neuronales bidireccionales mostraron mejores resultados en los ensayos preliminares, notando su capacidad superior en varios casos.

- El optimizador Adam y sus variantes tuvieron mejor desempeño de manera general, pero ajustar sus hiperparámetros fue complejo de entender. Se considera que eso se aprendió someramente, requiriendo estudios más profundos para comprenderlo mejor. Se trabajó principalmente con ensayo y error.

- La técnica de early stopping fue de suma utilidad para prevenir overfitteos. Aquello fue bastante perjudicial en el trabajo de la competencia 1.

Finalizando, las mejores a futuro y trabajos propuestos:

- Utilizar herramientas que automáticamente optimicen los hiperparáemtros de los modelos, en lugar de hacerlo por tanteo o intuición manualmente.

- Implementar una herramienta de learning rate más allá del parámetro que permiten los optimizadores. Esto podría haber funcionado con el entrenamiento de la red 2, porque sus losses de training y validación no alcanzaron a divergir en las epoch propuestas. Se piensa que el modelo podría haber continuado aprendiendo y mejorando sin overfittearse. 

- Estudiar la implementación adecuada de capas adicionales en las arquitecturas de redes neuronales y ver sus efectos en el aprendizaje de los modelos.

- Probar más funciones de loss.
