# **Competencia 2 - CC6205 Natural Language Processing 📚**

## Enunciado actualizado gracias a Ignacio Meza

Integrantes: Cristopher urbina y nicolas delgado

Usuario del equipo en CodaLab (Obligatorio): cristopher.urbina.h

Fecha límite de entrega 📆: 7 de Julio.

Tiempo estimado de dedicación:

Link competencia: Poner el link [aquí](https://codalab.lisn.upsaclay.fr/competitions/13646?secret_key=c2dbdef5-9869-4b0a-845a-2dc529b026fb)

# En este punto esperamos que tengan conocimiento sobre redes neuronales y en particular redes neuronales recurrentes (RNN), si no siempre pueden escribirnos por el canal de Discord para aclarar dudas. La RNN del baseline adjunto a este notebook está programado en la librería [`pytorch`](https://pytorch.org/) pero ustedes pueden utilizar keras, tensorflow si así lo desean. El código contiene lo siguiente:

- La carga de los datasets, creación de batches de texto y padding (esto es importante ya que si utilizan redes neuronales tienen que tener el mismo largo los inputs).

- La implementación básica de una red `LSTM` simple de solo un nivel y sin bi-direccionalidad.

- La construcción del formato del output requerido para que lo puedan probar en la tarea en codalab.

Se espera que ustedes puedan experimentar con el baseline utilizando (pero no limitándose) estas sugerencias:

*   Probar la técnica de early stopping.
*   Variar la cantidad de parámetros de la capa de embeddings.
*   Variar la cantidad de capas RNN.
*   Variar la cantidad de parámetros de las capas de RNN.
*   Inicializar la capa de embeddings con modelos pre-entrenados. (word2vec, glove, conceptnet, etc...). [Embeddings en español aquí](https://github.com/dccuchile/spanish-word-embeddings). También aquí pueden encontrar unos embeddings clínicos en Español: [https://zenodo.org/record/3924799](https://zenodo.org/record/3924799)
*   Variar la cantidad de épocas de entrenamiento.
*   Variar el optimizador, learning rate, batch size, usar CRF loss, etc.
*   Probar una capa de CRF para garantizar el     formato IOB2.
*   Probar bi-direccionalidad.
*   Incluir dropout.
*   Probar modelos de tipo GRU.
*   Probar usando capas de atención.
*   Probar Embedding Contextuales (les puede ser de utilidad [flair](https://github.com/flairNLP/flair))
*   Probar modelos de transformers en español usando [Huggingface](https://github.com/huggingface/transformers) o el framework Flair.

# **Entregable.**

## **Introducción**


La extracción de información en textos a través de la Identificación de Entidades Nombradas (NER, por sus siglas en inglés) es una tarea esencial en el ámbito del Procesamiento del Lenguaje Natural (NLP). En este proyecto, nos enfrentamos al desafío de aplicar NER en un conjunto de datos compuesto por informes médicos en español, un área que ha sido poco estudiada en comparación con su contraparte en inglés, pero que tiene un alto valor en el campo de la salud y la investigación médica.

Nuestra meta es implementar un modelo que pueda reconocer y clasificar con precisión cinco tipos de entidades específicas: enfermedades, partes del cuerpo, medicamentos, procedimientos y miembros de la familia, en un conjunto de datos de textos clínicos provenientes de la lista de espera NO GES en Chile.

La formalización de esta tarea consiste en procesar una secuencia de tokens, que pueden ser palabras, números o símbolos, y asignarles una etiqueta adecuada a cada uno. El modelo generará, entonces, una secuencia de etiquetas correspondientes a los tokens, marcando si un token representa el comienzo de una entidad ("B-"), si es parte de una entidad pero no su inicio ("I-") o si no es parte de ninguna entidad ("O").

Uno de los principales obstáculos radica en que estamos trabajando con textos en español, lengua que ha recibido menos atención en la literatura de NLP. Esta dificultad se magnifica por el uso de términos técnicos médicos y la complejidad gramatical de los informes. Para superar estos desafíos, se han utilizado modelos avanzados de NLP, principalmente transformadores y embeddings, que son conocidos por su rendimiento en tareas similares.

Es fundamental mencionar que la evaluación del desempeño de nuestro modelo se realizará bajo métricas rigurosas. En otras palabras, una predicción será considerada correcta únicamente si coincide en términos de límites y tipo con la entidad real. De esta manera, buscamos construir un sistema que sea riguroso y completo, capaz de detectar y etiquetar efectivamente las entidades en este importante y desafiante dominio.

## **Modelos**


### Modelo 1: Pre-entrenados de Bert en español

El primer modelo utilizado en este proyecto es BERT (Bidirectional Encoder Representations from Transformers). BERT es un modelo de lenguaje basado en transformers que ha sido preentrenado en una gran cantidad de datos textuales, lo que le permite capturar representaciones semánticas ricas de las palabras y frases en un contexto dado.

#### **Métodos utilizados**

El método utilizado implica utilizar una versión preentrenada de BERT en español, específicamente entrenada en datos clínicos en español. Esto significa que el modelo ya ha aprendido las características lingüísticas y semánticas específicas del lenguaje médico en español.

El modelo se entrenó con un [dataset de mayor tamaño](https://zenodo.org/record/3924799) comparando los resultados obtenidos al ser entrenado con los textos entregados en esta competencia. Esto implica que se utilizó un conjunto de datos más extenso y diverso para el entrenamiento, lo que puede mejorar la capacidad del modelo para capturar las características del lenguaje médico en español y reconocer entidades médicas con mayor precisión.

#### **Hiperparámetros utilizados**

Se utilizaron los siguientes hiperparámetros durante el entrenamiento del modelo, guardando siempre el mejor modelo en base a la menor perdida de validación:

>Tamaño de batch de entrenamiento: Se refiere al número de ejemplos de entrenamiento que se utilizan en cada iteración durante el proceso de entrenamiento. Un tamaño de batch más grande puede acelerar el entrenamiento, pero también requiere más memoria.

>Número de épocas de entrenamiento: Indica cuántas veces el modelo recorrerá todo el conjunto de datos de entrenamiento durante el entrenamiento. Cada época consiste en iterar sobre el conjunto de datos completo.

>Learning rate: Es la tasa de aprendizaje que controla cuánto se ajustan los pesos del modelo en cada paso de entrenamiento. Un learning rate más bajo puede permitir un entrenamiento más estable, pero puede llevar más tiempo converger.

>Weight decay: Es un parámetro que controla la penalización aplicada a los pesos del modelo durante el entrenamiento para evitar el sobreajuste. Un weight decay más alto puede regularizar el modelo y reducir el sobreajuste.

>Warm up steps: Se refiere al número de pasos de entrenamiento iniciales durante los cuales se aumenta gradualmente la tasa de aprendizaje. Esto puede ayudar al modelo a estabilizarse al comienzo del entrenamiento.



## **Métricas de evaluación**



- **Métrica estricta**: Esta métrica mide la precisión del modelo al identificar las entidades médicas de manera exacta y precisa. Se considera una coincidencia estricta cuando el modelo predice correctamente tanto el inicio como el final de una entidad médica, incluyendo su tipo. Esta métrica proporciona una evaluación rigurosa y específica del desempeño del modelo.

- **Precisión**: La precisión se refiere a la proporción de entidades médicas detectadas por el modelo que son realmente entidades médicas correctas. En otras palabras, mide la exactitud de las predicciones positivas del modelo. Una alta precisión indica que el modelo tiene una baja tasa de falsos positivos, es decir, predicciones incorrectas de entidades médicas.

- **Recall**: El recall, también conocido como sensibilidad, mide la proporción de entidades médicas correctas que el modelo es capaz de detectar. Representa la capacidad del modelo para encontrar todas las entidades médicas relevantes en el texto. Un alto recall indica que el modelo tiene una baja tasa de falsos negativos, es decir, entidades médicas que no son detectadas.

- **Micro F1 score**: El F1 score es una medida combinada de precisión y recall que proporciona una visión general del desempeño del modelo. En este caso, se utilizó el micro F1 score, que calcula la media armónica de la precisión y el recall para todas las entidades médicas. El micro F1 score considera el desempeño global del modelo al tratar todas las entidades médicas como una sola clase. Es especialmente útil cuando hay un desequilibrio en la distribución de las clases.

>Es importante destacar la diferencia entre el micro F1 score y el macro F1 score:
>
>Micro F1 score: Toma en cuenta las predicciones y verdaderos positivos, negativos y falsos negativos de todas las entidades médicas y calcula una única métrica global para todas ellas. Es útil cuando se desea evaluar el desempeño general del modelo, especialmente en casos de desequilibrio de clases.
>
>Macro F1 score: Calcula el F1 score para cada tipo de entidad médica por separado y luego calcula el promedio de estos valores. Es útil cuando se desea evaluar el desempeño del modelo en cada clase de entidad médica de manera individual.

## **Diseño experimental**

En la siguiente sección del experimento, realizaremos una evaluación exhaustiva de diferentes configuraciones y modelos para abordar el problema de reconocimiento de entidades médicas. A continuación, describiré los diferentes experimentos que llevaremos a cabo:

- **Modelos**: Evaluaremos dos modelos principales para el reconocimiento de entidades médicas: BERT y Flair. Ambos modelos han sido preentrenados en datos clínicos en español y tienen capacidades de aprendizaje contextual. Compararemos su desempeño en términos de precisión, recall y F1-score en la tarea de reconocimiento de entidades médicas.
   - Respecto a los modelos, se utilizarón una gran cantidad de modelos pre- entrenados disponibles en HuggingFace. En su mayoria, entrenados con datos clinicos y en español:
      - [fmmolina/ - bert-base-spanish-wwm-uncased-finetuned-NER-medical](https://huggingface.co/fmmolina/bert-base-spanish-wwm-uncased-finetuned-NER-medical)
      - [MMG/xlm-roberta-large-ner-spanish](https://huggingface.co/MMG/xlm-roberta-large-ner-spanish)
      - [dccuchile/bert-base-spanish-wwm-uncased](https://huggingface.co/dccuchile/bert-base-spanish-wwm-uncased)
      - [dccuchile/albert-base-10-spanish-finetuned-ner](https://huggingface.co/dccuchile/albert-base-10-spanish-finetuned-ner)
      - [dccuchile/roberta-base-bne-finetuned-ner](https://huggingface.co/dccuchile/roberta-base-bne-finetuned-ner)
      - [dccuchile/albert-xxlarge-spanish-finetuned-ner](https://huggingface.co/dccuchile/albert-xxlarge-spanish-finetuned-ner)
      - [dccuchile/bertin-roberta-base-spanish-finetuned-ner](https://huggingface.co/dccuchile/bertin-roberta-base-spanish-finetuned-ner)
      - [lcampillos/roberta-es-clinical-trials-ner](https://huggingface.co/lcampillos/roberta-es-clinical-trials-ner)
      - [plncmm/beto-clinical-wl-es](https://huggingface.co/plncmm/beto-clinical-wl-es)

- **Embeddings**: Utilizaremos diferentes tipos de embeddings para representar las palabras en el texto. Esto incluirá embeddings, como TransformerWordEmbeddings, así como embeddings contextuales, como los embeddings de Flair. Compararemos cómo estos diferentes tipos de embeddings afectan el rendimiento de los modelos en la tarea de reconocimiento de entidades médicas.
   - Dentro de esta sección se utilizó el metodo de apilamiento de embeddings, usando 'es-clinical' para backward y forward. Además, de apilar también con embeddings basados en transformer y clasicos.  

- **Hiperparámetros**: Exploraremos diferentes combinaciones de hiperparámetros para cada modelo. Esto incluirá ajustes en el tamaño del batch de entrenamiento, el número de épocas de entrenamiento, el learning rate, el weight decay y los pasos de warm-up. Analizaremos cómo estos hiperparámetros influyen en el rendimiento y la capacidad de generalización de los modelos.


- **Arquitecturas** : Exploraremos diferentes arquitecturas de modelos para la tarea de reconocimiento de entidades médicas. Esto incluirá variaciones en la arquitectura de BERT, como BERT-base y BERT-large, así como variaciones en la arquitectura de Flair, como modelos de apilamiento de embeddings. Compararemos cómo estas arquitecturas influyen en el rendimiento y la capacidad de los modelos para reconocer entidades médicas.

Se realizarón una gran cantidad de modelos para cada modelo pre-entrenado usando librerias de HuggingFace en el caso del modelo basado en Bert. Disponibles en el siguiente [repositorio de HuggingFace.](https://huggingface.co/crisU8)

## **Experimentos**


El código que les entregaremos servirá de baseline para luego implementar mejores modelos.
En general, el código asociado a la carga de los datos, las funciones de entrenamiento, de evaluación y la predicción de los datos de la competencia no deberían cambiar.
Solo deben preocuparse de cambiar la arquitectura del modelo, sus hiperparámetros y reportar, lo cual lo pueden hacer en las subsecciones *modelos*.



###  **Carga de datos y Preprocesamiento**

Para cargar los datos y preprocesarlos usaremos la librería [`torchtext`](https://github.com/pytorch/text). Tener cuidado ya que hace algunos meses esta librería tuvo cambios radicales, quedando las funcionalidades pasadas depreciadas de la librería ```legacy```. Esto ya que si quieren usar más funciones de la librería entonces vean los cambios en la documentación debe usar la versión antigua con python 3.8




El proceso será el siguiente:

1. Descargar los datos desde github y examinarlos.
2. Cargar los datasets con la clase ```TaggingDataset``` de más abajo.
3. Crear el vocabulario.

In [1]:
!pip install -U torchtext



In [2]:
import torch
import torchtext
from torchtext import data, datasets

# Garantizar reproducibilidad de los experimentos
SEED = 1234
torch.manual_seed(SEED)
torch.backends.cudnn.deterministic = True

#### **Obtener datos**

Descargamos los datos de entrenamiento, validación y prueba en nuestro directorio de trabajo

In [1]:
#%%capture

!wget https://github.com/dccuchile/CC6205/releases/download/v1.0/train.txt -nc # Dataset de Entrenamiento
!wget https://github.com/dccuchile/CC6205/releases/download/v1.0/dev.txt -nc    # Dataset de Validación (Para probar y ajustar el modelo)
!wget https://github.com/dccuchile/CC6205/releases/download/v1.0/test.txt -nc  # Dataset de la Competencia. Estos datos solo contienen los tokens. ¡¡SON LOS QUE DEBEN SER PREDICHOS!!

--2023-07-09 01:59:25--  https://github.com/dccuchile/CC6205/releases/download/v1.0/train.txt
Resolving github.com (github.com)... 140.82.113.3
Connecting to github.com (github.com)|140.82.113.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/196273020/77198f00-c145-11eb-83d1-11e647241ab6?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20230709%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20230709T015925Z&X-Amz-Expires=300&X-Amz-Signature=96e69e7cc4adf95b59496df9b75ea603c2544e1d89d65023e07af4df3c16fff3&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=196273020&response-content-disposition=attachment%3B%20filename%3Dtrain.txt&response-content-type=application%2Foctet-stream [following]
--2023-07-09 01:59:25--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/196273020/77198f00-c145-11eb-83d1-11e647241ab6?X-Amz-Algorithm=AWS4-H

In [4]:
# NUEVO DATALOADER Y OTRAS COSAS NECESARIAS
from collections import Counter, OrderedDict

import torch

from torch.utils.data import DataLoader, Dataset
from torch.nn.utils.rnn import pad_sequence
from torchtext.vocab import vocab

class TaggingDataset(Dataset):
    def __init__(self, path, lower=False, separator=" ", encoding="utf-8"):

        with open(path, 'r', encoding=encoding) as file:
          text, tag, data = [], [], []
          for line in file:
              line = line.strip()
              if line == "":
                  data.append(dict({'text':text, 'nertags':tag}))
                  text, tag = [], []
              else:
                  line_content = line.split(separator) # .rstrip('\n')
                  if lower:
                    text.append(line_content[0].lower())
                  else:
                    text.append(line_content[0])
                  tag.append(line_content[1])
        data.append(dict({'text':text, 'nertags':tag}))

        self.data = data

    def __len__(self):
        return len(self.data)

    def __getitem__(self, index):
        item = self.data[index]
        text = item["text"]
        nertags = item["nertags"]
        return nertags, text

def fit_vocab(data_iter):

  def update_counter(counter_obj):
    sorted_by_freq_tuples = sorted(counter_obj.items(),
                                  key=lambda x: x[1],
                                  reverse=True)
    ordered_dict = OrderedDict(sorted_by_freq_tuples)
    return ordered_dict

  counter_1 = Counter()
  counter_2 = Counter()
  for _nertags, _text in data_iter:
    counter_1.update(_text)
    counter_2.update(_nertags)

  od1 = update_counter(counter_1)
  od2 = update_counter(counter_2)

  v1 = vocab(od1, specials=['<PAD>', '<unk>'])
  v1.set_default_index(v1["<unk>"])
  v2 = vocab(od2, specials=['<PAD>'])

  text_pipeline = lambda x: v1(x)
  nertags_pipeline = lambda x: v2(x)

  return text_pipeline, nertags_pipeline, v1, v2

def collate_batch(batch):
  nertags_list, text_list = [], []
  for _nertags, _text in batch:
    processed_nertags = torch.tensor(nertags_pipeline(_nertags),
                                     dtype=torch.int64)
    nertags_list.append(processed_nertags)
    processed_text = torch.tensor(text_pipeline(_text),
                                  dtype=torch.int64)
    text_list.append(processed_text)
  nertags_list = pad_sequence(nertags_list, batch_first=True).T
  text_list = pad_sequence(text_list, batch_first=True).T
  return nertags_list.to(device), text_list.to(device)

In [None]:
train_iter = TaggingDataset("train.txt")
dev_iter = TaggingDataset("dev.txt")
test_iter = TaggingDataset("test.txt")

text_pipeline, nertags_pipeline, TEXT, NER_TAGS = fit_vocab(train_iter)

In [None]:
# seteamos algunos valores de interes
UNK_IDX = TEXT.vocab.get_stoi()['<unk>']
PAD_IDX = TEXT.vocab.get_stoi()['<PAD>']

PAD_TAG_IDX = NER_TAGS.get_stoi()['<PAD>']
O_TAG_IDX = NER_TAGS.vocab.get_stoi()['O']

In [4]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print('Using', device)

Using cuda


In [None]:
BATCH_SIZE = 22

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print('Using', device)

dataloader_train = DataLoader(
    train_iter, batch_size=BATCH_SIZE, shuffle=False, collate_fn=collate_batch
)
dataloader_dev = DataLoader(
    dev_iter, batch_size=BATCH_SIZE, shuffle=False, collate_fn=collate_batch
)
dataloader_test = DataLoader(
    test_iter, batch_size=BATCH_SIZE, shuffle=False, collate_fn=collate_batch
)

Using cuda


In [None]:
TEXT.vocab.get_itos()

['<PAD>',
 '<unk>',
 '.',
 ',',
 '-',
 'de',
 'DE',
 '/',
 ':',
 'con',
 'y',
 'APS',
 'CON',
 'Fundamento',
 'Clínico',
 'Y',
 'EN',
 'en',
 '1',
 ')',
 '(',
 '2',
 'PACIENTE',
 'SE',
 'LA',
 'a',
 'se',
 'A',
 'por',
 '3',
 'NO',
 'la',
 'POR',
 'DEL',
 '4',
 'Paciente',
 'que',
 'no',
 'paciente',
 'sin',
 '8',
 'para',
 'SIN',
 '+',
 'años',
 'AÑOS',
 '5',
 'del',
 'PARA',
 'QUE',
 '6',
 'PARCIAL',
 'tratamiento',
 'EVALUACION',
 'presenta',
 'superior',
 'Se',
 'TRATAMIENTO',
 'PIEZA',
 'E',
 'PRESENTA',
 'HTA',
 'CARIES',
 'e',
 'DESDENTADO',
 'los',
 'dolor',
 'INFERIOR',
 'inferior',
 'SUPERIOR',
 'DOLOR',
 'solicita',
 'parcial',
 'evaluacion',
 'al',
 'AL',
 'el',
 'refiere',
 '7',
 'SOLICITA',
 'pieza',
 'PERIODONTITIS',
 'HACE',
 'hace',
 'LOS',
 'ESPECIFICADA',
 'REFIERE',
 'TTO',
 'EL',
 'PROTESIS',
 'dientes',
 'diente',
 'SOLICITO',
 'CONTROL',
 'cronica',
 'antecedentes',
 'CRONICA',
 'II',
 'PZA',
 '10',
 'DERIVA',
 'ANTECEDENTES',
 'CRÓNICA',
 'OTROS',
 'deriva',
 'O

In [None]:
NER_TAGS.vocab.get_itos()

['<PAD>',
 'O',
 'I-Disease',
 'B-Disease',
 'I-Body_Part',
 'B-Body_Part',
 'B-Procedure',
 'I-Procedure',
 'B-Medication',
 'B-Family_Member',
 'I-Medication',
 'I-Family_Member']

In [None]:
example = next(iter(dataloader_train))
text_example = example[1]

# revisamos el primer ejemplo
[NER_TAGS.vocab.get_itos()[j] for j in text_example[:, 0]]

IndexError: ignored

In [5]:
!pip install seqeval

Collecting seqeval
  Downloading seqeval-1.2.2.tar.gz (43 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/43.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m43.6/43.6 kB[0m [31m5.0 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: seqeval
  Building wheel for seqeval (setup.py) ... [?25l[?25hdone
  Created wheel for seqeval: filename=seqeval-1.2.2-py3-none-any.whl size=16165 sha256=8850ce1c27d8b78c62684809b7d0b70ebda5a94d82582855c447294d45c7ed4e
  Stored in directory: /root/.cache/pip/wheels/1a/67/4a/ad4082dd7dfc30f2abfe4d80a2ed5926a506eb8a972b4767fa
Successfully built seqeval
Installing collected packages: seqeval
Successfully installed seqeval-1.2.2


In [None]:
# Definimos las métricas

from seqeval.metrics import f1_score, precision_score, recall_score

def calculate_metrics(preds, y_true, pad_idx=PAD_TAG_IDX, o_idx=O_TAG_IDX):
    """
    Calcula precision, recall y f1 de cada batch.
    """

    # Obtener el indice de la clase con probabilidad mayor. (clases)
    y_pred = preds.argmax(dim=1, keepdim=True)

    # filtramos <pad> para calcular los scores.
    mask = [(y_true != pad_idx)]
    y_pred = y_pred[mask]
    y_true = y_true[mask]

    # traemos a la cpu
    y_pred = y_pred.view(-1).to('cpu').numpy()
    y_true = y_true.to('cpu').numpy()
    y_pred = [[NER_TAGS.vocab.get_itos()[v] for v in y_pred]]
    y_true = [[NER_TAGS.vocab.get_itos()[v] for v in y_true]]

    # calcular scores
    f1 = f1_score(y_true, y_pred, mode='strict')
    precision = precision_score(y_true, y_pred, mode='strict')
    recall = recall_score(y_true, y_pred, mode='strict')

    return precision, recall, f1

-------------------

### **Modelo Baseline**

Teniendo ya cargado los datos, toca definir nuestro modelo. Este baseline tendrá una capa de embedding, unas cuantas LSTM y una capa de salida y usará dropout en el entrenamiento.

Este constará de los siguientes pasos:

1. Definir la clase que contendrá la red.
2. Definir los hiperparámetros e inicializar la red.
3. Definir el número de épocas de entrenamiento
4. Definir la función de loss.



Recomendamos que para experimentar, encapsules los modelos en una sola variable y luego la fijes en model para entrenarla

In [None]:
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim


# Definir la red
class NER_RNN(nn.Module):
    def __init__(self,
                 input_dim,
                 embedding_dim,
                 hidden_dim,
                 output_dim,
                 n_layers,
                 bidirectional,
                 dropout,
                 pad_idx):

        super().__init__()

        # Capa de embedding
        self.embedding = nn.Embedding(input_dim,
                                      embedding_dim,
                                      padding_idx=pad_idx,
                                      )

        # Capa LSTM
        self.lstm = nn.LSTM(embedding_dim,
                           hidden_dim,
                           num_layers=n_layers,
                           bidirectional=bidirectional,
                           dropout = dropout if n_layers > 1 else 0)

        # Capa de salida
        self.fc = nn.Linear(hidden_dim * 2 if bidirectional else hidden_dim,
                            output_dim)

        # Dropout
        self.dropout = nn.Dropout(dropout)

    def forward(self, text):

        #text = [sent len, batch size]

        # Convertir lo enviado a embedding
        embedded = self.dropout(self.embedding(text))

        outputs, (hidden, cell) = self.lstm(embedded)
        #embedded = [sent len, batch size, emb dim]

        # Pasar los embeddings por la rnn (LSTM)

        #output = [sent len, batch size, hid dim * n directions]
        #hidden/cell = [n layers * n directions, batch size, hid dim]

        # Predecir usando la capa de salida.
        predictions = self.fc(self.dropout(outputs))
        #predictions = [sent len, batch size, output dim]

        return predictions

#### **Hiperparámetros de la red**



In [None]:
# tamaño del vocabulario. recuerden que la entrada son vectores bag of word(one-hot).
INPUT_DIM = len(TEXT.vocab)
EMBEDDING_DIM = 300  # dimensión de los embeddings.
HIDDEN_DIM = 256  # dimensión de la capas LSTM
OUTPUT_DIM = len(NER_TAGS.vocab)  # número de clases

N_LAYERS = 3  # número de capas.
DROPOUT = 0.6
BIDIRECTIONAL = True

# Creamos nuestro modelo.
baseline_model = NER_RNN(INPUT_DIM, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         N_LAYERS, BIDIRECTIONAL, DROPOUT, PAD_IDX)

baseline_model_name = 'baseline'  # nombre que tendrá el modelo guardado...

NameError: ignored

In [None]:
baseline_n_epochs = 10

#### Definimos la función de loss

In [None]:
# Loss: Cross Entropy
TAG_PAD_IDX = NER_TAGS.vocab.get_stoi()['<PAD>']
baseline_criterion = nn.CrossEntropyLoss(ignore_index = TAG_PAD_IDX)

--------------------
### Modelo 1

En estas secciones pueden implementar nuevas redes al modificar los hiperparámetros, la cantidad de épocas de entrenamiento, el tamaño de los batches, loss, optimizador, etc... como también definir nuevas arquitecturas de red (mediante la creación de clases nuevas)


Al final de estas, hay 4 variables, las cuales deben setear con los modelos, épocas de entrenamiento, loss y optimizador que deseen probar.


---------------

### Modelo 2

### Ajuste de los datos de entrada para el modelo


In [12]:
!pip install transformers

Collecting transformers
  Downloading transformers-4.30.2-py3-none-any.whl (7.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.2/7.2 MB[0m [31m71.4 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1 (from transformers)
  Downloading tokenizers-0.13.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.8/7.8 MB[0m [31m101.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting safetensors>=0.3.1 (from transformers)
  Downloading safetensors-0.3.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m86.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: tokenizers, safetensors, transformers
Successfully installed safetensors-0.3.1 tokenizers-0.13.3 transformers-4.30.2


In [12]:
import numpy as np
import pandas as pd
import seaborn as sns
from pylab import rcParams
import matplotlib.pyplot as plt
from matplotlib import rc
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.metrics import cohen_kappa_score, roc_auc_score, accuracy_score
from collections import defaultdict
from textwrap import wrap

# Torch ML libraries
import transformers
from transformers import BertModel, BertTokenizer, AdamW, get_linear_schedule_with_warmup,BertTokenizerFast, BertConfig, BertForTokenClassification
import torch
from torch import nn, optim
from torch.utils.data import Dataset, DataLoader

# Misc.
import warnings
warnings.filterwarnings('ignore')

# Token classification (PyTorch)

Install the Transformers, Datasets, and Evaluate libraries to run this notebook.

In [None]:
!nvidia-smi

Mon Jul 10 23:04:01 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.85.12    Driver Version: 525.85.12    CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   41C    P8     9W /  70W |      0MiB / 15360MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

In [None]:
!pip install datasets evaluate transformers[sentencepiece]
!pip install accelerate
# To run the training on TPU, you will need to uncomment the following line:
# !pip install cloud-tpu-client==0.10 torch==1.9.0 https://storage.googleapis.com/tpu-pytorch/wheels/torch_xla-1.9-cp37-cp37m-linux_x86_64.whl
!apt install git-lfs

Collecting datasets
  Downloading datasets-2.13.1-py3-none-any.whl (486 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/486.2 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m486.2/486.2 kB[0m [31m29.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting evaluate
  Downloading evaluate-0.4.0-py3-none-any.whl (81 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m81.4/81.4 kB[0m [31m10.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting transformers[sentencepiece]
  Downloading transformers-4.30.2-py3-none-any.whl (7.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.2/7.2 MB[0m [31m99.0 MB/s[0m eta [36m0:00:00[0m
Collecting dill<0.3.7,>=0.3.0 (from datasets)
  Downloading dill-0.3.6-py3-none-any.whl (110 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m110.5/110.5 kB[0m [31m15.7 MB/s[0m eta [36m0:00:00[0m
Collecting xxhash (from datasets)
  Downloadi

You will need to setup git, adapt your email and name in the following cell.

In [None]:
!git config --global user.email "cristophernicolasurbinaherrera@gmail.com"
!git config --global user.name "crisU8"

You will also need to be logged in to the Hugging Face Hub. Execute the following and enter your credentials.

In [None]:
from huggingface_hub import notebook_login

notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [None]:
#%%capture

!wget https://github.com/dccuchile/CC6205/releases/download/v1.0/train.txt -nc # Dataset de Entrenamiento
!wget https://github.com/dccuchile/CC6205/releases/download/v1.0/dev.txt -nc    # Dataset de Validación (Para probar y ajustar el modelo)
!wget https://github.com/dccuchile/CC6205/releases/download/v1.0/test.txt -nc  # Dataset de la Competencia. Estos datos solo contienen los tokens. ¡¡SON LOS QUE DEBEN SER PREDICHOS!!

--2023-07-11 01:21:22--  https://github.com/dccuchile/CC6205/releases/download/v1.0/train.txt
Resolving github.com (github.com)... 20.27.177.113
Connecting to github.com (github.com)|20.27.177.113|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/196273020/77198f00-c145-11eb-83d1-11e647241ab6?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20230711%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20230711T012122Z&X-Amz-Expires=300&X-Amz-Signature=e5f1cb1edb8d966c3cb6cf8c693d98f2fd1a22127c17c035be640c94146fde9f&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=196273020&response-content-disposition=attachment%3B%20filename%3Dtrain.txt&response-content-type=application%2Foctet-stream [following]
--2023-07-11 01:21:22--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/196273020/77198f00-c145-11eb-83d1-11e647241ab6?X-Amz-Algorithm=AWS4

In [None]:
from datasets import DatasetDict, Dataset

def load_conll_file(file_path):
    with open(file_path, 'r') as file:
        lines = file.readlines()

    data = {'ner_tags': [], 'tokens': []}
    sentence_ner_tags = []
    sentence_tokens = []

    for line in lines:
        line = line.strip()
        if line == '':
            if sentence_ner_tags and sentence_tokens:
                data['ner_tags'].append(sentence_ner_tags)
                data['tokens'].append(sentence_tokens)
                sentence_ner_tags = []
                sentence_tokens = []
        else:
            parts = line.split()
            token = parts[0]
            ner_tag = parts[1]
            sentence_tokens.append(token)
            sentence_ner_tags.append(ner_tag)

    if sentence_ner_tags and sentence_tokens:
        data['ner_tags'].append(sentence_ner_tags)
        data['tokens'].append(sentence_tokens)

    return Dataset.from_dict(data)

# Cargar los archivos en formato CoNLL
train_data = load_conll_file('train.txt')
validation_data = load_conll_file('dev.txt')
test_data = load_conll_file('test.txt')

# Crear el DatasetDict
dataset_dict = DatasetDict({
    'train': train_data,
    'validation': validation_data,
    'test': test_data
})
label_mapping = {'O': 0, 'B-Disease': 1, 'I-Disease': 2, 'B-Body_Part': 3, 'I-Body_Part': 4,
                 'B-Medication': 5, 'I-Medication': 6, 'B-Procedure': 7, 'I-Procedure': 8,
                 'B-Family_Member': 9, 'I-Family_Member': 10}

# Convertir las etiquetas NER a números enteros en el conjunto de datos de entrenamiento
train_dataset = dataset_dict['train']
train_dataset_new = train_dataset.map(lambda example: {'ner_tags': [label_mapping[tag] for tag in example['ner_tags']], 'tokens': example['tokens']})

# Convertir las etiquetas NER a números enteros en el conjunto de datos de validación
validation_dataset = dataset_dict['validation']
validation_dataset_new = validation_dataset.map(lambda example: {'ner_tags': [label_mapping[tag] for tag in example['ner_tags']], 'tokens': example['tokens']})

# Convertir las etiquetas NER a números enteros en el conjunto de datos de prueba
test_dataset = dataset_dict['test']
test_dataset_new = test_dataset.map(lambda example: {'ner_tags': [label_mapping[tag] for tag in example['ner_tags']], 'tokens': example['tokens']})

# Crear un nuevo objeto DatasetDict con los conjuntos de datos actualizados
raw_datasets = DatasetDict({'train': train_dataset_new, 'validation': validation_dataset_new, 'test': test_dataset_new})

# Imprimir el nuevo formato del conjunto de datos
raw_datasets


Map:   0%|          | 0/8025 [00:00<?, ? examples/s]

Map:   0%|          | 0/891 [00:00<?, ? examples/s]

Map:   0%|          | 0/992 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['ner_tags', 'tokens'],
        num_rows: 8025
    })
    validation: Dataset({
        features: ['ner_tags', 'tokens'],
        num_rows: 891
    })
    test: Dataset({
        features: ['ner_tags', 'tokens'],
        num_rows: 992
    })
})

In [None]:
raw_datasets["train"][0]["tokens"]

['K08',
 '.',
 '1',
 '-',
 'PERDIDA',
 'DE',
 'DIENTES',
 'DEBIDA',
 'A',
 'ACCIDENTE',
 ',',
 'EXTRACCION',
 'O',
 'ENF',
 '.',
 'PERIODONTAL',
 'LOCAL',
 '/',
 'Se',
 'solicita',
 'Protesis',
 'Parcial',
 'superior',
 'e',
 'inferior']

In [None]:
raw_datasets["train"][0]["ner_tags"]

[1, 2, 2, 0, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 0, 0, 0, 7, 8, 8, 8, 8]

In [None]:
from datasets import Sequence, ClassLabel

ner_label_names = ['O', 'B-Disease', 'I-Disease', 'B-Body_Part', 'I-Body_Part',
                 'B-Medication', 'I-Medication', 'B-Procedure', 'I-Procedure',
                 'B-Family_Member', 'I-Family_Member']
ner_num_classes = len(ner_label_names)

ner_sequence = Sequence(
    feature=ClassLabel(num_classes=ner_num_classes, names=ner_label_names),
    length=-1,
    id=None
)

In [None]:
label_names = ner_sequence.feature.names
label_names

['O',
 'B-Disease',
 'I-Disease',
 'B-Body_Part',
 'I-Body_Part',
 'B-Medication',
 'I-Medication',
 'B-Procedure',
 'I-Procedure',
 'B-Family_Member',
 'I-Family_Member']

In [None]:
words = raw_datasets["train"][0]["tokens"]
labels = raw_datasets["train"][0]["ner_tags"]
line1 = ""
line2 = ""
for word, label in zip(words, labels):
    full_label = label_names[label]
    max_length = max(len(word), len(full_label))
    line1 += word + " " * (max_length - len(word) + 1)
    line2 += full_label + " " * (max_length - len(full_label) + 1)

print(line1)
print(line2)

K08       .         1         - PERDIDA   DE        DIENTES   DEBIDA    A         ACCIDENTE ,         EXTRACCION O         ENF       .         PERIODONTAL LOCAL     / Se solicita Protesis    Parcial     superior    e           inferior    
B-Disease I-Disease I-Disease O B-Disease I-Disease I-Disease I-Disease I-Disease I-Disease I-Disease I-Disease  I-Disease I-Disease I-Disease I-Disease   I-Disease O O  O        B-Procedure I-Procedure I-Procedure I-Procedure I-Procedure 


In [None]:
from transformers import AutoTokenizer

#model_checkpoint = "bert-base-cased"
#tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
#tokenizer = AutoTokenizer.from_pretrained("fmmolina/bert-base-spanish-wwm-uncased-finetuned-NER-medical")
#tokenizer = AutoTokenizer.from_pretrained("MMG/xlm-roberta-large-ner-spanish")

#tokenizer = AutoTokenizer.from_pretrained("dccuchile/bert-base-spanish-wwm-uncased")

#tokenizer = AutoTokenizer.from_pretrained("dccuchile/albert-base-10-spanish-finetuned-ner")

#tokenizer = AutoTokenizer.from_pretrained("dccuchile/roberta-base-bne-finetuned-ner")
#tokenizer = AutoTokenizer.from_pretrained("dccuchile/albert-xxlarge-spanish-finetuned-ner")
#tokenizer = AutoTokenizer.from_pretrained("dccuchile/bertin-roberta-base-spanish-finetuned-ner")
#tokenizer = AutoTokenizer.from_pretrained("lcampillos/roberta-es-clinical-trials-ner")
tokenizer = AutoTokenizer.from_pretrained("plncmm/beto-clinical-wl-es")


In [None]:
tokenizer.is_fast

True

In [None]:
raw_dataset['train']['tokens']

In [None]:
inputs = tokenizer(raw_datasets["train"][0]["tokens"], is_split_into_words=True)
inputs.tokens()

['[CLS]',
 'r',
 '##30',
 '##0',
 'dis',
 '##uria',
 'ante',
 '##cedente',
 'de',
 'dis',
 '##uria',
 'de',
 '2',
 'años',
 'de',
 'evolución',
 '.',
 '[SEP]']

In [None]:
inputs.word_ids()

[None, 0, 0, 0, 1, 1, 2, 2, 3, 4, 4, 5, 6, 7, 8, 9, 10, None]

In [None]:
def align_labels_with_tokens(labels, word_ids):
    new_labels = []
    current_word = None
    for word_id in word_ids:
        if word_id != current_word:
            # Start of a new word!
            current_word = word_id
            label = -100 if word_id is None else labels[word_id]
            new_labels.append(label)
        elif word_id is None:
            # Special token
            new_labels.append(-100)
        else:
            # Same word as previous token
            label = labels[word_id]
            # If the label is B-XXX we change it to I-XXX
            if label % 2 == 1:
                label += 1
            new_labels.append(label)

    return new_labels

In [None]:
labels = raw_datasets["train"][0]["ner_tags"]
word_ids = inputs.word_ids()
print(labels)
print(align_labels_with_tokens(labels, word_ids))

[1, 2, 2, 0, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 0, 0, 0, 7, 8, 8, 8, 8]
[-100, 1, 2, 2, 2, 2, 2, 2, 0, 1, 2, 2, 2, 2, 2, 2, 2, -100]


In [None]:
def tokenize_and_align_labels(examples):
    tokenized_inputs = tokenizer(
        examples["tokens"], truncation=True, is_split_into_words=True
    )
    all_labels = examples["ner_tags"]
    new_labels = []
    for i, labels in enumerate(all_labels):
        word_ids = tokenized_inputs.word_ids(i)
        new_labels.append(align_labels_with_tokens(labels, word_ids))

    tokenized_inputs["labels"] = new_labels
    return tokenized_inputs

In [None]:
tokenized_datasets = raw_datasets.map(
    tokenize_and_align_labels,
    batched=True,
    remove_columns=raw_datasets["train"].column_names,
)

Map:   0%|          | 0/8025 [00:00<?, ? examples/s]

Map:   0%|          | 0/891 [00:00<?, ? examples/s]

Map:   0%|          | 0/992 [00:00<?, ? examples/s]

In [None]:
from transformers import DataCollatorForTokenClassification

data_collator = DataCollatorForTokenClassification(tokenizer=tokenizer)

In [None]:
batch = data_collator([tokenized_datasets["train"][i] for i in range(2)])
batch["labels"]

You're using a BertTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


tensor([[-100,    1,    2,    2,    1,    2,    0,    0,    0,    0,    0,    0,
            0,    0,    0,    0,    0, -100, -100, -100, -100, -100, -100, -100,
         -100, -100, -100, -100, -100],
        [-100,    1,    2,    2,    0,    0,    0,    0,    0,    0,    5,    6,
            6,    6,    6,    0,    0,    0,    0,    5,    6,    6,    6,    6,
            0,    0,    0,    0, -100]])

In [None]:
for i in range(2):
    print(tokenized_datasets["train"][i]["labels"])

[-100, 1, 2, 2, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, -100]
[-100, 1, 2, 2, 0, 0, 0, 0, 0, 0, 5, 6, 6, 6, 6, 0, 0, 0, 0, 5, 6, 6, 6, 6, 0, 0, 0, 0, -100]


In [None]:
!pip install seqeval

Collecting seqeval
  Downloading seqeval-1.2.2.tar.gz (43 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/43.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m43.6/43.6 kB[0m [31m3.0 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: seqeval
  Building wheel for seqeval (setup.py) ... [?25l[?25hdone
  Created wheel for seqeval: filename=seqeval-1.2.2-py3-none-any.whl size=16165 sha256=ade013d41896f491add677a5592a3ae9354a098daab5581ae71976ce429af67a
  Stored in directory: /root/.cache/pip/wheels/1a/67/4a/ad4082dd7dfc30f2abfe4d80a2ed5926a506eb8a972b4767fa
Successfully built seqeval
Installing collected packages: seqeval
Successfully installed seqeval-1.2.2


In [None]:
import evaluate

metric = evaluate.load("seqeval")

Downloading builder script:   0%|          | 0.00/6.34k [00:00<?, ?B/s]

In [None]:
labels = raw_datasets["train"][0]["ner_tags"]
labels = [label_names[i] for i in labels]
labels

['B-Disease', 'B-Disease', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']

In [None]:
predictions = labels.copy()
predictions[2] = "O"
metric.compute(predictions=[predictions], references=[labels])

{'Disease': {'precision': 1.0, 'recall': 1.0, 'f1': 1.0, 'number': 2},
 'overall_precision': 1.0,
 'overall_recall': 1.0,
 'overall_f1': 1.0,
 'overall_accuracy': 1.0}

In [None]:
import numpy as np


def compute_metrics(eval_preds):
    logits, labels = eval_preds
    predictions = np.argmax(logits, axis=-1)

    # Remove ignored index (special tokens) and convert to labels
    true_labels = [[label_names[l] for l in label if l != -100] for label in labels]
    true_predictions = [
        [label_names[p] for (p, l) in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels)
    ]
    all_metrics = metric.compute(predictions=true_predictions, references=true_labels)
    return {
        "precision": all_metrics["overall_precision"],
        "recall": all_metrics["overall_recall"],
        "f1": all_metrics["overall_f1"],
        "accuracy": all_metrics["overall_accuracy"],
    }

In [None]:
id2label = {i: label for i, label in enumerate(label_names)}
label2id = {v: k for k, v in id2label.items()}

In [None]:
from transformers import AutoModelForTokenClassification
#model_checkpoint = "fmmolina/bert-base-spanish-wwm-uncased-finetuned-NER-medical"
#model_checkpoint = "MMG/xlm-roberta-large-ner-spanish"
#model_checkpoint = "dccuchile/bert-base-spanish-wwm-uncased"
#model_checkpoint = "dccuchile/albert-base-10-spanish-finetuned-ner"
#model_checkpoint = "dccuchile/roberta-base-bne-finetuned-ner"
#model_checkpoint = "dccuchile/albert-xxlarge-spanish-finetuned-ner"
#model_checkpoint = "dccuchile/bertin-roberta-base-spanish-finetuned-ner"
#model_checkpoint = "lcampillos/roberta-es-clinical-trials-ner"
model_checkpoint = "plncmm/beto-clinical-wl-es"
model = AutoModelForTokenClassification.from_pretrained(
    model_checkpoint,
    id2label=id2label,
    label2id=label2id,
   ignore_mismatched_sizes=True
)

Some weights of the model checkpoint at plncmm/beto-clinical-wl-es were not used when initializing BertForTokenClassification: ['cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.bias', 'cls.predictions.decoder.bias', 'cls.predictions.transform.dense.bias', 'cls.predictions.decoder.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForTokenClassification were not initialized from the model checkpoint at plncmm/beto-clinical-wl-es and

In [None]:
model.config.num_labels

11

In [None]:
import torch
torch.cuda.empty_cache()


In [None]:
from transformers import TrainingArguments

args = TrainingArguments(
    "bert-finetuned-ner-clinical-plncmm-large-25",
    evaluation_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end = True,
    learning_rate=3e-5, #COMBINACION GANADORA
    weight_decay = 1e-4, #MAS GRANDE EMPEORA (1E-4 OPTIMO)
    num_train_epochs=3, #OPTIMO
    push_to_hub=True,
    per_device_train_batch_size = 18,#OPTIMO 24 hasta el momento
    per_device_eval_batch_size = 32,
    #greater_is_better = False
    #save_total_limit = 1,
    warmup_steps = 400,# PROBAR CON 350

    fp16 = True
    )

In [None]:

from transformers import Trainer

trainer = Trainer(
    model=model,
    args=args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    compute_metrics=compute_metrics,
    tokenizer=tokenizer,
    #model_init=model_init
)

trainer.train()

Cloning https://huggingface.co/crisU8/bert-finetuned-ner-clinical-plncmm-large-25 into local empty directory.
You're using a BertTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Epoch,Training Loss,Validation Loss,Precision,Recall,F1,Accuracy
1,No log,0.260734,0.670137,0.777168,0.719695,0.91129
2,0.612800,0.22981,0.72659,0.796378,0.759885,0.925365
3,0.192700,0.248716,0.73716,0.803513,0.768908,0.927043


TrainOutput(global_step=1338, training_loss=0.3336641400027881, metrics={'train_runtime': 930.7715, 'train_samples_per_second': 25.866, 'train_steps_per_second': 1.438, 'total_flos': 1024983177946992.0, 'train_loss': 0.3336641400027881, 'epoch': 3.0})

In [None]:
best_ckpt_path = trainer.state.best_model_checkpoint
best_ckpt_path

'bert-finetuned-ner-clinical-plncmm-large-25/checkpoint-892'

In [None]:
trainer.save_model('bert-finetuned-ner-clinical-plncmm-large-25/checkpoint-892')

Upload file runs/Jul10_09-52-04_45c1d42ccdf2/events.out.tfevents.1688982732.45c1d42ccdf2.646.6:   0%|         …

To https://huggingface.co/crisU8/bert-finetuned-ner-clinical-plncmm-large-25
   bfc313d..6139835  main -> main

   bfc313d..6139835  main -> main

To https://huggingface.co/crisU8/bert-finetuned-ner-clinical-plncmm-large-25
   6139835..a0ee202  main -> main

   6139835..a0ee202  main -> main



In [None]:
trainer.push_to_hub(commit_message="Training complete")


KeyboardInterrupt



Predicion

In [None]:
tokenizer = AutoTokenizer.from_pretrained("crisU8/bert-finetuned-ner-clinical-plncmm-large-25")
model = AutoModelForTokenClassification.from_pretrained("crisU8/bert-finetuned-ner-clinical-plncmm-large-25")

Downloading (…)okenizer_config.json:   0%|          | 0.00/367 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/248k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/735k [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/1.25k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/437M [00:00<?, ?B/s]

In [None]:
# Ruta del archivo .txt
test_path = 'test.txt'

import pandas as pd

def convert_txt_to_dataframe(file_path):
    # Leer el archivo .txt
    with open(file_path, 'r') as file:
        text = file.read()

    # Dividir el texto en oraciones
    sentences = text.split('\n\n')

    # Crear listas para las oraciones y etiquetas de palabras
    all_sentences = []
    all_word_labels = []

    # Recorrer cada oración
    for sentence in sentences:
        if sentence:
            # Dividir la oración en líneas
            lines = sentence.split('\n')

            # Variables para construir la oración y etiquetas
            current_sentence = ""
            current_label = ""

            # Recorrer cada línea de la oración
            for line in lines:
                parts = line.split()
                if parts:
                    word = parts[0]
                    label = parts[1]

                    current_sentence += word + " "
                    current_label += label + ","

            # Agregar la oración y las etiquetas a las listas
            all_sentences.append(current_sentence.strip())
            all_word_labels.append(current_label.strip())

    # Crear un diccionario con las columnas 'sentence' y 'word_labels'
    data = {'sentence': all_sentences, 'word_labels': all_word_labels}

    # Convertir el diccionario en un dataframe
    dataset = pd.DataFrame(data)

    return dataset

test = convert_txt_to_dataframe(test_path)

In [None]:
labels_map = {
    'O': 0,
    'B-Disease': 1,
    'I-Disease': 2,
    'B-Body_Part': 3,
    'I-Body_Part': 4,
    'B-Medication': 5,
    'I-Medication': 6,
    'B-Procedure': 7,
    'I-Procedure': 8,
    'B-Family_Member': 9,
    'I-Family_Member': 10
}

In [None]:
sentences_test=[]

for sent in test.sentence:
  sentences_test.append([sent])

In [None]:
#Encoding and convert the sentences into tensors
sample_sentence = tokenizer.encode(sentences_test[0][0])
sample_input_ids = torch.tensor([sample_sentence]).cuda()

#Predicting the test data set using model() function
with torch.no_grad():
    output = model(sample_input_ids)
label_indices = np.argmax(output[0].to('cpu').numpy(), axis=2)

#Function which retrieves key value for our Label Dictionary
def get_key(val):
    for key, value in label_map.items():
         if val == value:
             return key

    return "key doesn't exist"

#Tokenize
tokens = tokenizer.convert_ids_to_tokens(sample_input_ids.to('cpu').numpy()[0])
new_tokens, new_label = [], []
for token, label_idx in zip(tokens, label_indices[0]):
    if token.startswith("##"):
        new_tokens[-1] = new_tokens[-1] + token[2:]
    else:
        new_label.append(get_key(label_idx))
        new_tokens.append(token)

#Appending Tokens and Labels
movie_token=[]
movie_label=[]
for token, label in zip(new_tokens, new_label):
    movie_token.append(token)
    movie_label.append(label)

df=pd.DataFrame({"Token":movie_token,"Movie_Label":movie_label})
df.T#Encoding and convert the sentences into tensors
sample_sentence = tokenizer.encode(sentences_test[0][0])
sample_input_ids = torch.tensor([sample_sentence]).cuda()

#Predicting the test data set using model() function
with torch.no_grad():
    output = model(sample_input_ids)
label_indices = np.argmax(output[0].to('cpu').numpy(), axis=2)

#Function which retrieves key value for our Label Dictionary
def get_key(val):
    for key, value in label_map.items():
         if val == value:
             return key

    return "key doesn't exist"

#Tokenize
tokens = tokenizer.convert_ids_to_tokens(sample_input_ids.to('cpu').numpy()[0])
new_tokens, new_label = [], []
for token, label_idx in zip(tokens, label_indices[0]):
    if token.startswith("##"):
        new_tokens[-1] = new_tokens[-1] + token[2:]
    else:
        new_label.append(get_key(label_idx))
        new_tokens.append(token)

#Appending Tokens and Labels
movie_token=[]
movie_label=[]
for token, label in zip(new_tokens, new_label):
    movie_token.append(token)
    movie_label.append(label)

df=pd.DataFrame({"Token":movie_token,"Movie_Label":movie_label})
df.T

In [None]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print('Using', device)

Using cuda


In [None]:
combined_df = pd.DataFrame(columns=["Token", "Label"])

for sentence_list in sentences_test:
    sentence = sentence_list[0]

    sample_sentence = tokenizer.encode(sentence)
    sample_input_ids = torch.tensor([sample_sentence]).to(device)

    with torch.no_grad():
        output = model(sample_input_ids)
    label_indices = np.argmax(output[0].to('cpu').numpy(), axis=2)

    def get_key(val):
        for key, value in label_map.items():
            if val == value:
                return key
        return "key doesn't exist"

    tokens = tokenizer.convert_ids_to_tokens(sample_input_ids.to('cpu').numpy()[0])
    new_tokens, new_label = [], []
    for token, label_idx in zip(tokens, label_indices[0]):
        if token.startswith("##"):
            new_tokens[-1] = new_tokens[-1] + token[2:]
        else:
            new_label.append(get_key(label_idx))
            new_tokens.append(token)

    df = pd.DataFrame({"Token": new_tokens, "Label": new_label})
    combined_df = combined_df.append(df)

combined_df.reset_index(drop=True, inplace=True)
combined_df

  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_df.append(df)
  combined_df = combined_

Unnamed: 0,Token,Label
0,[CLS],O
1,frenillo,B-Body_Part
2,labial,I-Body_Part
3,superior,I-Body_Part
4,infectado,O
...,...,...
20474,bursitis,B-Disease
20475,subacranio,I-Disease
20476,deltoidea,I-Disease
20477,izquierda,I-Disease


In [None]:
predictions = combined_df.drop(combined_df[combined_df['Token'] == '[CLS]'].index)
#predictions = predictions.drop(predictions[predictions['Token'] == '[SEP]'].index)
predictions.reset_index(drop=True, inplace=True)
predictions

Unnamed: 0,Token,Label
0,frenillo,B-Body_Part
1,labial,I-Body_Part
2,superior,I-Body_Part
3,infectado,O
4,en,O
...,...,...
19482,bursitis,B-Disease
19483,subacranio,I-Disease
19484,deltoidea,I-Disease
19485,izquierda,I-Disease


In [None]:
predictions.drop(predictions.index[-1], inplace=True)
predictions

Unnamed: 0,Token,Label
0,frenillo,B-Body_Part
1,labial,I-Body_Part
2,superior,I-Body_Part
3,infectado,O
4,en,O
...,...,...
19481,izquierda,I-Disease
19482,bursitis,B-Disease
19483,subacranio,I-Disease
19484,deltoidea,I-Disease


In [None]:
import os
import shutil

# Eliminar el archivo ZIP anterior, si existe
if os.path.isfile('./predictions.zip'):
    os.remove('./predictions.zip')

# Eliminar el directorio 'predictions', si existe
if os.path.isdir('./predictions'):
    shutil.rmtree('./predictions')

# Crear el directorio 'predictions'
os.mkdir('./predictions')

# Escribir el archivo de texto con el formato solicitado
with open('predictions/predictions.txt', 'w') as file:
    for i, row in predictions.iterrows():
        if row['Token'] == '[SEP]':
            file.write('\n')
        else:
            file.write(row['Token'] + ' ' + row['Label'] + '\n')

# Crear el archivo ZIP
shutil.make_archive('predictions', 'zip', './predictions')

# Eliminar el directorio 'predictions'
shutil.rmtree('./predictions')

### Experimentos con Flair

In [None]:
!pip install flair

Collecting flair
  Downloading flair-0.12.2-py3-none-any.whl (373 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/373.1 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━[0m [32m225.3/373.1 kB[0m [31m7.3 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m373.1/373.1 kB[0m [31m7.4 MB/s[0m eta [36m0:00:00[0m
Collecting segtok>=1.5.7 (from flair)
  Downloading segtok-1.5.11-py3-none-any.whl (24 kB)
Collecting mpld3==0.3 (from flair)
  Downloading mpld3-0.3.tar.gz (788 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m788.5/788.5 kB[0m [31m33.1 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting sqlitedict>=1.6.0 (from flair)
  Downloading sqlitedict-2.1.0.tar.gz (21 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting deprecated>=1.2.4 (from flair)
  Downloading Deprecated-1

In [None]:
import flair
from flair.data import Sentence
from flair.datasets import SentenceDataset

In [None]:
from flair.datasets import ColumnCorpus

# Definir la ruta y el nombre del archivo de texto
data_folder = "/content"
file_name = "/content/train_v7.txt"
file_dev = "/content/dev.txt"
file_test = "/content/test.txt"


# Definir las columnas en el formato CoNLL
columns = {0: 'text', 1: 'ner'}

# Cargar el corpus
corpus_v7 = ColumnCorpus(data_folder, columns, train_file=file_name, test_file=file_test, dev_file=file_dev)

2023-07-11 01:22:27,791 Reading data from /content
2023-07-11 01:22:27,794 Train: /content/train_v7.txt
2023-07-11 01:22:27,799 Dev: /content/dev.txt
2023-07-11 01:22:27,801 Test: /content/test.txt


In [None]:
from flair.embeddings.token import FlairEmbeddings
from flair.data import Sentence
from flair.embeddings import StackedEmbeddings , WordEmbeddings


In [None]:
import torch

# 2. what tag do we want to predict?
tag_type = 'ner'

# 3. make the tag dictionary from the corpus
tag_dictionary = corpus_v7.make_label_dictionary(label_type=tag_type)

2023-07-11 01:22:32,523 Computing label dictionary. Progress:


13707it [00:00, 48738.40it/s]

2023-07-11 01:22:32,855 Dictionary created for label 'ner' with 6 values: Disease (seen 15719 times), Body_Part (seen 7448 times), Procedure (seen 5190 times), Medication (seen 1390 times), Family_Member (seen 356 times)





Experimento con transformer embeddings

In [None]:
from flair.embeddings import TransformerWordEmbeddings
emb = TransformerWordEmbeddings('crisU8/bert-finetuned-ner-clinical-plncmm-large-15', use_context = True)

Downloading (…)okenizer_config.json:   0%|          | 0.00/367 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/248k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/735k [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/1.25k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/437M [00:00<?, ?B/s]

In [None]:
import torch

# 2. what tag do we want to predict?
tag_type = 'ner'

# 3. make the tag dictionary from the corpus
tag_dictionary = corpus_v7.make_label_dictionary(label_type=tag_type)


embeddings = StackedEmbeddings([WordEmbeddings('es'),
                                FlairEmbeddings('es-clinical-forward'),
                                FlairEmbeddings('es-clinical-backward')])


2023-07-11 03:24:54,458 Computing label dictionary. Progress:


13707it [00:00, 52395.97it/s]

2023-07-11 03:24:54,726 Dictionary created for label 'ner' with 6 values: Disease (seen 15719 times), Body_Part (seen 7448 times), Procedure (seen 5190 times), Medication (seen 1390 times), Family_Member (seen 356 times)





2023-07-11 03:24:56,089 https://flair.informatik.hu-berlin.de/resources/embeddings/token/es-wiki-fasttext-300d-1M.vectors.npy not found in cache, downloading to /tmp/tmp6xghnbm8


100%|██████████| 1.10G/1.10G [01:49<00:00, 10.8MB/s]

2023-07-11 03:26:46,641 copying /tmp/tmp6xghnbm8 to cache at /root/.flair/embeddings/es-wiki-fasttext-300d-1M.vectors.npy





2023-07-11 03:26:50,662 removing temp file /tmp/tmp6xghnbm8
2023-07-11 03:26:52,139 https://flair.informatik.hu-berlin.de/resources/embeddings/token/es-wiki-fasttext-300d-1M not found in cache, downloading to /tmp/tmpddkd7gvp


100%|██████████| 37.8M/37.8M [00:05<00:00, 7.52MB/s]

2023-07-11 03:26:58,259 copying /tmp/tmpddkd7gvp to cache at /root/.flair/embeddings/es-wiki-fasttext-300d-1M
2023-07-11 03:26:58,291 removing temp file /tmp/tmpddkd7gvp





In [None]:
from flair.models import SequenceTagger
tagger : SequenceTagger = SequenceTagger(hidden_size=256,
                                       embeddings=embeddings,
                                       tag_dictionary=tag_dictionary,
                                       tag_type=tag_type,
                                       use_crf=True)
print(tagger)

2023-07-11 03:27:12,486 SequenceTagger predicts: Dictionary with 21 tags: O, S-Disease, B-Disease, E-Disease, I-Disease, S-Body_Part, B-Body_Part, E-Body_Part, I-Body_Part, S-Procedure, B-Procedure, E-Procedure, I-Procedure, S-Medication, B-Medication, E-Medication, I-Medication, S-Family_Member, B-Family_Member, E-Family_Member, I-Family_Member
SequenceTagger(
  (embeddings): StackedEmbeddings(
    (list_embedding_0): WordEmbeddings(
      'es'
      (embedding): Embedding(985667, 300)
    )
    (list_embedding_1): FlairEmbeddings(
      (lm): LanguageModel(
        (drop): Dropout(p=0.5, inplace=False)
        (encoder): Embedding(275, 100)
        (rnn): LSTM(100, 2048)
      )
    )
    (list_embedding_2): FlairEmbeddings(
      (lm): LanguageModel(
        (drop): Dropout(p=0.5, inplace=False)
        (encoder): Embedding(275, 100)
        (rnn): LSTM(100, 2048)
      )
    )
  )
  (word_dropout): WordDropout(p=0.05)
  (locked_dropout): LockedDropout(p=0.5)
  (embedding2nn): Linea

In [None]:
from flair.trainers import ModelTrainer
trainer : ModelTrainer = ModelTrainer(tagger, corpus_v7)
trainer.train('resources/taggers/ner_v7',
              learning_rate=0.1,
              mini_batch_size=32,
              max_epochs=10)

2023-07-11 01:24:05,893 ----------------------------------------------------------------------------------------------------
2023-07-11 01:24:05,896 Model: "SequenceTagger(
  (embeddings): StackedEmbeddings(
    (list_embedding_0): TransformerWordEmbeddings(
      (model): BertModel(
        (embeddings): BertEmbeddings(
          (word_embeddings): Embedding(31003, 768)
          (position_embeddings): Embedding(512, 768)
          (token_type_embeddings): Embedding(2, 768)
          (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
          (dropout): Dropout(p=0.1, inplace=False)
        )
        (encoder): BertEncoder(
          (layer): ModuleList(
            (0-11): 12 x BertLayer(
              (attention): BertAttention(
                (self): BertSelfAttention(
                  (query): Linear(in_features=768, out_features=768, bias=True)
                  (key): Linear(in_features=768, out_features=768, bias=True)
                  (value): Linear(in_fea

100%|██████████| 56/56 [00:36<00:00,  1.54it/s]

2023-07-11 01:39:56,925 Evaluating as a multi-label problem: False
2023-07-11 01:39:56,955 DEV : loss 0.25739598274230957 - f1-score (micro avg)  0.7607
2023-07-11 01:39:57,060 BAD EPOCHS (no improvement): 0
2023-07-11 01:39:57,062 saving best model





2023-07-11 01:39:58,927 ----------------------------------------------------------------------------------------------------
2023-07-11 01:41:03,861 epoch 2 - iter 85/857 - loss 0.27519766 - time (sec): 64.93 - samples/sec: 424.43 - lr: 0.100000
2023-07-11 01:42:05,088 epoch 2 - iter 170/857 - loss 0.28150548 - time (sec): 126.16 - samples/sec: 417.26 - lr: 0.100000
2023-07-11 01:43:10,591 epoch 2 - iter 255/857 - loss 0.28577364 - time (sec): 191.66 - samples/sec: 417.46 - lr: 0.100000
2023-07-11 01:44:14,696 epoch 2 - iter 340/857 - loss 0.28644831 - time (sec): 255.77 - samples/sec: 419.69 - lr: 0.100000
2023-07-11 01:45:16,325 epoch 2 - iter 425/857 - loss 0.28763795 - time (sec): 317.40 - samples/sec: 419.08 - lr: 0.100000
2023-07-11 01:46:20,306 epoch 2 - iter 510/857 - loss 0.28559659 - time (sec): 381.38 - samples/sec: 417.81 - lr: 0.100000
2023-07-11 01:47:22,839 epoch 2 - iter 595/857 - loss 0.28298108 - time (sec): 443.91 - samples/sec: 417.84 - lr: 0.100000
2023-07-11 01:48

100%|██████████| 56/56 [00:20<00:00,  2.69it/s]

2023-07-11 01:50:59,867 Evaluating as a multi-label problem: False
2023-07-11 01:50:59,892 DEV : loss 0.21704339981079102 - f1-score (micro avg)  0.7597
2023-07-11 01:51:00,001 BAD EPOCHS (no improvement): 1
2023-07-11 01:51:00,006 ----------------------------------------------------------------------------------------------------





2023-07-11 01:52:03,654 epoch 3 - iter 85/857 - loss 0.21165167 - time (sec): 63.65 - samples/sec: 408.35 - lr: 0.100000
2023-07-11 01:53:05,717 epoch 3 - iter 170/857 - loss 0.21274305 - time (sec): 125.71 - samples/sec: 415.80 - lr: 0.100000
2023-07-11 01:54:09,930 epoch 3 - iter 255/857 - loss 0.21475063 - time (sec): 189.92 - samples/sec: 415.68 - lr: 0.100000
2023-07-11 01:55:14,950 epoch 3 - iter 340/857 - loss 0.21914115 - time (sec): 254.94 - samples/sec: 414.15 - lr: 0.100000
2023-07-11 01:56:18,910 epoch 3 - iter 425/857 - loss 0.21756525 - time (sec): 318.90 - samples/sec: 415.91 - lr: 0.100000
2023-07-11 01:57:18,727 epoch 3 - iter 510/857 - loss 0.21599479 - time (sec): 378.72 - samples/sec: 415.40 - lr: 0.100000
2023-07-11 01:58:23,590 epoch 3 - iter 595/857 - loss 0.21579887 - time (sec): 443.58 - samples/sec: 416.49 - lr: 0.100000
2023-07-11 01:59:28,330 epoch 3 - iter 680/857 - loss 0.21383053 - time (sec): 508.32 - samples/sec: 417.51 - lr: 0.100000
2023-07-11 02:00:3

100%|██████████| 56/56 [00:19<00:00,  2.84it/s]

2023-07-11 02:02:00,350 Evaluating as a multi-label problem: False
2023-07-11 02:02:00,376 DEV : loss 0.183817058801651 - f1-score (micro avg)  0.78
2023-07-11 02:02:00,498 BAD EPOCHS (no improvement): 0
2023-07-11 02:02:00,501 saving best model





2023-07-11 02:02:02,479 ----------------------------------------------------------------------------------------------------
2023-07-11 02:03:06,896 epoch 4 - iter 85/857 - loss 0.17590447 - time (sec): 64.42 - samples/sec: 410.33 - lr: 0.100000
2023-07-11 02:04:10,167 epoch 4 - iter 170/857 - loss 0.17808384 - time (sec): 127.69 - samples/sec: 419.72 - lr: 0.100000
2023-07-11 02:05:14,155 epoch 4 - iter 255/857 - loss 0.18331494 - time (sec): 191.68 - samples/sec: 420.24 - lr: 0.100000
2023-07-11 02:06:17,442 epoch 4 - iter 340/857 - loss 0.18348655 - time (sec): 254.96 - samples/sec: 417.76 - lr: 0.100000
2023-07-11 02:07:22,299 epoch 4 - iter 425/857 - loss 0.18681672 - time (sec): 319.82 - samples/sec: 419.26 - lr: 0.100000
2023-07-11 02:08:26,293 epoch 4 - iter 510/857 - loss 0.18752094 - time (sec): 383.81 - samples/sec: 416.64 - lr: 0.100000
2023-07-11 02:09:28,440 epoch 4 - iter 595/857 - loss 0.18878058 - time (sec): 445.96 - samples/sec: 418.84 - lr: 0.100000
2023-07-11 02:10

100%|██████████| 56/56 [00:19<00:00,  2.85it/s]

2023-07-11 02:13:02,272 Evaluating as a multi-label problem: False
2023-07-11 02:13:02,296 DEV : loss 0.19052867591381073 - f1-score (micro avg)  0.7864
2023-07-11 02:13:02,409 BAD EPOCHS (no improvement): 0
2023-07-11 02:13:02,411 saving best model





2023-07-11 02:13:04,448 ----------------------------------------------------------------------------------------------------
2023-07-11 02:14:05,825 epoch 5 - iter 85/857 - loss 0.16416999 - time (sec): 61.38 - samples/sec: 412.02 - lr: 0.100000
2023-07-11 02:15:09,523 epoch 5 - iter 170/857 - loss 0.16250813 - time (sec): 125.07 - samples/sec: 419.46 - lr: 0.100000
2023-07-11 02:16:14,523 epoch 5 - iter 255/857 - loss 0.16199650 - time (sec): 190.07 - samples/sec: 416.22 - lr: 0.100000
2023-07-11 02:17:16,784 epoch 5 - iter 340/857 - loss 0.16133726 - time (sec): 252.33 - samples/sec: 414.10 - lr: 0.100000
2023-07-11 02:18:20,675 epoch 5 - iter 425/857 - loss 0.16158533 - time (sec): 316.22 - samples/sec: 415.53 - lr: 0.100000
2023-07-11 02:19:24,658 epoch 5 - iter 510/857 - loss 0.16382422 - time (sec): 380.21 - samples/sec: 416.67 - lr: 0.100000
2023-07-11 02:20:29,698 epoch 5 - iter 595/857 - loss 0.16437091 - time (sec): 445.25 - samples/sec: 417.41 - lr: 0.100000
2023-07-11 02:21

100%|██████████| 56/56 [00:20<00:00,  2.76it/s]

2023-07-11 02:24:06,190 Evaluating as a multi-label problem: False
2023-07-11 02:24:06,216 DEV : loss 0.17022915184497833 - f1-score (micro avg)  0.7876
2023-07-11 02:24:06,332 BAD EPOCHS (no improvement): 0
2023-07-11 02:24:06,334 saving best model





2023-07-11 02:24:12,509 ----------------------------------------------------------------------------------------------------
2023-07-11 02:25:15,671 epoch 6 - iter 85/857 - loss 0.13965757 - time (sec): 63.16 - samples/sec: 417.06 - lr: 0.100000
2023-07-11 02:26:20,523 epoch 6 - iter 170/857 - loss 0.14082049 - time (sec): 128.01 - samples/sec: 420.98 - lr: 0.100000
2023-07-11 02:27:24,853 epoch 6 - iter 255/857 - loss 0.14201998 - time (sec): 192.34 - samples/sec: 419.45 - lr: 0.100000
2023-07-11 02:28:27,847 epoch 6 - iter 340/857 - loss 0.14088675 - time (sec): 255.33 - samples/sec: 421.15 - lr: 0.100000
2023-07-11 02:29:30,304 epoch 6 - iter 425/857 - loss 0.14359335 - time (sec): 317.79 - samples/sec: 421.84 - lr: 0.100000
2023-07-11 02:30:35,016 epoch 6 - iter 510/857 - loss 0.14204877 - time (sec): 382.50 - samples/sec: 418.89 - lr: 0.100000
2023-07-11 02:31:37,806 epoch 6 - iter 595/857 - loss 0.14367286 - time (sec): 445.29 - samples/sec: 418.68 - lr: 0.100000
2023-07-11 02:32

100%|██████████| 56/56 [00:19<00:00,  2.85it/s]

2023-07-11 02:35:10,500 Evaluating as a multi-label problem: False
2023-07-11 02:35:10,524 DEV : loss 0.15601104497909546 - f1-score (micro avg)  0.7839
2023-07-11 02:35:10,635 BAD EPOCHS (no improvement): 1
2023-07-11 02:35:10,638 ----------------------------------------------------------------------------------------------------





2023-07-11 02:36:16,942 epoch 7 - iter 85/857 - loss 0.13153920 - time (sec): 66.30 - samples/sec: 418.79 - lr: 0.100000
2023-07-11 02:37:20,206 epoch 7 - iter 170/857 - loss 0.13062903 - time (sec): 129.57 - samples/sec: 418.83 - lr: 0.100000
2023-07-11 02:38:22,790 epoch 7 - iter 255/857 - loss 0.12726250 - time (sec): 192.15 - samples/sec: 417.83 - lr: 0.100000
2023-07-11 02:39:25,558 epoch 7 - iter 340/857 - loss 0.12884227 - time (sec): 254.92 - samples/sec: 418.87 - lr: 0.100000
2023-07-11 02:40:27,808 epoch 7 - iter 425/857 - loss 0.13089152 - time (sec): 317.17 - samples/sec: 416.68 - lr: 0.100000
2023-07-11 02:41:33,173 epoch 7 - iter 510/857 - loss 0.13078385 - time (sec): 382.53 - samples/sec: 413.03 - lr: 0.100000
2023-07-11 02:42:35,822 epoch 7 - iter 595/857 - loss 0.12910549 - time (sec): 445.18 - samples/sec: 415.98 - lr: 0.100000
2023-07-11 02:43:37,542 epoch 7 - iter 680/857 - loss 0.12953347 - time (sec): 506.90 - samples/sec: 418.41 - lr: 0.100000
2023-07-11 02:44:4

100%|██████████| 56/56 [00:20<00:00,  2.69it/s]

2023-07-11 02:46:09,195 Evaluating as a multi-label problem: False
2023-07-11 02:46:09,219 DEV : loss 0.17917323112487793 - f1-score (micro avg)  0.7597
2023-07-11 02:46:09,331 BAD EPOCHS (no improvement): 2
2023-07-11 02:46:09,333 ----------------------------------------------------------------------------------------------------





2023-07-11 02:47:10,465 epoch 8 - iter 85/857 - loss 0.11898902 - time (sec): 61.13 - samples/sec: 428.74 - lr: 0.100000
2023-07-11 02:48:13,500 epoch 8 - iter 170/857 - loss 0.12356386 - time (sec): 124.17 - samples/sec: 431.87 - lr: 0.100000
2023-07-11 02:49:18,288 epoch 8 - iter 255/857 - loss 0.12178408 - time (sec): 188.95 - samples/sec: 430.28 - lr: 0.100000
2023-07-11 02:50:21,276 epoch 8 - iter 340/857 - loss 0.12870567 - time (sec): 251.94 - samples/sec: 423.94 - lr: 0.100000
2023-07-11 02:51:25,813 epoch 8 - iter 425/857 - loss 0.12734059 - time (sec): 316.48 - samples/sec: 421.98 - lr: 0.100000
2023-07-11 02:52:27,326 epoch 8 - iter 510/857 - loss 0.12639375 - time (sec): 377.99 - samples/sec: 422.21 - lr: 0.100000
2023-07-11 02:53:28,777 epoch 8 - iter 595/857 - loss 0.12602140 - time (sec): 439.44 - samples/sec: 420.98 - lr: 0.100000
2023-07-11 02:54:32,529 epoch 8 - iter 680/857 - loss 0.12689275 - time (sec): 503.19 - samples/sec: 421.81 - lr: 0.100000
2023-07-11 02:55:3

100%|██████████| 56/56 [00:19<00:00,  2.85it/s]

2023-07-11 02:57:05,751 Evaluating as a multi-label problem: False
2023-07-11 02:57:05,777 DEV : loss 0.16267798840999603 - f1-score (micro avg)  0.791
2023-07-11 02:57:05,890 BAD EPOCHS (no improvement): 0
2023-07-11 02:57:05,894 saving best model





2023-07-11 02:57:08,216 ----------------------------------------------------------------------------------------------------
2023-07-11 02:58:11,030 epoch 9 - iter 85/857 - loss 0.10782418 - time (sec): 62.81 - samples/sec: 423.99 - lr: 0.100000
2023-07-11 02:59:14,855 epoch 9 - iter 170/857 - loss 0.10714579 - time (sec): 126.64 - samples/sec: 419.45 - lr: 0.100000
2023-07-11 03:00:17,981 epoch 9 - iter 255/857 - loss 0.11140482 - time (sec): 189.76 - samples/sec: 420.60 - lr: 0.100000
2023-07-11 03:01:21,045 epoch 9 - iter 340/857 - loss 0.11192284 - time (sec): 252.83 - samples/sec: 420.46 - lr: 0.100000
2023-07-11 03:02:26,194 epoch 9 - iter 425/857 - loss 0.11308079 - time (sec): 317.98 - samples/sec: 420.04 - lr: 0.100000
2023-07-11 03:03:30,852 epoch 9 - iter 510/857 - loss 0.11482289 - time (sec): 382.64 - samples/sec: 420.32 - lr: 0.100000
2023-07-11 03:04:34,388 epoch 9 - iter 595/857 - loss 0.11481954 - time (sec): 446.17 - samples/sec: 419.24 - lr: 0.100000
2023-07-11 03:05

100%|██████████| 56/56 [00:19<00:00,  2.84it/s]

2023-07-11 03:08:08,157 Evaluating as a multi-label problem: False
2023-07-11 03:08:08,181 DEV : loss 0.15570057928562164 - f1-score (micro avg)  0.7846
2023-07-11 03:08:08,292 BAD EPOCHS (no improvement): 1
2023-07-11 03:08:08,295 ----------------------------------------------------------------------------------------------------





2023-07-11 03:09:10,542 epoch 10 - iter 85/857 - loss 0.11196369 - time (sec): 62.25 - samples/sec: 427.91 - lr: 0.100000
2023-07-11 03:10:13,100 epoch 10 - iter 170/857 - loss 0.11185998 - time (sec): 124.80 - samples/sec: 423.89 - lr: 0.100000
2023-07-11 03:11:15,768 epoch 10 - iter 255/857 - loss 0.10990833 - time (sec): 187.47 - samples/sec: 417.88 - lr: 0.100000
2023-07-11 03:12:19,972 epoch 10 - iter 340/857 - loss 0.11140570 - time (sec): 251.68 - samples/sec: 418.81 - lr: 0.100000
2023-07-11 03:13:23,508 epoch 10 - iter 425/857 - loss 0.11370194 - time (sec): 315.21 - samples/sec: 418.85 - lr: 0.100000
2023-07-11 03:14:26,958 epoch 10 - iter 510/857 - loss 0.11507497 - time (sec): 378.66 - samples/sec: 418.90 - lr: 0.100000
2023-07-11 03:15:31,565 epoch 10 - iter 595/857 - loss 0.13254424 - time (sec): 443.27 - samples/sec: 418.59 - lr: 0.100000
2023-07-11 03:16:35,165 epoch 10 - iter 680/857 - loss 0.12991728 - time (sec): 506.87 - samples/sec: 420.17 - lr: 0.100000
2023-07-11

100%|██████████| 56/56 [00:19<00:00,  2.86it/s]

2023-07-11 03:19:06,781 Evaluating as a multi-label problem: False
2023-07-11 03:19:06,805 DEV : loss 0.15327344834804535 - f1-score (micro avg)  0.7817
2023-07-11 03:19:06,919 BAD EPOCHS (no improvement): 2





2023-07-11 03:19:08,812 ----------------------------------------------------------------------------------------------------
2023-07-11 03:19:11,921 SequenceTagger predicts: Dictionary with 23 tags: O, S-Disease, B-Disease, E-Disease, I-Disease, S-Body_Part, B-Body_Part, E-Body_Part, I-Body_Part, S-Procedure, B-Procedure, E-Procedure, I-Procedure, S-Medication, B-Medication, E-Medication, I-Medication, S-Family_Member, B-Family_Member, E-Family_Member, I-Family_Member, <START>, <STOP>


100%|██████████| 62/62 [00:39<00:00,  1.56it/s]

2023-07-11 03:19:52,282 Evaluating as a multi-label problem: False
2023-07-11 03:19:52,302 0.0	0.0	0.0	0.0
2023-07-11 03:19:52,304 
Results:
- F-score (micro) 0.0
- F-score (macro) 0.0
- Accuracy 0.0

By class:
               precision    recall  f1-score   support

      Disease     0.0000    0.0000    0.0000       0.0
    Body_Part     0.0000    0.0000    0.0000       0.0
    Procedure     0.0000    0.0000    0.0000       0.0
   Medication     0.0000    0.0000    0.0000       0.0
Family_Member     0.0000    0.0000    0.0000       0.0

    micro avg     0.0000    0.0000    0.0000       0.0
    macro avg     0.0000    0.0000    0.0000       0.0
 weighted avg     0.0000    0.0000    0.0000       0.0

2023-07-11 03:19:52,305 ----------------------------------------------------------------------------------------------------





{'test_score': 0.0,
 'dev_score_history': [0.7606973058637083,
  0.7597022860180754,
  0.7799785867237689,
  0.7863674147963424,
  0.7875703187784625,
  0.7838569880823402,
  0.7597229621736814,
  0.791036717062635,
  0.784606866002215,
  0.781744966442953],
 'train_loss_history': [0.486139900965568,
  0.2754937656490204,
  0.21538777500232908,
  0.18700674338011486,
  0.15999741029033235,
  0.14536414014386212,
  0.13106544424057093,
  0.12497847092237327,
  0.11479474018963225,
  0.1254695969347329],
 'dev_loss_history': [0.25739598274230957,
  0.21704339981079102,
  0.183817058801651,
  0.19052867591381073,
  0.17022915184497833,
  0.15601104497909546,
  0.17917323112487793,
  0.16267798840999603,
  0.15570057928562164,
  0.15327344834804535]}

In [None]:
s1 = 'FRENILLO LABIAL SUPERIOR INFECTADO EN ZONA SUPERIOR DEL REBORDE , DIASTEMA , POSIBLE DIFICULTAD EN ERUPCION .'
s2 = '- EXAMEN GINECOLÓGICO ( GENERAL ) ( DE RUTINA ) / - Fundamento Clínico APS : - G4P4A0 - 1 CCA - OBESIDAD MORBIDA - HTA CRONICA - ARTROSIS - METRORRAGIA POST MENOPAUSICA Examen ginecologico ( general ) ( de rutina)'
s3 = 'P : 39KG T : 1 . 53MT IMC : 16 . 7 , SIN GANANCIA DE PESO A PESAR DE INTERVENCION MULTIDISCIPLINARIA .'
s4 = 'presenta lesion compatible con neurocele en cara interna de mejilla derecha , cerca del borde labia de - 3 anos de evoucion , asintomatico .'
s5 = 'PACIENTE  EUTROFICO , PRESENTA  EEDP  : RETRASO .'

In [None]:
# load the model you trained
model = SequenceTagger.load('resources/taggers/example-ner_v7_transformer/best-model.pt')

2023-07-11 03:22:20,516 SequenceTagger predicts: Dictionary with 23 tags: O, S-Disease, B-Disease, E-Disease, I-Disease, S-Body_Part, B-Body_Part, E-Body_Part, I-Body_Part, S-Procedure, B-Procedure, E-Procedure, I-Procedure, S-Medication, B-Medication, E-Medication, I-Medication, S-Family_Member, B-Family_Member, E-Family_Member, I-Family_Member, <START>, <STOP>


In [None]:
model.predict(corpus_v7.test)

In [None]:
# create example sentence
sentence = Sentence(s2)
# predict tags and print
model.predict(sentence)

print(sentence.to_tagged_string())

Sentence[42]: "- EXAMEN GINECOLÓGICO ( GENERAL ) ( DE RUTINA ) / - Fundamento Clínico APS : - G4P4A0 - 1 CCA - OBESIDAD MORBIDA - HTA CRONICA - ARTROSIS - METRORRAGIA POST MENOPAUSICA Examen ginecologico ( general ) ( de rutina)" → ["OBESIDAD MORBIDA"/Disease, "HTA CRONICA"/Disease, "ARTROSIS"/Disease, "METRORRAGIA POST MENOPAUSICA"/Disease]


In [None]:
import pandas as pd
from tqdm import tqdm
from difflib import SequenceMatcher
import re
import pickle

def matcher(string, pattern):
    '''
    Return the start and end index of any pattern present in the text.
    '''
    match_list = []
    pattern = pattern.strip()
    seqMatch = SequenceMatcher(None, string, pattern, autojunk=False)
    match = seqMatch.find_longest_match(0, len(string), 0, len(pattern))
    if (match.size == len(pattern)):
        start = match.a
        end = match.a + match.size
        match_tup = (start, end)
        string = string.replace(pattern, "X" * len(pattern), 1)
        match_list.append(match_tup)

    return match_list, string

def mark_sentence(s, match_list):
    '''
    Marks all the entities in the sentence as per the BIO scheme.
    '''
    word_dict = {}
    for word in s.split():
        word_dict[word] = 'O'

    for start, end, e_type in match_list:
        temp_str = s[start:end]
        tmp_list = temp_str.split()
        if len(tmp_list) > 1:
            word_dict[tmp_list[0]] = 'B-' + e_type
            for w in tmp_list[1:]:
                word_dict[w] = 'I-' + e_type
        else:
            word_dict[temp_str] = 'B-' + e_type
    return word_dict

def clean(text):
    '''
    Just a helper fuction to add a space before the punctuations for better tokenization
    '''
    filters = ["!", "#", "$", "%", "&", "(", ")", "/", "*", ".", ":", ";", "<", "=", ">", "?", "@", "[",
               "\\", "]", "_", "`", "{", "}", "~", "'"]
    for i in text:
        if i in filters:
            text = text.replace(i, " " + i)

    return text

def create_data(df, filepath):
    '''
    The function responsible for the creation of data in the said format.
    '''
    with open(filepath , 'w') as f:
        for text, annotation in zip(df.text, df.annotation):
            text = clean(text)
            text_ = text
            match_list = []
            for i in annotation:
                a, text_ = matcher(text, i[0])
                match_list.append((a[0][0], a[0][1], i[1]))

            d = mark_sentence(text, match_list)

            for i in d.keys():
                f.writelines(i + ' ' + d[i] +'\n')
            f.writelines('\n')

def main():
    ## An example dataframe.
    data = pd.DataFrame([["Horses are too tall and they pretend to care about your feelings", [("Horses", "ANIMAL")]],
                  ["Who is Shaka Khan?", [("Shaka Khan", "PERSON")]],
                  ["I like London and Berlin.", [("London", "LOCATION"), ("Berlin", "LOCATION")]],
                  ["There is a banyan tree in the courtyard", [("banyan tree", "TREE")]]], columns=['text', 'annotation'])

    ## path to save the txt file.
    filepath = 'train/train.txt'
    ## creating the file.
    create_data(data, filepath)

if __name__ == '__main__':
    main()

------
### **Entrenamos y evaluamos**


**Importante** : Fijen el modelo, el número de épocas de entrenamiento, la loss y el optimizador que usarán para entrenar y evaluar en las siguientes variables!!!

In [None]:
#model = baseline_model
#model_name = baseline_model_name
criterion = baseline_criterion
#n_epochs = baseline_n_epochs



#### **Inicializamos la red**

Iniciamos los pesos de la red de forma aleatoria (Usando una distribución normal).


In [None]:
def init_weights(m):
    # Inicializamos los pesos como aleatorios
    for name, param in m.named_parameters():
        nn.init.normal_(param.data, mean=0, std=0.1)

    # Seteamos como 0 los embeddings de UNK y PAD.
    model.embedding.weight.data[UNK_IDX] = torch.zeros(EMBEDDING_DIM)
    model.embedding.weight.data[PAD_IDX] = torch.zeros(EMBEDDING_DIM)

model.apply(init_weights)

NameError: ignored

In [None]:
def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f'El modelo actual tiene {count_parameters(model):,} parámetros entrenables.')

Notar que definimos los embeddings que representan a \<unk\> y \<pad\>  como [0, 0, ..., 0]

#### **Definimos el optimizador**

In [None]:
# Optimizador
optimizer = optim.Adam(model.parameters())

#### **Enviamos el modelo a cuda**


In [None]:
# Enviamos el modelo y la loss a cuda (en el caso en que esté disponible)
model = model.to(device)
criterion = criterion.to(device)

#### **Definimos el entrenamiento de la red**

Algunos conceptos previos:

- `epoch` : una pasada de entrenamiento completa de una dataset.
- `batch`: una fracción de la época. Se utilizan para entrenar mas rápidamente la red. (mas eficiente pasar n datos que uno en cada ejecución del backpropagation)

Esta función está encargada de entrenar la red en una época. Para esto, por cada batch de la época actual, predice los tags del texto, calcula su loss y luego hace backpropagation para actualizar los pesos de la red.

Observación: En algunos comentarios aparecerá el tamaño de los tensores entre corchetes

In [None]:
def train(model, iterator, optimizer, criterion):

    epoch_loss = 0
    epoch_precision = 0
    epoch_recall = 0
    epoch_f1 = 0

    model.train()

    # Por cada batch del iterador de la época:
    for tags, text in iterator:
        # Reiniciamos los gradientes calculados en la iteración anterior
        optimizer.zero_grad()

        #text = [sent len, batch size]

        # Predecimos los tags del texto del batch.
        predictions = model(text.to(device))

        #predictions = [sent len, batch size, output dim]
        #tags = [sent len, batch size]

        # Reordenamos los datos para calcular la loss
        predictions = predictions.view(-1, predictions.shape[-1])
        #ipdb.set_trace()
        tags = torch.reshape(tags, (-1,)).to(device)

        #predictions = [sent len * batch size, output dim]



        # Calculamos el Cross Entropy de las predicciones con respecto a las etiquetas reales
        loss = criterion(predictions, tags)

        # Calculamos el accuracy
        precision, recall, f1 = calculate_metrics(predictions, tags)

        # Calculamos los gradientes
        loss.backward()

        # Actualizamos los parámetros de la red
        optimizer.step()

        # Actualizamos el loss y las métricas
        epoch_loss += loss.item()
        epoch_precision += precision
        epoch_recall += recall
        epoch_f1 += f1

    return epoch_loss / len(iterator), epoch_precision / len(
        iterator), epoch_recall / len(iterator), epoch_f1 / len(iterator)

#### **Definimos la función de evaluación**

Evalua el rendimiento actual de la red usando los datos de validación.

Por cada batch de estos datos, calcula y reporta el loss y las métricas asociadas al conjunto de validación.
Ya que las métricas son calculadas por cada batch, estas son retornadas promediadas por el número de batches entregados. (ver linea del return)

In [None]:
def evaluate(model, iterator, criterion):

    epoch_loss = 0
    epoch_precision = 0
    epoch_recall = 0
    epoch_f1 = 0

    model.eval()

    # Indicamos que ahora no guardaremos los gradientes
    with torch.no_grad():
        # Por cada batch
        for tags, text in iterator:
            # Predecimos
            predictions = model(text.to(device))

            predictions = predictions.view(-1, predictions.shape[-1])
            tags = torch.reshape(tags, (-1,)).to(device)

            # Calculamos el Cross Entropy de las predicciones con respecto a las etiquetas reales
            loss = criterion(predictions, tags)

            # Calculamos las métricas
            precision, recall, f1 = calculate_metrics(predictions, tags)

            # Actualizamos el loss y las métricas
            epoch_loss += loss.item()
            epoch_precision += precision
            epoch_recall += recall
            epoch_f1 += f1

    return epoch_loss / len(iterator), epoch_precision / len(
        iterator), epoch_recall / len(iterator), epoch_f1 / len(iterator)

In [None]:
import time

def epoch_time(start_time, end_time):
    elapsed_time = end_time - start_time
    elapsed_mins = int(elapsed_time / 60)
    elapsed_secs = int(elapsed_time - (elapsed_mins * 60))
    return elapsed_mins, elapsed_secs


#### **Entrenamiento de la red**

En este cuadro de código ejecutaremos el entrenamiento de la red.
Para esto, primero definiremos el número de épocas y luego por cada época, ejecutaremos `train` y `evaluate`.

**Importante: Reiniciar los pesos del modelo**

Si ejecutas nuevamente esta celda, se seguira entrenando el mismo modelo una y otra vez.
Para reiniciar el modelo se debe ejecutar nuevamente la celda que contiene la función `init_weights`



In [None]:
best_valid_loss = float('inf')

for epoch in range(5):

    start_time = time.time()

    # Recuerdo: dataloader_train y valid_iterator contienen el dataset dividido en batches.

    # Entrenar
    train_loss, train_precision, train_recall, train_f1 = train(
        model, dataloader_train, optimizer, criterion)

    # Evaluar (valid = validación)
    valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
        model, dataloader_dev, criterion)

    end_time = time.time()

    epoch_mins, epoch_secs = epoch_time(start_time, end_time)

    # Si obtuvimos mejores resultados, guardamos este modelo en el almacenamiento (para poder cargarlo luego)
    # Si detienen el entrenamiento prematuramente, pueden cargar el modelo en el siguiente recuadro de código.
    if valid_loss < best_valid_loss:
        best_valid_loss = valid_loss
        torch.save(model.state_dict(), '{}.pt'.format(model_name))
    # Si ya no mejoramos el loss de validación, terminamos de entrenar.

    print(f'Epoch: {epoch+1:02} | Epoch Time: {epoch_mins}m {epoch_secs}s')
    print(
        f'\tTrain Loss: {train_loss:.3f} | Train f1: {train_f1:.2f} | Train precision: {train_precision:.2f} | Train recall: {train_recall:.2f}'
    )
    print(
        f'\t Val. Loss: {valid_loss:.3f} |  Val. f1: {valid_f1:.2f} |  Val. precision: {valid_precision:.2f} | Val. recall: {valid_recall:.2f}'
    )

AttributeError: ignored

**Importante**: Recuerden que el último modelo entrenado no es el mejor (probablemente esté *overfitteado*), si no el que guardamos con la menor loss del conjunto de validación. Este problema lo pueden solucionar con *early stopping*.
Para cargar el mejor modelo entrenado, ejecuten la siguiente celda.



In [None]:
# cargar el mejor modelo entrenado.
model.load_state_dict(torch.load('{}.pt'.format(model_name)))

In [None]:
# Limpiar ram de cuda
torch.cuda.empty_cache()

In [None]:
valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
    model, dataloader_dev, criterion)

print(
    f'Val. Loss: {valid_loss:.3f} |  Val. f1: {valid_f1:.2f} | Val. precision: {valid_precision:.2f} | Val. recall: {valid_recall:.2f}'
)

#### **Evaluamos el set de validación con el modelo final**

Estos son los resultados de predecir el dataset de evaluación con el *mejor* modelo entrenado.

In [None]:
valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
    model, dataloader_dev, criterion)

print(
    f'Val. Loss: {valid_loss:.3f} |  Val. f1: {valid_f1:.2f} | Val. precision: {valid_precision:.2f} | Val. recall: {valid_recall:.2f}'
)

### **Predecir datos para la competencia**

Ahora, a partir de los datos de **test** y nuestro modelo entrenado, vamos a predecir las etiquetas que serán evaluadas en la competencia.

In [None]:
def predict_labels(model, iterator, criterion, fields=(TEXT, NER_TAGS)):

    # Extraemos los vocabularios.
    text_field = fields[0]
    nertags_field = fields[1]
    tags_vocab = nertags_field.vocab.get_itos()
    words_vocab = text_field.vocab.get_itos()

    model.eval()

    predictions = []

    with torch.no_grad():

        for tags, text in iterator:

            text_batch = text
            text_batch = torch.transpose(text_batch, 0, 1).tolist()

            # Predecir los tags de las sentences del batch
            predictions_batch = model(text)
            predictions_batch = torch.transpose(predictions_batch, 0, 1)

            # por cada oración predicha:
            for sentence, sentence_prediction in zip(text_batch,
                                                     predictions_batch):
                for word_idx, word_predictions in zip(sentence,
                                                      sentence_prediction):
                    # Obtener el indice del tag con la probabilidad mas alta.
                    argmax_index = word_predictions.topk(1)[1]

                    current_tag = tags_vocab[argmax_index]
                    # Obtenemos la palabra
                    current_word = words_vocab[word_idx]

                    if current_word != '<PAD>':
                        predictions.append([current_word, current_tag])
                predictions.append(['EOS', 'EOS'])


    return predictions


predictions = predict_labels(model, dataloader_test, criterion)

### **Generar el archivo para la submission**

No hay problema si aparecen unk en la salida. Estos no son relevantes para evaluarlos, usamos solo los tags.

In [None]:
import os, shutil

if (os.path.isfile('./predictions.zip')):
    os.remove('./predictions.zip')

if (not os.path.isdir('./predictions')):
    os.mkdir('./predictions')

else:
    # Eliminar predicciones anteriores:
    shutil.rmtree('./predictions')
    os.mkdir('./predictions')

f = open('predictions/predictions.txt', 'w')
for i, (word, tag) in enumerate(predictions[:-1]):
    if word=='EOS' and tag=='EOS': f.write('\n')
    else:
      if i == len(predictions[:-1])-1:
        f.write(word + ' ' + tag)
      else: f.write(word + ' ' + tag + '\n')

f.close()

a = shutil.make_archive('predictions', 'zip', './predictions')

## **Conclusiones**



Conclusión

Este proyecto abordó el desafío de la Identificación de Entidades Nombradas (NER) en informes médicos en español utilizando diferentes técnicas y modelos. Los resultados obtenidos proporcionan una valiosa percepción de la eficacia de estos enfoques.

El modelo de afinado proporcionado por OpenAI, conocido como "ada", se empleó como un punto de referencia para este desafío. Aunque el modelo "ada" presentó un rendimiento razonable con una puntuación F1 ponderada de 0.8094, se utilizó principalmente como una medida comparativa para evaluar la eficacia de otros modelos desarrollados.

Un modelo que superó al modelo "ada" fue el modelo de Transformers "bert-finetuned-ner-clinical-plncmm-large-15". Este modelo, ajustado en un conjunto de datos clínicos, alcanzó una puntuación F1 de 0.7886, con una pérdida de validación de 0.2339, que superó la obtenida por el modelo "ada".

Otro enfoque explorado fue el uso de un modelo de embedding, el cual alcanzó una puntuación F1 de 0.79, demostrando así la eficacia de los enfoques de embedding en tareas de NER, especialmente cuando se aplican a dominios específicos como los informes médicos.

No obstante, a pesar de estos prometedores resultados, hay margen para mejorar y expandir. Futuras investigaciones podrían explorar el uso de modelos más complejos, como los basados en atención, experimentar con diferentes técnicas de afinado, e investigar cómo integrar el conocimiento del dominio en los modelos.

En conclusión, este proyecto ha demostrado que los enfoques avanzados de NLP, como los Transformadores y los embeddings, pueden proporcionar un rendimiento significativo en la tarea de NER en informes médicos en español. Sin embargo, se requiere más trabajo para optimizar estos resultados y avanzar en este desafiante y vital campo de investigación. En particular, la minimización de la pérdida en la fase de validación debe ser un área clave de enfoque en los esfuerzos futuros.

### **Objetivo**

El objetivo de esta competencia es resolver una de las tareas más importantes en el área del procesamiento de lenguage natural, relacionada con la extracción de información: [Named Entity Recognition (NER)](http://www.cs.columbia.edu/~mcollins/cs4705-spring2019/slides/tagging.pdf).

En particular, y al igual que en la competencia anterior, deberán crear distintos modelos que apunten a resolver la tarea de NER en Español. Para esto, les entregaremos un dataset real perteneciente a la lista de espera NO GES en Chile. Es importante destacar que existe una falta de trabajos realizados en el área de NER en Español y aún más en el contexto clínico, por ende puede ser considerado como una tarea bien desafiante y quizás les interesa trabajar en el área más adelante en sus carreras.

En este notebook les entregaremos un baseline como referencia de los resultados que esperamos puedan obtener. Recuerden que el no superar a los baselines en alguna de las tres métricas conlleva un descuento de 0.5 puntos hasta 1.5 puntos.

Como hemos estado viendo redes neuronales tanto en catedras, tareas y auxiliares (o próximamente lo harán), esperamos que (por lo menos) utilicen Redes Neuronales Recurrentes (RNN) para resolverla.

Nuevamente, hay total libertad para utilizar el software y los modelos que deseen, siempre y cuando estos no traigan los modelos ya implementados. (De todas maneras como es un corpus nuevo, es difícil que haya algún modelo ya implementado con estas entidades)

### **Explicación de la competencia**

La tarea **NER** que van a resolver en esta competencia es comúnmente abordada como un problema de Sequence Labeling.

**¿Qué es Sequence Labeling?**

En breves palabras, dada una secuencia de tokens (oración) sequence labeling tiene por objetivo asignar una etiqueta a cada token de dicha secuencia. En pocas palabras, dada una lista de tokens esperamos encontrar la mejor secuencia de etiquetas asociadas a esa lista. Ahora veamos de qué se trata este problema.

**Named Entity Recognition (NER)**

NER es un ejemplo de un problema de Sequence Labeling. Pero antes de definir formalmente esta tarea, es necesario definir algunos conceptos claves para poder entenderla de la mejor manera:

- *Token*: Un token es una secuencia de caracteres, puede ser una palabra, un número o un símbolo.

- *Entidad*: No es más que un trozo de texto (uno o más tokens) asociado a una categoría predefinida. Originalmente se solían utilizar categorías como nombres de personas, organizaciones, ubicaciones, pero actualmente se ha extendido a diferentes dominios.

- *Límites de una entidad*: Son los índices de los tokens de inicio y fín dentro de una entidad.

- *Tipo de entidad*: Es la categoría predefinida asociada a la entidad.

Dicho esto, definimos formalmente una entidad como una tupla: $(s, e, t)$, donde $s, t$ son los límites de la entidad (índices de los tokens de inicio y fin, respectivamente) y t corresponde al tipo de entidad o categoría. Ya veremos más ejemplos luego de describir el Dataset.

**Corpus de la Lista de espera**

Trabajaran con un conjunto de datos reales correspondiente a interconsultas de la lista de espera NO GES en Chile. Si quieren saber más sobre cómo fueron generados los datos pueden revisar el paper publicado hace unos meses atrás en el workshop de EMNLP, una de las conferencias más importantes de NLP: [https://www.aclweb.org/anthology/2020.clinicalnlp-1.32/](https://www.aclweb.org/anthology/2020.clinicalnlp-1.32/).

Este corpus Chileno está constituido originalmente por 7 tipos de entidades pero por simplicidad en esta competencia trabajarán con las siguientes:

- **Disease**
- **Body_Part**
- **Medication**
- **Procedures**
- **Family_Member**

Si quieren obtener más información sobre estas entidades pueden consultar la [guía de anotación](https://plncmm.github.io/annodoc/). Además, mencionar que este corpus está restringido bajo una licencia que permite solamente su uso académico, así que no puede ser compartido más allá de este curso o sin permisos por parte de los autores en caso que quieran utilizarlo fuera. Si este último es el caso entonces pueden escribir directamente al correo: pln@cmm.uchile.cl. Al aceptar los términos y condiciones de la competencia están de acuerdo con los puntos descritos anteriormente.


**Formato ConLL**

Los archivos que serán entregados a ustedes vienen en un formato estándar utilizado en NER, llamado ConLL. No es más que un archivo de texto, que cumple las siguientes propiedades.

- Un salto de linea corresponde a la separación entre oraciones. Esto es importante ya que al entrenar una red neuronal ustedes pasaran una lista de oraciones como input, más conocidos como batches.

- La primera columna del archivo contiene todos los tokens de la partición.

- La segunda columna del archivo contiene el tipo de entidad asociado al token de la primera columna.

- Los tipos de entidades siguen un formato clásico en NER denominado *IOB2*. Si un tipo de entidad comienza con el prefijo "B-" (Beginning) significa que es el token de inicio de una entidad, si comienza con "I-" (Inside) es un token distinto al de inicio y si un token está asociado a la categoría O (Outside) significa que no pertenece a ninguna entidad.

Aquí va un ejemplo:

```
PACIENTE O
PRESENTA O
FRACTURA B-Disease
CORONARIA I-Disease
COMPLICADA I-Disease
EN O
PIE B-Body_Part
IZQUIERDO I-Body_Part
. O
SE O
REALIZA O
INSTRUMENTACION B-Procedure
INTRACONDUCTO I-Procedure
. O
```

Según nuestra definición tenemos las siguientes tres entidades (enumerando desde 0):

- $(2, 4, Disease)$
- $(6, 7, Body Part)$
- $(11, 12, Procedure)$

Repasen un par de veces todos estos conceptos antes de pasar a la siguiente sección del notebook.
Es importante entender bien este formato ya que al medir el rendimiento de sus modelos, consideraremos una **métrica estricta**. Esta métrica se llama así ya que considera correcta una predicción de su modelo, sólo si al compararlo con las entidades reales **coinciden tanto los límites de la entidad como el tipo.**

Para ejemplificar, tomando el caso anterior, si el modelo es capaz de encontrar la siguiente entidad: $(2, 3, Disease)$, entonces se considera incorrecto ya que pudo predecir dos de los tres tokens de dicha enfermedad. Es decir, buscamos una métrica que sea alta a nivel de entidad y no a nivel de token.

Antes de pasar a explicar las reglas, se recomienda visitar los siguientes links para entender bien el baseline de la competencia:

-  [Tagging, and Hidden Markov Models ](http://www.cs.columbia.edu/~mcollins/cs4705-spring2019/slides/tagging.pdf) (slides by Michael Collins), [notes](http://www.cs.columbia.edu/~mcollins/hmms-spring2013.pdf), [video 1](https://youtu.be/-ngfOZz8yK0), [video 2](https://youtu.be/PLoLKQwkONw), [video 3](https://youtu.be/aaa5Qoi8Vco), [video 4](https://youtu.be/4pKWIDkF_6Y)
-  [Recurrent Neural Networks](slides/NLP-RNN.pdf) | [video 1](https://youtu.be/BmhjUkzz3nk), [video 2](https://youtu.be/z43YFR1iIvk), [video 3](https://youtu.be/7L5JxQdwNJk)


Recuerden que todo el material se encuentra disponible en el [github del curso](https://github.com/dccuchile/CC6205).

### **Reglas de la competencia**

**texto en negrita**- Para que su competencia sea evaluada, deben participar en la competencia y enviar este notebook con su informe.
- Para participar, deben registrarse en la competencia en Codalab en grupos de máximo 4 alumnos. Cada grupo debe tener un nombre de equipo. (¡Y deben reportarlo en su informe, por favor!)
- Las métricas usadas serán métricas estrictas (ya explicado anteriormente) utilizando métricas clásicas como lo son precisión, recall y micro f1-score.
- En esta tarea se recomienda usar GPU. Pueden ejecutar su tarea en colab (lo cual trae todo instalado) o pueden intentar ejecutándolo en su computador. En este caso, deberá ser compatible con cuda y deberán instalar todo por su cuenta.
- En total pueden hacer un **máximo de 5 envíos**.
- Por favor, todas sus dudas haganlas por el canal de Discord. Los emails que lleguen al equipo docente serán remitidos a ese medio. Recuerden el ánimo colaborativo del curso.
- Estar top 5 en alguna de las tres métricas equivale a una bonificación en su nota final.

Éxito!


### **Baseline**

### **Reporte**

Este debe cumplir la siguiente estructura:

1.	**Introducción**: Presentar brevemente el contexto, problema a resolver, incluyendo la formalización de la task (cómo son los inputs y outputs del problema) y los desafíos que ven al analizar el corpus entregado. (**0.5 puntos**)

2.	**Modelos**: Describir brevemente los modelos, métodos e hiperparámetros utilizados. (**1.0 puntos**)

4.	**Métricas de evaluación**: Describir las métricas utilizadas en la evaluación indicando qué miden y cuál es su interpretación en este problema en particular. (**0.5 puntos**)

5.  **Diseño experimental**: Esta es una de las secciones más importantes del reporte. Deben describir minuciosamente los experimentos que realizarán en la siguiente sección. Describir las variables de control que manejarán, algunos ejemplos pueden ser: Los hiperparámetros de los modelos, tipo de embeddings utilizados, tipos de arquitecturas. Ser claros con el conjunto de hiperparámetros que probarán, la decisión en las funciones de optimización, función de pérdida,  regulación, etc. Básicamente explicar qué es lo que veremos en la siguiente sección.
(**1 punto**)

6.	**Experimentos**: Reportar todos sus experimentos y código en esta sección. Comparar los resultados obtenidos utilizando diferentes modelos. ¡Es vital haber realizado varios experimentos para sacar una buena nota! (**2.0 puntos**)

7.	**Conclusiones**: Discutir resultados, proponer trabajo futuro. (**1 punto**)