Instalaciones previas

In [1]:
%%capture
!pip install torchtext==0.10.0
!pip install --upgrade flair
!pip install --upgrade gensim
!pip install seqeval
!pip install transformers
!pip install sentencepiece

# **Introducción al Procesamiento del Lenguaje Natural (NLP, en Inglés)** 🤖🤵

----------------------------------

Hoy en día, gran parte de la información disponible en Internet se encuentra en formato no estructurado, es decir, no se encuentra almacenado u organizado en bases de datos. Gran parte de estos datos los encontramos en forma de texto, lo que vuelve su análisis mucho más desafiante debido a la complejidad de entender y describir las reglas que rigen el lenguaje natural. La principal razón es que nuestro lenguaje es muy ambiguo y evoluciona constantemente.


<img src="https://www.researchgate.net/publication/335927263/figure/fig1/AS:805072904671237@1568955746494/The-growth-of-structured-versus-unstructured-data-over-the-past-decade-41.png" align="center">


Consideremos el siguiente ejemplo:

<img src="https://i.ibb.co/n7fcrLM/Diagrama-sin-ti-tulo-drawio-31.png" align="center">



- ¿Cómo podemos hacer que un computador pueda procesar palabras si su lenguaje es binario?

- ¿Cómo podemos lograr que un computador entienda la diferencia de la palabra *bank* en una misma oración?

- ¿Cómo podemos lograr que el computador entienda el contexto de las palabras?

- ¿Cómo podemos hacer que un computador resuelva una tarea que involucre lenguaje humano? 

<img src="https://i.ibb.co/hYCL8yJ/ai-diagram.png" align="left">

<img src="https://static.javatpoint.com/tutorial/nlp/images/what-is-nlp.png" align="right">

## Definición

El Procesamiento del Lenguaje Natural (NLP, por sus siglas en Inglés), es un campo interdisciplinario de la Inteligencia Artificial que involucra tanto las Ciencias de la Computación como la Lingüística. Específicamente, el objetivo es crear algoritmos que sean capaces de entender, interpretar y manipular el lenguaje natural que utilizamos los humanos. 

Pero para lograr este propósito, uno de los pasos fundamentales es encontrar la mejor manera de representar texto de forma numérica, ya que de esta manera un computador podrá procesar este tipo de datos en su lenguaje binario. A continuación, se explican dos grandes enfoques para realizar esta representación.

## Representando palabras como vectores

Una de las soluciones más sencillas a este problema es representar nuestros textos mediante el uso de bolsas de palabras (BoW, por sus siglas en Inglés). La idea es que cada palabra en la oración estará representada por un vector con formato *One Hot Encoding*. En palabras simples, este tipo de vectores tienen el largo del vocabulario (palabras distintas) de nuestro dataset $V$, con un 1 en la posición del vector que se asocia a la palabra actual y un 0 en el resto de posiciones.

A pesar de ser una solución intuitiva, esta no es la mejor manera de representar palabras ya que estamos ignorando un gran problema 😞

### Limitación de la representación BoW

Pensemos en las siguientes tres frases:

- $sentence_1$: "The attention of the doctor was very good!"
- $sentence_2$: "He is a nice physician!"
- $sentence_3$: "The attention in the restaurant was very good!"

Sabemos que $sentence_1$, y $sentence_2$ evaluan la atención de un doctor y que $sentence_3$ 🍝 evalua la atención en un restaurant, por lo que no tiene mucho que ver con las otras.

Supongamos que queremos evaluar el nivel de similitud entre dos oraciones utilizando el método BoW. Para realizar esto, primero creamos el modelo BoW utilizando las tres oraciones presentadas. En este caso, luego de eliminar unas stopwords que no aportan mucha información (the, of, is, a, in), nos queda el siguiente vocabulario:

$$v = \{attention, doctor, was, very, good, he, nice, physician, restaurant\}$$

Luego, para cada oración, transformamos las palabras de la oración mediante el uso de vectores one-hot, sumando estos vectores para obtener la representación final de la oración.

Así, la representación de $\vec{sentence_1}$ será:

$$\begin{bmatrix}1 \\ 0 \\ 0 \\ 0 \\ 0\\ 0 \\ 0 \\ 0\\ 0\end{bmatrix} + 
  \begin{bmatrix}0 \\ 1 \\ 0 \\ 0 \\ 0\\ 0 \\ 0 \\ 0\\ 0\end{bmatrix} +  
  \begin{bmatrix}0 \\ 0 \\ 1 \\ 0 \\ 0\\ 0 \\ 0 \\ 0\\ 0\end{bmatrix} +
  \begin{bmatrix}0 \\ 0 \\ 0 \\ 1 \\ 0\\ 0 \\ 0 \\ 0\\ 0\end{bmatrix} +
  \begin{bmatrix}0 \\ 0 \\ 0 \\ 0 \\ 1\\ 0 \\ 0 \\ 0\\ 0\end{bmatrix} =
  \begin{bmatrix}1 \\ 1 \\ 1 \\ 1 \\ 1\\ 0 \\ 0 \\ 0\\ 0\end{bmatrix}$$

$\vec{sentence_2}$:

$$\begin{bmatrix}0 \\ 0 \\ 0 \\ 0 \\ 0\\ 1 \\ 0 \\ 0 \\ 0\end{bmatrix} + 
  \begin{bmatrix}0 \\ 0 \\ 0 \\ 0 \\ 0\\ 0 \\ 1 \\ 0 \\ 0\end{bmatrix} + 
  \begin{bmatrix}0 \\ 0 \\ 0 \\ 0 \\ 0\\ 0 \\ 0 \\ 1 \\ 0\end{bmatrix} =
  \begin{bmatrix}0 \\ 0 \\ 0 \\ 0 \\ 0\\ 1 \\ 1 \\ 1 \\ 0\end{bmatrix}$$

$\vec{sentence_3}$: 

$$\begin{bmatrix}1 \\ 0 \\ 0 \\ 0 \\ 0\\ 0 \\ 0 \\ 0\\ 0\end{bmatrix} + 
  \begin{bmatrix}0 \\ 0 \\ 0 \\ 0 \\ 0\\ 0 \\ 0 \\ 0\\ 1\end{bmatrix} +  
  \begin{bmatrix}0 \\ 0 \\ 1 \\ 0 \\ 0\\ 0 \\ 0 \\ 0\\ 0\end{bmatrix} +
  \begin{bmatrix}0 \\ 0 \\ 0 \\ 1 \\ 0\\ 0 \\ 0 \\ 0\\ 0\end{bmatrix} +
  \begin{bmatrix}0 \\ 0 \\ 0 \\ 0 \\ 1\\ 0 \\ 0 \\ 0\\ 0\end{bmatrix} =
  \begin{bmatrix}1 \\ 0 \\ 1 \\ 1 \\ 1\\ 0 \\ 0 \\ 0\\ 1\end{bmatrix}$$



**Entonces, ¿Cuál sería el problema aquí?**

Como habíamos mencionado en este conjunto de oraciones, las palabras `doctor` $\begin{bmatrix}0 \\ 1 \\ 0 \\ 0 \\ 0\\ 0 \\ 0 \\ 0\\ 0\end{bmatrix}$ y `physician` $ \begin{bmatrix}0 \\ 0 \\ 0 \\ 0 \\ 0\\ 0 \\ 0 \\ 1 \\ 0\end{bmatrix}$ representan a la misma entidad, el médico. Sin embargo, bajo este modelo y considerando estos vectores, podemos concluir que las palabras son **completamente diferentes**, dado que cada palabra ocupa una dimensión distinta al resto. Así, estas dos palabras son tan diferentes entre sí como lo son `doctor` de `restaurant`. Esto claramente disminuye la calidad de nuestras representaciones, lo que al momento de resolver tareas de NLP afecta mucho el rendimiento de los modelos.



In [2]:
from scipy.spatial import distance

sentence1 = [1, 1, 1, 1, 1, 0, 0, 0, 0]
sentence2 = [0, 0, 0, 0, 0, 1, 1, 1, 0]
sentence3 = [1, 0, 1, 1, 1, 0, 0, 0, 1]

print(f'Euclidean distance between sentence1 and sentence2: {distance.euclidean(sentence1, sentence2)}')
print(f'Euclidean distance between sentence1 and sentence3: {distance.euclidean(sentence1, sentence3)}')

Euclidean distance between sentence1 and sentence2: 2.8284271247461903
Euclidean distance between sentence1 and sentence3: 1.4142135623730951


En la práctica, podemos ver que al calcular la distancia euclideana entre los pares de oraciones, obtenemos el siguiente resultado:

$$d(sentence_1, sentence_2) = 2.83$$
$$d(sentence_1, sentence_3) = 1.41$$

Esto significa que bajo el modelo BoW, el contenido de la primera oración se parece más al contenido de última oración, independiente de que la primera y segunda nos estén diciendo lo mismo. Esto se debe a que esta representación pondera más la coincidencia de palabras que el contexto. Por lo tanto, necesitamos buscar un método capaz de representar palabras en contextos similares, con un vector más cercano.

--------------------

## **Word Embeddings**

Con el resurgimiento de las redes neuronales, esta es una de las representaciones de palabras más utilizadas a la fecha, y que precisamente aborda la limitación del enfoque BoW. El objetivo principal de los Word Embeddings, es crear representaciones densas, con una baja dimensión capaces de representar palabras vectorialmente en base al contexto.

Volvamos a nuestro ejemplo anterior, `doctor` y `physician` ocurren muchas veces en el mismo contexto, por lo tanto los embeddings que representan a estas palabras deben ser vectores muy similares entre sí, y significativamente diferentes al vector de la palabra `restaurant`. Por ejemplo, podríamos generar los siguientes vectores:


`doctor` $\begin{bmatrix}0.32 \\ 0.44 \\ 0.92 \\ .001 \end{bmatrix}$, `physician` $\begin{bmatrix}0.30 \\ 0.50 \\ 0.92 \\ .002 \end{bmatrix}$, `restaurant`  $\begin{bmatrix}0.77 \\ 0.99 \\ 0.004 \\ .1 \end{bmatrix}$.

¿Cómo se crean estas representaciones? Básicamente se utiliza una red neuronal simple que resuelve la tarea de predecir la probabilidad de que una palabra aparezca dentro de un determinado contexto. Esto está en el marco del aprendizaje supervisado, pero como esta clase es introductoria, su explicación se escapa del objetivo.

Ahora, una pregunta natural luego de introducir estas representaciones es la siguiente: ¿Será posible entrenar representaciones en un corpus de dominio específico, y que estas sean útiles a la hora de resolver una tarea en un dataset diferente pero del mismo dominio?

Esta pregunta es una de las principales motivaciones de crear los llamados Word Embeddings pre-entrenados, es decir, entrenar un modelo de embeddings y almacenarlo en un archivo para que pueda ser utilizado en otro momento. 

Una metáfora utilizada por los creados de estos modelos es la siguiente. Supongan que tienen una enfermedad grave y necesitan una cirugía pronto. Entonces, les dan la opción se elegir ser operados por un estudiante de medicina de primer año o bien un niño. ¿Cuál sería su decisión?

La opción es clara, y sería elegir al estudiante de medicina, que si bien no ha realizado nunca una operación, tiene una idea aunque sea de parte de los conceptos médicos que involucra una intervención. Algo así es lo que se buscó lograr en el [paper](https://arxiv.org/abs/1301.3781) presentado por Mikolov en 2013, aludiendo a la herramienta **Word2Vec**. La idea es que si alguien quisiera resolver una tarea de clasificación en el dominio clínico, entonces es útil utilizar al comienzo del modelo Word Embeddings pre-entrenados en un dataset similar al que se está resolviendo, optimizando así el paso de la representación de las palabras al menos. En palabras más técnicas, lo que se hace acá es reutilizar los pesos de la red neuronal pre-entrenada, que corresponde al modelo de embeddings, realizando así el llamado **transfer learning**.

Pero para no llenar de teoría, veamos de forma práctica la diferencia en la calidad de ambas representaciones vistas.

**Bag of Words (BoW)**

In [3]:
sentences = ["The attention of the doctor was very good", "He is a nice physician", "The attention in the restaurant was very good"]

In [4]:
from keras.preprocessing.text import Tokenizer

model = Tokenizer()
model.fit_on_texts(sentences)

In [5]:
rep = model.texts_to_matrix(sentences, mode='count')

In [6]:
print('Bag of words representation')
print(rep)

Bag of words representation
[[0. 2. 1. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 0. 0.]
 [0. 2. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 1.]]


In [7]:
from scipy import spatial
import numpy as np

result = 1 - spatial.distance.cosine(rep[0], rep[1])
print(f'Cosine similarity between first and second document using BoW: {np.round(result,3)}.')

result = 1 - spatial.distance.cosine(rep[0], rep[2])
print(f'Cosine similarity between first and third document using BoW: {np.round(result,3)}.')

Cosine similarity between first and second document using BoW: 0.0.
Cosine similarity between first and third document using BoW: 0.8.


**Word Embeddings**

In [8]:
from flair.embeddings import WordEmbeddings
from flair.data import Sentence
import numpy as np 

en_embedding = WordEmbeddings('en')

sentences = [Sentence("The attention of the doctor was very good"), Sentence("He is a nice physician"), Sentence("The attention in the restaurant was very good")]

en_embedding.embed(sentences)

reprs = []

for sent in sentences:
  reprs.append(np.mean([token.embedding.cpu().detach().numpy() for token in sent], axis=0))

2022-11-14 16:07:06,718 https://flair.informatik.hu-berlin.de/resources/embeddings/token/en-fasttext-news-300d-1M.vectors.npy not found in cache, downloading to /tmp/tmpoteacj1k


100%|██████████| 1200000128/1200000128 [00:44<00:00, 26868928.06B/s]

2022-11-14 16:07:51,710 copying /tmp/tmpoteacj1k to cache at /root/.flair/embeddings/en-fasttext-news-300d-1M.vectors.npy





2022-11-14 16:07:56,147 removing temp file /tmp/tmpoteacj1k
2022-11-14 16:07:56,757 https://flair.informatik.hu-berlin.de/resources/embeddings/token/en-fasttext-news-300d-1M not found in cache, downloading to /tmp/tmpjqfvooaj


100%|██████████| 54600983/54600983 [00:02<00:00, 20014988.65B/s]

2022-11-14 16:07:59,808 copying /tmp/tmpjqfvooaj to cache at /root/.flair/embeddings/en-fasttext-news-300d-1M





2022-11-14 16:07:59,867 removing temp file /tmp/tmpjqfvooaj


In [9]:
from scipy import spatial
import numpy as np

result = 1 - spatial.distance.cosine(reprs[0], reprs[1])
print(f'Cosine similarity between first and second document using BoW: {np.round(result,2)}.')

result = 1 - spatial.distance.cosine(reprs[0], reprs[2])
print(f'Cosine similarity between first and third document using BoW: {np.round(result,2)}.')

Cosine similarity between first and second document using BoW: 0.82.
Cosine similarity between first and third document using BoW: 0.96.


## NLP tasks 

Volviendo al objetivo, en NLP buscamos crear sistemas computacionales que sean capaces de resolver problemas prácticos que involucren el lenguaje humano. Estos problemas más conocidos como *NLP tasks*, pueden ser divididos en 3 grandes grupos.


## Clasificación de texto

Esta tarea consiste en crear sistemas capaces de clasificar documentos en categorías predefinidas. Estos sistemas pueden ser utilizados para organizar, estructurar y categorizar textos no estructurados basándose en el contexto. Un ejemplo clásico acá es el filtro de Spams.

![SPAM](https://i1.wp.com/www.opinosis-analytics.com/wp-content/uploads/2020/08/document_classification.png?resize=872%2C436&ssl=1)

![¿Cómo encontraron la película?](https://raw.githubusercontent.com/dccuchile/CC6205/master/tutorials/recursos/limpiapiscinas.PNG "Email: ¿Cómo encontraron la película?")

**Ejemplo: Análisis de Sentimientos**

El objetivo de esta tarea de NLP es analizar la actitud, comportamiento, estado emocional del emisor de un mensaje. Tradicionalmente se le asignan los valores positivo, negativo o neutral al contenido de un texto, pero otras veces se identifica también el tipo de sentimiento; felicidad, tristeza, enojo, entre otros.

![SPAM](https://huggingface.co/front/assets/huggingface_logo-noborder.svg)

In [10]:
from transformers import pipeline

classifier = pipeline("sentiment-analysis")

result = classifier("I hate you")[0]
print(f"label: {result['label']}, with score: {round(result['score'], 4)}")

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading:   0%|          | 0.00/629 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/268M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/232k [00:00<?, ?B/s]

label: NEGATIVE, with score: 0.9991


In [11]:
result = classifier("I love you")[0]
print(f"label: {result['label']}, with score: {round(result['score'], 4)}")

label: POSITIVE, with score: 0.9999


In [12]:
result = classifier("Odié la película Avatar!")[0]
print(f"label: {result['label']}, with score: {round(result['score'], 4)}")

label: NEGATIVE, with score: 0.9972


In [13]:
# ¿Qué pasa acá?
result = classifier("No odié la película Avatar!")[0]
print(f"label: {result['label']}, with score: {round(result['score'], 4)}")

label: NEGATIVE, with score: 0.8202


## Etiquetado de Secuencias

Dada una secuencia de palabras (oración), los métodos de **sequence labeling** tienen por objetivo asignar una etiqueta a cada palabra de dicha oración. Computacionalmente hablando, dada una lista de tokens esperamos encontrar la mejor secuencia de etiquetas asociadas a esa lista. 

In [14]:
from transformers import pipeline

ner_pipe = pipeline("ner")

sequence = """Hugging Face Inc. is a company based in New York City. Its headquarters are in DUMBO,
therefore very close to the Manhattan Bridge which is visible from the window."""

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision f2482bf (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading:   0%|          | 0.00/998 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.33G [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/60.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/213k [00:00<?, ?B/s]

In [15]:
for entity in ner_pipe(sequence):
    print(entity)

{'entity': 'I-ORG', 'score': 0.99957865, 'index': 1, 'word': 'Hu', 'start': 0, 'end': 2}
{'entity': 'I-ORG', 'score': 0.9909764, 'index': 2, 'word': '##gging', 'start': 2, 'end': 7}
{'entity': 'I-ORG', 'score': 0.9982224, 'index': 3, 'word': 'Face', 'start': 8, 'end': 12}
{'entity': 'I-ORG', 'score': 0.9994879, 'index': 4, 'word': 'Inc', 'start': 13, 'end': 16}
{'entity': 'I-LOC', 'score': 0.9994344, 'index': 11, 'word': 'New', 'start': 40, 'end': 43}
{'entity': 'I-LOC', 'score': 0.99931955, 'index': 12, 'word': 'York', 'start': 44, 'end': 48}
{'entity': 'I-LOC', 'score': 0.9993794, 'index': 13, 'word': 'City', 'start': 49, 'end': 53}
{'entity': 'I-LOC', 'score': 0.98625815, 'index': 19, 'word': 'D', 'start': 79, 'end': 80}
{'entity': 'I-LOC', 'score': 0.951427, 'index': 20, 'word': '##UM', 'start': 80, 'end': 82}
{'entity': 'I-LOC', 'score': 0.933659, 'index': 21, 'word': '##BO', 'start': 82, 'end': 84}
{'entity': 'I-LOC', 'score': 0.97616553, 'index': 28, 'word': 'Manhattan', 'start'

## Secuencia a Secuencia 

A diferencia de la tarea anterior, aquí los métodos buscan "mapear" un input a un output donde los largos pueden ser diferentes. Estos modelos son comúnmente utilizados para la traducción de texto y la construcción de modelos del lenguaje, los cuáles son capaces de generar texto natural automáticamente. Problemas prácticos que involucran estos sistemas pueden ser los chatbots, traductores, resumen de información, respuesta a preguntas, o cualquier aplicación que busque generar nuevas secuencias de lenguaje natural.

In [16]:
translator = pipeline("translation", model="Helsinki-NLP/opus-mt-es-en")
translator("Hola, soy Matías, estoy probando el traductor.") 

Downloading:   0%|          | 0.00/1.44k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/312M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/44.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/826k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/802k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.59M [00:00<?, ?B/s]



[{'translation_text': "Hi, I'm Matias, I'm testing the translator."}]

# **Reconocimiento de entidades médicas con una Red Neuronal Recurrente (RNN) 🔎🩺**

**Named Entity Recognition (NER)**

NER es una de las tareas más investigadas en el área de NLP y es un ejemplo de un problema de **Sequence Labeling**. Pero antes de definir formalmente de qué trata esta tarea, es necesario definir algunos conceptos claves para poder entenderla fácilmente:

- **Token**: Un token es una secuencia de uno o más caracteres, donde un caracter puede ser una letra, un número o un símbolo. `Ejemplos: ['paciente', 'hta', 'pza', '1.2', '2020'] `

- **Entidad**: No es más que una secuencia de tokens que está asociada a alguna categoría pre-definida. Originalmente se solían utilizar categorías como nombres de personas, organizaciones, ubicaciones, pero actualmente se ha extendido a diferentes dominios. `Ejemplo: Entidad: 'Mauricio Araneda' -> Categoría: 'Persona'`

- **Límites de una entidad**: Son los índices de los tokens de inicio y fín  de una entidad. `Ejemplo: 'El profesor Mauricio Araneda' - Entidad: 'Mauricio Araneda' - Límites: [2, 3]`

- **Tipo de entidad**: Es la categoría predefinida asociada a la entidad.

Por lo tanto, definimos formalmente una entidad como una tupla (conjunto de elementos): $(s, e, t)$, donde $s, t$ son los límites de la entidad (índices de los tokens de inicio y fin, respectivamente) y t corresponde al tipo de entidad o categoría. Ya veremos más ejemplos luego de describir el Dataset.


Dicho esto, podemos imaginar una posible aplicación en el área clínica. Dado un conjunto de diagnósiticos sería de gran utilidad reconocer de manera automática los trozos de texto que hagan referencia a categorías clínicas, como por ejemplo, enfermedades. 

&ensp;

**Corpus de la Lista de espera**

Trabajaremos con un conjunto de datos reales correspondientes a interconsultas de la lista de espera NO GES en Chile. Este corpus Chileno está constituido por 7 tipos de entidades:

- **Disease**
- **Body_Part**
- **Medication** 
- **Procedures** 
- **Family_Member**
- **Abbreviation**
- **Finding** 

###  **Carga de datos y Preprocesamiento**

Para cargar los datos y preprocesarlos usaremos la librería [`torchtext`](https://github.com/pytorch/text). Tener cuidado con las versiones ya que hace poco tiempo esta librería tuvo cambios radicales, quedando las funcionalidades pasadas en un nuevo paquete llamado legacy. Así que si quieren usar más funciones de la librería entonces vean los cambios en la documentación.

El pre-procesamiento estará compuesto por los siguientes pasos:

1. Descargar los datos desde github y examinarlos.
2. Definir los campos (`fields`) que cargaremos desde los archivos.
3. Cargar los datasets.
4. Crear el vocabulario.
5. Crear los iteradores para el entrenamiento

In [17]:
import torch

# Garantizar reproducibilidad de los experimentos
SEED = 1234
torch.manual_seed(SEED)
torch.backends.cudnn.deterministic = True # https://stackoverflow.com/questions/66130547/what-does-the-difference-between-torch-backends-cudnn-deterministic-true-and

#### **Obtener datos**

Descargamos los datos de entrenamiento, validación y prueba en nuestro directorio de trabajo

In [18]:
%%capture

!wget https://raw.githubusercontent.com/maranedah/MDS7202/main/clases/Clase%2023%20-%20Introducci%C3%B3n%20al%20Procesamiento%20del%20Lenguaje%20Natural/dataset/train.conll -nc # Dataset de Entrenamiento
!wget https://raw.githubusercontent.com/maranedah/MDS7202/main/clases/Clase%2023%20-%20Introducci%C3%B3n%20al%20Procesamiento%20del%20Lenguaje%20Natural/dataset/dev.conll -nc    # Dataset de Validación (Para probar y ajustar el modelo)
!wget https://raw.githubusercontent.com/maranedah/MDS7202/main/clases/Clase%2023%20-%20Introducci%C3%B3n%20al%20Procesamiento%20del%20Lenguaje%20Natural/dataset/test.conll -nc  # Dataset de la Competencia. Estos datos solo contienen los tokens. ¡¡SON LOS QUE DEBEN SER PREDICHOS!!

####  **Fields**

Un `field`:

* Define un tipo de datos junto con instrucciones para convertir el texto a Tensor.
* Contiene un objeto `Vocab` que contiene el vocabulario (palabras posibles que puede tomar ese campo).
* Contiene otros parámetros relacionados con la forma en que se debe numericalizar un tipo de datos, como un método de tokenización y el tipo de Tensor que se debe producir.


Formato de datasets en NER:


```
El O
paciente O
padece O
de O
cancer B-Disease
de I-Disease
colon I-Disease
. O
```

Cada linea contiene un token y el tipo de entidad asociado en un formato conocido como IOB2. Para que `torchtext` pueda cargar estos datos, debemos definir como va a leer y separar los componentes de cada una de las lineas.
Para esto, definiremos un field para cada uno de esos componentes: Las palabras (`TEXT`) y las etiquetas o categorías (`NER_TAGS`).

In [19]:
from torchtext import legacy

In [20]:
# Primer Field: TEXT. Representan los tokens de la secuencia
TEXT = legacy.data.Field(lower=False) 

# Segundo Field: NER_TAGS. Representan los Tags asociados a cada palabra.
NER_TAGS = legacy.data.Field(unk_token=None)
fields = (("text", TEXT), ("nertags", NER_TAGS))

####  **SequenceTaggingDataset**

`SequenceTaggingDataset` es una clase de torchtext diseñada para contener datasets de sequence labeling. Los ejemplos que se guarden en una instancia de estos serán arreglos de palabras asociados con sus respectivos tags.

Por ejemplo, para Part-of-speech tagging:

[I, love, PyTorch, .] estará asociado con [PRON, VERB, PROPN, PUNCT]


La idea es que usando los fields que definimos antes, le indiquemos a la clase cómo cargar los datasets de prueba, validación y test.

In [21]:
train_data, valid_data, test_data = legacy.datasets.SequenceTaggingDataset.splits(
    path="./",
    train="train.conll",
    validation="dev.conll",
    test="test.conll",
    fields=fields,
    encoding="utf-8",
    separator=" "
)

In [22]:
print(f"Numero de ejemplos de entrenamiento: {len(train_data)}")
print(f"Número de ejemplos de validación: {len(valid_data)}")
print(f"Número de ejemplos de test: {len(test_data)}")

Numero de ejemplos de entrenamiento: 8008
Número de ejemplos de validación: 890
Número de ejemplos de test: 990


In [23]:
train_data.examples[0].text

['K08',
 '.',
 '1',
 '-',
 'PERDIDA',
 'DE',
 'DIENTES',
 'DEBIDA',
 'A',
 'ACCIDENTE',
 ',',
 'EXTRACCION',
 'O',
 'ENF',
 '.',
 'PERIODONTAL',
 'LOCAL',
 '/',
 'Se',
 'solicita',
 'Protesis',
 'Parcial',
 'superior',
 'e',
 'inferior']

In [24]:
train_data.examples[0].nertags

['B-Disease',
 'I-Disease',
 'I-Disease',
 'O',
 'B-Disease',
 'I-Disease',
 'I-Disease',
 'I-Disease',
 'I-Disease',
 'I-Disease',
 'I-Disease',
 'I-Disease',
 'I-Disease',
 'I-Disease',
 'I-Disease',
 'I-Disease',
 'I-Disease',
 'O',
 'O',
 'O',
 'B-Procedure',
 'I-Procedure',
 'I-Procedure',
 'I-Procedure',
 'I-Procedure']

Construimos el vocabulario de tokens y de etiquetas

In [25]:
TEXT.build_vocab(train_data)
NER_TAGS.build_vocab(train_data)

In [26]:
print(f"Tokens únicos en TEXT: {len(TEXT.vocab)}")
print(f"Tokens únicos en NER_TAGS: {len(NER_TAGS.vocab)}")

Tokens únicos en TEXT: 17421
Tokens únicos en NER_TAGS: 16


In [27]:
#Veamos las posibles etiquetas que hemos cargado:
NER_TAGS.vocab.itos

['<pad>',
 'O',
 'I-Finding',
 'I-Disease',
 'B-Finding',
 'B-Disease',
 'B-Abbreviation',
 'B-Procedure',
 'I-Procedure',
 'I-Body_Part',
 'B-Body_Part',
 'B-Medication',
 'B-Family_Member',
 'I-Abbreviation',
 'I-Medication',
 'I-Family_Member']

Observen que ademas de los tags NER, tenemos \<pad\>, el cual es generado por el dataloader para cumplir con el padding de cada oración.

Veamos ahora los tokens mas frecuentes y especiales:

In [28]:
# Tokens mas frecuentes (Será necesario usar stopwords, eliminar símbolos o nos entregan información (?))
TEXT.vocab.freqs.most_common(10)

[('.', 7389),
 (',', 6820),
 ('-', 4977),
 ('de', 3808),
 ('DE', 3644),
 ('/', 2313),
 (':', 2207),
 ('con', 1486),
 ('y', 1440),
 ('APS', 1428)]

In [29]:
# Seteamos algunas variables que nos serán de utilidad mas adelante
UNK_IDX = TEXT.vocab.stoi[TEXT.unk_token]
PAD_IDX = TEXT.vocab.stoi[TEXT.pad_token]

PAD_TAG_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
O_TAG_IDX = NER_TAGS.vocab.stoi['O']

#### **Frecuencia de los Tags**

Visualizemos rápidamente las cantidades y frecuencias de cada tag:

In [30]:
def tag_percentage(tag_counts):
    
    total_count = sum([count for tag, count in tag_counts])
    tag_counts_percentages = [(tag, count, count/total_count) for tag, count in tag_counts]
  
    return tag_counts_percentages

print("Tag Ocurrencia Porcentaje\n")

for tag, count, percent in tag_percentage(NER_TAGS.vocab.freqs.most_common()):
    print(f"{tag}\t{count}\t{percent*100:4.1f}%")

Tag Ocurrencia Porcentaje

O	71485	47.8%
I-Finding	24734	16.5%
I-Disease	21019	14.1%
B-Finding	8449	 5.7%
B-Disease	8263	 5.5%
B-Abbreviation	4624	 3.1%
B-Procedure	2832	 1.9%
I-Procedure	2801	 1.9%
I-Body_Part	2727	 1.8%
B-Body_Part	1230	 0.8%
B-Medication	753	 0.5%
B-Family_Member	224	 0.1%
I-Abbreviation	212	 0.1%
I-Medication	114	 0.1%
I-Family_Member	9	 0.0%


#### **Configuramos pytorch y dividimos los datos.**

Importante: si tienes problemas con la ram de la gpu, disminuye el tamaño de los batches

In [31]:
# Usar cuda si es que está disponible.
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print('Using', device)

# Dividir datos entre entrenamiento y test. Si van a hacer algún sort no puede ser sobre
# el conjunto de testing ya que al hacer sus predicciones sobre el conjunto de test sin etiquetas
# debe conservar el orden original para ser comparado con los golden_labels. 

train_iterator, valid_iterator, test_iterator = legacy.data.BucketIterator.splits(
    (train_data, valid_data, test_data),
    batch_size=16,
    device=device,
    sort=False,
)

Using cuda


#### **Métricas de evaluación**

Además, definiremos las métricas que serán `precision`, `recall` y `micro f1-score`.
**Importante**: Noten que la evaluación solo se hace para las Named Entities (sin contar 'O'), toda esta funcionalidad nos la entrega la librería seqeval, pueden revisar más documentación aquí: https://github.com/chakki-works/seqeval.

In [32]:
from seqeval.metrics import f1_score, precision_score, recall_score

def calculate_metrics(preds, y_true, pad_idx=PAD_TAG_IDX, o_idx=O_TAG_IDX):
    """
    Calcula precision, recall y f1 de cada batch.
    """

    # Obtener el indice de la clase con probabilidad mayor. (clases)
    y_pred = preds.argmax(dim=1, keepdim=True)

    # filtramos <pad> para calcular los scores.
    mask = [(y_true != pad_idx)]
    y_pred = y_pred[mask]
    y_true = y_true[mask]

    # traemos a la cpu
    y_pred = y_pred.view(-1).to('cpu').numpy()
    y_true = y_true.to('cpu').numpy()
    y_pred = [[NER_TAGS.vocab.itos[v] for v in y_pred]]
    y_true = [[NER_TAGS.vocab.itos[v] for v in y_true]]
    
    # calcular scores
    f1 = f1_score(y_true, y_pred, mode='strict')
    precision = precision_score(y_true, y_pred, mode='strict')
    recall = recall_score(y_true, y_pred, mode='strict')

    return precision, recall, f1

-------------------

### **Modelo**

Teniendo ya cargado los datos, toca definir nuestro modelo. Este modelo tendrá una capa de embeddings (que se aprende con los mismos datos de entrenamientos), unas cuantas LSTM y una capa de salida y usará dropout en el entrenamiento.

Este constará de los siguientes pasos: 

1. Definir la clase que contendrá la red.
2. Definir los hiperparámetros e inicializar la red. 
3. Definir el número de épocas de entrenamiento
4. Definir la función de loss.


In [33]:
from torch import nn
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim


# Definir la red
class NER_RNN(nn.Module):
    def __init__(self, 
                 input_dim, 
                 embedding_dim, 
                 hidden_dim, 
                 output_dim,
                 n_layers, 
                 bidirectional, 
                 dropout, 
                 pad_idx):

        super().__init__()

        # Capa de embedding
        self.embedding = nn.Embedding(input_dim,
                                      embedding_dim,
                                      padding_idx=pad_idx)
        


        # Capa LSTM
        self.lstm = nn.LSTM(embedding_dim,
                            hidden_dim,
                            num_layers=n_layers,
                            bidirectional=bidirectional, 
                            dropout = dropout if n_layers > 1 else 0)
        

        # Capa de salida
        self.fc = nn.Linear(hidden_dim * 2 if bidirectional else hidden_dim,
                            output_dim)

        # Dropout
        self.dropout = nn.Dropout(dropout)

    def forward(self, text):

        #text = [sent len, batch size]

        # Convertir lo enviado a embedding
        embedded = self.dropout(self.embedding(text))
        
        # Pasar los embeddings por la rnn (LSTM)
        outputs, (hidden, _) = self.lstm(embedded)
        
        # Predecir usando la capa de salida.
        predictions = self.fc(self.dropout(outputs))
        #predictions = [sent len, batch size, output dim]

        return predictions

In [34]:
# tamaño del vocabulario. recuerden que la entrada son vectores bag of word(one-hot).
INPUT_DIM = len(TEXT.vocab)
EMBEDDING_DIM = 300  # dimensión de los embeddings.
HIDDEN_DIM = 128  # dimensión de la capas LSTM
OUTPUT_DIM = len(NER_TAGS.vocab)  # número de clases
n_epochs = 20
N_LAYERS = 3  # número de capas.
DROPOUT = 0.3
BIDIRECTIONAL = True

# Creamos nuestro modelo.
model = NER_RNN(INPUT_DIM, EMBEDDING_DIM, HIDDEN_DIM, OUTPUT_DIM,
                         N_LAYERS, BIDIRECTIONAL, DROPOUT, PAD_IDX)

#### Definimos la función de loss

In [35]:
# Loss: Cross Entropy
TAG_PAD_IDX = NER_TAGS.vocab.stoi[NER_TAGS.pad_token]
criterion = nn.CrossEntropyLoss(ignore_index = TAG_PAD_IDX)

------
### **Entrenamos y evaluamos**



#### **Inicializamos la red**

Iniciamos los pesos de la red de forma aleatoria (Usando una distribución normal).


In [36]:
def init_weights(m):
    # Inicializamos los pesos como aleatorios
    for name, param in m.named_parameters():
        nn.init.normal_(param.data, mean=0, std=0.1) 
        
    # Seteamos como 0 los embeddings de UNK y PAD.
    model.embedding.weight.data[UNK_IDX] = torch.zeros(EMBEDDING_DIM)
    model.embedding.weight.data[PAD_IDX] = torch.zeros(EMBEDDING_DIM)
        
model.apply(init_weights)

NER_RNN(
  (embedding): Embedding(17421, 300, padding_idx=1)
  (lstm): LSTM(300, 128, num_layers=3, dropout=0.3, bidirectional=True)
  (fc): Linear(in_features=256, out_features=16, bias=True)
  (dropout): Dropout(p=0.3, inplace=False)
)

In [37]:
def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f'El modelo actual tiene {count_parameters(model):,} parámetros entrenables.')

El modelo actual tiene 6,461,260 parámetros entrenables.


Notar que definimos los embeddings que representan a \<unk\> y \<pad\>  como [0, 0, ..., 0]

In [38]:
# Optimizador
optimizer = optim.Adam(model.parameters())

#### **Enviamos el modelo a cuda**

In [39]:
# Enviamos el modelo y la loss a cuda (en el caso en que esté disponible)
model = model.to(device)
criterion = criterion.to(device)

#### **Definimos el entrenamiento de la red**

Algunos conceptos previos: 

- `epoch` : una pasada de entrenamiento completa de una dataset.
- `batch`: una fracción de la época. Se utilizan para entrenar mas rápidamente la red. (mas eficiente pasar n datos que uno en cada ejecución del backpropagation)

Esta función está encargada de entrenar la red en una época. Para esto, por cada batch de la época actual, predice los tags del texto, calcula su loss y luego hace backpropagation para actualizar los pesos de la red.

Observación: En algunos comentarios aparecerá el tamaño de los tensores entre corchetes

In [40]:
def train(model, iterator, optimizer, criterion):

    epoch_loss = 0
    epoch_precision = 0
    epoch_recall = 0
    epoch_f1 = 0

    model.train()

    # Por cada batch del iterador de la época:
    for batch in iterator:

        # Extraemos el texto y los tags del batch que estamos procesado
        text = batch.text
        tags = batch.nertags

        # Reiniciamos los gradientes calculados en la iteración anterior
        optimizer.zero_grad()

        #text = [sent len, batch size]

        # Predecimos los tags del texto del batch.
        predictions = model(text)

        #predictions = [sent len, batch size, output dim]
        #tags = [sent len, batch size]

        # Reordenamos los datos para calcular la loss
        predictions = predictions.view(-1, predictions.shape[-1])
        tags = tags.view(-1)

        #predictions = [sent len * batch size, output dim]
        #tags = [sent len * batch size]

        # Calculamos el Cross Entropy de las predicciones con respecto a las etiquetas reales
        loss = criterion(predictions, tags)
        
        # Calculamos el accuracy
        precision, recall, f1 = calculate_metrics(predictions, tags)

        # Calculamos los gradientes
        loss.backward()

        # Actualizamos los parámetros de la red
        optimizer.step()

        # Actualizamos el loss y las métricas
        epoch_loss += loss.item()
        epoch_precision += precision
        epoch_recall += recall
        epoch_f1 += f1

    return epoch_loss / len(iterator), epoch_precision / len(
        iterator), epoch_recall / len(iterator), epoch_f1 / len(iterator)

#### **Definimos la función de evaluación**

Evalua el rendimiento actual de la red usando los datos de validación. 

Por cada batch de estos datos, calcula y reporta el loss y las métricas asociadas al conjunto de validación. 
Ya que las métricas son calculadas por cada batch, estas son retornadas promediadas por el número de batches entregados. (ver linea del return)

In [41]:
def evaluate(model, iterator, criterion):

    epoch_loss = 0
    epoch_precision = 0
    epoch_recall = 0
    epoch_f1 = 0

    model.eval()

    # Indicamos que ahora no guardaremos los gradientes
    with torch.no_grad():
        # Por cada batch
        for batch in iterator:

            text = batch.text
            tags = batch.nertags

            # Predecimos
            predictions = model(text)

            predictions = predictions.view(-1, predictions.shape[-1])
            tags = tags.view(-1)

            # Calculamos el Cross Entropy de las predicciones con respecto a las etiquetas reales
            loss = criterion(predictions, tags)

            # Calculamos las métricas
            precision, recall, f1 = calculate_metrics(predictions, tags)

            # Actualizamos el loss y las métricas
            epoch_loss += loss.item()
            epoch_precision += precision
            epoch_recall += recall
            epoch_f1 += f1

    return epoch_loss / len(iterator), epoch_precision / len(
        iterator), epoch_recall / len(iterator), epoch_f1 / len(iterator)

In [42]:
import time

def epoch_time(start_time, end_time):
    elapsed_time = end_time - start_time
    elapsed_mins = int(elapsed_time / 60)
    elapsed_secs = int(elapsed_time - (elapsed_mins * 60))
    return elapsed_mins, elapsed_secs


#### **Entrenamiento de la red**

En este cuadro de código ejecutaremos el entrenamiento de la red.
Para esto, primero definiremos el número de épocas y luego por cada época, ejecutaremos `train` y `evaluate`.

**Importante: Reiniciar los pesos del modelo**

Si ejecutas nuevamente esta celda, se seguira entrenando el mismo modelo una y otra vez. 
Para reiniciar el modelo se debe ejecutar nuevamente la celda que contiene la función `init_weights`


In [43]:
best_valid_loss = float('inf')

for epoch in range(n_epochs):

    start_time = time.time()

    # Recuerdo: train_iterator y valid_iterator contienen el dataset dividido en batches.

    # Entrenar
    train_loss, train_precision, train_recall, train_f1 = train(
        model, train_iterator, optimizer, criterion)

    # Evaluar (valid = validación)
    valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
        model, valid_iterator, criterion)

    end_time = time.time()

    epoch_mins, epoch_secs = epoch_time(start_time, end_time)

    # Si obtuvimos mejores resultados, guardamos este modelo en el almacenamiento (para poder cargarlo luego)
    # Si detienen el entrenamiento prematuramente, pueden cargar el modelo en el siguiente recuadro de código.
    if valid_loss < best_valid_loss:
        best_valid_loss = valid_loss
        torch.save(model.state_dict(), 'pre_trained_model.pt')
    # Si ya no mejoramos el loss de validación, terminamos de entrenar.

    print(f'Epoch: {epoch+1:02} | Epoch Time: {epoch_mins}m {epoch_secs}s')
    print(
        f'\tTrain Loss: {train_loss:.3f} | Train f1: {train_f1:.2f} | Train precision: {train_precision:.2f} | Train recall: {train_recall:.2f}'
    )
    print(
        f'\t Val. Loss: {valid_loss:.3f} |  Val. f1: {valid_f1:.2f} |  Val. precision: {valid_precision:.2f} | Val. recall: {valid_recall:.2f}'
    )

  _warn_prf(average, modifier, msg_start, len(result))


Epoch: 01 | Epoch Time: 0m 11s
	Train Loss: 1.062 | Train f1: 0.43 | Train precision: 0.51 | Train recall: 0.39
	 Val. Loss: 0.664 |  Val. f1: 0.62 |  Val. precision: 0.65 | Val. recall: 0.60
Epoch: 02 | Epoch Time: 0m 11s
	Train Loss: 0.543 | Train f1: 0.70 | Train precision: 0.71 | Train recall: 0.68
	 Val. Loss: 0.578 |  Val. f1: 0.67 |  Val. precision: 0.68 | Val. recall: 0.66
Epoch: 03 | Epoch Time: 0m 11s
	Train Loss: 0.364 | Train f1: 0.79 | Train precision: 0.80 | Train recall: 0.79
	 Val. Loss: 0.573 |  Val. f1: 0.68 |  Val. precision: 0.69 | Val. recall: 0.67
Epoch: 04 | Epoch Time: 0m 11s
	Train Loss: 0.260 | Train f1: 0.85 | Train precision: 0.86 | Train recall: 0.85
	 Val. Loss: 0.638 |  Val. f1: 0.67 |  Val. precision: 0.67 | Val. recall: 0.67
Epoch: 05 | Epoch Time: 0m 11s
	Train Loss: 0.200 | Train f1: 0.89 | Train precision: 0.89 | Train recall: 0.89
	 Val. Loss: 0.674 |  Val. f1: 0.68 |  Val. precision: 0.68 | Val. recall: 0.68
Epoch: 06 | Epoch Time: 0m 11s
	Train Lo

**Importante**: Recuerden que el último modelo entrenado no es el mejor (probablemente esté *overfitteado*), si no el que guardamos con la menor loss del conjunto de validación. Este problema lo pueden solucionar con *early stopping*.
Para cargar el mejor modelo entrenado, ejecuten la siguiente celda.

In [44]:
# cargar el mejor modelo entrenado.
model.load_state_dict(torch.load('pre_trained_model.pt'))

<All keys matched successfully>

In [45]:
# Limpiar ram de cuda
torch.cuda.empty_cache()

#### **Evaluamos el set de validación con el modelo final**

Estos son los resultados de predecir el dataset de evaluación con el *mejor* modelo entrenado.

In [46]:
valid_loss, valid_precision, valid_recall, valid_f1 = evaluate(
    model, valid_iterator, criterion)

print(
    f'Val. Loss: {valid_loss:.3f} |  Val. f1: {valid_f1:.2f} | Val. precision: {valid_precision:.2f} | Val. recall: {valid_recall:.2f}'
)

Val. Loss: 0.573 |  Val. f1: 0.68 | Val. precision: 0.69 | Val. recall: 0.67


#### **Evaluamos el set de test con el modelo final**

In [47]:
test_loss, test_precision, test_recall, test_f1 = evaluate(
    model, test_iterator, criterion)

print(
    f'Test. Loss: {test_loss:.3f} |  Test. f1: {test_f1:.3f} | Test. precision: {test_precision:.3f} | Test. recall: {test_recall:.3f}'
)

Test. Loss: 0.520 |  Test. f1: 0.710 | Test. precision: 0.713 | Test. recall: 0.710
