# NLP con Long-Short Term Memory (LSTM)

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/Ohtar10/icesi-nlp/blob/main/Sesion2/2-nlp-with-lstm.ipynb)

En este notebook implementaremos un clasificador de noticias en español utilizando la arquitectura de red LSTM. La idea es tener un punto de referencia para comparar cuando observemos la parte de transformers, por lo que utilizaremos el mismo dataset y tarea de ejemplo. Utilizarémos las utilidades de tokenización de huggingface transformers para ayudarnos con esta tarea.

#### Referencias
- Dataset: https://huggingface.co/datasets/MarcOrfilaCarreras/spanish-news
- [Long Short-Term Memory](https://www.researchgate.net/publication/13853244_Long_Short-Term_Memory#fullTextFileContent)

In [64]:
import pkg_resources
import warnings

warnings.filterwarnings('ignore')

installed_packages = [package.key for package in pkg_resources.working_set]
IN_COLAB = 'google-colab' in installed_packages

In [65]:
#!test '{IN_COLAB}' = 'True' && wget  https://github.com/Ohtar10/icesi-nlp/raw/refs/heads/main/requirements.txt && pip install -r requirements.txt
!test '{IN_COLAB}' = 'True' && sudo apt-get update -y
!test '{IN_COLAB}' = 'True' && sudo apt-get install python3.10 python3.10-distutils python3.10-lib2to3 -y
!test '{IN_COLAB}' = 'True' && sudo update-alternatives --install /usr/local/bin/python python /usr/bin/python3.11 2
!test '{IN_COLAB}' = 'True' && sudo update-alternatives --install /usr/local/bin/python python /usr/bin/python3.10 1
!test '{IN_COLAB}' = 'True' && pip install lightning datasets

0% [Working]            Hit:1 http://security.ubuntu.com/ubuntu jammy-security InRelease
0% [Connecting to archive.ubuntu.com (185.125.190.81)] [Connected to cloud.r-pr                                                                               Hit:2 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease
0% [Waiting for headers] [Connected to r2u.stat.illinois.edu (192.17.190.167)]                                                                                Hit:3 https://cli.github.com/packages stable InRelease
0% [Waiting for headers] [Connected to r2u.stat.illinois.edu (192.17.190.167)]                                                                                Hit:4 http://archive.ubuntu.com/ubuntu jammy InRelease
Hit:5 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease
Get:6 http://archive.ubuntu.com/ubuntu jammy-updates InRelease [128 kB]
Hit:7 https://r2u.stat.illinois.edu/ubuntu jammy InRelease
Hit:8 http://arch

### Cargando el dataset
Este es un dataset pequeño de articulos de noticias en idioma español con sus respectivas categorías. El dataset está disponible en el HuggingFace Hub y puede ser fácilmente descargado con la librería.

In [68]:
from datasets import load_dataset
import warnings
import os

from datasets import load_dataset
train_url = "https://raw.githubusercontent.com/mauriciogupi/nlp-master/main/Sesion2/comentarios_train.json"

dataset = load_dataset("json", data_files=train_url, split="train")
print(dataset)
print(dataset[0])


Dataset({
    features: ['id', 'timestamp', 'pais', 'ciudad', 'canal', 'plataforma', 'medio_contacto', 'comentario', 'categoria', 'severidad', 'sentimiento'],
    num_rows: 2000
})
{'id': '3c0c82e9-c97d-421a-adda-b0e246fdb795', 'timestamp': Timestamp('2024-08-17 14:06:08'), 'pais': 'CL', 'ciudad': 'Lima', 'canal': 'telefono', 'plataforma': 'mobile_web', 'medio_contacto': 'redes', 'comentario': 'En la web/app el cupón no funcionó al comprar un libro. Intenté varias veces y nada.', 'categoria': 'ecommerce', 'severidad': 'media', 'sentimiento': -0.5}


Observemos uno de sus registros

In [71]:
dataset[1]

{'id': '4ecd2f26-8498-460e-8a6d-32a2c281e205',
 'timestamp': Timestamp('2024-08-17 14:43:08'),
 'pais': 'ES',
 'ciudad': 'Buenos Aires',
 'canal': 'whatsapp',
 'plataforma': 'desktop',
 'medio_contacto': 'telefono',
 'comentario': 'El libro mostraba un precio y cobró otro; el descuento era de 20% según la página.',
 'categoria': 'precios',
 'severidad': 'media',
 'sentimiento': -0.7000000000000001}

In [70]:
dataset = dataset.map(lambda x: {"timestamp": str(x["timestamp"])})

Map:   0%|          | 0/2000 [00:00<?, ? examples/s]

Para los efectos de esta tarea, nos servirán el texto y la categoría naturalmente.

A manera general, observemos que tan largos o cortos tienden a ser los textos.

In [72]:
text_lengths = [len(row['comentario']) for row in dataset]
print(f"Texto más corto: {min(text_lengths)}")
print(f"Texto más largo: {max(text_lengths)}")
print(f"Longitud promedio: {sum(text_lengths) / len(text_lengths)}")

Texto más corto: 50
Texto más largo: 104
Longitud promedio: 83.0965


Estos valores son la cantidad de *caractéres* que tiene las secuencias. Una decisión ingenua pero útil en este momento podría ser ajustar la longitud de las secuencias que vamos a usar para el entrenamiento a unos 2000 tokens. Esto podría ser suficiente para capturar una porción significativa de los textos.

## Definiendo el Tokenizer

Ahora, vamos a definir el tokenizer para nuestra tarea. Para mantener las cosas simples, vamos a mantener un conteo de palabras y vamos a hacer un corte hasta los primeros 50mil tokens.

In [73]:
import re
from collections import Counter

def simple_tokenizer(text):
    text = text.lower()
    text = re.sub(r"[^a-záéíóúüñ]+", " ", text)
    return text.strip().split()

# Construimos el vocabulario a partir de conjunto de datos.
token_counts = Counter()
for text in dataset["comentario"]:
    token_counts.update(simple_tokenizer(text))

# 50k-2 porque necesitamos reservar espacio para los dos tokens especiales
top_n_tokens = list(token_counts.keys())[:50000-2]
vocab = {"[PAD]": 0, "[UNK]": 1}
for token in top_n_tokens:
    vocab[token] = len(vocab)

def tokenize_text(text, max_length=50):
    tokens = simple_tokenizer(text)
    ids = [vocab.get(tok, vocab["[UNK]"]) for tok in tokens[:max_length]]
    ids += [vocab["[PAD]"]] * (max_length - len(ids))
    return ids

Exploremos ahora el tokenizador obtenido.

In [74]:
print(f"Vocabulario: {len(vocab)} tokens")
print("Primeros 15 tokens:")
print(f"{top_n_tokens[:15]}")
print("15 tokens de en medio:")
print(f"{top_n_tokens[1000:1015]}")
print("Últimos 15 tokens:")
print(f"{top_n_tokens[-15:]}")

Vocabulario: 313 tokens
Primeros 15 tokens:
['en', 'la', 'web', 'app', 'el', 'cupón', 'no', 'funcionó', 'al', 'comprar', 'un', 'libro', 'intenté', 'varias', 'veces']
15 tokens de en medio:
[]
Últimos 15 tokens:
['tardna', 'zapatlilas', 'serivcio', 'smartwatc', 'hmostraba', 'intentév', 'arias', 'naad', 'zapaitllas', 'mojad', 'acon', 'lbiro', 'pap', 'precios', 'ubió']


Esta forma de exploración es para darnos una idea de las palabras más utilizadas en el corpus y nos dará un indicio de si la tokenización es adecuada o no. Vemos que tenemos algunos stop words, como artículos (el, la) y conectores (del, que). Para una tarea de clasificación de texto podríamos prescindir de estos pero para facilitar las cosas y ya que los demás tokens lucen bien, podemos preservarlos.

Ahora veamos como convierte el tokenizador una oración muy sencilla:

In [75]:
tokenized = tokenize_text("hola mundo", max_length=8)
tokenized

[1, 1, 0, 0, 0, 0, 0, 0]

Lo que obtenemos de vuelta son los ids de cada token según el vocabulario. Ahora algo importante que notamos aquí es el *padding*, durante el entrenamiento, queremos que las secuencias sean de tamaño fijo, para asi operar comodamente con matrices. Pero ya vimos que no todos los textos tienen la misma longitud. Entonces que hacer? para los que son más largos que una longitud dada simplemente cortamos, pero para los que son más cortos, debemos *rellenar* lo faltante con un *token especial de relleno o padding*. Y es justo lo que definimos allí, cuando la cadena es inferior a 8 **tokens**, entonces debemos hacer padding hasta que se cumplan los 8.

Si queremos saber a que token exactamente hacen referencia estos ids, simplemente revisamos el vocabulario que hemos construido:

In [76]:
id_2_token = {v: k for k, v in vocab.items()}
[id_2_token[token] for token in tokenized]

['[UNK]', '[UNK]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]']

Claramente vemos los 3 tokens como cadenas independientes (el padding se considera un token independiente).

### Definiendo el dataset de pytorch
Ahora podemos proceder a definir el dataset. Esto debería ser muy sencillo dado que nuestro dataset es pequeño y ya tenemos el tokenizador listo.

In [81]:
import torch
import numpy as np
from typing import Tuple, Dict
from torch.utils.data import Dataset

class SpanishNewsDataset(Dataset):

    def __init__(self, tokenizer, dataset, seq_length: int = 512):
        self.tokenizer = tokenizer
        self.dataset = dataset
        self.seq_length = seq_length
        # Definimos estos dos mapas para facilitarnos la tarea
        # de traducir de nombres de categoría a ids de categoría.
        self.id_2_class_map = dict(enumerate(np.unique(dataset[:]['categoria'])))
        self.class_2_id_map = {v: k for k, v in self.id_2_class_map.items()}
        self.num_classes = len(self.id_2_class_map)

    def __getitem__(self, index) -> Dict[str, torch.Tensor]:
        text, y = self.dataset[index]['comentario'], self.dataset[index]['categoria']
        y = self.class_2_id_map[y]
        data = {'id': torch.tensor(self.tokenizer(text, max_length=self.seq_length))}
        data['y'] = torch.tensor(y)
        return data


    def __len__(self):
        return len(self.dataset)

Ahora instanciaremos el dataset entero. Para este experimento, definiremos un tamaño máximo de secuencia de 2048 **tokens**. Que según nuestra intuición arriba, debería ser suficiente para la tarea.

In [82]:
max_len = 512
spanish_news_dataset = SpanishNewsDataset(tokenize_text, dataset, seq_length=max_len)
assert len(spanish_news_dataset) == len(dataset)

Y luego, procedemos a hacer el train-val-test split y crear los dataloaders.

In [83]:
from torch.utils.data import random_split
from torch.utils.data import DataLoader

batch_size = 4 if not IN_COLAB else 12
train_dataset, val_dataset, test_dataset = random_split(spanish_news_dataset, lengths=[0.8, 0.1, 0.1])
train_loader = DataLoader(train_dataset, batch_size=4, shuffle=True, num_workers=2)
val_loader = DataLoader(val_dataset, batch_size=4, shuffle=False, num_workers=2)
test_loader = DataLoader(test_dataset, batch_size=4, shuffle=False, num_workers=2)

## Definición del modelo LSTM

Ahora vamos a configurar un módulo pytorch simple para este problema. Vamos ha utilizar los embeddings, que vendrían siendo los vectores de palabra. Pytorch nos ofrece una capa con la que directamente podemos entrenarlos a partir de los token ids obtenidos. El resto consistirá en invocar una capa LSTM seguida de una capa densa para la clasificación.

Recordemos que las redes recurrentes como las LSTM por diseño enlazan todas las dimensiones del vector de entrada, formando así la secuencia, la estructura natural que necesitamos representar.

In [84]:
import torch
import torch.nn as nn
import torch.nn.functional as F

class LSTMBlock(nn.Module):
    def __init__(self, vocab_size, embed_dim, hidden_dim, num_classes, num_layers=2, dropout=0.2):
        super().__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim, padding_idx=0)
        self.lstm = nn.LSTM(embed_dim, hidden_dim, num_layers, batch_first=True, dropout=dropout)

    def forward(self, x):
        embedded = self.embedding(x)
        output, (hidden, _) = self.lstm(embedded)
        return hidden[-1]


### Definición del clasificador

Finalmente, definimos el modelo en si. Este modelo constará de 3 capas:

- La tokenización, tal como la definimos anteriormente.
- El bloque LSTM, que acabamos de decinir.
- Una capa densa adicional que servirá como clasificador de aquello que nos entregue la capa del transformer.

Como este es un LightningModule, aquí definiremos el resto de funciones utilitarias para el entrenamiento de la tarea.

In [88]:
from pytorch_lightning import LightningModule, Trainer
from pytorch_lightning.loggers import TensorBoardLogger
from pytorch_lightning.callbacks.early_stopping import EarlyStopping
from torchmetrics import Accuracy

class SpanishNewsClassifierWithLSTM(LightningModule):

    def __init__(self, vocab_size: int, num_classes: int, emb_dim: int, hidden_dim: int = 128):
        super(SpanishNewsClassifierWithLSTM, self).__init__()
        self.num_classes = num_classes
        self.lstm = LSTMBlock(vocab_size, emb_dim, hidden_dim, num_classes)
        self.classifier = nn.Sequential(
            nn.Flatten(),
            nn.Linear(hidden_dim, 512),
            nn.ReLU(),
            nn.Dropout(0.2),
            nn.Linear(512, 256),
            nn.ReLU(),
            nn.Dropout(0.2),
            nn.Linear(256, num_classes),
            nn.LogSoftmax(dim=1)
        )

        self.train_acc = Accuracy(task='multiclass', num_classes=num_classes)
        self.val_acc = Accuracy(task='multiclass', num_classes=num_classes)
        self.test_acc = Accuracy(task='multiclass', num_classes=num_classes)

    def forward(self, x):
        embeddings = self.lstm(x)
        return self.classifier(embeddings)


    def training_step(self, batch, batch_idx):
        x, y = batch['input_ids'], batch['y']
        # print(f"\nbatch-idx: {batch_idx}")
        # print(f"shape of x: {x.shape}")
        # print(torch.max(x, dim=0))
        y_hat = self(x)
        loss = F.cross_entropy(y_hat, y)
        self.train_acc(y_hat, y)
        self.log('train-loss', loss, prog_bar=True, on_step=False, on_epoch=True)
        self.log('train-acc', self.train_acc, prog_bar=True, on_step=False, on_epoch=True)
        return loss

    def validation_step(self, batch):
        x, y = batch['id'], batch['y']
        y_hat = self(x)
        loss = F.cross_entropy(y_hat, y)
        self.val_acc(y_hat, y)
        self.log('val-loss', loss, prog_bar=True, on_step=False, on_epoch=True)
        self.log('val-acc', self.val_acc, prog_bar=True, on_step=False, on_epoch=True)
        return loss

    def test_step(self, batch):
        x, y = batch['id'], batch['y']
        y_hat = self(x)
        self.test_acc(y_hat, y)
        self.log('test-acc', self.test_acc, prog_bar=True, on_step=False, on_epoch=True)


    def predict_step(self, batch):
        x = batch['id']
        return self(x)


    def configure_optimizers(self):
        optimizer =  torch.optim.AdamW(self.parameters(), lr=1e-3, weight_decay=1e-5)
        return optimizer


model = SpanishNewsClassifierWithLSTM(vocab_size=len(vocab) + 1, num_classes=spanish_news_dataset.num_classes, emb_dim=256)

tb_logger = TensorBoardLogger('tb_logs', name='LSTMClassifier')
callbacks=[EarlyStopping(monitor='train-loss', patience=3, mode='min')]
trainer = Trainer(max_epochs=10, devices=1, logger=tb_logger, callbacks=callbacks, precision="16-mixed")

trainer.fit(model, train_dataloaders=train_loader, val_dataloaders=val_loader)

INFO:pytorch_lightning.utilities.rank_zero:Using bfloat16 Automatic Mixed Precision (AMP)
INFO:pytorch_lightning.utilities.rank_zero:💡 Tip: For seamless cloud uploads and versioning, try installing [litmodels](https://pypi.org/project/litmodels/) to enable LitModelCheckpoint, which syncs automatically with the Lightning model registry.
INFO:pytorch_lightning.utilities.rank_zero:GPU available: False, used: False
INFO:pytorch_lightning.utilities.rank_zero:TPU available: False, using: 0 TPU cores
INFO:pytorch_lightning.utilities.rank_zero:HPU available: False, using: 0 HPUs
INFO:pytorch_lightning.callbacks.model_summary:
  | Name       | Type               | Params | Mode 
----------------------------------------------------------
0 | lstm       | LSTMBlock          | 410 K  | train
1 | classifier | Sequential         | 198 K  | train
2 | train_acc  | MulticlassAccuracy | 0      | train
3 | val_acc    | MulticlassAccuracy | 0      | train
4 | test_acc   | MulticlassAccuracy | 0      | tra

Sanity Checking: |          | 0/? [00:00<?, ?it/s]

RuntimeError: could not create a primitive descriptor for an LSTM forward propagation primitive

Observemos el proceso de entrenamiento

In [None]:
%load_ext tensorboard

In [None]:
%tensorboard --logdir tb_logs/

Y como es de esperarse, realizaremos la validación contra el conjunto de prueba.

In [None]:
model.eval()
trainer.test(model, test_loader)

LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Testing DataLoader 0: 100%|██████████| 255/255 [00:01<00:00, 237.12it/s]


[{'test-acc': 0.9029411673545837}]

### Haciendo predicciones

Finalmente, vamos a hacer uso del modelo y ver que tan bueno es para la clasificación de noticias.

In [None]:
predictions = trainer.predict(model, test_loader)
predictions = torch.cat(predictions, dim=0)
predictions = torch.argmax(predictions, dim=-1)
predictions = [spanish_news_dataset.id_2_class_map[pred] for pred in predictions.numpy()]

LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Predicting DataLoader 0: 100%|██████████| 255/255 [00:01<00:00, 219.44it/s]


In [None]:
import pandas as pd

test_indices = test_dataset.indices
df = pd.DataFrame(data={
    "texto": dataset[test_indices]['text'],
    "tokens": [tokenize_text(v) for v in dataset[test_indices]['text']],
    "categoría": dataset[test_indices]['category'],
    'predicción': predictions
}, index=test_indices)

df['tokens_string'] = df.tokens.apply(lambda t: ' '.join([id_2_token[i] for i in t]))
df = df[["texto", "tokens", "tokens_string", "categoría", "predicción"]]
df.style.set_table_styles(
    [
        {'selector': 'td', 'props': [('word-wrap', 'break-word')]}
    ]
)
df.head(15)

Unnamed: 0,texto,tokens,tokens_string,categoría,predicción
6734,El Gobierno tiene un plan alternativo para ase...,"[5, 3270, 1058, 102, 1737, 4007, 240, 834, 10,...",el gobierno tiene un plan alternativo para ase...,politics,politics
1905,Prevalencia de hipotiroidismo subclínico y su ...,"[34012, 12, 1, 1, 36, 46, 703, 58, 1, 36, 1652...",prevalencia de [UNK] [UNK] y su relación con [...,medicine,medicine
3049,"El Sol, la fuente inagotable de energía que da...","[5, 14608, 14, 2248, 10396, 12, 2641, 10, 246,...",el sol la fuente inagotable de energía que da ...,astronomy,astronomy
1772,Mondor en la mama. A propósito de un casoLa en...,"[1, 54, 14, 1, 40, 554, 12, 102, 1, 1652, 12, ...",[UNK] en la [UNK] a propósito de un [UNK] enfe...,medicine,medicine
6980,Navantia acaba de firmar con la Marina de Noru...,"[1, 11, 12, 23970, 58, 14, 27045, 12, 27768, 1...",[UNK] acaba de firmar con la marina de noruega...,military,military
1589,Tienen una función parecida a los relojes o la...,"[440, 19, 2427, 14721, 40, 34, 14066, 96, 77, ...",tienen una función parecida a los relojes o la...,tech,tech
240,"En última instancia, cuando se apagan las luce...","[54, 1177, 5104, 206, 17, 16158, 77, 3867, 12,...",en última instancia cuando se apagan las luces...,play,play
7356,La compañía francesa Escape International ha p...,"[14, 1151, 2772, 7008, 29665, 260, 1048, 54, 1...",la compañía francesa escape international ha p...,military,military
6763,El Gobierno busca que Bruselas apruebe un impu...,"[5, 3270, 232, 10, 14032, 36279, 102, 15003, 2...",el gobierno busca que bruselas apruebe un impu...,politics,politics
3341,"comentarios 44Cybertron, el planeta de los Tra...","[7493, 1, 5, 3124, 12, 34, 8114, 5, 29619, 12,...",comentarios [UNK] el planeta de los transforme...,astronomy,astronomy


In [None]:
errors = df[df['categoría'] != df['predicción']]
errors.head(15)

Unnamed: 0,texto,tokens,tokens_string,categoría,predicción
1120,Pues parece que la policía holandesa se precip...,"[2020, 491, 10, 14, 1497, 38011, 17, 38012, 10...",pues parece que la policía holandesa se precip...,tech,play
7473,El nuevo Consejo de Administración de Fincanti...,"[5, 8, 17379, 12, 444, 12, 1, 1, 29649, 45, 14...",el nuevo consejo de administración de [UNK] [U...,military,economy
2765,"Fuente de la imagen, OtherJune Williams creció...","[2248, 12, 14, 564, 1, 10953, 5680, 57, 40, 34...",fuente de la imagen [UNK] williams creció junt...,astronomy,religion
4142,El Elche espera a Óscar Plano. El delantero ma...,"[5, 36649, 4040, 40, 2947, 1846, 5, 1, 8710, 3...",el elche espera a óscar plano el [UNK] madrile...,sport,economy
689,Algunos de los monumentos más famosos del Rein...,"[501, 12, 34, 23928, 130, 1018, 7, 2125, 8269,...",algunos de los monumentos más famosos del rein...,play,tech
5835,Hay anuncios que irremediablemente se quedan a...,"[124, 11554, 10, 12505, 17, 1895, 12251, 54, 2...",hay anuncios que irremediablemente se quedan a...,alimentation,astronomy
7368,"Navantia junto a otras 5 grandes empresas, Rep...","[1, 57, 40, 2255, 901, 8594, 1, 1, 14784, 3176...",[UNK] junto a otras grandes empresas [UNK] [UN...,military,motor
9001,La versión más accesible del Lucid Air llega p...,"[14, 2049, 130, 14266, 7, 1, 7550, 333, 45, 31...",la versión más accesible del [UNK] air llega p...,motor,economy
7846,Pedro Sánchez ha regalado toda una ley de adoc...,"[399, 9554, 260, 19502, 89, 19, 2565, 12, 1, 5...",pedro sánchez ha regalado toda una ley de [UNK...,religion,politics
8103,Es algo que está sorprendiendo en la red. Mill...,"[4, 559, 10, 482, 24341, 54, 14, 1063, 1059, 1...",es algo que está sorprendiendo en la red millo...,religion,astronomy


## Conclusiones

- En este caso tenemos una tarea de clasificación de texto de múltiples clases.
- Estamos usando un bloque LSTM como featurizer, es decir lo usamos para extraer features de las secuencias de entrada con las cuales harémos predicciones luego.
- Nótese que de las capas LSTM, solo nos interesa la última, ya que esta recupera todas las operaciones enalazadas anteriores.
- Observamos que el modelo toma su tiempo en entrenar, esto es natural debido al diseño de las LSTM, donde por cada paso de tiempo se debe computar un gradiente, por lo que el computo es mucho mayor.