<br>
<br>

# **Modelos del lenguaje basados en redes neuronales artificiales**

## **Redes neuronales recurrentes (RNN)**

### **Ejemplo de aplicación de un modelo LSTM a la clasificación de textos**

#### **Dataset**

El conjunto de datos "AG_NEWS" es un conjunto de datos de clasificación de texto ampliamente utilizado en el campo del procesamiento de lenguaje natural (NLP). Contiene noticias de diferentes categorías y se utiliza comúnmente para tareas de clasificación de texto. El conjunto de datos AG_NEWS consta de noticias de cuatro categorías principales, que son:

1. **World**: Noticias sobre eventos y acontecimientos globales, como política internacional, relaciones internacionales y noticias mundiales en general.

2. **Sports**: Noticias relacionadas con eventos deportivos, resultados de partidos, eventos deportivos nacionales e internacionales, etc.

3. **Business**: Noticias relacionadas con el mundo de los negocios, finanzas, economía, empresas, informes de ganancias y otros temas económicos.

4. **Sci/Tech**: Noticias relacionadas con ciencia y tecnología, incluyendo avances científicos, novedades tecnológicas, gadgets, investigaciones científicas y más.

Cada instancia del conjunto de datos AG_NEWS generalmente consiste en un título y un cuerpo de una noticia, junto con una etiqueta que indica la categoría a la que pertenece. 

In [1]:
import torch

# Comprobar si hay una GPU disponible
if torch.cuda.is_available():
    # Seleccionar la GPU por índice (por ejemplo, índice 0 para la primera GPU)
    device = torch.device("cuda:0")
    print(f"Usando GPU: {torch.cuda.get_device_name(0)}")
else:
    # Si no hay GPU disponible, utiliza la CPU
    device = torch.device("cpu")
    print("No se encontraron GPUs disponibles, utilizando la CPU")

Usando GPU: NVIDIA GeForce RTX 4070


In [2]:
from torchtext import datasets
from torchtext.data import to_map_style_dataset
import numpy as np

# Load the dataset
train_iter, test_iter = datasets.AG_NEWS(split=('train', 'test'))

train_ds = to_map_style_dataset(train_iter)
test_ds = to_map_style_dataset(test_iter)

train = np.array(train_ds)
test = np.array(test_ds)

#### **Tokenización**

In [3]:
# Create vocabulary and embedding

from torchtext.vocab import build_vocab_from_iterator
from torchtext.data.utils import get_tokenizer

tokenizer = get_tokenizer("basic_english")

vocab = build_vocab_from_iterator(map(lambda x: tokenizer(x[1]), train_iter), specials=['<pad>','<unk>'])
vocab.set_default_index(vocab["<unk>"])

In [4]:
print("Tamaño del vocabulario:", len(vocab), "tokens")
print("Tokenización de la frase 'Here is an example sentence':", tokenizer("Here is an example sentence"))
print("Índices de las palabras 'here', 'is', 'an', 'example', 'supercalifragilisticexpialidocious':", vocab(['here', 'is', 'an', 'example', 'supercalifragilisticexpialidocious']))
print("Palabras correspondientes a los índices 475, 21, 30, 5297, 0:", vocab.lookup_tokens([475, 21, 30, 5297, 0]))
print("Las diez primeras palabras del vocabulario:", vocab.get_itos()[:10])

Tamaño del vocabulario: 95812 tokens
Tokenización de la frase 'Here is an example sentence': ['here', 'is', 'an', 'example', 'sentence']
Índices de las palabras 'here', 'is', 'an', 'example', 'supercalifragilisticexpialidocious': [476, 22, 31, 5298, 1]
Palabras correspondientes a los índices 475, 21, 30, 5297, 0: ['version', 'at', 'from', 'establish', '<pad>']
Las diez primeras palabras del vocabulario: ['<pad>', '<unk>', '.', 'the', ',', 'to', 'a', 'of', 'in', 'and']


In [5]:
text_pipeline = lambda x: vocab(tokenizer(x))
label_pipeline = lambda x: int(x) - 1

print("Tokenización de la frase 'Here is an example sentence':", text_pipeline("Here is an example sentence"))

Tokenización de la frase 'Here is an example sentence': [476, 22, 31, 5298, 2994]


#### **DataLoader**

En PyTorch, **DataLoader** se utiliza para cargar y manejar datos de manera eficiente durante el entrenamiento de modelos de aprendizaje profundo, especialmente en tareas de aprendizaje supervisado como la clasificación, la regresión y más. El DataLoader forma parte de la biblioteca torch.utils.data, y su objetivo principal es facilitar la administración de lotes (batches) de datos y la distribución de esos lotes al modelo de forma automática.

La función <code>collate_batch</code> es una función personalizada que se utiliza como argumento para collate_fn al crear instancias de los objetos DataLoader. Tiene la responsabilidad de procesar y agrupar las muestras individuales de datos dentro de un lote (batch) de manera que sean compatibles para su posterior procesamiento dentro de la LSTM. Es especialmente útil cuando las secuencias de texto tienen longitudes diferentes y es necesario realizar un relleno (padding) para que todas tengan la misma longitud.

In [11]:
from torch.utils.data import DataLoader


def collate_batch(batch):
    label_list, text_list = [], []
    for sample in batch:
        label, text = sample
        text_list.append(torch.tensor(text_pipeline(text), dtype=torch.long))
        label_list.append(label_pipeline(label))
    return torch.tensor(label_list, dtype=torch.long).to(device), torch.nn.utils.rnn.pad_sequence(text_list, batch_first=True, padding_value=vocab["<pad>"]).to(device)

train_dataloader = DataLoader(
    train_iter, batch_size=64, shuffle=True, collate_fn=collate_batch
)

test_dataloader = DataLoader(
    test_iter, batch_size=64, shuffle=True, collate_fn=collate_batch
)

Para verificar que estamos creando correctamente los lotes, vamos a imprimir las primeras cuatro instancias:

In [12]:
for batch in train_dataloader:
    print(batch[1][:4])
    print("\n")
    print(batch[0][:4])
    print("\n")
    break

tensor([[ 3037,     4,  3250,   234,   820,  1206,   781,    49,     7,     3,
           129,   791,    13,    10,   170, 11871,     7,     3,   270,    11,
           820,  1328,  2357,     7,  4337,  1265,    19, 16489,    11,    58,
             4,     6,  1739,   133,    12,    53,  5973,  3279,  3326,     2,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0],
        [ 3130,  4464,  2293, 36944,   879, 50602,  6504,   662,   878,    11,
            49,  1213,  2253,    20,     3,  3130,  2519,     3,  2293,     4,
       



#### **Modelo LSTM**

Definimos una clase llamada `LSTMTextClassificationModel` para la clasificación de texto basado en LSTM. Esta clase hereda de `nn.Module`, la clase base para todos los modelos en PyTorch.

**Inicialización del Modelo**: En el método `__init__`, se definen los componentes principales del modelo y se configuran sus parámetros:
   - **vocab_size**: El tamaño del vocabulario, es decir, la cantidad de palabras únicas en el conjunto de datos de entrenamiento.
   - **embed_dim**: La dimensión de los vectores de embedding para representar las palabras.
   - **hidden_dim**: El tamaño de la capa oculta de la LSTM, que controla la cantidad de unidades o "memoria" en la red LSTM.
   - **num_class**: El número de clases de salida en la tarea de clasificación.


**Capa de Embedding**: Se define una capa de embedding (`nn.Embedding`) que se utilizará para representar las palabras como vectores densos. Esta capa no es pre-entrenada, lo que significa que los vectores de embedding se entrenarán junto con el modelo durante el proceso de entrenamiento.

**Capa LSTM**: Se define una capa LSTM (`nn.LSTM`) que toma los vectores de embedding como entrada. `embed_dim` es la dimensión de entrada de la capa LSTM, y `hidden_dim` es la dimensión de su capa oculta. `batch_first=True` indica que los datos de entrada tendrán la forma `(batch_size, sequence_length, embed_dim)`.

**Capa Fully Connected (FC)**: Se define una capa completamente conectada (`nn.Linear`) que se utiliza para producir las salidas de clasificación. Toma las salidas de la capa LSTM correspondientes a la última iteración y las reduce a `num_class` dimensiones, que corresponde al número de clases en la tarea de clasificación.


In [13]:
import torch
import torch.nn as nn

class LSTMTextClassificationModel(nn.Module):
    def __init__(self, vocab_size, embed_dim, hidden_dim, num_class):
        super(LSTMTextClassificationModel, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim)  # <-- Capa de embedding genérica (no pre-entrenada)
        self.lstm = nn.LSTM(embed_dim, hidden_dim, batch_first=True)
        self.fc = nn.Linear(hidden_dim, num_class)

    def forward(self, text):
        embedded = self.embedding(text)  # <-- Tras pasar por la capa de embedding, las palabras se representan como vectores
        lstm_out, _ = self.lstm(embedded)
        # Tomar la última salida de la secuencia LSTM
        last_output = lstm_out[:, -1, :]
        output = self.fc(last_output)
        return output


Antes de seguir veamos cómo se conforma un *batch* de datos tras pasar la capa de *embedding*. Como se muestra en la figura siguiente, un *batch* es un vector de tres dimensiones, donde la primera dimensión es el tamaño del *batch*, la segunda dimensión es el número de palabras en cada secuencia y la tercera dimensión es el tamaño del vector de *embedding* (*channels* o *features*).

<img src="imgs/Lote1_b.svg" width="30%">

Por ejemplo, un *token* estaría ahora representado por un vector de *embedding* de tres componentes, en lugar de un escalar. Si lo quisiéramos referenciar sería: <code>mini_lote[0,3,:]</code>.

<img src="imgs/Lote2_b.svg" width="30%">


Fíjate que la tercera dimensión del tensor de salida de la LSTM no tiene por qué tener el mismo tamaño que la tercera dimensión del tensor de entrada. La parte del tensor correspondiente a la línea de código <code>last_output = lstm_out[:, -1, :]</code> sería parecida a la siguiente:

<img src="imgs/Lote3_b.svg" width="30%">

Ya podemos pasar un primer mini-lote de datos por la red. Para ello, vamos a crearlo a partir de los datos de entrenamiento. Esto solo lo hacemos para asegurarnos de que el código funciona correctamente.

In [14]:
model = LSTMTextClassificationModel(len(vocab), 32, 64, 4).to(device)
model.train()

for batch in train_dataloader:
    predicted_label = model(batch[1])
    label = batch[0]
    break

print(batch[1][:4])
print(predicted_label[:4])
print(label[:4])

tensor([[ 1291,  3117,  1136,   535,  1471,  1291,    29,   213,   786,  1221,
            64,    49,   535,  1471,     8,    23,   227,     5,  2936,  1136,
          1983,     2,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0],
        [  118,  5248,   399,    90,    12,  6095,     7, 10220,   841,    14,
            28,    15,    16,   118,     4,  4782,    69,   979,     7,   185,
         10220,     4,    29,  2453,     6,   180,   263,    90,    18, 35967,
          1174,     4,  1363,  1370,     4, 10977,     9, 12383,    20,   777,
             9

#### **Entrenamiento**

Vamos a construir las funciones <code>train</code> y <code>evaluate</code>. Dentro de la función <code>evaluate</code> vamos a prestar atención al contexto <code>with torch.no_grad():</code>, que sirve para indicar que no se van a calcular los gradientes. Esto es así porque en la fase de evaluación no se van a actualizar los pesos de la red, solo se van a utilizar para calcular la precisión de la red. Esto optimiza los recursos utilizados por PyTorch en cuanto a la gestión de la memoria.

Recuerda que en PyTorch, `model.train()` y `model.eval()` son métodos que se utilizan para cambiar el modo de entrenamiento de un modelo de aprendizaje profundo. Estos métodos afectan el comportamiento de ciertos módulos en el modelo, como las capas de dropout y normalización, que se comportan de manera diferente durante el entrenamiento y la evaluación. Específicamente hacen lo siguiente:

**model.train()**:
   - Cuando se llama a `model.train()`, el modelo se coloca en modo de entrenamiento.
   - En este modo, las capas de dropout se activan, lo que significa que se aplican durante el entrenamiento para ayudar a evitar el sobreajuste. Durante el entrenamiento, las capas de dropout "apagan" aleatoriamente un porcentaje de las unidades (neuronas) en la red en cada paso de entrenamiento.
   - También afecta a las capas de normalización, como Batch Normalization, para que utilicen estadísticas de mini-lotes (batches) durante el entrenamiento.

**model.eval()**:
   - Cuando se llama a `model.eval()`, el modelo se coloca en modo de evaluación o inferencia.
   - En este modo, las capas de dropout se desactivan, lo que significa que no se aplican durante la evaluación. Esto garantiza que el modelo produzca resultados deterministas y coherentes durante la inferencia.
   - Las capas de normalización, como Batch Normalization, utilizan estadísticas acumuladas durante el entrenamiento (en lugar de estadísticas de mini-lotes) para garantizar una evaluación coherente y precisa.


En la práctica, es común utilizar `model.train()` antes de cada época de entrenamiento y `model.eval()` antes de realizar inferencia o evaluación en un modelo entrenado. Cambiar entre estos modos es esencial para garantizar que el modelo se comporte correctamente en diferentes etapas del proceso de entrenamiento y evaluación.

In [15]:
import time

# Hyperparameters
EPOCHS = 10  # epoch
LR = 5  # learning rate

criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=LR)
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, 1.0, gamma=0.1)

def train(dataloader):
    model.train()
    total_acc, total_count, max_acc = 0, 0, 0
    log_interval = 500
    start_time = time.time()

    for idx, (label, text) in enumerate(dataloader):

        label, text = label.to(device), text.to(device)

        optimizer.zero_grad()
        predicted_label = model(text)
        loss = criterion(predicted_label, label)
        loss.backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), 0.1)
        optimizer.step()

        total_acc += (predicted_label.argmax(1) == label).sum().item()
        total_count += label.size(0)
        if idx % log_interval == 0 and idx > 0:
            elapsed = time.time() - start_time
            print('| {:5d} batches '
                  '| accuracy {:8.3f}'.format(idx, total_acc / total_count))

            if max_acc < total_acc / total_count:
                max_acc = total_acc / total_count

            total_acc, total_count = 0, 0
            start_time = time.time()
    return max_acc


def evaluate(dataloader):
    model.eval()
    total_acc, total_count = 0, 0

    with torch.no_grad():
        for idx, (label, text) in enumerate(dataloader):

            label, text = label.to(device), text.to(device)

            predicted_label = model(text)
            loss = criterion(predicted_label, label)
            total_acc += (predicted_label.argmax(1) == label).sum().item()
            total_count += label.size(0)
    return total_acc / total_count

In [16]:
for epoch in range(1, EPOCHS + 1):
    epoch_start_time = time.time()

    accu_train = train(train_dataloader)
    accu_val = evaluate(test_dataloader)

    #if accu_train > accu_val:
    #    scheduler.step()
    
    print("-" * 59)
    print(
        "| end of epoch {:3d} | time: {:5.2f}s | "
        "valid accuracy {:8.3f} ".format(
            epoch, time.time() - epoch_start_time, accu_val
        )
    )
    print("-" * 59)



|   500 batches | accuracy    0.255
|  1000 batches | accuracy    0.251
|  1500 batches | accuracy    0.257
-----------------------------------------------------------
| end of epoch   1 | time:  9.27s | valid accuracy    0.254 
-----------------------------------------------------------
|   500 batches | accuracy    0.403
|  1000 batches | accuracy    0.488
|  1500 batches | accuracy    0.604
-----------------------------------------------------------
| end of epoch   2 | time: 12.22s | valid accuracy    0.690 
-----------------------------------------------------------
|   500 batches | accuracy    0.732
|  1000 batches | accuracy    0.774
|  1500 batches | accuracy    0.798
-----------------------------------------------------------
| end of epoch   3 | time: 12.16s | valid accuracy    0.797 
-----------------------------------------------------------
|   500 batches | accuracy    0.812
|  1000 batches | accuracy    0.830
|  1500 batches | accuracy    0.844
-------------------------

In [21]:
# Hyperparameters
EPOCHS = 10  # epoch
LR = 5  # learning rate
BATCH_SIZE = 8  # batch size for training

criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=LR)
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, 1.0, gamma=0.1)


for epoch in range(1, EPOCHS + 1):
    epoch_start_time = time.time()

    accu_train = train(train_dataloader)
    accu_val = evaluate(test_dataloader)

    if accu_train > accu_val:
        scheduler.step()
    
    print("-" * 59)
    print(
        "| end of epoch {:3d} | time: {:5.2f}s | "
        "valid accuracy {:8.3f} ".format(
            epoch, time.time() - epoch_start_time, accu_val
        )
    )
    print("-" * 59)

|   500 batches | accuracy    0.918
|  1000 batches | accuracy    0.925
|  1500 batches | accuracy    0.935
-----------------------------------------------------------
| end of epoch   1 | time:  9.10s | valid accuracy    0.869 
-----------------------------------------------------------
|   500 batches | accuracy    0.921
|  1000 batches | accuracy    0.937
|  1500 batches | accuracy    0.954
-----------------------------------------------------------
| end of epoch   2 | time: 12.08s | valid accuracy    0.882 
-----------------------------------------------------------
|   500 batches | accuracy    0.932
|  1000 batches | accuracy    0.942
|  1500 batches | accuracy    0.957
-----------------------------------------------------------
| end of epoch   3 | time: 12.21s | valid accuracy    0.881 
-----------------------------------------------------------
|   500 batches | accuracy    0.932
|  1000 batches | accuracy    0.942
|  1500 batches | accuracy    0.958
-------------------------

---

## **Práctica 1**

Modifica el código anterior para adaptar el modelo LSTM al uso de *embeddings* preentrenados. Para ello, usa <code>from torchtext.vocab import GloVe</code> y elige el conjunto de *embeddings* GloVe que prefieras. Puedes encontrar más información en https://pytorch.org/text/stable/vocab.html#torchtext.vocab.GloVe

Verifica si se produce una mejora en la precisión del modelo. ¿Qué ocurre si usas un conjunto de *embeddings* preentrenados de diferentes tamaños?



---

In [23]:
from torchtext.vocab import GloVe
GLOVE_DIM = 300
#Importamos el embeding preentrenado
glove = GloVe(name = "6B", dim = GLOVE_DIM)

In [24]:
text_pipeline = lambda x: [glove.get_vecs_by_tokens(token).tolist() for token in tokenizer(x)]
label_pipeline = lambda x: int(x) - 1

In [31]:
def collate_batch(batch):
    
    label_list, text_list = [], []
    max_len = max([len(tokenizer(sample[1])) for sample in batch])
    
    for sample in batch:
        label, text = sample
        #text_list.append(torch.tensor(text_pipeline(text)))
        embed_list = glove.get_vecs_by_tokens(tokenizer(text))
        padding_list = glove[0].unsqueeze(0).repeat(max_len - len(embed_list), 1)
        embed_list = torch.cat((embed_list, padding_list), 0) 
        
        text_list.append(embed_list)
        label_list.append(label_pipeline(label))
    return torch.tensor(label_list, dtype=torch.long).to(device), torch.stack(text_list).to(device)

In [32]:
train_dataloader = DataLoader(
    train_iter, batch_size=64, shuffle=True, collate_fn=collate_batch
)

test_dataloader = DataLoader(
    test_iter, batch_size=64, shuffle=True, collate_fn=collate_batch
)

In [33]:
class LSTMTextClassificationModelGloVe(nn.Module):
    def __init__(self, embed_dim, hidden_dim, num_class):
        super(LSTMTextClassificationModelGloVe, self).__init__()
        self.lstm = nn.LSTM(embed_dim, hidden_dim, batch_first=True)
        self.fc = nn.Linear(hidden_dim, num_class)

    def forward(self, embedding):
        lstm_out, _ = self.lstm(embedding)
        last_output = lstm_out[:, -1, :]
        output = self.fc(last_output)
        return output

In [34]:
model = LSTMTextClassificationModelGloVe(GLOVE_DIM, 64, 4).to(device)

In [35]:
# Hyperparameters
EPOCHS = 10  # epoch
LR = 5  # learning rate
BATCH_SIZE = 8  # batch size for training

criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=LR)
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, 1.0, gamma=0.1)


for epoch in range(1, EPOCHS + 1):
    epoch_start_time = time.time()

    accu_train = train(train_dataloader)
    accu_val = evaluate(test_dataloader)

    if accu_train > accu_val:
        scheduler.step()
    
    print("-" * 59)
    print(
        "| end of epoch {:3d} | time: {:5.2f}s | "
        "valid accuracy {:8.3f} ".format(
            epoch, time.time() - epoch_start_time, accu_val
        )
    )
    print("-" * 59)



|   500 batches | accuracy    0.256
|  1000 batches | accuracy    0.256
|  1500 batches | accuracy    0.318
-----------------------------------------------------------
| end of epoch   1 | time: 36.30s | valid accuracy    0.419 
-----------------------------------------------------------
|   500 batches | accuracy    0.529
|  1000 batches | accuracy    0.851
|  1500 batches | accuracy    0.892
-----------------------------------------------------------
| end of epoch   2 | time: 36.91s | valid accuracy    0.884 
-----------------------------------------------------------
|   500 batches | accuracy    0.889
|  1000 batches | accuracy    0.898
|  1500 batches | accuracy    0.919
-----------------------------------------------------------
| end of epoch   3 | time: 39.21s | valid accuracy    0.901 
-----------------------------------------------------------
|   500 batches | accuracy    0.897
|  1000 batches | accuracy    0.900
|  1500 batches | accuracy    0.924
-------------------------