# Sequence-to-Sequence Model (Seq2Seq) para Traducción de Idiomas

En esta notebook, exploraremos la implementación de un modelo Sequence-to-Sequence (Seq2Seq) utilizando PyTorch. Este tipo de modelos es ampliamente utilizado en tareas de Procesamiento de Lenguaje Natural (NLP) que requieren el manejo de secuencias de texto de longitud variable, como la traducción automática, el resumen de textos y la generación de lenguaje natural.

## Introducción

### Objetivos

1. **Entender el funcionamiento de un modelo Seq2Seq** y cómo se aplica en la traducción automática de idiomas.
2. **Implementar el pipeline completo de un modelo Seq2Seq en PyTorch**, desde la preparación de los datos hasta el entrenamiento y evaluación del modelo.
3. **Explorar el uso del `teacher forcing`** para mejorar la eficiencia en el entrenamiento de redes neuronales recurrentes.

### Contenido

1. Introducción a los modelos Sequence-to-Sequence (Seq2Seq) y su relevancia en tareas de traducción automática.
2. Preparación de datos textuales para alimentar a un modelo Seq2Seq.
3. Implementación de un **encoder-decoder** utilizando LSTM para la traducción de secuencias.
4. Aplicación de **teacher forcing** durante el entrenamiento para mejorar el rendimiento.
5. Evaluación del modelo y generación de traducciones en el conjunto de prueba.

### Concepto de Seq2Seq

Un modelo Seq2Seq consiste en dos partes principales: un **encoder** y un **decoder**. El encoder procesa la secuencia de entrada y la comprime en un vector de estado oculto, que luego es utilizado por el decoder para generar la secuencia de salida.

- **Encoder**: Procesa la secuencia de entrada palabra por palabra y genera un conjunto de estados ocultos que resumen el contenido de la secuencia.
- **Decoder**: Utiliza el estado final del encoder para generar la secuencia de salida, también palabra por palabra.

Este enfoque es particularmente útil en tareas de traducción automática, donde queremos convertir una oración en un idioma a una oración equivalente en otro idioma.

<img src="https://production-media.paperswithcode.com/methods/Screen_Shot_2020-05-24_at_7.47.32_PM.png"/>

### Dataset de Traducción

Para esta notebook, utilizaremos un dataset de traducción inglés-español que contiene pares de frases. El objetivo es traducir frases de inglés a español, simulando un escenario de traducción automática. El dataset se compone de pares de frases cortas en ambos idiomas y servirá como base para entrenar el modelo Seq2Seq.

El mismo se encuentra disponible en el siguiente enlace: [Link al dataset](https://tatoeba.org/en/downloads)

### Referencias

- [Sequence to Sequence Learning with Neural Networks](https://arxiv.org/abs/1409.3215) - Sutskever et al. (2014)
- [Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation](https://arxiv.org/abs/1406.1078) - Cho et al. (2014)

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader, random_split
from torch.nn.utils.rnn import pad_sequence

from torchinfo import summary

import numpy as np
import os
import re
from pathlib import Path
from collections import Counter

In [None]:
# Fijamos la semilla para que los resultados sean reproducibles
SEED = 23

torch.manual_seed(SEED)
torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False

In [None]:
import sys

# definimos el dispositivo que vamos a usar
DEVICE = "cpu"  # por defecto, usamos la CPU
if torch.cuda.is_available():
    DEVICE = "cuda"  # si hay GPU, usamos la GPU
elif torch.backends.mps.is_available():
    DEVICE = "mps"  # si no hay GPU, pero hay MPS, usamos MPS
elif torch.xpu.is_available():
    DEVICE = "xpu"  # si no hay GPU, pero hay XPU, usamos XPU

print(f"Usando {DEVICE}")

NUM_WORKERS = 0  # Win y MacOS pueden tener problemas con múltiples workers
if sys.platform == "linux":
    NUM_WORKERS = 4  # numero de workers para cargar los datos (depende de cada caso)

print(f"Usando {NUM_WORKERS}")

## Cargar los Datos & Preprocesamiento

Vamos a leer el dataset de traducción y realizar un preprocesamiento básico para limpiar y normalizar los textos antes de alimentarlos al modelo Seq2Seq. Por ejemplo, vamos a convertir los textos a minúsculas, eliminar algunos caracteres especiales y filtrar las oraciones más largas.

In [None]:
def clean_text(text):
    # Convertimos a minúsculas
    text = text.lower()

    # Insertamos espacios alrededor de los símbolos de puntuación que queremos conservar
    text = re.sub(r"([¿?¡!])", r" \1 ", text)

    # Eliminamos todo lo que no sea letras, números, o los símbolos que queremos conservar
    text = re.sub(r"[^a-zA-Z0-9áéíóúüñ¿?¡!]+", " ", text)

    # Remover espacios extras
    text = re.sub(r"\s+", " ", text).strip()

    return text

In [None]:
DATA_PATH = str(Path("data") / "English-Spanish.tsv")

MAX_SENTENCE_LENGTH = 8  # Máxima longitud de las frases que vamos a considerar


def load_data(source_file, max_words=5):
    with open(source_file, "r") as f:
        lines = f.readlines()

    # Separamos las frases en dos listas
    input_texts = []
    target_texts = []

    for line in lines:
        elements = line.split("\t")

        input_text = elements[1]
        target_text = elements[3]

        input_text_clean = clean_text(input_text)
        target_text_clean = clean_text(target_text)

        # Filtramos frases de hasta max_words palabras
        if (
            len(input_text_clean.split()) <= max_words
            and len(target_text_clean.split()) <= max_words
        ):
            input_texts.append(input_text_clean)
            target_texts.append(target_text_clean)

    return input_texts, target_texts


src_texts, trg_texts = load_data(DATA_PATH, MAX_SENTENCE_LENGTH)

In [None]:
print(f"Number of samples: {len(src_texts)}")

In [None]:
random_idx = np.random.randint(0, len(src_texts), 10)
for idx in random_idx:
    print(f"Input: {src_texts[idx]}")
    print(f"Target: {trg_texts[idx]}\n")

## Construcción de los Vocabularios

Es importante construir un vocabulario para cada idioma en el dataset, ya que cada vocabulario tiene que ser capaz de mapear palabras a índices enteros y viceversa.

> Nota: para reducir el tiempo de entrenamiento, vamos a limitar el tamaño del vocabulario a las palabras más comunes en cada idioma, con el argumento `FREQ_THRESHOLD` controlamos la cantidad de palabras que se incluirán en el vocabulario.

Tenemos además que agregar token especiales:

- `SOS` (Start of Sentence): Indica el inicio de una oración.
- `EOS` (End of Sentence): Indica el final de una oración.
- `UNK` (Unknown): Indica una palabra desconocida que no está en el vocabulario.
- `PAD` (Padding): Se utiliza para rellenar secuencias a la misma longitud.

In [None]:
PAD_TOKEN = "<PAD>"
SOS_TOKEN = "<SOS>"
EOS_TOKEN = "<EOS>"
UNK_TOKEN = "<UNK>"
FREQ_THRESHOLD = 3  # Frecuencia mínima para considerar una palabra en el vocabulario

class Vocab:
    def __init__(self):
        # mapea palabras a índices
        self.word2index = {}
        # mapea índices a palabras
        self.index2word = {}
        # autonumeración de índices
        self.index = 0

        # Tokens especiales
        self.add_special_tokens()

    def add_special_tokens(self):
        self.add_word(PAD_TOKEN)
        self.add_word(SOS_TOKEN)
        self.add_word(EOS_TOKEN)
        self.add_word(UNK_TOKEN)

    def add_word(self, word):
        if word not in self.word2index:
            self.word2index[word] = self.index
            self.index2word[self.index] = word
            self.index += 1

    def build_vocab(self, sentences, min_freq=1):
        word_counter = Counter()
        for sentence in sentences:
            for word in sentence.split():
                word_counter[word] += 1

        # Filtrar palabras que no alcanzan la frecuencia mínima
        words = [word for word, count in word_counter.items() if count >= min_freq]

        # Agregar palabras filtradas al vocabulario
        for word in words:
            self.add_word(word)

    def __len__(self):
        return len(self.word2index)

    def __getitem__(self, key):
        if isinstance(key, int):
            return self.index2word.get(key, UNK_TOKEN)
        if isinstance(key, str):
            return self.word2index.get(key, self.word2index[UNK_TOKEN])


# Construimos los vocabularios
SRC_VOCAB = Vocab()
TRG_VOCAB = Vocab()

SRC_VOCAB.build_vocab(src_texts, min_freq=FREQ_THRESHOLD)
TRG_VOCAB.build_vocab(trg_texts, min_freq=FREQ_THRESHOLD)

SRC_VOCAB_SIZE = len(SRC_VOCAB)
TRG_VOCAB_SIZE = len(TRG_VOCAB)

print(f"English vocab size: {SRC_VOCAB_SIZE}")
print(f"Spanish vocab size: {TRG_VOCAB_SIZE}")

Algunos ejemplos de uso de los vocabularios:

- `SRC_VOCAB['hello']`: Devuelve el índice de la palabra "hello" en el vocabulario de origen.
- `TGT_VOCAB['hola']`: Devuelve el índice de la palabra "hola" en el vocabulario de destino.
- `TRG_VOCAB['palabra_no_existente']`: Devuelve el índice de la palabra desconocida (`<UNK>`) en el vocabulario de destino.
- `TRG_VOCAB[10]`: Devuelve la palabra en el índice 10 del vocabulario de destino.
- `TRG_VOCAB[3]`: Devuelve la palabra en el índice 3 del vocabulario de destino.
- `SRC_VOCAB[PAD_TOKEN]`: Devuelve el índice del token de padding en el vocabulario de origen.


In [None]:
print(SRC_VOCAB["hello"])
print(TRG_VOCAB["hola"])
print(TRG_VOCAB["palabra_no_existente"])
print(TRG_VOCAB[10])
print(TRG_VOCAB[3])
print(TRG_VOCAB[PAD_TOKEN])

In [None]:
# Función para codificar una frase (strings -> índices)
def encode_sentence(sentence, vocab):
    return [vocab[word] for word in sentence.split()]

print(encode_sentence("hello world", SRC_VOCAB))
print(encode_sentence("hola mundo extraterrestre", TRG_VOCAB))

In [None]:
# Función para decodificar una secuencia de índices (indices -> strings)
def decode_sentence(indices, vocab):
    if isinstance(indices, torch.Tensor): # en caso que nos pasen un tensor
        indices = indices.tolist()
    return " ".join([vocab[idx] for idx in indices if idx != vocab[PAD_TOKEN] and idx != vocab[EOS_TOKEN] and idx != vocab[SOS_TOKEN] and idx != vocab[UNK_TOKEN]])

print(
    decode_sentence([TRG_VOCAB[SOS_TOKEN],10, 11, 12, TRG_VOCAB[PAD_TOKEN], TRG_VOCAB[PAD_TOKEN], TRG_VOCAB[EOS_TOKEN]], TRG_VOCAB)
)

print(
    decode_sentence(torch.randint(0, len(TRG_VOCAB), (3,)), TRG_VOCAB)
)

## Dataset de Traducción

Trabajaremos con un pequeño dataset de traducción **inglés-español**, compuesto por pares de frases simples. El objetivo es que el modelo aprenda a traducir una frase en inglés a su equivalente en español.

#### Ejemplos de Pares:

- **Inglés**: "hello" → **Español**: "hola"
- **Inglés**: "how are you?" → **Español**: "¿cómo estás?"

### Preparación del Dataset

Cada frase será tokenizada y convertida a índices numéricos de sus respectivos vocabularios. En las secuencias objetivo, añadimos los tokens especiales `<SOS>` y `<EOS>` para marcar el inicio y el fin de cada traducción.

In [None]:
class TranslationDataset(Dataset):
    def __init__(self, source_sentences, target_sentences):
        super(TranslationDataset, self).__init__()
        self.source_sentences = source_sentences
        self.target_sentences = target_sentences

    def __len__(self):
        return len(self.source_sentences)

    def __getitem__(self, idx):
        pass

# Crear el dataset y el dataloader
train_dataset = TranslationDataset(src_texts, trg_texts)
val_len = int(0.10 * len(train_dataset))
train_len = len(train_dataset) - val_len
train_dataset, val_dataset = random_split(train_dataset, [train_len, val_len])

In [None]:
# probamos algunos ejemplos
random_idx = np.random.randint(
    0, len(train_dataset), 5
)  # tomamos 5 ejemplos del dataset train
for idx in random_idx:
    x, y = train_dataset[idx]
    x_sentence = decode_sentence(x, SRC_VOCAB)  # int -> palabras
    y_sentence = decode_sentence(y, TRG_VOCAB)  # int -> palabras
    print(f"SRC:           {x_sentence}")
    print(f"SRC (encoded): {x}")
    print(f"TRG:           {y_sentence}")
    print(f"TRG (encoded): {y}\n")

Debido a que las RNNs requieren secuencias de longitud fija, vamos a rellenar las secuencias con el token especial `<PAD>` para que todas tengan la misma longitud. Para eso podemos auxiliarnos de la función [pad_sequence](https://pytorch.org/docs/stable/generated/torch.nn.utils.rnn.pad_sequence.html) de PyTorch.

La función `collate_fn` es un argumento opcional que se pasa al DataLoader de PyTorch para personalizar el procesamiento de los datos. En este caso, se utiliza para rellenar y agrupar las secuencias de entrada y salida en lotes.

In [None]:
seq_1 = torch.tensor([1, 2, 3, 4])
seq_2 = torch.tensor([1, 2, 3])
seq_3 = torch.tensor([1, 2, 3, 4, 5, 6])
padded_seqs = pad_sequence([seq_1, seq_2, seq_3], batch_first=True, padding_value=0, padding_side='left')
print(padded_seqs)

In [None]:
def collate_fn(batch):
    sources, targets = zip(*batch)

    pass

In [None]:
BATCH_SIZE = 512

train_loader = DataLoader(
    train_dataset, batch_size=BATCH_SIZE, shuffle=True, collate_fn=collate_fn
)
valid_loader = DataLoader(
    val_dataset, batch_size=BATCH_SIZE, shuffle=False, collate_fn=collate_fn
)

In [None]:
x, y = next(iter(train_loader))
print(f"Source batch shape: {x.shape}")
print(f"Target batch shape: {y.shape}")

## Modelo Seq2Seq

El modelo Seq2Seq que vamos a implementar consiste en un **encoder** y un **decoder** basados en capas LSTM. El encoder procesa la secuencia de entrada y genera un vector de contexto que es utilizado por el decoder para generar la secuencia de salida.

<img src="https://docs.chainer.org/en/v7.8.0/_images/seq2seq.png">

In [None]:
# Definicion de hiperparámetros del modelo y entrenamiento
EMBEDDING_DIM = 128
HIDDEN_DIM = 512
N_LAYERS = 2
DROPOUT = 0.5

LR = 0.001
EPOCHS = 20

INITIAL_TEACHER_FORCING_RATIO = 1.0
TEACHER_FORCING_DECAY = 0.95
MIN_TEACHER_FORCING_RATIO = 0.3

### Encoder

El encoder procesa la secuencia de entrada palabra por palabra y genera una representación de la secuencia en forma de un vector de contexto.

- Primero, la secuencia de entrada es pasada a través de una capa de embedding para convertir las palabras en vectores densos.
- Luego, los embeddings de palabras son pasados a una capa LSTM que procesa la secuencia y genera una representación de la secuencia en forma de un vector de estado oculto.
- La salida del encoder es el estado oculto final y la celda oculta final de la capa LSTM.

In [None]:
class Encoder(nn.Module):
    def __init__(self, emb_dim, hidden_dim, n_layers, dropout):
        super(Encoder, self).__init__()
        pass

    def forward(self, src):
        # src: [batch_size, seq_len]
        pass

summary(
    Encoder(EMBEDDING_DIM, HIDDEN_DIM, N_LAYERS, DROPOUT),
    input_size=(BATCH_SIZE, MAX_SENTENCE_LENGTH),
    dtypes=[torch.long],
)

### Decoder

El decoder genera la secuencia de salida palabra por palabra utilizando el vector de contexto generado por el encoder. A diferencia del encoder, el decoder es entrenado para predecir la siguiente palabra en la secuencia de salida.

- Se recibe el input (token de entrada) y el estado oculto del encoder (hidden, cell).
- El token de entrada es pasado a través de una capa de embedding para convertirlo en un vector denso.
- Luego, el embedding de la palabra y el estado oculto anterior son usado para predecir la siguiente palabra en la secuencia de salida.
- Se retorna la predicción y el nuevo estado oculto.

In [None]:
class Decoder(nn.Module):
    def __init__(self, emb_dim, hidden_dim, n_layers, dropout):
        super(Decoder, self).__init__()
        pass

    def forward(self, input_token, hidden, cell):
        # input_token: [batch_size] -> un solo token por cada oración en el batch
        # hidden: [n_layers, batch_size, hidden_dim]
        # cell: [n_layers, batch_size, hidden_dim]
        pass


summary(
    Decoder(EMBEDDING_DIM, HIDDEN_DIM, N_LAYERS, DROPOUT),
    input_size=[
        (BATCH_SIZE,),
        (N_LAYERS, BATCH_SIZE, HIDDEN_DIM),
        (N_LAYERS, BATCH_SIZE, HIDDEN_DIM),
    ],
    dtypes=[torch.long, torch.float, torch.float],
)

## Entrenamiento del Modelo

Para entrenar el modelo, vamos a definir una función de pérdida y un optimizador. La función de pérdida será la entropía cruzada categórica, ya que estamos tratando con un problema de clasificación de múltiples clases. Además utilizaremos el parametro `ignore_index` del criterio de pérdida para no calcular la pérdida en los tokens de padding.

El optimizador necesita los parámetros del Encoder y del Decoder, así como la tasa de aprendizaje.


In [None]:
encoder = Encoder(EMBEDDING_DIM, HIDDEN_DIM, N_LAYERS, DROPOUT).to(DEVICE)
decoder = Decoder(EMBEDDING_DIM, HIDDEN_DIM, N_LAYERS, DROPOUT).to(DEVICE)

criterion = nn.CrossEntropyLoss(
    ignore_index=TRG_VOCAB[PAD_TOKEN], label_smoothing=0.05
)  # ignoramos el padding en el cálculo de la loss
optimizer = optim.Adam(
    list(encoder.parameters()) + list(decoder.parameters()), lr=LR
)  # tomamos los parámetros de ambos modelos

### Entrenamiento de una Época en Seq2Seq con *Teacher Forcing*

**Cálculo de la pérdida para cada token**

A diferencia de entrenamientos comunes donde se calcula la pérdida para toda la secuencia de una vez, aquí la pérdida se calcula **token por token** dentro de un bucle. Esto permite que el decoder procese un token a la vez, prediciendo el siguiente en función del estado oculto anterior.

**Uso de *Teacher Forcing***

Se introduce un parámetro **`teacher_forcing_ratio`**, que controla la probabilidad de usar el token real de la secuencia objetivo como siguiente entrada. Esto difiere de los enfoques comunes donde siempre se usa la predicción del modelo para generar la siguiente entrada.

**Actualización de gradientes**
La **retropropagación** ocurre después de que se procesan todos los tokens en la secuencia, acumulando las pérdidas de cada token antes de hacer `backward()` y actualizar los parámetros con `optimizer.step()`.

**Proceso resumido**

1. Inicialización de `encoder` y `decoder` en modo entrenamiento.
2. Para cada batch, se:
   - Calcula la pérdida token por token.
   - Decide si usar el token objetivo real o la predicción anterior.
3. Finalmente, se acumula la pérdida total por secuencia.


In [None]:
def process_batch(src, trg, encoder, decoder, criterion, teacher_forcing_ratio):
    pass

In [None]:
def train_epoch(
    encoder, decoder, dataloader, optimizer, criterion, teacher_forcing_ratio
):
    encoder.train()
    decoder.train()
    epoch_loss = 0

    pass

In [None]:
def evaluate(encoder, decoder, valid_loader, criterion):
    encoder.eval()
    decoder.eval()
    epoch_loss = 0

    pass

In [None]:
def train(
    encoder,
    decoder,
    train_loader,
    valid_loader,
    optimizer,
    criterion,
    n_epochs,
    initial_teacher_forcing_ratio=INITIAL_TEACHER_FORCING_RATIO,
    teacher_forcing_decay=TEACHER_FORCING_DECAY,
    min_teacher_forcing_ratio=MIN_TEACHER_FORCING_RATIO,
):
    current_teacher_forcing_ratio = initial_teacher_forcing_ratio
    for epoch in range(n_epochs):
        train_loss = train_epoch(
            encoder,
            decoder,
            train_loader,
            optimizer,
            criterion,
            current_teacher_forcing_ratio,
        )
        val_loss = evaluate(encoder, decoder, valid_loader, criterion)
        print(
            f"Epoch {epoch + 1} FT: {current_teacher_forcing_ratio:.2f} Train Loss: {train_loss:.4f} Val Loss: {val_loss:.4f}"
        )
        current_teacher_forcing_ratio = max(
            min_teacher_forcing_ratio,
            current_teacher_forcing_ratio * teacher_forcing_decay,
        )

In [None]:
train(
    encoder, decoder, train_loader, valid_loader, optimizer, criterion, n_epochs=EPOCHS
)

## Evaluación del Modelo

Vamos a traducir algunas frases de prueba utilizando el modelo entrenado y evaluar la calidad de las traducciones generadas. Para esto, vamos a implementar una función `translate_sentence` que toma una oración en inglés y la traduce al español.

Esta vez es el modelo quien decide cuando parar con en el token `<EOS>`, aunque también se puede limitar la longitud máxima de la traducción.

In [None]:
def generate_sequence(src, encoder, decoder, max_len):
    encoder.eval()
    decoder.eval()
    generated_tokens = []
    with torch.no_grad():
        pass

    return generated_tokens

In [None]:
def translate_sentence(encoder, decoder, sentence, max_len):
    sentence = clean_text(sentence)
    sentence_indexes = encode_sentence(sentence, SRC_VOCAB)
    sentence_tensor = torch.tensor(sentence_indexes).unsqueeze(0).to(DEVICE)
    generated_tokens = generate_sequence(sentence_tensor, encoder, decoder, max_len)
    predicted_sentence = decode_sentence(generated_tokens, TRG_VOCAB)
    return predicted_sentence

In [None]:
sentences = [
    "I am hungry",
    "I am tired",
    "I am happy",
    "I'm sad",
    "I am angry",
    "every time I study, I get sleepy",
    "I am going to the gym",
    "I am going to the beach",
    "I am going to the supermarket",
    "I'm going to the movies",
    "I don't know what to do",
    "I love deep learning",
    "I can't open the door",
    "you can go if you want to",
    "i'm going to the party",
    "where does all this come from ?",
    "I can read your mind",
    "I can't believe it",
    "I can't believe you",
    "I can't believe this",
    "I didn't like it",
    "You can do it",
    "Do you speak Italian?",
    "Do you want to learn Spanish?",
    "I want to learn French",
    "Do you want to go to the movies?",
    "this is my favorite song",
    "I can't wait to see you",
    "see you later",
    "have a nice day",
    "we'll talk later",
    "let's grab a coffee sometime",
    "they're coming to the party",
    "she's my best friend",
    "he's a great guy",
    "My class is in 30 minutes.",
    "I have class tomorrow."
]

for sentence in sentences:
    print(f"Input: {sentence}")
    print(f"Translation: {translate_sentence(encoder, decoder, sentence, 12)}\n")

In [None]:
translate_sentence(encoder, decoder, "we need attention", MAX_SENTENCE_LENGTH)

In [None]:
translate_sentence(encoder, decoder, "let's go for it!", MAX_SENTENCE_LENGTH)