<br>
<br>

# **Modelos del lenguaje basados en redes neuronales artificiales**

## **Modelos seq2seq 2**

Cuando la entrada de cada paso del decodificador proviene de la salida del paso anterior, estamos hablando de un modelo Seq2Seq con realimentación (feedback). Esto es especialmente común en tareas como la generación de texto.

1. **Inicio de la Secuencia**: Se inicia la generación con un token especial, como `<SOS>` (Start of Sequence).

2. **Generación Paso a Paso**:
   - En el primer paso, el decodificador recibe el `<SOS>` y el estado del codificador como entrada.
   - El decodificador procesa esta entrada y genera una salida para este paso.
   - La salida generada se convierte en la entrada para el siguiente paso, junto con el estado actualizado del decodificador.
   - Este proceso se repite hasta que se genera un token especial de fin de secuencia (`<EOS>`, End of Sequence) o hasta alcanzar un límite máximo de longitud.

3. **Ventajas y Desventajas**:
   - **Ventajas**: Esta forma de generar secuencias puede ayudar a mantener la coherencia en las secuencias generadas, ya que cada nueva palabra o token tiene en cuenta lo que ya se ha generado.
   - **Desventajas**: Puede ser más lento, ya que cada paso depende del anterior, y errores en un paso pueden propagarse y afectar los pasos siguientes.


Imagina que tienes un modelo seq2seq entrenado para traducir inglés a español. Para la frase "How are you?", el proceso sería algo así:

1. El codificador procesa "How are you?" y genera un vector latente.
2. El decodificador recibe el vector latente y el token `<SOS>`.
3. El decodificador genera "¿Cómo", actualiza su estado y toma "¿Cómo" como entrada para el siguiente paso.
4. El decodificador genera "estás", actualiza su estado y toma "estás" como entrada para el siguiente paso.
5. Y así sucesivamente, hasta generar `<EOS>` para indicar el final de la secuencia.

Este modelo de generación permite que el decodificador tenga en cuenta no solo el contexto proporcionado por el codificador, sino también la estructura de la secuencia que está generando, paso a paso.


<p align="center">
<img src="imgs/seq2seq_feedback.svg" width="70%">
</p>


### **Teacher Forcing**

**Teacher forcing** es una técnica utilizada en el entrenamiento de modelos seq2seq en la que, en un porcentaje de las veces, se utiliza la salida real (etiqueta) de un paso de tiempo como entrada para el siguiente paso, en lugar de la salida predicha por el modelo. Esta técnica puede ayudar a acelerar la convergencia y mejorar el rendimiento del modelo, especialmente en las etapas iniciales del entrenamiento.

#### **¿Cómo funciona?**

1. **Durante el Entrenamiento**: En cada paso de tiempo y con una cierta probabilidad de que suceda, en lugar de pasar la predicción del modelo del paso anterior como entrada al siguiente paso, se pasa la palabra real de la secuencia objetivo. Esto proporciona al modelo información directa y clara sobre cómo debería haber respondido en el paso anterior, independientemente de si la predicción fue correcta o no.

2. **Durante la Evaluación/Predicción**: El modelo debe generar secuencias por sí mismo, utilizando sus propias predicciones del paso anterior para el siguiente paso. Durante esta fase, no se utiliza "teacher forcing".

#### **Ventajas de Teacher Forcing:**

1. **Aprendizaje más Rápido**: Al proporcionar al modelo la respuesta correcta en cada paso, se reduce la propagación de errores a través de la secuencia, lo que puede llevar a un aprendizaje más rápido.

2. **Mejor Rendimiento**: Puede resultar en un mejor rendimiento del modelo, especialmente en las primeras etapas del entrenamiento.

### **Implementación traductor inglés a español**

#### **Dataset Europarl**

El conjunto de datos Europarl contiene las transcripciones de los procedimientos del Parlamento Europeo, proporcionando una valiosa fuente de textos paralelos en 21 idiomas europeos. Las oraciones están alineadas entre los idiomas, lo que lo hace especialmente útil para tareas de traducción automática. 

Descargamos el dataset Europarl para español-inglés. Una vez descargado tendremos dos ficheros de texto, uno para cada idioma con las frases alineadas. El código siguiente muestra las primeras frases de cada fichero.

In [22]:
from torchtext.data.utils import get_tokenizer
from torch.utils.data import Dataset
from torch.nn.utils.rnn import pad_sequence
import torchtext
import torch
from collections import defaultdict


In [23]:
class Translation(Dataset):
    def __init__(self, source_file, target_file):
        self.ingles = []
        self.espanol = []
        self.tokenizer_es = get_tokenizer("spacy", language="es_core_news_md")
        self.tokenizer_en = get_tokenizer("spacy", language="en_core_web_md")
        self.vocab_es = torchtext.vocab.FastText(language='es', unk_init=torch.Tensor.normal_)  # <-- Mirar esto para ver si añadir el token <unk> al vocabulario
        self.vocab_en = torchtext.vocab.FastText(language='en', unk_init=torch.Tensor.normal_)

        self.vocab_en = self.add_sos_eos_unk_pad(self.vocab_en)
        self.vocab_es = self.add_sos_eos_unk_pad(self.vocab_es)

        self.archivo_ingles = source_file
        self.archivo_espanol = target_file

        # Leer el conjunto de datos
        for ingles, espanol in self.read_translation():
            self.ingles.append(ingles)
            self.espanol.append(espanol)


    def add_sos_eos_unk_pad(self, vocabulary):
        words = vocabulary.itos
        vocab = vocabulary.stoi
        embedding_matrix = vocabulary.vectors

        # Tokens especiales
        sos_token = '<sos>'
        eos_token = '<eos>'
        pad_token = '<pad>'
        unk_token = '<unk>'

        # Inicializamos los vectores para los tokens especiales, por ejemplo, con ceros
        sos_vector = torch.full((1, embedding_matrix.shape[1]), 1.)
        eos_vector = torch.full((1, embedding_matrix.shape[1]), 2.)
        pad_vector = torch.zeros((1, embedding_matrix.shape[1]))
        unk_vector = torch.full((1, embedding_matrix.shape[1]), 3.)

        # Añade los vectores al final de la matriz de embeddings
        embedding_matrix = torch.cat((embedding_matrix, sos_vector, eos_vector, unk_vector, pad_vector), 0)

        # Añade los tokens especiales al vocabulario
        vocab[sos_token] = len(vocab)
        vocab[eos_token] = len(vocab)
        vocab[pad_token] = len(vocab)
        vocab[unk_token] = len(vocab)

        words.append(sos_token)
        words.append(eos_token)
        words.append(pad_token)
        words.append(unk_token)

        vocabulary.itos = words
        vocabulary.stoi = vocab
        vocabulary.vectors = embedding_matrix

        default_stoi = defaultdict(lambda : len(vocabulary)-1, vocabulary.stoi)
        vocabulary.stoi = default_stoi
    
        return vocabulary
        

    def read_translation(self):
        with open(self.archivo_ingles, 'r', encoding='utf-8') as f_ingles, open(self.archivo_espanol, 'r', encoding='utf-8') as f_espanol:
            for oracion_ingles, oracion_espanol in zip(f_ingles, f_espanol):
                yield oracion_ingles.strip().lower(), oracion_espanol.strip().lower()

    def __len__(self):
        return len(self.ingles)

    def __getitem__(self, idx):
        item = self.ingles[idx], self.espanol[idx]
        tokens_ingles = self.tokenizer_en(item[0])
        tokens_espanol = self.tokenizer_es(item[1])

        tokens_ingles = tokens_ingles + ['<eos>']
        tokens_espanol = ['<sos>'] + tokens_espanol + ['<eos>']

        if not tokens_ingles or not tokens_espanol:
            return torch.zeros(1, 300), torch.zeros(1, 300)
            # raise RuntimeError("Una de las muestras está vacía.")
    
        tensor_ingles = self.vocab_en.get_vecs_by_tokens(tokens_ingles)
        tensor_espanol = self.vocab_es.get_vecs_by_tokens(tokens_espanol)

        indices_ingles = [self.vocab_en.stoi[token] for token in tokens_ingles] + [self.vocab_en.stoi['<pad>']]
        indices_espanol = [self.vocab_es.stoi[token] for token in tokens_espanol] + [self.vocab_es.stoi['<pad>']]

        return tensor_ingles, tensor_espanol, indices_ingles, indices_espanol
        
            
        
def collate_fn(batch):
    ingles_batch, espanol_batch, ingles_seqs, espanol_seqs = zip(*batch)
    ingles_batch = pad_sequence(ingles_batch, batch_first=True, padding_value=0)
    espanol_batch = pad_sequence(espanol_batch, batch_first=True, padding_value=0)

    # Calcular la longitud máxima de la lista de listas de índices
    pad = espanol_seqs[0][-1]  # token <pad>
    max_len = max([len(l) for l in espanol_seqs])
    for seq in espanol_seqs:
        seq += [pad]*(max_len-len(seq))
        
    return ingles_batch, espanol_batch, ingles_seqs, espanol_seqs

In [24]:

archivo_ingles = 'mock.en'
archivo_espanol = 'mock.es'

translation = Translation(archivo_ingles, archivo_espanol)

#### **Modelo**

In [25]:
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
import random
# Parámetros
input_dim = 300
output_dim = translation.vocab_es.vectors.shape[0]
hidden_dim = 512
num_layers = 1
learning_rate = 0.001
num_epochs = 30
batch_size = 8
num_workers = 0
shuffle = True

##### **Encoder**

In [26]:
class Encoder(nn.Module):
    def __init__(self, input_dim, hidden_dim, dropout=0.1):
        super().__init__() 
        
        self.rnn = nn.LSTM(input_dim, hidden_dim, batch_first=True)
        
    def forward(self, x):
        print("\nEncoder")
        output, (hidden, cell) = self.rnn(x)
        return output, (hidden, cell)
    
encoder = Encoder(input_dim, hidden_dim, num_layers)

In [27]:
class BahdanauAttention(nn.Module):
    def __init__(self, hidden_size):
        super(BahdanauAttention, self).__init__()
        self.Wa = nn.Linear(hidden_size, hidden_size)
        self.Ua = nn.Linear(300, hidden_size)
        self.Va = nn.Linear(hidden_size, 1)

    def forward(self, query, keys):
        print("\n\nBahdanau Attention")
        print("Query shape: ", query.shape)
        print("Keys shape: ", keys.shape)
        x0 = self.Wa(query)
        x1 = self.Ua(keys)
        a = torch.tanh(x0+ x1)
        scores = self.Va(a)
        scores = scores.squeeze(2).unsqueeze(1)

        weights = F.softmax(scores, dim=-1)
        context = torch.bmm(weights, keys)

        return context, weights

##### **Decoder**

In [28]:
class Decoder(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim):
        super(Decoder, self).__init__()
        self.rnn = nn.LSTM(2*input_dim, hidden_dim, batch_first=True)  # Unidirectional input
        self.fc_out = nn.Linear(hidden_dim, output_dim)
        self.attention = BahdanauAttention(hidden_dim)
        self.embedding = nn.Embedding.from_pretrained(translation.vocab_es.vectors, freeze=True)

    def forward(self, x, hidden, encoder_outputs):
        print("\n\nDecoder")

        embedded = x
        print("Embedded shape: ", embedded.shape)
        
        query = hidden[0].permute(1, 0, 2)  # Extract the hidden state from the tuple
        print("Query shape: ", query.shape)
        print("Encoder outputs shape: ", encoder_outputs.shape)
        context, attn_weights = self.attention(query, encoder_outputs)
        input_lstm = torch.cat((embedded, context), dim=2)
        print("\n\nDecoder")

        print("Input LSTM shape: ", input_lstm.shape)
        print("context shape: ", context.shape)
        
        output, (hidden, cell) = self.rnn(input_lstm, hidden)
        print("Output1 shape: ", output.shape)   
        output = self.fc_out(output)
        print("Output2 shape: ", output.shape)

        return output, (hidden, cell), attn_weights

In [48]:
class Seq2Seq(nn.Module):
    def __init__(self, encoder, decoder):
        super(Seq2Seq, self).__init__()
        self.encoder = encoder
        self.decoder = decoder
        self.es_embeddings = nn.Embedding.from_pretrained(translation.vocab_es.vectors, freeze=True)
        self.M = torch.cat((self.es_embeddings.weight, torch.zeros((0, self.es_embeddings.weight.shape[1]))), 0)


    def forward(self, source, target, teacher_forcing_ratio=0.5):
        print("\n\nSeq2Seq")
        print("Source shape: ", source.shape)
        print("Target shape: ", target.shape) 
        encoder_output, (encoder_hidden, cell) = self.encoder(source)
        batch_size = target.shape[0]
        decoder_hidden = encoder_hidden
        target_len = target.shape[1]
        outputs = []
        attn_weights = []


        x = target[:, 0, :]
        for t in range(0, target_len):
            output, (hidden, cell), attn_weight = self.decoder(x.unsqueeze(1), (decoder_hidden, cell), source)
            outputs.append(output)
            attn_weights.append(attn_weight)


            teacher_force = random.random() < teacher_forcing_ratio
            if teacher_force:
                x = target[:, t, :]
            else:

                x = torch.matmul(output.squeeze(1), self.M)
                
        print(len(outputs))
        decoder_outputs = torch.cat(outputs, dim=1)
        decoder_outputs = F.log_softmax(decoder_outputs, dim=-1)
        attentions = torch.cat(attn_weights, dim=1)
        return decoder_outputs, attentions

In [30]:
decoder = Decoder(input_dim, hidden_dim, output_dim)


In [49]:
model = Seq2Seq(encoder, decoder)


In [32]:
optimizer = optim.Adam(model.parameters(), lr=learning_rate)
criterion = nn.CrossEntropyLoss()

# DataLoader
from torch.utils.data import DataLoader

dataloader = DataLoader(translation, batch_size=batch_size, shuffle=shuffle, num_workers=num_workers, collate_fn=collate_fn)

In [52]:
# Bucle de entrenamiento
for epoch in range(num_epochs):
    model.train()
    total_loss = 0
    for batch_idx, (src, tgt, src_indices, tgt_indices) in enumerate(dataloader):
        optimizer.zero_grad()
        print(src.shape, tgt.shape)
        output,attention = model(src, tgt)

        tgt_indices = torch.tensor(tgt_indices, dtype=torch.long)
        loss = 0
        for t in range(1, tgt.shape[1]):
            print("\n\nLoss")  
            print("Output shape: ", output.shape)  
            print("Target shape: ", tgt_indices.shape)
            x1 = output[:, t, :]
            x2 = tgt_indices[:, t]
            loss += criterion(x1,x2)
        # loss = criterion(output, torch.tensor(tgt_indices, dtype=torch.long))

        loss.backward()
        optimizer.step()
        total_loss += loss.item()

        if batch_idx % 5 == 0:
            print(f'Epoch [{epoch+1}/{num_epochs}], Step [{batch_idx+1}/{len(dataloader)}], Loss: {loss.item():.4f}')

    print(f'Epoch [{epoch+1}/{num_epochs}], Average Loss: {total_loss / len(dataloader):.4f}')


torch.Size([7, 3, 300]) torch.Size([7, 4, 300])


Seq2Seq
Source shape:  torch.Size([7, 3, 300])
Target shape:  torch.Size([7, 4, 300])

Encoder


Decoder
Embedded shape:  torch.Size([7, 1, 300])
Query shape:  torch.Size([7, 1, 512])
Encoder outputs shape:  torch.Size([7, 3, 300])


Bahdanau Attention
Query shape:  torch.Size([7, 1, 512])
Keys shape:  torch.Size([7, 3, 300])


Decoder
Input LSTM shape:  torch.Size([7, 1, 600])
context shape:  torch.Size([7, 1, 300])
Output1 shape:  torch.Size([7, 1, 512])
Output2 shape:  torch.Size([7, 1, 985671])


Decoder
Embedded shape:  torch.Size([7, 1, 300])
Query shape:  torch.Size([7, 1, 512])
Encoder outputs shape:  torch.Size([7, 3, 300])


Bahdanau Attention
Query shape:  torch.Size([7, 1, 512])
Keys shape:  torch.Size([7, 3, 300])


Decoder
Input LSTM shape:  torch.Size([7, 1, 600])
context shape:  torch.Size([7, 1, 300])
Output1 shape:  torch.Size([7, 1, 512])
Output2 shape:  torch.Size([7, 1, 985671])


Decoder
Embedded shape:  torch.Size

KeyboardInterrupt: 