<a href="https://colab.research.google.com/github/ferdinandrafols/IA_LLMs/blob/main/gsi073_aula0_seq2seq.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Prepara√ß√£o dos dados

Esta tarefa √© inverter sequ√™ncias de caracteres. Exemplo: **aabcd** em **dcbaa**.


In [None]:
import torch
import torch.nn as nn
import random

# ===== 1. Dicion√°rio e fun√ß√µes b√°sicas =====
PAD_TOKEN = ' ' # Token para preenchimento
SOS_TOKEN = '<S>' # Token para "Start Of Sequence"

chars = list("abcde") + [PAD_TOKEN, SOS_TOKEN] # Define o conjunto de caracteres permitidos e tokens especiais
vocab = {ch: i for i, ch in enumerate(chars)}  # Mapeia cada caractere para um √≠ndice num√©rico
inv_vocab = {i: ch for ch, i in vocab.items()} # Cria um dicion√°rio inverso para decodificar √≠ndices para caracteres
vocab_size = len(vocab)  # Quantidade total de tokens poss√≠veis

def encode(s):  # Converte uma string em uma sequ√™ncia de √≠ndices num√©ricos
    return torch.tensor([vocab[c] for c in s], dtype=torch.long)

def decode(t):  # Converte uma sequ√™ncia de √≠ndices num√©ricos de volta para string
    return ''.join(inv_vocab[int(x)] for x in t if inv_vocab[int(x)] not in [PAD_TOKEN, SOS_TOKEN]) # Ignora PAD/SOS na decodifica√ß√£o final

def random_seq(n=5):  # Gera uma sequ√™ncia aleat√≥ria de tamanho n usando apenas 'abcde'
    return ''.join(random.choice(chars[:5]) for _ in range(n))  # Usa apenas a-e

# ===== 2. Gerar dados =====
max_len = 5 # Definir max_len fixo para este problema

def pad_input(x):  # Preenche a sequ√™ncia de entrada com PAD_TOKEN
    return torch.cat([x, torch.tensor([vocab[PAD_TOKEN]] * (max_len - len(x)))], dim=0)

def pad_target(y): # Preenche a sequ√™ncia alvo com SOS_TOKEN no in√≠cio e PAD_TOKEN no final, se necess√°rio
    # A sequ√™ncia alvo ter√° SOS_TOKEN + sequ√™ncia invertida + padding (se max_len_target > len(seq)+1)
    target_with_sos = torch.cat([torch.tensor([vocab[SOS_TOKEN]], dtype=torch.long), y], dim=0)
    # A sequ√™ncia de sa√≠da do decoder √© (len da seq original + 1 para SOS_TOKEN). O max_len do decoder deve ser max_len+1
    return torch.cat([target_with_sos, torch.tensor([vocab[PAD_TOKEN]] * (max_len + 1 - len(target_with_sos)))], dim=0)

# Gerar pares de sequ√™ncias, agora com SOS no alvo
pairs = []
for _ in range(50000):
    s = random_seq(n=max_len)
    encoded_s = encode(s)
    encoded_reversed_s = encode(s[::-1])
    pairs.append((pad_input(encoded_s), pad_target(encoded_reversed_s)))


inputs = torch.stack([x for x, _ in pairs])  # Aplica padding em todas as entradas
targets = torch.stack([y for _, y in pairs])  # Aplica padding em todos os alvos

train_ds = torch.utils.data.TensorDataset(inputs, targets)  # Cria dataset PyTorch com entradas e alvos
train_dl = torch.utils.data.DataLoader(train_ds, batch_size=128, shuffle=True)  # Cria DataLoader com batch de 128

device = 'cuda' if torch.cuda.is_available() else 'cpu'  # Seleciona GPU se dispon√≠vel

# ===== 3. Prints para inspecionar =====
print(f"Vocabul√°rio: {vocab}")  # Mostra o dicion√°rio de tokens
print(f"Tamanho do vocabul√°rio: {vocab_size}")  # Mostra quantos tokens existem
print(f"Tamanho m√°ximo das sequ√™ncias de entrada (max_len): {max_len}")  # Mostra o comprimento m√°ximo
print(f"Tamanho m√°ximo das sequ√™ncias de sa√≠da (max_len + 1 para SOS): {max_len + 1}")

# Mostrar 3 exemplos codificados/decodificados
for i in range(3):
    s = random_seq()  # Gera nova sequ√™ncia aleat√≥ria
    encoded = encode(s)  # Codifica para √≠ndices
    decoded = decode(encoded)  # Decodifica de volta
    reversed_s = s[::-1]
    encoded_target = encode(reversed_s)
    decoded_target = decode(pad_target(encoded_target))
    print(f"\nExemplo {i+1}:")
    print(f"  Original: {s}")
    print(f"  Codificado: {encoded.tolist()}")
    print(f"  Decodificado (entrada): {decoded}")
    print(f"  Reverso (target esperado, decodificado): {decoded_target}")

# Mostrar formas (shapes) dos tensores de entrada e sa√≠da
print("\nShapes:")
print(f"  inputs:  {inputs.shape}")  # Dimens√£o das entradas
print(f"  targets: {targets.shape}")  # Dimens√£o dos alvos

# Mostrar o primeiro batch do DataLoader
for xb, yb in train_dl:
    print("\nPrimeiro batch de treino:")
    print("  Entradas (xb):", xb.shape)  # Mostra tamanho do batch
    print("  Alvos (yb):", yb.shape)  # Mostra tamanho dos alvos
    print("  Exemplo de entrada decodificada:", decode(xb[0]))  # Converte o primeiro exemplo do batch em string
    print("  Exemplo de alvo decodificado:", decode(yb[0]))  # Converte o alvo correspondente
    break  # Mostra apenas o primeiro batch


Vocabul√°rio: {'a': 0, 'b': 1, 'c': 2, 'd': 3, 'e': 4, ' ': 5}
Tamanho do vocabul√°rio: 6
Tamanho m√°ximo das sequ√™ncias (max_len): 5

Exemplo 1:
  Original: deeec
  Codificado: [3, 4, 4, 4, 2]
  Decodificado: deeec
  Reverso (target esperado): ceeed

Exemplo 2:
  Original: cebcc
  Codificado: [2, 4, 1, 2, 2]
  Decodificado: cebcc
  Reverso (target esperado): ccbec

Exemplo 3:
  Original: ceaea
  Codificado: [2, 4, 0, 4, 0]
  Decodificado: ceaea
  Reverso (target esperado): aeaec

Shapes:
  inputs:  torch.Size([50000, 5])
  targets: torch.Size([50000, 5])

Primeiro batch de treino:
  Entradas (xb): torch.Size([128, 5])
  Alvos (yb): torch.Size([128, 5])
  Exemplo de entrada decodificada: eebde
  Exemplo de alvo decodificado: edbee

Excelente ‚Äî esse output mostra que voc√™ **compreendeu e reproduziu um pipeline completo de prepara√ß√£o de dados para Machine Learning**, em um problema de **sequ√™ncia para sequ√™ncia (seq2seq)** simples.
Vamos analisar cada parte do resultado com foco em como isso se relaciona com o aprendizado de m√°quina üëá

---

## üß© 1Ô∏è‚É£ Vocabul√°rio e codifica√ß√£o

```
Vocabul√°rio: {'a': 0, 'b': 1, 'c': 2, 'd': 3, 'e': 4, ' ': 5}
Tamanho do vocabul√°rio: 6
```

üëâ Isso mostra que voc√™ criou um **espa√ßo discreto de s√≠mbolos** ‚Äî uma esp√©cie de *mini universo lingu√≠stico*.
Cada caractere foi convertido em um **√≠ndice num√©rico √∫nico**, e esse processo √© equivalente ao que acontece em NLP (Natural Language Processing), quando as palavras s√£o transformadas em IDs antes de virar embeddings.

**Interpreta√ß√£o ML:**

* Este √© o **pr√©-processamento** de um modelo de linguagem.
* No lugar de palavras, aqui temos letras.
* Esse mapeamento (`char ‚Üí int`) √© a base para permitir que redes neurais operem sobre **n√∫meros** em vez de texto.

---

## üß† 2Ô∏è‚É£ Dados de entrada e sa√≠da ‚Äî um problema *seq2seq*

```
Exemplo 1:
  Original: acdba
  Codificado: [0, 2, 3, 1, 0]
  Decodificado: acdba
  Reverso (target esperado): abdca
```

Aqui voc√™ definiu um **problema supervisionado** cl√°ssico:

* Entrada: uma sequ√™ncia de letras (`acdba`)
* Sa√≠da esperada (target): a **sequ√™ncia invertida** (`abdca`)

‚úÖ Isso √© um *toy problem* (problema de brinquedo) que ajuda a testar se uma rede neural consegue **aprender padr√µes de sequ√™ncia**.
Em vez de traduzir entre idiomas (como o Encoder‚ÄìDecoder faz em tradu√ß√£o), aqui ela precisa **aprender a inverter a sequ√™ncia** ‚Äî uma tarefa simples, mas perfeita para estudar aprendizado seq√ºencial.

---

## üî¢ 3Ô∏è‚É£ Estruturas dos tensores

```
inputs:  torch.Size([50000, 5])
targets: torch.Size([50000, 5])
```

Isso quer dizer:

* Temos **50.000 exemplos de treino**.
* Cada exemplo √© uma **sequ√™ncia de 5 tokens**.

üìä Cada linha √© um exemplo (amostra) e cada coluna √© uma posi√ß√£o da sequ√™ncia (caractere).
Portanto, o modelo ver√° isso como uma **matriz de tamanho 50.000 √ó 5** ‚Äî um *dataset tabular temporal*.

**Do ponto de vista de ML:**

* Cada linha = uma observa√ß√£o.
* Cada coluna = uma dimens√£o temporal (ou ‚Äúposi√ß√£o‚Äù no texto).
* Isso est√° no formato ideal para entrar em uma rede neural do tipo **RNN**, **LSTM** ou **Transformer Encoder‚ÄìDecoder**.

---

## üßÆ 4Ô∏è‚É£ Batch de treinamento

```
Entradas (xb): torch.Size([128, 5])
Alvos (yb): torch.Size([128, 5])
```

O **DataLoader** est√° dividindo o dataset em *batches* de 128 exemplos.
Isso √© essencial para **treinamento eficiente** e **c√°lculo vetorizado em GPU**.

**Por que isso √© importante:**

* As redes neurais aprendem com *gradientes m√©dios por lote*, n√£o amostra a amostra.
* Isso acelera o treino e suaviza o processo de otimiza√ß√£o (SGD, Adam, etc.).

---

## üß© 5Ô∏è‚É£ Confer√™ncia de um batch real

```
Exemplo de entrada decodificada: caebd
Exemplo de alvo decodificado: dbeac
```

Aqui voc√™ confirmou que:

* A **entrada** √© uma sequ√™ncia aleat√≥ria.
* O **alvo** √© essa sequ√™ncia invertida.
  Isso mostra que o dataset est√° **coerente e limpo**, pronto para o modelo aprender o mapeamento.

---

## üß† 6Ô∏è‚É£ Interpreta√ß√£o conceitual (vis√£o de ML)

| Etapa                | Conceito ML                        | Analogia                                   |
| -------------------- | ---------------------------------- | ------------------------------------------ |
| Codifica√ß√£o          | Transformar s√≠mbolos em n√∫meros    | Dicion√°rio de tokens                       |
| Padding              | Normalizar tamanho das sequ√™ncias  | Preencher com ‚Äúespa√ßo‚Äù                     |
| Dataset + Dataloader | Estrutura de treino supervisionado | Como ‚Äúperguntas e respostas‚Äù para o modelo |
| Input/Target         | Aprendizado seq2seq                | Entrada ‚Üí Sa√≠da esperada                   |
| Batch                | Otimiza√ß√£o por gradiente           | Treino em mini-grupos                      |

---

## üéØ Conclus√£o

‚úÖ **O dataset est√° bem constru√≠do.**
Voc√™ implementou, sem usar bibliotecas externas, o pipeline completo que qualquer sistema de NLP moderno (inclusive LLMs) usa em escala ‚Äî apenas de forma reduzida e did√°tica.

üöÄ **Pr√≥ximo passo natural:**

* Criar um modelo simples (por exemplo, `nn.Embedding + nn.LSTM + nn.Linear`)
* Trein√°-lo para aprender a tarefa de revers√£o (seq2seq)
* Observar se o *loss* diminui e se o modelo aprende a gerar a sequ√™ncia invertida.

Se quiser, posso gerar esse modelo de rede neural (Encoder‚ÄìDecoder m√≠nimo em PyTorch) para continuar o experimento. Quer seguir para isso?


## Veja um par

In [None]:
print(pairs[1])

(tensor([3, 0, 3, 3, 2]), tensor([2, 3, 3, 0, 3]))


# Defini√ß√£o do modelo Seq2Seq com GRU

In [None]:
class Encoder(nn.Module):
    def __init__(self, vocab_size, emb_size, hidden_size):
        super().__init__()
        self.embed = nn.Embedding(vocab_size, emb_size)
        self.gru = nn.GRU(emb_size, hidden_size, batch_first=True)

    def forward(self, x):
        x = self.embed(x)
        _, h = self.gru(x) # h will be [1, B, H]
        return h

class Decoder(nn.Module):
    def __init__(self, vocab_size, emb_size, hidden_size):
        super().__init__()
        self.embed = nn.Embedding(vocab_size, emb_size)
        self.gru = nn.GRU(emb_size, hidden_size, batch_first=True)
        self.fc = nn.Linear(hidden_size, vocab_size)

    def forward(self, x, h): # x is single token or sequence of tokens for teacher forcing
        # x is [B, 1] for single token prediction, [B, SeqLen] for teacher forcing
        x = self.embed(x)
        # out is [B, SeqLen, H] if batch_first=True
        # h is [1, B, H] after gru
        out, h = self.gru(x, h)
        logits = self.fc(out) # logits is [B, SeqLen, VocabSize]
        return logits, h # retorna o estado latente para atualizar o estado

class Seq2Seq(nn.Module):
    def __init__(self, encoder, decoder):
        super().__init__()
        self.encoder = encoder
        self.decoder = decoder

    def forward(self, src, tgt): # src: input sequence, tgt: target sequence (with SOS at beginning)
        h = self.encoder(src) # h from encoder is [1, B, H]
        # During training, we use teacher forcing. The decoder input is the target sequence shifted right (SOS to second to last token).
        # The decoder predicts the original target sequence (first to last token).
        logits, _ = self.decoder(tgt[:, :-1], h) # Decoder input: [B, max_len] (SOS + actual sequence up to second last)
        # logits will be [B, max_len, vocab_size], predicting for target tokens at positions 1 to max_len
        return logits


# C√≥digo para usar o modelo treinado: infer√™ncia

---



In [None]:
def decode_step(decoder, token, h):
    # token is [B, 1] containing the last predicted token or SOS
    logits, h = decoder(token, h) # logits: [B, 1, VocabSize], h: [1, B, H]
    next_token = logits.argmax(-1) # next_token: [B, 1]
    return next_token, h

def predict(model, seq, max_len_output):
    model.eval()
    with torch.no_grad():
        # Encoder input (src) needs to be padded to max_len (5)
        src_encoded = encode(seq) # encode the input string
        # Pad the encoded source to max_len
        src = pad_input(src_encoded).unsqueeze(0).to(device, dtype=torch.long) # src: [1, max_len]

        h = model.encoder(src) # h: [1, 1, hidden_size]

        # Start decoding with the SOS_TOKEN
        token = torch.tensor([[vocab[SOS_TOKEN]]], dtype=torch.long, device=device) # token: [1, 1]

        seq_invertida_tokens = []
        # max_len_output is the length of the original string (e.g., 5)
        # The loop runs for max_len_output steps to generate max_len_output characters
        for _ in range(max_len_output):
            token, h = decode_step(model.decoder, token, h) # token and h are updated
            seq_invertida_tokens.append(token.item())

            # Stop decoding if PAD_TOKEN is predicted (or any other stop condition)
            if token.item() == vocab[PAD_TOKEN]:
                break

        # Decode the generated tokens, ignoring SOS/PAD during final string assembly
        return ''.join(inv_vocab[t] for t in seq_invertida_tokens if inv_vocab[t] not in [PAD_TOKEN, SOS_TOKEN])


# Prepara√ß√£o para treino

In [None]:
emb_size = 32
hidden_size = 64
# The vocab_size includes all chars + PAD_TOKEN + SOS_TOKEN
encoder = Encoder(vocab_size, emb_size, hidden_size)
decoder = Decoder(vocab_size, emb_size, hidden_size)
model = Seq2Seq(encoder, decoder).to(device)

# Ignore PAD_TOKEN in loss calculation
# The target for loss is yb[:, 1:] because yb[:, :-1] is the input to the decoder
# So yb[:, 1:] represents the tokens that the decoder should predict.
loss_fn = nn.CrossEntropyLoss(ignore_index=vocab[PAD_TOKEN])
opt = torch.optim.Adam(model.parameters(), lr=1e-3)

# Execu√ß√£o do treino

In [None]:
epochs = 20 # Can increase if needed

for epoch in range(epochs):
    model.train()
    total_loss = 0
    for xb, yb in train_dl:
        xb, yb = xb.to(device, dtype=torch.long), yb.to(device, dtype=torch.long)
        opt.zero_grad()
        # logits will have shape [B, max_len_target_seq, vocab_size] (where max_len_target_seq = max_len_original + 1 for SOS)
        logits = model(xb, yb) # The model's forward pass now correctly handles teacher forcing with SOS

        # Target for loss is yb[:, 1:] because yb[:, :-1] is fed to decoder
        # yb[:, 1:] has shape [B, max_len_output], so reshape to [B * max_len_output]
        # logits has shape [B, max_len_output, vocab_size], reshape to [B * max_len_output, vocab_size]
        loss = loss_fn(logits.reshape(-1, vocab_size), yb[:, 1:].reshape(-1)) # yb[:, 1:] is actual target values, excluding the initial SOS
        loss.backward()
        opt.step()
        total_loss += loss.item()
    print(f"Epoch {epoch+1}: loss={total_loss/len(train_dl):.4f}")

print("Treino conclu√≠do.")

In [None]:
class Encoder(nn.Module):
    def __init__(self, vocab_size, emb_size, hidden_size):
        super().__init__()
        self.embed = nn.Embedding(vocab_size, emb_size)
        self.gru = nn.GRU(emb_size, hidden_size, batch_first=True)

    def forward(self, x):
        x = self.embed(x)
        _, h = self.gru(x)
        return h  # [1, B, H]

class Decoder(nn.Module):
    def __init__(self, vocab_size, emb_size, hidden_size):
        super().__init__()
        self.embed = nn.Embedding(vocab_size, emb_size)
        self.gru = nn.GRU(emb_size, hidden_size, batch_first=True)
        self.fc = nn.Linear(hidden_size, vocab_size)

    def forward(self, x, h):
        """
        x: tensor que indica a parte pr√©via correta
        h: tensor que indica o estado do encoder da parte pr√©via
        """
        x = self.embed(x)
        out, h = self.gru(x, h)
        logits = self.fc(out)
        return logits, h # retorna o estado latente para atualizar o estado

class Seq2Seq(nn.Module):
    def __init__(self, encoder, decoder):
        super().__init__()
        self.encoder = encoder
        self.decoder = decoder

    def forward(self, src, tgt):
        h = self.encoder(src)
        # usa contexto correto anterior e estado atual para prever o tgt[:, -1]
        logits, _ = self.decoder(tgt[:, :-1], h)
        return logits

In [None]:
emb_size = 32
hidden_size = 64
encoder = Encoder(vocab_size, emb_size, hidden_size)
decoder = Decoder(vocab_size, emb_size, hidden_size)
model = Seq2Seq(encoder, decoder).to(device)

loss_fn = nn.CrossEntropyLoss(ignore_index=vocab[' ']) # ignora o pad: " "
opt = torch.optim.Adam(model.parameters(), lr=1e-3)

print(f"Model initialized and moved to device: {device}")
print(f"Model architecture:\n{model}")

# Vamos testar

## Avalia√ß√£o da acur√°cia do modelo

In [None]:
def calculate_accuracy(model, dataset, decode_fn, vocab, max_len):
    correct_predictions = 0
    total_predictions = 0

    model.eval()
    with torch.no_grad():
        for src_tensor, tgt_tensor in dataset:
            src_str_decoded = decode_fn(src_tensor.cpu()) # Decode input string without PAD/SOS

            # Expected target is the original string reversed. decode_fn for target ignores SOS/PAD.
            expected_str = decode_fn(tgt_tensor.cpu()) # This will automatically strip SOS/PAD for target

            # The predict function now returns the string without PAD/SOS
            predicted_str = predict(model, src_str_decoded, max_len_output=max_len)

            if predicted_str == expected_str:
                correct_predictions += 1
            total_predictions += 1

    return correct_predictions / total_predictions

# Calculate accuracy on the training dataset
accuracy = calculate_accuracy(model, train_ds, decode, vocab, max_len)
print(f"Acur√°cia do modelo no dataset de treino: {accuracy:.4f}")

## Exemplos de Previs√£o do Modelo

Vamos observar algumas previs√µes do modelo e compar√°-las com o resultado esperado.

In [None]:
correct_examples = []
incorrect_examples = []

# max_len is the length of the actual string (e.g., 5)
for _ in range(20): # Test with 20 random sequences
    s = random_seq(n=max_len) # Generate sequence of max_len
    expected_reversed = s[::-1] # True reversed sequence
    # predict function now takes max_len_output which is the length of the original string
    pred = predict(model, s, max_len_output=max_len)

    if pred == expected_reversed:
        correct_examples.append((s, pred, expected_reversed))
    else:
        incorrect_examples.append((s, pred, expected_reversed))

print("\n--- Exemplos Corretos ---")
for i, (original, predicted, expected) in enumerate(correct_examples):
    if i >= 5: break # Limit to 5 examples
    print(f"Original: '{original}' -> Previsto: '{predicted}' (Esperado: '{expected}')")

print("\n--- Exemplos Incorretos ---")
for i, (original, predicted, expected) in enumerate(incorrect_examples):
    if i >= 5: break # Limit to 5 examples
    print(f"Original: '{original}' -> Previsto: '{predicted}' (Esperado: '{expected}')")

if not incorrect_examples:
    print("N√£o foram encontrados exemplos incorretos entre as amostras testadas.")
else:
    print(f"Total de exemplos corretos: {len(correct_examples)}")
    print(f"Total de exemplos incorretos: {len(incorrect_examples)}")

In [None]:
print("\n--- Testes de previs√£o avulsos ---")
for _ in range(10):
    s = random_seq(n=max_len) # Use max_len for consistency
    print(f"Input string: '{s}'") # Added print to show the generated input
    # Use max_len_output=max_len
    pred = predict(model, s, max_len_output=max_len)
    print(f"{s} -> {pred} (Esperado: {s[::-1]})")