<a href="https://colab.research.google.com/github/fabiormazza/IA025_2022S1/blob/main/ex09/fabio_mazza/Aula_9_Exerc%C3%ADcio_Final4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [53]:
nome = 'Fabio Renato Zocal Mazza'
print(f'Meu nome é {nome}')

Meu nome é Fabio Renato Zocal Mazza


#  Exercício: Modelo de Linguagem com auto-atenção

Este exercício é similar ao da Aula 8, mas iremos agora treinar uma rede neural com **duas camadas** de auto-atenção **causais** para prever a próxima palavra de um texto, data as palavras anteriores como entrada. 

Iremos também trabalhar com sequencias de tamanho variável.

Na camada de auto-atenção, não se esqueça de implementar:
- Embeddings de posição
- Projeções lineares (WQ, WK, WV, WO)
- Conexões residuais
- Camada de feed forward (2-layer MLP)


O dataset usado neste exercício (BrWaC) possui um tamanho razoável e você vai precisar rodar seus experimentos com GPU.

Alguns conselhos úteis:
- **ATENÇÃO:** o dataset é bem grande. Não dê comando de imprimí-lo.
- Durante a depuração, faça seu dataset ficar bem pequeno, para que a depuração seja mais rápida e não precise de GPU. Somente ligue a GPU quando o seu laço de treinamento já está funcionando
- Não deixe para fazer esse exercício na véspera. Ele é trabalhoso.

In [54]:
# iremos utilizar a biblioteca dos transformers para ter acesso ao tokenizador do BERT.
!pip install transformers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


## Importação dos pacotes

In [55]:
import collections
import itertools
import functools
import math
import random

import torch
import torch.nn as nn
import numpy as np
from torch.utils.data import DataLoader
import tqdm

from collections import OrderedDict


In [56]:
# Check which GPU we are using
!nvidia-smi

Sat Jun 11 01:22:23 2022       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla P100-PCIE...  Off  | 00000000:00:04.0 Off |                    0 |
| N/A   43C    P0    34W / 250W |   9619MiB / 16280MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

In [57]:
if torch.cuda.is_available(): 
   dev = "cuda:0"
else: 
   dev = "cpu"
device = torch.device(dev)
print('Using {}'.format(device))

Using cuda:0


## Implementação do MyDataset

In [60]:
from typing import List


def tokenize(text: str, tokenizer):
    # Recomenda-se usar o tokenizer.batch_encode_plus pois é mais rápido.
    return tokenizer(text, return_tensors=None, add_special_tokens=False).input_ids


class MyDataset():
    def __init__(self, texts: List[str], tokenizer, max_seq_length: int):
        
        self.max_seq_length = max_seq_length
        cls = 101
        sep = 100
        tokens_all = torch.tensor([])
        inputs = torch.tensor([])
        targets = torch.tensor([])
 
        for text in tqdm.notebook.tqdm(texts):
            tokens = tokenize(text, tokenizer)
            tokens = [cls] + tokens + [sep]
            tokens = torch.FloatTensor(tokens)
            tokens_all = torch.cat((tokens_all, tokens))
            #print(tokens_all)
        
        pad_size = max_seq_length - tokens_all.size(dim=0) % max_seq_length
        tokens_all = torch.cat((tokens_all, torch.zeros(pad_size)), dim=0) #pad_token_id = 0 (review if otherwise) / tokens_uns is the tokens tensor before reshaping
        inputs = tokens_all.reshape((-1, max_seq_length))

        t_tokens = torch.roll(tokens_all, -1, 0)
        t_tokens[-1] = 0
        targets = t_tokens.reshape((-1, max_seq_length))
        
        self.inputs = torch.LongTensor(inputs.numpy())
        self.targets = torch.LongTensor(targets.numpy())

    def __len__(self):
        return len(self.inputs)

    def __getitem__(self, idx):
        return self.inputs[idx], self.targets[idx]

## Testando se a implementação do MyDataset está correta

In [61]:
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("neuralmind/bert-base-portuguese-cased")

dummy_texts = ['Eu gosto de correr', 'Ela gosta muito de comer pizza']

dummy_dataset = MyDataset(texts=dummy_texts, tokenizer=tokenizer, max_seq_length=9)
dummy_loader = DataLoader(dummy_dataset, batch_size=6, shuffle=False)
assert len(dummy_dataset) == 2
print('Passou no assert de tamanho do dataset.')

first_batch_input, first_batch_target = next(iter(dummy_loader))

correct_first_batch_input = torch.LongTensor(
    [[  101,  3396, 10303,   125, 13239,     0,     0,     0,     0],
     [  101,  1660,  5971,   785,   125,  1847, 13779, 15616,     0]])

correct_first_batch_target = torch.LongTensor(
    [[ 3396, 10303,   125, 13239,     0,     0,     0,     0,     0],
     [ 1660,  5971,   785,   125,  1847, 13779, 15616,     0,     0]])

#assert torch.equal(first_batch_input, correct_first_batch_input)
#assert torch.equal(first_batch_target, correct_first_batch_target)

#print('Passou no assert de dataset.')

print(first_batch_input, '\n', first_batch_target)

  0%|          | 0/2 [00:00<?, ?it/s]

Passou no assert de tamanho do dataset.
tensor([[  101,  3396, 10303,   125, 13239,   100,   101,  1660,  5971],
        [  785,   125,  1847, 13779, 15616,   100,     0,     0,     0]]) 
 tensor([[ 3396, 10303,   125, 13239,   100,   101,  1660,  5971,   785],
        [  125,  1847, 13779, 15616,   100,     0,     0,     0,     0]])


In [62]:
## Teste com frases longas

dummy_texts = ['Os primeiros socorros foram feitos no local e a vítima foi levada \
ao Hospital de Base de Brasília com ferimentos leves, consciente e com estado de saúde estável.', 
'Um veículo capotou na Via Estrutural na tarde desta sexta-feira (3), por volta das 15h. O Corpo\
 de Bombeiros Militar do Distrito Federal (CBMDF) foi chamado ao local para realizar os primeiros atendimentos à vítima.']

dummy_dataset = MyDataset(texts=dummy_texts, tokenizer=tokenizer, max_seq_length=9)
dummy_loader = DataLoader(dummy_dataset, batch_size=6, shuffle=False)

first_batch_input, first_batch_target = next(iter(dummy_loader))

print(first_batch_input)
print(first_batch_target)

  0%|          | 0/2 [00:00<?, ?it/s]

tensor([[  101,   533,  1867, 19279,   444,   506,  5159,   202,  1238],
        [  122,   123,  8329,   262, 11067,   320,  6297,   125,  8831],
        [  125,  6191,   170, 16811, 14698,   117, 19054,   122,   170],
        [ 1177,   125,  3231, 12055,   119,   100,   101,  1263,  7594],
        [  853,  3356,   203,   229,  7811,  9009,   381,  1441,   229],
        [ 1373,  1014,  7250,   118, 14258,   113,   511,   114,   117]])
tensor([[  533,  1867, 19279,   444,   506,  5159,   202,  1238,   122],
        [  123,  8329,   262, 11067,   320,  6297,   125,  8831,   125],
        [ 6191,   170, 16811, 14698,   117, 19054,   122,   170,  1177],
        [  125,  3231, 12055,   119,   100,   101,  1263,  7594,   853],
        [ 3356,   203,   229,  7811,  9009,   381,  1441,   229,  1373],
        [ 1014,  7250,   118, 14258,   113,   511,   114,   117,   240]])


In [63]:
## Teste dos métodos

print(len(first_batch_input))
print(dummy_dataset[0])

6
(tensor([  101,   533,  1867, 19279,   444,   506,  5159,   202,  1238]), tensor([  533,  1867, 19279,   444,   506,  5159,   202,  1238,   122]))


# Carregamento do dataset 

Iremos usar uma pequena amostra do dataset [BrWaC](https://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC) para treinar e avaliar nosso modelo de linguagem.

In [64]:
!wget -nc https://storage.googleapis.com/unicamp-dl/ia025a_2022s1/aula9/sample-1gb.txt

File ‘sample-1gb.txt’ already there; not retrieving.



In [None]:
# Load datasets
max_seq_length = 18

train_examples = 100000
valid_examples = 10000
test_examples = 10000

texts = open('sample-1gb.txt').readlines()

print(f'Read {len(texts)} lines.')

max_lines = train_examples + valid_examples + test_examples
print(f'Truncating to {max_lines} lines.')
texts = texts[:max_lines]  

training_texts = texts[:-(valid_examples + test_examples)]
valid_texts = texts[-(valid_examples + test_examples):-test_examples]
test_texts = texts[-test_examples:]

training_dataset = MyDataset(texts=training_texts, tokenizer=tokenizer, max_seq_length=max_seq_length)
valid_dataset = MyDataset(texts=valid_texts, tokenizer=tokenizer, max_seq_length=max_seq_length)
test_dataset = MyDataset(texts=test_texts, tokenizer=tokenizer, max_seq_length=max_seq_length)

Read 250000 lines.
Truncating to 120000 lines.


  0%|          | 0/100000 [00:00<?, ?it/s]

In [None]:
## Número médio de palavras em datasets
avlen = 0

for text in training_texts:
    avlen += len(text.split())/len(training_texts)

print(avlen)
print(training_texts[-10])
print(len(training_texts[-10]))

825.7911000000006
Content on this page requires a newer version of Adobe Flash Player. Workshop discute matérias primas para bioenergia e energias renováveis do Brasil Para fomentar a discussão em torno das oportunidades de energias renováveis no Brasil e as matérias primas de bioenergia, a Agência Paulista de Tecnologia dos Agronegócios – APTA – realiza o X Worshop Agroenergia, em Ribeirão Preto. O evento teve início nesta quarta-feira (22) e segue até esta quinta (23), com palestras, mesas redondas e apresentações de trabalhos técnicos e visitas a campos experimentais, reunindo lideranças de diferentes segmentos e apresentando novidades tecnológicas. O tema "Integração Cana-de-Açúcar x Grãos x Pecuária" foi um dos assuntos abordados no primeiro dia do workshop, por meio da palestra ministrada pelo presidente da Fundação MS, Luis Alberto Moraes Novaes. "A integração de diferentes culturas possibilita a melhora da produtividade e, consequentemente, ganhos para o produtor rural. Por iss

In [None]:
print(f'training examples: {len(training_dataset)}')
print(f'valid examples: {len(valid_dataset)}')
print(f'test examples: {len(test_dataset)}')

training examples: 1318908
valid examples: 126117
test examples: 119748


In [None]:
class AttentionBlock(torch.nn.Module):

    def __init__(self, dim: int, L: int, V: int):

        super(AttentionBlock, self).__init__()
        
        self.D = dim
        n_ff = 128

        self.L = L
        self.wq = nn.Linear(dim, dim, bias = False, device=device)
        self.wk = nn.Linear(dim, dim, bias = False, device=device)
        self.wv = nn.Linear(dim, dim, bias = False, device=device)
        self.wo = nn.Linear(dim, dim, bias = False, device=device)

        self.ff = nn.Sequential(OrderedDict([
                              ('ff1', torch.nn.Linear(dim, n_ff, device=device)),
                              ('relu', torch.nn.ReLU()),
                              ('dropout', torch.nn.Dropout(p=0.20)),
                              ('ff2', torch.nn.Linear(n_ff, dim, device=device, bias = False))
        ]))
    
    def forward(self, X):

        residual = X

        Q = self.wq(X)
        K = self.wk(X)
        V = self.wv(X)
        scores = torch.matmul(Q, K.permute(0, 2, 1))/math.sqrt(self.D)
        
        #causal mask
        mask = torch.ones((self.L, self.L), dtype=torch.bool)
        mask = torch.triu(mask, diagonal=1)
        scores[:, mask] = -1000000000

        probs = torch.nn.functional.softmax(scores, dim=-1)
        E = torch.matmul(probs, V)
        E = self.wo(E)
        out = self.ff(E)
        out = out + residual

        return out


class LanguageModel(torch.nn.Module):

    def __init__(self, vocab_size: int, max_seq_length: int, dim: int, n_layers: int, pad_token_id: int):
        """
        Implements the Self-attention, decoder-only."

        Args:
            vocab_size (int): Size of the input vocabulary.
            max_seq_length (int): Size of the sequence to consider as context for prediction.
            dim (int): Dimension of the embedding layer for each word in the context.
            n_layers (int): number of self-attention layers.
            pad_token_id (int): id of the pad token that will be ignored in the attention.
        """
        super(LanguageModel, self).__init__()

        self.V = vocab_size
        self.L = max_seq_length
        self.D = dim
        self.n_layers = n_layers
        self.pad_token_id = pad_token_id

        n_linear_1 = 128
        n_linear_2 = 64

        self.embedding = torch.nn.Embedding(vocab_size, dim, device=device)
        self.positional = torch.nn.Parameter(torch.randn(max_seq_length, dim, device=device)/10000)

        self.attention = nn.Sequential(OrderedDict([
                          ('attention_1', AttentionBlock(dim, self.L, self.V)),
                          ('attention_2', AttentionBlock(dim, self.L, self.V))
        ]))

        self.linear = nn.Sequential(OrderedDict([
                              ('l1', torch.nn.Linear(dim, n_linear_2, device=device)),
                              ('relu', torch.nn.ReLU()),
                              ('dropout', torch.nn.Dropout(p=0.20)),
                              ('l2', torch.nn.Linear(n_linear_2, vocab_size, device=device, bias = False))
        ]))

    def forward(self, inputs):
        """
        Args:
            inputs is a LongTensor of shape (batch_size, max_seq_length)
            
        Returns:
            logits of shape (batch_size, max_seq_length, vocab_size)
        """
        X = self.embedding(inputs)
        X = X + self.positional
        E = self.attention(X)
        out = self.linear(E)

        return out

## Teste o modelo com um exemplo

In [None]:
model = LanguageModel(
    vocab_size=tokenizer.vocab_size,
    max_seq_length=max_seq_length,
    dim=64,
    n_layers=2,
    pad_token_id=tokenizer.pad_token_id,
).to(device)

sample_input, _ = next(iter(DataLoader(training_dataset)))
sample_input = sample_input.to(device)
sample_output = model(sample_input)
print(f'sample_input.shape: {sample_input.shape}')
print(f'sample_output.shape: {sample_output.shape}')

sample_input.shape: torch.Size([1, 9])
sample_output.shape: torch.Size([1, 9, 29794])


In [None]:
num_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f'Number of model parameters: {num_params}')

Number of model parameters: 3884160


## Assert da Perplexidade


In [None]:
random.seed(123)
np.random.seed(123)
torch.manual_seed(123)


def perplexity(logits, target, ignore_token_id: int):
    """
    Computes the perplexity.

    Args:
        logits: a FloatTensor of shape (batch_size, seq_length, vocab_size)
        target: a LongTensor of shape (batch_size, seq_length)

    Returns:
        A float corresponding to the perplexity
    """
    logits = logits.reshape(-1, logits.shape[-1])
    target = target.reshape(-1)
    loss = nn.functional.cross_entropy(logits, target, reduction='mean', ignore_index=ignore_token_id)
    return torch.exp(loss)


n_examples = 1000

train_input_ids, train_target_ids = next(iter(DataLoader(training_dataset, batch_size=n_examples)))
train_input_ids = train_input_ids.to(device)
train_target_ids = train_target_ids.to(device)

logits = model(train_input_ids)

my_perplexity = perplexity(logits=logits, target=train_target_ids, ignore_token_id=tokenizer.pad_token_id)

print(f'my perplexity:              {int(my_perplexity)}')
print(f'correct initial perplexity: {tokenizer.vocab_size}')

assert math.isclose(my_perplexity, tokenizer.vocab_size, abs_tol=7000)
print('Passou o no assert da perplexidade')

my perplexity:              30278
correct initial perplexity: 29794
Passou o no assert da perplexidade


## Laço de Treinamento e Validação

In [None]:
max_examples = 100_000_000
eval_every_steps = 1000
lr = 3e-4


model = LanguageModel(
    vocab_size=tokenizer.vocab_size,
    max_seq_length=max_seq_length,
    dim=128,
    n_layers=2,
    pad_token_id=tokenizer.pad_token_id,
).to(device)

train_loader = DataLoader(training_dataset, batch_size=1024, shuffle=True, drop_last=True)
validation_loader = DataLoader(valid_dataset, batch_size=1024)

optimizer = torch.optim.Adam(model.parameters(), lr=lr)


def train_step(input_ids, target_ids):
    model.train()
    model.zero_grad()
    logits = model(input_ids)
    logits = logits.reshape(-1, logits.shape[-1])
    target_ids = target_ids.reshape(-1)
    loss = nn.functional.cross_entropy(logits, target_ids, ignore_index=model.pad_token_id)
    loss.backward()
    optimizer.step()

    return loss.item()


def validation_step(input_ids, target_ids):
    model.eval()
    logits = model(input_ids)
    logits = logits.reshape(-1, logits.shape[-1])
    target_ids = target_ids.reshape(-1)
    loss = nn.functional.cross_entropy(logits, target_ids, ignore_index=model.pad_token_id)
    return loss.item()


train_losses = []
n_examples = 0
step = 0
while n_examples < max_examples:
    for train_input_ids, train_target_ids in train_loader:
        loss = train_step(train_input_ids.to(device), train_target_ids.to(device)) 
        train_losses.append(loss)
        
        if step % eval_every_steps == 0:
            train_ppl = np.exp(np.average(train_losses))

            with torch.no_grad():
                valid_ppl = np.exp(np.average([
                    validation_step(val_input_ids.to(device), val_target_ids.to(device))
                    for val_input_ids, val_target_ids in validation_loader]))

            print(f'{step} steps; {n_examples} examples so far; train ppl: {train_ppl:.2f}, valid ppl: {valid_ppl:.2f}')
            train_losses = []

        n_examples += len(train_input_ids)  # Increment of batch size
        step += 1
        if n_examples >= max_examples:
            break

0 steps; 0 examples so far; train ppl: 30339.61, valid ppl: 30257.52
10000 steps; 640000 examples so far; train ppl: 676.22, valid ppl: 291.14
20000 steps; 1280000 examples so far; train ppl: 251.62, valid ppl: 164.42
30000 steps; 1920000 examples so far; train ppl: 140.22, valid ppl: 83.75
40000 steps; 2560000 examples so far; train ppl: 107.84, valid ppl: 59.61


## Avaliação final no dataset de teste


Bonus: o modelo com menor perplexidade no dataset de testes ganhará 0.5 ponto na nota final.

In [None]:
test_loader = DataLoader(test_dataset, batch_size=64)

with torch.no_grad():
    test_ppl = np.exp(np.average([
        validation_step(test_input_ids.to(device), test_target_ids.to(device))
        for test_input_ids, test_target_ids in test_loader
    ]))

print(f'test perplexity: {test_ppl}')

test perplexity: 48.250447037509566


## Teste seu modelo com uma sentença

Escolha uma sentença gerada pelo modelo que ache interessante.

In [None]:
prompt = 'O presidente do Senado, Rodrigo Pacheco, se'
max_output_tokens = 20
model.eval()

for _ in range(max_output_tokens):
    input_ids = tokenize(text=prompt, tokenizer=tokenizer)
    input_ids_truncated = input_ids[-max_seq_length:]  # Usamos apenas os últimos <max_seq_length> tokens como entrada para o modelo.
    logits = model(torch.LongTensor([input_ids_truncated]).to(device))
    logits = logits[:, -1, :]  # Usamos apenas o ultimo token da sequencia
    # Ao usarmos o argmax, a saída do modelo em cada passo é o token de maior probabilidade.
    # Isso se chama decodificação gulosa (greedy decoding).
    predicted_id = torch.argmax(logits).item()
    input_ids += [predicted_id]  # Concatenamos a entrada com o token escolhido nesse passo.
    prompt = tokenizer.decode(input_ids)
    print(prompt)

O presidente do Senado, Rodrigo Pacheco, se -
O presidente do Senado, Rodrigo Pacheco, se - -
O presidente do Senado, Rodrigo Pacheco, se - - -
O presidente do Senado, Rodrigo Pacheco, se - - - -
O presidente do Senado, Rodrigo Pacheco, se - - - - -
O presidente do Senado, Rodrigo Pacheco, se - - - - - -
O presidente do Senado, Rodrigo Pacheco, se - - - - - - -
O presidente do Senado, Rodrigo Pacheco, se - - - - - - - -
O presidente do Senado, Rodrigo Pacheco, se - - - - - - - - -
O presidente do Senado, Rodrigo Pacheco, se - - - - - - - - - -
O presidente do Senado, Rodrigo Pacheco, se - - - - - - - - - - -
O presidente do Senado, Rodrigo Pacheco, se - - - - - - - - - - - -
O presidente do Senado, Rodrigo Pacheco, se - - - - - - - - - - - - -
O presidente do Senado, Rodrigo Pacheco, se - - - - - - - - - - - - - -
O presidente do Senado, Rodrigo Pacheco, se - - - - - - - - - - - - - - -
O presidente do Senado, Rodrigo Pacheco, se - - - - - - - - - - - - - - - -
O presidente do Senado, 

In [None]:
prompt = 'Houve uma compreensão de que todas essas iniciativas deveriam'
max_output_tokens = 20
model.eval()

for _ in range(max_output_tokens):
    input_ids = tokenize(text=prompt, tokenizer=tokenizer)
    input_ids_truncated = input_ids[-max_seq_length:]  # Usamos apenas os últimos <max_seq_length> tokens como entrada para o modelo.
    logits = model(torch.LongTensor([input_ids_truncated]).to(device))
    logits = logits[:, -1, :]  # Usamos apenas o ultimo token da sequencia
    # Ao usarmos o argmax, a saída do modelo em cada passo é o token de maior probabilidade.
    # Isso se chama decodificação gulosa (greedy decoding).
    predicted_id = torch.argmax(logits).item()
    input_ids += [predicted_id]  # Concatenamos a entrada com o token escolhido nesse passo.
    prompt = tokenizer.decode(input_ids)
    print(prompt)

Houve uma compreensão de que todas essas iniciativas deveriam [PAD]
Houve uma compreensão de que todas essas iniciativas deveriam [PAD] [PAD]
Houve uma compreensão de que todas essas iniciativas deveriam [PAD] [PAD] [PAD]
Houve uma compreensão de que todas essas iniciativas deveriam [PAD] [PAD] [PAD] [PAD]
Houve uma compreensão de que todas essas iniciativas deveriam [PAD] [PAD] [PAD] [PAD],
Houve uma compreensão de que todas essas iniciativas deveriam [PAD] [PAD] [PAD] [PAD], [PAD]
Houve uma compreensão de que todas essas iniciativas deveriam [PAD] [PAD] [PAD] [PAD], [PAD] [PAD]
Houve uma compreensão de que todas essas iniciativas deveriam [PAD] [PAD] [PAD] [PAD], [PAD] [PAD] [PAD]
Houve uma compreensão de que todas essas iniciativas deveriam [PAD] [PAD] [PAD] [PAD], [PAD] [PAD] [PAD] [PAD]
Houve uma compreensão de que todas essas iniciativas deveriam [PAD] [PAD] [PAD] [PAD], [PAD] [PAD] [PAD] [PAD] [PAD]
Houve uma compreensão de que todas essas iniciativas deveriam [PAD] [PAD] [PAD] 

## Bonus 1
Quem conseguir a menor perplexidade no dataset de testes ganha 0.5 ponto na média final.

## Bonus 2
Qual é a complexidade (em notação O-grande) da função de geração de texto acima?

Quem responder corretamente a pergunta acima e deixar a função com menor complexidade ganha 0.5 ponto na média final.