<a href="https://colab.research.google.com/github/pedrogengo/Analise_Fraude/blob/master/ex07/Pedro%20Gengo/Pedro_Gengo_Aula_7_Exerc%C3%ADcio.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
nome = 'Pedro Gabriel Gengo Lourenco'
print(f'Meu nome é {nome}')

Meu nome é Pedro Gabriel Gengo Lourenco


#  Exercício: Modelo de Linguagem (Bengio 2003) - MLP + Embeddings

Neste exercício iremos treinar uma rede neural simples para prever a proxima palavra de um texto, dada as palavras anteriores como entrada. Esta tarefa é chamada de "Modelagem da Língua".

Este dataset já possui um tamanho razoável e é bem provável que você vai precisar rodar seus experimentos com GPU.

Alguns conselhos úteis:
- **ATENÇÃO:** o dataset é bem grande. Não dê comando de imprimí-lo.
- Durante a depuração, faça seu dataset ficar bem pequeno, para que a depuração seja mais rápida e não precise de GPU. Somente ligue a GPU quando o seu laço de treinamento já está funcionando
- Não deixe para fazer esse exercício na véspera. Ele é trabalhoso.

In [2]:
# iremos utilizar a biblioteca dos transformers para ter acesso ao tokenizador do BERT.
!pip install transformers

Collecting transformers
  Downloading transformers-4.19.2-py3-none-any.whl (4.2 MB)
[K     |████████████████████████████████| 4.2 MB 4.8 MB/s 
[?25hCollecting huggingface-hub<1.0,>=0.1.0
  Downloading huggingface_hub-0.6.0-py3-none-any.whl (84 kB)
[K     |████████████████████████████████| 84 kB 3.6 MB/s 
Collecting pyyaml>=5.1
  Downloading PyYAML-6.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (596 kB)
[K     |████████████████████████████████| 596 kB 53.8 MB/s 
Collecting tokenizers!=0.11.3,<0.13,>=0.11.1
  Downloading tokenizers-0.12.1-cp37-cp37m-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (6.6 MB)
[K     |████████████████████████████████| 6.6 MB 42.1 MB/s 
Installing collected packages: pyyaml, tokenizers, huggingface-hub, transformers
  Attempting uninstall: pyyaml
    Found existing installation: PyYAML 3.13
    Uninstalling PyYAML-3.13:
      Successfully uninstalled PyYAML-3.13
Successfully installed huggingface-hub-0.

## Importação dos pacotes

In [3]:
import collections
import itertools
import functools
import math
import random

import torch
import torch.nn as nn
import numpy as np
from torch.utils.data import DataLoader
from tqdm import tqdm_notebook


In [4]:
# Check which GPU we are using
!nvidia-smi

Wed May 18 18:02:50 2022       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla P100-PCIE...  Off  | 00000000:00:04.0 Off |                    0 |
| N/A   34C    P0    26W / 250W |      0MiB / 16280MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

In [5]:
if torch.cuda.is_available(): 
   dev = "cuda:0"
else: 
   dev = "cpu"
device = torch.device(dev)
print('Using {}'.format(device))

Using cuda:0


## Implementação do MyDataset

In [6]:
from typing import List


def tokenize(text: str, tokenizer):
    return tokenizer(text, return_tensors=None, add_special_tokens=False).input_ids


class MyDataset():
    def __init__(self, texts: List[str], tokenizer, context_size: int):
        self.tokenizer = tokenizer
        self.context_size = context_size
        self.x, self.y = self._split_tokens_in_contextualized_windows(texts)

    def _split_tokens_in_contextualized_windows(self, texts):
      x, y = [], []
      for t in texts:
        tokenized = tokenize(t, self.tokenizer)
        if len(tokenized) > self.context_size:
          for i in range(len(tokenized) - self.context_size):
              x.append(tokenized[i: i + self.context_size])
              y.append(tokenized[i + self.context_size])
      return torch.LongTensor(x), torch.LongTensor(y)

    def __len__(self):
        return len(self.x)

    def __getitem__(self, idx):
        return self.x[idx], self.y[idx]

## Teste se sua implementação do MyDataset está correta

In [7]:
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("neuralmind/bert-base-portuguese-cased")

Downloading:   0%|          | 0.00/205k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/2.00 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/112 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/43.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/647 [00:00<?, ?B/s]

In [8]:
dummy_texts = ['Eu gosto de correr', 'Ela gosta muito de comer pizza']

### Debuggando o tokenizer

In [9]:
tokenizer.convert_ids_to_tokens(tokenize(dummy_texts[0], tokenizer)), tokenizer.convert_ids_to_tokens(tokenize(dummy_texts[1], tokenizer))

(['Eu', 'gosto', 'de', 'correr'],
 ['Ela', 'gosta', 'muito', 'de', 'comer', 'pi', '##zza'])

No resultado da célula acima podemos ver os tokens gerados pelo tokenizador. Assim, podemos montar o dataset esperado, sendo:

| x | y |
|---|---|
|[Eu, gosto, de]|correr|
|[Ela, gosta, muito]|de|
|[gosta, muito, de]|comer|
|[muito, de, comer]|pi|
|[de, comer, pi]|##zza|

Sendo assim, esperamos que o dataset tenha um tamanho de 5.

### Testes

In [10]:
dummy_dataset = MyDataset(texts=dummy_texts, tokenizer=tokenizer, context_size=3)
dummy_loader = DataLoader(dummy_dataset, batch_size=6, shuffle=False)
assert len(dummy_dataset) == 5
print('passou no assert de tamanho do dataset')

first_batch_input, first_batch_target = next(iter(dummy_loader))

correct_first_batch_input = torch.LongTensor(
    [[ 3396, 10303,   125],
     [ 1660,  5971,   785],
     [ 5971,   785,   125],
     [  785,   125,  1847],
     [  125,  1847, 13779]])

correct_first_batch_target = torch.LongTensor([13239,   125,  1847, 13779, 15616])

assert torch.equal(first_batch_input, correct_first_batch_input)
print('Passou no assert de input')
assert torch.equal(first_batch_target, correct_first_batch_target)
print('Passou no assert de target')

passou no assert de tamanho do dataset
Passou no assert de input
Passou no assert de target


# Carregamento do dataset 

Iremos usar uma pequena amostra do dataset [BrWaC](https://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC) para treinar e avaliar nosso modelo de linguagem.

In [11]:
!wget -nc https://storage.googleapis.com/unicamp-dl/ia025a_2022s1/aula7/sample_brwac.txt

--2022-05-18 18:02:54--  https://storage.googleapis.com/unicamp-dl/ia025a_2022s1/aula7/sample_brwac.txt
Resolving storage.googleapis.com (storage.googleapis.com)... 172.217.204.128, 172.217.203.128, 172.253.123.128, ...
Connecting to storage.googleapis.com (storage.googleapis.com)|172.217.204.128|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 123983611 (118M) [text/plain]
Saving to: ‘sample_brwac.txt’


2022-05-18 18:02:55 (238 MB/s) - ‘sample_brwac.txt’ saved [123983611/123983611]



In [12]:
words_per_line = [len(line.split()) for line in open('sample_brwac.txt').readlines()]

In [13]:
sum(words_per_line) / len(words_per_line)

788.32044

In [14]:
# Load datasets
context_size = 9

valid_examples = 100
test_examples = 100
texts = open('sample_brwac.txt').readlines()

# print('Truncating for debugging purposes.')
# texts = texts[:500]  

training_texts = texts[:-(valid_examples + test_examples)]
valid_texts = texts[-(valid_examples + test_examples):-test_examples]
test_texts = texts[-test_examples:]

training_dataset = MyDataset(texts=training_texts, tokenizer=tokenizer, context_size=context_size)
valid_dataset = MyDataset(texts=valid_texts, tokenizer=tokenizer, context_size=context_size)
test_dataset = MyDataset(texts=test_texts, tokenizer=tokenizer, context_size=context_size)

In [15]:
print(f'training examples: {len(training_dataset)}')
print(f'valid examples: {len(valid_dataset)}')
print(f'test examples: {len(test_dataset)}')

training examples: 27675945
valid examples: 82070
test examples: 166726


In [18]:
class LanguageModel(torch.nn.Module):

    def __init__(self, vocab_size, context_size, embedding_dim, hidden_size):
        """
        Implements the Neural Language Model proposed by Bengio et al."

        Args:
            vocab_size (int): Size of the input vocabulary.
            context_size (int): Size of the sequence to consider as context for prediction.
            embedding_dim (int): Dimension of the embedding layer for each word in the context.
            hidden_size (int): Size of the hidden layer.
        """

        # Adicionando mais uma camada linear, com base no que foi feito pela colega Larissa.

        super().__init__()
        self.emb = torch.nn.Embedding(vocab_size, embedding_dim)
        self.linear1 = torch.nn.Linear(embedding_dim * context_size, hidden_size)
        self.linear2 = torch.nn.Linear(hidden_size, hidden_size * 2)
        self.linear3 = torch.nn.Linear(hidden_size * 2, vocab_size, bias = False)

    def forward(self, inputs):
        """
        Args:
            inputs is a LongTensor of shape (batch_size, context_size)
        """
        output = self.emb(inputs)
        output = output.view(inputs.shape[0], -1)
        output = torch.nn.functional.relu(self.linear1(output))
        output = torch.nn.functional.relu(self.linear2(output))
        output = self.linear3(output)
        return output

## Teste o modelo com um exemplo

In [19]:
model = LanguageModel(
    vocab_size=tokenizer.vocab_size,
    context_size=context_size,
    embedding_dim=64,
    hidden_size=128,
).to(device)

sample_train, _ = next(iter(DataLoader(training_dataset)))
sample_train_gpu = sample_train.to(device)
model(sample_train_gpu).shape

torch.Size([1, 29794])

In [20]:
tokenizer.vocab_size

29794

In [21]:
num_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f'Number of model parameters: {num_params}')

Number of model parameters: 9640960


## Assert da Perplexidade


In [22]:
random.seed(123)
np.random.seed(123)
torch.manual_seed(123)


def perplexity(logits, target):
    """
    Computes the perplexity.

    Args:
        logits: a FloatTensor of shape (batch_size, vocab_size)
        target: a LongTensor of shape (batch_size,)

    Returns:
        A float corresponding to the perplexity.
    """
    pred_probs = torch.nn.functional.softmax(logits, dim=1)
    valid_probs = pred_probs.gather(1, target.view(-1, 1))
    cross_entropy = -torch.mean(torch.log(valid_probs))
    return torch.exp(cross_entropy)

n_examples = 1000

sample_train, target_token_ids = next(iter(DataLoader(training_dataset, batch_size=n_examples)))
sample_train_gpu = sample_train.to(device)
target_token_ids = target_token_ids.to(device)
logits = model(sample_train_gpu)

my_perplexity = perplexity(logits=logits, target=target_token_ids)

print(f'my perplexity:              {int(my_perplexity)}')
print(f'correct initial perplexity: {tokenizer.vocab_size}')

assert math.isclose(my_perplexity, tokenizer.vocab_size, abs_tol=2000)
print('Passou o no assert da perplexidade')

my perplexity:              29893
correct initial perplexity: 29794
Passou o no assert da perplexidade


## Laço de Treinamento e Validação

In [25]:
max_examples = 250_000_000
eval_every_steps = 5000
lr = 3e-5
# best_ppl = 1e5  # Para evitar usar um modelo overfittado, salvo o modelo com melhor ppl para usar depois


# model = LanguageModel(
#     vocab_size=tokenizer.vocab_size,
#     context_size=context_size,
#     embedding_dim=128,
#     hidden_size=256,
# ).to(device)

# train_loader = DataLoader(training_dataset, batch_size=1024, shuffle=True, drop_last=True)
# validation_loader = DataLoader(valid_dataset, batch_size=1024)

# optimizer = torch.optim.Adam(model.parameters(), lr=lr)


def train_step(input, target):
    model.train()
    model.zero_grad()

    logits = model(input.to(device))
    loss = nn.functional.cross_entropy(logits, target.to(device), label_smoothing=0.2)
    loss.backward()
    optimizer.step()

    return loss.item()


def validation_step(input, target):
    logits = model(input)
    loss = nn.functional.cross_entropy(logits, target)
    return loss.item()


train_losses = []
n_examples = 0
step = 0
while n_examples < max_examples:
    for input, target in train_loader:
        loss = train_step(input.to(device), target.to(device)) 
        train_losses.append(loss)
        
        if step % eval_every_steps == 0:
            train_ppl = np.exp(np.average(train_losses))

            with torch.no_grad():
                valid_ppl = np.exp(np.average([
                    validation_step(input.to(device), target.to(device))
                    for input, target in validation_loader]))
                
                if valid_ppl < best_ppl:
                  best_ppl = valid_ppl
                  torch.save(model.state_dict(), 'best_model.pt')

            print(f'{step} steps; {n_examples} examples so far; train ppl: {train_ppl:.2f}, valid ppl: {valid_ppl:.2f}')
            train_losses = []

        n_examples += len(input)  # Increment of batch size
        step += 1
        if n_examples >= max_examples:
            break

0 steps; 0 examples so far; train ppl: 664.19, valid ppl: 193.88
5000 steps; 5120000 examples so far; train ppl: 778.31, valid ppl: 193.88
10000 steps; 10240000 examples so far; train ppl: 778.52, valid ppl: 193.88


KeyboardInterrupt: ignored

## Avaliação final no dataset de teste


Bonus: o modelo com menor perplexidade no dataset de testes ganhará 0.5 ponto na nota final.

In [26]:
model = LanguageModel(
            vocab_size=tokenizer.vocab_size,
            context_size=context_size,
            embedding_dim=128,
            hidden_size=256,
        ).to(device)
model.load_state_dict(torch.load('best_model.pt'))
model.to(device)

test_loader = DataLoader(test_dataset, batch_size=64)

with torch.no_grad():
    test_ppl = np.exp(np.average([
        validation_step(input.to(device), target.to(device))
        for input, target in test_loader
    ]))

print(f'test perplexity: {test_ppl}')

test perplexity: 181.8109333651632


## Teste seu modelo com uma sentença

Escolha uma sentença gerada pelo modelo que ache interessante.

In [24]:
prompt = 'Eu gosto de comer pizza pois me faz'  # Ex: 'Eu gosto de comer pizza pois me faz'
max_output_tokens = 10

for _ in range(max_output_tokens):
    input_ids = tokenize(text=prompt, tokenizer=tokenizer)
    input_ids_truncated = input_ids[-context_size:]  # Usamos apenas os últimos <context_size> tokens como entrada para o modelo.
    logits = model(torch.LongTensor([input_ids_truncated]).to(device))
    # Ao usarmos o argmax, a saída do modelo em cada passo é token de maior probabilidade.
    # Isso se chama decodificação gulosa (greedy decoding).
    predicted_id = torch.argmax(logits).item()
    input_ids += [predicted_id]  # Concatenamos a entrada com o token escolhido nesse passo.
    prompt = tokenizer.decode(input_ids)
    print(prompt)

Eu gosto de comer pizza pois me faz com
Eu gosto de comer pizza pois me faz com que
Eu gosto de comer pizza pois me faz com que o
Eu gosto de comer pizza pois me faz com que o que
Eu gosto de comer pizza pois me faz com que o que é
Eu gosto de comer pizza pois me faz com que o que é o
Eu gosto de comer pizza pois me faz com que o que é o que
Eu gosto de comer pizza pois me faz com que o que é o que é
Eu gosto de comer pizza pois me faz com que o que é o que é o
Eu gosto de comer pizza pois me faz com que o que é o que é o que


In [25]:
prompt = 'Se os carros são como as lanchas, as motos são'  # Ex: 'Eu gosto de comer pizza pois me faz'
max_output_tokens = 10

for _ in range(max_output_tokens):
    input_ids = tokenize(text=prompt, tokenizer=tokenizer)
    input_ids_truncated = input_ids[-context_size:]  # Usamos apenas os últimos <context_size> tokens como entrada para o modelo.
    logits = model(torch.LongTensor([input_ids_truncated]).to(device))
    # Ao usarmos o argmax, a saída do modelo em cada passo é token de maior probabilidade.
    # Isso se chama decodificação gulosa (greedy decoding).
    predicted_id = torch.argmax(logits).item()
    input_ids += [predicted_id]  # Concatenamos a entrada com o token escolhido nesse passo.
    prompt = tokenizer.decode(input_ids)
    print(prompt)

Se os carros são como as lanchas, as motos são as
Se os carros são como as lanchas, as motos são as principais
Se os carros são como as lanchas, as motos são as principais características
Se os carros são como as lanchas, as motos são as principais características de
Se os carros são como as lanchas, as motos são as principais características de saúde
Se os carros são como as lanchas, as motos são as principais características de saúde,
Se os carros são como as lanchas, as motos são as principais características de saúde, e
Se os carros são como as lanchas, as motos são as principais características de saúde, e a
Se os carros são como as lanchas, as motos são as principais características de saúde, e a maioria
Se os carros são como as lanchas, as motos são as principais características de saúde, e a maioria dos


In [26]:
prompt = 'Foi muito bom te ver, mas já está na hora de'  # Ex: 'Eu gosto de comer pizza pois me faz'
max_output_tokens = 10

for _ in range(max_output_tokens):
    input_ids = tokenize(text=prompt, tokenizer=tokenizer)
    input_ids_truncated = input_ids[-context_size:]  # Usamos apenas os últimos <context_size> tokens como entrada para o modelo.
    logits = model(torch.LongTensor([input_ids_truncated]).to(device))
    # Ao usarmos o argmax, a saída do modelo em cada passo é token de maior probabilidade.
    # Isso se chama decodificação gulosa (greedy decoding).
    predicted_id = torch.argmax(logits).item()
    input_ids += [predicted_id]  # Concatenamos a entrada com o token escolhido nesse passo.
    prompt = tokenizer.decode(input_ids)
    print(prompt)

Foi muito bom te ver, mas já está na hora de que
Foi muito bom te ver, mas já está na hora de que o
Foi muito bom te ver, mas já está na hora de que o Brasil
Foi muito bom te ver, mas já está na hora de que o Brasil,
Foi muito bom te ver, mas já está na hora de que o Brasil, o
Foi muito bom te ver, mas já está na hora de que o Brasil, o que
Foi muito bom te ver, mas já está na hora de que o Brasil, o que é
Foi muito bom te ver, mas já está na hora de que o Brasil, o que é o
Foi muito bom te ver, mas já está na hora de que o Brasil, o que é o caso
Foi muito bom te ver, mas já está na hora de que o Brasil, o que é o caso de


In [27]:
prompt = 'Nas minhas próximas férias quer ir viajar para'  # Ex: 'Eu gosto de comer pizza pois me faz'
max_output_tokens = 10

for _ in range(max_output_tokens):
    input_ids = tokenize(text=prompt, tokenizer=tokenizer)
    input_ids_truncated = input_ids[-context_size:]  # Usamos apenas os últimos <context_size> tokens como entrada para o modelo.
    logits = model(torch.LongTensor([input_ids_truncated]).to(device))
    # Ao usarmos o argmax, a saída do modelo em cada passo é token de maior probabilidade.
    # Isso se chama decodificação gulosa (greedy decoding).
    predicted_id = torch.argmax(logits).item()
    input_ids += [predicted_id]  # Concatenamos a entrada com o token escolhido nesse passo.
    prompt = tokenizer.decode(input_ids)
    print(prompt)

Nas minhas próximas férias quer ir viajar para o
Nas minhas próximas férias quer ir viajar para o seu
Nas minhas próximas férias quer ir viajar para o seu próprio
Nas minhas próximas férias quer ir viajar para o seu próprio.
Nas minhas próximas férias quer ir viajar para o seu próprio..
Nas minhas próximas férias quer ir viajar para o seu próprio...
Nas minhas próximas férias quer ir viajar para o seu próprio....
Nas minhas próximas férias quer ir viajar para o seu próprio.....
Nas minhas próximas férias quer ir viajar para o seu próprio......
Nas minhas próximas férias quer ir viajar para o seu próprio.......
