In [None]:
import torch
import torch.nn as nn
import torch.optim as optim

import math
import random
import numpy as np

Vamos primeiro editar o nosso Tokenizer para adicionar um token de início e um token de fim.

In [None]:
class Tokenizer:

  def __init__(self):
    self.dicionario = {}
    self.dicionario_inverso = {}
    
    self.token_desconhecido = 1
    self.token_padding = 0
    self.max_len = 0

  def fit(self, dataset):
    # Armazena todas as palavras únicas em um dataset de texto
    indice = 4
    for texto in dataset:
      palavras = texto.split(' ')
      self.max_len = len(palavras) + 2 if len(palavras) + 2 > self.max_len else self.max_len
      for palavra in palavras:
        if palavra not in self.dicionario:
          self.dicionario[palavra] = indice
          indice += 1

    self.dicionario_inverso = { 
      valor: chave for chave, valor in self.dicionario.items() 
    }

  def encode(self, texto):
    # Converte texto para tokens (inteiros)
    tokens = texto.split(' ')
    texto_tokenizado = []
    for token in tokens:
      if token not in self.dicionario:
        texto_tokenizado.append(self.token_desconhecido)
      else:
        texto_tokenizado.append(self.dicionario[token])

    for _ in range(self.max_len - len(texto_tokenizado)):
      texto_tokenizado.append(self.token_padding)
  
    return texto_tokenizado

  def decode(self, tokens):
    # Converte tokens para texto
    texto = []
    for token in tokens:
      if token not in self.dicionario_inverso:
        texto.append(self.token_desconhecido)
      else:
        texto.append(self.dicionario_inverso[token])
    return ' '.join(texto)

  def save(self):
    # armazena o dicionario usando json
    with open('dicionario.json', 'w') as f:
      json.dump(self.dicionario, f)
    with open('dicionario_inverso.json', 'w') as f:
      json.dump(self.dicionario_inverso, f)

  def load(self):
    # carrega o dicionario usando json
    with open('dicionario.json', 'r') as f:
      self.dicionario = json.load(f)
    with open('dicionario_inverso.json', 'r') as f:
      self.dicionario_inverso = json.load(f)

In [None]:
dataset = [
  "bom celular",
  "sol, choveu durante o dia",
  "bom dia, não gostei disso"
]

tokenizer = Tokenizer()
tokenizer.fit(dataset)
tokenized_dataset = [tokenizer.encode(x) for x in dataset]
tokenized_dataset

Agora podemos codificar nosso Encoding de posição

$PE_{(pos, 2i)} = sin(\frac{pos}{10000^{2i/d}})$ \\
$PE_{(pos, 2i+1)} = cos(\frac{pos}{10000^{2i/d}})$

In [None]:
class PositionalEncoding(nn.Module):
    def __init__(self, dim_model, dropout_p, max_len):
      super().__init__()
      # Inicializa aqui as camadas e as variáveis necessárias
        
    def forward(self, token_embedding: torch.tensor) -> torch.tensor:
      # Realiza o forward do Encoding
      raise NotImplementedError('Coloque o código aqui!')

# Implementando a Tranformer

Para esse exercício iremos usar a implementação da transformers do PyTorch para nos adaptarmos em ler a documentação e usar o que já está pronto.

A documentação está: https://pytorch.org/docs/stable/generated/torch.nn.Transformer.html

\\
Além dela iremos utilizar o módulo nn.Embedding(), criado pelo PyTorch

A documentação está: https://pytorch.org/docs/stable/generated/torch.nn.Embedding.html

In [None]:
class Transformer(nn.Module):
    def __init__(
        self,
        num_tokens,
        dim_model,
        num_heads,
        num_encoder_layers,
        num_decoder_layers,
        dropout_p,
    ):
      super().__init__()
      # Inicializa aqui as camadas e as variáveis necessárias
        
    def forward(self, src, tgt, tgt_mask=None, src_pad_mask=None, tgt_pad_mask=None):
      # Realiza o forward do modelo
      raise NotImplementedError('Coloque o código aqui!')
      
    def get_tgt_mask(self, size) -> torch.tensor:
      # Cria as máscaras necessárias para não olhar para frente
      raise NotImplementedError('Coloque o código aqui!')

Vamos criar o nosso modelo, seu otimizador e a função de custo

In [None]:
device = "cuda" if torch.cuda.is_available() else "cpu"
model = Transformer(
    num_tokens=len(tokenizer.dicionario.keys()) + 4,
    dim_model=32, 
    num_heads=2, 
    num_encoder_layers=3, 
    num_decoder_layers=3, 
    dropout_p=0.1
).to(device)
opt = torch.optim.SGD(model.parameters(), lr=0.01)
loss_fn = nn.CrossEntropyLoss()

Aqui conseguimos treinar o modelo

In [None]:
from tqdm import tqdm
import numpy as np

model.train()
# Faça o Loop de treino do modelo aqui

E podemos validar o modelo aqui

In [None]:
model.eval()

x = torch.tensor([[2, 6]], device=device)
y_input = torch.tensor([[2]], dtype=torch.long, device=device)

for _ in range(7):
    # Get source mask
    tgt_mask = model.get_tgt_mask(y_input.size(1)).to(device)
    
    pred = model(x, y_input, tgt_mask)
    
    next_item = torch.argmax(pred, 2)[-1].item()
    next_item = torch.tensor([[next_item]], device=device)

    y_input = torch.cat((y_input, next_item), dim=1)

    if next_item.view(-1).item() == 3:
        break

tokenizer.decode(y_input[0, 1:-1].cpu().numpy())