# Exercício: Modelo de linguagem (Bengio 2003) - MLP + Embeddings

# Parâmetros

In [None]:
# Livros (testando com dom casmurro, memórias póstumas e quincas borda, pra dar pelo menos 20.000 palavras)
#urls = ["https://www.gutenberg.org/cache/epub/55752/pg55752.txt", "https://www.gutenberg.org/cache/epub/54829/pg54829.txt", "https://www.gutenberg.org/cache/epub/55682/pg55682.txt"]

# Livros (O Guarani)
urls = ["https://www.gutenberg.org/ebooks/67724.txt.utf-8", "https://www.gutenberg.org/ebooks/67725.txt.utf-8"]

# Dados do vocabulário
UNK = "<unk>"
vocab_size_desejado_sem_UNK = 3000 # Não considera o UNK
vocab_size = vocab_size_desejado_sem_UNK + 1

# Dados de treinamento
context_size = 9 # número de palavras de entrada. O target é a próxima palavra
num_epochs = 50 # usado pra fazer overfit no modelo e ajudar na verificação do treinamento
test_size = 0.2
seed = 18
batch_size=128
m = 64 # tamanho dos embeddings
h = 200 # tamanho da camada oculta
lr = 0.06
momentum = 0.9

# Tratamentos dos dados

## Download e agrupamento em parágrafos

In [None]:
import requests

def carregar_paragrafos_livro(url, n_linhas_para_print=20):
  # Baixar o arquivo de texto
  response = requests.get(url)
  texto = response.text

  # Encontrar o início e o fim do conteúdo principal do livro
  inicio = texto.find("*** START OF THE PROJECT GUTENBERG EBOOK")
  fim = texto.find("*** END OF THE PROJECT GUTENBERG EBOOK")

  # Extrair o conteúdo principal do livro
  conteudo = texto[inicio:fim].replace('\r','')

  # Dividir o conteúdo em parágrafos e processar o conteúdo
  paragrafos = []

  # Cada parágrafo é separado por dois \n
  # Dentro de cada parágrafo, junta as linhas (remove) e faz um trim
  # Apenas considera os parágrafos que tem pelo menos 10 caracteres
  for paragrafo in conteudo.split("\n\n"):
    paragrafo = paragrafo.replace('\n', ' ').strip()
    if len(paragrafo) > 10:
      paragrafos.append(paragrafo)

  for p in paragrafos[0:n_linhas_para_print]:
    print(p)

  return paragrafos

paragrafos = []
for i, url in enumerate(urls, 1):
  print(f'-------------- Livro {i} ---------------')
  paragrafos.extend(carregar_paragrafos_livro(url))

-------------- Livro 1 ---------------
*** START OF THE PROJECT GUTENBERG EBOOK O GUARANY: ROMANCE BRAZILEIRO, VOL. 1 (OF 2) ***
J. DE ALENCAR
ROMANCE BRAZILEIRO
QUINTA EDIÇÃO
TOMO PRIMEIRO
RIO DE JANEIRO
B.-L. GARNIER, LIVREIRO-EDITOR
71, RUA DO OUVIDOR, 71
PARIS.--E. MELLIER, 17, RUA SÉGUIER.
Ficão reservados os direitos de propriedade.
Publicando este livro em 1857, se disse ser aquella primeira edição uma prova typographica, que algum dia talvez o autor se dispuzesse a rever.
Esta nova edição devia dar satisfação do empenho, que a extrema benevolencia do publico ledor, tão minguado ainda, mudou em bem para divida de reconhecimento.
Mais do que podia fiou de si o autor. Relendo a obra depois de annos, achou elle tão mau e incorrecto quando escrevera, que para bem corrigir, fora mister escrever de novo. Para tanto lhe carece o tempo e sobra o tedio de um labor ingrato.
Cingio-se pois ás pequenas emendas que toleravão o plano da obra e o desalinho de um estylo não castigado.
INDICE PR

## Tokenizador

Define um tokenizador simples. A ideia desse tokenizador é manter as palavras e os sinais de pontuação. Quero testar gerar tokens também para os sinais de pontuação.

*Gerado com ChatGPT.*

In [None]:
import re

def tokenizar(texto):
  texto = texto.lower()

  # Define a expressão regular que captura palavras e sinais de pontuação
  padrao = r'\w+|[^\w\s]'

  # Usa o método findall para encontrar todas as ocorrências que se encaixam no padrão
  tokens = re.findall(padrao, texto)

  return tokens

print(tokenizar('Teste. Será que vai manter a pontuação?'))

['teste', '.', 'será', 'que', 'vai', 'manter', 'a', 'pontuação', '?']


## Geração do vocabulário

Agora vamos gerar o vocabulário.

In [None]:
%%time
from collections import Counter
counter = Counter()

def gerar_vocabulario(paragrafos, vocab_size_sem_UNK):
  for p in paragrafos:
    # Update com os tokens de cada parágrafo
    counter.update(tokenizar(p))

  # Considera apenas as palavras mais frequentes. Adiciona, na posição 0, o token UNK
  most_frequent_words = [UNK] + sorted(counter, key=counter.get, reverse=True)[:vocab_size_sem_UNK]
  # vocab é um mapa de palavras para o índice correspondente. O mapa leva a palavra para um índice entre [0, vocab_size]
  # (o tamanho é vocab_size + 1), com o índice 0 apontando para UNK
  vocab = {word: i for i, word in enumerate(most_frequent_words)}

  return len(most_frequent_words), vocab, most_frequent_words

CPU times: user 11 µs, sys: 3 µs, total: 14 µs
Wall time: 16.5 µs


In [None]:
vocab_size, vocab, most_frequent_words = gerar_vocabulario(paragrafos, vocab_size_desejado_sem_UNK)

print('Tamanho do vocabulário (considera UNK): ', vocab_size)

print('Posição 0: ', most_frequent_words[0])
print('Índice do UNK: ', vocab[UNK])
print('------------')
print('Posição 200: ', most_frequent_words[200])
print(f'Índice de {most_frequent_words[200]}: ', vocab[most_frequent_words[200]])

Tamanho do vocabulário (considera UNK):  3001
Posição 0:  <unk>
Índice do UNK:  0
------------
Posição 200:  janella
Índice de janella:  200


## Encoder de frases

In [None]:
def encode_sentence(sentence, vocab):
  # Obs.: tem que usar o mesmo tokenizador que foi gerado o vocabulário
  return [vocab.get(word, 0) for word in tokenizar(sentence)]

In [None]:
def decode_sentence(sentence, most_frequent_words):
  words = [most_frequent_words[code] for code in sentence]
  return ' '.join(words)

In [None]:
# Teste do encode/decode
frase = "E ele pegou a árvore e arrancou do chão."

frase_encodada = encode_sentence(frase, vocab)
frase_reconstruida = decode_sentence(frase_encodada, most_frequent_words)

print('Original:')
print(frase)
print('Encodada:')
print(frase_encodada)
print('Reconstruída:')
print(frase_reconstruida)
print("--------------------------------------")

frase = "E no seminario me disseram que não."

frase_encodada = encode_sentence(frase, vocab)
frase_reconstruida = decode_sentence(frase_encodada, most_frequent_words)

print('Original:')
print(frase)
print('Encodada:')
print(frase_encodada)
print('Reconstruída:')
print(frase_reconstruida)


Original:
E ele pegou a árvore e arrancou do chão.
Encodada:
[8, 0, 0, 4, 0, 8, 1651, 12, 378, 1]
Reconstruída:
e <unk> <unk> a <unk> e arrancou do chão .
--------------------------------------
Original:
E no seminario me disseram que não.
Encodada:
[8, 25, 0, 44, 0, 5, 13, 1]
Reconstruída:
e no <unk> me <unk> que não .


# Dataset

Para cada parágrafo, é necessário gerar os dados de treinamento. Supondo que a frase é "eu gosto de pizza." e vamos usar uma janela de contexto igual a 2, a ideia é que essa frase gere o seguinte conjunto de treinamento:

input -> target

[UNK, "eu"] -> "gosto" (ESSE CASO NÃO SERÁ CONSIDERADO POR ENQUANTO)

["eu", "gosto"] -> "de"

["gosto", "de"] -> "pizza"

["de", "pizza"] -> "."

In [None]:
def gera_inputs_e_targets_para_array(array, n):
  # Faz uma janela deslizante de tamanho n no array

  janelas = []
  targets = []

  for i in range(len(array) - n):
    janela = array[i:i+n]
    janelas.append(janela)
    targets.append(array[i+n])

  return janelas, targets

# Exemplo de uso
exemplo = "eu gosto de pizza .".split()

for n in range(1, 4):
  print(f'Testando para janela de tamanho {n}')
  inputs, targets = gera_inputs_e_targets_para_array(exemplo, n)

  # Testa
  for input_target in zip(inputs, targets):
    print(f'{input_target[0]} -> {input_target[1]}')
  print('------------------------------')

Testando para janela de tamanho 1
['eu'] -> gosto
['gosto'] -> de
['de'] -> pizza
['pizza'] -> .
------------------------------
Testando para janela de tamanho 2
['eu', 'gosto'] -> de
['gosto', 'de'] -> pizza
['de', 'pizza'] -> .
------------------------------
Testando para janela de tamanho 3
['eu', 'gosto', 'de'] -> pizza
['gosto', 'de', 'pizza'] -> .
------------------------------


In [None]:
# Testa com um parágrafo real e o tamanho do contexto configurado
i = 60
inputs, targets = gera_inputs_e_targets_para_array(tokenizar(paragrafos[i]), context_size)
print(paragrafos[i])
for input_target in zip(inputs, targets):
  print(f'{input_target[0]} -> {input_target[1]}')

Depois, vendo que esta expedição não se realisava, e que seu braço e sua coragem de nada valião ao rei de Portugal, jurou que ao menos lhe guardaria fidelidade até a morte. Tomou os seus penates, o seu brasão, as suas armas, a sua familia, e foi estabelecer-se naquella sesmaria que lhe concedera Mem de Sá. Ahi, de pé sobre a eminencia em que ia assentar o seu novo solar, D. Antonio de Mariz erguendo o vulto direito, e lançando um olhar sobranceiro pelos vastos horizontes que abrião em torno, exclamou:
['depois', ',', 'vendo', 'que', 'esta', 'expedição', 'não', 'se', 'realisava'] -> ,
[',', 'vendo', 'que', 'esta', 'expedição', 'não', 'se', 'realisava', ','] -> e
['vendo', 'que', 'esta', 'expedição', 'não', 'se', 'realisava', ',', 'e'] -> que
['que', 'esta', 'expedição', 'não', 'se', 'realisava', ',', 'e', 'que'] -> seu
['esta', 'expedição', 'não', 'se', 'realisava', ',', 'e', 'que', 'seu'] -> braço
['expedição', 'não', 'se', 'realisava', ',', 'e', 'que', 'seu', 'braço'] -> e
['não', 'se

In [None]:
# Testa com um parágrafo real, mas agora ele encodado e o tamanho do contexto configurado
inputs, targets = gera_inputs_e_targets_para_array(encode_sentence(paragrafos[i], vocab), context_size)
print(paragrafos[i])
for input_target in zip(inputs, targets):
  print(f'{input_target[0]} -> {input_target[1]}')

Depois, vendo que esta expedição não se realisava, e que seu braço e sua coragem de nada valião ao rei de Portugal, jurou que ao menos lhe guardaria fidelidade até a morte. Tomou os seus penates, o seu brasão, as suas armas, a sua familia, e foi estabelecer-se naquella sesmaria que lhe concedera Mem de Sá. Ahi, de pé sobre a eminencia em que ia assentar o seu novo solar, D. Antonio de Mariz erguendo o vulto direito, e lançando um olhar sobranceiro pelos vastos horizontes que abrião em torno, exclamou:
[61, 2, 275, 5, 119, 999, 13, 9, 0] -> 2
[2, 275, 5, 119, 999, 13, 9, 0, 2] -> 8
[275, 5, 119, 999, 13, 9, 0, 2, 8] -> 5
[5, 119, 999, 13, 9, 0, 2, 8, 5] -> 20
[119, 999, 13, 9, 0, 2, 8, 5, 20] -> 204
[999, 13, 9, 0, 2, 8, 5, 20, 204] -> 8
[13, 9, 0, 2, 8, 5, 20, 204, 8] -> 18
[9, 0, 2, 8, 5, 20, 204, 8, 18] -> 362
[0, 2, 8, 5, 20, 204, 8, 18, 362] -> 7
[2, 8, 5, 20, 204, 8, 18, 362, 7] -> 252
[8, 5, 20, 204, 8, 18, 362, 7, 252] -> 0
[5, 20, 204, 8, 18, 362, 7, 252, 0] -> 28
[20, 204, 8, 

In [None]:
%%time
import torch
from torch.utils.data import Dataset, DataLoader
import torch.nn.functional as F

class ParagrafosDataset(Dataset):
  def __init__(self, paragrafos, vocab, context_size):
    # Salva o vocabulário
    self.vocab = vocab
    # Cria os inputs e target
    inputs = []
    targets = []

    for p in paragrafos:
      # O primeiro passo é pegar cada frase do parágrafo e encodar
      p_tokenizado = encode_sentence(p, self.vocab)
      # Só faz sentido considerar frases que tem no mínimo (context_size + 1) tokens
      if (len(p_tokenizado) <= context_size):
        continue

      # Agora vamos gerar os dados de treinamento para esse parágrafo
      p_inputs, p_targets = gera_inputs_e_targets_para_array(p_tokenizado, context_size)

      # Adiciona independentemente se tiver UKN ou não no input ou target
      inputs.extend(p_inputs)
      targets.extend(p_targets)

      # Apenas adiciona se o input ou o target não tiver nenhum UNK (código 0)
      #for p_um_input, p_um_target in zip(p_inputs, p_targets):
      #  if (0 not in p_um_input and p_um_target != 0):
      #    inputs.append(p_um_input)
      #    targets.append(p_um_target)

    # Mantém em cache
    self.inputs = torch.tensor(inputs)
    self.targets = torch.tensor(targets)

  def __len__(self):
    return len(self.targets)

  def __getitem__(self, idx):
    return self.inputs[idx], self.targets[idx]

CPU times: user 1.45 s, sys: 321 ms, total: 1.77 s
Wall time: 3.39 s


In [None]:
teste_paragrafos = ["Depois, vendo que esta expedição não se realisava, e que seu braço e sua coragem de nada valião ao rei de Portugal"]
teste_dataset = ParagrafosDataset(teste_paragrafos, vocab, context_size)

print('Imprimindo o dataset')
for dados in teste_dataset:
  print(dados)

print('-------------------------')
print('Como deveria estar (testando se o dataset está considerando corretamente os parágrafos. Tem que descartar os que tem UNK (0)):')
for p in teste_paragrafos:
  # Faz o encode do parágrafo
  p_encodado = encode_sentence(p, vocab)
  inputs, targets = gera_inputs_e_targets_para_array(p_encodado, context_size)
  for inputs_targets in zip(inputs, targets):
    print(torch.tensor(inputs_targets[0]), torch.tensor(inputs_targets[1]))

Imprimindo o dataset
(tensor([ 61,   2, 275,   5, 119, 999,  13,   9,   0]), tensor(2))
(tensor([  2, 275,   5, 119, 999,  13,   9,   0,   2]), tensor(8))
(tensor([275,   5, 119, 999,  13,   9,   0,   2,   8]), tensor(5))
(tensor([  5, 119, 999,  13,   9,   0,   2,   8,   5]), tensor(20))
(tensor([119, 999,  13,   9,   0,   2,   8,   5,  20]), tensor(204))
(tensor([999,  13,   9,   0,   2,   8,   5,  20, 204]), tensor(8))
(tensor([ 13,   9,   0,   2,   8,   5,  20, 204,   8]), tensor(18))
(tensor([  9,   0,   2,   8,   5,  20, 204,   8,  18]), tensor(362))
(tensor([  0,   2,   8,   5,  20, 204,   8,  18, 362]), tensor(7))
(tensor([  2,   8,   5,  20, 204,   8,  18, 362,   7]), tensor(252))
(tensor([  8,   5,  20, 204,   8,  18, 362,   7, 252]), tensor(0))
(tensor([  5,  20, 204,   8,  18, 362,   7, 252,   0]), tensor(28))
(tensor([ 20, 204,   8,  18, 362,   7, 252,   0,  28]), tensor(552))
(tensor([204,   8,  18, 362,   7, 252,   0,  28, 552]), tensor(7))
(tensor([  8,  18, 362,   7, 2

Gera datasets de treinamento e de teste:

- Vou fazer a consideração de que a proporção é no total de parágrafos, e não no total do conjunto de dados. Como cada parágrafo tem um total de frases/palavras diferentes, o conjunto final não ficará com a proporção exatamente conforme esperado inicialmente. Entretanto, pensando que em um texto as coisas são mais ou menos distribuídas, espera-se que, no final, a proporção seja mais ou menos conforme a desejada.

- Depois de fazer isso, é necessário gerar novamente o vocabulário, mas considerando apenas o conjunto de treinamento.

In [None]:
from sklearn.model_selection import train_test_split

train_paragrafos, val_paragrafos = train_test_split(paragrafos, test_size=test_size, random_state=seed)

In [None]:
# Gera novamente o vocabulário, mas agora usando apenas os parágrafos de treinamento
vocab_size, vocab, most_frequent_words = gerar_vocabulario(train_paragrafos, vocab_size_desejado_sem_UNK)
print(vocab_size)

3001


In [None]:
# Gera os dataset de treino e validação
train_data = ParagrafosDataset(train_paragrafos, vocab, context_size)
val_data = ParagrafosDataset(val_paragrafos, vocab, context_size)

In [None]:
print(f'len(val_data): {len(val_data)}')
print(f'len(train_data): {len(train_data)}')
print(f'Proporção de teste: {len(val_data)/(len(train_data)+len(val_data))}')

len(val_data): 19221
len(train_data): 79004
Proporção de teste: 0.19568337999490965


# DataLoader

In [None]:
%%time
train_loader = DataLoader(train_data, batch_size=batch_size, shuffle=True)
val_loader = DataLoader(val_data, batch_size=batch_size, shuffle=False)

CPU times: user 244 µs, sys: 43 µs, total: 287 µs
Wall time: 294 µs


# Modelo

In [None]:
import torch.nn as nn

class LanguageModel(torch.nn.Module):
  def __init__(self, vocab_size, context_size, m, h):
    super(LanguageModel, self).__init__()

    self.C = nn.Embedding(vocab_size, m)
    self.d_plus_H = nn.Linear(in_features=context_size*m, out_features=h, bias=True)
    self.relu = nn.ReLU()
    self.b_plus_U = nn.Linear(in_features=h, out_features=vocab_size, bias=True)
    # Modelo do artigo:
    #self.U = nn.Linear(in_features=h, out_features=vocab_size, bias=False)
    #self.b_plus_W = nn.Linear(in_features=context_size*m, out_features=vocab_size, bias=True)

  def forward(self, w):
    # A fórmula é:
    # y = b + Wx + U*tanh(d + Hx)
    #
    # No exercício, o professor pediu para usar ReLU no lugar de tanh. Além disso,
    # comentou para usar duas camadas lineares. Então provavelmente estamos
    # fazendo é:
    # y = b + U*relu(d + Hx)
    # Que é similar ao original, mas considerando W = 0

    # x é uma entrada de tamanho context_size (no artigo é chamada de n)
    # O primeiro passo é manter os embeddings de x
    x = self.C(w)
    if x.dim() == 3: # Usando batchs
      batch_size, _, _ = x.shape
      x = x.view(batch_size, -1)
    elif x.dim() == 2: # Calculando sem usar batch, usando um tensor direto
      x = x.view(-1)
    # O segundo passo é fazer (d + Hx). Isso é uma transformação linear
    # A entrada é x (tamanho n*m) e a saída vai ser h (definida)
    o = self.d_plus_H(x)
    # O artigo calcula com tangente hiperbólica, mas o professor pediu com ReLU
    o = self.relu(o)
    # Passando pela segunda camada
    return self.b_plus_U(o)
    # return self.U(o) + self.b_plus_W(x) # Modelo do artigo

# Model instantiation
model = LanguageModel(vocab_size, context_size, m, h)

In [None]:
import numpy as np
# Testes com as dimensões
# Gera um embeddings
C = nn.Embedding(vocab_size, m)
# Considera que a entrada é um vetor de índice (tem que ser do tamanho de context_size) e calcula os embeddings
x = C(torch.tensor(np.random.randint(0, 10, size=context_size)))
print(x.shape)
# Achata o vetor
x = x.view(-1)
print(x.shape)
# Cria a primeira camada
d_plus_H = nn.Linear(in_features=context_size*m, out_features=h, bias=True)
o = d_plus_H(x)
print(o.shape)
# Passa por ReLu
o = nn.ReLU()(o)
print(o.shape)
# Última camada
b_plus_U = nn.Linear(in_features=h, out_features=vocab_size, bias=True)
o = b_plus_U(o)
print(o.shape)

torch.Size([9, 64])
torch.Size([576])
torch.Size([200])
torch.Size([200])
torch.Size([3001])


# Treinamento

In [None]:
# Verifica se há uma GPU disponível e define o dispositivo para GPU se possível, caso contrário, usa a CPU
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
if device.type == 'cuda':
  print('GPU:', torch.cuda.get_device_name(torch.cuda.current_device()))
else:
  print('using CPU')

GPU: Tesla T4


In [None]:
import math
from tqdm import tqdm

def calcula_loss_e_perplexidade(model, loader):
  criterion = nn.CrossEntropyLoss(reduction='sum')
  with torch.no_grad(): # Garante que nenhum gradiente seja calculado
    model.eval()  # Coloca o modelo no modo de avaliação (não treinamento)
    loss = 0.0
    acc = 0
    for inputs, targets in tqdm(loader, desc='Calculando loss e perplexidade'):
      inputs = inputs.to(device)
      targets = targets.to(device)
      # Forward pass
      outputs = model(inputs)
      # Acumula a perda
      loss += criterion(outputs, targets)
      acc += len(targets)

    loss = loss/acc
    ppl = math.exp(loss)

    return loss, ppl

Cálcula a loss e a perplexidade antes do treinamento

In [None]:
def print_loss_ppl(msg, loss, ppl):
  print(f'{msg}. Loss: {loss:.2f}. Perplexidade: {ppl:.2f}\n')

In [None]:
# Model instantiation
model = LanguageModel(vocab_size, context_size, m, h)
model.to(device)

# Primeiro testa em um dataloader pequeno:
dataset_pequeno = ParagrafosDataset(paragrafos[0:15], vocab, context_size)
loader_pequeno = DataLoader(dataset_pequeno, batch_size=2, shuffle=False)

loss, ppl = calcula_loss_e_perplexidade(model, loader_pequeno)
print_loss_ppl('\nAntes de iniciar o treinamento', loss, ppl)

Calculando loss e perplexidade: 100%|██████████| 743/743 [00:01<00:00, 416.14it/s]


Antes de iniciar o treinamento. Loss: 8.10. Perplexidade: 3293.62






In [None]:
loss, ppl = calcula_loss_e_perplexidade(model, train_loader)
print_loss_ppl('\nAntes de iniciar o treinamento', loss, ppl)

Calculando loss e perplexidade: 100%|██████████| 618/618 [00:01<00:00, 413.71it/s]


Antes de iniciar o treinamento. Loss: 8.03. Perplexidade: 3081.14






In [None]:
import time
import torch.optim as optim

def treina_modelo(model, optimizer, train_loader, val_loader, num_epochs=num_epochs):
  print(f'------------------ ANTES DE INICIAR O TREINAMENTO ------------------')
  loss, ppl = calcula_loss_e_perplexidade(model, train_loader)
  print_loss_ppl(f'[TRAIN]', loss, ppl)

  loss, ppl = calcula_loss_e_perplexidade(model, val_loader)
  print_loss_ppl(f'[EVAL]', loss, ppl)


  criterion = nn.CrossEntropyLoss(reduction='mean')
  for epoch in range(num_epochs):
    model.train()
    start_time = time.time()  # Start time of the epoch
    print(f'------------------ [ÉPOCA {epoch+1}/{num_epochs}] ------------------')
    for inputs, targets in tqdm(train_loader, desc='Treinando modelo'):
      inputs = inputs.to(device)
      targets = targets.to(device)
      # Forward pass
      outputs = model(inputs)
      # Calcula loss no batch
      loss = criterion(outputs, targets)
      # Backward and optimize
      optimizer.zero_grad()
      loss.backward()
      optimizer.step()

    end_time = time.time()  # End time of the epoch
    epoch_duration = end_time - start_time  # Duration of epoch

    print(f'Elapsed time: {epoch_duration:.2f} sec')

    loss, ppl = calcula_loss_e_perplexidade(model, train_loader)
    print_loss_ppl(f'[TRAIN]', loss, ppl)

    loss, ppl = calcula_loss_e_perplexidade(model, val_loader)
    print_loss_ppl(f'[EVAL]', loss, ppl)

    checkpoint_path = f"modelo_epoca_{epoch+1}.pth"
    torch.save({
        'epoch': epoch,
        'model_state_dict': model.state_dict(),
        'optimizer_state_dict': optimizer.state_dict()
    }, checkpoint_path)

In [None]:
def escrever_frase(modelo, vocab, most_frequent_words, entrada, context_size, n_proximas_palavras, descartar_ukn=True):
  if (n_proximas_palavras == 0):
    return entrada
  else:
    # Faz o encode da frase de entrada e considera apenas as últimas 'context_size'
    inputs = encode_sentence(entrada, vocab)
    # Pega só as context_size últimas
    inputs = inputs[len(inputs)-context_size:len(inputs)]

    with torch.no_grad():
      output = model(torch.tensor(inputs).to(device))
      softmax = nn.functional.softmax(output, dim=0)
      if descartar_ukn:
        valores, indices = softmax.topk(2, dim=0)
        melhor_not_ukn = indices[0].item() if indices[0].item() != 0 else indices[1].item()
        predicao = most_frequent_words[melhor_not_ukn]
      else:
        argmax = softmax.argmax(dim=0)
        predicao = most_frequent_words[argmax]

  return escrever_frase(modelo, vocab, most_frequent_words, f'{entrada} {predicao}', context_size, n_proximas_palavras-1)

In [None]:
# Reinicializa o modelo
model = LanguageModel(vocab_size, context_size, m, h)
model.to(device)

# Escreve uma frase com o modelo sem estar treinado
frase = "O espectaculo que se ofereceu aos seus olhos causou"
print(escrever_frase(model, vocab, most_frequent_words, frase, context_size, 10))

# Treina o modelo
#optimizer = optim.AdamW(model.parameters(), lr=0.01, weight_decay=0.1)
optimizer = optim.SGD(model.parameters(), lr=lr, momentum=momentum)
treina_modelo(model, optimizer, train_loader, val_loader, num_epochs=num_epochs)

O espectaculo que se ofereceu aos seus olhos causou vacillou loucura fidelidade imprevisto pequenas entrava pello bolsa bolsa elevou
------------------ ANTES DE INICIAR O TREINAMENTO ------------------


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:01<00:00, 339.87it/s]


[TRAIN]. Loss: 8.02. Perplexidade: 3049.40



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 889.91it/s]


[EVAL]. Loss: 8.02. Perplexidade: 3045.94

------------------ [ÉPOCA 1/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 368.95it/s]


Elapsed time: 1.68 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:01<00:00, 551.36it/s]


[TRAIN]. Loss: 4.60. Perplexidade: 99.03



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 617.04it/s]


[EVAL]. Loss: 5.04. Perplexidade: 154.36

------------------ [ÉPOCA 2/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 484.62it/s]


Elapsed time: 1.28 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 843.34it/s]


[TRAIN]. Loss: 4.12. Perplexidade: 61.28



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 864.68it/s]


[EVAL]. Loss: 4.91. Perplexidade: 135.64

------------------ [ÉPOCA 3/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 491.32it/s]


Elapsed time: 1.26 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 843.97it/s]


[TRAIN]. Loss: 3.76. Perplexidade: 42.83



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 926.51it/s]


[EVAL]. Loss: 4.98. Perplexidade: 145.24

------------------ [ÉPOCA 4/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 487.05it/s]


Elapsed time: 1.28 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 870.46it/s]


[TRAIN]. Loss: 3.38. Perplexidade: 29.31



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 928.71it/s]


[EVAL]. Loss: 5.10. Perplexidade: 164.08

------------------ [ÉPOCA 5/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 495.35it/s]


Elapsed time: 1.25 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 861.58it/s]


[TRAIN]. Loss: 3.06. Perplexidade: 21.25



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 883.47it/s]


[EVAL]. Loss: 5.30. Perplexidade: 200.73

------------------ [ÉPOCA 6/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 439.15it/s]


Elapsed time: 1.42 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:01<00:00, 568.34it/s]


[TRAIN]. Loss: 2.72. Perplexidade: 15.25



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 590.27it/s]


[EVAL]. Loss: 5.49. Perplexidade: 241.66

------------------ [ÉPOCA 7/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 429.50it/s]


Elapsed time: 1.44 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 864.32it/s]


[TRAIN]. Loss: 2.52. Perplexidade: 12.39



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 910.15it/s]


[EVAL]. Loss: 5.76. Perplexidade: 318.38

------------------ [ÉPOCA 8/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 496.28it/s]


Elapsed time: 1.25 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 868.64it/s]


[TRAIN]. Loss: 2.24. Perplexidade: 9.40



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 907.63it/s]


[EVAL]. Loss: 6.01. Perplexidade: 407.12

------------------ [ÉPOCA 9/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 487.61it/s]


Elapsed time: 1.28 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 879.45it/s]


[TRAIN]. Loss: 2.14. Perplexidade: 8.46



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 893.93it/s]


[EVAL]. Loss: 6.34. Perplexidade: 569.47

------------------ [ÉPOCA 10/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 495.27it/s]


Elapsed time: 1.25 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 854.28it/s]


[TRAIN]. Loss: 1.94. Perplexidade: 6.98



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 881.78it/s]


[EVAL]. Loss: 6.60. Perplexidade: 733.86

------------------ [ÉPOCA 11/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 497.52it/s]


Elapsed time: 1.25 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 675.96it/s]


[TRAIN]. Loss: 1.85. Perplexidade: 6.37



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 598.33it/s]


[EVAL]. Loss: 6.93. Perplexidade: 1019.42

------------------ [ÉPOCA 12/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 384.01it/s]


Elapsed time: 1.62 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 842.66it/s]


[TRAIN]. Loss: 1.71. Perplexidade: 5.52



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 891.37it/s]


[EVAL]. Loss: 7.11. Perplexidade: 1228.10

------------------ [ÉPOCA 13/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 497.08it/s]


Elapsed time: 1.25 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 847.28it/s]


[TRAIN]. Loss: 1.66. Perplexidade: 5.25



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 877.86it/s]


[EVAL]. Loss: 7.39. Perplexidade: 1622.77

------------------ [ÉPOCA 14/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 494.62it/s]


Elapsed time: 1.26 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 880.33it/s]


[TRAIN]. Loss: 1.56. Perplexidade: 4.74



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 904.77it/s]


[EVAL]. Loss: 7.61. Perplexidade: 2011.52

------------------ [ÉPOCA 15/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 492.02it/s]


Elapsed time: 1.26 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 880.11it/s]


[TRAIN]. Loss: 1.46. Perplexidade: 4.30



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 913.12it/s]


[EVAL]. Loss: 7.87. Perplexidade: 2624.11

------------------ [ÉPOCA 16/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 482.00it/s]


Elapsed time: 1.29 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 879.21it/s]


[TRAIN]. Loss: 1.39. Perplexidade: 4.00



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 886.59it/s]


[EVAL]. Loss: 8.16. Perplexidade: 3507.79

------------------ [ÉPOCA 17/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 354.52it/s]


Elapsed time: 1.75 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 716.36it/s]


[TRAIN]. Loss: 1.39. Perplexidade: 4.00



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 858.79it/s]


[EVAL]. Loss: 8.47. Perplexidade: 4747.86

------------------ [ÉPOCA 18/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 474.22it/s]


Elapsed time: 1.31 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 860.82it/s]


[TRAIN]. Loss: 1.31. Perplexidade: 3.70



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 860.14it/s]


[EVAL]. Loss: 8.68. Perplexidade: 5887.41

------------------ [ÉPOCA 19/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 491.44it/s]


Elapsed time: 1.27 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 833.66it/s]


[TRAIN]. Loss: 1.32. Perplexidade: 3.75



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 926.39it/s]


[EVAL]. Loss: 8.97. Perplexidade: 7869.18

------------------ [ÉPOCA 20/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 478.13it/s]


Elapsed time: 1.30 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 850.68it/s]


[TRAIN]. Loss: 1.23. Perplexidade: 3.44



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 921.74it/s]


[EVAL]. Loss: 9.19. Perplexidade: 9815.68

------------------ [ÉPOCA 21/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 487.68it/s]


Elapsed time: 1.28 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 851.50it/s]


[TRAIN]. Loss: 1.12. Perplexidade: 3.07



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 887.86it/s]


[EVAL]. Loss: 9.51. Perplexidade: 13470.78

------------------ [ÉPOCA 22/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 382.82it/s]


Elapsed time: 1.62 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:01<00:00, 548.69it/s]


[TRAIN]. Loss: 1.09. Perplexidade: 2.98



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 843.99it/s]


[EVAL]. Loss: 9.76. Perplexidade: 17311.62

------------------ [ÉPOCA 23/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 484.40it/s]


Elapsed time: 1.28 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 841.39it/s]


[TRAIN]. Loss: 1.06. Perplexidade: 2.89



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 872.07it/s]


[EVAL]. Loss: 10.10. Perplexidade: 24329.88

------------------ [ÉPOCA 24/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 476.65it/s]


Elapsed time: 1.30 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 850.34it/s]


[TRAIN]. Loss: 1.03. Perplexidade: 2.80



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 858.02it/s]


[EVAL]. Loss: 10.35. Perplexidade: 31278.73

------------------ [ÉPOCA 25/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 478.08it/s]


Elapsed time: 1.30 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 843.35it/s]


[TRAIN]. Loss: 0.98. Perplexidade: 2.65



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 823.16it/s]


[EVAL]. Loss: 10.74. Perplexidade: 46295.27

------------------ [ÉPOCA 26/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 460.22it/s]


Elapsed time: 1.35 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 812.41it/s]


[TRAIN]. Loss: 0.97. Perplexidade: 2.63



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 899.56it/s]


[EVAL]. Loss: 11.07. Perplexidade: 64296.68

------------------ [ÉPOCA 27/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 407.44it/s]


Elapsed time: 1.53 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:01<00:00, 550.87it/s]


[TRAIN]. Loss: 0.94. Perplexidade: 2.57



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 657.77it/s]


[EVAL]. Loss: 11.48. Perplexidade: 97081.58

------------------ [ÉPOCA 28/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 480.45it/s]


Elapsed time: 1.29 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 809.28it/s]


[TRAIN]. Loss: 0.86. Perplexidade: 2.36



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 888.95it/s]


[EVAL]. Loss: 11.63. Perplexidade: 112690.62

------------------ [ÉPOCA 29/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 484.82it/s]


Elapsed time: 1.28 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 844.88it/s]


[TRAIN]. Loss: 0.84. Perplexidade: 2.32



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 859.11it/s]


[EVAL]. Loss: 12.05. Perplexidade: 171311.86

------------------ [ÉPOCA 30/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 489.63it/s]


Elapsed time: 1.27 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 836.16it/s]


[TRAIN]. Loss: 0.80. Perplexidade: 2.24



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 887.67it/s]


[EVAL]. Loss: 12.36. Perplexidade: 232799.55

------------------ [ÉPOCA 31/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 481.20it/s]


Elapsed time: 1.29 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:01<00:00, 604.04it/s]


[TRAIN]. Loss: 0.80. Perplexidade: 2.23



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 795.55it/s]


[EVAL]. Loss: 12.70. Perplexidade: 326821.15

------------------ [ÉPOCA 32/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:02<00:00, 260.08it/s]


Elapsed time: 2.38 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 636.67it/s]


[TRAIN]. Loss: 0.75. Perplexidade: 2.13



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 843.20it/s]


[EVAL]. Loss: 13.13. Perplexidade: 501934.78

------------------ [ÉPOCA 33/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 440.27it/s]


Elapsed time: 1.41 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 742.60it/s]


[TRAIN]. Loss: 0.75. Perplexidade: 2.11



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 741.93it/s]


[EVAL]. Loss: 13.48. Perplexidade: 717207.13

------------------ [ÉPOCA 34/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 425.95it/s]


Elapsed time: 1.46 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 739.60it/s]


[TRAIN]. Loss: 0.70. Perplexidade: 2.01



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 783.30it/s]


[EVAL]. Loss: 13.75. Perplexidade: 940613.61

------------------ [ÉPOCA 35/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 443.74it/s]


Elapsed time: 1.40 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 791.58it/s]


[TRAIN]. Loss: 0.67. Perplexidade: 1.96



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 816.22it/s]


[EVAL]. Loss: 14.17. Perplexidade: 1429365.13

------------------ [ÉPOCA 36/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 466.88it/s]


Elapsed time: 1.33 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 784.52it/s]


[TRAIN]. Loss: 0.68. Perplexidade: 1.97



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 542.14it/s]


[EVAL]. Loss: 14.59. Perplexidade: 2173017.08

------------------ [ÉPOCA 37/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 344.52it/s]


Elapsed time: 1.80 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 835.92it/s]


[TRAIN]. Loss: 0.63. Perplexidade: 1.89



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 830.77it/s]


[EVAL]. Loss: 15.06. Perplexidade: 3455336.52

------------------ [ÉPOCA 38/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 450.08it/s]


Elapsed time: 1.38 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 801.12it/s]


[TRAIN]. Loss: 0.62. Perplexidade: 1.87



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 780.77it/s]


[EVAL]. Loss: 15.21. Perplexidade: 4042800.17

------------------ [ÉPOCA 39/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 481.19it/s]


Elapsed time: 1.29 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 848.74it/s]


[TRAIN]. Loss: 0.57. Perplexidade: 1.77



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 705.71it/s]


[EVAL]. Loss: 15.68. Perplexidade: 6465263.87

------------------ [ÉPOCA 40/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 490.81it/s]


Elapsed time: 1.27 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 852.83it/s]


[TRAIN]. Loss: 0.56. Perplexidade: 1.75



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 903.02it/s]


[EVAL]. Loss: 15.90. Perplexidade: 8027296.43

------------------ [ÉPOCA 41/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 478.10it/s]


Elapsed time: 1.30 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 829.66it/s]


[TRAIN]. Loss: 0.53. Perplexidade: 1.70



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 759.46it/s]


[EVAL]. Loss: 16.42. Perplexidade: 13488614.15

------------------ [ÉPOCA 42/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 347.77it/s]


Elapsed time: 1.78 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 725.00it/s]


[TRAIN]. Loss: 0.51. Perplexidade: 1.66



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 889.60it/s]


[EVAL]. Loss: 16.92. Perplexidade: 22347776.67

------------------ [ÉPOCA 43/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 488.13it/s]


Elapsed time: 1.27 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 816.65it/s]


[TRAIN]. Loss: 0.52. Perplexidade: 1.68



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 924.74it/s]


[EVAL]. Loss: 17.32. Perplexidade: 33348174.14

------------------ [ÉPOCA 44/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 477.87it/s]


Elapsed time: 1.30 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 814.34it/s]


[TRAIN]. Loss: 0.50. Perplexidade: 1.64



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 857.50it/s]


[EVAL]. Loss: 17.64. Perplexidade: 45972007.81

------------------ [ÉPOCA 45/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 486.26it/s]


Elapsed time: 1.28 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 858.70it/s]


[TRAIN]. Loss: 0.47. Perplexidade: 1.60



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 914.02it/s]


[EVAL]. Loss: 17.82. Perplexidade: 55030734.97

------------------ [ÉPOCA 46/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 489.33it/s]


Elapsed time: 1.27 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 889.05it/s]


[TRAIN]. Loss: 0.46. Perplexidade: 1.58



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 841.08it/s]


[EVAL]. Loss: 18.56. Perplexidade: 114920761.45

------------------ [ÉPOCA 47/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 386.99it/s]


Elapsed time: 1.61 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:01<00:00, 572.13it/s]


[TRAIN]. Loss: 0.47. Perplexidade: 1.60



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 899.74it/s]


[EVAL]. Loss: 18.94. Perplexidade: 167564381.80

------------------ [ÉPOCA 48/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 481.90it/s]


Elapsed time: 1.29 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 860.10it/s]


[TRAIN]. Loss: 0.47. Perplexidade: 1.60



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 854.49it/s]


[EVAL]. Loss: 19.32. Perplexidade: 244954646.10

------------------ [ÉPOCA 49/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 488.36it/s]


Elapsed time: 1.27 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 870.37it/s]


[TRAIN]. Loss: 0.41. Perplexidade: 1.51



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 813.49it/s]


[EVAL]. Loss: 19.74. Perplexidade: 374745032.45

------------------ [ÉPOCA 50/50] ------------------


Treinando modelo: 100%|██████████| 618/618 [00:01<00:00, 481.45it/s]


Elapsed time: 1.29 sec


Calculando loss e perplexidade: 100%|██████████| 618/618 [00:00<00:00, 816.73it/s]


[TRAIN]. Loss: 0.45. Perplexidade: 1.57



Calculando loss e perplexidade: 100%|██████████| 151/151 [00:00<00:00, 791.11it/s]

[EVAL]. Loss: 20.18. Perplexidade: 582021694.07






In [None]:
def recupera_modelo(model, epoca):
  # Recupera o modelo salvo na época x
  checkpoint_path = f"modelo_epoca_{epoca}.pth"
  # Carregar o estado do checkpoint
  checkpoint = torch.load(checkpoint_path)
  # Aplicar o estado do modelo e otimizador carregados
  model.load_state_dict(checkpoint['model_state_dict'])

O conjunto foi treinado com 50 épocas numa tentativa de fazer um overfit do modelo e verificar se ele consegue reproduzir mais ou menos o conjunto de treinamento:

In [None]:
# Overfit no modelo pra ver se ele consegue decorar as frases do conjunto de treinamento
def completa_frase_do_conjunto(context_size, paragrafos, indices, idx_modelo_overfit):
  for i in indices:
    frase_esperada = paragrafos[i]
    palavras_na_frase = frase_esperada.split(' ')
    palavras_na_frase = palavras_na_frase[0:context_size]

    if len(palavras_na_frase) == context_size:
      frase = ' '.join(palavras_na_frase)
      recupera_modelo(model, idx_modelo_overfit)
      print('-----------------------------------------------------------------')
      print(f'Testando para o índice {i}')
      print(f'Modelo da epoca {idx_modelo_overfit}:')
      print('Início:  ', frase)
      print('Correta: ', frase_esperada)
      print('Gerada:  ', escrever_frase(model, vocab, most_frequent_words, frase, context_size, 30, descartar_ukn=False))

completa_frase_do_conjunto(context_size, train_paragrafos, [1, 2, 4, 5, 8, 9, 18, 20, 21, 30], num_epochs)

-----------------------------------------------------------------
Testando para o índice 1
Modelo da epoca 50:
Início:   O espectaculo que se offereceu aos seus olhos causou-lhe
Correta:  O espectaculo que se offereceu aos seus olhos causou-lhe uma sorpreza extraordinária; não esperava de certo ver o que se passava a dez passos delle.
Gerada:   O espectaculo que se offereceu aos seus olhos causou-lhe uma sorpreza direito , não , e elle adormecida senão em cecilia , ou o outra da tarde , e sem que tenha - a a vida - me por
-----------------------------------------------------------------
Testando para o índice 2
Modelo da epoca 50:
Início:   Era que a revelação physica que acabava de illuminar
Correta:  Era que a revelação physica que acabava de illuminar o seu olhar, não era senão o resultado dessa outra revelação moral que esclarecêra o seu espirito; dantes via com os olhos do corpo, agora via com os olhos da alma.
Gerada:   Era que a revelação physica que acabava de illuminar o seu o

Testa com uma fase qualquer, mas considerando todos os modelos gerados nas primeiras 10 épocas (só pra ver o que ele está gerando):

In [None]:
frase = "Se se tratasse de sua vida, Pery teria sangue"
print(frase)
for epoca in range(1, 11):
  recupera_modelo(model, epoca)
  #print(f'Modelo da epoca {epoca}:', escrever_frase(model, vocab, most_frequent_words, frase, context_size, 30, descartar_ukn=False))
  print(f'Modelo da epoca {epoca}:', escrever_frase(model, vocab, most_frequent_words, frase, context_size, 30, descartar_ukn=True))

Se se tratasse de sua vida, Pery teria sangue
Modelo da epoca 1: Se se tratasse de sua vida, Pery teria sangue , e que a sua senhora . . . . . . . . . . . . . . . . . . . . . . . .
Modelo da epoca 2: Se se tratasse de sua vida, Pery teria sangue ; mas não me a senhora , e não me um momento de que se tinha . se se em torno , e o cavalheiro em que se lhe ;
Modelo da epoca 3: Se se tratasse de sua vida, Pery teria sangue a menina de um . que se elevava a menina , e o seu seu companheiro ; que o seu seu espirito , que o seu seu espirito , que
Modelo da epoca 4: Se se tratasse de sua vida, Pery teria sangue que a onça dos que o dia se a voz , e o italiano se passava que o dia se elle se , e o italiano que elle se se
Modelo da epoca 5: Se se tratasse de sua vida, Pery teria sangue a tua de perigo . nem se a alma do que a um momento a senhora que a menina e a sua mulher , e a sua alma nobre que
Modelo da epoca 6: Se se tratasse de sua vida, Pery teria sangue para o italiano . . . tu só ! . . 

Continua alguns parágrafos da base de avaliação usando o modelo treinado na época que deu menor perplexidade no conjunto de treino.

In [None]:
epoca_do_modelo = 2
completa_frase_do_conjunto(context_size, val_paragrafos, [1, 2, 4, 5, 8, 9, 18, 20, 21, 30], epoca_do_modelo)

-----------------------------------------------------------------
Testando para o índice 1
Modelo da epoca 2:
Início:   Se se tratasse de sua vida, Pery teria sangue
Correta:  Se se tratasse de sua vida, Pery teria sangue frio; mas Cecilia corria um perigo, e portanto não reflectio, não calculou.
Gerada:   Se se tratasse de sua vida, Pery teria sangue <unk> , que se passava de um amigo , de um grito ; mas não se a um momento de um amigo , e que o seu thesouro , e
-----------------------------------------------------------------
Testando para o índice 2
Modelo da epoca 2:
Início:   Alvaro nem se apercebeu do que acabava de passar;
Correta:  Alvaro nem se apercebeu do que acabava de passar; lançando um olhar para seus homens que batião-se valentemente com os Aymorés fez um aceno a Ayres Gomes.
Gerada:   Alvaro nem se apercebeu do que acabava de passar; <unk> - se com um pouco de um momento de um , que se estava ao de sua senhora . a pery , e que a sua vida e não
-------------------------

Calcula o total de parâmetros da rede

In [None]:
# Total de parâmetros extraído do modelo:
print(sum(p.numel() for p in model.parameters()))

# Total de parâmetros teórico:
total_embeddings = vocab_size * m
total_camada_1 = context_size * m * h + h # elementos da matriz + bias
total_camada_2 = h * vocab_size + vocab_size # elementos da matriz + bias
print(total_embeddings + total_camada_1 + total_camada_2)

print(f'Total embeddings: {total_embeddings}')
print(f'Total camada 1: {total_camada_1}')
print(f'Total camada 2: {total_camada_2}')

910665
910665
Total embeddings: 192064
Total camada 1: 115400
Total camada 2: 603201
