In [None]:
#!git clone https://github.com/PauloHFS/gpt2-from-scratch.git

In [None]:
#%cd gpt2-from-scratch

# GPT From Scratch

Este repositório irá implementar o GPT 2 do zero, com o código bruto do modelo presente na pasta `src`.

O objetivo será realizar o seguinte fluxo de atividades:
* Leitura do dataset;
* Treina modelo;
* Plotagem de métricas durante treino;
* Processa modelo para gerar textos;
* Avaliação dos textos;
* Plotagem da avaliação;
* Conclusão.

---

# Preparando ambiente

Importando pacotes python para utilização do código

In [None]:
# Importando pacotes python

from os import mkdir, environ
from os.path import exists

from json import load

Importando pacotes para execução do experimento

In [None]:
from src.dataload.tokenizer import Tokenizer
from src.gptmodel.model import GPTModel

---

# Configurações para rodar o sistema

Aqui ocorrerá as constantes para o processamento do sistema:

In [None]:
RESULT_DIR = "results"

if not exists(RESULT_DIR): mkdir(RESULT_DIR)

Diretório de banco de dados:

In [None]:
DATASET_DIR = "dataset/"

Caminho final dos tokens:

In [None]:
TOKEN_TEXTS = f"{RESULT_DIR}/tokens.txt"

Caminho do melhor modelo:

In [None]:
BEST_MODEL_PATH = f"{RESULT_DIR}/best_model.pt"

Configuração do GPT:

In [None]:
GPT_CONFIGURATION = f"src/gpt_configurations.json"

Estatísticas:

In [None]:
TRAIN_RATIO = 0.8
BATCH_SIZE = 5

Configuração:

In [None]:
with open(GPT_CONFIGURATION, 'r') as f:
    CONFIGURATION = load(f)

In [None]:
CONFIGURATION_KEY = "GPT_CONFIG_SMALL_COLAB"

In [None]:
configuration = CONFIGURATION[CONFIGURATION_KEY]

In [None]:
configuration

Ambientes de execução:

In [None]:
environ['CUDA_LAUNCH_BLOCKING'] = "1"

---

# Leitura do Dataset

Tokenizando todo o conjunto de dados para treinamento e salvando em um arquivo de texto:

In [None]:
tokenizer = Tokenizer(["utf-8", "latin1"])

In [None]:
tokenizer.generate_data(DATASET_DIR, TOKEN_TEXTS)

Carregando base de dados:

In [None]:
with open(TOKEN_TEXTS, 'r') as f:
    contents = f.read()

In [None]:
train_dataloader, test_dataloader = tokenizer.create_dataloaders(
    contents, 
    TRAIN_RATIO, 
    BATCH_SIZE, 
    configuration["context_length"], 
    configuration["context_length"]
    )

---

# Treino dos modelos

Esta seção irá ocorrer a instanciação e geração dos modelos:

In [None]:
model = GPTModel(
    vocab_size=configuration["vocab_size"],
    emb_dim=configuration["emb_dim"],
    context_length=configuration["context_length"],
    drop_rate=configuration["drop_rate"],
    n_heads=configuration["n_heads"],
    n_layers=configuration["n_layers"],
    qkv_bias=configuration["qkv_bias"]
    )

In [None]:
trained_models, final_metrics = GPTModel._train(
    model=model, 
    train_loader=train_dataloader, 
    val_loader=test_dataloader, 
    device_str="cuda",
    path=BEST_MODEL_PATH)

---

# Análise de treinamento

Nesta seção irá ocorrer a análise do treinamento do modelo:

---

# Geração de Textos para avaliação

Esta seção irá ocorrer a geração de textos para avaliação:

---

# Avaliação dos textos

Esta seção irá ocorrer a avaliação dos textos gerados pela LLM, tanto numericamente como graficamente.

---

# Conclusão

Por fim, aqui teremos uma seção de feedback a respeito das atividades desenvolvidas!