<a href="https://colab.research.google.com/github/guilherme-argentino/fiap-ia4devs-techchallenge-fase3/blob/main/Fase3_TechChallenge.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Fine-tuning do Modelo BERT com AmazonTitles-1.3M

Neste notebook, realizaremos o fine-tuning do modelo BERT (`bert-base-uncased`) usando o dataset "The AmazonTitles-1.3MM". O objetivo é treinar o modelo para que ele consiga gerar descrições de produtos com base em seus títulos.

In [1]:
# Configurações e Variáveis Globais

# Configurações de arquivo e diretório
ARQUIVO_TREINAMENTO = 'Datasets/LF-AmazonTitles-1.3M/trn.json.gz'
DIRETORIO_CHECKPOINTS_LOCAL = './checkpoints'
DIRETORIO_CHECKPOINTS_COLAB = '/content/drive/MyDrive/FIAP/1IADT/Fase-3/tc/checkpoints'

# Configurações de modelo
MODELO_BASE = 'bert-base-uncased'
NUM_LABELS = 2

# Configurações de treinamento
TAMANHO_BLOCO = 10000
MAX_LENGTH = 128
NUM_TRAIN_EPOCHS = 3
PER_DEVICE_TRAIN_BATCH_SIZE = 16
SAVE_STEPS = 1000
SAVE_TOTAL_LIMIT = 2

# Configurações de output
OUTPUT_DIR = './results'
LOGGING_DIR = './logs'

### 1. Instalar dependências


In [2]:
# Instalar as bibliotecas necessárias
%pip install datasets transformers torch pandas 'transformers[torch]' gdown
%pip install --upgrade jupyter ipywidgets tqdm



In [3]:
import sys
import subprocess

def install_and_import(package):
    subprocess.check_call([sys.executable, "-m", "pip", "install", "--upgrade", package])

# Install required packages
packages = ['jupyter', 'ipywidgets', 'tqdm']
for package in packages:
    install_and_import(package)

# Restart the kernel after running this cell
print("Please restart the Jupyter kernel to apply changes.")

Please restart the Jupyter kernel to apply changes.


## 2. Importar as Bibliotecas e preparar o Ambiente

In [4]:
import os
import torch
import gzip
from transformers import BertTokenizer, BertForSequenceClassification, Trainer, TrainingArguments
from torch.utils.data import Dataset, DataLoader
import pandas as pd
import json
import sys

if 'google.colab' in sys.modules:
    install_and_import('google-auth-oauthlib')

# Verificar se temos acesso a uma GPU no Colab
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

2024-09-30 10:18:28.893075: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:485] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-09-30 10:18:28.929305: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:8454] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-09-30 10:18:28.939524: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1452] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2024-09-30 10:18:28.971086: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 AVX512F FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


Using device: cuda


## 3. Carregar o Tokenizer e o Modelo BERT

In [5]:
# Carregar o tokenizer BERT
tokenizer = BertTokenizer.from_pretrained(MODELO_BASE)

# Carregar o modelo BERT para classificação
model = BertForSequenceClassification.from_pretrained(MODELO_BASE, num_labels=NUM_LABELS)
model.to(device)

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(30522, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSdpaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e

## 4. Classe Dataset para Gerenciamento de Dados

In [6]:
class AmazonTitlesDataset(Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels[idx])
        return item

    def __len__(self):
        return len(self.labels)


## 5. Leitura em Chunks e Tokenização (para JSONL compactado em GZIP)
Vamos ajustar a função de leitura para processar arquivos JSONL. Cada linha é um objeto JSON separado, então a função simplesmente lê uma linha por vez e cria blocos (chunks).

In [7]:
def ler_arquivo_em_blocos_jsonl_gz(caminho_arquivo, tamanho_bloco=10000):
    with gzip.open(caminho_arquivo, 'rt') as f:  # 'rt' para ler como texto
        bloco = []
        for i, linha in enumerate(f):
            bloco.append(json.loads(linha.strip()))  # Lê uma linha como JSON
            if (i + 1) % tamanho_bloco == 0:
                yield bloco
                bloco = []
        if bloco:
            yield bloco

def processar_e_tokenizar_chunk(chunk, max_length=128):
    titles = [item['title'] for item in chunk]
    descriptions = [item['content'] for item in chunk]

    # Concatenar título e descrição
    inputs = [f"{title} [SEP] {description}" for title, description in zip(titles, descriptions)]

    # Tokenização
    encodings = tokenizer(inputs, truncation=True, padding=True, max_length=max_length)

    # Exemplo de rótulos fictícios; substitua conforme necessário
    labels = [1] * len(chunk)

    return encodings, labels

# Função para detectar o ambiente de execução
def detectar_ambiente():
    if 'google.colab' in sys.modules:
        return 'colab_gpu' if torch.cuda.is_available() else 'colab_cpu'
    else:
        return 'local'

# Função para obter o diretório de checkpoints
def obter_diretorio_checkpoints():
    ambiente = detectar_ambiente()
    if ambiente.startswith('colab'):
        try:
            from google.colab import drive # type: ignore
            drive.mount('/content/drive')
            return DIRETORIO_CHECKPOINTS_COLAB
        except ImportError:
            print("Não foi possível importar o módulo 'drive'. Verifique se está no ambiente Colab.")
            return None
    else:
        return './checkpoints'

def carregar_ultimo_checkpoint():
    checkpoint_dir = obter_diretorio_checkpoints()

    # Procurar por checkpoints existentes
    checkpoints = sorted(
        [c for c in os.listdir(checkpoint_dir) if c.startswith('checkpoint_')],
        key=lambda x: int(x.split('_')[-1])  # Extrai o número do checkpoint e ordena numericamente
    )

    if checkpoints:
        # Pega o último checkpoint
        ultimo_checkpoint = checkpoints[-1]
        ultimo_chunk = int(ultimo_checkpoint.split('_')[-1])

        # Carrega o modelo e tokenizer do último checkpoint
        modelo = BertForSequenceClassification.from_pretrained(f'{checkpoint_dir}/{ultimo_checkpoint}')
        tokenizer = BertTokenizer.from_pretrained(f'{checkpoint_dir}/{ultimo_checkpoint}')

        return modelo, tokenizer, ultimo_chunk

    return None, None, -1  # Retorna -1 para indicar que nenhum chunk foi processado ainda

def salvar_progresso(model, tokenizer, chunk_idx):
    checkpoint_dir = obter_diretorio_checkpoints()

    # Salva o modelo e tokenizer no checkpoint atual
    model.save_pretrained(f'{checkpoint_dir}/checkpoint_{chunk_idx}')
    tokenizer.save_pretrained(f'{checkpoint_dir}/checkpoint_{chunk_idx}')

    # Salva o progresso do chunk processado
    with open(f'{checkpoint_dir}/ultimo_chunk.txt', 'w') as f:
        f.write(str(chunk_idx))

    checkpoints = sorted(
        [c for c in os.listdir(checkpoint_dir) if c.startswith('checkpoint_')],
        key=lambda x: int(x.split('_')[-1])  # Extrai o número do nome e ordena numericamente
    )

    for checkpoint in checkpoints[:-2]:
        os.system(f'rm -rf {checkpoint_dir}/{checkpoint}')

## 6. Configuração do Treinamento


In [8]:
training_args = TrainingArguments(
    output_dir=OUTPUT_DIR,                                   # Diretório de saída para os resultados
    num_train_epochs=NUM_TRAIN_EPOCHS,                       # Número de épocas
    per_device_train_batch_size=PER_DEVICE_TRAIN_BATCH_SIZE, # Tamanho do batch
    save_steps=SAVE_STEPS,                                   # Salvar checkpoints a cada 1000 passos
    save_total_limit=SAVE_TOTAL_LIMIT,                       # Limite de dois checkpoints salvos
    logging_dir=LOGGING_DIR,                                 # Diretório de logs
)


## 7. Função de Treinamento por Chunk


In [9]:
def treinar_com_chunk(encodings, labels):
    dataset = AmazonTitlesDataset(encodings, labels)
    trainer = Trainer(
        model=model,
        args=training_args,
        train_dataset=dataset,
    )
    # Treina o modelo usando o chunk atual
    trainer.train()


## 8. Baixar dados o Google Drive

Vamos baixar os dados do Google Drive para acessar os arquivos que contêm os dados de treinamento e teste.

In [None]:
!mkdir -p Datasets
!cd Datasets; gdown 12zH4mL2RX8iSvH0VCNnd3QxO4DzuHWnK;
!cd Datasets; unzip LF-Amazon-1.3M.raw.zip; mkdir -p LF-AmazonTitles-1.3M/raw; mv LF-Amazon-1.3M/* LF-AmazonTitles-1.3M; rmdir LF-Amazon-1.3M

Downloading...
From (original): https://drive.google.com/uc?id=12zH4mL2RX8iSvH0VCNnd3QxO4DzuHWnK
From (redirected): https://drive.google.com/uc?id=12zH4mL2RX8iSvH0VCNnd3QxO4DzuHWnK&confirm=t&uuid=8f07f791-5b41-4f6a-a59c-f160be3dc4ac
To: /content/Datasets/LF-Amazon-1.3M.raw.zip
100% 890M/890M [00:15<00:00, 56.6MB/s]
Archive:  LF-Amazon-1.3M.raw.zip
   creating: LF-Amazon-1.3M/
  inflating: LF-Amazon-1.3M/lbl.json.gz  
  inflating: LF-Amazon-1.3M/trn.json.gz  
  inflating: LF-Amazon-1.3M/filter_labels_test.txt  
  inflating: LF-Amazon-1.3M/tst.json.gz  
  inflating: LF-Amazon-1.3M/filter_labels_train.txt  


## 9. Processar e Treinar em Chunks
A função principal que faz a leitura do arquivo JSONL em chunks e realiza o fine-tuning do modelo BERT em cada chunk.

In [11]:
# Processar o arquivo compactado trn.json.gz e realizar o fine-tuning em chunks
caminho_arquivo = ARQUIVO_TREINAMENTO

ambiente = detectar_ambiente()
print(f"Ambiente detectado: {ambiente}")

# Carregar o último checkpoint, se existir
modelo_carregado, tokenizer_carregado, ultimo_chunk_processado = carregar_ultimo_checkpoint()
if modelo_carregado is not None:
    model = modelo_carregado
    tokenizer = tokenizer_carregado
    print(f"Retomando o treinamento a partir do chunk {ultimo_chunk_processado + 1}")
else:
    # Inicializar modelo e tokenizer se não houver checkpoint
    model = BertForSequenceClassification.from_pretrained("bert-base-uncased")
    tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
    ultimo_chunk_processado = -1  # Nenhum chunk processado ainda

# Processar chunks
for i, chunk in enumerate(ler_arquivo_em_blocos_jsonl_gz(caminho_arquivo, tamanho_bloco=TAMANHO_BLOCO), start=1):
    # Pular chunks estritamente menores que o último chunk processado
    if i <= ultimo_chunk_processado:
        print(f"Chunk {i} já processado. Pulando...")
        continue

    print(f"Processando chunk {i}")

    encodings, labels = processar_e_tokenizar_chunk(chunk)

    # Executar treinamento no chunk atual
    treinar_com_chunk(encodings, labels)

    # Salvar o progresso após cada chunk
    salvar_progresso(model, tokenizer, i)

    print(f"Treinamento com chunk {i} completo.")

Ambiente detectado: colab_gpu
Mounted at /content/drive


FileNotFoundError: [Errno 2] No such file or directory: '/content/drive/MyDrive/AI_checkpoints'

## 10. Salvar o Modelo Fine-Tuned
Depois de processar todos os chunks e realizar o fine-tuning do modelo, salvamos o modelo treinado.

In [None]:
# Salvar o modelo fine-tuned e o tokenizer
model.save_pretrained('./FIAP-1IADT-Grupo28')
tokenizer.save_pretrained('./FIAP-1IADT-Grupo28')

print("Modelo fine-tuned salvo com sucesso.")

## 11. Validação do Modelo Fine-Tuned

In [None]:
# Carregar o modelo fine-tuned
model = BertForSequenceClassification.from_pretrained('./FIAP-1IADT-Grupo28')
tokenizer = BertTokenizer.from_pretrained('./FIAP-1IADT-Grupo28')
model.to(device)


In [None]:
# Função de avaliação
def avaliar_modelo(model, dataloader):
    model.eval()
    total_correct = 0
    total_samples = 0

    with torch.no_grad():
        for batch in dataloader:
            inputs = {k: v.to(device) for k, v in batch.items() if k != 'labels'}
            labels = batch['labels'].to(device)

            outputs = model(**inputs)
            predictions = torch.argmax(outputs.logits, dim=-1)

            total_correct += (predictions == labels).sum().item()
            total_samples += labels.size(0)

    accuracy = total_correct / total_samples
    return accuracy


In [None]:
# Executar a avaliação
total_accuracy = 0
total_batches = 0

for chunk in ler_arquivo_em_blocos_jsonl_gz(ARQUIVO_TESTE):
    encodings, labels = processar_e_tokenizar_chunk(chunk)
    dataset = AmazonTitlesDataset(encodings, labels)
    dataloader = DataLoader(dataset, batch_size=32)

    accuracy = avaliar_modelo(model, dataloader)
    total_accuracy += accuracy
    total_batches += 1

    print(f"Acurácia do batch: {accuracy:.4f}")

average_accuracy = total_accuracy / total_batches
print(f"Acurácia média: {average_accuracy:.4f}")