In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
!pip install nbstripout
!nbstripout /content/drive/MyDrive/2025/tcc final/fine_tuning_Bertimbau_version1_24_07.ipynb

Collecting nbstripout
  Downloading nbstripout-0.8.1-py2.py3-none-any.whl.metadata (19 kB)
Downloading nbstripout-0.8.1-py2.py3-none-any.whl (16 kB)
Installing collected packages: nbstripout
Successfully installed nbstripout-0.8.1
Could not strip 'final/fine_tuning_Bertimbau_version1_24_07.ipynb': file not found


In [None]:
!pip install transformers evaluate accelerate
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np
import evaluate
import torch
from transformers import (
    AutoTokenizer,
    AutoModelForSequenceClassification,
    TrainingArguments,
    Trainer,
    DataCollatorWithPadding
)

Collecting evaluate
  Downloading evaluate-0.4.5-py3-none-any.whl.metadata (9.5 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch>=2.0.0->accelerate)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch>=2.0.0->accelerate)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch>=2.0.0->accelerate)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch>=2.0.0->accelerate)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch>=2.0.0->accelerate)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cufft-cu12==11.2.1.3 (from torch>=2.0.0->a

# **# 1. Carregar Dataset Processado**

Aqui além de carregar os dataset, também é feita a divisão dos dados em treino, validação e testes

In [None]:
# Carregar dataset já processado
file_path = '/content/drive/MyDrive/2025/tcc final/denuncias_balanceadas.xlsx'
df = pd.read_excel(file_path)

# Dividir em treino (70%), validação (15%) e teste (15%)
train_df, temp_df = train_test_split(df, test_size=0.3, stratify=df['classe'], random_state=42)
val_df, test_df = train_test_split(temp_df, test_size=0.5, stratify=temp_df['classe'], random_state=42)

print(f"Treino: {len(train_df)}, Validação: {len(val_df)}, Teste: {len(test_df)}")

Treino: 117, Validação: 25, Teste: 26


# **2. Tokenização com BERTimbau**

Preparação os dados textuais (as denúncias) para serem compreendidos pelo modelo BERTimbau, convertendo o texto bruto em um formato numérico que o modelo pode processar.
*   AutoTokenizer é uma classe da biblioteca transformers que automaticamente seleciona a classe de tokenizador correta com base no nome do modelo.

*   Este tokenizador sabe como dividir o texto em "tokens" (palavras ou subpalavras), converter esses tokens em IDs numéricos (que o modelo entende), e adicionar tokens especiais que o BERT espera (como [CLS] e [SEP]).
* Além disso, a função tokenize_function receberá um "batch" (lote) de dados como entrada.



In [None]:
model_path = "neuralmind/bert-base-portuguese-cased"
tokenizer = AutoTokenizer.from_pretrained(model_path)

# Função de tokenização
def tokenize_function(batch):
    return tokenizer(batch["texto"], truncation=True,max_length=512, padding=True,return_tensors='pt')

# Tokenizar os DataFrames diretamente (sem usar datasets.Dataset)
train_encodings = tokenize_function(train_df.to_dict('list'))
val_encodings = tokenize_function(val_df.to_dict('list'))
test_encodings = tokenize_function(test_df.to_dict('list'))

# **3. Configurar o Modelo e congelamento**

Inicializar o modelo pré-treinado BERTimbau para uma tarefa de classificação de sequências e, crucialmente, configurar quais partes desse modelo serão treinadas (ajustadas) e quais permanecerão "congeladas".
* Mapeamento de Labels
* Carregamento e Configuração do Modelo de Classificação
* Congelamento de Camadas do BERT
 * for name, param in model.named_parameters():: Inicia um loop que itera sobre todos os parâmetros (pesos e vieses) do modelo. Para cada parâmetro, ele fornece seu name (nome da camada a que pertence) e o próprio param (o tensor do parâmetro).

 * if 'classifier' not in name and 'pooler' not in name:: Esta é a condição principal para o congelamento.

 * Ele verifica se o name do parâmetro não contém a string 'classifier' e não contém a string 'pooler'.

 * 'classifier': Refere-se aos parâmetros da cabeça de classificação que foi adicionada no topo do modelo BERT (a parte que faz a previsão das 2 classes).

 * 'pooler': Refere-se aos parâmetros da camada "pooler" do BERT. O pooler geralmente é usado para obter uma representação vetorial de tamanho fixo para toda a sequência de entrada. Para tarefas de classificação de sequência, o BERT frequentemente usa a saída do token [CLS] (o primeiro token) que passa pelo pooler.

In [None]:
id2label = {0: "invasao_domicilio", 1: "violencia_fisica"}
label2id = {v: k for k, v in id2label.items()}

model = AutoModelForSequenceClassification.from_pretrained(
    model_path,
    num_labels=2,
    id2label=id2label,
    label2id=label2id
)

"""# Congelar camadas do BERT (exceto pooler e classificador)
for name, param in model.named_parameters():
    if 'classifier' not in name and 'pooler' not in name:
        param.requires_grad = False"""

# Congelar todas as camadas da base BERT
for param in model.bert.parameters():
    param.requires_grad = False

# Garantir que a cabeça de classificação seja treinável
# (Ela já é treinável por padrão se não for explicitamente congelada)
for param in model.classifier.parameters():
    param.requires_grad = True

# Opcional: Imprimir o número de parâmetros treináveis para verificar
print(f"Número de parâmetros treináveis: {sum(p.numel() for p in model.parameters() if p.requires_grad)}")

pytorch_model.bin:   0%|          | 0.00/438M [00:00<?, ?B/s]

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at neuralmind/bert-base-portuguese-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


model.safetensors:   0%|          | 0.00/438M [00:00<?, ?B/s]

Número de parâmetros treináveis: 1538


# **4. MÉTRICAS AVANÇADAS (Acurácia + AUC-ROC)**

In [None]:
accuracy = evaluate.load("accuracy")
auc_score = evaluate.load("roc_auc")
f1_metric = evaluate.load("f1")

def compute_metrics(eval_pred):
    try:
        predictions, labels = eval_pred

        # Converter logits em probabilidades
        probabilities = np.exp(predictions) / np.exp(predictions).sum(-1, keepdims=True)
        positive_class_probs = probabilities[:, 1]

        # Calcular métricas básicas
        preds = np.argmax(predictions, axis=1)
        acc = accuracy.compute(predictions=preds, references=labels)["accuracy"]
        auc = auc_score.compute(prediction_scores=positive_class_probs, references=labels)["roc_auc"]

        # Calcular F1 para cada classe com tratamento de erro
        f1_results = f1_metric.compute(
            predictions=preds,
            references=labels,
            average=None,
            labels=[label2id["invasao_domicilio"], label2id["violencia_fisica"]]
        )

        return {
            "accuracy": round(acc, 4),
            "auc": round(auc, 4),
            "f1_invasao": round(f1_results["f1"][0], 4),
            "f1_violencia": round(f1_results["f1"][1], 4)
        }
    except Exception as e:
        print(f"Erro no cálculo de métricas: {str(e)}")
        return {"accuracy": 0.0, "auc": 0.0, "f1_invasao": 0.0, "f1_violencia": 0.0}

Downloading builder script: 0.00B [00:00, ?B/s]

Downloading builder script: 0.00B [00:00, ?B/s]

Downloading builder script: 0.00B [00:00, ?B/s]

# **TREINAMENTO COM EARLY STOPPING**

In [None]:
training_args = TrainingArguments(
    output_dir="./bertimbau-denuncias",

    # Configurações básicas
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    learning_rate=2e-5,
    num_train_epochs=10,

    # Estratégias (nomenclatura correta para v4.53.2)
    eval_strategy="epoch",          # evaluation_strategy não existe nesta versão
    save_strategy="epoch",

    # Configurações de avaliação
    load_best_model_at_end=True,
    metric_for_best_model="eval_loss",
    greater_is_better=False,

    # Logging
    logging_dir="./logs",
    logging_steps=100,
    disable_tqdm=False,
    report_to="none",

    # Otimizações
    fp16=True,
    seed=42,
    gradient_accumulation_steps=1,

    # Parâmetros específicos da v4.53.2
    remove_unused_columns=True,
    label_names=["labels"]
)

# Data Collator para padding dinâmico
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

# Custom Dataset (para trabalhar com DataFrames)
from torch.utils.data import Dataset as TorchDataset
class CustomDataset(TorchDataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __getitem__(self, idx):
        item = {key: val[idx] for key, val in self.encodings.items()}
        item['labels'] = self.labels.iloc[idx]
        return item

    def __len__(self):
        return len(self.labels)

# Criar datasets
train_dataset = CustomDataset(train_encodings, train_df['classe'].map(label2id))
val_dataset = CustomDataset(val_encodings, val_df['classe'].map(label2id))
test_dataset = CustomDataset(test_encodings, test_df['classe'].map(label2id))

# Trainer
from transformers import Trainer, EarlyStoppingCallback

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset,
    callbacks=[EarlyStoppingCallback(early_stopping_patience=3)],  # Para early stopping
    compute_metrics=compute_metrics,
    data_collator=data_collator
)
# Treinar!
#print("\nIniciando treinamento...")
#trainer.train()

try:
    print("\n🚀 Iniciando treinamento...")
    train_result = trainer.train()

    # Salvar métricas de treino
    metrics = train_result.metrics
    print("\n📊 Métricas finais de treino:")
    print(f"Loss: {metrics['train_loss']:.4f}")
    print(f"Tempo total: {metrics['train_runtime']:.2f}s")

    # Avaliar no conjunto de teste
    print("\n🧪 Avaliação no conjunto de teste...")
    test_metrics = trainer.evaluate(CustomDataset(test_encodings, test_df['classe'].map(label2id)))
    print(f"Acurácia: {test_metrics['eval_accuracy']:.4f}")
    print(f"AUC: {test_metrics['eval_auc']:.4f}")

except Exception as e:
    print(f"\n❌ Erro durante o treinamento: {str(e)}")
    # Adicione aqui qualquer lógica adicional de tratamento de erro
finally:
    # Salvamento seguro do modelo
    try:
        trainer.save_model("./modelo_final")
        print("\n💾 Modelo salvo com sucesso!")
    except:
        print("\n⚠️ Erro ao salvar o modelo")


🚀 Iniciando treinamento...


Epoch,Training Loss,Validation Loss,Accuracy,Auc,F1 Invasao,F1 Violencia
1,No log,0.718105,0.44,0.1859,0.125,0.5882
2,No log,0.716719,0.44,0.1859,0.125,0.5882
3,No log,0.715625,0.44,0.1923,0.125,0.5882
4,No log,0.714961,0.44,0.1923,0.125,0.5882
5,No log,0.714043,0.44,0.1923,0.125,0.5882
6,No log,0.712812,0.44,0.2115,0.125,0.5882
7,0.704900,0.712031,0.44,0.2179,0.125,0.5882
8,0.704900,0.711563,0.44,0.2308,0.125,0.5882
9,0.704900,0.711348,0.44,0.2308,0.125,0.5882
10,0.704900,0.71123,0.44,0.2372,0.125,0.5882



📊 Métricas finais de treino:
Loss: 0.7039
Tempo total: 62.09s

🧪 Avaliação no conjunto de teste...


Acurácia: 0.4615
AUC: 0.4320

💾 Modelo salvo com sucesso!


# **6. AVALIAÇÃO FINAL NO TESTE**

In [None]:
print("\nAvaliação no conjunto de teste:")
test_results = trainer.predict(test_dataset)
print(test_results.metrics)



Avaliação no conjunto de teste:


{'test_loss': 0.689208984375, 'test_accuracy': 0.4615, 'test_auc': 0.432, 'test_f1_invasao': 0.2222, 'test_f1_violencia': 0.5882, 'test_runtime': 0.1304, 'test_samples_per_second': 199.378, 'test_steps_per_second': 30.674}


# **7. SALVAR MODELO**

In [None]:
model.save_pretrained("/content/drive/MyDrive/Pesquisa 2025/modelo_bertimbau_final")
tokenizer.save_pretrained("/content/drive/MyDrive/Pesquisa 2025/modelo_bertimbau_final")
print("Modelo salvo no Google Drive!")