Classificação de Textos usando BERT

# Instalação das bibliotecas necessárias


In [None]:
# Descomente e execute se necessário
#!pip install transformers pandas numpy scikit-learn torch datasets

In [None]:
!pip install datasets

# Importação das bibliotecas


In [None]:
import pandas as pd
import numpy as np
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from transformers import TrainingArguments, Trainer
from sklearn.model_selection import train_test_split
from datasets import Dataset

# Verificar se GPU está disponível


In [None]:
dispositivo = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Usando {dispositivo}")

# Baixar e preparar o dataset B2W-Reviews01

https://github.com/americanas-tech/b2w-reviews01/tree/main

In [None]:
print("Baixando o dataset B2W-Reviews01...")
url = "https://raw.githubusercontent.com/americanas-tech/b2w-reviews01/refs/heads/main/B2W-Reviews01.csv"
df = pd.read_csv(url, low_memory=False)

In [None]:
df.head()

# Preparar os dados - apenas textos e sentimentos


In [None]:
df = df[['review_text', 'overall_rating']]
df.columns = ['texto', 'nota']

In [None]:
df.head(10)

## Converter notas para sentimento binário (0-negativo, 1-positivo)


In [None]:
df = df[(df['nota'] <= 2) | (df['nota'] >= 4)].copy()

In [None]:
df['sentimento'] = df['nota'].apply(lambda x: 1 if x >= 4 else 0)

In [None]:
df = df[['texto', 'sentimento']]

In [None]:
df = df[df['texto'].notna() & (df['texto'] != '')].reset_index(drop=True)

In [None]:
df.head(10)

## Verificar distribuição


In [None]:
print(f"Total de exemplos: {len(df)}")
print(f"Exemplos positivos: {sum(df['sentimento'])}")
print(f"Exemplos negativos: {len(df) - sum(df['sentimento'])}")

## Limitar dataset para processamento mais rápido


In [None]:
# Usando apenas 1000 exemplos balanceados para demonstração
neg = df[df['sentimento'] == 0].sample(500, random_state=42)
pos = df[df['sentimento'] == 1].sample(500, random_state=42)
df = pd.concat([neg, pos]).sample(frac=1, random_state=42).reset_index(drop=True)

In [None]:
df.shape

## Separar em treino e teste

In [None]:
train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)


# Tokenização

## Carregar o Tokenizador do modelo BERT pré-treinado para português

In [None]:
model_name = "neuralmind/bert-base-portuguese-cased"
tokenizer = AutoTokenizer.from_pretrained(model_name)

## Função de pré-processamento para tokenização


In [None]:
exemplo = train_df.iloc[0]["texto"]
exemplo

In [None]:
tokenizer(exemplo, truncation=True, padding="max_length", max_length=128)

In [None]:
def preprocess_function(examples):
    # Tokenizar os textos e definir truncation/padding
    tokenized = tokenizer(
        examples["texto"],
        truncation=True,
        padding="max_length",
        max_length=128
    )

    # IMPORTANTE: Adicionar as etiquetas (labels)
    tokenized["labels"] = examples["sentimento"]

    return tokenized

In [None]:
preprocess_function(train_df.iloc[0])

## Converter DataFrames para o formato compatível com o Pytorch


In [None]:
train_dataset = Dataset.from_pandas(train_df)
test_dataset = Dataset.from_pandas(test_df)

In [None]:
train_dataset

## Aplicar tokenização

In [None]:
train_tokenized = train_dataset.map(preprocess_function, batched=True)
test_tokenized = test_dataset.map(preprocess_function, batched=True)

In [None]:
train_tokenized

# Preparar o modelo para treinamento

## Carregar modelo pretreinado e preparado para classificação

In [None]:
model = AutoModelForSequenceClassification.from_pretrained(
    model_name,
    num_labels=2,
    device_map="auto"
)

In [None]:
model

## Similaridade com embeddings do BERT

In [None]:
texto = "Este produto é excelente e durável."

# Tokenizar o texto
entradas = tokenizer(texto, return_tensors="pt", padding=True, truncation=True)

# Mover inputs para o mesmo dispositivo que o modelo
entradas = {k: v.to(dispositivo) for k, v in entradas.items()}

# Obter embeddings (representação vetorial) da frase
with torch.no_grad():
    outputs = model(**entradas, output_hidden_states=True)


In [None]:
outputs

In [None]:
outputs.keys()

logits é a saida de classificacão... que não treinamos ainda e não fazem sentido agora

In [None]:
outputs.logits

hidden_states são as representações internas que o modelo constrói

In [None]:
outputs.hidden_states[-1].shape

In [None]:
def obter_embedding(texto):
    # Tokenizar o texto
    inputs = tokenizer(texto, return_tensors="pt", padding=True, truncation=True)

    # Mover inputs para o mesmo dispositivo que o modelo
    inputs = {k: v.to(dispositivo) for k, v in inputs.items()}

    # Obter embeddings (representação vetorial) da frase
    with torch.no_grad():
        outputs = model(**inputs, output_hidden_states=True)

    # Usar a representação da camada de saída [CLS]
    # O token [CLS] (primeiro token) contém a representação da frase inteira
    embedding = outputs.hidden_states[-1][0, 0, :].cpu().numpy()
    return embedding

In [None]:
def calcular_similaridade(frase1, frase2):
    # Obter embeddings para cada frase
    emb1 = obter_embedding(frase1)
    emb2 = obter_embedding(frase2)

    # Normalizar os vetores
    emb1_norm = emb1 / np.linalg.norm(emb1)
    emb2_norm = emb2 / np.linalg.norm(emb2)

    # Calcular similaridade de cosseno
    similaridade = np.dot(emb1_norm, emb2_norm)
    return similaridade

In [None]:
frase1= "Este produto é excelente e durável."
frase2= "Este produto é ruim e ineficiente."

calcular_similaridade(frase1, frase2)

In [None]:
frase1= "Este produto é excelente e durável."
frase2= "O produto tem ótima qualidade e é resistente."

calcular_similaridade(frase1, frase2)

In [None]:
frase1= "Este produto é excelente e durável."
frase2= "Subi num ônibus em madagascar"

calcular_similaridade(frase1, frase2)

# Treinamento

## Configurar argumentos de treinamento


In [None]:
training_args = TrainingArguments(
    output_dir="./resultados",
    num_train_epochs=1,            # Apenas 1 época para demonstração
    #per_device_train_batch_size=8,
    #learning_rate=2e-5,
)

## Função para cálculo das métricas

In [None]:
def compute_metrics(resultado):
    rotulos_verdadeiros = resultado.label_ids
    rotulos_preditos = resultado.predictions.argmax(-1)
    acc = (rotulos_preditos == rotulos_verdadeiros).mean()
    return {"accuracy": acc}

## Configurar o treinador


In [None]:
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_tokenized,
    eval_dataset=test_tokenized,
    processing_class=tokenizer,
    compute_metrics=compute_metrics,
)

## Treinar o modelo


In [None]:
import wandb
wandb.init(mode="disabled")

In [None]:
print("\nIniciando treinamento...")
trainer.train()

# Avaliar o modelo


In [None]:
print("\nAvaliando o modelo...")
eval_results = trainer.evaluate()
print(f"Acurácia: {eval_results['eval_accuracy']:.4f}")

## Função para classificar novos textos


In [None]:
def classificar_texto(texto):
    # Tokenizar e preparar o texto para o modelo
    inputs = tokenizer(texto, return_tensors="pt", padding=True, truncation=True)

    # Mover inputs para o mesmo dispositivo que o modelo
    inputs = {k: v.to(dispositivo) for k, v in inputs.items()}

    # Fazer a predição
    with torch.no_grad():
        outputs = model(**inputs)

    # Obter a classe prevista (0=Negativo, 1=Positivo)
    sentimento = "Positivo" if outputs.logits.argmax().item() == 1 else "Negativo"

    return sentimento

## Testar com novos exemplos

In [None]:
texto = "Produto excelente, entrega rápida e atendimento nota 10!"

print(f"\nTexto: {texto}")

sentimento = classificar_texto(texto)

print(f"Classificação: {sentimento}")

In [None]:
texto = "Péssima experiência, o produto veio quebrado e o suporte não resolveu."

print(f"\nTexto: {texto}")

sentimento = classificar_texto(texto)

print(f"Classificação: {sentimento}")

In [None]:
texto = "eu recomendaria"

print(f"\nTexto: {texto}")

sentimento = classificar_texto(texto)

print(f"Classificação: {sentimento}")

In [None]:
texto = "eu desrecomendaria"

print(f"\nTexto: {texto}")

sentimento = classificar_texto(texto)

print(f"Classificação: {sentimento}")

In [None]:
texto = "normal, não supreendeu."

print(f"\nTexto: {texto}")

sentimento = classificar_texto(texto)

print(f"Classificação: {sentimento}")

# Ajustes para o github

In [None]:
pip install nbstripout


In [None]:
!nbstripout classificacao_de_textos_com_bert.ipynb