##### Este notebook apresenta o desenvolvimento de um projeto de classificação de textos utilizando o modelo BERT. O processo é estruturado e documentado, abrangendo todas as etapas essenciais, desde o carregamento e pré-processamento dos dados até o treinamento, ajuste fino e avaliação do modelo. Um pipeline completo é implementado para garantir a reprodutibilidade e a eficiência do experimento.

### Projeto: Classificação de Textos com BERT
Este projeto utiliza o modelo BERT pré-treinado para classificar textos do dataset AG News em quatro categorias:

- World (Notícias sobre o mundo)
- Sports (Esportes)
- Business (Negócios)
- Sci/Tech (Ciência/Tecnologia)

### Instalação das Dependências

In [3]:
# Primeiro, instale as bibliotecas necessárias:

# pip install transformers datasets scikit-learn torch


### Importação das Bibliotecas

In [11]:
import numpy as np
import torch
from datasets import load_dataset
from sklearn.metrics import accuracy_score
from transformers import (AutoTokenizer, AutoModelForSequenceClassification,
                        Trainer, TrainingArguments, pipeline)

from transformers import BertTokenizer, BertForSequenceClassification, Trainer, TrainingArguments


### Carregamento do Dataset

O AG News é um dataset de notícias já etiquetadas em quatro categorias.
Baixamos o conjunto de dados diretamente do Hugging Face Datasets.

In [16]:
# Carregar dataset AG News
dataset = load_dataset('ag_news')

# Exibir um exemplo do dataset
print(dataset['train'][0])


# OBS.: O campo text contém o conteúdo da notícia, e label indica a categoria (0 a 3).


{'text': "Wall St. Bears Claw Back Into the Black (Reuters) Reuters - Short-sellers, Wall Street's dwindling\\band of ultra-cynics, are seeing green again.", 'label': 2}


### Pré-processamento dos Dados

In [17]:
# Inicializando o tokenizer do BERT
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Função de tokenização e preparação dos dados
def preprocess_data(examples):
    return tokenizer(examples['text'], padding="max_length", truncation=True)

# Aplicando a tokenização ao dataset
tokenized_datasets = dataset.map(preprocess_data, batched=True)

Map: 100%|██████████| 120000/120000 [01:08<00:00, 1755.93 examples/s]
Map: 100%|██████████| 7600/7600 [00:04<00:00, 1757.63 examples/s]


### Carregamento do Modelo BERT

In [18]:
# Carregando o modelo BERT para classificação de sequência
num_classes = 4  # Número de classes no dataset AG News
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=num_classes)


Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


### Tokenização dos Textos

Usamos um tokenizador BERT (bert-base-uncased) para transformar o texto em números compreensíveis pelo modelo.

In [13]:
# Carregar o tokenizador do modelo BERT 
model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Função para tokenizar os textos do dataset
def preprocess_function(examples):
    return tokenizer(examples["text"], padding="max_length", truncation=True)

# Aplicar tokenização aos dados
encoded_train = train_data.map(preprocess_function, batched=True)
encoded_test = test_data.map(preprocess_function, batched=True)

### Carregamento do Modelo BERT

Utilizamos um modelo BERT pré-treinado e ajustamos para classificar as notícias em 4 categorias.

In [14]:
# Carregar o modelo BERT pré-treinado para classificação de textos

model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=4)


Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
