
# Bibliotecas Necess√°rias para o Jupyter Notebook

Para rodar este Jupyter Notebook com sucesso, voc√™ precisa instalar as seguintes bibliotecas:

1. transformers
2. scikit-learn
3. torch (PyTorch)
4. accelerate

## Instala√ß√£o

Voc√™ pode instalar todas essas bibliotecas com um √∫nico comando pip:


In [6]:

#Descomente para instalar as bibliotecas pela primeira vez
#!pip install transformers[torch] scikit-learn accelerate


Este comando far√° o seguinte:

- Instala a biblioteca `transformers` com suporte para PyTorch
- Instala o PyTorch (`torch`)
- Instala o `scikit-learn` para fun√ß√µes de divis√£o de dados
- Instala o `accelerate`, necess√°rio para usar o `Trainer` com PyTorch

## Importante

Ap√≥s executar este comando de instala√ß√£o, voc√™ deve reiniciar o kernel do Jupyter Notebook para garantir que todas as bibliotecas sejam carregadas corretamente.

## Funcionalidades Habilitadas

Com estas bibliotecas instaladas, voc√™ ser√° capaz de:

- Carregar e usar modelos e tokenizadores do DistilBERT
- Realizar a divis√£o de dados de treino e teste
- Criar e treinar o modelo usando o `Trainer` do Hugging Face
- Avaliar o modelo treinado

## Nota

Se voc√™ estiver usando um ambiente virtual ou conda, certifique-se de ativ√°-lo antes de instalar estas bibliotecas e executar o notebook.

In [None]:
#!pip install transformers[torch] scikit-learn accelerate


Este comando far√° o seguinte:

- Instala a biblioteca `transformers` com suporte para PyTorch
- Instala o PyTorch (`torch`)
- Instala o `scikit-learn` para fun√ß√µes de divis√£o de dados
- Instala o `accelerate`, necess√°rio para usar o `Trainer` com PyTorch

## Importante

Ap√≥s executar este comando de instala√ß√£o, voc√™ deve reiniciar o kernel do Jupyter Notebook para garantir que todas as bibliotecas sejam carregadas corretamente.

## Funcionalidades Habilitadas

Com estas bibliotecas instaladas, voc√™ ser√° capaz de:

- Carregar e usar modelos e tokenizadores do DistilBERT
- Realizar a divis√£o de dados de treino e teste
- Criar e treinar o modelo usando o `Trainer` do Hugging Face
- Avaliar o modelo treinado

## Nota

Se voc√™ estiver usando um ambiente virtual ou conda (como estamos usanbdo nessa aula), certifique-se de ativ√°-lo antes de instalar estas bibliotecas e executar o notebook.

In [7]:
import torch
print(torch.__version__)

2.4.1+cu121


In [3]:
# Importar bibliotecas necess√°rias
from transformers import DistilBertForSequenceClassification, DistilBertTokenizerFast, Trainer, TrainingArguments
from sklearn.model_selection import train_test_split
import torch

# Dados de exemplo
textos = [
    "Eu adorei este filme!",
    "O produto √© p√©ssimo, n√£o recomendo.",
    "Excelente qualidade e √≥timo atendimento.",
    "N√£o gostei, esperava mais.",
    "Maravilhoso, superou minhas expectativas!"
]
labels = [1, 0, 1, 0, 1]  # 1 = Positivo, 0 = Negativo

# Dividir os dados em treino e valida√ß√£o
train_texts, val_texts, train_labels, val_labels = train_test_split(textos, labels, test_size=0.2)

# Carregar tokenizer e modelo pr√©-treinado
tokenizer = DistilBertTokenizerFast.from_pretrained('distilbert-base-uncased')
model = DistilBertForSequenceClassification.from_pretrained('distilbert-base-uncased')

# Tokeniza√ß√£o
train_encodings = tokenizer(train_texts, truncation=True, padding=True)
val_encodings = tokenizer(val_texts, truncation=True, padding=True)

# Criar Dataset
class SentimentDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels
    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels[idx])
        return item
    def __len__(self):
        return len(self.labels)

train_dataset = SentimentDataset(train_encodings, train_labels)
val_dataset = SentimentDataset(val_encodings, val_labels)

# Configura√ß√µes de treinamento
training_args = TrainingArguments(
    output_dir='./results',
    num_train_epochs=2,
    per_device_train_batch_size=2,
    per_device_eval_batch_size=2,
    evaluation_strategy='epoch',
    logging_dir='./logs',
    logging_steps=10,
)

# Criar trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset,
)

# Treinar o modelo
trainer.train()

# Avaliar o modelo
trainer.evaluate()


  from .autonotebook import tqdm as notebook_tqdm
Some weights of DistilBertForSequenceClassification were not initialized from the model checkpoint at distilbert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight', 'pre_classifier.bias', 'pre_classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
                                             
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 4/4 [00:00<00:00,  7.93it/s]

{'eval_loss': 0.6393745541572571, 'eval_runtime': 0.0532, 'eval_samples_per_second': 18.808, 'eval_steps_per_second': 18.808, 'epoch': 1.0}


                                             
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 4/4 [00:01<00:00,  2.35it/s]


{'eval_loss': 0.6681358218193054, 'eval_runtime': 0.0064, 'eval_samples_per_second': 155.685, 'eval_steps_per_second': 155.685, 'epoch': 2.0}
{'train_runtime': 1.7034, 'train_samples_per_second': 4.697, 'train_steps_per_second': 2.348, 'train_loss': 0.7418535351753235, 'epoch': 2.0}


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:00<00:00, 2396.75it/s]


{'eval_loss': 0.6681358218193054,
 'eval_runtime': 0.0066,
 'eval_samples_per_second': 151.244,
 'eval_steps_per_second': 151.244,
 'epoch': 2.0}

# An√°lise dos Resultados do Treinamento

Ap√≥s o treinamento do modelo, obtivemos os seguintes resultados:

1. **eval_loss: 0.6681358218193054**
   - Este √© o valor da fun√ß√£o de perda (loss) na avalia√ß√£o final do modelo.
   - A perda indica o qu√£o bem o modelo est√° performando. Quanto menor, melhor.
   - Um valor de 0.668 √© moderado, sugerindo que o modelo aprendeu algo, mas ainda h√° espa√ßo para melhorias.

2. **eval_runtime: 0.0066**
   - Este √© o tempo total, em segundos, que levou para avaliar o modelo.
   - Um tempo de 0.0066 segundos √© muito r√°pido, indicando que a avalia√ß√£o foi feita em uma pequena quantidade de dados.

3. **eval_samples_per_second: 151.244**
   - Indica quantas amostras o modelo pode processar por segundo durante a avalia√ß√£o.
   - Um valor de 151.244 significa que o modelo √© capaz de avaliar aproximadamente 151 amostras por segundo.

4. **eval_steps_per_second: 151.244**
   - Similar ao anterior, mas mede os passos de avalia√ß√£o por segundo.
   - Neste caso, √© igual ao n√∫mero de amostras por segundo, sugerindo que cada passo processa uma amostra.

5. **epoch: 2.0**
   - Indica que o modelo completou 2 √©pocas de treinamento.
   - Uma √©poca √© uma passagem completa por todos os dados de treinamento.

## Interpreta√ß√£o Geral

- O modelo foi treinado por 2 √©pocas completas.
- A avalia√ß√£o foi r√°pida (0.0066 segundos), sugerindo um conjunto de dados pequeno.
- A perda de 0.668 indica que o modelo aprendeu padr√µes nos dados, mas ainda h√° margem para melhorias.
- O modelo √© capaz de processar cerca de 151 amostras por segundo durante a avalia√ß√£o, o que √© uma velocidade razo√°vel.

Para melhorar o desempenho, voc√™ poderia considerar:
1. Aumentar o n√∫mero de √©pocas de treinamento.
2. Usar um conjunto de dados maior.
3. Ajustar os hiperpar√¢metros do modelo.
4. Experimentar t√©cnicas de regulariza√ß√£o para reduzir o overfitting, se necess√°rio.

# 5 Tarefas Potenciais para o Modelo DistilBERT Treinado

1. **An√°lise de Sentimentos em Redes Sociais**
   - Classificar tweets, posts do Facebook ou coment√°rios do Instagram como positivos, negativos ou neutros.
   - √ötil para empresas monitorarem a percep√ß√£o da marca online.

2. **Classifica√ß√£o de Feedback de Clientes**
   - Categorizar automaticamente avalia√ß√µes de produtos ou servi√ßos.
   - Ajuda empresas a identificar rapidamente √°reas de satisfa√ß√£o ou insatisfa√ß√£o dos clientes.

3. **Triagem de E-mails**
   - Classificar e-mails como spam, importantes, promocionais, etc.
   - Pode melhorar a efici√™ncia na gest√£o de caixas de entrada corporativas.

4. **An√°lise de T√≠tulos de Not√≠cias**
   - Categorizar manchetes de not√≠cias por t√≥pico (pol√≠tica, esportes, tecnologia, etc.).
   - √ötil para agregadores de not√≠cias ou para an√°lise de tend√™ncias na m√≠dia.

5. **Detec√ß√£o de Inten√ß√£o em Chatbots**
   - Identificar a inten√ß√£o do usu√°rio em consultas de chatbot (por exemplo, fazer uma pergunta, solicitar suporte, fazer uma reclama√ß√£o).
   - Melhora a resposta automatizada em sistemas de atendimento ao cliente.