# Transformer e suas Aplicações com Análise de Sentimentos
### Disciplina: Aprendizagem de Máquina e Mineração de Dados – UFRN
### Aluno: Pablo Durkheim e Gabriel Cruz
### Data: 10/07/2025

---
## 1. Introdução

O Transformer é uma arquitetura de rede neural que revolucionou o processamento de linguagem natural (NLP), visão computacional, bioinformática e diversas outras áreas da inteligência artificial moderna. Ele foi proposto por Vaswani et al. em 2017 no artigo _"Attention is All You Need"_.

O Transformer usa mecanismos de atenção ao invés de redes recorrentes (RNNs/LSTMs), permitindo alto paralelismo e desempenho em tarefas sequenciais. Modelos como BERT, GPT, T5, ViT e AlphaFold são todos baseados nessa arquitetura.

Neste notebook, vamos aplicar o **DistilBERT**, uma versão leve do BERT, para realizar **análise de sentimentos**.


## 2. Funcionamento do Transformer

A arquitetura é dividida em duas partes principais:

- **Encoder**: processa e codifica a entrada em uma representação vetorial.
- **Decoder**: gera a saída com base na representação do encoder (ex: tradução).

Componentes chave:
- **Multi-head Attention**: o modelo foca em várias partes da entrada simultaneamente. É uma técnica que permite que o Transformer olhe para várias partes diferentes da frase ao mesmo tempo, usando vários mecanismos de atenção paralelos, cada um focado em aspectos distintos da entrada. Isso enriquece o entendimento do modelo sobre o contexto e as relações entre palavras.

- **Feedforward Layers**: camadas densas aplicadas a cada token.
- **Positional Encoding**: informa ao modelo a posição das palavras na sequência.

Referência original: [https://arxiv.org/abs/1706.03762](https://arxiv.org/abs/1706.03762)


## 3. Onde o Transformer é Usado?

| Área | Aplicações | Exemplos |
|------|------------|----------|
| **NLP** | Tradução, geração de texto, chatbots, análise de sentimentos | ChatGPT, Google Translate, BERT |
| **Visão Computacional** | Classificação, detecção de objetos | ViT, DETR |
| **Biomedicina** | Predição de proteínas, análise de textos médicos | AlphaFold, BioBERT |
| **Robótica** | Planejamento, controle inteligente | Decision Transformers |
| **Arte e Multimídia** | Geração de imagens, músicas e vídeos | DALL·E, Imagen, Music Transformer |


## 4. O que é o DistilBERT?

O **DistilBERT** é uma versão menor e mais rápida do modelo BERT, criado com a técnica de _knowledge distillation_ ( uma técnica em que um modelo grande (Teacher) ensina um modelo menor (Student) a prever da mesma forma, transferindo "conhecimento suave" (soft labels). Isso permite reduzir o tamanho do modelo mantendo bom desempenho.). Ele é 40% menor que o BERT base, mas retém cerca de 97% da sua performance em tarefas como análise de sentimentos e classificação de texto.

Modelo: `distilbert-base-uncased-finetuned-sst-2-english`  
- Treinado no dataset SST-2 (Stanford Sentiment Treebank)
- Classifica frases em **POSITIVE** ou **NEGATIVE**

Referência do modelo: [https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english](https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english)


## 5. Instalação das Bibliotecas

In [None]:
# Instala as bibliotecas necessárias para usar modelos da Hugging Face
!pip install transformers -q
!pip install torch -q

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m363.4/363.4 MB[0m [31m4.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.8/13.8 MB[0m [31m56.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.6/24.6 MB[0m [31m38.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m883.7/883.7 kB[0m [31m18.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m664.8/664.8 MB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m211.5/211.5 MB[0m [31m5.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m56.3/56.3 MB[0m [31m14.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m127.9/127.9 MB[0m [31m8.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

## 6. Importação de Bibliotecas

In [None]:
# Importa o pipeline pronto para análise de sentimentos e pandas para exibir os resultados
from transformers import pipeline
import pandas as pd

## 7. Criando o Pipeline de Análise de Sentimentos

In [None]:
# Cria o pipeline com o modelo DistilBERT pré-treinado
classifier = pipeline("sentiment-analysis")

No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision 714eb0f (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

Device set to use cpu


## 8. Aplicação Prática

In [None]:
# Lista de frases para análise
frases = [
    "I love studying machine learning!",
    "This movie was terrible, I wasted my time.",
    "I'm feeling great today!",
    "The product is okay, but the delivery was late.",
    "UFRN is an excellent university."
]

# Executa a análise de sentimentos nas frases
resultados = classifier(frases)

# Organiza os resultados em um DataFrame para exibição
df = pd.DataFrame({
    "Frase": frases,
    "Sentimento": [r['label'] for r in resultados],
    "Confiança": [round(r['score'], 3) for r in resultados]
})
df

Unnamed: 0,Frase,Sentimento,Confiança
0,I love studying machine learning!,POSITIVE,1.0
1,"This movie was terrible, I wasted my time.",NEGATIVE,1.0
2,I'm feeling great today!,POSITIVE,1.0
3,"The product is okay, but the delivery was late.",NEGATIVE,0.998
4,UFRN is an excellent university.,POSITIVE,1.0




# 📘 Classificação de Sentimentos com RoBERTa

---
### O que é o roBERTa?
RoBERTa significa Robustly Optimized BERT Approach.
Ele é um modelo do tipo Transformer criado pela equipe do Facebook AI (Meta AI) em 2019, como uma melhoria direta do BERT (Bidirectional Encoder Representations from Transformers) da Google.

### 🚀 Melhorias em relação ao BERT:
- Treinado com **10 vezes mais dados**
- **Remove a tarefa NSP** (Next Sentence Prediction)
- Usa **larger batch sizes** e **mais passos de treinamento**
- Maior desempenho em benchmarks como GLUE, SQuAD e SuperGLUE

RoBERTa é muito eficaz em tarefas como:
- Classificação de sentimentos
- Resposta a perguntas
- Detecção de spam ou toxicidade
- Entendimento de linguagem natural em geral

---

## 🔄 2. Como o RoBERTa classifica uma frase? (Passo a Passo)

### 🔠 2.1. Tokenização (Byte-Pair Encoding - BPE)

A primeira etapa do processamento é a **tokenização** da frase. RoBERTa utiliza o método **Byte-Pair Encoding (BPE)**, que divide o texto em **subpalavras** em vez de palavras completas.

Exemplo:

"I love studying machine learning!" →
['<s>', 'I', 'Ġlove', 'Ġstudying', 'Ġmachine', 'Ġlearning', '!', '</s>']

Dado o exemplo:

"I love studying machine learning!"

### 🧠 2.2. Embedding + Positional Encoding

Após a tokenização, cada token é convertido em um vetor numérico de dimensão fixa (ex: 768). Este vetor é chamado de **token embedding**.

Além disso, como o Transformer não tem noção de ordem por si só, um **vetor de codificação posicional (positional encoding)** é somado a cada embedding, indicando a posição de cada token na sequência.

🔢 O resultado é uma matriz de embeddings de forma `[n_tokens, 768]`, combinando significado (embedding) + posição (positional encoding).

---

### 🔁 2.3. Camadas Transformer Encoder

A matriz gerada na etapa anterior é passada por uma pilha de **camadas Transformer do tipo encoder** (12 no caso do RoBERTa-base). Cada camada possui dois subcomponentes:

- **Multi-Head Self-Attention**: cada palavra "olha" para todas as outras da frase, aprendendo o contexto.
- **Feedforward Layer**: transforma a representação atual para refinar a semântica.

Além disso, há:
- Normalização (**LayerNorm**)
- Conexões residuais (**skip connections**)

✅ Após passar por todas as camadas, a representação de cada token é atualizada com base no **contexto da frase inteira**.

> O vetor correspondente ao token inicial `<s>` (posição 0) acumula **a representação da frase como um todo**.

---

### 📤 2.4. Camada de Classificação

Após o processamento pelo Transformer, o vetor do token `<s>` (primeiro da sequência) é passado por uma **camada densa (fully connected)** com uma saída do tipo:

```python
logits = [ -1.3, 0.4, 2.2 ]  # valores antes do softmax


In [None]:
# Lista de frases para análise
frases = [
    "I love studying machine learning!",
    "This movie was terrible, I wasted my time.",
    "I'm feeling great today!",
    "The product is okay, but the delivery was late.",
    "UFRN is an excellent university."
]

# Cria o pipeline de classificação de sentimentos com o modelo RoBERTa treinado no Twitter
classifier = pipeline("sentiment-analysis", model="cardiffnlp/twitter-roberta-base-sentiment")

# Executa a análise de sentimentos nas frases
resultados = classifier(frases)

# Organiza os resultados em um DataFrame para exibição
df = pd.DataFrame({
    "Frase": frases,
    "Sentimento": [r['label'] for r in resultados],
    "Confiança": [round(r['score'], 3) for r in resultados]
})

# Mostra o DataFrame
df

#label 0: negative, 1: neutral, 2, positve

config.json:   0%|          | 0.00/747 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/499M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/499M [00:00<?, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/150 [00:00<?, ?B/s]

Device set to use cpu


Unnamed: 0,Frase,Sentimento,Confiança
0,I love studying machine learning!,LABEL_2,0.991
1,"This movie was terrible, I wasted my time.",LABEL_0,0.983
2,I'm feeling great today!,LABEL_2,0.99
3,"The product is okay, but the delivery was late.",LABEL_1,0.516
4,UFRN is an excellent university.,LABEL_2,0.968


## ✅ Resultado Final

O modelo **DistilBERT** identificou corretamente sentimentos positivos e negativos nas frases. Essa abordagem é amplamente usada em:

- Análise de reviews de produtos  
- Opiniões de usuários em redes sociais  
- Monitoramento de feedbacks institucionais  

O modelo **RoBERTa (CardiffNLP - Twitter)** também foi aplicado às mesmas frases. Ele foi treinado especificamente em textos de redes sociais e conseguiu reconhecer nuances da linguagem informal, como tom neutro ou expressões coloquiais. Essa variante é indicada para:

- Tweets e mensagens curtas  
- Análise de sentimentos em tempo real  
- Classificação de postagens com emojis, gírias e abreviações  
- Monitoramento de marcas ou campanhas no Twitter  

Ambos os modelos apresentaram boa performance, mas o **RoBERTa especializado em tweets** demonstrou melhor adaptação à linguagem informal e expressiva.


## 10. Considerações Finais

O Transformer é uma arquitetura extremamente poderosa que serve como base para os modelos mais avançados de IA da atualidade. O DistilBERT demonstra que mesmo versões reduzidas podem ser aplicadas em tarefas práticas com excelente desempenho.

Essa tecnologia é útil em aplicações comerciais, científicas, educacionais e sociais.


## 11. Referências

- Vaswani et al. (2017). *Attention is All You Need*. [https://arxiv.org/abs/1706.03762](https://arxiv.org/abs/1706.03762)  
- Wolf et al. (2020). *Transformers: State-of-the-Art NLP*. [https://arxiv.org/abs/1910.03771](https://arxiv.org/abs/1910.03771)  
- DistilBERT Model: [https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english](https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english)  
- Transformers Library (Hugging Face): [https://huggingface.co/transformers](https://huggingface.co/transformers)  

- RoBERTa: Liu, Y., et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv:1907.11692

- DistilBERT: Sanh, V., et al. (2019). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv:1910.01108

- Transformers Library (Hugging Face): https://huggingface.co/transformers/

- Modelo usado: cardiffnlp/twitter-roberta-base-sentiment
