# Transformer e suas Aplica√ß√µes com An√°lise de Sentimentos
### Disciplina: Aprendizagem de M√°quina e Minera√ß√£o de Dados ‚Äì UFRN
### Aluno: Pablo Durkheim e Gabriel Cruz
### Data: 10/07/2025

---
## 1. Introdu√ß√£o

O Transformer √© uma arquitetura de rede neural que revolucionou o processamento de linguagem natural (NLP), vis√£o computacional, bioinform√°tica e diversas outras √°reas da intelig√™ncia artificial moderna. Ele foi proposto por Vaswani et al. em 2017 no artigo _"Attention is All You Need"_.

O Transformer usa mecanismos de aten√ß√£o ao inv√©s de redes recorrentes (RNNs/LSTMs), permitindo alto paralelismo e desempenho em tarefas sequenciais. Modelos como BERT, GPT, T5, ViT e AlphaFold s√£o todos baseados nessa arquitetura.

Neste notebook, vamos aplicar o **DistilBERT**, uma vers√£o leve do BERT, para realizar **an√°lise de sentimentos**.


## 2. Funcionamento do Transformer

A arquitetura √© dividida em duas partes principais:

- **Encoder**: processa e codifica a entrada em uma representa√ß√£o vetorial.
- **Decoder**: gera a sa√≠da com base na representa√ß√£o do encoder (ex: tradu√ß√£o).

Componentes chave:
- **Multi-head Attention**: o modelo foca em v√°rias partes da entrada simultaneamente. √â uma t√©cnica que permite que o Transformer olhe para v√°rias partes diferentes da frase ao mesmo tempo, usando v√°rios mecanismos de aten√ß√£o paralelos, cada um focado em aspectos distintos da entrada. Isso enriquece o entendimento do modelo sobre o contexto e as rela√ß√µes entre palavras.

- **Feedforward Layers**: camadas densas aplicadas a cada token.
- **Positional Encoding**: informa ao modelo a posi√ß√£o das palavras na sequ√™ncia.

Refer√™ncia original: [https://arxiv.org/abs/1706.03762](https://arxiv.org/abs/1706.03762)


## 3. Onde o Transformer √© Usado?

| √Årea | Aplica√ß√µes | Exemplos |
|------|------------|----------|
| **NLP** | Tradu√ß√£o, gera√ß√£o de texto, chatbots, an√°lise de sentimentos | ChatGPT, Google Translate, BERT |
| **Vis√£o Computacional** | Classifica√ß√£o, detec√ß√£o de objetos | ViT, DETR |
| **Biomedicina** | Predi√ß√£o de prote√≠nas, an√°lise de textos m√©dicos | AlphaFold, BioBERT |
| **Rob√≥tica** | Planejamento, controle inteligente | Decision Transformers |
| **Arte e Multim√≠dia** | Gera√ß√£o de imagens, m√∫sicas e v√≠deos | DALL¬∑E, Imagen, Music Transformer |


## 4. O que √© o DistilBERT?

O **DistilBERT** √© uma vers√£o menor e mais r√°pida do modelo BERT, criado com a t√©cnica de _knowledge distillation_ ( uma t√©cnica em que um modelo grande (Teacher) ensina um modelo menor (Student) a prever da mesma forma, transferindo "conhecimento suave" (soft labels). Isso permite reduzir o tamanho do modelo mantendo bom desempenho.). Ele √© 40% menor que o BERT base, mas ret√©m cerca de 97% da sua performance em tarefas como an√°lise de sentimentos e classifica√ß√£o de texto.

Modelo: `distilbert-base-uncased-finetuned-sst-2-english`  
- Treinado no dataset SST-2 (Stanford Sentiment Treebank)
- Classifica frases em **POSITIVE** ou **NEGATIVE**

Refer√™ncia do modelo: [https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english](https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english)


## 5. Instala√ß√£o das Bibliotecas

In [None]:
# Instala as bibliotecas necess√°rias para usar modelos da Hugging Face
!pip install transformers -q
!pip install torch -q

[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m363.4/363.4 MB[0m [31m4.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m13.8/13.8 MB[0m [31m56.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m24.6/24.6 MB[0m [31m38.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m883.7/883.7 kB[0m [31m18.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m664.8/664.8 MB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0m


## 6. Importa√ß√£o de Bibliotecas

In [None]:
# Importa o pipeline pronto para an√°lise de sentimentos e pandas para exibir os resultados
from transformers import pipeline
import pandas as pd

## 7. Criando o Pipeline de An√°lise de Sentimentos

In [None]:
# Cria o pipeline com o modelo DistilBERT pr√©-treinado
classifier = pipeline("sentiment-analysis")

No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision 714eb0f (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

Device set to use cpu


## 8. Aplica√ß√£o Pr√°tica

In [None]:
# Lista de frases para an√°lise
frases = [
    "I love studying machine learning!",
    "This movie was terrible, I wasted my time.",
    "I'm feeling great today!",
    "The product is okay, but the delivery was late.",
    "UFRN is an excellent university."
]

# Executa a an√°lise de sentimentos nas frases
resultados = classifier(frases)

# Organiza os resultados em um DataFrame para exibi√ß√£o
df = pd.DataFrame({
    "Frase": frases,
    "Sentimento": [r['label'] for r in resultados],
    "Confian√ßa": [round(r['score'], 3) for r in resultados]
})
df

Unnamed: 0,Frase,Sentimento,Confian√ßa
0,I love studying machine learning!,POSITIVE,1.0
1,"This movie was terrible, I wasted my time.",NEGATIVE,1.0
2,I'm feeling great today!,POSITIVE,1.0
3,"The product is okay, but the delivery was late.",NEGATIVE,0.998
4,UFRN is an excellent university.,POSITIVE,1.0




# üìò Classifica√ß√£o de Sentimentos com RoBERTa

---
### O que √© o roBERTa?
RoBERTa significa Robustly Optimized BERT Approach.
Ele √© um modelo do tipo Transformer criado pela equipe do Facebook AI (Meta AI) em 2019, como uma melhoria direta do BERT (Bidirectional Encoder Representations from Transformers) da Google.

### üöÄ Melhorias em rela√ß√£o ao BERT:
- Treinado com **10 vezes mais dados**
- **Remove a tarefa NSP** (Next Sentence Prediction)
- Usa **larger batch sizes** e **mais passos de treinamento**
- Maior desempenho em benchmarks como GLUE, SQuAD e SuperGLUE

RoBERTa √© muito eficaz em tarefas como:
- Classifica√ß√£o de sentimentos
- Resposta a perguntas
- Detec√ß√£o de spam ou toxicidade
- Entendimento de linguagem natural em geral

---

## üîÑ 2. Como o RoBERTa classifica uma frase? (Passo a Passo)

### üî† 2.1. Tokeniza√ß√£o (Byte-Pair Encoding - BPE)

A primeira etapa do processamento √© a **tokeniza√ß√£o** da frase. RoBERTa utiliza o m√©todo **Byte-Pair Encoding (BPE)**, que divide o texto em **subpalavras** em vez de palavras completas.

Exemplo:

"I love studying machine learning!" ‚Üí
['<s>', 'I', 'ƒ†love', 'ƒ†studying', 'ƒ†machine', 'ƒ†learning', '!', '</s>']

Dado o exemplo:

"I love studying machine learning!"

### üß† 2.2. Embedding + Positional Encoding

Ap√≥s a tokeniza√ß√£o, cada token √© convertido em um vetor num√©rico de dimens√£o fixa (ex: 768). Este vetor √© chamado de **token embedding**.

Al√©m disso, como o Transformer n√£o tem no√ß√£o de ordem por si s√≥, um **vetor de codifica√ß√£o posicional (positional encoding)** √© somado a cada embedding, indicando a posi√ß√£o de cada token na sequ√™ncia.

üî¢ O resultado √© uma matriz de embeddings de forma `[n_tokens, 768]`, combinando significado (embedding) + posi√ß√£o (positional encoding).

---

### üîÅ 2.3. Camadas Transformer Encoder

A matriz gerada na etapa anterior √© passada por uma pilha de **camadas Transformer do tipo encoder** (12 no caso do RoBERTa-base). Cada camada possui dois subcomponentes:

- **Multi-Head Self-Attention**: cada palavra "olha" para todas as outras da frase, aprendendo o contexto.
- **Feedforward Layer**: transforma a representa√ß√£o atual para refinar a sem√¢ntica.

Al√©m disso, h√°:
- Normaliza√ß√£o (**LayerNorm**)
- Conex√µes residuais (**skip connections**)

‚úÖ Ap√≥s passar por todas as camadas, a representa√ß√£o de cada token √© atualizada com base no **contexto da frase inteira**.

> O vetor correspondente ao token inicial `<s>` (posi√ß√£o 0) acumula **a representa√ß√£o da frase como um todo**.

---

### üì§ 2.4. Camada de Classifica√ß√£o

Ap√≥s o processamento pelo Transformer, o vetor do token `<s>` (primeiro da sequ√™ncia) √© passado por uma **camada densa (fully connected)** com uma sa√≠da do tipo:

```python
logits = [ -1.3, 0.4, 2.2 ]  # valores antes do softmax


In [None]:
# Lista de frases para an√°lise
frases = [
    "I love studying machine learning!",
    "This movie was terrible, I wasted my time.",
    "I'm feeling great today!",
    "The product is okay, but the delivery was late.",
    "UFRN is an excellent university."
]

# Cria o pipeline de classifica√ß√£o de sentimentos com o modelo RoBERTa treinado no Twitter
classifier = pipeline("sentiment-analysis", model="cardiffnlp/twitter-roberta-base-sentiment")

# Executa a an√°lise de sentimentos nas frases
resultados = classifier(frases)

# Organiza os resultados em um DataFrame para exibi√ß√£o
df = pd.DataFrame({
    "Frase": frases,
    "Sentimento": [r['label'] for r in resultados],
    "Confian√ßa": [round(r['score'], 3) for r in resultados]
})

# Mostra o DataFrame
df

#label 0: negative, 1: neutral, 2, positve

config.json:   0%|          | 0.00/747 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/499M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/499M [00:00<?, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/150 [00:00<?, ?B/s]

Device set to use cpu


Unnamed: 0,Frase,Sentimento,Confian√ßa
0,I love studying machine learning!,LABEL_2,0.991
1,"This movie was terrible, I wasted my time.",LABEL_0,0.983
2,I'm feeling great today!,LABEL_2,0.99
3,"The product is okay, but the delivery was late.",LABEL_1,0.516
4,UFRN is an excellent university.,LABEL_2,0.968


## ‚úÖ Resultado Final

O modelo **DistilBERT** identificou corretamente sentimentos positivos e negativos nas frases. Essa abordagem √© amplamente usada em:

- An√°lise de reviews de produtos  
- Opini√µes de usu√°rios em redes sociais  
- Monitoramento de feedbacks institucionais  

O modelo **RoBERTa (CardiffNLP - Twitter)** tamb√©m foi aplicado √†s mesmas frases. Ele foi treinado especificamente em textos de redes sociais e conseguiu reconhecer nuances da linguagem informal, como tom neutro ou express√µes coloquiais. Essa variante √© indicada para:

- Tweets e mensagens curtas  
- An√°lise de sentimentos em tempo real  
- Classifica√ß√£o de postagens com emojis, g√≠rias e abrevia√ß√µes  
- Monitoramento de marcas ou campanhas no Twitter  

Ambos os modelos apresentaram boa performance, mas o **RoBERTa especializado em tweets** demonstrou melhor adapta√ß√£o √† linguagem informal e expressiva.


## 10. Considera√ß√µes Finais

O Transformer √© uma arquitetura extremamente poderosa que serve como base para os modelos mais avan√ßados de IA da atualidade. O DistilBERT demonstra que mesmo vers√µes reduzidas podem ser aplicadas em tarefas pr√°ticas com excelente desempenho.

Essa tecnologia √© √∫til em aplica√ß√µes comerciais, cient√≠ficas, educacionais e sociais.


## 11. Refer√™ncias

- Vaswani et al. (2017). *Attention is All You Need*. [https://arxiv.org/abs/1706.03762](https://arxiv.org/abs/1706.03762)  
- Wolf et al. (2020). *Transformers: State-of-the-Art NLP*. [https://arxiv.org/abs/1910.03771](https://arxiv.org/abs/1910.03771)  
- DistilBERT Model: [https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english](https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english)  
- Transformers Library (Hugging Face): [https://huggingface.co/transformers](https://huggingface.co/transformers)  

- RoBERTa: Liu, Y., et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv:1907.11692

- DistilBERT: Sanh, V., et al. (2019). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv:1910.01108

- Transformers Library (Hugging Face): https://huggingface.co/transformers/

- Modelo usado: cardiffnlp/twitter-roberta-base-sentiment
