<a href="https://colab.research.google.com/github/isaacdono/ml-studies/blob/main/deep%20learning/transformers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Estudo Pr√°tico: Transformers e o Mecanismo de Aten√ß√£o

Os Transformers revolucionaram o Processamento de Linguagem Natural (PLN). Diferente das RNNs que processam texto sequencialmente, os Transformers o processam em paralelo. A inova√ß√£o que permitiu isso foi o **Mecanismo de Aten√ß√£o (Attention Mechanism)**, especificamente o **Self-Attention**.

**Objetivos deste notebook:**
1.  **Entender a Intui√ß√£o:** Por que a aten√ß√£o √© necess√°ria?
2.  **Construir do Zero:** Implementar um mecanismo de Self-Attention para entender seu funcionamento interno.
3.  **Usar na Pr√°tica:** Aplicar um modelo Transformer real (BERT) da biblioteca Hugging Face para uma tarefa e visualizar seus padr√µes de aten√ß√£o.

In [None]:
"""
## Parte 1: O Cora√ß√£o do Transformer - Self-Attention do Zero

Imagine a frase: "O rob√¥ pegou a bola porque **ela** era pesada". Para n√≥s, √© √≥bvio que "ela" se refere √† "bola". Para um modelo, isso n√£o √© trivial. O Self-Attention permite que o modelo aprenda essas rela√ß√µes, calculando um "score de aten√ß√£o" entre cada par de palavras na senten√ßa.

Para isso, para cada palavra de entrada, criamos tr√™s vetores:
- **Query (Q)**: O que eu estou procurando? (Ex: "a que 'ela' se refere?")
- **Key (K)**: O que eu tenho a oferecer? (Ex: "eu sou a 'bola'")
- **Value (V)**: O que eu realmente sou. (A representa√ß√£o da palavra 'bola')

O processo √©:
1.  Para uma palavra (Query), comparamos seu `Q` com o `K` de todas as outras palavras para encontrar `scores`.
2.  Normalizamos os `scores` com uma fun√ß√£o `softmax` para obter pesos de aten√ß√£o.
3.  Calculamos uma m√©dia ponderada dos vetores `Value` de todas as palavras, usando os pesos de aten√ß√£o. O resultado √© a nova representa√ß√£o da palavra, rica em contexto.
"""

In [None]:
import numpy as np

def softmax(x):
    return np.exp(x) / np.sum(np.exp(x), axis=-1, keepdims=True)

# 1. Dados de Entrada: Vetores (embeddings) para 3 palavras
# Digamos que temos uma frase simples: "pense sobre m√°quinas"
# Cada palavra tem um embedding de dimens√£o 4.
embeddings = np.array([
    [1, 0, 1, 0], # pense
    [0, 1, 0, 1], # sobre
    [1, 1, 0, 1]  # m√°quinas
])
d_embedding = embeddings.shape[1]

# 2. Criar os vetores Q, K, V
# Na pr√°tica, s√£o matrizes de pesos trein√°veis. Aqui, vamos defini-las aleatoriamente.
# A dimens√£o dos vetores Q, K, V (d_k) pode ser diferente da dimens√£o do embedding.
d_k = 3
np.random.seed(42)
W_query = np.random.rand(d_embedding, d_k)
W_key = np.random.rand(d_embedding, d_k)
W_value = np.random.rand(d_embedding, d_k)

# Calculando Q, K, V
Q = np.matmul(embeddings, W_query)
K = np.matmul(embeddings, W_key)
V = np.matmul(embeddings, W_value)

print("--- Vetores Q, K, V ---")
print("Q:\n", Q)
print("\nK:\n", K)
print("\nV:\n", V)

# 3. Calcular os Scores de Aten√ß√£o
# scores = (Q * K^T) / sqrt(d_k)
scores = np.matmul(Q, K.T) / np.sqrt(d_k)
print("\n--- Scores Brutos (Antes do Softmax) ---\n", scores)

# 4. Obter os Pesos de Aten√ß√£o (Softmax)
attention_weights = softmax(scores)
print("\n--- Pesos de Aten√ß√£o (Ap√≥s Softmax) ---\n", attention_weights.round(2))

# 5. Calcular a Sa√≠da Final
# A sa√≠da para cada palavra √© a soma ponderada dos vetores V de todas as outras palavras.
output = np.matmul(attention_weights, V)
print("\n--- Sa√≠da Final (Representa√ß√£o Contextualizada) ---\n", output)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

sentence = ["pense", "sobre", "m√°quinas"]
plt.figure(figsize=(6, 5))
sns.heatmap(attention_weights, xticklabels=sentence, yticklabels=sentence, annot=True, cmap="viridis")
plt.title("Visualiza√ß√£o dos Pesos de Self-Attention")
plt.xlabel("Palavras (Key)")
plt.ylabel("Palavras (Query)")
plt.show()

"""
**An√°lise:** A matriz de calor acima mostra a quem cada palavra "presta aten√ß√£o" (incluindo ela mesma). A linha "pense" mostra os pesos que ela atribui a "pense", "sobre" e "m√°quinas" para criar sua nova representa√ß√£o.
"""

In [None]:
"""
## Parte 2: Transformers na Pr√°tica com Hugging Face ü§ó

Construir um Transformer completo √© complexo. Felizmente, a biblioteca `transformers` da Hugging Face nos d√° acesso a milhares de modelos pr√©-treinados (como BERT, GPT, T5) com poucas linhas de c√≥digo.

A arquitetura completa de um Transformer inclui:
- **Multi-Head Attention**: Fazer o Self-Attention v√°rias vezes em paralelo, com diferentes matrizes de pesos, para capturar diferentes tipos de rela√ß√µes.
- **Positional Encodings**: Como n√£o h√° recorr√™ncia, injetamos informa√ß√µes sobre a posi√ß√£o das palavras nos embeddings.
- **Feed-Forward Networks**: Camadas densas aplicadas a cada posi√ß√£o.
- **Encoder-Decoder Stacks**: M√∫ltiplas camadas de encoder e/ou decoder empilhadas.

Vamos usar um pipeline para uma tarefa simples: an√°lise de sentimentos.
"""


In [None]:
# Descomente e execute se n√£o tiver a biblioteca instalada
# !pip install transformers torch

from transformers import pipeline

# Carregando um pipeline pr√©-treinado para an√°lise de sentimentos
# Este modelo foi treinado em um dataset em ingl√™s.
sentiment_pipeline = pipeline("sentiment-analysis")

print("\n--- An√°lise de Sentimentos ---")
print("Frase: 'I love this new movie, it's fantastic!'")
print("Resultado:", sentiment_pipeline("I love this new movie, it's fantastic!"))

print("\nFrase: 'The service was terrible from start to finish.'")
print("Resultado:", sentiment_pipeline("The service was terrible from start to finish."))


In [None]:
"""
Vamos dar um passo al√©m e visualizar os pesos de aten√ß√£o de um modelo BERT real para entender como ele "pensa".
"""
from transformers import AutoTokenizer, AutoModel
import torch

# Usaremos um BERT multilingual para podermos usar uma frase em portugu√™s
model_name = "bert-base-multilingual-cased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name, output_attentions=True)

# Frase de exemplo
sentence_pt = "O gato sentou no tapete e o cachorro correu."
inputs = tokenizer(sentence_pt, return_tensors="pt")
outputs = model(**inputs)

# 'outputs.attentions' √© uma tupla com os pesos de aten√ß√£o de cada camada (12 no BERT-base)
# Cada tensor tem o formato: [batch_size, num_heads, sequence_length, sequence_length]
attention = outputs.attentions
tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])

# Vamos visualizar a aten√ß√£o de uma cabe√ßa espec√≠fica (ex: cabe√ßa 0) na primeira camada (camada 0)
attention_head_0 = attention[0][0, 0, :, :].detach().numpy()

# Plotando a matriz de aten√ß√£o
plt.figure(figsize=(10, 8))
sns.heatmap(attention_head_0, xticklabels=tokens, yticklabels=tokens, cmap="viridis")
plt.title("Aten√ß√£o de uma Cabe√ßa no BERT (Camada 0, Cabe√ßa 0)")
plt.show()

"""
**An√°lise:** Inspecione o mapa de calor. Note os pesos altos na diagonal (cada palavra presta aten√ß√£o a si mesma) e em tokens especiais como `[CLS]` e `[SEP]`. Observe como "cachorro" pode estar prestando mais aten√ß√£o em "correu", enquanto "gato" presta mais aten√ß√£o em "sentou", capturando as rela√ß√µes de contexto da frase. Cada uma das 144 cabe√ßas de aten√ß√£o do BERT (12 camadas x 12 cabe√ßas) aprende a focar em um tipo diferente de rela√ß√£o sint√°tica ou sem√¢ntica.
"""

In [None]:
"""
### Conclus√£o

Neste notebook, desvendamos o mecanismo de **Self-Attention**, o componente que tornou os Transformers poss√≠veis e mudou o cen√°rio da IA.

**Principais aprendizados:**
1.  **Aten√ß√£o √© Contexto:** O Self-Attention permite que um modelo pese a import√¢ncia de diferentes palavras em uma sequ√™ncia para construir representa√ß√µes ricas em contexto.
2.  **Paralelismo √© Poder:** Ao eliminar a necessidade de processamento sequencial das RNNs, os Transformers podem ser treinados em conjuntos de dados muito maiores e em hardware moderno (GPUs/TPUs) de forma muito mais eficiente.
3.  **Modelos de Funda√ß√£o:** A arquitetura Transformer √© a base para quase todos os modelos de linguagem de ponta hoje, incluindo o BERT (focado em entendimento) e a fam√≠lia GPT (focada em gera√ß√£o), que impulsionam aplica√ß√µes como a que voc√™ est√° usando agora.
"""