# Arquitetura Transformer e Self-Attention

## Introdução ao Transformer

Em 2017, a arquitetura **Transformer** revolucionou o processamento de linguagem natural (NLP). Ela foi apresentada no artigo **“Attention is All You Need”** por Vaswani et al.

### O que torna o Transformer especial?

* Ele **dispensa camadas recorrentes (RNNs)** e **convolucionais (CNNs)**.
* Usa um mecanismo chamado **atenção (attention)** para lidar com sequências de dados.
* Se destacou em tarefas como tradução automática, análise de sentimentos e muito mais.


## Por que a Atenção é Importante?

Nem toda informação em uma entrada é igualmente importante. O modelo pode aprender a **"prestar mais atenção" em partes relevantes** e ignorar o que for irrelevante.

### Exemplos:

* No **max pooling**, em redes convolucionais, escolhemos apenas a **característica mais forte**.
* No **TF-IDF**, damos **mais peso às palavras que carregam mais informação**.

## Self-Attention (Atenção Automática)

A ideia central do self-attention é:
**Cada palavra (ou token) da sequência influencia a representação das outras.**

Isso permite que o modelo **entenda o contexto** em que uma palavra aparece.

### Exemplo:

Na frase:
**"O trem saiu da estação no horário"**
A palavra **"estação"** pode significar várias coisas (rádio, espacial, ferroviária).
Mas, como "trem" está presente, o modelo entende que é **"estação ferroviária"**.

## Como Funciona o Self-Attention?

1. **Calcular pontuações de atenção**: compara cada palavra com todas as outras na frase.
2. **Aplicar softmax** para normalizar essas pontuações.
3. **Somar os vetores das palavras**, ponderando pelas pontuações de atenção.
4. O resultado é uma **nova representação vetorial contextualizada** da palavra.

## Multi-Head Attention (Atenção com Múltiplas Cabeças)

* A camada `MultiHeadAttention` do Keras faz tudo isso de forma eficiente.
* Podemos ter várias “cabeças” de atenção que capturam diferentes relações entre palavras.
* Os **mesmos dados são passados três vezes**: como *query*, *key* e *value*.

## Modelo Geral de Atenção: Query, Key e Value

* **Query**: o que estamos procurando.
* **Key**: as "tags" de comparação.
* **Value**: as informações reais que queremos retornar.

### Analogia com busca:

* Query: “cachorros na praia”
* Keys: palavras associadas às fotos
* Values: as fotos em si

## Resumo

* A arquitetura Transformer **aprende relações contextuais** entre palavras com autoatenção.
* **Não depende de recorrência nem convoluções**.
* É a base de modelos como BERT, GPT e muitos outros.


![image.png](attachment:image.png)