# Arquitetura dos Transformers

## Tokenization

### O que é?

Divisão do texto em unidades menores, referenciadas por IDs, de forma a serem processáveis pelo modelo.

### Tipos de Tokenização

- Por palavra: cada palavra é um token.

- Por subpalavra: divide as palavras em morfemas (radical, afixos, etc) ou nro de caracteres fixo.

- Por caractere: cada caractere é um token.

### Processo de Tokenização

1. Normalização: converte o texto para uma forma canônica (tira acentos, lower case)

2. Divisão do texto em tokens

3. Converte cada token para um ID: de acordo com um vocabulário pré-definido.

![Tokenization](img/tokenization.png)

## Embeddings

### O que é?

São representações vetoriais densas de palavras ou tokens em um espaço de alta dimensionalidade. Preserva as relações semânticas e contextuais entre as palavras.

### Tipos de Embeddings

- Word embeddings: cada palavra é um vetor, exemplo: Word2Vec; palavras semelhantes produzem vetores próximos.

- Subword embeddings: utilizado pelo BERT e GPT, cada token é um vetor.

- Positional embedding: captura a informação da localização do token no texto (já que os Transformers não guardam a ordem das palavras), e soma essa informação aos outros tipos de embeddings.

![word2vec](img/word2vec.jpg)

### Processo de Embedding

1. Inicialização aleatória

2. Treinamento: os embeddings são ajustados por backpropagation para capturar o significado de cada palavra/token.

3. Contextualização: nas camadas subsequentes do Transformer, os embeddings são ajustados para capturar o contexto completo da frase.

## Attention

### O que é?

Como o próprio nome diz, é um mecanismo que permite processar todos os tokens simultaneamente no input, de forma a treinar o modelo para "focar" nas relações mais importantes para montar um contexto (Self-Attention). 

Posteriormente, o conceito de Self-Attention foi expandido para Multi-Head Attention, que é uma série de mecanismos de atenção onde cada "cabeça" tenta aprender relações diferentes entre os tokens.

### Processo de Atenção

1. Cálculo dos scores de atenção:
   - Q (query): representa o token atual
   - K (key): representa os outros tokens em que estamos "atentos"
   - V (value): representa os valores dos tokens
   - calcula o produto escalar entre Q e K para obter a relevância, depois multiplica por V para obter a saída.

2. Softmax: normalização

3. Atualiza o valor do token ponderado pelo valor do softmax.

![Attention](img/attention.jpg)

## Feed-Forward Networks

### O que é?

São redes neurais densas tradicionais, que ajudam a transformar as representações intermediárias de cada token introduzindo não-linearidades.

### Processo de Feed-Forward Networks

$FFN(x)=max(0,xW_1​+b_1​)W_2​+b_2$ 

(considerando função de ativação ReLU)

![FFN](img/ffn.png)

## Encoder e Decoder