## Codificando Texto para Machine Learning

Os algoritmos de Machine Learning (ML) trabalham com **números**, não com palavras. Por isso, no processamento de linguagem natural (NLP), é necessário **converter palavras em números**.

### Abordagem Ingênua: Dicionário com Números

Exemplo:

| Palavra   | Número |
|-----------|--------|
| aardvark  | 1      |
| king      | 2551   |
| queen     | 3122   |

**Problema**: números grandes causam dificuldades no treinamento do modelo (como no *gradient descent*), impedindo a convergência.

### Solução Inicial: One-hot Encoding

Cada palavra é representada por um vetor com o tamanho do vocabulário, contendo `1` apenas na posição correspondente à palavra.

Exemplo:

| Palavra   | Vetor One-hot             |
|-----------|---------------------------|
| aardvark  | [1, 0, 0, ...]            |
| king      | [0, 0, ..., 1, 0, ...]     |
| queen     | [0, 0, ..., 0, 1, 0, ...]  |

#### Desvantagens do One-hot:
- **Sparsidade**: vetores muito grandes e com muitos zeros.
- **Sem significado semântico**: "king" e "queen" estão tão distantes quanto "aardvark".

> Exemplo com vocabulário de 3 palavras mostra que os vetores ficam distribuídos ortogonalmente no espaço 3D, sem capturar relações entre os termos.

### Solução Ideal: Word Embeddings

Em vez de vetores esparsos, usamos **vetores contínuos e densos**, com números aprendidos pelo modelo.

Exemplo:

| Palavra   | Vetor Contínuo           |
|-----------|--------------------------|
| aardvark  | [0.3, 1.9, -0.4]         |
| king      | [2.1, -0.7, 0.2]         |
| queen     | [1.5, -1.3, 0.9]         |

- Esses vetores **ocupam melhor o espaço vetorial**.
- Permitem que palavras com significados semelhantes fiquem **mais próximas entre si**.
- São conhecidos como **embeddings**, e seus valores são **aprendidos** durante o treinamento.


## O que são Word Embeddings?

Um **word embedding** é uma representação numérica aprendida de uma palavra, na forma de um **vetor com valores reais**. O objetivo é que palavras com significados semelhantes estejam **próximas no espaço vetorial**.

- Cada palavra do vocabulário é mapeada para um vetor em um espaço multidimensional.
- Esses vetores são aprendidos com base no **uso da palavra no texto** (contexto).
- Quanto mais parecidos os contextos, mais próximas as palavras estarão no espaço vetorial.

### Exemplo de operação vetorial:

Se fizermos:

```
vetor("rei") - vetor("homem") + vetor("mulher") ≈ vetor("rainha")
```

Isso mostra como o modelo aprende relações semânticas entre palavras.

### Intuição das Dimensões:

- As **dimensões do vetor** podem ser vistas como **categorias ou atributos linguísticos**.
- Os valores dentro do vetor indicam **o quanto a palavra se associa àquela categoria**.
- Ex: uma dimensão pode representar “realeza”, outra “feminilidade”, etc.

### Técnicas comuns de embedding:

- **Word2Vec**
  - CBOW (Continuous Bag-of-Words)
  - Skip-gram
- **GloVe** (Global Vectors for Word Representation)

> 📝 Modelos modernos como o GPT não usam Word2Vec ou GloVe diretamente. Eles utilizam **Transformers** com **atenção automática** para aprender representações **contextualizadas**.

---

## O que é Tokenização?

Antes de usar embeddings, os textos precisam ser **tokenizados**. Ou seja, o texto é dividido em partes menores chamadas **tokens**.

### Exemplo de tokenização simples:

Frase:  
`"Ei, não é um ótimo momento para estar vivo?"`

Tokenização básica (por espaço):  
`["Ei,", "não", "é", "um", "ótimo", "momento", "para", "estar", "vivo?"]`

**Problemas**:
- Pontuações ficam grudadas nas palavras (`"Ei,"`, `"vivo?"`)
- O modelo aprende representações diferentes para `"vivo"` e `"vivo?"`

### Tokenização no GPT:

Modelos como o **GPT** usam **tokenizadores inteligentes**, que dividem palavras em partes menores chamadas **subpalavras**.

- Por exemplo: `"extraordinário"` pode ser tokenizado como `["extra", "ordin", "ário"]`
- Isso ajuda o modelo a entender palavras desconhecidas e variações gramaticais.