## Codificando Texto para Machine Learning

Os algoritmos de Machine Learning (ML) trabalham com **n√∫meros**, n√£o com palavras. Por isso, no processamento de linguagem natural (NLP), √© necess√°rio **converter palavras em n√∫meros**.

### Abordagem Ing√™nua: Dicion√°rio com N√∫meros

Exemplo:

| Palavra   | N√∫mero |
|-----------|--------|
| aardvark  | 1      |
| king      | 2551   |
| queen     | 3122   |

**Problema**: n√∫meros grandes causam dificuldades no treinamento do modelo (como no *gradient descent*), impedindo a converg√™ncia.

### Solu√ß√£o Inicial: One-hot Encoding

Cada palavra √© representada por um vetor com o tamanho do vocabul√°rio, contendo `1` apenas na posi√ß√£o correspondente √† palavra.

Exemplo:

| Palavra   | Vetor One-hot             |
|-----------|---------------------------|
| aardvark  | [1, 0, 0, ...]            |
| king      | [0, 0, ..., 1, 0, ...]     |
| queen     | [0, 0, ..., 0, 1, 0, ...]  |

#### Desvantagens do One-hot:
- **Sparsidade**: vetores muito grandes e com muitos zeros.
- **Sem significado sem√¢ntico**: "king" e "queen" est√£o t√£o distantes quanto "aardvark".

> Exemplo com vocabul√°rio de 3 palavras mostra que os vetores ficam distribu√≠dos ortogonalmente no espa√ßo 3D, sem capturar rela√ß√µes entre os termos.

### Solu√ß√£o Ideal: Word Embeddings

Em vez de vetores esparsos, usamos **vetores cont√≠nuos e densos**, com n√∫meros aprendidos pelo modelo.

Exemplo:

| Palavra   | Vetor Cont√≠nuo           |
|-----------|--------------------------|
| aardvark  | [0.3, 1.9, -0.4]         |
| king      | [2.1, -0.7, 0.2]         |
| queen     | [1.5, -1.3, 0.9]         |

- Esses vetores **ocupam melhor o espa√ßo vetorial**.
- Permitem que palavras com significados semelhantes fiquem **mais pr√≥ximas entre si**.
- S√£o conhecidos como **embeddings**, e seus valores s√£o **aprendidos** durante o treinamento.


## O que s√£o Word Embeddings?

Um **word embedding** √© uma representa√ß√£o num√©rica aprendida de uma palavra, na forma de um **vetor com valores reais**. O objetivo √© que palavras com significados semelhantes estejam **pr√≥ximas no espa√ßo vetorial**.

- Cada palavra do vocabul√°rio √© mapeada para um vetor em um espa√ßo multidimensional.
- Esses vetores s√£o aprendidos com base no **uso da palavra no texto** (contexto).
- Quanto mais parecidos os contextos, mais pr√≥ximas as palavras estar√£o no espa√ßo vetorial.

### Exemplo de opera√ß√£o vetorial:

Se fizermos:

```
vetor("rei") - vetor("homem") + vetor("mulher") ‚âà vetor("rainha")
```

Isso mostra como o modelo aprende rela√ß√µes sem√¢nticas entre palavras.

### Intui√ß√£o das Dimens√µes:

- As **dimens√µes do vetor** podem ser vistas como **categorias ou atributos lingu√≠sticos**.
- Os valores dentro do vetor indicam **o quanto a palavra se associa √†quela categoria**.
- Ex: uma dimens√£o pode representar ‚Äúrealeza‚Äù, outra ‚Äúfeminilidade‚Äù, etc.

### T√©cnicas comuns de embedding:

- **Word2Vec**
  - CBOW (Continuous Bag-of-Words)
  - Skip-gram
- **GloVe** (Global Vectors for Word Representation)

> üìù Modelos modernos como o GPT n√£o usam Word2Vec ou GloVe diretamente. Eles utilizam **Transformers** com **aten√ß√£o autom√°tica** para aprender representa√ß√µes **contextualizadas**.

---

## O que √© Tokeniza√ß√£o?

Antes de usar embeddings, os textos precisam ser **tokenizados**. Ou seja, o texto √© dividido em partes menores chamadas **tokens**.

### Exemplo de tokeniza√ß√£o simples:

Frase:  
`"Ei, n√£o √© um √≥timo momento para estar vivo?"`

Tokeniza√ß√£o b√°sica (por espa√ßo):  
`["Ei,", "n√£o", "√©", "um", "√≥timo", "momento", "para", "estar", "vivo?"]`

**Problemas**:
- Pontua√ß√µes ficam grudadas nas palavras (`"Ei,"`, `"vivo?"`)
- O modelo aprende representa√ß√µes diferentes para `"vivo"` e `"vivo?"`

### Tokeniza√ß√£o no GPT:

Modelos como o **GPT** usam **tokenizadores inteligentes**, que dividem palavras em partes menores chamadas **subpalavras**.

- Por exemplo: `"extraordin√°rio"` pode ser tokenizado como `["extra", "ordin", "√°rio"]`
- Isso ajuda o modelo a entender palavras desconhecidas e varia√ß√µes gramaticais.