# Entendendo a classe `nn.Embedding` (PyTorch)

A classe `nn.Embedding` é usada para mapear **índices inteiros para vetores densos aprendíveis**.
Ela é amplamente utilizada em Processamento de Linguagem Natural (PLN), sistemas de recomendação e redes neurais que recebem dados categóricos.


## Definição

```python
torch.nn.Embedding(num_embeddings, embedding_dim)
```

- **`num_embeddings`**: número de tokens no vocabulário (tamanho total da tabela);
- **`embedding_dim`**: dimensão do vetor denso associado a cada token.


## Funcionamento interno

A camada mantém uma matriz de pesos `W` de dimensão `(num_embeddings, embedding_dim)`.
Cada linha representa o vetor correspondente a um token. Quando o modelo recebe um índice, ele retorna a linha correspondente da matriz.

Em outras palavras:

$$
x = [i_1, i_2, \ldots, i_n] \quad \Rightarrow \quad \text{Embedding}(x) = [W_{i_1}, W_{i_2}, \ldots, W_{i_n}]
$$


In [15]:
import torch
import torch.nn as nn

# vocabulário com 5 palavras, cada uma com vetor de dimensão 3
emb = nn.Embedding(num_embeddings=50, embedding_dim=6)

# índices dos tokens: [0, 3, 4]
x = torch.tensor([0, 3, 4, 12, 10])
print(emb(x))

tensor([[-0.8068,  1.0841,  0.4338,  0.6632,  0.7278,  1.1392],
        [ 0.4861, -1.8468, -0.1480,  1.7970,  1.2261, -1.4240],
        [ 1.4029, -1.0909, -0.1549, -0.1321, -2.7201, -0.5939],
        [ 0.0324, -0.5573,  1.3662, -1.0282,  0.4197,  1.3492],
        [-0.5959,  0.8269, -0.4199,  0.0620, -0.0121,  1.6231]],
       grad_fn=<EmbeddingBackward0>)


A saída é uma matriz onde cada linha é o vetor correspondente ao índice fornecido.

## Durante o treinamento

- Os vetores de embeddings são **parâmetros aprendíveis**.
- O gradiente flui de volta até a matriz de embeddings durante o `backpropagation`.
- O modelo ajusta os vetores para que palavras usadas em contextos semelhantes fiquem próximas no espaço vetorial.


## Comparação intuitiva

| Tipo de representação | Exemplo                     | Dimensão | Semântica |
|------------------------|-----------------------------|-----------|------------|
| One-hot               | `[0, 0, 1, 0, 0]`           | |V|       | Nenhuma    |
| Embedding (learned)   | `[0.34, -0.27, 0.10, ...]`  | d (ex: 50)| Captura contextos e semelhanças |


## Usos típicos
- Representação de palavras em PLN;
- Representação de itens em sistemas de recomendação;
- Codificação de variáveis categóricas em redes neurais tabulares.