<a href="https://colab.research.google.com/github/leolellisr/deep_learning_projects/blob/main/05_Embeddings/Embeddings_Atributos%20Latentes_Entradas%20categ%C3%B3ricas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Embedding - Atributos Latentes - Entradas categóricas

Este notebook apresenta o conceito de embedding e como usá-lo no PyTorch, através dos seguintes exemplos numéricos:
- Rede com entrada categórica (one-hot) e camada densa linear
- Embedding como forma eficiente de tratar entrada categórica

## Importação

In [None]:
from collections import OrderedDict
import numpy as np
import torch
from torch import nn

## Entrada categórica

Uma variável categórica pode ter um valor dentro de um conjunto limitado que represente uma categoria nominal.
Alguns exemplos de variáveis categóricas:
- Grupo sanguíneo: A, B, AB or O.
- Cidade onde uma pessoa reside
- Cor de um produto: vermelho, verde, azul
- Uma palavra, dentro de um vocabulário limitado
- Dias da semana

# Rede neural com entrada categórica

Quando a rede neural possui entradas categóricas, temos a necessidade de colocá-lo na forma 
categórica utilizando a codificação *one-hot*. 
Iremos fazer um exemplo de rede neural com apenas uma camada densa e entrada com 
dados categóricos com os seguintes parâmetros:
- entrada categórica pertencente a um conjunto de 20 classes (n_classes)
- entrada é constituída de 10 amostras categóricos (n_amostras)
- cada amostra é um número (id) entre 0 e 19: [19, 10, 0, 1, 7, 5, 0, 1, 15, 2]
- camada densa linear com 5 neurônios (n_neuronios)

In [None]:
n_classes = 20
n_neuronios = 5
n_amostras = 10

## Diagrama da rede neural com entradas categóricas de uma camada e sem bias

<img src='https://raw.githubusercontent.com/robertoalotufo/files/master/figures/Embedding_neural.png' width = "400"></img>

### Criação da codificação categórica (one-hot) da sequência de entrada

In [None]:
x = torch.tensor([19, 10, 0, 1, 7, 5, 0, 1, 15, 2])
x, x.shape

(tensor([19, 10,  0,  1,  7,  5,  0,  1, 15,  2]), torch.Size([10]))

Codificação one-hot

In [None]:
x_oh = torch.nn.functional.one_hot(x, n_classes)
print(x_oh)

tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
        [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])


## Criação do modelo da rede densa com 5 camadas

In [None]:
linear = nn.Linear(n_classes,n_neuronios,bias=False)
linear

Linear(in_features=20, out_features=5, bias=False)

### Criação dos pesos da rede

Como ilustração, iremos inicializar a rede com pesos de modo que possamos identificar quando cada conjunto de pesos
for utilizado para cada símbolo categórico:
- quando a categoria for $i$, os neurônios de saída devem receber os valores $[i,2i,3i,4i,5i]$.

Os pesos da rede possuem 20 linhas (uma para cada classes de entrada) por 5 colunas (atributos de cada categoria):

In [None]:
#W = np.arange(1,n_neuronios+1).reshape(-1,1).dot(np.arange(n_classes).reshape(1,-1))
W = np.random.rand(n_neuronios,n_classes)

my_weights = OrderedDict([
    ('weight',  torch.FloatTensor(W.astype(np.float)))])

linear.load_state_dict(my_weights) # inicializa pesos da camada linear
linear.state_dict()

OrderedDict([('weight',
              tensor([[0.6258, 0.7464, 0.6481, 0.5349, 0.8447, 0.2560, 0.9127, 0.8350, 0.0771,
                       0.9713, 0.4828, 0.2546, 0.0546, 0.6169, 0.2141, 0.8123, 0.6294, 0.3507,
                       0.4231, 0.8096],
                      [0.3767, 0.4146, 0.3383, 0.2194, 0.0779, 0.2691, 0.8490, 0.7903, 0.9121,
                       0.0042, 0.0761, 0.2240, 0.5342, 0.4134, 0.6475, 0.1445, 0.0171, 0.8878,
                       0.3415, 0.8888],
                      [0.7951, 0.4082, 0.4228, 0.0600, 0.7944, 0.4078, 0.3504, 0.3307, 0.9140,
                       0.0494, 0.9146, 0.5351, 0.9779, 0.6522, 0.6038, 0.8433, 0.8208, 0.3839,
                       0.8875, 0.4385],
                      [0.3632, 0.3165, 0.5176, 0.4890, 0.3262, 0.1442, 0.5012, 0.2695, 0.0221,
                       0.9377, 0.7834, 0.0833, 0.0217, 0.9680, 0.6222, 0.1915, 0.8600, 0.2611,
                       0.1009, 0.8831],
                      [0.9843, 0.3137, 0.0159, 0.2242, 0

## Predição com as 10 amostras: [19, 10, 0, 1, 7, 5, 0, 1, 15, 2]

<img src = 'https://raw.githubusercontent.com/robertoalotufo/files/master/figures/Embedding_categorical_predict.png' width="800"></img>

Observe que a predição da rede com a sequência categórica acima é feita com a substituição
da categoria com os 5 atributos de cada classe.

Observe que data_oh estava em long e foi preciso ser convertido para float para entrar na rede neural.

In [None]:
y_pred = linear(x_oh.type(torch.float))
y_pred

tensor([[0.8096, 0.8888, 0.4385, 0.8831, 0.1135],
        [0.4828, 0.0761, 0.9146, 0.7834, 0.8460],
        [0.6258, 0.3767, 0.7951, 0.3632, 0.9843],
        [0.7464, 0.4146, 0.4082, 0.3165, 0.3137],
        [0.8350, 0.7903, 0.3307, 0.2695, 0.4097],
        [0.2560, 0.2691, 0.4078, 0.1442, 0.5958],
        [0.6258, 0.3767, 0.7951, 0.3632, 0.9843],
        [0.7464, 0.4146, 0.4082, 0.3165, 0.3137],
        [0.8123, 0.1445, 0.8433, 0.1915, 0.5281],
        [0.6481, 0.3383, 0.4228, 0.5176, 0.0159]], grad_fn=<MmBackward>)

# Embedding como implementação eficiente de entradas categóricas

Nesta implementação de rede neural com entrada categórica, existem dois fatores que dificultam a sua
implementação eficiente:
- necessidade de se fazer a codificação para categórico antes de colocá-lo na rede
- se o número de classes for muito alto, a implementação pode se tornar muito ineficiente. É comum
  termos centenas de milhares de classes, como é o caso de palavras dentro de um vocabulário.
  
A camada `Embedding` resolve estes dois problemas de forma eficiente:
- faz a codificação categórica automaticamente e já retorna a aplicação dos pesos nos valores categóricos

Assim, a camada `Embedding` é sempre uma camada de entrada e nela é preciso especificar o número de
classes e o número de atributos de cada classe:

O diagrama a seguir mostra a aplicação do Embedding.

<img src = 'https://raw.githubusercontent.com/robertoalotufo/files/master/figures/Embedding_1.png' width="700pt"></img>

## Criação da mesma rede, porém agora mais eficiente, com o uso do Embedding

In [None]:
emb = nn.Embedding(n_classes, n_neuronios)
emb

Embedding(20, 5)

In [None]:
my_weights = OrderedDict([
    ('weight',  torch.FloatTensor(W.T.astype(np.float)))])
emb.load_state_dict(my_weights) # inicializa pesos da camada linear
emb.state_dict()

OrderedDict([('weight', tensor([[0.6258, 0.3767, 0.7951, 0.3632, 0.9843],
                      [0.7464, 0.4146, 0.4082, 0.3165, 0.3137],
                      [0.6481, 0.3383, 0.4228, 0.5176, 0.0159],
                      [0.5349, 0.2194, 0.0600, 0.4890, 0.2242],
                      [0.8447, 0.0779, 0.7944, 0.3262, 0.1225],
                      [0.2560, 0.2691, 0.4078, 0.1442, 0.5958],
                      [0.9127, 0.8490, 0.3504, 0.5012, 0.9135],
                      [0.8350, 0.7903, 0.3307, 0.2695, 0.4097],
                      [0.0771, 0.9121, 0.9140, 0.0221, 0.9473],
                      [0.9713, 0.0042, 0.0494, 0.9377, 0.8941],
                      [0.4828, 0.0761, 0.9146, 0.7834, 0.8460],
                      [0.2546, 0.2240, 0.5351, 0.0833, 0.4550],
                      [0.0546, 0.5342, 0.9779, 0.0217, 0.9323],
                      [0.6169, 0.4134, 0.6522, 0.9680, 0.9150],
                      [0.2141, 0.6475, 0.6038, 0.6222, 0.9404],
                      [0.8123,

## Predição com mesma sequência: [19, 10, 0, 1, 7, 5, 0, 1, 15, 2]

Confirmamos aqui que a camada Embedding é equivalente à rede densa da entrada categórica feita anteriormente.

Observe que não foi necessário criar a codificação one_hot.

In [None]:
y = emb(x)  # predição da rede
y

tensor([[0.8096, 0.8888, 0.4385, 0.8831, 0.1135],
        [0.4828, 0.0761, 0.9146, 0.7834, 0.8460],
        [0.6258, 0.3767, 0.7951, 0.3632, 0.9843],
        [0.7464, 0.4146, 0.4082, 0.3165, 0.3137],
        [0.8350, 0.7903, 0.3307, 0.2695, 0.4097],
        [0.2560, 0.2691, 0.4078, 0.1442, 0.5958],
        [0.6258, 0.3767, 0.7951, 0.3632, 0.9843],
        [0.7464, 0.4146, 0.4082, 0.3165, 0.3137],
        [0.8123, 0.1445, 0.8433, 0.1915, 0.5281],
        [0.6481, 0.3383, 0.4228, 0.5176, 0.0159]], grad_fn=<EmbeddingBackward>)

## Tratando o embeddings no batch

No exemplo a seguir, temos dois exemplos num minibatch, cada exemplo com 4 atributos. O shape da entrada x é (2,4)

Observe que na saída da camada de embedding é acrescentada uma nova dimensão. O shape da saíde é (2, 4, 5). Cada atributo categórico foi substituído por um vetor com 5 elementos. 

In [None]:
x = torch.LongTensor([[1,6,3,2],
                      [3,5,9,4]])
y = emb(x)
print(y.shape)
print(y)

torch.Size([2, 4, 5])
tensor([[[0.7464, 0.4146, 0.4082, 0.3165, 0.3137],
         [0.9127, 0.8490, 0.3504, 0.5012, 0.9135],
         [0.5349, 0.2194, 0.0600, 0.4890, 0.2242],
         [0.6481, 0.3383, 0.4228, 0.5176, 0.0159]],

        [[0.5349, 0.2194, 0.0600, 0.4890, 0.2242],
         [0.2560, 0.2691, 0.4078, 0.1442, 0.5958],
         [0.9713, 0.0042, 0.0494, 0.9377, 0.8941],
         [0.8447, 0.0779, 0.7944, 0.3262, 0.1225]]],
       grad_fn=<EmbeddingBackward>)


Se for necessário fazer uma concatenação dos embeddings categóricos, basta fazer um reshape combinando as duas últimas dimensões:

In [None]:
print(y.reshape(2,-1))

tensor([[0.7464, 0.4146, 0.4082, 0.3165, 0.3137, 0.9127, 0.8490, 0.3504, 0.5012,
         0.9135, 0.5349, 0.2194, 0.0600, 0.4890, 0.2242, 0.6481, 0.3383, 0.4228,
         0.5176, 0.0159],
        [0.5349, 0.2194, 0.0600, 0.4890, 0.2242, 0.2560, 0.2691, 0.4078, 0.1442,
         0.5958, 0.9713, 0.0042, 0.0494, 0.9377, 0.8941, 0.8447, 0.0779, 0.7944,
         0.3262, 0.1225]], grad_fn=<ViewBackward>)


## EmbeddingBag

O EmbeddingBag permite tratar batchs com diferentes tamanhos de atributos para cada exemplo utilizando uma estrutura de valores e índices. Adicionalmente o
EmbeddingBag permite fazer operações de soma, média ou máximo entre os embeddings.

No exemplo a seguir temos um EmbeddingBag no modo soma, com 5 classes com dimensão 20 de embedding. 

In [None]:
embedding_sum = nn.EmbeddingBag(20, 5, mode='sum')
embedding_sum.load_state_dict(my_weights)
embedding_sum.state_dict()

OrderedDict([('weight', tensor([[ 0.,  0.,  0.,  0.,  0.],
                      [ 1.,  2.,  3.,  4.,  5.],
                      [ 2.,  4.,  6.,  8., 10.],
                      [ 3.,  6.,  9., 12., 15.],
                      [ 4.,  8., 12., 16., 20.],
                      [ 5., 10., 15., 20., 25.],
                      [ 6., 12., 18., 24., 30.],
                      [ 7., 14., 21., 28., 35.],
                      [ 8., 16., 24., 32., 40.],
                      [ 9., 18., 27., 36., 45.],
                      [10., 20., 30., 40., 50.],
                      [11., 22., 33., 44., 55.],
                      [12., 24., 36., 48., 60.],
                      [13., 26., 39., 52., 65.],
                      [14., 28., 42., 56., 70.],
                      [15., 30., 45., 60., 75.],
                      [16., 32., 48., 64., 80.],
                      [17., 34., 51., 68., 85.],
                      [18., 36., 54., 72., 90.],
                      [19., 38., 57., 76., 95.]]))])

No batch temos 3 exemplos, sendo o primeiro com 2 valores [0,1], o segundo sendo [2] e o terceiro sendo [4,3] indicados pelos índices [0,2,3].

O resultado são 3 embeddings, o primeiro dado pela soma dos embeddings das classes 0 e 1, o segundo pelo embedding da classe 2 e o terceiro pela soma dos embeddings das classes 4 e 3.

In [None]:
input = torch.LongTensor([0,1,2,4,3])
offsets = torch.LongTensor([0,2,3])
embedding_sum(input, offsets)

tensor([[ 1.,  2.,  3.,  4.,  5.],
        [ 2.,  4.,  6.,  8., 10.],
        [ 7., 14., 21., 28., 35.]], grad_fn=<EmbeddingBagBackward>)

## Embedding como atributos latentes de um objeto categórico

Podemos interpretar o embedding como uma codificação de atributos latentes de um objeto
categórico. Por exemplo, se estamos codificando filmes, as 5 categorias visto no exemplo
acima poderiam representar a quantidade de suspense, romantismo, aventura, infantil e terror
que um filme possui. Se fosse processar palavras, os atributos poderiam representar o seu
significado (*word embedding*).

O embedding pode ser fixo (não deve ser treinado), quando sabemos exatamente os atributos
das classes ou treináveis, quando queremos que a rede utilize estes atributos como parâmetros
a serem minimizados.

# Usando torch.nn.Embedding

In [None]:
import torch

In [None]:
vocab_size = 10
dim = 4
weight = torch.arange(vocab_size * dim).reshape((vocab_size, dim)).float()

In [None]:
embedding_layer = torch.nn.Embedding(num_embeddings=vocab_size, embedding_dim=dim, _weight=weight)
embedding_layer.weight

Parameter containing:
tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [12., 13., 14., 15.],
        [16., 17., 18., 19.],
        [20., 21., 22., 23.],
        [24., 25., 26., 27.],
        [28., 29., 30., 31.],
        [32., 33., 34., 35.],
        [36., 37., 38., 39.]], requires_grad=True)

In [None]:
token_ids = torch.LongTensor([[4, 1, 9], [0, 1, 2]])

In [None]:
embeddings = embedding_layer(token_ids)
print(f'embeddings.shape: {embeddings.shape}')
sum_embeddings = embeddings.sum(1)
print(f'sum_embeddings.shape: {sum_embeddings.shape}')
print(f'sum_embeddings: {sum_embeddings}')

embeddings.shape: torch.Size([2, 3, 4])
sum_embeddings.shape: torch.Size([2, 4])
sum_embeddings: tensor([[56., 59., 62., 65.],
        [12., 15., 18., 21.]], grad_fn=<SumBackward1>)


# Usando torch.nn.Linear

O torch.nn.Embedding é uma forma eficiente de se acessar os embeddings de uma matriz de embeddings. Entretanto, conseguimos o mesmo resultado usando a uma camada linear cujos pesos são os mesmos da matriz de embeddings. Assim está celula serve para ilustrar que embeddings não mais são que uma camada da rede neural sem bias.

In [None]:
linear_layer = torch.nn.Linear(vocab_size, dim, bias=False)
linear_layer.weight = torch.nn.Parameter(weight.T)
linear_layer.weight

Parameter containing:
tensor([[ 0.,  4.,  8., 12., 16., 20., 24., 28., 32., 36.],
        [ 1.,  5.,  9., 13., 17., 21., 25., 29., 33., 37.],
        [ 2.,  6., 10., 14., 18., 22., 26., 30., 34., 38.],
        [ 3.,  7., 11., 15., 19., 23., 27., 31., 35., 39.]],
       requires_grad=True)

In [None]:
bow = torch.zeros(len(token_ids), vocab_size)
bow = bow.scatter_(dim=1, index=token_ids, src=torch.ones_like(token_ids).float(), reduce='add')
print(f'bow: {bow}')
sum_embeddings = linear_layer(bow)
print(f'sum_embeddings.shape: {sum_embeddings.shape}')
print(f'sum_embeddings: {sum_embeddings}')

bow: tensor([[0., 1., 0., 0., 1., 0., 0., 0., 0., 1.],
        [1., 1., 1., 0., 0., 0., 0., 0., 0., 0.]])
sum_embeddings.shape: torch.Size([2, 4])
sum_embeddings: tensor([[56., 59., 62., 65.],
        [12., 15., 18., 21.]], grad_fn=<MmBackward>)


# Aprendizados com este notebook