<a href="https://colab.research.google.com/github/heraldolimajr/Large-Language-Models/blob/main/Attention.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Heraldo** Gonçalves Lima Junior


---



# Exercício de Self-Attention com PyTorch 🤖
Neste exercício, você irá codificar o mecanismo de Self-Attention do zero, com sugestões utilizando a biblioteca PyTorch.

Conforme visto em sala, o Self-attention é um componente central dos Transformers, as redes neurais que impulsionam os modelos de linguagem modernos como o BERT. Entender o self-attention é fundamental para compreender como esses modelos conseguem processar e interpretar a linguagem.

## Contexto
Um Transformer processa um texto de entrada, que é dividido em tokens. O Self-attention permite que o modelo determine a relação entre diferentes tokens em uma sequência.



# Dicas de ferramental

Para implementar será necessário saber realizar algumas operações. Como por exemplo inicializar pesos, multiplicação entre matrizes, calcular transposta etc. Vamos utilizar o framework `PyTorch` como sugestão, mas fica a cargo de cada um escolher a tecnologia que sinta mais à vontade.


## Multiplicação de matrizes

Podemos utilizar a função `torch.matmul()`. A função matmul pode ser utilizada para realizar a multiplicação de matrizes entre **q** e **k**. O resultado esperado, é uma matriz de pontuações que indica a similaridade de cada query com cada key. Uma pontuação alta significa que um token é muito similar a outro.




In [1]:
# Exemplo de multiplicação de matrizes
import torch

# Define as matrizes
matriz_A = torch.tensor([[1, 2], [3, 4]])
matriz_B = torch.tensor([[5, 6], [7, 8]])

# Multiplica as matrizes
torch.matmul(matriz_A, matriz_B)

tensor([[19, 22],
        [43, 50]])

## Transposta de uma matriz

Podemos utilizar o método `.transpose()` para calcular a transposta, conforme exemplo abaixo a seguir. A função do matriz.transpose(0, 1) inverte a primeira dimensão (índice 0, que são as linhas) com a segunda dimensão (índice 1, que são as colunas), resultando na matriz transposta.


In [2]:
# Define a matriz
matriz = torch.tensor([[1, 2, 3],
                       [4, 5, 6]])

# Transpõe a matriz
matriz.transpose(0, 1)

tensor([[1, 4],
        [2, 5],
        [3, 6]])

## Divisão de matrizes

Para efetuar o escalonamento das similaridades, evitando que valores muito grandes dominem o processo de `softmax`, será necessário efetuar uma divisão por um valor escalar calculado, conforme a fórmula vista na aula. Segue exemplo de como fazer com PyTorch abaixo:

In [3]:
# Define a matriz
matriz = torch.tensor([[10, 20], [30, 40]])
escalar = 2

# Divide a matriz por um escalar
matriz_dividida = matriz / escalar

matriz_dividida

tensor([[ 5., 10.],
        [15., 20.]])

## Aplicação de Softmax

Após o escalonamento, será necessário transformar em porcentagens de atenção as pontuações de similaridade obtidas. Para isso pode se utilizar a função `softmax`, que converte uma lista de números em uma distribuição de probabilidade. Ela garante que todos os valores somem 1. Cada valor na matriz de percentuais calculada representa o peso de atenção, ou seja, a porcentagem de "importância" que um token deve dar a todos os outros tokens da sequência.

O parâmetro `dim` diz ao PyTorch se essa conversão deve ser feita linha por linha, coluna por coluna ou ao longo de outra dimensão específica. Para nosso caso deve utilizar a dimensão da coluna.

```python
perc_atencao = torch.nn.functional.softmax(s_similiridades, dim=self.col_dim)
```


---

# Tarefas do Exercício
## 1. Codifique uma Classe Básica de Self-Attention ✍️
Sua primeira tarefa é completar a classe SelfAttention. Esta classe receberá as codificações de tokens como entrada e executará os cálculos de self-attention para produzir as pontuações de atenção. O método __init__ já está fornecido, mas você precisará preencher o método forward. Levando em consideração a equação vista:



$$Attention(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$



**Instruções**:

* Você trabalhará no método `forward` da classe `SelfAttention`.

* Crie os vetores de Queries, Keys e Values: Use as matrizes de pesos fornecidas (self.W_q, self.W_k e self.W_v) para transformar as token_encodings de entrada nos vetores de query (q), key (k) e value (v).

* Calcule as Pontuações de Similaridade: Compute as pontuações de similaridade realizando a multiplicação da matriz de queries (q) pela transposta das keys (k
T
 ).

* Dimensione as Pontuações: Dimensione as pontuações de similaridade dividindo-as pela raiz quadrada do número de colunas nas keys.

* Aplique o Softmax: Aplique a função softmax às pontuações dimensionadas para obter as porcentagens de atenção. Lembre-se de especificar a dimensão sobre a qual o softmax deve ser aplicado.

* Calcule as Pontuações Finais de Atenção: Multiplique as porcentagens de atenção pelos values (v) para obter as pontuações finais de atenção.

**Observações:**

-  Por motivos didáticos, não utilizaremos bias, nem faremos o treinamento dos pesos, nem trabalharemos com geração de embeddings. Portanto basta inicializar definindo um seed, conforme código de exemplo, para que possamos verificar se os cálculos estão sendo feitos corretamente com os valores de embeddings sugeridos.


In [3]:
import torch
import torch.nn as nn
import torch.nn.functional as F

class SelfAttention(nn.Module):
    """
    Uma classe básica de Self-Attention.
    """
    def __init__(self, d_model=2,
                 row_dim=0,
                 col_dim=1):
        super().__init__()

        # Inicializa os Pesos (W) para queries, keys e values
        self.W_q = nn.Linear(in_features=d_model, out_features=d_model, bias=False)
        self.W_k = nn.Linear(in_features=d_model, out_features=d_model, bias=False)
        self.W_v = nn.Linear(in_features=d_model, out_features=d_model, bias=False)

        self.row_dim = row_dim
        self.col_dim = col_dim

    def forward(self, token_encodings):
        ## SEU CÓDIGO AQUI!
        ## Crie queries, keys e values.
        q = self.W_q(token_encodings)
        k = self.W_k(token_encodings)
        v = self.W_v(token_encodings)

        ## Calcule as pontuações de similaridade.
        #transposta de k
        k_t = k.transpose(0,1)

        ## Compute as pontuações de similaridade.
        sims = torch.matmul(q,k_t)

        ## Dimensione as similaridades.
        dim_k = k.size(self.col_dim)
        scaled_sims = sims/ dim_k ** 0.5

        ## Aplique softmax para obter as porcentagens de atenção.
        perc_atencao = torch.nn.functional.softmax(scaled_sims, dim=self.col_dim)

        ## Calcule as pontuações finais de atenção.
        attention_scores = torch.matmul(perc_atencao,v)

        return attention_scores


---

## 2. Teste sua Classe de Self-Attention 🧪
Após completar a classe SelfAttention, você a testará com alguns dados de exemplo.

**Instruções:**

Execute o código abaixo.

A saída do seu código deve corresponder à saída esperada.

In [2]:
# Crie uma matriz de codificações de token
encodings_matrix = torch.tensor([[1.16, 0.23],
                                 [0.57, 1.36],
                                 [4.41, -2.16]])

# Defina a semente para reprodutibilidade
torch.manual_seed(42)

# Crie um objeto de self-attention
selfAttention = SelfAttention()

# Calcule as pontuações de atenção para as codificações de token
selfAttention(encodings_matrix)

tensor([[1.0100, 1.0641],
        [0.2040, 0.7057],
        [3.4989, 2.2427]], grad_fn=<MmBackward0>)

**Saída Esperada:**



```
tensor([[1.0100, 1.0641],
        [0.2040, 0.7057],
        [3.4989, 2.2427]], grad_fn=<MmBackward0>)
```





---

# 3. Implemente a Masked Self-Attention ✍️
Sua tarefa é modificar a classe `SelfAttention` anterior para incluir o comportamento de máscara criar uma nova classe `MaskedSelfAttention`.

## **Instruções:**

* A partir do código da sua classe `SelfAttention`, adicione uma lógica de mascaramento antes da função softmax.

* Você precisará criar uma máscara (mask) que tenha o mesmo formato da matriz de pontuações de similaridade (`sims`). Esta máscara deve conter zeros na diagonal principal e abaixo dela, e `-inf` (número muito grande e negativo) acima dela.

* Use a função `torch.triu()` para criar a parte superior da matriz de forma triangular.

* Adicione a máscara à matriz de pontuações de similaridade (`sims`). O valor `-inf` garantirá que o softmax transforme a pontuação de atenção em zero, ignorando os tokens futuros.

* Mantenha o restante da sua implementação de self-attention, como a escalabilidade e a multiplicação com a matriz de valores, intacto.

* Lembre-se que o "mascaramento" acontece ao fazer a adição da matriz de máscara, conforme a fórmula derivada a seguir:


$$\text{MaskedAttention}(Q, K, V) = \text{softmax}\left(\frac{QK^T + M}{\sqrt{d_k}}\right)V$$


In [37]:
from re import M
# Altere o mesmo código que você fez para a classe SelfAttention para criar a implementação da MaskedAttention.

import torch
import torch.nn as nn
import torch.nn.functional as F

class MaskedSelfAttention(nn.Module):
    """
    Uma classe básica de Masked-Attention.
    """
    def __init__(self, d_model=2,
                 row_dim=0,
                 col_dim=1):
        super().__init__()

        # Inicializa os Pesos (W) para queries, keys e values
        self.W_q = nn.Linear(in_features=d_model, out_features=d_model, bias=False)
        self.W_k = nn.Linear(in_features=d_model, out_features=d_model, bias=False)
        self.W_v = nn.Linear(in_features=d_model, out_features=d_model, bias=False)

        self.row_dim = row_dim
        self.col_dim = col_dim



    def forward(self, token_encodings):
        ## SEU CÓDIGO AQUI!
        ## Crie queries, keys e values.
        q = self.W_q(token_encodings)
        k = self.W_k(token_encodings)
        v = self.W_v(token_encodings)

        ## Calcule as pontuações de similaridade.
        #transposta de k
        k_t = k.transpose(0,1)

        ## Compute as pontuações de similaridade.
        sims = torch.matmul(q,k_t)

        #Cria máscara causal M com 0 na diagonal/abaixo e -inf acima
        #Usamos o menor número representável do dtype de sims como -inf aditivo.
        neg_inf = torch.finfo(sims.dtype).min
        # matriz superior estrita (acima da diagonal) com 1s
        upper_tri = torch.triu(torch.ones_like(sims), diagonal=1)
        # M: 0 em diag/abaixo, -inf acima
        M = upper_tri * neg_inf                 # (T, T)

        ## Dimensione as similaridades.
        dim_k = k.size(self.col_dim)
        masked_scaled_sims = (sims + M) / dim_k ** 0.5

        ## Aplique softmax para obter as porcentagens de atenção.
        perc_atencao = torch.nn.functional.softmax(masked_scaled_sims, dim=self.col_dim)

        ## Calcule as pontuações finais de atenção.
        attention_scores = torch.matmul(perc_atencao,v)

        return attention_scores

**Instruções:**

Após implementar, execute a sua classe MaskedSelfAttention com os mesmos valores de entrada e seed da implementação SelfAttention.

A saída do seu código deve corresponder à saída esperada abaixo:


```
tensor([[ 0.6038,  0.7434],
        [-0.0062,  0.6072],
        [ 3.4989,  2.2427]], grad_fn=<MmBackward0>)
```



In [38]:
# Crie uma matriz de codificações de token
encodings_matrix2 = torch.tensor([[1.16, 0.23],
                                 [0.57, 1.36],
                                 [4.41, -2.16]])

# Defina a semente para reprodutibilidade
torch.manual_seed(42)

# Crie um objeto de self-attention
maskedSelfAttention = MaskedSelfAttention()

# Calcule as pontuações de atenção para as codificações de token
maskedSelfAttention(encodings_matrix2)

tensor([[ 0.6038,  0.7434],
        [-0.0062,  0.6072],
        [ 3.4989,  2.2427]], grad_fn=<MmBackward0>)