<a href="https://colab.research.google.com/github/heraldolimajr/Large-Language-Models/blob/main/Attention.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Heraldo** Gon√ßalves Lima Junior


---



# Exerc√≠cio de Self-Attention com PyTorch ü§ñ
Neste exerc√≠cio, voc√™ ir√° codificar o mecanismo de Self-Attention do zero, com sugest√µes utilizando a biblioteca PyTorch.

Conforme visto em sala, o Self-attention √© um componente central dos Transformers, as redes neurais que impulsionam os modelos de linguagem modernos como o BERT. Entender o self-attention √© fundamental para compreender como esses modelos conseguem processar e interpretar a linguagem.

## Contexto
Um Transformer processa um texto de entrada, que √© dividido em tokens. O Self-attention permite que o modelo determine a rela√ß√£o entre diferentes tokens em uma sequ√™ncia.



# Dicas de ferramental

Para implementar ser√° necess√°rio saber realizar algumas opera√ß√µes. Como por exemplo inicializar pesos, multiplica√ß√£o entre matrizes, calcular transposta etc. Vamos utilizar o framework `PyTorch` como sugest√£o, mas fica a cargo de cada um escolher a tecnologia que sinta mais √† vontade.


## Multiplica√ß√£o de matrizes

Podemos utilizar a fun√ß√£o `torch.matmul()`. A fun√ß√£o matmul pode ser utilizada para realizar a multiplica√ß√£o de matrizes entre **q** e **k**. O resultado esperado, √© uma matriz de pontua√ß√µes que indica a similaridade de cada query com cada key. Uma pontua√ß√£o alta significa que um token √© muito similar a outro.




In [1]:
# Exemplo de multiplica√ß√£o de matrizes
import torch

# Define as matrizes
matriz_A = torch.tensor([[1, 2], [3, 4]])
matriz_B = torch.tensor([[5, 6], [7, 8]])

# Multiplica as matrizes
torch.matmul(matriz_A, matriz_B)

tensor([[19, 22],
        [43, 50]])

## Transposta de uma matriz

Podemos utilizar o m√©todo `.transpose()` para calcular a transposta, conforme exemplo abaixo a seguir. A fun√ß√£o do matriz.transpose(0, 1) inverte a primeira dimens√£o (√≠ndice 0, que s√£o as linhas) com a segunda dimens√£o (√≠ndice 1, que s√£o as colunas), resultando na matriz transposta.


In [2]:
# Define a matriz
matriz = torch.tensor([[1, 2, 3],
                       [4, 5, 6]])

# Transp√µe a matriz
matriz.transpose(0, 1)

tensor([[1, 4],
        [2, 5],
        [3, 6]])

## Divis√£o de matrizes

Para efetuar o escalonamento das similaridades, evitando que valores muito grandes dominem o processo de `softmax`, ser√° necess√°rio efetuar uma divis√£o por um valor escalar calculado, conforme a f√≥rmula vista na aula. Segue exemplo de como fazer com PyTorch abaixo:

In [3]:
# Define a matriz
matriz = torch.tensor([[10, 20], [30, 40]])
escalar = 2

# Divide a matriz por um escalar
matriz_dividida = matriz / escalar

matriz_dividida

tensor([[ 5., 10.],
        [15., 20.]])

## Aplica√ß√£o de Softmax

Ap√≥s o escalonamento, ser√° necess√°rio transformar em porcentagens de aten√ß√£o as pontua√ß√µes de similaridade obtidas. Para isso pode se utilizar a fun√ß√£o `softmax`, que converte uma lista de n√∫meros em uma distribui√ß√£o de probabilidade. Ela garante que todos os valores somem 1. Cada valor na matriz de percentuais calculada representa o peso de aten√ß√£o, ou seja, a porcentagem de "import√¢ncia" que um token deve dar a todos os outros tokens da sequ√™ncia.

O par√¢metro `dim` diz ao PyTorch se essa convers√£o deve ser feita linha por linha, coluna por coluna ou ao longo de outra dimens√£o espec√≠fica. Para nosso caso deve utilizar a dimens√£o da coluna.

```python
perc_atencao = torch.nn.functional.softmax(s_similiridades, dim=self.col_dim)
```


---

# Tarefas do Exerc√≠cio
## 1. Codifique uma Classe B√°sica de Self-Attention ‚úçÔ∏è
Sua primeira tarefa √© completar a classe SelfAttention. Esta classe receber√° as codifica√ß√µes de tokens como entrada e executar√° os c√°lculos de self-attention para produzir as pontua√ß√µes de aten√ß√£o. O m√©todo __init__ j√° est√° fornecido, mas voc√™ precisar√° preencher o m√©todo forward. Levando em considera√ß√£o a equa√ß√£o vista:



$$Attention(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$



**Instru√ß√µes**:

* Voc√™ trabalhar√° no m√©todo `forward` da classe `SelfAttention`.

* Crie os vetores de Queries, Keys e Values: Use as matrizes de pesos fornecidas (self.W_q, self.W_k e self.W_v) para transformar as token_encodings de entrada nos vetores de query (q), key (k) e value (v).

* Calcule as Pontua√ß√µes de Similaridade: Compute as pontua√ß√µes de similaridade realizando a multiplica√ß√£o da matriz de queries (q) pela transposta das keys (k
T
 ).

* Dimensione as Pontua√ß√µes: Dimensione as pontua√ß√µes de similaridade dividindo-as pela raiz quadrada do n√∫mero de colunas nas keys.

* Aplique o Softmax: Aplique a fun√ß√£o softmax √†s pontua√ß√µes dimensionadas para obter as porcentagens de aten√ß√£o. Lembre-se de especificar a dimens√£o sobre a qual o softmax deve ser aplicado.

* Calcule as Pontua√ß√µes Finais de Aten√ß√£o: Multiplique as porcentagens de aten√ß√£o pelos values (v) para obter as pontua√ß√µes finais de aten√ß√£o.

**Observa√ß√µes:**

-  Por motivos did√°ticos, n√£o utilizaremos bias, nem faremos o treinamento dos pesos, nem trabalharemos com gera√ß√£o de embeddings. Portanto basta inicializar definindo um seed, conforme c√≥digo de exemplo, para que possamos verificar se os c√°lculos est√£o sendo feitos corretamente com os valores de embeddings sugeridos.


In [3]:
import torch
import torch.nn as nn
import torch.nn.functional as F

class SelfAttention(nn.Module):
    """
    Uma classe b√°sica de Self-Attention.
    """
    def __init__(self, d_model=2,
                 row_dim=0,
                 col_dim=1):
        super().__init__()

        # Inicializa os Pesos (W) para queries, keys e values
        self.W_q = nn.Linear(in_features=d_model, out_features=d_model, bias=False)
        self.W_k = nn.Linear(in_features=d_model, out_features=d_model, bias=False)
        self.W_v = nn.Linear(in_features=d_model, out_features=d_model, bias=False)

        self.row_dim = row_dim
        self.col_dim = col_dim

    def forward(self, token_encodings):
        ## SEU C√ìDIGO AQUI!
        ## Crie queries, keys e values.
        q = self.W_q(token_encodings)
        k = self.W_k(token_encodings)
        v = self.W_v(token_encodings)

        ## Calcule as pontua√ß√µes de similaridade.
        #transposta de k
        k_t = k.transpose(0,1)

        ## Compute as pontua√ß√µes de similaridade.
        sims = torch.matmul(q,k_t)

        ## Dimensione as similaridades.
        dim_k = k.size(self.col_dim)
        scaled_sims = sims/ dim_k ** 0.5

        ## Aplique softmax para obter as porcentagens de aten√ß√£o.
        perc_atencao = torch.nn.functional.softmax(scaled_sims, dim=self.col_dim)

        ## Calcule as pontua√ß√µes finais de aten√ß√£o.
        attention_scores = torch.matmul(perc_atencao,v)

        return attention_scores


---

## 2. Teste sua Classe de Self-Attention üß™
Ap√≥s completar a classe SelfAttention, voc√™ a testar√° com alguns dados de exemplo.

**Instru√ß√µes:**

Execute o c√≥digo abaixo.

A sa√≠da do seu c√≥digo deve corresponder √† sa√≠da esperada.

In [2]:
# Crie uma matriz de codifica√ß√µes de token
encodings_matrix = torch.tensor([[1.16, 0.23],
                                 [0.57, 1.36],
                                 [4.41, -2.16]])

# Defina a semente para reprodutibilidade
torch.manual_seed(42)

# Crie um objeto de self-attention
selfAttention = SelfAttention()

# Calcule as pontua√ß√µes de aten√ß√£o para as codifica√ß√µes de token
selfAttention(encodings_matrix)

tensor([[1.0100, 1.0641],
        [0.2040, 0.7057],
        [3.4989, 2.2427]], grad_fn=<MmBackward0>)

**Sa√≠da Esperada:**



```
tensor([[1.0100, 1.0641],
        [0.2040, 0.7057],
        [3.4989, 2.2427]], grad_fn=<MmBackward0>)
```





---

# 3. Implemente a Masked Self-Attention ‚úçÔ∏è
Sua tarefa √© modificar a classe `SelfAttention` anterior para incluir o comportamento de m√°scara criar uma nova classe `MaskedSelfAttention`.

## **Instru√ß√µes:**

* A partir do c√≥digo da sua classe `SelfAttention`, adicione uma l√≥gica de mascaramento antes da fun√ß√£o softmax.

* Voc√™ precisar√° criar uma m√°scara (mask) que tenha o mesmo formato da matriz de pontua√ß√µes de similaridade (`sims`). Esta m√°scara deve conter zeros na diagonal principal e abaixo dela, e `-inf` (n√∫mero muito grande e negativo) acima dela.

* Use a fun√ß√£o `torch.triu()` para criar a parte superior da matriz de forma triangular.

* Adicione a m√°scara √† matriz de pontua√ß√µes de similaridade (`sims`). O valor `-inf` garantir√° que o softmax transforme a pontua√ß√£o de aten√ß√£o em zero, ignorando os tokens futuros.

* Mantenha o restante da sua implementa√ß√£o de self-attention, como a escalabilidade e a multiplica√ß√£o com a matriz de valores, intacto.

* Lembre-se que o "mascaramento" acontece ao fazer a adi√ß√£o da matriz de m√°scara, conforme a f√≥rmula derivada a seguir:


$$\text{MaskedAttention}(Q, K, V) = \text{softmax}\left(\frac{QK^T + M}{\sqrt{d_k}}\right)V$$


In [37]:
from re import M
# Altere o mesmo c√≥digo que voc√™ fez para a classe SelfAttention para criar a implementa√ß√£o da MaskedAttention.

import torch
import torch.nn as nn
import torch.nn.functional as F

class MaskedSelfAttention(nn.Module):
    """
    Uma classe b√°sica de Masked-Attention.
    """
    def __init__(self, d_model=2,
                 row_dim=0,
                 col_dim=1):
        super().__init__()

        # Inicializa os Pesos (W) para queries, keys e values
        self.W_q = nn.Linear(in_features=d_model, out_features=d_model, bias=False)
        self.W_k = nn.Linear(in_features=d_model, out_features=d_model, bias=False)
        self.W_v = nn.Linear(in_features=d_model, out_features=d_model, bias=False)

        self.row_dim = row_dim
        self.col_dim = col_dim



    def forward(self, token_encodings):
        ## SEU C√ìDIGO AQUI!
        ## Crie queries, keys e values.
        q = self.W_q(token_encodings)
        k = self.W_k(token_encodings)
        v = self.W_v(token_encodings)

        ## Calcule as pontua√ß√µes de similaridade.
        #transposta de k
        k_t = k.transpose(0,1)

        ## Compute as pontua√ß√µes de similaridade.
        sims = torch.matmul(q,k_t)

        #Cria m√°scara causal M com 0 na diagonal/abaixo e -inf acima
        #Usamos o menor n√∫mero represent√°vel do dtype de sims como -inf aditivo.
        neg_inf = torch.finfo(sims.dtype).min
        # matriz superior estrita (acima da diagonal) com 1s
        upper_tri = torch.triu(torch.ones_like(sims), diagonal=1)
        # M: 0 em diag/abaixo, -inf acima
        M = upper_tri * neg_inf                 # (T, T)

        ## Dimensione as similaridades.
        dim_k = k.size(self.col_dim)
        masked_scaled_sims = (sims + M) / dim_k ** 0.5

        ## Aplique softmax para obter as porcentagens de aten√ß√£o.
        perc_atencao = torch.nn.functional.softmax(masked_scaled_sims, dim=self.col_dim)

        ## Calcule as pontua√ß√µes finais de aten√ß√£o.
        attention_scores = torch.matmul(perc_atencao,v)

        return attention_scores

**Instru√ß√µes:**

Ap√≥s implementar, execute a sua classe MaskedSelfAttention com os mesmos valores de entrada e seed da implementa√ß√£o SelfAttention.

A sa√≠da do seu c√≥digo deve corresponder √† sa√≠da esperada abaixo:


```
tensor([[ 0.6038,  0.7434],
        [-0.0062,  0.6072],
        [ 3.4989,  2.2427]], grad_fn=<MmBackward0>)
```



In [38]:
# Crie uma matriz de codifica√ß√µes de token
encodings_matrix2 = torch.tensor([[1.16, 0.23],
                                 [0.57, 1.36],
                                 [4.41, -2.16]])

# Defina a semente para reprodutibilidade
torch.manual_seed(42)

# Crie um objeto de self-attention
maskedSelfAttention = MaskedSelfAttention()

# Calcule as pontua√ß√µes de aten√ß√£o para as codifica√ß√µes de token
maskedSelfAttention(encodings_matrix2)

tensor([[ 0.6038,  0.7434],
        [-0.0062,  0.6072],
        [ 3.4989,  2.2427]], grad_fn=<MmBackward0>)