# Arquitetura GPT

## 1 Distribuição de parâmetros do modelo GPT
Na última aula você aprendeu como construir a estrutura do transformer para criar o modelo GPT por completo. Um transformer é basicamente composto por um módulo de atenção e um módulo feed forward. Já o modelo GPT é composto pela camada de embeddings, seguido de uma pilha de transformers, com uma camada linear de output no final. À medida que vamos aumentando as dimensões das matrizes e empilhando um número maior de transformers, a capacidade do modelo aumenta, mas a quantidade de parâmetros cresce consideravelmente, chegando na cada dos bilhões, ou até mesmo trilhões, de parâmetros. Daí vem o nome que conhecemos: Large Languange Models.

Vamos verificar como estes pesos se distribuem ao longo da estrutura do modelo GPT para termos uma ideia da quantidade de pesos usada nos diferentes componentes do modelo. Para isso, recrie o modelo GPT visto na última aula, calcule e compare o número de parâmetros contidos na camada de embedding, nas camadas feed forward dos transformers, nos módulos de atenção dos transformers e a quantidade de parâmetros na camada de output geracional.

In [None]:
import torch
import torch.nn as nn

# DEFINA AS CLASSES PARA RECRIAR O MODELO GPTModel



In [None]:
# APENAS EXECUTE ESTA CÉLULA

GPT_CONFIG_124M = {
    "vocab_size": 50257,    # Vocabulary size
    "context_length": 1024, # Context length
    "emb_dim": 768,         # Embedding dimension
    "n_heads": 12,          # Number of attention heads
    "n_layers": 12,         # Number of layers
    "drop_rate": 0.1,       # Dropout rate
    "qkv_bias": False       # Query-Key-Value bias
}

model = GPTModel(GPT_CONFIG_124M)

In [None]:
emb_params_count = 0
att_params_count = 0
ff_params_count = 0
output_params_count = 0


# FAÇA A CONTAGEM DOS PARÂMETROS USANDO AS VARIÁVEIS DEFINIDAS ACIMA


print(f"Total de parâmetros da camada de embedding: {emb_params_count:,}")
print(f"Total de parâmetros dos módulos de atenção: {att_params_count:,}")
print(f"Total de parâmetros das camadas feed forward: {ff_params_count:,}")
print(f"Total de parâmetros da camada de output geracional: {output_params_count:,}")

## 2 Dropout separado

Durante a criação do modelo GPT definimos apenas uma taxa de dropout, que é aplicada por todo o modelo. Altere o modelo para que existam 3 taxas de dropout distintas: uma na camada de embedding, outra na camada de shortcut e outra no módulo de atenção. Os parâmetros com as 3 taxas já foram definidos na configuração abaixo.

Além de fazer a alteração para incluir os novos dropouts, imprima (dentro da classe mesmo) a porcentagem de valores da matriz que ficaram zerados logo após passar pelo dropout, isso servirá para debugarmos se o dropout está funcionando conforme o esperado.

<small>DICA: conte os valores diferentes de zero, divida pelo total de elementos e subtraia 1 para contar a quantidade de zeros. <br>Ex: `(100 * (1 - torch.count_nonzero(x) / (x.numel())))`</small>

In [None]:
# ALTERE AS CLASSES MultiHeadAttention, TransformerBlock, GPTModel
# PARA ACRESCENTAR OS NOVOS DROPOUTS E IMPRIMIR A PORCENTAGEM DE PARÂMETROS
# ZERADOS DAS MATRIZES APÓS PASSAR PELO DROPOUT



In [None]:
'''
Não precisa alterar ou completar nada nesta célula, apenas execute e veja as
porcentagens de elementos zerados de acordo com o print que você adicionou nas classes.
'''

GPT_CONFIG_124M = {
    "vocab_size": 50257,
    "context_length": 1024,
    "emb_dim": 768,
    "n_heads": 12,
    "n_layers": 12,
    "drop_rate_emb": 0.05,        # NOVO: dropout para camada de embedding
    "drop_rate_attn": 0.10,       # NOVO: dropout para o módulo de attention
    "drop_rate_shortcut": 0.15,   # NOVO: dropout para as shortcut connections
    "qkv_bias": False
}

model = GPTModel(GPT_CONFIG_124M)

inputs = torch.tensor(
  [[43, 15, 89],
   [55, 87, 66],
   [57, 85, 64],
   [22, 58, 33],
   [77, 25, 10],
   [15, 80, 55]]
)

output = model(inputs)