In [1]:
from gpt_model import GPT

In [2]:
context_length = 20
n_layers       = 3
n_heads        = 2
n_embd         = 64
max_tokens     = 12
model = GPT(context_length, n_layers, n_heads, n_embd, max_tokens)

In [3]:
tokens_list = ["o", "gato", "pequeno"]
model.init_tokens(tokens_list)

In [4]:
for name, param in model.named_parameters():
    print(f"Nome: {name}")
    print(f"Shape: {param.shape}")
    print(f"Valores: {param}\n")


Nome: wte.weight
Shape: torch.Size([529, 64])
Valores: Parameter containing:
tensor([[ 0.7309,  0.4598, -1.3751,  ..., -2.1733, -0.2641, -0.4269],
        [-1.3943, -0.0812, -0.3729,  ...,  0.1766,  0.8436,  1.0324],
        [ 1.1605, -0.3243, -1.9835,  ..., -1.8315,  1.4158,  1.3294],
        ...,
        [ 0.8745, -0.2627, -0.8971,  ..., -0.5181, -1.9935,  0.2168],
        [ 0.4584,  0.3086, -1.7110,  ...,  0.1087, -0.5400,  0.0528],
        [-0.3324, -0.3105,  0.5953,  ..., -1.6827, -0.0029, -0.6938]],
       requires_grad=True)

Nome: wpe.weight
Shape: torch.Size([20, 64])
Valores: Parameter containing:
tensor([[ 0.6887, -1.7480, -0.6799,  ..., -0.3177, -0.9825, -1.0995],
        [-0.2929, -0.4735, -0.0916,  ..., -2.4674,  0.7803, -1.9828],
        [ 0.7351, -1.0266,  0.7430,  ...,  0.5056,  0.6156, -0.3699],
        ...,
        [ 0.2238,  0.6501, -1.2638,  ...,  1.2841,  1.5182, -1.0718],
        [-1.3431, -1.7264, -0.4165,  ..., -0.0059, -2.1963,  0.5626],
        [ 0.3352,  0.1

In [5]:
print(model)

GPT(
  (wte): Embedding(529, 64)
  (wpe): Embedding(20, 64)
  (qkv_proj): ModuleList(
    (0-2): 3 x Linear(in_features=64, out_features=192, bias=True)
  )
  (out_proj): ModuleList(
    (0-2): 3 x Linear(in_features=64, out_features=64, bias=True)
  )
  (mlp): ModuleList(
    (0-2): 3 x Sequential(
      (0): Linear(in_features=64, out_features=128, bias=True)
      (1): GELU(approximate='tanh')
      (2): Linear(in_features=128, out_features=64, bias=True)
    )
  )
  (ln): LayerNorm((64,), eps=1e-05, elementwise_affine=True)
  (lm_head): Linear(in_features=64, out_features=529, bias=True)
)


In [6]:
total = sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f"Total treinável: {total:,d}")


Total treinável: 169,169


In [7]:
for name, param in model.named_parameters():
    if param.requires_grad:
        print(f"{name:<40} {param.numel():>10,}")


wte.weight                                   33,856
wpe.weight                                    1,280
qkv_proj.0.weight                            12,288
qkv_proj.0.bias                                 192
qkv_proj.1.weight                            12,288
qkv_proj.1.bias                                 192
qkv_proj.2.weight                            12,288
qkv_proj.2.bias                                 192
out_proj.0.weight                             4,096
out_proj.0.bias                                  64
out_proj.1.weight                             4,096
out_proj.1.bias                                  64
out_proj.2.weight                             4,096
out_proj.2.bias                                  64
mlp.0.0.weight                                8,192
mlp.0.0.bias                                    128
mlp.0.2.weight                                8,192
mlp.0.2.bias                                     64
mlp.1.0.weight                                8,192
mlp.1.0.bias

In [11]:
model.predict_next_token()

'bem'

In [14]:
model.predict_all_sentence()

Passo 1: o gato pequeno
Passo 2: o gato pequeno seis
Passo 3: o gato pequeno seis terrível
Passo 4: o gato pequeno seis terrível existir
Passo 5: o gato pequeno seis terrível existir lei
Passo 6: o gato pequeno seis terrível existir lei terrível
Passo 7: o gato pequeno seis terrível existir lei terrível viagem
Passo 8: o gato pequeno seis terrível existir lei terrível viagem doce
Passo 9: o gato pequeno seis terrível existir lei terrível viagem doce embora
Passo 10: o gato pequeno seis terrível existir lei terrível viagem doce embora rápido
Passo 11: o gato pequeno seis terrível existir lei terrível viagem doce embora rápido algo
Passo 12: o gato pequeno seis terrível existir lei terrível viagem doce embora rápido algo noite


['o',
 'gato',
 'pequeno',
 'seis',
 'terrível',
 'existir',
 'lei',
 'terrível',
 'viagem',
 'doce',
 'embora',
 'rápido',
 'algo',
 'noite',
 'montanha']