In [1]:
from gpt_model import GPT

In [2]:
context_length = 20
n_layers       = 3
n_heads        = 2
n_embd         = 64
max_tokens     = 12
model = GPT(context_length, n_layers, n_heads, n_embd, max_tokens)

In [3]:
tokens_list = ["o", "gato", "pequeno"]
model.init_tokens(tokens_list)

In [5]:
for name, param in model.named_parameters():
    print(f"Nome: {name}")
    print(f"Shape: {param.shape}")
    print(f"Valores: {param}\n")


Nome: wte.weight
Shape: torch.Size([529, 64])
Valores: Parameter containing:
tensor([[-0.5893, -0.4524,  1.1952,  ...,  0.3742,  1.4256,  0.0846],
        [ 1.4145, -0.3904, -0.0893,  ..., -0.3033,  1.0024, -0.0396],
        [ 1.3450,  1.6099, -0.2865,  ...,  1.8337, -0.6831,  1.0660],
        ...,
        [ 0.2281, -1.6177,  0.8695,  ...,  0.5702,  1.1325,  0.9541],
        [-0.9425,  1.1783,  1.0604,  ...,  0.1450, -2.6185, -0.6543],
        [-1.6862, -0.5303, -0.1794,  ..., -0.5043,  0.7093,  0.0709]],
       requires_grad=True)

Nome: wpe.weight
Shape: torch.Size([20, 64])
Valores: Parameter containing:
tensor([[ 0.9631,  1.9243,  1.1724,  ..., -0.0628, -0.1056,  0.5566],
        [ 2.0910,  0.3645, -0.2723,  ...,  0.3509,  1.2313, -0.7659],
        [ 0.1818, -0.3369, -0.3503,  ...,  0.7588, -0.8212,  1.2692],
        ...,
        [-0.8965, -2.3753,  0.7784,  ...,  1.1152,  0.1907,  0.0177],
        [-0.0391, -1.3150,  1.8244,  ...,  0.1519,  1.5353, -0.4813],
        [ 1.8777, -1.5

In [4]:
print(model)

GPT(
  (wte): Embedding(529, 64)
  (wpe): Embedding(20, 64)
  (qkv_proj): ModuleList(
    (0-2): 3 x Linear(in_features=64, out_features=192, bias=True)
  )
  (out_proj): ModuleList(
    (0-2): 3 x Linear(in_features=64, out_features=64, bias=True)
  )
  (mlp): ModuleList(
    (0-2): 3 x Sequential(
      (0): Linear(in_features=64, out_features=128, bias=True)
      (1): GELU(approximate='tanh')
      (2): Linear(in_features=128, out_features=64, bias=True)
    )
  )
  (ln): LayerNorm((64,), eps=1e-05, elementwise_affine=True)
  (lm_head): Linear(in_features=64, out_features=529, bias=True)
)


In [6]:
total = sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f"Total treinável: {total:,d}")


Total treinável: 169,169


In [7]:
for name, param in model.named_parameters():
    if param.requires_grad:
        print(f"{name:<40} {param.numel():>10,}")


wte.weight                                   33,856
wpe.weight                                    1,280
qkv_proj.0.weight                            12,288
qkv_proj.0.bias                                 192
qkv_proj.1.weight                            12,288
qkv_proj.1.bias                                 192
qkv_proj.2.weight                            12,288
qkv_proj.2.bias                                 192
out_proj.0.weight                             4,096
out_proj.0.bias                                  64
out_proj.1.weight                             4,096
out_proj.1.bias                                  64
out_proj.2.weight                             4,096
out_proj.2.bias                                  64
mlp.0.0.weight                                8,192
mlp.0.0.bias                                    128
mlp.0.2.weight                                8,192
mlp.0.2.bias                                     64
mlp.1.0.weight                                8,192
mlp.1.0.bias

In [8]:
model.predict_next_token()

'usar'

In [9]:
model.predict_all_sentence()

Passo 1: o gato pequeno
Passo 2: o gato pequeno projeto
Passo 3: o gato pequeno projeto outros
Passo 4: o gato pequeno projeto outros oferecer
Passo 5: o gato pequeno projeto outros oferecer internet
Passo 6: o gato pequeno projeto outros oferecer internet viajar
Passo 7: o gato pequeno projeto outros oferecer internet viajar livro
Passo 8: o gato pequeno projeto outros oferecer internet viajar livro dentro
Passo 9: o gato pequeno projeto outros oferecer internet viajar livro dentro sol
Passo 10: o gato pequeno projeto outros oferecer internet viajar livro dentro sol onde
Passo 11: o gato pequeno projeto outros oferecer internet viajar livro dentro sol onde rir
Passo 12: o gato pequeno projeto outros oferecer internet viajar livro dentro sol onde rir teus


['o',
 'gato',
 'pequeno',
 'projeto',
 'outros',
 'oferecer',
 'internet',
 'viajar',
 'livro',
 'dentro',
 'sol',
 'onde',
 'rir',
 'teus',
 'novo']