In [None]:
# ============================================================
# Setup do repositÃ³rio
# ============================================================

import os

REPO_URL = "https://github.com/vongrossi/fazendo-um-llm-do-zero.git"
REPO_DIR = "fazendo-um-llm-do-zero"

if not os.path.exists(REPO_DIR):
    !git clone {REPO_URL}

os.chdir(REPO_DIR)

print("DiretÃ³rio atual:", os.getcwd())


### CapÃ­tulo 02 â€” Texto vira nÃºmero

Neste notebook vamos explorar:

ðŸŽ¯ Como texto vira nÃºmeros  
ðŸŽ¯ Como construir um vocabulÃ¡rio  
ðŸŽ¯ Como tokenizaÃ§Ã£o funciona  
ðŸŽ¯ Como criar pares input-target  
ðŸŽ¯ Como preparar dados para um GPT-like  

Este notebook Ã© o ponto onde a teoria comeÃ§a a virar pipeline real.


Instalando dependencias

In [None]:
!pip -q install -r 02-texto-vira-numero/requirements.txt


### Imports e seed

import sys
import numpy as np
import random
from collections import Counter

sys.path.append("02-texto-vira-numero")

from colab_setup import seed_everything

seed_everything(42)


### Parte 1 â€” Texto nÃ£o Ã© nÃºmero

In [None]:
text = """
LLMs aprendem padrÃµes de linguagem.
LLMs precisam transformar texto em nÃºmeros.
Modelos sÃ³ conseguem operar sobre vetores.
"""

print(text)


### Parte 2 â€” TokenizaÃ§Ã£o simples

In [None]:
def simple_tokenize(text):
    return text.lower().split()

tokens = simple_tokenize(text)

print(tokens)


### Parte 3 â€” Construindo vocabulÃ¡rio

In [None]:
vocab = sorted(set(tokens))

token_to_id = {token: idx for idx, token in enumerate(vocab)}
id_to_token = {idx: token for token, idx in token_to_id.items()}

print("VocabulÃ¡rio:", vocab)


Encode

In [None]:
def encode(text):
    return [token_to_id[token] for token in simple_tokenize(text)]

encoded = encode(text)
print(encoded)


Decode

In [None]:
def decode(ids):
    return " ".join([id_to_token[i] for i in ids])

print(decode(encoded))


### Parte 4 â€” Introduzindo Embeddings

In [None]:
# Criando embeddings simples

vocab_size = len(vocab)
embedding_dim = 4

embeddings = np.random.randn(vocab_size, embedding_dim)

print("Shape embeddings:", embeddings.shape)

In [2]:
# Obtendo embedding de tokens

token_ids = encode("llms aprendem padrÃµes")

token_embeddings = embeddings[token_ids]

print(token_embeddings)

### Parte 5 â€” Sliding Window (ESSENCIAL)

In [2]:
# FunÃ§Ã£o sliding window

def create_input_target_pairs(token_ids, context_size):

    inputs = []
    targets = []

    for i in range(len(token_ids) - context_size):
        input_seq = token_ids[i:i+context_size]
        target = token_ids[i+context_size]

        inputs.append(input_seq)
        targets.append(target)

    return np.array(inputs), np.array(targets)


Gerando pares

In [None]:
context_size = 3

inputs, targets = create_input_target_pairs(encoded, context_size)

print("Inputs:")
print(inputs)

print("\nTargets:")
print(targets)


### Parte 6 â€” Visualizando pares

In [None]:
# Mostrando pares de forma interpretÃ¡vel
for inp, tgt in zip(inputs, targets):

    print("INPUT :", decode(inp))
    print("TARGET:", id_to_token[tgt])
    print("---")

### Parte 7 â€” Preparando entrada GPT-like

In [None]:
# Convertendo inputs para embeddings
input_embeddings = embeddings[inputs]

print(input_embeddings.shape)

### Parte 8 â€” IntuiÃ§Ã£o de positional embeddings

In [None]:
# SimulaÃ§Ã£o simples
positional_embeddings = np.random.randn(context_size, embedding_dim)

final_embeddings = input_embeddings + positional_embeddings

print(final_embeddings.shape)

### Parte 9 â€” ConclusÃ£o
### O que acabamos de construir?

Criamos o pipeline bÃ¡sico que alimenta um GPT:

Texto â†’ Tokens â†’ IDs â†’ Embeddings â†’ SequÃªncia contextual

Nos prÃ³ximos capÃ­tulos vamos:
- aprender como atenÃ§Ã£o usa esses vetores
- construir blocos Transformer
- finalmente montar um GPT do zero

Este notebook representa a fundaÃ§Ã£o matemÃ¡tica da linguagem em LLMs.


### Extras (ExperimentaÃ§Ã£o)

1. Mude o context_size e observe os pares gerados.
2. Aumente embedding_dim e veja o impacto na matriz.
3. Teste outro dataset.
