In [None]:
# ============================================================
# Setup do reposit√≥rio
# ============================================================

import os

REPO_URL = "https://github.com/vongrossi/fazendo-um-llm-do-zero.git"
REPO_DIR = "fazendo-um-llm-do-zero"

if not os.path.exists(REPO_DIR):
    !git clone {REPO_URL}

os.chdir(REPO_DIR)

print("Diret√≥rio atual:", os.getcwd())


# Cap√≠tulo 02 ‚Äî Texto vira n√∫mero

Este notebook acompanha o Cap√≠tulo 02 da s√©rie **Fazendo um LLM do Zero**.

üéØ **Objetivos deste notebook:**
- Entender como texto vira n√∫meros
- Construir um vocabul√°rio a partir do zero
- Compreender o funcionamento da tokeniza√ß√£o
- Criar pares input-target (janela deslizante)
- Preparar dados reais para um modelo GPT-like

Este notebook √© o ponto onde a teoria come√ßa a virar pipeline real.


## 1. Setup e Configura√ß√£o

In [None]:
!pip -q install -r 02-texto-vira-numero/requirements.txt


### 1.1 Imports e Seed

import sys
import numpy as np
import random
from collections import Counter

sys.path.append("02-texto-vira-numero")

from colab_setup import seed_everything

seed_everything(42)


## 2. Texto n√£o √© n√∫mero

In [None]:
text = """
LLMs aprendem padr√µes de linguagem.
LLMs precisam transformar texto em n√∫meros.
Modelos s√≥ conseguem operar sobre vetores.
"""

print(text)


## 3. Tokeniza√ß√£o Simples

In [None]:
def simple_tokenize(text):
    return text.lower().split()

tokens = simple_tokenize(text)

print(tokens)


## 4. Construindo Vocabul√°rio

In [None]:
vocab = sorted(set(tokens))

token_to_id = {token: idx for idx, token in enumerate(vocab)}
id_to_token = {idx: token for token, idx in token_to_id.items()}

print("Vocabul√°rio:", vocab)


### 4.1 Encode

In [None]:
def encode(text):
    return [token_to_id[token] for token in simple_tokenize(text)]

encoded = encode(text)
print(encoded)


### 4.2 Decode

In [None]:
def decode(ids):
    return " ".join([id_to_token[i] for i in ids])

print(decode(encoded))


## 5. Introduzindo Embeddings

In [None]:
# Criando embeddings simples

vocab_size = len(vocab)
embedding_dim = 4

embeddings = np.random.randn(vocab_size, embedding_dim)

print("Shape embeddings:", embeddings.shape)

In [2]:
# Obtendo embedding de tokens

token_ids = encode("llms aprendem padr√µes")

token_embeddings = embeddings[token_ids]

print(token_embeddings)

## 6. Sliding Window (ESSENCIAL)

In [2]:
# Fun√ß√£o sliding window

def create_input_target_pairs(token_ids, context_size):

    inputs = []
    targets = []

    for i in range(len(token_ids) - context_size):
        input_seq = token_ids[i:i+context_size]
        target = token_ids[i+context_size]

        inputs.append(input_seq)
        targets.append(target)

    return np.array(inputs), np.array(targets)


### 6.1 Gerando pares input-target

In [None]:
context_size = 3

inputs, targets = create_input_target_pairs(encoded, context_size)

print("Inputs:")
print(inputs)

print("\nTargets:")
print(targets)


## 7. Visualizando Pares

In [None]:
# Mostrando pares de forma interpret√°vel
for inp, tgt in zip(inputs, targets):

    print("INPUT :", decode(inp))
    print("TARGET:", id_to_token[tgt])
    print("---")

## 8. Preparando Entrada GPT-like

In [None]:
# Convertendo inputs para embeddings
input_embeddings = embeddings[inputs]

print(input_embeddings.shape)

## 9. Intui√ß√£o de Positional Embeddings

In [None]:
# Simula√ß√£o simples
positional_embeddings = np.random.randn(context_size, embedding_dim)

final_embeddings = input_embeddings + positional_embeddings

print(final_embeddings.shape)

## 10. Conclus√£o

### 10.1 O que acabamos de construir?

Criamos o pipeline b√°sico que alimenta um GPT:

Texto ‚Üí Tokens ‚Üí IDs ‚Üí Embeddings ‚Üí Sequ√™ncia contextual

Nos pr√≥ximos cap√≠tulos vamos:
- aprender como aten√ß√£o usa esses vetores
- construir blocos Transformer
- finalmente montar um GPT do zero

Este notebook representa a funda√ß√£o matem√°tica da linguagem em LLMs.


## 11. Extras (Experimenta√ß√£o)

1. Mude o context_size e observe os pares gerados.
2. Aumente embedding_dim e veja o impacto na matriz.
3. Teste outro dataset.
