In [None]:
# ============================================================
# Setup do reposit√≥rio
# ============================================================
# Quando abrimos um notebook pelo GitHub no Google Colab,
# apenas o arquivo .ipynb √© carregado.
# Esta c√©lula garante que TODO o reposit√≥rio esteja dispon√≠vel.

import os

REPO_URL = "https://github.com/vongrossi/fazendo-um-llm-do-zero.git"
REPO_DIR = "fazendo-um-llm-do-zero"

if not os.path.exists(REPO_DIR):
    !git clone {REPO_URL}

os.chdir(REPO_DIR)

print("Diret√≥rio atual:", os.getcwd())
print("Conte√∫do da raiz:", os.listdir("."))


## Cap√≠tulo 01 ‚Äî O que √© um LLM (de verdade)

Este notebook acompanha o Cap√≠tulo 01 da s√©rie **Fazendo um LLM do Zero**.

üéØ Objetivos deste notebook:
- Entender LLMs como modelos de previs√£o do pr√≥ximo token
- Ver como comportamento emerge de regras simples
- Conectar o conceito te√≥rico com um exemplo pr√°tico
- Preparar o terreno para tokeniza√ß√£o e Transformers


### Instala√ß√£o de depend√™ncias

In [None]:
# ============================================================
# Instala√ß√£o de depend√™ncias do cap√≠tulo
# ============================================================
# No Colab, muitas bibliotecas j√° v√™m instaladas,
# mas usamos este passo para garantir consist√™ncia.

!pip -q install -r 01-o-que-e-um-llm/requirements.txt

### Imports e ambiente

In [None]:
# ============================================================
# Imports b√°sicos
# ============================================================

import sys
import numpy as np
import random

# Permite importar o colab_setup.py do cap√≠tulo
sys.path.append("01-o-que-e-um-llm")

from colab_setup import seed_everything

seed_everything(42)

print("Ambiente configurado com seed fixa.")


### Entendendo o Conceito
#### LLMs come√ßam com algo simples

Antes de Transformers, aten√ß√£o ou bilh√µes de par√¢metros,
um LLM come√ßa resolvendo uma tarefa b√°sica:

> **Dado um contexto, prever o pr√≥ximo token mais prov√°vel.**

Neste notebook, vamos construir um modelo extremamente simples
que faz exatamente isso ‚Äî sem deep learning ainda.

A ideia √© mostrar que **comportamento interessante pode emergir**
mesmo de regras estat√≠sticas simples.


In [None]:
# ============================================================
# Dataset simples de frases
# ============================================================
# Em LLMs reais, usamos bilh√µes de tokens.
# Aqui usamos um conjunto pequeno apenas para entendimento.

sentences = [
    "o gato subiu no telhado",
    "o cachorro subiu no sof√°",
    "o gato dormiu no sof√°",
    "o cachorro dormiu no tapete",
    "o gato pulou no muro",
]

print("Dataset de exemplo:")
for s in sentences:
    print("-", s)


### Tokeniza√ß√£o simples (por palavra)

In [None]:
# ============================================================
# Tokeniza√ß√£o simples
# ============================================================
# Aqui, cada palavra ser√° tratada como um token.
# Isso N√ÉO √© como LLMs reais fazem, mas ajuda a entender a ideia.

tokenized_sentences = [s.split() for s in sentences]

print("Frases tokenizadas:")
for ts in tokenized_sentences:
    print(ts)


### Construindo estat√≠sticas de pr√≥ximo token

In [None]:
# ============================================================
# Contando transi√ß√µes de tokens
# ============================================================
# Vamos contar:
# Dado um token atual, quais tokens costumam vir depois?

from collections import defaultdict

next_token_counts = defaultdict(lambda: defaultdict(int))

for sentence in tokenized_sentences:
    for i in range(len(sentence) - 1):
        current_token = sentence[i]
        next_token = sentence[i + 1]
        next_token_counts[current_token][next_token] += 1

print("Exemplo de transi√ß√µes aprendidas:")
for token, transitions in next_token_counts.items():
    print(f"\n'{token}' ‚Üí {dict(transitions)}")


### Convertendo contagens em probabilidades

In [None]:
# ============================================================
# Convertendo contagens em probabilidades
# ============================================================

next_token_probs = {}

for token, transitions in next_token_counts.items():
    total = sum(transitions.values())
    probs = {t: count / total for t, count in transitions.items()}
    next_token_probs[token] = probs

print("Probabilidades aprendidas:")
for token, probs in next_token_probs.items():
    print(f"\nAp√≥s '{token}':")
    for t, p in probs.items():
        print(f"  {t}: {p:.2f}")


### Gerando texto (previs√£o do pr√≥ximo token)

In [None]:
# ============================================================
# Fun√ß√£o simples de gera√ß√£o de texto
# ============================================================

def generate_text(start_token, max_steps=10):
    current_token = start_token
    generated = [current_token]

    for _ in range(max_steps):
        if current_token not in next_token_probs:
            break

        tokens = list(next_token_probs[current_token].keys())
        probabilities = list(next_token_probs[current_token].values())

        # Escolhe o pr√≥ximo token com base na distribui√ß√£o
        current_token = random.choices(tokens, probabilities)[0]
        generated.append(current_token)

    return " ".join(generated)


### Testando o ‚Äúmodelo‚Äù

In [None]:
# ============================================================
# Testes de gera√ß√£o
# ============================================================

for start in ["o", "gato", "cachorro"]:
    print(f"\nCome√ßando com '{start}':")
    print(generate_text(start))


### O que acabamos de construir?

Este modelo extremamente simples:

- n√£o entende linguagem
- n√£o tem consci√™ncia
- n√£o sabe o significado das palavras

E ainda assim:
- aprende padr√µes
- respeita contexto local
- gera texto plaus√≠vel

Isso acontece porque ele aprendeu **probabilidades condicionais**.

LLMs modernos fazem exatamente isso,
mas com:
- tokeniza√ß√£o muito mais sofisticada
- contextos muito maiores
- arquiteturas como Transformers
- bilh√µes de par√¢metros

O princ√≠pio fundamental, por√©m, √© o mesmo.


### Conex√£o com LLMs reais

O que voc√™ viu aqui √© uma vers√£o microsc√≥pica da ideia central dos LLMs.

Nos pr√≥ximos cap√≠tulos, vamos:
- melhorar a tokeniza√ß√£o
- aumentar o contexto
- substituir estat√≠stica simples por redes neurais
- introduzir aten√ß√£o e Transformers

Mas sempre mantendo a mesma pergunta no centro:

> ‚ÄúDado tudo que veio antes, qual √© o pr√≥ximo token mais prov√°vel?‚Äù


### üßæ Gloss√°rio R√°pido

**Token**  
Unidade b√°sica de texto processada pelo modelo.

**Previs√£o do pr√≥ximo token**  
Tarefa central dos modelos de linguagem: estimar o token mais prov√°vel dado um contexto.

**Probabilidade condicional**  
Probabilidade de um evento acontecer dado que outro j√° ocorreu.

**Modelo de linguagem**  
Modelo que atribui probabilidades a sequ√™ncias de tokens.
