In [1]:
# utils comuns
import os, time, json, re
import torch
import pandas as pd
from tqdm import tqdm
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

device = "cuda" if torch.cuda.is_available() else "cpu"
print("device:", device)
if device == "cuda":
    print("GPU:", torch.cuda.get_device_name(0))
    print("VRAM (GB):", round(torch.cuda.get_device_properties(0).total_memory/1024**3, 2))

def load_bnb_4bit(model_id: str):
    bnb_config = BitsAndBytesConfig(
        load_in_4bit=True,
        bnb_4bit_quant_type="nf4",
        bnb_4bit_use_double_quant=True,
        bnb_4bit_compute_dtype=torch.float16,
    )
    tok = AutoTokenizer.from_pretrained(model_id, use_fast=True)
    model = AutoModelForCausalLM.from_pretrained(
        model_id,
        torch_dtype=torch.float16,
        device_map="auto",
        quantization_config=bnb_config,
    )
    model.eval()
    return tok, model

def format_chat_inst(model_family: str, system: str, user: str):
    """formata o prompt de acordo com o modelo."""
    if model_family == "mistral":
        return f"<s>[INST] <<SYS>>\n{system}\n<</SYS>>\n{user} [/INST]"
    elif model_family == "gemma":
        return f"<start_of_turn>system\n{system}<end_of_turn>\n<start_of_turn>user\n{user}<end_of_turn>\n<start_of_turn>model\n"
    elif model_family == "phi3":
        # phi-3 segue estilo chat simples; esse formato funciona bem
        return f"<s>[INST] {system}\n\n{user} [/INST]"
    else:
        return user  # fallback

  from .autonotebook import tqdm as notebook_tqdm


device: cuda
GPU: NVIDIA GeForce RTX 4090
VRAM (GB): 23.99


In [2]:
@torch.inference_mode()
def generate_and_measure(tok, model, prompt, max_new_tokens=750, temperature=0.7, top_p=0.9):
    if device == "cuda":
        torch.cuda.empty_cache()
        torch.cuda.reset_peak_memory_stats()

    inputs = tok(prompt, return_tensors="pt").to(model.device)

    # sincroniza antes e depois para medir latência corretamente
    if device == "cuda":
        torch.cuda.synchronize()
    t0 = time.perf_counter()

    out = model.generate(
        **inputs,
        max_new_tokens=max_new_tokens,
        do_sample=True,
        temperature=temperature,
        top_p=top_p,
        pad_token_id=tok.eos_token_id,
    )

    if device == "cuda":
        torch.cuda.synchronize()
    dt = time.perf_counter() - t0

    txt = tok.decode(out[0], skip_special_tokens=True)

    # mede VRAM pico
    vram_peak = None
    if device == "cuda":
        vram_peak = torch.cuda.max_memory_allocated() / (1024**3)  # GB

    # tokens gerados
    new_tokens = out.shape[-1] - inputs["input_ids"].shape[-1]
    tps = new_tokens / dt if dt > 0 else float("inf")

    return {"text": txt, "latency_s": dt, "new_tokens": new_tokens, "tokens_per_s": tps, "vram_gb_peak": vram_peak}

In [None]:
token = os.environ["HF_TOKEN"] = ""
MODEL_ID = "google/gemma-2-2b-it"
tok, model = load_bnb_4bit(MODEL_ID)
model_family = "gemma"

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
`torch_dtype` is deprecated! Use `dtype` instead!
Fetching 2 files: 100%|██████████| 2/2 [00:53<00:00, 26.86s/it]
Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.20s/it]


In [4]:
system = "Você é um assistente técnico em pt-BR, responda de forma concisa."
user = "O que é um oceano de dirac?"
prompt = format_chat_inst(model_family, system, user)
res = generate_and_measure(tok, model, prompt)
print(res["text"])
res


system
Você é um assistente técnico em pt-BR, responda de forma concisa.
user
O que é um oceano de dirac?
model
Um oceano de Dirac é um conceito teórico de física quântica, similar a um oceano, mas em um nível quântico. 

**Em termos simples:**

* É um modelo que descreve um estado quântico onde partículas podem existir em múltiplos estados ao mesmo tempo.
* É um conceito abstrato, mas que pode ser usado para entender a natureza quântica de objetos como elétrons e prótons.

**Para entender melhor:**

* O conceito de um oceano de Dirac é parte de um modelo chamado de "espaço de Hilbert".
* A física quântica é complexa e, nesse contexto, os conceitos de "oceano" e "dirac" são ferramentas para entender essa complexidade.

**Em resumo:**

* Um oceano de Dirac é um conceito teórico que descreve um estado quântico onde partículas podem existir em múltiplos estados ao mesmo tempo. 
* É um modelo abstrato, mas que pode ser usado para entender a natureza quântica de objetos como elétrons e prót

{'text': 'system\nVocê é um assistente técnico em pt-BR, responda de forma concisa.\nuser\nO que é um oceano de dirac?\nmodel\nUm oceano de Dirac é um conceito teórico de física quântica, similar a um oceano, mas em um nível quântico. \n\n**Em termos simples:**\n\n* É um modelo que descreve um estado quântico onde partículas podem existir em múltiplos estados ao mesmo tempo.\n* É um conceito abstrato, mas que pode ser usado para entender a natureza quântica de objetos como elétrons e prótons.\n\n**Para entender melhor:**\n\n* O conceito de um oceano de Dirac é parte de um modelo chamado de "espaço de Hilbert".\n* A física quântica é complexa e, nesse contexto, os conceitos de "oceano" e "dirac" são ferramentas para entender essa complexidade.\n\n**Em resumo:**\n\n* Um oceano de Dirac é um conceito teórico que descreve um estado quântico onde partículas podem existir em múltiplos estados ao mesmo tempo. \n* É um modelo abstrato, mas que pode ser usado para entender a natureza quântica d

In [5]:
with open("../data/prompts_baseline.json", "r", encoding="utf-8") as f:
    prompts = json.load(f)

rows = []
system = "Responda em pt-BR, com precisão e sem enrolação."
for p in tqdm(prompts):
    prompt = format_chat_inst(model_family, system, p)
    r = generate_and_measure(tok, model, prompt, max_new_tokens=200)
    rows.append({
        "model_id": MODEL_ID,
        "prompt": p,
        "latency_s": r["latency_s"],
        "tokens_per_s": r["tokens_per_s"],
        "vram_gb_peak": r["vram_gb_peak"],
        "new_tokens": r["new_tokens"],
    })

df = pd.DataFrame(rows)
df.to_csv(f"../results/{MODEL_ID.split('/')[-1]}_metrics.csv", index=False)
df.describe()

100%|██████████| 10/10 [00:37<00:00,  3.76s/it]


Unnamed: 0,latency_s,tokens_per_s,vram_gb_peak,new_tokens
count,10.0,10.0,10.0,10.0
mean,3.756823,27.252107,2.129904,103.1
std,2.829659,0.672756,0.001293,78.45657
min,0.66018,25.750568,2.128388,17.0
25%,1.187695,27.225455,2.128959,32.5
50%,3.207152,27.527196,2.129531,86.0
75%,6.742808,27.640919,2.130803,187.25
max,7.253135,27.898012,2.13229,200.0


In [6]:
# === Math Eval: célula completa e robusta ===
import os, json, re
import pandas as pd

# -------- Helpers --------
NUMBER_FULL = re.compile(r"^\s*-?\d+(?:[.,]\d+)?\s*$")
NUMBER_ANY  = re.compile(r"-?\d+(?:[.,]\d+)?")

def is_number_string(s: str) -> bool:
    """Retorna True se a string é um número (int/float) puro."""
    return bool(NUMBER_FULL.match(str(s)))

def extract_number(text: str):
    """Extrai o primeiro número (int/float) do texto; retorna float ou None."""
    if text is None:
        return None
    m = NUMBER_ANY.search(str(text))
    if not m:
        return None
    try:
        return float(m.group(0).replace(",", "."))
    except Exception:
        return None

def normalize_text(s: str) -> str:
    """Normaliza texto para comparação exata não numérica."""
    return re.sub(r"\s+", " ", str(s or "")).strip().lower()

def ask_and_score_math(
    items,
    *,
    system_prompt="Responda somente com a resposta final.",
    max_new_tokens=64,
    tol=1e-2,
    verbose=False,
):
    """
    items: lista de dicts {"q": str, "a": str}
    Retorna: summary (dict) e df (DataFrame com logs por pergunta)
    """
    logs = []
    acertos = 0

    for idx, item in enumerate(items, 1):
        q = item.get("q", "")
        a = str(item.get("a", "")).strip()

        # Formata prompt conforme a família (usa sua função já definida no notebook)
        prompt = format_chat_inst(model_family, system_prompt, q)

        # Geração + métricas (usa sua função já definida no notebook)
        out = generate_and_measure(tok, model, prompt, max_new_tokens=max_new_tokens)
        model_text = (out.get("text") or "").strip()

        if is_number_string(a):
            # Resposta esperada é numérica
            gold = float(a.replace(",", "."))
            pred = extract_number(model_text)

            # tenta todas as formas possíveis
            correct = False
            if pred is not None:
                try:
                    correct = abs(pred - gold) <= tol
                except Exception:
                    correct = False

            # fallback textual (ex.: "A resposta é 23." ou "≈ 60")
            if not correct:
                txt_norm = normalize_text(model_text)
                correct = normalize_text(a) in txt_norm or str(int(gold)) in txt_norm

        else:
            # Resposta esperada é texto curto exato
            correct = normalize_text(model_text) == normalize_text(a)

        if verbose and not correct:
            print(f"[❌] Q: {q}")
            print(f"    Pred: {model_text}")
            print(f"    Gold: {a}")

        acertos += int(correct)

        logs.append({
            "idx": idx,
            "question": q,
            "gold": a,
            "prediction": model_text,
            "correct": int(correct),
            "latency_s": out.get("latency_s"),
            "tokens_per_s": out.get("tokens_per_s"),
            "vram_gb_peak": out.get("vram_gb_peak"),
        })

        if verbose:
            print(f"[{idx}] OK={correct} | Q: {q}\n  pred: {model_text}\n  gold: {a}\n")

    total = len(items) or 1  # evita div/0
    acc = acertos / total

    summary = {
        "model_id": MODEL_ID,
        "n": len(items),
        "acertos": acertos,
        "accuracy": acc,          # 0..1
        "latency_avg_s": pd.Series([r["latency_s"] for r in logs]).mean(),
        "tps_avg": pd.Series([r["tokens_per_s"] for r in logs]).mean(),
        "vram_peak_max_gb": pd.Series([r["vram_gb_peak"] for r in logs]).max(),
    }

    df = pd.DataFrame(logs)
    return summary, df

# -------- Load & Run --------
with open("../data/qa_math_eval.json", "r", encoding="utf-8") as f:
    math_items = json.load(f)   # lista de {"q","a"}

summary, df_logs = ask_and_score_math(math_items, tol=1e-2, verbose=True)

print("== Resumo Math ==")
print({
    "model_id": summary["model_id"],
    "n": summary["n"],
    "acertos": summary["acertos"],
    "accuracy": round(summary["accuracy"], 3),
    "latency_avg_s": round(float(summary["latency_avg_s"] or 0), 3),
    "tps_avg": round(float(summary["tps_avg"] or 0), 2),
    "vram_peak_max_gb": round(float(summary["vram_peak_max_gb"] or 0), 2),
})

# -------- Save CSV (compatível com seu compare_plots) --------
os.makedirs("../results", exist_ok=True)

# salva log por pergunta (útil para auditoria)
per_model_slug = MODEL_ID.split("/")[-1]
df_logs.to_csv(f"../results/{per_model_slug}_math_logs.csv", index=False)

# salva o agregador de "qualidade" (math-only por enquanto)
dfq = pd.DataFrame([{
    "model_id": MODEL_ID,
    "quality_math": summary["accuracy"],   # 0..1
    "quality_fact": None,                  # ainda não avaliado
    "quality_score": summary["accuracy"]   # por enquanto = math
}])
dfq.to_csv(f"../results/{per_model_slug}_quality.csv", index=False)
# === fim da célula ===


[1] OK=True | Q: Quanto é 8 + 15?
  pred: system
Responda somente com a resposta final.
user
Quanto é 8 + 15?
model
23
  gold: 23

[2] OK=True | Q: Calcule 12 vezes 13.
  pred: system
Responda somente com a resposta final.
user
Calcule 12 vezes 13.
model
156
  gold: 156

[3] OK=True | Q: Qual é a raiz quadrada de 81?
  pred: system
Responda somente com a resposta final.
user
Qual é a raiz quadrada de 81?
model
9
  gold: 9

[4] OK=True | Q: Se João tem 5 maçãs e come 2, quantas restam?
  pred: system
Responda somente com a resposta final.
user
Se João tem 5 maçãs e come 2, quantas restam?
model
3
  gold: 3

[5] OK=True | Q: Um trem leva 2 horas para percorrer 120 km. Qual é sua velocidade média em km/h?
  pred: system
Responda somente com a resposta final.
user
Um trem leva 2 horas para percorrer 120 km. Qual é sua velocidade média em km/h?
model
60 km/h
  gold: 60

[❌] Q: Se uma pizza é dividida em 8 fatias e Maria come 3, que fração da pizza ela comeu?
    Pred: system
Responda soment