# 01 · Cuantización y Optimización de Inferencia

**Objetivo:** cuantizar un modelo (ej. LLaMA/Mistral) y comparar memoria/latencia antes y después.

**Prerequisitos:** Python 3.11+, GPU opcional, drivers/CUDA si aplica.

**Índice:**
1. Setup
2. Carga de modelo base
3. Cuantización (bitsandbytes / AutoGPTQ)
4. Métricas (memoria/latencia)
5. Conclusiones

## 1. Setup

In [None]:
# (Opcional) Instalaciones rápidas
# !pip install torch transformers accelerate bitsandbytes auto-gptq tiktoken

import os, time
from contextlib import contextmanager

@contextmanager
def timer(msg="Tiempo"):
    t0 = time.time()
    yield
    print(f"{msg}: {time.time()-t0:.3f}s")

try:
    import torch
except Exception as e:
    print("Aviso: torch no está instalado en este entorno.")


## 2. Carga de modelo base

In [None]:
# TODO: reemplaza por el checkpoint que usarás (pe. 'meta-llama/Llama-2-7b-hf' o 'mistralai/Mistral-7B-Instruct')
MODEL_NAME = "<modelo-base>"
DEVICE = "cuda" if 'torch' in globals() and torch.cuda.is_available() else "cpu"
print("Device:", DEVICE)

# from transformers import AutoModelForCausalLM, AutoTokenizer
# tok = AutoTokenizer.from_pretrained(MODEL_NAME, use_fast=True)
# model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, device_map="auto")


## 3. Cuantización

In [None]:
# Opción A: int8/int4 con bitsandbytes (GPU)
# model_8bit = AutoModelForCausalLM.from_pretrained(
#     MODEL_NAME,
#     load_in_8bit=True,
#     device_map="auto"
# )

# Opción B: AutoGPTQ (requiere preparar el modelo cuantizado)
# from auto_gptq import AutoGPTQForCausalLM
# model_gptq = AutoGPTQForCausalLM.from_quantized(MODEL_NAME, device_map="auto")


## 4. Métricas (memoria/latencia)

In [None]:
def generate_prompt(q: str) -> str:
    return f"Usuario: {q}\nAsistente:"

TEST_PROMPT = "Explica la cuantización en 3 frases."

# def run_inference(model, tok, prompt, max_new_tokens=64):
#     inputs = tok(prompt, return_tensors="pt").to(model.device)
#     with timer("latencia"):
#         outputs = model.generate(**inputs, max_new_tokens=max_new_tokens)
#     print(tok.decode(outputs[0], skip_special_tokens=True))

# Medición de memoria (si hay CUDA)
if 'torch' in globals() and torch.cuda.is_available():
    mem = torch.cuda.memory_allocated() / (1024**2)
    print(f"Memoria GPU usada (MB): {mem:.2f}")
else:
    print("CUDA no disponible. Reporta memoria/tiempos en CPU o deja como TODO.")


## 5. Conclusiones
- Resume mejoras de memoria/latencia.
- Anota trade-offs observados (precisión vs. velocidad).