### Carga del Modelo Base
Vamos a traer a Qwen2.5-Coder-14B a la memoria de tu RTX 3090, comprimido en 4-bits para que entre sin problemas.

In [17]:
import os       # Permite interactuar con el sistema operativo (rutas de carpetas, variables de entorno).
import gc       # "Garbage Collector": Se usa para liberar memoria RAM/VRAM manualmente si es necesario.
import json     # Para manipular archivos JSON (lectura de datasets o configuraciones).
import torch    # La librer√≠a principal de PyTorch para operaciones con tensores y uso de la GPU.
import shutil   # √ötil para operaciones de archivos de alto nivel, como borrar o mover carpetas completas.
import subprocess # Permite ejecutar comandos de terminal (como git o pip) desde Python.

# Importa la clase Dataset de Hugging Face para estructurar los datos de entrenamiento.
from datasets import Dataset 

# Unsloth: Librer√≠a optimizada para entrenar modelos m√°s r√°pido y con menos memoria.
from unsloth import FastLanguageModel, is_bfloat16_supported

# Permite obtener informaci√≥n t√©cnica de un modelo alojado en el Hugging Face Hub.
from huggingface_hub import model_info

# Facilita la aplicaci√≥n de formatos de chat (como Llama-3 o Alpaca) a los datos.
from unsloth.chat_templates import get_chat_template

# El "Entrenador" (Trainer) especializado en Supervised Fine-Tuning (SFT).
from trl import SFTTrainer

# Define los hiperpar√°metros del entrenamiento (√©pocas, tasa de aprendizaje, pasos, etc.).
from transformers import TrainingArguments

In [2]:
# --- Configuraci√≥n de par√°metros iniciales ---

# Define la longitud m√°xima de tokens (contexto) que el modelo procesar√°. 
# 2048 es est√°ndar, pero Unsloth permite ampliarlo din√°micamente.
max_seq_length = 2048 

# El tipo de datos para los pesos (None deja que Unsloth lo detecte autom√°ticamente).
# Usualmente detectar√° float16 o bfloat16 seg√∫n tu GPU.
dtype = None 

# Activa la cuantizaci√≥n de 4 bits. Crucial para que un modelo de 14B 
# quepa en GPUs de consumo (como una RTX 3060/4060 o superiores).
load_in_4bit = True 

# El identificador del modelo en Hugging Face. 
# Esta versi√≥n ya viene pre-cuantizada ("bnb-4bit") para ser ultra r√°pida.
model_name = "unsloth/Qwen2.5-Coder-14B-Instruct-bnb-4bit"

# --- Verificaci√≥n de archivos locales (Cach√©) ---

# Construye la ruta donde Hugging Face suele guardar los modelos descargados.
# Transforma "usuario/modelo" en el formato de carpetas de cach√© del sistema.
cache_dir = os.path.expanduser(f"~/.cache/huggingface/hub/models--{'--'.join(model_name.split('/'))}")

# Comprueba si la carpeta del modelo ya existe en el disco duro.
if os.path.exists(cache_dir):
    # Si existe, nos avisa que no gastar√° internet descarg√°ndolo de nuevo.
    print(f"‚úÖ Modelo encontrado en cach√©: {cache_dir}")
    print("üîÑ Cargando modelo localmente...")
else:
    # Si no existe, nos advierte que iniciar√° una descarga pesada.
    print(f"‚ö†Ô∏è Modelo NO encontrado en cach√©. Se descargar√° en: {cache_dir}")

# --- Carga del Modelo y el Tokenizador ---

# Utiliza la funci√≥n optimizada de Unsloth para cargar el modelo en la VRAM de la GPU.
# Retorna dos objetos: 
# 1. model: El cerebro del IA.
# 2. tokenizer: El traductor que convierte texto en n√∫meros (tokens).
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name=model_name,
    max_seq_length=max_seq_length,
    dtype=dtype,
    load_in_4bit=load_in_4bit,
)

# Confirmaci√≥n final de que el modelo est√° listo para usarse o entrenarse.
print("‚úÖ Modelo cargado exitosamente en 4-bits.")

‚úÖ Modelo encontrado en cach√©: /root/.cache/huggingface/hub/models--unsloth--Qwen2.5-Coder-14B-Instruct-bnb-4bit
üîÑ Cargando modelo localmente...
==((====))==  Unsloth 2026.2.1: Fast Qwen2 patching. Transformers: 4.57.6.
   \\   /|    NVIDIA GeForce RTX 4090. Num GPUs = 1. Max memory: 22.152 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.10.0+cu128. CUDA: 8.9. CUDA Toolkit: 12.8. Triton: 3.6.0
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.34. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


Fetching 2 files: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2/2 [00:55<00:00, 27.51s/it]
Loading checkpoint shards: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2/2 [00:01<00:00,  1.12it/s]


‚úÖ Modelo cargado exitosamente en 4-bits.


### Verificar que el modelo existe manualmente
Si ninguna de las anteriores funciona, verifica que puedes acceder al modelo:

In [4]:
# --- Verificaci√≥n de metadatos en Hugging Face Hub ---

# Usamos un bloque "try-except" para manejar posibles errores de conexi√≥n o permisos.
try:
    # Llama a la API de Hugging Face para obtener la ficha t√©cnica (info) del modelo.
    # Esto no descarga el modelo, solo consulta sus estad√≠sticas y estado.
    info = model_info("unsloth/Qwen2.5-Coder-14B-Instruct-bnb-4bit")
    
    # Si la consulta es exitosa, imprime el ID confirmado del modelo.
    print(f"‚úÖ Modelo encontrado: {info.id}")
    
    # Muestra el n√∫mero total de descargas que ha tenido el modelo (popularidad).
    print(f"üì• Descargas: {info.downloads}")

# Si ocurre un error (ej. no hay internet, el modelo es privado o el nombre est√° mal escrito):
except Exception as e:
    # Atrapa el error y lo muestra en pantalla sin detener la ejecuci√≥n del programa.
    print(f"‚ùå Error accediendo al modelo: {e}")

‚úÖ Modelo encontrado: unsloth/Qwen2.5-Coder-14B-Instruct-bnb-4bit
üì• Descargas: 8706


### Inyecci√≥n de Adaptadores (LoRA)
Aqu√≠ definimos la arquitectura del fine-tuning. Solo vamos a entrenar una fracci√≥n del modelo (los adaptadores), lo que hace que el proceso sea r√°pido y eficiente.

In [3]:
# --- Configuraci√≥n de PEFT (Parameter-Efficient Fine-Tuning) con LoRA ---

# Transforma el modelo base en un modelo PEFT (solo una parte es entrenable).
model = FastLanguageModel.get_peft_model(
    model,
    # 'r' (Rank): Define el tama√±o de las matrices de bajo rango. 
    # 16 es un equilibrio ideal entre precisi√≥n y ahorro de memoria.
    r = 16, 

    # 'target_modules': Especifica en qu√© capas del modelo se inyectar√°n los adaptadores.
    # Estas capas (q, k, v, o, gate, up, down) cubren casi toda la atenci√≥n y redes neuronales del modelo.
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj"],

    # 'lora_alpha': Escala el aprendizaje de los adaptadores. 
    # Generalmente se recomienda que sea igual o el doble de 'r'.
    lora_alpha = 16,

    # 'lora_dropout': Probabilidad de desactivar neuronas al azar para evitar sobreajuste.
    # 0 es lo m√°s eficiente para velocidad de entrenamiento en Unsloth.
    lora_dropout = 0, 

    # 'bias': Define si se entrenan los sesgos. "none" es lo est√°ndar para LoRA.
    bias = "none",

    # 'use_gradient_checkpointing': T√©cnica que libera memoria RAM de la GPU 
    # guardando solo lo esencial. "unsloth" usa una versi√≥n optimizada que gasta un 30% menos.
    use_gradient_checkpointing = "unsloth", 

    # Semilla aleatoria para que los resultados sean reproducibles (siempre den lo mismo).
    random_state = 3407,
)

# Mensaje de confirmaci√≥n: el modelo ahora est√° listo para recibir datos de entrenamiento.
print("‚úÖ Adaptadores LoRA configurados.")

Unsloth 2026.2.1 patched 48 layers with 48 QKV layers, 48 O layers and 48 MLP layers.


‚úÖ Adaptadores LoRA configurados.


#### Preparaci√≥n del Dataset
Le ense√±amos al modelo a entender el formato de tu dataset.jsonl (ChatML: System, User, Assistant). Asumimos que dentro de tu JSONL, el arreglo de mensajes se llama messages o conversations.

Este c√≥digo es fundamental: act√∫a como el traductor entre la forma en que t√∫ guardaste la informaci√≥n en tu archivo `epics.jsonl` y la forma exacta en la que el modelo (Qwen2.5) necesita leerla para aprender.

En t√©rminos sencillos, el modelo no entiende "columnas" o "diccionarios"; solo entiende secuencias largas de texto con etiquetas especiales que le indican qui√©n est√° hablando.

#### 1. Aplicar la plantilla ChatML (`get_chat_template`)

Los modelos conversacionales como Qwen usan un formato llamado **ChatML** (Chat Markup Language). Esto significa que usan "etiquetas invisibles" para separar los mensajes, como `<|im_start|>user` y `<|im_end|>`.
Este paso configura tu tokenizador para que inyecte autom√°ticamente estas etiquetas en el texto, ahorr√°ndote el trabajo de escribirlas a mano.

#### 2. Definir el System Prompt

Aqu√≠ le inyectamos la personalidad a tu PM Senior. Le estamos diciendo expl√≠citamente cu√°l es su rol y, muy importante, le indicamos que **debe responder en formato JSON**. Esto ancla el comportamiento del modelo para que siempre act√∫e como un experto estructurado.

#### 3. La funci√≥n de formateo (`formatting_prompts_func`)

Este es el "motor" de la celda. Como tu archivo tiene una columna llamada `input` y otra llamada `output`, la funci√≥n hace lo siguiente para cada fila de tu dataset:

* **Extrae los datos:** Toma el diccionario crudo de `input` y el de `output`.
* **Formatea a texto JSON legible (`json.dumps`):** Este paso es el truco vital. Como tu objetivo es que el modelo devuelva un JSON perfecto (como se ve en tus salidas con `epic_id`, `title`, `acceptance_criteria`), usamos `json.dumps(..., indent=2)` para transformar tus diccionarios en cadenas de texto con saltos de l√≠nea y tabulaciones perfectas. As√≠ el modelo aprende a indentar como un humano.
* **Arma la conversaci√≥n:** Crea una lista l√≥gica con tres roles:
1. El `system` (las instrucciones base).
2. El `user` (tu `input` con el contexto y requerimientos).
3. El `assistant` (tu `output` con la Epic dorada).


* **Aplica la plantilla (`apply_chat_template`):** Pasa esa lista estructurada por el tokenizador para fusionarla en un √∫nico bloque de texto continuo con todas las etiquetas ChatML listas para el entrenamiento.

#### 4. Cargar y procesar (`load_dataset` y `map`)

* Usa la librer√≠a de Hugging Face para cargar tu archivo `epics.jsonl` a la memoria RAM de tu RunPod.
* El comando `.map(..., batched=True)` pasa todo tu dataset por la funci√≥n que explicamos arriba de forma simult√°nea y s√∫per r√°pida.
* El resultado final es que tu dataset ahora tiene una nueva columna llamada **`text`**, que contiene la conversaci√≥n perfectamente formateada. Esta columna `text` es la *√∫nica* que Qwen va a leer durante el entrenamiento.

In [5]:
# --- 1. Preparaci√≥n del Formato de Conversaci√≥n ---

# Configura el tokenizador para que use la estructura "ChatML" (<|im_start|>, <|im_end|>).
# Esto es vital para que el modelo sepa cu√°ndo termina de hablar el usuario y empieza √©l.
tokenizer = get_chat_template(
    tokenizer,
    chat_template = "chatml",
)

# --- 2. Definici√≥n de la Identidad (System Prompt) ---

# Establecemos las "instrucciones de comportamiento" del modelo. 
# Aqu√≠ le decimos que sea un Product Manager experto y que responda en JSON.
system_prompt = "Eres un Product Manager Senior experto. Tu tarea es analizar el contexto y los requerimientos proporcionados para redactar Epics de software detalladas, estructuradas y precisas en formato JSON."

formatted_texts = []

# --- 3. Procesamiento Manual del Archivo de Datos ---

# Ruta donde tienes guardados tus ejemplos de entrenamiento (formato JSON Lines).
file_path = "../data/epics.jsonl" 

with open(file_path, "r", encoding="utf-8") as f:
    for line in f:
        # Si la l√≠nea est√° vac√≠a, nos la saltamos para evitar errores.
        if not line.strip(): continue 
        
        # Convertimos la l√≠nea de texto (JSON) en un diccionario de Python.
        record = json.loads(line)
        
        # Convertimos los campos 'input' y 'output' en texto (strings) bien formateados.
        # 'ensure_ascii=False' permite tildes y √±; 'indent=2' lo hace legible.
        user_content = json.dumps(record["input"], ensure_ascii=False, indent=2)
        assistant_content = json.dumps(record["output"], ensure_ascii=False, indent=2)
        
        # Creamos la estructura de la conversaci√≥n (Mensaje de Sistema -> Usuario -> Asistente).
        convo = [
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": user_content},
            {"role": "assistant", "content": assistant_content}
        ]
        
        # 'apply_chat_template' une todo lo anterior usando las etiquetas especiales de ChatML.
        # tokenize=False: Solo genera el texto plano por ahora.
        text = tokenizer.apply_chat_template(convo, tokenize=False, add_generation_prompt=False)
        
        # Guardamos el resultado en una lista de diccionarios con la clave "text".
        formatted_texts.append({"text": text})

# --- 4. Creaci√≥n del Dataset Final ---

# Convertimos nuestra lista de Python en un objeto Dataset de HuggingFace.
# Este formato es el que el 'SFTTrainer' de Unsloth requiere para empezar a entrenar.
dataset = Dataset.from_list(formatted_texts)

# Mensajes de control para verificar que todo sali√≥ bien.
print(f"‚úÖ ¬°Dataset cargado y formateado! Total de ejemplos procesados: {len(dataset)}")

# Imprimimos los primeros 500 caracteres del primer ejemplo para ver las etiquetas <|im_start|>.
print("\n--- MUESTRA DEL PRIMER EJEMPLO FORMATEADO ---")
print(dataset[0]["text"][:500] + "...\n[CONTIN√öA]")

Unsloth: Will map <|im_end|> to EOS = <|im_end|>.


‚úÖ ¬°Dataset cargado y formateado! Total de ejemplos procesados: 104

--- MUESTRA DEL PRIMER EJEMPLO FORMATEADO ---
<|im_start|>system
Eres un Product Manager Senior experto. Tu tarea es analizar el contexto y los requerimientos proporcionados para redactar Epics de software detalladas, estructuradas y precisas en formato JSON.<|im_end|>
<|im_start|>user
{
  "context": "El proyecto inicia desde cero, sin ning√∫n tipo de infraestructura en la nube. Es imperativo establecer una base s√≥lida, repetible y segura que permita el despliegue y la operaci√≥n de todos los componentes subsecuentes de la plataforma. La adop...
[CONTIN√öA]


### **Fine-Tunning** (ajusta) un modelo de lenguaje pre-entrenado con tus datos espec√≠ficos usando **LoRA**

| Componente | Funci√≥n |
|------------|---------|
| `SFTTrainer` | Entrenador especializado para "Supervised Fine-Tuning" (ajuste supervisado) |
| `train_dataset` | Tus datos de entrenamiento (104 ejemplos conversacionales) |
| `max_seq_length` | L√≠mite de tokens por ejemplo (2048) |
| `packing=False` | Respeta la estructura conversacional exacta de cada ejemplo |
| `per_device_train_batch_size=2` | Procesa 2 ejemplos simult√°neamente en GPU |
| `gradient_accumulation_steps=4` | Simula un lote de 8 ejemplos (2√ó4) para ahorrar VRAM |
| `num_train_epochs=3` | Pasa 3 veces por todo el dataset (~39 pasos totales) |
| `learning_rate=2e-4` | Velocidad de aprendizaje est√°ndar para LoRA |
| `adamw_8bit` | Optimizador comprimido que usa menos memoria |
| `fp16/bf16` | Precisi√≥n mixta para acelerar entrenamiento |

**Tiempo estimado:** ~39 pasos √ó tiempo por paso (var√≠a seg√∫n GPU).

In [6]:
# --- 0. LIMPIEZA PROFUNDA DE GPU ---
# Libera cualquier residuo de memoria en la GPU para empezar desde cero.
torch.cuda.empty_cache() 
# Fuerza al recolector de basura de Python a limpiar objetos no utilizados en la RAM.
gc.collect() 

# --- 1. CARGA DEL MODELO ---
# Aumentamos la longitud de secuencia a 4096 para manejar Epics m√°s largas.
max_seq_length = 4096 
print("‚è≥ Cargando modelo base...")
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/Qwen2.5-Coder-14B-Instruct-bnb-4bit",
    max_seq_length = max_seq_length,
    dtype = None,
    load_in_4bit = True, # Cuantizaci√≥n para reducir el peso del modelo en VRAM.
)

# --- 2. ADAPTADORES LORA (MODO LIGERO) ---
print("üß† Inyectando adaptadores LoRA (Modo Ligero)...")
model = FastLanguageModel.get_peft_model(
    model,
    r = 8, # Reducimos el rango (Rank). Menos par√°metros entrenables = menos memoria.
    # Solo entrenamos las capas de atenci√≥n (proyecciones Q, K, V, O).
    # Al quitar "gate_proj", "up_proj" y "down_proj", ahorramos mucha VRAM.
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj"], 
    lora_alpha = 8,
    lora_dropout = 0, 
    bias = "none",
    use_gradient_checkpointing = "unsloth", 
    random_state = 3407,
)

# --- 3. PREPARAR DATASET ---
# (Este bloque aplica la plantilla ChatML y limpia el JSONL como vimos anteriormente)
print("üìä Formateando el dataset...")
tokenizer = get_chat_template(tokenizer, chat_template = "chatml")
system_prompt = "Eres un Product Manager Senior experto..."
formatted_texts = []

with open("../data/epics.jsonl", "r", encoding="utf-8") as f:
    for line in f:
        if not line.strip(): continue
        record = json.loads(line)
        user_content = json.dumps(record["input"], ensure_ascii=False, indent=2)
        assistant_content = json.dumps(record["output"], ensure_ascii=False, indent=2)
        convo = [
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": user_content},
            {"role": "assistant", "content": assistant_content}
        ]
        text = tokenizer.apply_chat_template(convo, tokenize=False, add_generation_prompt=False)
        formatted_texts.append({"text": text})

dataset = Dataset.from_list(formatted_texts)

# --- 4. ENTRENAMIENTO BLINDADO CONTRA OOM ---
print("üöÄ ¬°INICIANDO FINE-TUNING EXTREMO!")
trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    train_dataset = dataset,
    dataset_text_field = "text",
    max_seq_length = max_seq_length,
    dataset_num_proc = 2, # Usa 2 procesos para cargar datos m√°s r√°pido.
    packing = False,      # No empaqueta secuencias cortas (m√°s lento pero m√°s estable).
    args = TrainingArguments(
        per_device_train_batch_size = 1, # Procesa 1 ejemplo a la vez para no saturar la GPU.
        gradient_accumulation_steps = 8, # Actualiza pesos cada 8 pasos (Batch efectivo = 8).
        warmup_steps = 5,                # Sube la intensidad del aprendizaje gradualmente.
        num_train_epochs = 3,            # El modelo ver√° el dataset completo 3 veces.
        learning_rate = 2e-4,            # Velocidad de aprendizaje (est√°ndar para LoRA).
        # Selecciona autom√°ticamente entre fp16 o bf16 seg√∫n la potencia de tu GPU.
        fp16 = not is_bfloat16_supported(),
        bf16 = is_bfloat16_supported(),
        logging_steps = 1,               # Muestra el progreso en cada paso.
        # "paged_adamw_8bit": Si la GPU se queda sin memoria, usa la RAM del sistema como "colch√≥n".
        optim = "paged_adamw_8bit", 
        weight_decay = 0.01,
        lr_scheduler_type = "linear",
        seed = 3407,
        output_dir = "outputs",          # Carpeta donde se guardar√°n los checkpoints.
    ),
)

# Inicia el proceso de entrenamiento y guarda las estad√≠sticas finales.
trainer_stats = trainer.train()
print(f"‚úÖ ¬°Entrenamiento completado en {trainer_stats.metrics['train_runtime']} segundos!")

‚è≥ Cargando modelo base...
==((====))==  Unsloth 2026.2.1: Fast Qwen2 patching. Transformers: 4.57.6.
   \\   /|    NVIDIA GeForce RTX 4090. Num GPUs = 1. Max memory: 22.152 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.10.0+cu128. CUDA: 8.9. CUDA Toolkit: 12.8. Triton: 3.6.0
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.34. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


Loading checkpoint shards: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2/2 [00:02<00:00,  1.24s/it]


üß† Inyectando adaptadores LoRA (Modo Ligero)...


Not an error, but Unsloth cannot patch MLP layers with our manual autograd engine since either LoRA adapters
are not enabled or a bias term (like in Qwen) is used.
Unsloth 2026.2.1 patched 48 layers with 48 QKV layers, 48 O layers and 0 MLP layers.


üìä Formateando el dataset...
üöÄ ¬°INICIANDO FINE-TUNING EXTREMO!


Unsloth: Tokenizing ["text"] (num_proc=64): 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 104/104 [00:13<00:00,  7.70 examples/s]
==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 104 | Num Epochs = 3 | Total steps = 39
O^O/ \_/ \    Batch size per device = 1 | Gradient accumulation steps = 8
\        /    Data Parallel GPUs = 1 | Total batch size (1 x 8 x 1) = 8
 "-____-"     Trainable parameters = 12,582,912 of 14,782,616,576 (0.09% trained)


Step,Training Loss
1,1.8634
2,1.6934
3,1.8831
4,1.7225
5,1.8038
6,1.8155
7,1.8139
8,1.768
9,1.7071
10,1.6325


‚úÖ ¬°Entrenamiento completado en 165.8221 segundos!


In [8]:
# 'apt-get update -y': Actualiza la lista de paquetes disponibles en los repositorios.
# El flag '-y' responde autom√°ticamente "s√≠" a las confirmaciones para que no se detenga.
!apt-get update -y && \

# 'apt-get install -y': Comando para instalar nuevos paquetes.
# Se instalan 3 componentes fundamentales para compilar software:
# 1. cmake: Herramienta avanzada para gestionar el proceso de compilaci√≥n (indispensable para muchas librer√≠as de IA).
# 2. build-essential: Un paquete que incluye el compilador GCC, G++ y herramientas b√°sicas para crear software desde el c√≥digo fuente.
# 3. libcurl4-openssl-dev: Librer√≠a necesaria para que las aplicaciones puedan realizar transferencias de red (como descargar modelos o comunicarse con APIs) de forma segura.
apt-get install -y cmake build-essential libcurl4-openssl-dev

Hit:1 http://archive.ubuntu.com/ubuntu jammy InRelease
Hit:2 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease
Get:3 http://archive.ubuntu.com/ubuntu jammy-updates InRelease [128 kB]        
Hit:4 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy InRelease   
Get:5 http://security.ubuntu.com/ubuntu jammy-security InRelease [129 kB]      
Get:6 http://archive.ubuntu.com/ubuntu jammy-backports InRelease [127 kB]
Fetched 384 kB in 1s (433 kB/s)                                   
Reading package lists... Done
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
build-essential is already the newest version (12.9ubuntu3).
build-essential set to manually installed.
cmake is already the newest version (3.22.1-1ubuntu1.22.04.2).
libcurl4-openssl-dev is already the newest version (7.81.0-1ubuntu1.21).
0 upgraded, 0 newly installed, 0 to remove and 134 not upgraded.


In [14]:
# '!': Ejecuta el comando en la consola del sistema.
# 'poetry add': Instala las librer√≠as y las registra en tu archivo de proyecto.

!poetry add \
    # 'gguf': Necesario para escribir y leer el formato de archivo final (.gguf).
    gguf \
    
    # 'protobuf': El sistema de serializaci√≥n de datos que usa Google y Hugging Face.
    protobuf \
    
    # 'sentencepiece': ¬°La pieza clave! Es la librer√≠a que maneja la tokenizaci√≥n 
    # de modelos como Qwen, Llama y Mistral. Sin esto, el modelo no puede 
    # descomponer las palabras en unidades que entienda (tokens).
    sentencepiece

The following packages are already present in the pyproject.toml and will be skipped:

  - [36mgguf[39m
  - [36mprotobuf[39m

If you want to update it to the latest compatible version, you can use `poetry update package`.
If you prefer to upgrade it to the latest available version, you can use `poetry add package@latest`.

Using version [39;1m^0.2.1[39;22m for [36msentencepiece[39m

[34mUpdating dependencies[39m
[2K[34mResolving dependencies...[39m [39;2m(0.6s)[39;22m

No dependencies to install or update

[34mWriting lock file[39m


In [11]:
# '!': Indica que el comando se ejecuta en la consola del sistema (Shell).
# 'rm': Es el comando para "remover" (borrar) archivos o directorios.

!rm -rf \
    # '-r' (recursive): Permite borrar carpetas y todo su contenido interno (subcarpetas y archivos).
    # '-f' (force): Fuerza el borrado ignorando archivos inexistentes y sin pedir confirmaci√≥n al usuario.
    -rf \
    
    # 'llama.cpp': El nombre de la carpeta espec√≠fica que se desea eliminar.
    llama.cpp

In [16]:
# --- Verificaci√≥n y Setup de llama.cpp ---

# Definimos la ruta local donde queremos que viva el repositorio llama.cpp.
LLAMA_CPP_DIR = "./llama.cpp"

# Comprobamos si la carpeta ya existe para no descargarla dos veces.
if not os.path.exists(LLAMA_CPP_DIR):
    print("üì• Descargando llama.cpp...")
    # 'git clone': Descarga el c√≥digo fuente oficial de llama.cpp.
    subprocess.run([
        "git", "clone", 
        "https://github.com/ggerganov/llama.cpp.git",
        LLAMA_CPP_DIR
    ], check=True)
    print("‚úÖ llama.cpp descargado")
    
    # Instalamos las librer√≠as de Python necesarias para que los scripts de conversi√≥n funcionen.
    print("üì¶ Instalando dependencias...")
    subprocess.run([
        "pip", "install", "-r", 
        f"{LLAMA_CPP_DIR}/requirements.txt"
    ], check=True)
else:
    # Si la carpeta ya est√° ah√≠, simplemente lo confirmamos.
    print("‚úÖ llama.cpp ya existe")

# --- Proceso de Exportaci√≥n ---

print("üì¶ Iniciando fusi√≥n y exportaci√≥n a GGUF...")
print("‚è≥ Esto puede tomar 10-20 minutos...")

try:
    # Intento A: Usar la funci√≥n integrada de Unsloth.
    model.save_pretrained_gguf(
        "MiPM_Senior",
        tokenizer,
        quantization_method="q4_k_m", # Cuantizaci√≥n de 4 bits (calidad media-alta).
        # Indicamos expl√≠citamente d√≥nde est√° la herramienta de conversi√≥n.
        converter_location=LLAMA_CPP_DIR,
    )
    print("‚úÖ ¬°PROCESO COMPLETADO!")
    print("üìÅ Archivo generado: MiPM_Senior_q4_k_m.gguf")
    
except Exception as e:
    # Intento B (Fallback): Si lo anterior falla (por errores de memoria o librer√≠as),
    # hacemos el proceso en dos pasos manuales.
    print(f"‚ö†Ô∏è Error con m√©todo autom√°tico: {e}")
    print("üîÑ Intentando m√©todo manual...")
    
    # 1. Primero, fusionamos el modelo LoRA con el base y lo guardamos como un modelo normal de Hugging Face.
    # 'merged_16bit' asegura que no haya p√©rdida de calidad en esta fase.
    model.save_pretrained_merged(
        "MiPM_Senior_HF",
        tokenizer,
        save_method="merged_16bit",
    )
    
    print("‚úÖ Modelo guardado en formato HF")
    # 2. Instrucciones para que el usuario ejecute la conversi√≥n final desde la consola.
    print("üìù Para convertir a GGUF manualmente, ejecuta en terminal:")
    print(f"""
    cd {LLAMA_CPP_DIR}
    python convert_hf_to_gguf.py ../MiPM_Senior_HF --outfile ../MiPM_Senior.gguf --outtype q4_k_m
    """)

‚úÖ llama.cpp ya existe
üì¶ Iniciando fusi√≥n y exportaci√≥n a GGUF...
‚è≥ Esto puede tomar 10-20 minutos...
‚ö†Ô∏è Error con m√©todo autom√°tico: unsloth_save_pretrained_gguf() got an unexpected keyword argument 'converter_location'
üîÑ Intentando m√©todo manual...
Found HuggingFace hub cache directory: /root/.cache/huggingface/hub


Fetching 1 files: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:00<00:00,  2.01it/s]


Checking cache directory for required files...
Cache check failed: model-00001-of-00006.safetensors not found in local cache.
Not all required files found in cache. Will proceed with downloading.
Checking cache directory for required files...
Cache check failed: tokenizer.model not found in local cache.
Not all required files found in cache. Will proceed with downloading.


Unsloth: Preparing safetensor model files: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 6/6 [02:28<00:00, 24.71s/it]


Note: tokenizer.model not found (this is OK for non-SentencePiece models)


Unsloth: Merging weights into 16bit: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 6/6 [01:10<00:00, 11.70s/it]


Unsloth: Merge process complete. Saved to `/workspace/code/MiPM_Senior_HF`
‚úÖ Modelo guardado en formato HF
üìù Para convertir a GGUF manualmente, ejecuta en terminal:

    cd ./llama.cpp
    python convert_hf_to_gguf.py ../MiPM_Senior_HF --outfile ../MiPM_Senior.gguf --outtype q4_k_m
    


In [21]:
# Instalar herramientas de compilaci√≥n esenciales
!apt-get update && apt-get install -y build-essential gcc g++ make

# Verificar espacio en disco en /workspace
print("\n--- ESPACIO EN DISCO ---")
!df -h /workspace

Hit:1 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease
Hit:2 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy InRelease   
Hit:3 http://archive.ubuntu.com/ubuntu jammy InRelease                         
Hit:4 http://archive.ubuntu.com/ubuntu jammy-updates InRelease
Hit:5 http://security.ubuntu.com/ubuntu jammy-security InRelease
Hit:6 http://archive.ubuntu.com/ubuntu jammy-backports InRelease
Reading package lists... Done
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
build-essential is already the newest version (12.9ubuntu3).
g++ is already the newest version (4:11.2.0-1ubuntu1).
g++ set to manually installed.
gcc is already the newest version (4:11.2.0-1ubuntu1).
gcc set to manually installed.
make is already the newest version (4.3-4.1build1).
make set to manually installed.
0 upgraded, 0 newly installed, 0 to remove and 134 not upgraded.

--- ESPACIO EN DISCO ---
Filesystem          

In [24]:
!mkdir -p /workspace/tmp

In [None]:
import os
import subprocess

def convert_and_quantize_safe(model_path, output_final_gguf):
    # CONFIGURACI√ìN DE ESPACIO TEMPORAL
    os.environ["TMPDIR"] = "/workspace/tmp"
    os.environ["TEMP"] = "/workspace/tmp"
    os.environ["TMP"] = "/workspace/tmp"
    
    print(f"üöÄ Iniciando proceso seguro en: {model_path}")
    
    if not os.path.exists("llama.cpp"):
        subprocess.run(["git", "clone", "https://github.com/ggerganov/llama.cpp"], check=True)

    temp_f16_gguf = "/workspace/model_temp_f16.gguf"
    build_dir = "llama.cpp/build"
    
    try:
        # PASO 1: Conversi√≥n HF -> GGUF F16
        print("‚öôÔ∏è PASO 1: Convirtiendo HF a GGUF F16...")
        subprocess.run([
            "poetry", "run", "python", "llama.cpp/convert_hf_to_gguf.py",
            model_path, "--outfile", temp_f16_gguf, "--outtype", "f16"
        ], check=True)
        
        # PASO 2: Compilar SIN CUDA para evitar el error de disco en /tmp
        # El cuantizador no necesita GPU para ser r√°pido
        print("üõ†Ô∏è PASO 2: Compilando cuantizador (Modo CPU para ahorrar espacio)...")
        os.makedirs(build_dir, exist_ok=True)
        # GGML_CUDA=OFF evita que nvcc llene el disco /tmp
        subprocess.run(["cmake", "-B", build_dir, "-S", "llama.cpp", "-DGGML_CUDA=OFF"], check=True)
        subprocess.run(["cmake", "--build", build_dir, "--config", "Release", "--target", "llama-quantize", "-j"], check=True)
        
        # PASO 3: Cuantizaci√≥n
        print(f"üíé PASO 3: Cuantizando a q4_k_m...")
        quant_binary = os.path.join(build_dir, "bin", "llama-quantize")
        subprocess.run([quant_binary, temp_f16_gguf, output_final_gguf, "q4_k_m"], check=True)
        
        # Limpieza
        if os.path.exists(temp_f16_gguf): os.remove(temp_f16_gguf)
        print(f"üéä ¬°√âXITO TOTAL! Descarga: {output_final_gguf}")

    except Exception as e:
        print(f"‚ùå Error: {e}")

# --- EJECUCI√ìN ---
input_hf_path = "/workspace/code/MiPM_Senior_HF"
output_gguf_path = "/workspace/MiPM_Senior_Final.gguf"

convert_and_quantize_safe(input_hf_path, output_gguf_path)

üöÄ Iniciando proceso seguro en: /workspace/code/MiPM_Senior_HF
‚öôÔ∏è PASO 1: Convirtiendo HF a GGUF F16...


INFO:hf-to-gguf:Loading model: MiPM_Senior_HF
INFO:hf-to-gguf:Model architecture: Qwen2ForCausalLM
INFO:hf-to-gguf:gguf: loading model weight map from 'model.safetensors.index.json'
INFO:hf-to-gguf:gguf: indexing model part 'model-00001-of-00006.safetensors'
INFO:hf-to-gguf:gguf: indexing model part 'model-00002-of-00006.safetensors'
INFO:hf-to-gguf:gguf: indexing model part 'model-00003-of-00006.safetensors'
INFO:hf-to-gguf:gguf: indexing model part 'model-00004-of-00006.safetensors'
INFO:hf-to-gguf:gguf: indexing model part 'model-00005-of-00006.safetensors'
INFO:hf-to-gguf:gguf: indexing model part 'model-00006-of-00006.safetensors'
INFO:gguf.gguf_writer:gguf: This GGUF file is for Little Endian only
INFO:hf-to-gguf:Exporting model...
INFO:hf-to-gguf:token_embd.weight,         torch.bfloat16 --> F16, shape = {5120, 152064}
INFO:hf-to-gguf:blk.0.attn_norm.weight,    torch.bfloat16 --> F32, shape = {5120}
INFO:hf-to-gguf:blk.0.ffn_down.weight,     torch.bfloat16 --> F16, shape = {1382