### 3.3 El Notebook de Entrenamiento - Celdas

Copia estas celdas exactamente en tu notebook de Colab. Cada celda est√° comentada explicando qu√© hace.

#### CELDA 1: Verificar que tienes GPU

In [None]:
# ============================================
# CELDA 1: Verificar GPU
# Ejecuta esto PRIMERO para confirmar que tienes GPU
# ============================================

import torch

# Verificar si hay GPU disponible
if torch.cuda.is_available():
    gpu_name = torch.cuda.get_device_name(0)
    gpu_memory = torch.cuda.get_device_properties(0).total_memory / 1e9
    print(f"‚úÖ GPU detectada: {gpu_name}")
    print(f"‚úÖ Memoria: {gpu_memory:.1f} GB")
else:
    print("‚ùå NO HAY GPU - Ve a Entorno de ejecuci√≥n ‚Üí Cambiar tipo")


#### CELDA 2: Instalar dependencias

In [None]:
# ============================================
# CELDA 2: Instalar dependencias
# Unsloth hace el entrenamiento 2x m√°s r√°pido
# Esta celda tarda ~3-5 minutos
# ============================================

# Instalar Unsloth (optimizado para Colab)
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"

# Instalar dependencias adicionales
!pip install --no-deps "xformers<0.0.27" "trl<0.9.0" peft accelerate bitsandbytes

# Instalar utilidades
!pip install datasets transformers huggingface_hub

print("\n‚úÖ Instalaci√≥n completada!")


#### CELDA 3: Cargar el modelo

In [None]:
# ============================================
# CELDA 3: Cargar el modelo Qwen2.5-Coder
# Usamos Qwen porque NO requiere aprobaci√≥n (a diferencia de LLaMA)
# ============================================

from unsloth import FastLanguageModel
import torch

# Configuraci√≥n del modelo
max_seq_length = 2048  # Longitud m√°xima de secuencia
load_in_4bit = True    # Cuantizaci√≥n 4-bit (reduce memoria)

# Cargar modelo pre-cuantizado (m√°s r√°pido)
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/Qwen2.5-Coder-7B-bnb-4bit",  # Modelo optimizado
    max_seq_length=max_seq_length,
    load_in_4bit=load_in_4bit,
)

print("\n‚úÖ Modelo cargado correctamente!")
print(f"Memoria GPU usada: {torch.cuda.memory_allocated()/1e9:.1f} GB")


#### CELDA 4: Configurar LoRA para fine-tuning

In [None]:
# ============================================
# CELDA 4: Configurar LoRA
# LoRA permite entrenar solo una peque√±a parte del modelo
# Esto ahorra memoria y tiempo
# ============================================

model = FastLanguageModel.get_peft_model(
    model,
    r=16,  # Rank: 16 es buen balance calidad/velocidad
    target_modules=[
        "q_proj",   # Capa de Query
        "k_proj",   # Capa de Key
        "v_proj",   # Capa de Value
        "o_proj",   # Capa de Output
        "gate_proj",
        "up_proj",
        "down_proj",
    ],
    lora_alpha=16,      # Escala de LoRA
    lora_dropout=0,     # Sin dropout (m√°s estable)
    bias="none",
    use_gradient_checkpointing="unsloth",  # Ahorra memoria
)

# Contar par√°metros entrenables
trainable = sum(p.numel() for p in model.parameters() if p.requires_grad)
total = sum(p.numel() for p in model.parameters())
print(f"\n‚úÖ LoRA configurado!")
print(f"Par√°metros entrenables: {trainable:,} ({100*trainable/total:.2f}%)")


#### CELDA 5: Preparar datos de CredData

In [None]:
# ============================================
# CELDA 5: Preparar datos de entrenamiento
# Carga CredData desde Google Drive y crea train_dataset
# ============================================

from google.colab import drive
import pandas as pd
import os
from datasets import Dataset

# ---------------------------------------------
# 1. Montar Google Drive
# ---------------------------------------------
drive.mount('/content/drive')

# Ruta donde tienes CredData (ajusta si es diferente)
data_path = "/content/drive/MyDrive/TFM/CredData/"

# ---------------------------------------------
# 2. Funci√≥n para formatear ejemplos
# ---------------------------------------------
def format_prompt(code_snippet: str, is_secret: bool) -> str:
    """
    Formatea cada ejemplo en el prompt que el modelo aprender√°.

    Args:
        code_snippet: Fragmento de c√≥digo a analizar
        is_secret: True si contiene secreto, False si es seguro

    Returns:
        Prompt formateado para entrenamiento
    """
    label = "SECRET" if is_secret else "SAFE"
    return f"""Analyze this code for leaked secrets:
```
{code_snippet}
```

Classification: {label}"""

# ---------------------------------------------
# 3. Cargar y procesar CredData
# ---------------------------------------------
print("üìÇ Cargando datos de CredData...")

# CredData tiene estructura: data/meta/ con archivos CSV
# Buscar archivos CSV disponibles
csv_files = []
for root, dirs, files in os.walk(data_path):
    for file in files:
        if file.endswith('.csv'):
            csv_files.append(os.path.join(root, file))

print(f"   Encontrados {len(csv_files)} archivos CSV")

# Cargar todos los CSVs y combinarlos
all_data = []
for csv_file in csv_files:  # ¬°Usar TODOS los archivos!
    try:
        df = pd.read_csv(csv_file, on_error='warn')
        # CredData t√≠picamente tiene columnas: 'LineStart', 'LineEnd', 'Category', etc.
        # Ajusta seg√∫n la estructura real de tus CSVs
        if 'Category' in df.columns or 'Value' in df.columns:
            all_data.append(df)
            print(f"   ‚úì Cargado: {os.path.basename(csv_file)} ({len(df)} filas)")
    except Exception as e:
        print(f"   ‚úó Error en {csv_file}: {e}")

# Si CredData no tiene la estructura esperada, usar datos de ejemplo
if not all_data:
    print("\n‚ö†Ô∏è No se encontraron CSVs con estructura esperada.")
    print("   Usando dataset de ejemplo para prueba inicial...")

    # Dataset de ejemplo para verificar que el pipeline funciona
    example_data = [
        {"code": "API_KEY = 'sk-1234567890abcdef'", "is_secret": True},
        {"code": "AWS_SECRET = 'wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY'", "is_secret": True},
        {"code": "password = 'admin123'", "is_secret": True},
        {"code": "GITHUB_TOKEN = 'ghp_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'", "is_secret": True},
        {"code": "def calculate_sum(a, b):\n    return a + b", "is_secret": False},
        {"code": "MAX_RETRIES = 3", "is_secret": False},
        {"code": "user_name = input('Enter name: ')", "is_secret": False},
        {"code": "DEBUG = True", "is_secret": False},
    ] * 50  # Repetir para tener m√°s ejemplos

    texts = [format_prompt(d["code"], d["is_secret"]) for d in example_data]
else:
    # Procesar los datos reales de CredData
    combined_df = pd.concat(all_data, ignore_index=True)
    print(f"\nüìä Total de filas combinadas: {len(combined_df)}")
    print(f"   Columnas: {list(combined_df.columns)}")

    # Adaptar seg√∫n las columnas reales de CredData
    # T√≠picamente necesitas: el c√≥digo/l√≠nea y si es secreto o no
    texts = []
    for _, row in combined_df.iterrows():
        # Ajusta estos nombres de columna seg√∫n tu CredData
        code = str(row.get('Value', row.get('Line', row.get('Content', ''))))
        is_secret = row.get('Category', '') != '' or row.get('IsSecret', True)
        if code.strip():
            texts.append(format_prompt(code, is_secret))

# ---------------------------------------------
# 4. Crear el Dataset para Hugging Face
# ---------------------------------------------
train_dataset = Dataset.from_dict({"text": texts})

print(f"\n‚úÖ train_dataset creado correctamente!")
print(f"   N√∫mero de ejemplos: {len(train_dataset)}")
print(f"   Columnas: {train_dataset.column_names}")
print(f"\nüìù Ejemplo de prompt:")
print("-" * 50)
print(train_dataset[0]["text"])
print("-" * 50)

#### CELDA 6: Entrenar el modelo

In [None]:
# ============================================
# CELDA 6: Entrenamiento
# Requiere: model, tokenizer, train_dataset, max_seq_length
# Duraci√≥n estimada: ~1-2 horas en T4
# ============================================

from trl import SFTTrainer
from transformers import TrainingArguments

# Verificar que train_dataset existe
if 'train_dataset' not in dir():
    raise NameError("‚ùå train_dataset no definido. Ejecuta la Celda 5 primero.")

print(f"üìä Entrenando con {len(train_dataset)} ejemplos...")

# Configuraci√≥n del entrenamiento
trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=train_dataset,
    dataset_text_field="text",        # Columna con los prompts
    max_seq_length=max_seq_length,
    args=TrainingArguments(
        per_device_train_batch_size=2,   # Batch peque√±o para T4 (15GB VRAM)
        gradient_accumulation_steps=8,   # Batch efectivo = 2 * 8 = 16
        warmup_steps=10,
        max_steps=500,                   # Ajustar seg√∫n tama√±o de datos
        learning_rate=2e-4,
        fp16=True,                       # Precisi√≥n mixta para ahorrar memoria
        logging_steps=10,
        output_dir="outputs",
        save_steps=100,
        optim="adamw_8bit",              # Optimizador eficiente en memoria
    ),
)

# Entrenar
print("üöÄ Iniciando entrenamiento...")
trainer.train()
print("\n‚úÖ Entrenamiento completado!")

#### CELDA 7: Guardar el modelo entrenado

In [None]:
# ============================================
# CELDA 7: Guardar modelo en Google Drive
# MUY IMPORTANTE: Si no guardas, perder√°s todo al cerrar Colab
# ============================================

# Directorio en tu Google Drive
save_path = "/content/drive/MyDrive/TFM/models/secret-detector-v1"

# Guardar los adaptadores LoRA (son peque√±os, ~100MB)
model.save_pretrained(save_path)
tokenizer.save_pretrained(save_path)

print(f"\n‚úÖ Modelo guardado en: {save_path}")
print("Archivos guardados:")
!ls -lh {save_path}
