<a href="https://colab.research.google.com/github/CamiloVga/Curso-IA-Aplicada/blob/main/Script_Clase_28_Fine_Tuning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üé® Inteligencia Artificial Aplicada
## Universidad de los Andes

### üë®‚Äçüè´ Profesores
- **Profesor Magistral:** [Camilo Vega Barbosa](https://www.linkedin.com/in/camilovegabarbosa/)
- **Asistente de Docencia:** [Sergio Julian Zona Moreno](https://www.linkedin.com/in/sergiozonamoreno/)

### üìö Fine-Tuning con PEFT-LoRA para Modelos de Lenguaje
Este script implementa un proceso de fine-tuning eficiente para modelos de lenguaje:

1. **Configuraci√≥n del Modelo y Datos üöÄ**
   - Uso de Microsoft Phi-2, un modelo de 2.7B de par√°metros con alta capacidad
   - Carga de datos especializados para aprender el "idioma 4" (reemplazar "a" por "4")
   - Preparaci√≥n eficiente de tokens y formato de instrucci√≥n
   - Integraci√≥n con GitHub para obtener el dataset directamente desde repositorio

2. **Implementaci√≥n de PEFT-LoRA üß†**
   - Parameter-Efficient Fine-Tuning (PEFT) con Low-Rank Adaptation (LoRA)
   - Modificaci√≥n selectiva de solo ~1% de los par√°metros del modelo
   - Enfoque en capas estrat√©gicas: q_proj, k_proj, v_proj, o_proj, fc1, fc2
   - Cuantizaci√≥n de 8-bits para reducci√≥n dr√°stica de memoria requerida
   - Preservaci√≥n de los pesos originales del modelo para mantener capacidades base

3. **Proceso de Entrenamiento Optimizado üìà**
   - Configuraci√≥n adaptable: modo r√°pido para pruebas y modo profundo para producci√≥n
   - Visualizaci√≥n en tiempo real de la curva de p√©rdida para monitoreo del aprendizaje
   - Sistema de callbacks personalizados para seguimiento del progreso
   - Guardado eficiente del modelo adaptado con solo los par√°metros LoRA (~MB vs ~GB)

4. **Inferencia y Aplicaci√≥n Interactiva üîç**
   - Interfaz Gradio para pruebas del modelo con cualquier texto de entrada
   - Generaci√≥n controlada con par√°metros ajustables (temperatura, top_p)
   - Ejemplos predefinidos para demostraci√≥n inmediata
   - Despliegue web temporal para compartir el modelo con otros usuarios



In [None]:
# Instalamos las bibliotecas necesarias
!pip install -q transformers datasets peft bitsandbytes accelerate gradio

import os
import torch
from datasets import load_dataset
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    TrainingArguments,
    Trainer,
    DataCollatorForLanguageModeling
)
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training

# 1. CARGA DE DATOS
# Descargamos los datos directamente desde el repositorio de GitHub
# Definimos la ruta al archivo CSV en tu repositorio
github_repo = "CamiloVga/Curso-IA-Aplicada"
branch = "main"
file_path = "Semana 14_Fine-Tuning y RAG/Base Fine-Tuning Idioma 4.csv"

# Cargamos el dataset desde GitHub
print("Cargando dataset desde GitHub...")
dataset = load_dataset("csv",
                      data_files=f"https://raw.githubusercontent.com/{github_repo}/{branch}/{file_path}")

# Exploramos el dataset
print("Estructura del dataset:")
print(dataset)
print("\nEjemplo de entrada:")
print(dataset["train"][0])
print(f"N√∫mero de ejemplos: {len(dataset['train'])}")

# 2. PREPROCESAMIENTO DE DATOS
# Phi-2 es un modelo m√°s peque√±o (2.7B) pero de alto rendimiento y acceso abierto
model_name = "microsoft/phi-2"

print(f"Cargando tokenizador para {model_name}...")
# Cargamos el tokenizador
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Aseguramos que el tokenizador tenga tokens especiales necesarios
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"

# Definimos una funci√≥n para preprocesar los datos
def preprocess_function(examples):
    # Formateamos los textos como instrucciones siguiendo un formato tipo chat
    prompts = []
    for i in range(len(examples["input"])):
        # Formato de instrucci√≥n para Phi-2
        prompt = f"<s>Traduce este texto al idioma 4: {examples['input'][i]}\n\n{examples['output'][i]}</s>"
        prompts.append(prompt)

    # Tokenizamos los textos
    tokenized_inputs = tokenizer(
        prompts,
        truncation=True,
        max_length=512,
        padding="max_length",
        return_tensors="pt"
    )

    # Configuramos las labels igual que los input_ids para entrenamiento de LM causal
    tokenized_inputs["labels"] = tokenized_inputs["input_ids"].clone()

    return tokenized_inputs

# Aplicamos la funci√≥n de preprocesamiento al dataset
print("Procesando y tokenizando el dataset...")
tokenized_dataset = dataset["train"].map(
    preprocess_function,
    batched=True,
    remove_columns=dataset["train"].column_names
)

print(f"Dataset tokenizado: {tokenized_dataset}")

# 3. CONFIGURACI√ìN DEL MODELO
# Configuramos BitsAndBytes para cuantizaci√≥n de 8 bits (ahorra memoria)
print("Configurando cuantizaci√≥n para el modelo...")
bnb_config = BitsAndBytesConfig(
    load_in_8bit=True,  # Phi-2 funciona bien con cuantizaci√≥n de 8 bits
    bnb_8bit_use_double_quant=True,
    bnb_8bit_quant_type="nf4",
    bnb_8bit_compute_dtype=torch.float16
)

# Cargamos el modelo base con cuantizaci√≥n
print(f"Cargando modelo {model_name} con cuantizaci√≥n...")
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config,
    device_map="auto"
)

# Preparamos el modelo para entrenamiento con LoRA
model = prepare_model_for_kbit_training(model)

# 4. CONFIGURACI√ìN DE LORA
# Para Phi-2, ajustamos los target_modules a su arquitectura espec√≠fica
print("Configurando adaptadores LoRA...")
peft_config = LoraConfig(
    r=16,  # Dimensi√≥n del adaptador LoRA - Determina el tama√±o de las matrices de bajo rango
           # Valores m√°s altos aumentan la capacidad pero tambi√©n el n√∫mero de par√°metros
           # T√≠picamente entre 8-64 dependiendo de la complejidad de la tarea

    lora_alpha=32,  # Par√°metro de escala - Factor que controla la magnitud de la actualizaci√≥n LoRA
                    # Generalmente se establece como 2*r para un buen equilibrio
                    # Valores m√°s altos = mayor impacto de las actualizaciones LoRA

    lora_dropout=0.05,  # Regularizaci√≥n - Aplica dropout a las capas LoRA para prevenir sobreajuste
                        # Valores t√≠picos entre 0.01-0.1

    bias="none",  # Configuraci√≥n para bias - "none" significa que no se entrenan los sesgos
                  # Otras opciones: "all" (todos los sesgos) o "lora_only" (solo sesgos en capas LoRA)

    task_type="CAUSAL_LM",  # Tipo de tarea - Modelado de lenguaje causal (generaci√≥n de texto)
                           # Otras opciones: "SEQ_CLS" (clasificaci√≥n), "SEQ_2_SEQ_LM" (seq2seq), etc.

    # Ajustamos los m√≥dulos objetivo seg√∫n la arquitectura de Phi-2
    # Estas son las √∫nicas capas del modelo que se modificar√°n durante el entrenamiento
    target_modules=[
        "q_proj",  # Proyecci√≥n de queries en los bloques de atenci√≥n
                  # Transforma los vectores de entrada en queries para la auto-atenci√≥n

        "k_proj",  # Proyecci√≥n de keys en los bloques de atenci√≥n
                  # Transforma los vectores de entrada en keys para la auto-atenci√≥n

        "v_proj",  # Proyecci√≥n de values en los bloques de atenci√≥n
                  # Transforma los vectores de entrada en values para la auto-atenci√≥n

        "o_proj",  # Proyecci√≥n de output en los bloques de atenci√≥n
                  # Combina los resultados de la atenci√≥n para la salida

        "fc1",    # Primera capa feed-forward en los bloques del transformador
                 # Expande la dimensionalidad (MLP)

        "fc2"     # Segunda capa feed-forward en los bloques del transformador
                 # Reduce la dimensionalidad de vuelta (MLP)
    ]
)

# Convertimos el modelo a un modelo PEFT usando LoRA
# Esto a√±ade adaptadores de bajo rango a las capas especificadas
# sin modificar los pesos originales del modelo
model = get_peft_model(model, peft_config)

# Imprimir par√°metros entrenables vs totales
# Esto mostrar√° la eficiencia de LoRA - t√≠picamente solo entrena <1% de par√°metros
print("Resumen de par√°metros del modelo:")
model.print_trainable_parameters()




In [None]:
import pandas as pd
info=pd.DataFrame(dataset)
info

In [None]:
# 5. ENTRENAMIENTO
# Configuramos los argumentos de entrenamiento para un entrenamiento r√°pido inicial
print("Configurando par√°metros de entrenamiento...")
training_args = TrainingArguments(
    output_dir="./results_idioma4_phi2",
    # Configuraci√≥n para entrenamiento r√°pido
    per_device_train_batch_size=8,         # Tama√±o de batch m√°s grande para velocidad
                                          # Para entrenamiento profundo: reducir a 2-4

    gradient_accumulation_steps=2,        # Menos pasos de acumulaci√≥n para velocidad
                                          # Para entrenamiento profundo: aumentar a 8-16

    warmup_steps=5,                       # Menos pasos de calentamiento
                                          # Para entrenamiento profundo: aumentar a 50-100

    max_steps=50,                         # Menos pasos totales para prueba r√°pida
                                          # Para entrenamiento profundo: aumentar a 500-1000

    learning_rate=3e-4,                   # Learning rate m√°s alto para convergencia r√°pida
                                          # Para entrenamiento profundo: reducir a 1e-4 o 5e-5

    fp16=True,                            # Usar precisi√≥n mixta para acelerar el entrenamiento

    logging_steps=5,                      # Registro frecuente para ver progreso

    save_steps=5,                         # Guardar checkpoints
                                          # Para entrenamiento profundo: cada 100-200 pasos

    save_total_limit=2,                   # Mantener menos checkpoints para ahorrar espacio

    report_to="none",                     # No enviar m√©tricas a servicios externos

    # Par√°metros adicionales para entrenamiento m√°s estable
    # Descomentar para entrenamiento profundo:
    # weight_decay=0.01,                  # Regularizaci√≥n L2 para evitar sobreajuste
    # lr_scheduler_type="cosine",         # Programaci√≥n de tasa de aprendizaje tipo coseno
    # max_grad_norm=1.0,                  # Recorte de gradiente para estabilidad
)

# Creamos un callback personalizado para registrar las p√©rdidas durante el entrenamiento
from transformers import TrainerCallback
import matplotlib.pyplot as plt

class LossCallback(TrainerCallback):
    def __init__(self):
        self.losses = []
        self.steps = []

    def on_log(self, args, state, control, logs=None, **kwargs):
        if logs is not None and "loss" in logs:
            self.losses.append(logs["loss"])
            self.steps.append(state.global_step)

    def plot_loss(self):
        plt.figure(figsize=(10, 6))
        plt.plot(self.steps, self.losses, marker='o', linestyle='-', color='blue')
        plt.title('P√©rdida durante el entrenamiento', fontsize=16)
        plt.xlabel('Pasos de entrenamiento', fontsize=14)
        plt.ylabel('P√©rdida', fontsize=14)
        plt.grid(True)
        plt.tight_layout()
        plt.savefig('loss_plot.png')  # Guardar la gr√°fica como imagen
        plt.show()

# Instanciamos el callback
loss_callback = LossCallback()

# Collator de datos para el entrenamiento
data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False  # No es masked language modeling, sino causal
)

# Inicializamos el Trainer con nuestro callback
print("Inicializando Trainer...")
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset,
    data_collator=data_collator,
    callbacks=[loss_callback]  # A√±adimos nuestro callback para registrar las p√©rdidas
)

# Entrenamos el modelo
print("Comenzando entrenamiento...")
trainer.train()
print("Entrenamiento completado.")

# Graficamos la p√©rdida
print("Generando gr√°fica de p√©rdida...")
loss_callback.plot_loss()

# 6. GUARDADO DEL MODELO
# Guardamos el modelo adaptado con LoRA
print("Guardando modelo y tokenizador...")
model.save_pretrained("./idioma4_phi2_lora")
tokenizer.save_pretrained("./idioma4_phi2_lora")
print("Modelo guardado en './idioma4_phi2_lora'")



In [None]:
# 7. INFERENCIA CON GRADIO

import gradio as gr

def generate_idioma4(input_text, max_length=200):
    """Traduce texto al idioma 4 usando el modelo fine-tuneado."""
    # Manejamos el caso de texto vac√≠o
    if not input_text.strip():
        return "Por favor ingresa alg√∫n texto para traducir."

    # Preparamos el prompt seg√∫n el formato usado en entrenamiento
    prompt = f"<s>Traduce este texto al idioma 4: {input_text}\n\n"

    # Tokenizamos
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

    # Generamos la respuesta
    with torch.no_grad():
        outputs = model.generate(
            input_ids=inputs.input_ids,
            attention_mask=inputs.attention_mask,
            max_length=max_length,
            temperature=0.7,        # Controla la aleatoriedad (m√°s bajo = m√°s determinista)
            top_p=0.9,              # Muestreo nucleus - considera tokens con probabilidad acumulada de 0.9
            do_sample=True,         # Muestreo probabil√≠stico en lugar de greedy decoding
            pad_token_id=tokenizer.eos_token_id,
        )

    # Decodificamos la respuesta
    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

    # Extraemos solo la parte de respuesta (despu√©s del doble salto de l√≠nea)
    if "\n\n" in generated_text:
        response = generated_text.split("\n\n")[1].strip()
    else:
        response = generated_text.replace(prompt, "").strip()

    return response

# Creamos la interfaz con Gradio
def create_gradio_interface():
    """Crea y lanza una interfaz Gradio para la traducci√≥n al idioma 4."""

    # Definimos la interfaz
    demo = gr.Interface(
        fn=generate_idioma4,              # Funci√≥n que procesa la entrada
        inputs=[
            gr.Textbox(
                placeholder="Escribe texto para traducir al idioma 4...",
                label="Texto Original",
                lines=5
            )
        ],
        outputs=[
            gr.Textbox(label="Traducci√≥n al Idioma 4", lines=5)
        ],
        title="Traductor al Idioma 4",
        description="""
        <h3>¬°Bienvenido al Traductor de Idioma 4!</h3>
        <p>Este es un modelo de lenguaje fine-tuneado con PEFT-LoRA para traducir texto al "idioma 4",
        donde cada letra 'a' se reemplaza por el n√∫mero '4'.</p>
        <p><b>Ejemplo:</b> "La casa amarilla" ‚Üí "L4 c4s4 4m4rill4"</p>
        """,
        examples=[
            ["Hola a todos, me llamo Camilo"],
            ["La casa amarilla est√° en la playa"],
            ["Vamos a aprender inteligencia artificial"],
            ["El agua clara cae desde la alta cascada"]
        ],
        theme=gr.themes.Soft()  # Tema visual m√°s atractivo
    )

    # Lanzamos la interfaz
    demo.launch(share=True)  # share=True crea un enlace compartible
    return demo

# Lanzamos la interfaz Gradio
print("Iniciando interfaz Gradio para el traductor de Idioma 4...")
interface = create_gradio_interface()