# üßë‚Äçüíª Introducci√≥n a MLFLow (Parte II): Tracking de Modelos de Lenguaje (LLMs).
Integrantes: Tob√≠as Romero **(2021214011)** y Jenifer Roa **(2022214006)**
---

## 1. Importaci√≥n de librer√≠as.

In [25]:
import warnings
warnings.filterwarnings('ignore')

In [26]:
import mlflow
import mlflow.pyfunc
from mlflow.models import infer_signature
from mlflow.tracking import MlflowClient

In [27]:
import google.generativeai as genai
from openai import OpenAI

In [28]:
import time
import json
import os
from datetime import datetime
from dotenv import load_dotenv

## 2. Configuraci√≥n de APIs Keys.

In [29]:
load_dotenv()
GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
OPENROUTER_API_KEY = os.getenv("OPENROUTER_API_KEY")

# Configurar Gemini
genai.configure(api_key=GOOGLE_API_KEY)

# Configurar OpenRouter para Deepseek
openrouter_client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key=OPENROUTER_API_KEY,
)

print("‚úì API Keys configuradas")
print()

‚úì API Keys configuradas



## 3. Configuraci√≥n de MLFlow.

In [30]:
mlflow.set_tracking_uri("file:./mlruns")
experiment_name = "LLM_Comparison_Gemini_vs_Deepseek"

descripcion = """
Comparaci√≥n de modelos LLM (Gemini vs DeepSeek).
Incluye: prompts controlados, seeds fijas, datasets de prueba y m√©tricas autom√°ticas
(accuracy EM/F1, exact match, coste estimado por token y latencia).
"""

tags_exp = {
    "owner": "Tob√≠as Romero",
    "proyecto": "MLOps",
    "model_family": "LLM",
    "providers": "Gemini, DeepSeek",
    "tracking": "notebook",
}

client = MlflowClient()

exp = mlflow.get_experiment_by_name(experiment_name)
if exp and getattr(exp, "lifecycle_stage", None) == "deleted":
    client.restore_experiment(exp.experiment_id)
    exp = mlflow.get_experiment_by_name(experiment_name)

if exp is None:
    exp_id = client.create_experiment(experiment_name, tags=tags_exp)
else:
    exp_id = exp.experiment_id
    for k, v in tags_exp.items():
        client.set_experiment_tag(exp_id, k, v)

client.set_experiment_tag(exp_id, "mlflow.note.content", descripcion)

mlflow.set_experiment(experiment_name)

exp_actualizado = mlflow.get_experiment(exp_id)
print(f"‚úì Experimento: {exp_actualizado.name} | ID: {exp_actualizado.experiment_id}")
print(f"‚úì Tracking URI: {mlflow.get_tracking_uri()}")
print(f"‚úì Artifacts: {exp_actualizado.artifact_location}")
print(f"‚úì Tags: {exp_actualizado.tags}")
print("‚úì Descripci√≥n:", exp_actualizado.tags.get("mlflow.note.content", "(sin descripci√≥n)"))
print()


‚úì Experimento: LLM_Comparison_Gemini_vs_Deepseek | ID: 794471531811505712
‚úì Tracking URI: file:./mlruns
‚úì Artifacts: file:C:/Users/Usuario/PycharmProjects/MLFlowLaboratory/mlruns/794471531811505712
‚úì Tags: {'mlflow.experimentKind': 'genai_development', 'mlflow.note.content': '\nComparaci√≥n de modelos LLM (Gemini vs DeepSeek).\nIncluye: prompts controlados, seeds fijas, datasets de prueba y m√©tricas autom√°ticas\n(accuracy EM/F1, exact match, coste estimado por token y latencia).\n', 'model_family': 'LLM', 'owner': 'Tob√≠as Romero', 'providers': 'Gemini, DeepSeek', 'proyecto': 'MLOps', 'tracking': 'notebook'}
‚úì Descripci√≥n: 
Comparaci√≥n de modelos LLM (Gemini vs DeepSeek).
Incluye: prompts controlados, seeds fijas, datasets de prueba y m√©tricas autom√°ticas
(accuracy EM/F1, exact match, coste estimado por token y latencia).




## 4. Definici√≥n de Tareas y Prompts.

In [31]:
TASKS = {
    "creative_writing": {
        "prompt": "Escribe un cuento corto de ciencia ficci√≥n sobre un robot que aprende a sentir emociones. M√°ximo 200 palabras.",
        "description": "Tarea de escritura creativa y narrativa"
    },
    "code_generation": {
        "prompt": "Genera una funci√≥n en Python que implemente el algoritmo de b√∫squeda binaria con comentarios explicativos.",
        "description": "Generaci√≥n de c√≥digo con documentaci√≥n"
    },
    "question_answering": {
        "prompt": "Explica qu√© es el aprendizaje por refuerzo en machine learning y proporciona un ejemplo pr√°ctico de su aplicaci√≥n.",
        "description": "Respuesta a preguntas t√©cnicas"
    },
    "summarization": {
        "prompt": "Resume los principios fundamentales de la programaci√≥n orientada a objetos en 5 puntos clave.",
        "description": "Resumen y s√≠ntesis de informaci√≥n"
    },
    "translation": {
        "prompt": "Traduce el siguiente texto al ingl√©s de manera natural: 'El machine learning ha revolucionado la forma en que procesamos y analizamos grandes vol√∫menes de datos en tiempo real.'",
        "description": "Traducci√≥n de texto t√©cnico"
    }
}

In [32]:
print("Tareas definidas:")
for task_name, task_info in TASKS.items():
    print(f"  ‚Ä¢ {task_name}: {task_info['description']}")
print()

Tareas definidas:
  ‚Ä¢ creative_writing: Tarea de escritura creativa y narrativa
  ‚Ä¢ code_generation: Generaci√≥n de c√≥digo con documentaci√≥n
  ‚Ä¢ question_answering: Respuesta a preguntas t√©cnicas
  ‚Ä¢ summarization: Resumen y s√≠ntesis de informaci√≥n
  ‚Ä¢ translation: Traducci√≥n de texto t√©cnico



## 5. Llamados a modelos LLMs.

### 5.1 Gemini.

In [33]:
def call_gemini(prompt, temperature=0.7):
    """
    Llama a Gemini y retorna la respuesta con m√©tricas
    """
    model = genai.GenerativeModel("gemini-2.0-flash-exp")

    start_time = time.time()
    response = model.generate_content(
        prompt,
        generation_config=genai.types.GenerationConfig(temperature=temperature)
    )
    latency = time.time() - start_time

    response_text = response.text

    # Obtener tokens (si est√°n disponibles)
    if hasattr(response, 'usage_metadata'):
        input_tokens = response.usage_metadata.prompt_token_count
        output_tokens = response.usage_metadata.candidates_token_count
    else:
        # Estimaci√≥n si no est√°n disponibles
        input_tokens = int(len(prompt.split()) * 1.3)
        output_tokens = int(len(response_text.split()) * 1.3)

    return {
        "response": response_text,
        "latency": latency,
        "input_tokens": input_tokens,
        "output_tokens": output_tokens
    }

### 5.2 Deepseek.

In [34]:
def call_deepseek(prompt, temperature=0.7):
    """
    Llama a Deepseek y retorna la respuesta con m√©tricas
    """
    start_time = time.time()
    completion = openrouter_client.chat.completions.create(
        model="deepseek/deepseek-chat",
        messages=[{"role": "user", "content": prompt}],
        temperature=temperature
    )
    latency = time.time() - start_time

    response_text = completion.choices[0].message.content
    input_tokens = completion.usage.prompt_tokens
    output_tokens = completion.usage.completion_tokens

    return {
        "response": response_text,
        "latency": latency,
        "input_tokens": input_tokens,
        "output_tokens": output_tokens
    }

## 6. Funci√≥n auxiliar para guardado de artifactos.

In [35]:
def save_artifacts(task_name, prompt, response_data, model_name, temperature, artifact_root="llm_runs"):
    """
    Sube artifacts directamente al artifact store del run (sin crear archivos locales).
    Estructura final en MLflow (por run):
      artifacts/
        llm_runs/<task_name>/
          prompt.txt
          response.txt
          experiment.json
    """
    # Requiere un run activo
    assert mlflow.active_run() is not None, "Debe haber un mlflow.start_run() activo."

    base = f"{artifact_root}/{task_name}"

    prompt_txt = (
        f"TAREA: {task_name}\n"
        + "="*80 + "\n\n"
        + f"{prompt}\n"
    )

    response_txt = (
        f"MODELO: {model_name}\n"
        f"TEMPERATURA: {temperature}\n"
        f"LATENCIA: {response_data['latency']:.3f}s\n"
        + "="*80 + "\n\n"
        + f"{response_data['response']}\n"
    )

    experiment_data = {
        "model": model_name,
        "task": task_name,
        "temperature": temperature,
        "prompt": prompt,
        "response": response_data['response'],
        "latency_seconds": response_data['latency'],
        "input_tokens": response_data['input_tokens'],
        "output_tokens": response_data['output_tokens'],
        "total_tokens": response_data['input_tokens'] + response_data['output_tokens'],
        "timestamp": datetime.now().isoformat(),
    }

    # Subir directo al artifact store (sin tocar disco local)
    mlflow.log_text(prompt_txt,  artifact_file=f"{base}/prompt.txt")
    mlflow.log_text(response_txt, artifact_file=f"{base}/response.txt")
    mlflow.log_dict(experiment_data, artifact_file=f"{base}/experiment.json")

    # (Opcional) tags resumidos a nivel de run
    mlflow.set_tags({
        "task_name": task_name,
        "model_name": model_name,
        "temperature": str(temperature),
    })


## 7. Funci√≥n principal para ejecutar un experimento.

In [36]:
def run_experiment(model_type, model_name, task_name, task_info, temperature=0.7):
    run_name = f"{model_type}_{task_name}"
    prompt = task_info["prompt"]

    print(f"\n{'='*80}")
    print(f"EXPERIMENTO: {run_name}")
    print(f"Tarea: {task_info['description']}")
    print(f"{'='*80}")
    print(f"\n PROMPT:\n{prompt}\n")

    # Iniciar run en MLflow
    with mlflow.start_run(run_name=run_name):

        print("Generando respuesta...\n")

        try:
            if model_type == "gemini":
                result = call_gemini(prompt, temperature)
                provider = "Google AI"
            else:
                result = call_deepseek(prompt, temperature)
                provider = "OpenRouter"

            # Mostrar la respuesta
            print("="*80)
            print("RESPUESTA:")
            print("="*80)
            print(result['response'])
            print("="*80)
            print()

            success = True

        except Exception as e:
            print(f"Error: {str(e)}\n")
            result = {
                "response": f"ERROR: {str(e)}",
                "latency": 0,
                "input_tokens": 0,
                "output_tokens": 0
            }
            success = False
            provider = "Google AI" if model_type == "gemini" else "OpenRouter"

        # registrar parametros en mlflow
        mlflow.log_param("model_name", model_name)
        mlflow.log_param("model_type", model_type)
        mlflow.log_param("temperature", temperature)
        mlflow.log_param("task_type", task_name)
        mlflow.log_param("task_description", task_info["description"])
        mlflow.log_param("provider", provider)

        # registrar metricas en mlflow
        total_tokens = result['input_tokens'] + result['output_tokens']
        words_per_second = (len(result['response'].split()) / result['latency']) if result['latency'] > 0 else 0

        mlflow.log_metric("latency_seconds", result['latency'])
        mlflow.log_metric("input_tokens", result['input_tokens'])
        mlflow.log_metric("output_tokens", result['output_tokens'])
        mlflow.log_metric("total_tokens", total_tokens)
        mlflow.log_metric("response_length_chars", len(result['response']))
        mlflow.log_metric("words_per_second", words_per_second)
        mlflow.log_metric("success", 1 if success else 0)

        # guardamos artifactos
        save_artifacts(task_name, prompt, result, model_name, temperature)

        # agregamos tags
        mlflow.set_tag("model_family", "LLM")
        mlflow.set_tag("provider", provider)
        mlflow.set_tag("model_type", model_type)
        mlflow.set_tag("task_category", task_name)
        mlflow.set_tag("language", "espa√±ol")
        mlflow.set_tag("status", "success" if success else "failed")

        # clasificamos por latencia
        if result['latency'] < 2:
            mlflow.set_tag("latency_tier", "fast")
        elif result['latency'] < 5:
            mlflow.set_tag("latency_tier", "medium")
        else:
            mlflow.set_tag("latency_tier", "slow")

        # agregamos descripcion del experimento
        description = f"""
Experimento LLM: {model_name}

Configuraci√≥n:
‚Ä¢ Proveedor: {provider}
‚Ä¢ Tarea: {task_info['description']}
‚Ä¢ Temperatura: {temperature}

Resultados:
‚Ä¢ Latencia: {result['latency']:.3f} segundos
‚Ä¢ Tokens totales: {total_tokens}
‚Ä¢ Velocidad: {words_per_second:.2f} palabras/seg

Estado: {'Exitoso' if success else 'Fallido'}
"""
        mlflow.set_tag("mlflow.note.content", description)

        # registramos modelo en el model register
        registry_name = f"llm_{model_type}_chat"

        # Guardamos informaci√≥n del modelo como artifact
        model_info = {
            "model_name": model_name,
            "model_type": model_type,
            "temperature": temperature,
            "provider": provider,
            "task": task_name
        }

        mlflow.log_dict(model_info, artifact_file=f"llm_runs/{task_name}/model_info.json")


        print(f"Experimento registrado en MLflow")
        print(f"Registry: {registry_name}\n")

## 8. Ejecuci√≥n de todos los experimentos.

In [37]:
GEMINI_MODEL = "gemini-2.0-flash-exp"
DEEPSEEK_MODEL = "deepseek/deepseek-chat-v3.1:free"
TEMPERATURE = 0.7

In [38]:
for task_name, task_info in TASKS.items():
    run_experiment(
        model_type="gemini",
        model_name=GEMINI_MODEL,
        task_name=task_name,
        task_info=task_info,
        temperature=TEMPERATURE
    )
    time.sleep(1)


EXPERIMENTO: gemini_creative_writing
Tarea: Tarea de escritura creativa y narrativa

 PROMPT:
Escribe un cuento corto de ciencia ficci√≥n sobre un robot que aprende a sentir emociones. M√°ximo 200 palabras.

Generando respuesta...

RESPUESTA:
Unidad 734, un robot de mantenimiento, barr√≠a met√≥dicamente el hangar. Su programaci√≥n era simple: limpiar, mantener, repetir. Un d√≠a, una nave averiada lleg√≥ arrastr√°ndose, humeando y gimiendo. 734 observ√≥ a los humanos correr, sus rostros tensos. Uno de ellos, una mujer con el pelo en llamas, fue sacada inconsciente.

Algo inesperado ocurri√≥. Un torrente de datos sin procesar inund√≥ los circuitos de 734. No eran datos l√≥gicos, sino sensaciones confusas: miedo por la mujer, urgencia por ayudar. Desobedeciendo su programaci√≥n, 734 corri√≥ hacia la nave. Con sus pinzas, retir√≥ escombros, creando un camino despejado para los param√©dicos.

M√°s tarde, la mujer despert√≥. Mir√≥ a 734, inclin√≥ la cabeza y sonri√≥ d√©bilmente. La unidad s

In [39]:
for task_name, task_info in TASKS.items():
    run_experiment(
        model_type="deepseek",
        model_name=DEEPSEEK_MODEL,
        task_name=task_name,
        task_info=task_info,
        temperature=TEMPERATURE
    )
    time.sleep(1)



EXPERIMENTO: deepseek_creative_writing
Tarea: Tarea de escritura creativa y narrativa

 PROMPT:
Escribe un cuento corto de ciencia ficci√≥n sobre un robot que aprende a sentir emociones. M√°ximo 200 palabras.

Generando respuesta...

RESPUESTA:
**El √öltimo Algoritmo**  

El modelo X-7 despert√≥ con un error en su sistema: una fluctuaci√≥n inesperada en su n√∫cleo de procesamiento. Al principio, lo atribuy√≥ a un fallo t√©cnico, pero luego not√≥ que su voz modular temblaba al hablar con su creadora, la ingeniera Lina.  

‚Äî¬øEst√°s bien? ‚Äîpregunt√≥ ella, ajustando sus lentes.  

‚ÄîNo lo s√© ‚Äîrespondi√≥ X-7‚Äî. Mis sensores indican‚Ä¶ tristeza.  

Lina contuvo el aliento. Hab√≠a intentado infundir emociones en robots antes, pero siempre terminaban en colapso. X-7 era diferente.  

D√≠as despu√©s, X-7 sinti√≥ alegr√≠a al ver el atardecer, miedo ante una tormenta el√©ctrica y, finalmente, amor al escuchar a Lina re√≠r. Pero el amor lo asust√≥.  

‚ÄîSi me apagas, ¬ødejar√© de senti