## MLflow Registry: Gemini (Google GenAI) ‚Äî Minimal Notebook

**Objetivo:** Validar *solo* la parte del **Model Registry** de MLflow con un modelo Chat que usa **Google GenAI (Gemini)**.

In [45]:
from dotenv import load_dotenv
load_dotenv(override=True)

True

In [46]:
import os
gemini_api_key = os.getenv('GEMINI_API_KEY')


In [47]:
import mlflow
mlflow.set_tracking_uri("http://127.0.0.1:5000")
mlflow.set_experiment("tracking_llm_real")
print("Tracking URI:", mlflow.get_tracking_uri())

Tracking URI: http://127.0.0.1:5000


## Creaci√≥n del experimento.

In [48]:
import mlflow
import time
import json
from mlflow.tracking import MlflowClient

# Crear o usar un experimento para LLMs
mlflow.set_experiment("llm_genai_model_registry")

client = MlflowClient()



# Google model 

In [49]:
from openai import OpenAI

gemini = OpenAI(api_key=gemini_api_key, base_url="https://generativelanguage.googleapis.com/v1beta/openai/")
model_name = "gemini-2.0-flash"

response = gemini.chat.completions.create(model=model_name, messages=[
    {
      "role": "user",
      "content": "Que es AI"
    }
  ])
answer = response.choices[0].message.content
answer

'AI son las siglas en ingl√©s de **Artificial Intelligence**, que en espa√±ol se traduce como **Inteligencia Artificial (IA)**.\n\nEn t√©rminos generales, la IA se refiere a la **capacidad de una m√°quina o sistema inform√°tico para imitar las capacidades cognitivas humanas**, como el aprendizaje, el razonamiento, la resoluci√≥n de problemas, la percepci√≥n (visual y auditiva), la comprensi√≥n del lenguaje natural y la toma de decisiones.\n\nEs importante destacar que la IA no es una sola cosa, sino un campo amplio y en constante evoluci√≥n que engloba diferentes t√©cnicas y enfoques.\n\nAqu√≠ te dejo una desglose de los aspectos clave de la IA:\n\n*   **Objetivo:** Crear m√°quinas que puedan realizar tareas que normalmente requieren inteligencia humana.\n*   **T√©cnicas:** Se basa en una variedad de t√©cnicas, incluyendo el aprendizaje autom√°tico (machine learning), el aprendizaje profundo (deep learning), el procesamiento del lenguaje natural (NLP), la visi√≥n artificial (computer v

In [50]:
import os, time
from openai import OpenAI

# Config Gemini usando el endpoint OpenAI-compatible
gemini = OpenAI(
    api_key=gemini_api_key,
    base_url="https://generativelanguage.googleapis.com/v1beta/openai/"
)
model_name = "gemini-2.0-flash"

prompt = "¬øQu√© es la inteligencia artificial?"

with mlflow.start_run(run_name="gemini_tracking"):
    # Registrar par√°metros
    mlflow.log_params({
        "provider": "gemini",
        "model_name": model_name,
        "temperature": 0.0
    })

    # Medir latencia
    t0 = time.perf_counter()
    response = gemini.chat.completions.create(
        model=model_name,
        messages=[{"role": "user", "content": prompt}],
        temperature=0.0,
    )
    latency_ms = (time.perf_counter() - t0) * 1000

    answer = response.choices[0].message.content

    # Registrar m√©tricas
    mlflow.log_metric("latency_ms", latency_ms)
    mlflow.log_metric("prompt_tokens", getattr(response.usage, "prompt_tokens", 0))
    mlflow.log_metric("completion_tokens", getattr(response.usage, "completion_tokens", 0))

    # Guardar la salida como artefacto
    with open("gemini_output.txt", "w") as f:
        f.write(f"Prompt: {prompt}\n\nRespuesta: {answer}")
    mlflow.log_artifact("gemini_output.txt")

print("‚úÖ GEMINI:", answer)


üèÉ View run gemini_tracking at: http://127.0.0.1:5000/#/experiments/539662435075150292/runs/d81a92db08e4437f811e9231e7e83dbd
üß™ View experiment at: http://127.0.0.1:5000/#/experiments/539662435075150292
‚úÖ GEMINI: La Inteligencia Artificial (IA) es un campo de la inform√°tica que se centra en la creaci√≥n de sistemas inform√°ticos capaces de realizar tareas que normalmente requieren inteligencia humana. En otras palabras, busca **simular la inteligencia humana en m√°quinas**.

Aqu√≠ te desglosamos los aspectos clave de la IA:

*   **Simulaci√≥n de la Inteligencia Humana:** La IA busca replicar o imitar habilidades cognitivas humanas como:
    *   **Aprendizaje:** La capacidad de aprender de los datos y mejorar el rendimiento con la experiencia.
    *   **Razonamiento:** La capacidad de resolver problemas, tomar decisiones y sacar conclusiones l√≥gicas.
    *   **Percepci√≥n:** La capacidad de interpretar y comprender informaci√≥n sensorial (como im√°genes, sonido, texto).
    *   

## Tracker de Gemini

In [51]:
def generate_gemini(prompt: str, temperature: float = 0.2):
    t0 = time.time()
    response = gemini.chat.completions.create(
        model="gemini-2.0-flash",
        messages=[{"role": "user", "content": prompt}],
        temperature=temperature
    )
    latency = time.time() - t0
    text = response.choices[0].message.content
    tokens = len((prompt + " " + text).split())  # simulaci√≥n simple de tokens
    return {"response": text, "latency": latency, "tokens": tokens}


# Ollama 

In [52]:
import time
from openai import OpenAI

# Cliente OpenAI apuntando al endpoint local de Ollama
ollama = OpenAI(
    api_key="ollama",  # obligatorio, aunque Ollama no lo usa
    base_url="http://localhost:11434/v1"
)
model_name = "llama3.2"
prompt = "Explica qu√© es MLflow en una frase."

with mlflow.start_run(run_name="ollama_tracking"):
    mlflow.log_params({
        "provider": "ollama",
        "model_name": model_name,
        "temperature": 0.0,
        
    })

    t0 = time.perf_counter()
    response = ollama.chat.completions.create(
        model=model_name,
        messages=[{"role": "user", "content": prompt}],
        temperature=0.0,
    )
    latency_ms = (time.perf_counter() - t0) * 1000

    answer = response.choices[0].message.content

    mlflow.log_metric("latency_ms", latency_ms)

    with open("ollama_output.txt", "w") as f:
        f.write(f"Prompt: {prompt}\n\nRespuesta: {answer}")
    mlflow.log_artifact("ollama_output.txt")

print("‚úÖ OLLAMA:", answer)

üèÉ View run ollama_tracking at: http://127.0.0.1:5000/#/experiments/539662435075150292/runs/c3f2955be69446aa9dc018055bd375bd
üß™ View experiment at: http://127.0.0.1:5000/#/experiments/539662435075150292
‚úÖ OLLAMA: MLflow es una plataforma de ciencia de datos y aprendizaje autom√°tico que permite a los desarrolladores y cient√≠ficos de datos crear, entrenar y depurar modelos de machine learning de manera eficiente y escalable.


## Tracker de Ollama

In [53]:
def generate_ollama(prompt: str, temperature: float = 0.0):
    t0 = time.time()
    response = ollama.chat.completions.create(
        model="llama3.2",
        messages=[{"role": "user", "content": prompt}],
        temperature=temperature
    )
    latency = time.time() - t0
    text = response.choices[0].message.content
    tokens = len((prompt + " " + text).split())
    return {"response": text, "latency": latency, "tokens": tokens}


## Registro de ejecuciones de LLMs

In [54]:
def track_llm(provider, model_name, fn, prompt, temperature=0.2, cost_per_token=0.000002):
    with mlflow.start_run(run_name=f"{provider}_run"):
        result = fn(prompt, temperature)
        
        # Log params
        mlflow.log_param("provider", provider)
        mlflow.log_param("model_name", model_name)
        mlflow.log_param("temperature", temperature)
        mlflow.log_param("task", "chat")

        # Log metrics
        mlflow.log_metric("latency_s", result["latency"])
        mlflow.log_metric("total_tokens", result["tokens"])
        mlflow.log_metric("estimated_cost", result["tokens"] * cost_per_token)

        # Log artifacts (prompt y respuesta)
        with open("prompt.txt", "w") as f:
            f.write(prompt)
        with open("response.txt", "w") as f:
            f.write(result["response"])

        mlflow.log_artifact("prompt.txt", artifact_path="prompts")
        mlflow.log_artifact("response.txt", artifact_path="responses")

        print(f"{provider} registrado en MLflow ({model_name})")
        return result


## Ejecuci√≥n de ambos modelos.

In [55]:
prompt = "Explica brevemente qu√© hace MLflow y por qu√© es √∫til para modelos de lenguaje."

gemini_result = track_llm("gemini", "llm_gemini_chat", generate_gemini, prompt, temperature=0.2)
ollama_result = track_llm("ollama", "llm_ollama_chat", generate_ollama, prompt, temperature=0.0)


gemini registrado en MLflow (llm_gemini_chat)
üèÉ View run gemini_run at: http://127.0.0.1:5000/#/experiments/539662435075150292/runs/0e39ccf1ddb64f7cb658d4fb9d474f1b
üß™ View experiment at: http://127.0.0.1:5000/#/experiments/539662435075150292
ollama registrado en MLflow (llm_ollama_chat)
üèÉ View run ollama_run at: http://127.0.0.1:5000/#/experiments/539662435075150292/runs/9c7090e1d2f74d66813c3ac895b9c830
üß™ View experiment at: http://127.0.0.1:5000/#/experiments/539662435075150292


## Registro de ambos modelos en el model registry

In [56]:
import os
import mlflow
import mlflow.pyfunc

# Configurar el tracking local en la carpeta mlruns
mlflow.set_tracking_uri("file://" + os.path.abspath("mlruns"))

# Crear (o usar) el experimento
mlflow.set_experiment("genai_model_registry")

# Crear un modelo simulado compatible con PyFunc
class DummyModel(mlflow.pyfunc.PythonModel):
    def predict(self, context, model_input):
        return ["respuesta generada"]

# --- Registrar GEMINI ---
with mlflow.start_run(run_name="registro_llm_gemini") as run_gemini:
    mlflow.pyfunc.log_model(
        artifact_path="model",
        python_model=DummyModel()
    )
    model_uri_gemini = f"runs:/{run_gemini.info.run_id}/model"
    mlflow.register_model(model_uri=model_uri_gemini, name="llm_gemini_chat")
    print("Modelo 'llm_gemini_chat' registrado correctamente.")

# --- Registrar OLLAMA ---
with mlflow.start_run(run_name="registro_llm_ollama") as run_ollama:
    mlflow.pyfunc.log_model(
        artifact_path="model",
        python_model=DummyModel()
    )
    model_uri_ollama = f"runs:/{run_ollama.info.run_id}/model"
    mlflow.register_model(model_uri=model_uri_ollama, name="llm_ollama_chat")
    print("Modelo 'llm_ollama_chat' registrado correctamente.")







Registered model 'llm_gemini_chat' already exists. Creating a new version of this model...
Created version '3' of model 'llm_gemini_chat'.


Modelo 'llm_gemini_chat' registrado correctamente.


Registered model 'llm_ollama_chat' already exists. Creating a new version of this model...


Modelo 'llm_ollama_chat' registrado correctamente.


Created version '2' of model 'llm_ollama_chat'.


## Promovemos los modelos a Stagging

In [57]:
from mlflow import MlflowClient

# Crear cliente
client = MlflowClient()

# Lista de modelos a promover
model_names = ["llm_gemini_chat", "llm_ollama_chat"]

for name in model_names:
    try:
        versions = client.get_latest_versions(name)
        if versions:
            version = versions[0].version
            client.transition_model_version_stage(
                name=name,
                version=version,
                stage="Staging",
                archive_existing_versions=True
            )
            print(f"‚úÖ {name} v{version} promovido a Staging")
        else:
            print(f"‚ö†Ô∏è No se encontraron versiones para {name}")
    except Exception as e:
        print(f"‚ùå Error al promover {name}: {e}")


  versions = client.get_latest_versions(name)
  client.transition_model_version_stage(


‚úÖ llm_gemini_chat v1 promovido a Staging
‚úÖ llm_ollama_chat v2 promovido a Staging


## Comparaci√≥n de m√©tricas entre modelos.

In [58]:
import mlflow
import pandas as pd
from mlflow import MlflowClient
import os

mlflow.set_tracking_uri("file://" + os.path.abspath("mlruns")) # Usando la de archivos como en tu notebook
client = MlflowClient()

# 1. APUNTAR AL EXPERIMENTO CORRECTO
experiment = mlflow.get_experiment_by_name("llm_genai_model_registry")

# Obtener todos los runs del experimento
runs_df = mlflow.search_runs(experiment_ids=[experiment.experiment_id])

# 2. USAR LOS NOMBRES CORRECTOS DE LAS COLUMNAS
# Estos son los nombres reales que registraste con track_llm
cols = [
    "tags.mlflow.runName",
    "params.provider",
    "params.model_name",
    "params.temperature",
    "metrics.latency_s",
    "metrics.total_tokens",
    "metrics.estimated_cost"
]

# Filtrar y renombrar columnas
existing_cols = [c for c in cols if c in runs_df.columns]
comparison = runs_df[existing_cols].rename(columns={
    "tags.mlflow.runName": "Ejecuci√≥n",
    "params.provider": "Proveedor",
    "params.model_name": "Modelo",
    "params.temperature": "Temperatura",
    "metrics.latency_s": "Latencia (s)",
    "metrics.total_tokens": "Tokens totales",
    "metrics.estimated_cost": "Costo estimado ($)"
})

# Mostrar comparaci√≥n
print("üìä Comparaci√≥n de modelos Gemini vs Ollama:")
display(comparison)

# Mostrar resumen comparativo promedio
if not comparison.empty and "Proveedor" in comparison.columns:
    resumen = comparison.groupby("Proveedor")[["Latencia (s)", "Costo estimado ($)"]].mean().round(4)
    print("\nüìà Promedio de m√©tricas por proveedor:")
    display(resumen)
else:
    print("‚ö†Ô∏è No se pudieron generar las m√©tricas. Revisa los nombres del experimento y las columnas.")





üìä Comparaci√≥n de modelos Gemini vs Ollama:


Unnamed: 0,Ejecuci√≥n,Proveedor,Modelo,Temperatura,Latencia (s),Tokens totales,Costo estimado ($)
0,ollama_run,ollama,llm_ollama_chat,0.0,47.257168,225.0,0.00045
1,gemini_run,gemini,llm_gemini_chat,0.2,13.125844,291.0,0.000582
2,ollama_tracking,ollama,llama3.2,0.0,,,
3,gemini_tracking,gemini,gemini-2.0-flash,0.0,,,
4,ollama_run,ollama,llm_ollama_chat,0.0,51.061068,225.0,0.00045
5,gemini_run,gemini,llm_gemini_chat,0.2,4.600256,337.0,0.000674
6,ollama_tracking,ollama,llama3.2,0.0,,,
7,gemini_tracking,gemini,gemini-2.0-flash,0.0,,,



üìà Promedio de m√©tricas por proveedor:


Unnamed: 0_level_0,Latencia (s),Costo estimado ($)
Proveedor,Unnamed: 1_level_1,Unnamed: 2_level_1
gemini,8.863,0.0006
ollama,49.1591,0.0004
