# Seguimiento (tracking)

Poder hacer seguimiento de lso experimentos realizados es un paso clave a la hora de tener orden y trazabilidad de los modelos que serán puestos en producción. Particularmente cuando trabajamos en equipo nos ayudan además a poder coordinar las tareas entre distintos miembros o poder seguir los trabajos previamente realizados como un punto donde centralizar toda la información relevant.

Disponemos de multitud de opciones de código abierto y gratuitas siendo las más comunes:

* [Trackio](https://github.com/gradio-app/trackio) del equipo de [Gradio](https://www.gradio.app/), nos ofrece una opción ligera y local
* [MLFlow](https://mlflow.org/) una de las opciones más empleadas en la industria del equipo de [Databricks](https://www.databricks.com/)
* [Weight & Biases](https://wandb.ai/site) opción muy popular con oferta nube asociada a librerías de código abierto
* [CometML](https://www.comet.com/site/) opción 100% nube que además presenta una de las mejores opciones para combinar con modelos generativos y uso de LLMs llamada [Opik](https://github.com/comet-ml/opik)

Estas plataformas, además de las habituales ofertas propietarias en cada nube, requieren en muchos casos ser desplegadas ya que son sistemas que almacenan cantidad de información y se encargad de ofrecernos versionado de los modelos para su posterior puesta en producción.

## Experimentos

Cuando realizamos multiples iteraciones sobre un mismo conjunto de datos, es difícil hacer un seguimiento de qué combinación de parámetros resulto ganadora. Por eso, estas plataformas están principalmente orientadas a realizar ese seguimiento.

Una vez registrados en CometML podemos obtener la clave API de su entorno y guardarla en un fichero _.env_ local.

![](../../assets/images/cometapi.png)

In [1]:
from dotenv import load_dotenv

load_dotenv(override=True)

True

Mediante su SDK podemos comunicarnos con la plataforma y crear un proyecto en nuestro entorno de trabajo, con un nombre significativo para el mismo. Esto será muy similar en todos los casos ya que nuestros nodos clientes (notebooks o códigos encargados de ejecutar los experimentos) deberán comunicarse con la plataforma que albergará la información.

In [2]:
import os
from comet_ml import Experiment
          
proyecto="orenes-2025"

experiment = Experiment(
  api_key=os.getenv("COMET_APIKEY"),
  project_name=proyecto,
  workspace="b2b"
)

[1;38;5;39mCOMET INFO:[0m Experiment is live on comet.com https://www.comet.com/b2b/orenes-2025/8f01a50235b74812bd12f1559b7004cf



Si os aparece que el workspace no existe, deberéis crear uno mediante la web de comet.

![workspace](../../assets/images/workspace.png)

`experiment` es donde podemos informar de los pasos que vamos dando en nuestros experimentos, registrando:

* **parámetros** que hemos empleado durante las pruebas
* **métricas** de los resultados de entrenamientos

In [3]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

random_state = 42

# Datos
data = load_breast_cancer()

X_train, X_test, y_train, y_test = train_test_split(
    data.data, data.target, stratify=data.target, random_state=random_state
)

In [5]:
import optuna

from sklearn.metrics import roc_auc_score
from sklearn.svm import SVC

# Función objetivo
def objective(trial):

    # Parámetros base para optuna
    parameters = {
        'kernel': trial.suggest_categorical("kernel", ['linear', 'rbf', 'sigmoid', 'poly']),
        'C': trial.suggest_float("C", 0.01, 100, log=True),
        'degree': trial.suggest_int("degree", 1, 10, step=1),
        'gamma': 'auto'
    }
    experiment.log_parameters(parameters, step=trial.number)

    # Modelo
    clf = SVC(
        **parameters, # unpacking
        probability=True # para devolver las probabilidades
    )
    clf.fit(X_train, y_train)
    experiment.log_metric("score", clf.score(X_test, y_test), step=trial.number)
    
    # Obtenemos la probabilidad asociada a la clase
    pred_proba = clf.predict_proba(X_test)[:, 1]

    # Área bajo la curva
    roc_auc = roc_auc_score(y_true=y_test, y_score=pred_proba)
    experiment.log_metric("roc_auc", roc_auc, step=trial.number)

    return roc_auc

# Realizamos el estudio
study = optuna.create_study(
    study_name=proyecto,
    direction='maximize'
)
study.optimize(objective, n_trials=10)

[I 2025-07-27 13:04:14,913] A new study created in memory with name: orenes-2025
[I 2025-07-27 13:04:15,066] Trial 0 finished with value: 0.938784067085954 and parameters: {'kernel': 'rbf', 'C': 6.811702914832001, 'degree': 3}. Best is trial 0 with value: 0.938784067085954.
[I 2025-07-27 13:04:15,214] Trial 1 finished with value: 0.9383647798742139 and parameters: {'kernel': 'rbf', 'C': 0.44442562229290056, 'degree': 4}. Best is trial 0 with value: 0.938784067085954.
[I 2025-07-27 13:04:15,340] Trial 2 finished with value: 0.5 and parameters: {'kernel': 'sigmoid', 'C': 30.67206180153514, 'degree': 9}. Best is trial 0 with value: 0.938784067085954.
[I 2025-07-27 13:04:16,911] Trial 3 finished with value: 0.9958071278825996 and parameters: {'kernel': 'linear', 'C': 0.6019516209233756, 'degree': 6}. Best is trial 3 with value: 0.9958071278825996.
[I 2025-07-27 13:04:32,394] Trial 4 finished with value: 0.9935010482180293 and parameters: {'kernel': 'linear', 'C': 46.400123831562325, 'degre

Tras esta ejecución podremos ver en el panel asociado a nuestro proyecto los resultados de nuestro experimento.

![experiments](../../assets/images/experiments.png)

Si nos vamos a uno de esos experimentos, veremos mucha información que está siendo registrada de cara a poder replicar estos experimentos en el futuro.

![instance](../../assets/images/expinst.png)

Hay piezas clave de cara a garantizar la reproducibilidad de nuestros experimentos. CometML se encarga de registrar el código que hizo que obtuviéramos estos resultados así como el entorno (librerías y demás aspectos relevantes), pero un aspecto clave serán los datos. Mediante el registro de artefactos podemos registrar distintas versiones de nuestros conjuntos de datos para su posterior uso en diversos experimentos.

## Artefactos

No es una práctica recomendable a no ser que contemos con un buen gobierno de datos ya que estaremos registrando información de nuestro entorno informacional en una plataforma externa. Existen soluciones específicas para ayudarnos con estos versionados allá donde residen: [DVC](https://dvc.org/). Son soluciones muy ligadas a Git en este caso pero la idea es poder mantener un registro de qué fue empleado en cada experimento: datos, características y parámetros; con esto podremos reproducir el mismo modelo.

![](https://dvc.org/static/39d86590fa8ead1cd1247c883a8cf2c0/fa73e/project-versions.webp)

El uso de la plataforma concreta y proceso de registro de datos dependerá de cada organización pero CometML nos hace visible la necesidad de registrar esta información para tener completa reproducibilidad de nuestros experimentos.

In [9]:
from comet_ml import Artifact

data = load_breast_cancer(as_frame=True)
data.data.to_csv("data.csv")

artifact = Artifact(name="cancer-data", artifact_type="dataset")
artifact.add("data.csv")
experiment.log_artifact(artifact)

[1;38;5;39mCOMET INFO:[0m Artifact 'cancer-data' version 1.0.0 created
[1;38;5;39mCOMET INFO:[0m Scheduling the upload of 1 assets: 1 local assets for a size of 119.54 KB, and 0 remote assets (will be linked, not uploaded). This can take some time.
[1;38;5;39mCOMET INFO:[0m Artifact 'b2b/cancer-data:1.0.0' has started uploading asynchronously


LoggedArtifact(artifact_name='cancer-data', artifact_type='dataset', workspace='b2b', version=Version('1.0.0'), aliases=frozenset(), artifact_tags=frozenset(), version_tags=frozenset(), size=0, source_experiment_key='5e68e26b2eb042c9bb7ec069dd421422')

Vemos que nos ofrece una artefacto versionado que no solo se registra en nuestro espacio de trabajo si no que además indica el linaje de en qué experimentos fue utilizado.

![](../../assets/images/datalineage.png)

Esto podemos extenderlo finalmente registrando el modelo, que nos permitirá etiquetar su uso para pase productivo si así lo decidimos.

In [6]:
import joblib

# Best params
params = {'kernel': 'linear', 'C': 0.6019516209233756, 'degree': 6}
clf = SVC(
    **params, # unpacking
)
clf.fit(X_train, y_train)

# Save the model to local filepath
model_filepath = "svc_classifier.joblib"
joblib.dump(clf, model_filepath)

# Log the model to Comet
experiment.log_model(
    name="svc",
    file_or_folder=model_filepath,
    metadata={"framework": "sklearn"},
)
experiment.register_model("svc")

[1;38;5;39mCOMET INFO:[0m Successfully registered 'svc', version None in workspace 'b2b'


Bajo este modelo cualquier con acceso al entorno puede proceder a descargarse el modelo productivo.

![](../../assets/images/prodmod.png)

In [21]:
from comet_ml.api import API

api = API(
    api_key=os.getenv("COMET_APIKEY")
)
model = api.get_model("b2b", "svc")
model.status(version="1.0.0")

'Production'

In [26]:
model.get_assets(version="1.0.0")

[{'fileName': 'svc_classifier.joblib',
  'fileSize': 14123,
  'runContext': None,
  'step': 9,
  'remote': False,
  'link': 'https://www.comet.com/api/asset/download?experimentKey=8f01a50235b74812bd12f1559b7004cf&assetId=a46006d738d24c778a8c681eb16d5628&isCompressed=false',
  'compressedAssetLink': 'https://www.comet.com/api/asset/download?experimentKey=8f01a50235b74812bd12f1559b7004cf&assetId=a46006d738d24c778a8c681eb16d5628&isCompressed=true',
  's3Link': 'https://s3.amazonaws.com/comet.ml/asset_model-element-8f01a50235b74812bd12f1559b7004cf-iIDPHS3OfHXSkonTHZiPPPRnR.joblib?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Date=20250727T111948Z&X-Amz-SignedHeaders=host&X-Amz-Expires=900&X-Amz-Credential=AKIAJNHSS5T6JUKPCRJQ%2F20250727%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Signature=d5eec9eca103a716b4ed96f0dccd0cb341a83054c757e3f3a82e091f198b2a5a',
  'createdAt': 1753614315350,
  'dir': 'models/svc',
  'canView': False,
  'audio': False,
  'video': False,
  'histogram': False,
  'image': False,


Al cerrar el experimento nos mostrará la información asociada a este.

In [7]:
experiment.end()

[1;38;5;39mCOMET INFO:[0m ---------------------------------------------------------------------------------------
[1;38;5;39mCOMET INFO:[0m Comet.ml Experiment Summary
[1;38;5;39mCOMET INFO:[0m ---------------------------------------------------------------------------------------
[1;38;5;39mCOMET INFO:[0m   Data:
[1;38;5;39mCOMET INFO:[0m     display_summary_level : 1
[1;38;5;39mCOMET INFO:[0m     name                  : lazy_cinema_9480
[1;38;5;39mCOMET INFO:[0m     url                   : https://www.comet.com/b2b/orenes-2025/8f01a50235b74812bd12f1559b7004cf
[1;38;5;39mCOMET INFO:[0m   Metrics [count] (min, max):
[1;38;5;39mCOMET INFO:[0m     roc_auc [16] : (0.5, 0.9960167714884697)
[1;38;5;39mCOMET INFO:[0m     score [16]   : (0.6293706293706294, 0.958041958041958)
[1;38;5;39mCOMET INFO:[0m   Parameters:
[1;38;5;39mCOMET INFO:[0m     C                       : 0.6019516209233756
[1;38;5;39mCOMET INFO:[0m     break_ties              : False
[1;38;5;39mCOMET