
## Tarea y actividad en clase.

1. Hacer merge de la rama que trabajamos a main.
2. Crear una nueva rama que se llame `feat: tarea 5`.
3. Crear un nuevo `jupyter-notebook` llamado `challenger-experiments.ipynb` en la rama creada anteriormente
4. Hacer dos `parent experiments` con `Gradient Boost` y `Random Forest` regressors en donde cada uno tenga `child experiments` con b√∫squeda de hyper-par√°metros. Puede usar cualquier librerar√≠a con la que se sienta c√≥modo: `hyperopt`, `optuna`, `scikit-learn` (Grid Search, Random Search, Halving Search etc)
5. Registrar el modelo con la mejor m√©trica `validation-rmse` de los obtenidos en dichos experimentos en el `model registry` en el mismo modelo ya previamente creado `nyc-taxi-model`.
6. As√≠gnele el alias `challenger`
7. Descargue en la carpeta `data` el conjunto de datos correspondiente a marzo del 2025
9. Use ese conjunto de datos para probarlo sobre los modelos con el alias `champion` y `challenger`
10. Obtenga la m√©trica de cada modelo
11. Decida si el nuevo modelo `challenger` debe ser promovido a `champion` o no. Use los criterios que usted como Data Scientis considere relevantes y justifique la respuesta.
12. Abrir un `PR` con los cambios hechos en la rama `feat: tarea 5` hacia la rama `main`.


Habr√° dos entregas divididas de la siguiente manera:

1. **Trabajo en clase hoy Martes 21 de Octubre de 2025.** Para esta entrega, hacer un commit con el siguiente mensaje `feat: entrega trabajo en clase` con los avances realizados en clase.

2. **Tarea: Martes 28 de Octubre de 2025 a las 19:55.** Esta entrega debe contener todo lo descrito anteriormente

In [1]:
import pickle
import pandas as pd
from sklearn.metrics import  root_mean_squared_error
from sklearn.feature_extraction import  DictVectorizer
import mlflow

In [2]:
def read_dataframe(filename):

    df = pd.read_parquet(filename)

    df['duration'] = df.lpep_dropoff_datetime - df.lpep_pickup_datetime
    df.duration = df.duration.apply(lambda td: td.total_seconds() / 60)

    df = df[(df.duration >= 1) & (df.duration <= 60)]

    categorical = ['PULocationID', 'DOLocationID']
    df[categorical] = df[categorical].astype(str)

    return df

In [3]:
df_train = read_dataframe('data/green_tripdata_2025-01.parquet')
df_val = read_dataframe('data/green_tripdata_2025-02.parquet')

Feature Engineering + One Hot Encoding

In [4]:
def preprocess(df, dv):
    df['PU_DO'] = df['PULocationID'] + '_' + df['DOLocationID']
    categorical = ['PU_DO']
    numerical = ['trip_distance']
    train_dicts = df[categorical + numerical].to_dict(orient='records')
    return dv.transform(train_dicts)

In [5]:
categorical = ['PULocationID', 'DOLocationID']
numerical = ['trip_distance']
dv = DictVectorizer()

train_dicts = df_train[categorical + numerical].to_dict(orient='records')
X_train = dv.fit_transform(train_dicts)

X_val = preprocess(df_val, dv)

Target

In [6]:
target = 'duration'
y_train = df_train[target].values
y_val = df_val[target].values

Definir los `dataset` como objetos de `mlflow` para poderlos trackear

In [7]:
training_dataset = mlflow.data.from_numpy(X_train.data, targets=y_train, name="green_tripdata_2025-01")
validation_dataset = mlflow.data.from_numpy(X_val.data, targets=y_val, name="green_tripdata_2025-02")

## üîß Tunning de Hiper-par√°metros para un modelo `xgboost` - Optuna

El **tunning de hiper-par√°metros** consiste en encontrar la mejor combinaci√≥n de par√°metros que optimizan el rendimiento de un modelo.

En lugar de probar valores manualmente, usamos librer√≠as como **Optuna**, que aplican estrategias inteligentes de b√∫squeda (*Bayesian optimization*, *Tree-structured Parzen Estimator*, etc.) para acelerar el proceso y encontrar resultados m√°s robustos.

En este caso, usaremos **Optuna** para ajustar un modelo de **XGBoost**, definiendo un espacio de b√∫squeda para par√°metros como:
| Par√°metro | Descripci√≥n |
|------------|--------------|
| `max_depth` | Profundidad m√°xima de los √°rboles | 
| `learning_rate` | Tasa de aprendizaje (escala logar√≠tmica) | 
| `reg_alpha` | Regularizaci√≥n L1 (Œ±) | 
| `reg_lambda` | Regularizaci√≥n L2 (Œª) | 
| `min_child_weight` | Peso m√≠nimo de muestras por hoja | 
| `objective` | Funci√≥n objetivo | 
| `seed` | Semilla aleatoria | 

Durante el proceso, Optuna crea un **‚Äústudy‚Äù** donde cada *trial* representa una combinaci√≥n de par√°metros probada.  

Cada *trial* puede registrarse con **MLflow**, lo que permite visualizar m√©tricas, comparar resultados y seleccionar el modelo m√°s prometedor.

Ejemplo simplificado de estructura:

```python
import math, optuna, xgboost as xgb, mlflow

def objective(trial):
    params = {
        "max_depth": trial.suggest_int("max_depth", 4, 100),
        "learning_rate": trial.suggest_float("learning_rate", math.exp(-3), 1.0, log=True),
        "reg_alpha": trial.suggest_float("reg_alpha", math.exp(-5), math.exp(-1), log=True),
        "reg_lambda": trial.suggest_float("reg_lambda", math.exp(-6), math.exp(-1), log=True),
        "min_child_weight": trial.suggest_float("min_child_weight", math.exp(-1), math.exp(3), log=True),
        "objective": "reg:squarederror",
        "seed": 42,
    }

    with mlflow.start_run(nested=True):
        mlflow.log_params(params)
        booster = xgb.train(params, dtrain, evals=[(dvalid, "validation")])
        preds = booster.predict(dvalid)
        rmse = mean_squared_error(y_valid, preds, squared=False)
        mlflow.log_metric("rmse", rmse)
    return rmse

study = optuna.create_study(direction="minimize")
study.optimize(objective, n_trials=20)
```

üîπ **Ventajas de usar Optuna con MLflow:**
- Seguimiento autom√°tico de m√©tricas y par√°metros.  
- Comparaci√≥n visual de resultados en la UI de MLflow.  
- Integraci√≥n fluida con Databricks y notebooks colaborativos.  

---

üìö **Referencia interesante:**  
üëâ [https://xgboosting.com/](https://xgboosting.com/) ‚Äî Gu√≠a pr√°ctica con ejemplos avanzados de *tunning* y t√©cnicas modernas para modelos de **XGBoost** y **Optuna**.


In [10]:
import math
import optuna
import pathlib
import xgboost as xgb
from optuna.samplers import TPESampler
from mlflow.models.signature import infer_signature

In [11]:
train = xgb.DMatrix(X_train, label=y_train)
valid = xgb.DMatrix(X_val, label=y_val)

### Funci√≥n Objetivo

In [12]:
# ------------------------------------------------------------
# Definir la funci√≥n objetivo para Optuna
#    - Recibe un `trial`, que se usa para proponer hiperpar√°metros.
#    - Entrena un modelo con esos hiperpar√°metros.
#    - Calcula la m√©trica de validaci√≥n (RMSE) y la retorna (Optuna la minimizar√°).
#    - Abrimos un run anidado de MLflow para registrar cada trial.
# ------------------------------------------------------------
def objective(trial: optuna.trial.Trial):
    # Hiperpar√°metros MUESTREADOS por Optuna en CADA trial.
    # Nota: usamos log=True para emular rangos log-uniformes (similar a loguniform).
    params = {
        "max_depth": trial.suggest_int("max_depth", 4, 100),
        "learning_rate": trial.suggest_float("learning_rate", math.exp(-3), 1.0, log=True),
        "reg_alpha": trial.suggest_float("reg_alpha",   math.exp(-5), math.exp(-1), log=True),
        "reg_lambda": trial.suggest_float("reg_lambda", math.exp(-6), math.exp(-1), log=True),
        "min_child_weight": trial.suggest_float("min_child_weight", math.exp(-1), math.exp(3), log=True),
        "objective": "reg:squarederror",  
        "seed": 42,                      
    }

    # Run anidado para dejar rastro de cada trial en MLflow
    with mlflow.start_run(nested=True):
        mlflow.set_tag("model_family", "xgboost")  # etiqueta informativa
        mlflow.log_params(params)                  # registra hiperpar√°metros del trial

        # Entrenamiento con early stopping en el conjunto de validaci√≥n
        booster = xgb.train(
            params=params,
            dtrain=train,
            num_boost_round=100,
            evals=[(valid, "validation")],
            early_stopping_rounds=10,
        )

        # Predicci√≥n y m√©trica en validaci√≥n
        y_pred = booster.predict(valid)
        rmse = root_mean_squared_error(y_val, y_pred)

        # Registrar la m√©trica principal
        mlflow.log_metric("rmse", rmse)

        # La "signature" describe la estructura esperada de entrada y salida del modelo:
        # incluye los nombres, tipos y forma (shape) de las variables de entrada y el tipo de salida.
        # MLflow la usa para validar datos en inferencia y documentar el modelo en el Model Registry.
        signature = infer_signature(X_val, y_pred)

        # Guardar el modelo del trial como artefacto en MLflow.
        mlflow.xgboost.log_model(
            booster,
            name="model",
            input_example=X_val[:5],
            signature=signature
        )

    # Optuna minimiza el valor retornado
    return rmse

### Flujo de b√∫squeda

In [15]:
mlflow.xgboost.autolog(log_models=False)

# ------------------------------------------------------------
# Crear el estudio de Optuna
#    - Usamos TPE (Tree-structured Parzen Estimator) como sampler.
#    - direction="minimize" porque queremos minimizar el RMSE.
# ------------------------------------------------------------
sampler = TPESampler(seed=42)
study = optuna.create_study(direction="minimize", sampler=sampler)

# ------------------------------------------------------------
# Ejecutar la optimizaci√≥n (n_trials = n√∫mero de intentos)
#    - Cada trial ejecuta la funci√≥n objetivo con un set distinto de hiperpar√°metros.
#    - Abrimos un run "padre" para agrupar toda la b√∫squeda.
# ------------------------------------------------------------
with mlflow.start_run(run_name="XGBoost Hyperparameter Optimization (Optuna)", nested=True):
    study.optimize(objective, n_trials=10)

    # --------------------------------------------------------
    # Recuperar y registrar los mejores hiperpar√°metros
    # --------------------------------------------------------
    best_params = study.best_params
    # Asegurar tipos/campos fijos (por claridad y consistencia)
    best_params["max_depth"] = int(best_params["max_depth"])
    best_params["seed"] = 42
    best_params["objective"] = "reg:squarederror"

    mlflow.log_params(best_params)

    # Etiquetas del run "padre" (metadatos del experimento)
    mlflow.set_tags({
        "project": "NYC Taxi Time Prediction Project",
        "optimizer_engine": "optuna",
        "model_family": "xgboost",
        "feature_set_version": 1,
    })

    # --------------------------------------------------------
    # 7) Entrenar un modelo FINAL con los mejores hiperpar√°metros
    #    (normalmente se har√≠a sobre train+val o con CV; aqu√≠ mantenemos el patr√≥n original)
    # --------------------------------------------------------
    booster = xgb.train(
        params=best_params,
        dtrain=train,
        num_boost_round=100,
        evals=[(valid, "validation")],
        early_stopping_rounds=10,
    )

    # Evaluar y registrar la m√©trica final en validaci√≥n
    y_pred = booster.predict(valid)
    rmse = root_mean_squared_error(y_val, y_pred)
    mlflow.log_metric("rmse", rmse)

    # --------------------------------------------------------
    # 8) Guardar artefactos adicionales (p. ej. el preprocesador)
    # --------------------------------------------------------
    pathlib.Path("preprocessor").mkdir(exist_ok=True)
    with open("preprocessor/preprocessor.b", "wb") as f_out:
        pickle.dump(dv, f_out)

    mlflow.log_artifact("preprocessor/preprocessor.b", artifact_path="preprocessor")

    # La "signature" describe la estructura esperada de entrada y salida del modelo:
    # incluye los nombres, tipos y forma (shape) de las variables de entrada y el tipo de salida.
    # MLflow la usa para validar datos en inferencia y documentar el modelo en el Model Registry.
    # Si X_val es la matriz dispersa (scipy.sparse) salida de DictVectorizer:
    feature_names = dv.get_feature_names_out()
    input_example = pd.DataFrame(X_val[:5].toarray(), columns=feature_names)

    # Para que las longitudes coincidan, usa el mismo slice en y_pred
    signature = infer_signature(input_example, y_val[:5])

    # Guardar el modelo del trial como artefacto en MLflow.
    mlflow.xgboost.log_model(
        booster,
        name="model",
        input_example=input_example,
        signature=signature
    )

[I 2025-10-28 18:36:04,530] A new study created in memory with name: no-name-1c29518c-e290-4068-a510-ae5188cbb4e7


MlflowException: Could not find experiment with ID 0

In [16]:
model_name = "workspace.default.nyc-taxi-model"

In [17]:
runs = mlflow.search_runs(
    experiment_names=[EXPERIMENT_NAME],
    order_by=["metrics.rmse ASC"],
    output_format="list"
)

# Obtener el mejor run
if len(runs) > 0:
    best_run = runs[0]
    print("üèÜ Champion Run encontrado:")
    print(f"Run ID: {best_run.info.run_id}")
    print(f"RMSE: {best_run.data.metrics['rmse']}")
    print(f"Params: {best_run.data.params}")
else:
    print("‚ö†Ô∏è No se encontraron runs con m√©trica RMSE.")

NameError: name 'EXPERIMENT_NAME' is not defined

In [18]:
result = mlflow.register_model(
    model_uri=f"runs:/{best_run.info.run_id}/model",
    name=model_name
)

NameError: name 'best_run' is not defined

In [None]:
from mlflow import MlflowClient

client = MlflowClient()

In [None]:
model_version = result.version
new_alias = "Champion"

client.set_registered_model_alias(
    name=model_name,
    alias=new_alias,
    version=result.version
)

## üõ†Ô∏è Anexo: c√≥mo resolver errores de OpenMP (`libomp` / `libgomp`) con XGBoost

Cuando entrenas XGBoost, a veces aparecen errores tipo **‚Äúlibrary not loaded: libomp.dylib‚Äù** (macOS) o **‚Äúcannot open shared object file: libgomp.so.1‚Äù** (Linux) o problemas con **vcomp / OpenMP** (Windows). Aqu√≠ tienes soluciones por sistema operativo.

---

### üçè macOS (Intel y Apple Silicon)
**S√≠ntoma com√∫n:**  
`OSError: dlopen(... libxgboost.dylib ...): Library not loaded: @rpath/libomp.dylib`

**Soluci√≥n r√°pida con Homebrew (recomendado):**
```bash
# Instalar / reinstalar OpenMP
brew update
brew install libomp || brew reinstall libomp

# (opcional) Si sigues con el error en notebooks lanzados desde terminal:
# export DYLD_LIBRARY_PATH antes de abrir Jupyter
echo 'export DYLD_LIBRARY_PATH="/opt/homebrew/opt/libomp/lib:$DYLD_LIBRARY_PATH"' >> ~/.zshrc
source ~/.zshrc
```

**Alternativas:**
- Si usas **Conda**: `conda install -c conda-forge xgboost libomp`  
  (las builds de conda-forge suelen traer las dependencias resueltas).
- En **Jupyter**, reinicia el kernel despu√©s de instalar `libomp`.
- Si el consumo de hilos es demasiado alto en laptops:  
  `export OMP_NUM_THREADS=4` (ajusta a tus cores).

---

### ü™ü Windows (PowerShell / CMD)
**S√≠ntomas comunes:**
- Errores de OpenMP/vcomp o fallos al cargar `xgboost.dll`.
- En WSL (Ubuntu) ver la secci√≥n Linux.

**Soluci√≥n:**
1. Aseg√∫rate de usar **x64** y Python de 64 bits.
2. Instala/actualiza el **Microsoft Visual C++ Redistributable (2015‚Äì2022)**.  
   (Busca ‚ÄúMicrosoft Visual C++ Redistributable x64‚Äù en el sitio oficial de Microsoft e inst√°lalo).
3. Reinstala XGBoost:
   ```powershell
   pip install --upgrade --force-reinstall xgboost
   ```
4. Si tu CPU es de pocos n√∫cleos o ves uso excesivo:
   ```powershell
   setx OMP_NUM_THREADS 4
   ```
   (Cierra y abre la terminal para que aplique).

**Notas:**
- Si usas **Conda**: `conda install -c conda-forge xgboost` suele resolver las DLLs.
- En entornos corporativos restringidos, ejecuta terminal como **Administrador** para el redistributable.

---

### üêß Linux (Ubuntu/Debian, Fedora, Alpine, Docker)
**S√≠ntoma com√∫n:**  
`ImportError: libgomp.so.1: cannot open shared object file: No such file or directory`

**Soluci√≥n (Ubuntu/Debian):**
```bash
sudo apt-get update
sudo apt-get install -y libgomp1
```

**Fedora/CentOS/RHEL:**
```bash
sudo dnf install -y libgomp   # o
sudo yum install -y libgomp
```

**Alpine (musl):**
```bash
sudo apk add libgomp
```

**Docker (por ejemplo, python:3.11-slim):**
```dockerfile
FROM python:3.11-slim
RUN apt-get update && apt-get install -y --no-install-recommends libgomp1 && rm -rf /var/lib/apt/lists/*
RUN pip install xgboost
```

**WSL (Ubuntu):**  
Sigue los pasos de Ubuntu/Debian y reinicia el kernel/notebook.

**Control de hilos (opcional):**
```bash
export OMP_NUM_THREADS=4
```