## Configuraciones comunes para un ambiente de `MLflow Tracking`.
![](https://mlflow.org/docs/3.0.1/assets/images/tracking-setup-overview-3d8cfd511355d9379328d69573763331.png)

### Escenario 2
```python
# set mlflow tracking uri
import mlflow
mlflow.set_tracking_uri('sqlite:///mlflow.db')
```

### Escenario 3
MLFlow remoto

```python
import mlflow

mlflow.set_tracking_uri('url/remote/server')
```


| Escenario | 1. Localhost (por defecto) | 2. Seguimiento local con base de datos local | 3. Seguimiento remoto con **MLflow Tracking Server** |
|------------|-----------------------------|-----------------------------------------------|------------------------------------------------------|
| **Caso de uso** | Desarrollo individual | Desarrollo individual | Desarrollo en equipo |
| **Descripción** | Por defecto, MLflow guarda los metadatos y artefactos de cada ejecución en un directorio local llamado `mlruns`. Es la forma más simple de comenzar con MLflow Tracking, sin necesidad de configurar servidores, bases de datos o almacenamiento externos. | El cliente de MLflow puede conectarse con una base de datos compatible con SQLAlchemy (por ejemplo, SQLite, PostgreSQL o MySQL) como *backend*. Guardar los metadatos en una base de datos permite una gestión más limpia de los datos de los experimentos, evitando el esfuerzo de configurar un servidor. | El servidor de seguimiento de MLflow puede configurarse con un *proxy* HTTP para artefactos, redirigiendo las solicitudes de artefactos a través del servidor para almacenar y recuperar sin interactuar directamente con los servicios de almacenamiento subyacentes. Es especialmente útil para entornos de trabajo en equipo, donde se necesita almacenar artefactos y metadatos de experimentos en una ubicación compartida con control de acceso adecuado. |


## `MLflow`: Beneficios
* El `Tracking server` puede ser fácilmente desplegado en la nube
* Compartir experimentos con otros Data Scientists
* Colaborar con otros para construir y desplegar modelos
* Dar más visibilidad de los esfuerzos del equipo de Data Science.

## `MLflow`: Problemas cuando se ejecutan servidores remotos compartidos
* Seguridad:
    * Restringir el acceso al server (por ejemplo a través de una VPN)
* Isolation:
    * Definir un estándar para nombrar experimentos, modelos y un conjunto de tags predeterminados.
    * Restringir el acceso a los artefactos  

## `MLflow`: Limitaciones
* **Autenticación y Usuarios:** La versión open source de `MLflow` no provee ningún tipo de autenticación
* **Versionamiento de datos** 
    * Para asegurar total reproducibilidad, necesitamos versionar los datos que se usan para entrenar el modelo.
    * `MLflow` no provee una solución para eso, pero hay maneras de mitigarlo
* **Monitoreo del modelo y datos:** Veremos la herramienta adecuada para este fin 

## 🚀 Databricks  
<div style="text-align:center">
  <img src="https://upload.wikimedia.org/wikipedia/commons/6/63/Databricks_Logo.png" alt="Databricks Logo" width="300">
</div>

### 💡 Introducción  
**Databricks** es mucho más que una plataforma: es el punto de encuentro entre los datos, la analítica y el aprendizaje automático.  
Nació de los creadores de **Apache Spark**, y hoy impulsa el trabajo colaborativo entre ingenieros, científicos de datos y analistas dentro de un mismo entorno unificado.  

Su mayor fortaleza está en la **integración nativa con MLflow**, el framework open source creado también por Databricks para gestionar el ciclo de vida completo de los modelos de *machine learning*: desde el tracking de experimentos hasta el registro, versionado y despliegue.  

En pocas palabras, Databricks ofrece el espacio perfecto para llevar las ideas desde el *notebook* hasta producción, con escalabilidad, control y colaboración en la nube — todo sin fricción. ⚡  

---

### ⚙️ Características Clave  
1. **Plataforma Unificada**: Combina análisis de datos, machine learning e ingeniería en un mismo espacio colaborativo.  
2. **Escalabilidad Transparente**: Ejecuta cargas en la nube sin preocuparte por la infraestructura subyacente.  
3. **Integración con MLflow**: Registra, compara y despliega modelos directamente desde la interfaz de Databricks.  
4. **Workspaces Colaborativos**: Crea notebooks compartidos, comenta resultados y trabaja en tiempo real con tu equipo.  
5. **Arquitectura Lakehouse**: Integra data lakes y data warehouses en una única fuente de verdad.  
6. **Automatización de Pipelines**: Orquesta jobs y flujos de ML con solo unos clics o scripts reproducibles.  
7. **Conectividad Total**: Compatible con GitHub, APIs y herramientas open source del ecosistema ML.

---

### Pasos para Crear una Cuenta Gratuita en Databricks Free Edition
1. Dirígete a la página oficial de registro de cuenta gratuita: [Registrarse en Free Edition](https://www.databricks.com/learn/free-edition)  
2. Haz clic en **"Sign up for Free Edition"** y registra un correo electrónico.
3. Completa el formulario con los datos solicitados.  
4. Acepta los términos de servicio y haz clic en crear la cuenta.  
5. Automáticamente se creará un **workspace** gratuito para ti, sin necesidad de elegir proveedor de nube. 

---

#### Nota:
- Esta edición gratuita (“Free Edition”) es ideal para aprendizaje, pruebas, prototipos, pero **tiene limitaciones** de recursos, como uso reducido de cómputo y almacenamiento.
- No necesitas elegir un proveedor de nube durante el registro de la Free Edition; la plataforma gestiona automáticamente el entorno.  
- La integración de MLflow ya viene incluida dentro del ecosistema Databricks — no es necesario configurarla aparte.



## 🧭 Actividad: Experimentos de MLflow en Databricks

**Objetivo:** aprender a **rastrear experimentos** y **registrar modelos** con **MLflow** usando **Databricks** en el repositorio `nyc-taxi-prediction-2025`.

---

### 1) Preparación del repositorio (git)

1. Asegúrate de estar al día en la rama `main`:
   ```bash
   git checkout main && git pull origin main
   ```
2. Crea la nueva rama de trabajo:
   ```bash
   git checkout -b databricks-experiments
   ```

---

### 2) Crear estructura para los experimentos

1. En la **raíz** del repo, crea el directorio:
   ```bash
   mkdir -p experiments
   ```
2. Crea el notebook vacío:
   ```
   experiments/01-databricks_mlflow_model_experiments.ipynb
   ```

---

### 3) Crear el archivo `.env` con credenciales de Databricks

1. Inicia sesión en **Databricks Free Edition**.  
2. Copia la URL de tu workspace (servirá como `DATABRICKS_HOST`), con forma:
   ```
   https://<tu-workspace>.cloud.databricks.com
   ```
3. Genera un **Personal Access Token (PAT)**:
   - Ve a *User settings → Developer → Access tokens → Generate new token*.
   - Copia el token (solo se muestra una vez).

4. En la **raíz** del repositorio, crea un archivo `.env` con el siguiente contenido:

   ```
   DATABRICKS_HOST=https://<tu-workspace>.cloud.databricks.com
   DATABRICKS_TOKEN=<TU_TOKEN>
   ```

5. Asegúrate de agregar `.env` al archivo `.gitignore` para **no subirlo al repositorio**.

🧩 **Datos que necesitaremos:**
- `DATABRICKS_HOST` → URL de tu workspace.  
- `DATABRICKS_TOKEN` → tu token personal.  

---

### 4) Instalar dependencias necesarias

Con **uv**:
```bash
uv add mlflow jupyter xgboost optuna
```

### 5) Configurar el *Experiment* en el notebook

Primera celda del archivo `experiments/01-databricks_mlflow_model_experiments.ipynb`:

In [None]:
import os, mlflow
from dotenv import load_dotenv

load_dotenv(override=True)  # Carga las variables del archivo .env
EXPERIMENT_NAME = "/Users/<tu_correo>/nyc-taxi-experiments"

mlflow.set_tracking_uri("databricks")
experiment = mlflow.set_experiment(experiment_name=EXPERIMENT_NAME)

## MLFlow Cheatsheet

![ml flow cheatsheet](images/mlflow-cheatsheet.png)


## Vamos a reutilizar el código que ya hemos usado

Importar las librerías necesarias y definir función para importar los datos

In [None]:
import pickle
import pandas as pd
from sklearn.metrics import  root_mean_squared_error
from sklearn.feature_extraction import  DictVectorizer

In [None]:
def read_dataframe(filename):

    df = pd.read_parquet(filename)

    df['duration'] = df.lpep_dropoff_datetime - df.lpep_pickup_datetime
    df.duration = df.duration.apply(lambda td: td.total_seconds() / 60)

    df = df[(df.duration >= 1) & (df.duration <= 60)]

    categorical = ['PULocationID', 'DOLocationID']
    df[categorical] = df[categorical].astype(str)

    return df

In [None]:
df_train = read_dataframe('../data/green_tripdata_2025-01.parquet')
df_val = read_dataframe('../data/green_tripdata_2025-02.parquet')

Feature Engineering + One Hot Encoding

In [None]:
def preprocess(df, dv):
    df['PU_DO'] = df['PULocationID'] + '_' + df['DOLocationID']
    categorical = ['PU_DO']
    numerical = ['trip_distance']
    train_dicts = df[categorical + numerical].to_dict(orient='records')
    return dv.transform(train_dicts)

In [None]:
categorical = ['PULocationID', 'DOLocationID']
numerical = ['trip_distance']
dv = DictVectorizer()

train_dicts = df_train[categorical + numerical].to_dict(orient='records')
X_train = dv.fit_transform(train_dicts)

X_val = preprocess(df_val, dv)

Target

In [None]:
target = 'duration'
y_train = df_train[target].values
y_val = df_val[target].values

Definir los `dataset` como objetos de `mlflow` para poderlos trackear

In [None]:
training_dataset = mlflow.data.from_numpy(X_train.data, targets=y_train, name="green_tripdata_2025-01")
validation_dataset = mlflow.data.from_numpy(X_val.data, targets=y_val, name="green_tripdata_2025-02")

## 🔧 Tunning de Hiper-parámetros para un modelo `xgboost` - Optuna

El **tunning de hiper-parámetros** consiste en encontrar la mejor combinación de parámetros que optimizan el rendimiento de un modelo.

En lugar de probar valores manualmente, usamos librerías como **Optuna**, que aplican estrategias inteligentes de búsqueda (*Bayesian optimization*, *Tree-structured Parzen Estimator*, etc.) para acelerar el proceso y encontrar resultados más robustos.

En este caso, usaremos **Optuna** para ajustar un modelo de **XGBoost**, definiendo un espacio de búsqueda para parámetros como:
| Parámetro | Descripción |
|------------|--------------|
| `max_depth` | Profundidad máxima de los árboles | 
| `learning_rate` | Tasa de aprendizaje (escala logarítmica) | 
| `reg_alpha` | Regularización L1 (α) | 
| `reg_lambda` | Regularización L2 (λ) | 
| `min_child_weight` | Peso mínimo de muestras por hoja | 
| `objective` | Función objetivo | 
| `seed` | Semilla aleatoria | 

Durante el proceso, Optuna crea un **“study”** donde cada *trial* representa una combinación de parámetros probada.  

Cada *trial* puede registrarse con **MLflow**, lo que permite visualizar métricas, comparar resultados y seleccionar el modelo más prometedor.

Ejemplo simplificado de estructura:

```python
import math, optuna, xgboost as xgb, mlflow

def objective(trial):
    params = {
        "max_depth": trial.suggest_int("max_depth", 4, 100),
        "learning_rate": trial.suggest_float("learning_rate", math.exp(-3), 1.0, log=True),
        "reg_alpha": trial.suggest_float("reg_alpha", math.exp(-5), math.exp(-1), log=True),
        "reg_lambda": trial.suggest_float("reg_lambda", math.exp(-6), math.exp(-1), log=True),
        "min_child_weight": trial.suggest_float("min_child_weight", math.exp(-1), math.exp(3), log=True),
        "objective": "reg:squarederror",
        "seed": 42,
    }

    with mlflow.start_run(nested=True):
        mlflow.log_params(params)
        booster = xgb.train(params, dtrain, evals=[(dvalid, "validation")])
        preds = booster.predict(dvalid)
        rmse = mean_squared_error(y_valid, preds, squared=False)
        mlflow.log_metric("rmse", rmse)
    return rmse

study = optuna.create_study(direction="minimize")
study.optimize(objective, n_trials=20)
```

🔹 **Ventajas de usar Optuna con MLflow:**
- Seguimiento automático de métricas y parámetros.  
- Comparación visual de resultados en la UI de MLflow.  
- Integración fluida con Databricks y notebooks colaborativos.  

---

📚 **Referencia interesante:**  
👉 [https://xgboosting.com/](https://xgboosting.com/) — Guía práctica con ejemplos avanzados de *tunning* y técnicas modernas para modelos de **XGBoost** y **Optuna**.


In [None]:
import math
import optuna
import pathlib
import xgboost as xgb
from optuna.samplers import TPESampler
from mlflow.models.signature import infer_signature

In [None]:
train = xgb.DMatrix(X_train, label=y_train)
valid = xgb.DMatrix(X_val, label=y_val)

### Función Objetivo

In [None]:
# ------------------------------------------------------------
# Definir la función objetivo para Optuna
#    - Recibe un `trial`, que se usa para proponer hiperparámetros.
#    - Entrena un modelo con esos hiperparámetros.
#    - Calcula la métrica de validación (RMSE) y la retorna (Optuna la minimizará).
#    - Abrimos un run anidado de MLflow para registrar cada trial.
# ------------------------------------------------------------
def objective(trial: optuna.trial.Trial):
    # Hiperparámetros MUESTREADOS por Optuna en CADA trial.
    # Nota: usamos log=True para emular rangos log-uniformes (similar a loguniform).
    params = {
        "max_depth": trial.suggest_int("max_depth", 4, 100),
        "learning_rate": trial.suggest_float("learning_rate", math.exp(-3), 1.0, log=True),
        "reg_alpha": trial.suggest_float("reg_alpha",   math.exp(-5), math.exp(-1), log=True),
        "reg_lambda": trial.suggest_float("reg_lambda", math.exp(-6), math.exp(-1), log=True),
        "min_child_weight": trial.suggest_float("min_child_weight", math.exp(-1), math.exp(3), log=True),
        "objective": "reg:squarederror",  
        "seed": 42,                      
    }

    # Run anidado para dejar rastro de cada trial en MLflow
    with mlflow.start_run(nested=True):
        mlflow.set_tag("model_family", "xgboost")  # etiqueta informativa
        mlflow.log_params(params)                  # registra hiperparámetros del trial

        # Entrenamiento con early stopping en el conjunto de validación
        booster = xgb.train(
            params=params,
            dtrain=train,
            num_boost_round=100,
            evals=[(valid, "validation")],
            early_stopping_rounds=10,
        )

        # Predicción y métrica en validación
        y_pred = booster.predict(valid)
        rmse = root_mean_squared_error(y_val, y_pred)

        # Registrar la métrica principal
        mlflow.log_metric("rmse", rmse)

        # La "signature" describe la estructura esperada de entrada y salida del modelo:
        # incluye los nombres, tipos y forma (shape) de las variables de entrada y el tipo de salida.
        # MLflow la usa para validar datos en inferencia y documentar el modelo en el Model Registry.
        signature = infer_signature(X_val, y_pred)

        # Guardar el modelo del trial como artefacto en MLflow.
        mlflow.xgboost.log_model(
            booster,
            name="model",
            input_example=X_val[:5],
            signature=signature
        )

    # Optuna minimiza el valor retornado
    return rmse

### Flujo de búsqueda

In [None]:
mlflow.xgboost.autolog(log_models=False)

# ------------------------------------------------------------
# Crear el estudio de Optuna
#    - Usamos TPE (Tree-structured Parzen Estimator) como sampler.
#    - direction="minimize" porque queremos minimizar el RMSE.
# ------------------------------------------------------------
sampler = TPESampler(seed=42)
study = optuna.create_study(direction="minimize", sampler=sampler)

# ------------------------------------------------------------
# Ejecutar la optimización (n_trials = número de intentos)
#    - Cada trial ejecuta la función objetivo con un set distinto de hiperparámetros.
#    - Abrimos un run "padre" para agrupar toda la búsqueda.
# ------------------------------------------------------------
with mlflow.start_run(run_name="XGBoost Hyperparameter Optimization (Optuna)", nested=True):
    study.optimize(objective, n_trials=3)

    # --------------------------------------------------------
    # Recuperar y registrar los mejores hiperparámetros
    # --------------------------------------------------------
    best_params = study.best_params
    # Asegurar tipos/campos fijos (por claridad y consistencia)
    best_params["max_depth"] = int(best_params["max_depth"])
    best_params["seed"] = 42
    best_params["objective"] = "reg:squarederror"

    mlflow.log_params(best_params)

    # Etiquetas del run "padre" (metadatos del experimento)
    mlflow.set_tags({
        "project": "NYC Taxi Time Prediction Project",
        "optimizer_engine": "optuna",
        "model_family": "xgboost",
        "feature_set_version": 1,
    })

    # --------------------------------------------------------
    # 7) Entrenar un modelo FINAL con los mejores hiperparámetros
    #    (normalmente se haría sobre train+val o con CV; aquí mantenemos el patrón original)
    # --------------------------------------------------------
    booster = xgb.train(
        params=best_params,
        dtrain=train,
        num_boost_round=100,
        evals=[(valid, "validation")],
        early_stopping_rounds=10,
    )

    # Evaluar y registrar la métrica final en validación
    y_pred = booster.predict(valid)
    rmse = root_mean_squared_error(y_val, y_pred)
    mlflow.log_metric("rmse", rmse)

    # --------------------------------------------------------
    # 8) Guardar artefactos adicionales (p. ej. el preprocesador)
    # --------------------------------------------------------
    pathlib.Path("preprocessor").mkdir(exist_ok=True)
    with open("preprocessor/preprocessor.b", "wb") as f_out:
        pickle.dump(dv, f_out)

    mlflow.log_artifact("preprocessor/preprocessor.b", artifact_path="preprocessor")

    # La "signature" describe la estructura esperada de entrada y salida del modelo:
    # incluye los nombres, tipos y forma (shape) de las variables de entrada y el tipo de salida.
    # MLflow la usa para validar datos en inferencia y documentar el modelo en el Model Registry.
    # Si X_val es la matriz dispersa (scipy.sparse) salida de DictVectorizer:
    feature_names = dv.get_feature_names_out()
    input_example = pd.DataFrame(X_val[:5].toarray(), columns=feature_names)

    # Para que las longitudes coincidan, usa el mismo slice en y_pred
    signature = infer_signature(input_example, y_val[:5])

    # Guardar el modelo del trial como artefacto en MLflow.
    mlflow.xgboost.log_model(
        booster,
        name="model",
        input_example=input_example,
        signature=signature
    )

## Registrar modelo en `Model Registry`

In [None]:
model_name = "workspace.default.nyc-taxi-model"

In [None]:
run_id = input("Ingrese el run_id")
run_uri = f"runs:/{run_id}/model"

result = mlflow.register_model(
    model_uri=run_uri,
    name="workspace.default.nyc-taxi-model"
)

In [None]:
runs = mlflow.search_runs(
    experiment_names=[EXPERIMENT_NAME],
    order_by=["metrics.rmse ASC"],
    output_format="list"
)

# Obtener el mejor run
if len(runs) > 0:
    best_run = runs[0]
    print("🏆 Champion Run encontrado:")
    print(f"Run ID: {best_run.info.run_id}")
    print(f"RMSE: {best_run.data.metrics['rmse']}")
    print(f"Params: {best_run.data.params}")
else:
    print("⚠️ No se encontraron runs con métrica RMSE.")

In [None]:
result = mlflow.register_model(
    model_uri=f"runs:/{best_run.info.run_id}/model",
    name=model_name
)

### Asignar alias

In [None]:
from mlflow import MlflowClient

client = MlflowClient()

In [None]:
model_version = result.version
new_alias = "Champion"

client.set_registered_model_alias(
    name=model_name,
    alias=new_alias,
    version=result.version
)

In [None]:
from datetime import datetime

date = datetime.today()

client.update_model_version(
    name=model_name,
    version=model_version,
    description=f"The model version {model_version} was transitioned to {new_alias} on {date}",
)

### Obteniendo modelos del `Moldel Registry`

In [None]:
import mlflow.pyfunc

model_version_uri = f"models:/{model_name}@Champion"

champion_version = mlflow.pyfunc.load_model(model_version_uri)
champion_version.predict(X_val)


## Tarea y actividad en clase.

1. Hacer merge de la rama que trabajamos a main.
2. Crear una nueva rama que se llame `feat: tarea 5`.
3. Crear un nuevo `jupyter-notebook` llamado `challenger-experiments.ipynb` en la rama creada anteriormente
4. Hacer dos `parent experiments` con `Gradient Boost` y `Random Forest` regressors en donde cada uno tenga `child experiments` con búsqueda de hyper-parámetros. Puede usar cualquier libreraría con la que se sienta cómodo: `hyperopt`, `optuna`, `scikit-learn` (Grid Search, Random Search, Halving Search etc)
5. Registrar el modelo con la mejor métrica `validation-rmse` de los obtenidos en dichos experimentos en el `model registry` en el mismo modelo ya previamente creado `nyc-taxi-model`.
6. Asígnele el alias `challenger`
7. Descargue en la carpeta `data` el conjunto de datos correspondiente a marzo del 2025
9. Use ese conjunto de datos para probarlo sobre los modelos con el alias `champion` y `challenger`
10. Obtenga la métrica de cada modelo
11. Decida si el nuevo modelo `challenger` debe ser promovido a `champion` o no. Use los criterios que usted como Data Scientis considere relevantes y justifique la respuesta.
12. Abrir un `PR` con los cambios hechos en la rama `feat: tarea 5` hacia la rama `main`.


Habrá dos entregas divididas de la siguiente manera:

1. **Trabajo en clase hoy Martes 21 de Octubre de 2025.** Para esta entrega, hacer un commit con el siguiente mensaje `feat: entrega trabajo en clase` con los avances realizados en clase.

2. **Tarea: Martes 28 de Octubre de 2025 a las 19:55.** Esta entrega debe contener todo lo descrito anteriormente

## 🛠️ Anexo: cómo resolver errores de OpenMP (`libomp` / `libgomp`) con XGBoost

Cuando entrenas XGBoost, a veces aparecen errores tipo **“library not loaded: libomp.dylib”** (macOS) o **“cannot open shared object file: libgomp.so.1”** (Linux) o problemas con **vcomp / OpenMP** (Windows). Aquí tienes soluciones por sistema operativo.

---

### 🍏 macOS (Intel y Apple Silicon)
**Síntoma común:**  
`OSError: dlopen(... libxgboost.dylib ...): Library not loaded: @rpath/libomp.dylib`

**Solución rápida con Homebrew (recomendado):**
```bash
# Instalar / reinstalar OpenMP
brew update
brew install libomp || brew reinstall libomp

# (opcional) Si sigues con el error en notebooks lanzados desde terminal:
# export DYLD_LIBRARY_PATH antes de abrir Jupyter
echo 'export DYLD_LIBRARY_PATH="/opt/homebrew/opt/libomp/lib:$DYLD_LIBRARY_PATH"' >> ~/.zshrc
source ~/.zshrc
```

**Alternativas:**
- Si usas **Conda**: `conda install -c conda-forge xgboost libomp`  
  (las builds de conda-forge suelen traer las dependencias resueltas).
- En **Jupyter**, reinicia el kernel después de instalar `libomp`.
- Si el consumo de hilos es demasiado alto en laptops:  
  `export OMP_NUM_THREADS=4` (ajusta a tus cores).

---

### 🪟 Windows (PowerShell / CMD)
**Síntomas comunes:**
- Errores de OpenMP/vcomp o fallos al cargar `xgboost.dll`.
- En WSL (Ubuntu) ver la sección Linux.

**Solución:**
1. Asegúrate de usar **x64** y Python de 64 bits.
2. Instala/actualiza el **Microsoft Visual C++ Redistributable (2015–2022)**.  
   (Busca “Microsoft Visual C++ Redistributable x64” en el sitio oficial de Microsoft e instálalo).
3. Reinstala XGBoost:
   ```powershell
   pip install --upgrade --force-reinstall xgboost
   ```
4. Si tu CPU es de pocos núcleos o ves uso excesivo:
   ```powershell
   setx OMP_NUM_THREADS 4
   ```
   (Cierra y abre la terminal para que aplique).

**Notas:**
- Si usas **Conda**: `conda install -c conda-forge xgboost` suele resolver las DLLs.
- En entornos corporativos restringidos, ejecuta terminal como **Administrador** para el redistributable.

---

### 🐧 Linux (Ubuntu/Debian, Fedora, Alpine, Docker)
**Síntoma común:**  
`ImportError: libgomp.so.1: cannot open shared object file: No such file or directory`

**Solución (Ubuntu/Debian):**
```bash
sudo apt-get update
sudo apt-get install -y libgomp1
```

**Fedora/CentOS/RHEL:**
```bash
sudo dnf install -y libgomp   # o
sudo yum install -y libgomp
```

**Alpine (musl):**
```bash
sudo apk add libgomp
```

**Docker (por ejemplo, python:3.11-slim):**
```dockerfile
FROM python:3.11-slim
RUN apt-get update && apt-get install -y --no-install-recommends libgomp1 && rm -rf /var/lib/apt/lists/*
RUN pip install xgboost
```

**WSL (Ubuntu):**  
Sigue los pasos de Ubuntu/Debian y reinicia el kernel/notebook.

**Control de hilos (opcional):**
```bash
export OMP_NUM_THREADS=4
```