## Experimentos con Gradient Boosting y Random Forest

### Diego Mercado Coello
### # de expediente: 745441

In [1]:
import pandas as pd
import numpy as np
import pickle
from sklearn.feature_extraction import DictVectorizer
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import RandomizedSearchCV, ParameterSampler
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor
import mlflow
from mlflow import MlflowClient
from scipy.stats import randint, uniform
import dagshub
from dagshub import get_repo_bucket_client
from datetime import datetime
from math import sqrt
import pathlib


In [2]:
# Configurar DAGsHub como el tracking server de MLflow
dagshub.init(url="https://dagshub.com/diego-mercadoc/nyc-taxi-time-prediction", mlflow=True)

MLFLOW_TRACKING_URI = mlflow.get_tracking_uri()
print(MLFLOW_TRACKING_URI)

mlflow.set_tracking_uri(MLFLOW_TRACKING_URI)
mlflow.set_experiment(experiment_name="nyc-taxi-experiment")

https://dagshub.com/diego-mercadoc/nyc-taxi-time-prediction.mlflow


<Experiment: artifact_location='mlflow-artifacts:/4a2f89adc0ff477ead9bc8f38ff1a8ba', creation_time=1726630128698, experiment_id='0', last_update_time=1726630128698, lifecycle_stage='active', name='nyc-taxi-experiment', tags={}>

In [3]:
# Definir función para cargar los datos
def read_dataframe(filename):
    df = pd.read_parquet(filename)

    df['duration'] = df.lpep_dropoff_datetime - df.lpep_pickup_datetime
    df['duration'] = df['duration'].dt.total_seconds() / 60

    df = df[(df.duration >= 1) & (df.duration <= 60)]

    categorical = ['PULocationID', 'DOLocationID']
    df[categorical] = df[categorical].astype(str)

    return df

In [4]:
# Cargar los datos de entrenamiento y validación
df_train = read_dataframe('../data/green_tripdata_2024-01.parquet')
df_val = read_dataframe('../data/green_tripdata_2024-02.parquet')

In [5]:
# Definir función para preprocesar los datos (Feature Engineering)
def preprocess_data(df_train, df_val):
    df_train['PU_DO'] = df_train['PULocationID'] + '_' + df_train['DOLocationID']
    df_val['PU_DO'] = df_val['PULocationID'] + '_' + df_val['DOLocationID']

    categorical = ['PU_DO']
    numerical = ['trip_distance']
    dv = DictVectorizer()

    train_dicts = df_train[categorical + numerical].to_dict(orient='records')
    X_train = dv.fit_transform(train_dicts)

    val_dicts = df_val[categorical + numerical].to_dict(orient='records')
    X_val = dv.transform(val_dicts)

    y_train = df_train['duration'].values
    y_val = df_val['duration'].values

    return X_train, X_val, y_train, y_val, dv

In [6]:
# Preprocesar los datos
X_train, X_val, y_train, y_val, dv = preprocess_data(df_train, df_val)

In [7]:
# Subir los datasets a DAGsHub Storage
s3 = get_repo_bucket_client("diego-mercadoc/nyc-taxi-time-prediction")

# Upload training data
s3.upload_file(
    Bucket="nyc-taxi-time-prediction",
    Filename="../data/green_tripdata_2024-01.parquet",
    Key="train_data.parquet",
)

# Upload validation data
s3.upload_file(
    Bucket="nyc-taxi-time-prediction",
    Filename="../data/green_tripdata_2024-02.parquet",
    Key="eval_data.parquet",
)

In [8]:
# Definir función para entrenar Gradient Boosting con runs anidados
def train_gradient_boosting(X_train, y_train, X_val, y_val, dv):
    from sklearn.model_selection import ParameterSampler
    gb_params = {
        'n_estimators': randint(50, 200),
        'learning_rate': uniform(0.01, 0.3),
        'max_depth': randint(3, 10)
    }
    param_distributions = list(ParameterSampler(gb_params, n_iter=10, random_state=42))
    best_rmse = float('inf')
    best_model = None
    best_params = None
    with mlflow.start_run(run_name="GradientBoostingRegressor") as parent_run:
        mlflow.set_tag("model_family", "GradientBoostingRegressor")
        for params in param_distributions:
            with mlflow.start_run(nested=True):
                mlflow.log_params(params)
                model = GradientBoostingRegressor(**params)
                model.fit(X_train, y_train)
                y_pred = model.predict(X_val)
                rmse = mean_squared_error(y_val, y_pred, squared=False)
                mlflow.log_metric("rmse", rmse)
                if rmse < best_rmse:
                    best_rmse = rmse
                    best_model = model
                    best_params = params
                    best_run_id = mlflow.active_run().info.run_id
        # Loguear el mejor modelo en el run padre
        mlflow.log_params(best_params)
        mlflow.log_metric("best_rmse", best_rmse)
        mlflow.sklearn.log_model(best_model, artifact_path="model")
        # Log preprocessor
        pathlib.Path("models").mkdir(exist_ok=True)
        with open("models/preprocessor.b", "wb") as f_out:
            pickle.dump(dv, f_out)
        mlflow.log_artifact("models/preprocessor.b", artifact_path="preprocessor")
    return best_rmse, parent_run.info.run_id

### Definir función para entrenar Random Forest con runs anidados

In [9]:
def train_random_forest(X_train, y_train, X_val, y_val, dv):
    from sklearn.model_selection import ParameterSampler
    rf_params = {
        'n_estimators': randint(50, 200),
        'max_depth': randint(3, 20),
        'max_features': ['sqrt', 'log2', None]
    }
    param_distributions = list(ParameterSampler(rf_params, n_iter=10, random_state=42))
    best_rmse = float('inf')
    best_model = None
    best_params = None
    with mlflow.start_run(run_name="RandomForestRegressor") as parent_run:
        mlflow.set_tag("model_family", "RandomForestRegressor")
        for params in param_distributions:
            with mlflow.start_run(nested=True):
                mlflow.log_params(params)
                model = RandomForestRegressor(**params)
                model.fit(X_train, y_train)
                y_pred = model.predict(X_val)
                rmse = mean_squared_error(y_val, y_pred, squared=False)
                mlflow.log_metric("rmse", rmse)
                if rmse < best_rmse:
                    best_rmse = rmse
                    best_model = model
                    best_params = params
                    best_run_id = mlflow.active_run().info.run_id
        # Loguear el mejor modelo en el run padre
        mlflow.log_params(best_params)
        mlflow.log_metric("best_rmse", best_rmse)
        mlflow.sklearn.log_model(best_model, artifact_path="model")
        # Log preprocessor
        pathlib.Path("models").mkdir(exist_ok=True)
        with open("models/preprocessor.b", "wb") as f_out:
            pickle.dump(dv, f_out)
        mlflow.log_artifact("models/preprocessor.b", artifact_path="preprocessor")
    return best_rmse, parent_run.info.run_id

In [10]:
# Entrenar los modelos
rmse_gbr, run_id_gbr = train_gradient_boosting(X_train, y_train, X_val, y_val, dv)
rmse_rfr, run_id_rfr = train_random_forest(X_train, y_train, X_val, y_val, dv)

2024/09/23 20:22:41 INFO mlflow.tracking._tracking_service.client: 🏃 View run chill-tern-104 at: https://dagshub.com/diego-mercadoc/nyc-taxi-time-prediction.mlflow/#/experiments/0/runs/d7b71f9171bd43839a806ad392c9bd22.
2024/09/23 20:22:41 INFO mlflow.tracking._tracking_service.client: 🧪 View experiment at: https://dagshub.com/diego-mercadoc/nyc-taxi-time-prediction.mlflow/#/experiments/0.
2024/09/23 20:22:44 INFO mlflow.tracking._tracking_service.client: 🏃 View run classy-sow-747 at: https://dagshub.com/diego-mercadoc/nyc-taxi-time-prediction.mlflow/#/experiments/0/runs/3cc46a5e19c54caca5fac63c60518697.
2024/09/23 20:22:44 INFO mlflow.tracking._tracking_service.client: 🧪 View experiment at: https://dagshub.com/diego-mercadoc/nyc-taxi-time-prediction.mlflow/#/experiments/0.
2024/09/23 20:22:49 INFO mlflow.tracking._tracking_service.client: 🏃 View run unleashed-worm-964 at: https://dagshub.com/diego-mercadoc/nyc-taxi-time-prediction.mlflow/#/experiments/0/runs/cbb5852b672a46e7930c5844037

In [11]:
# Imprimir los RMSE obtenidos
print(f"RMSE GradientBoostingRegressor: {rmse_gbr}")
print(f"RMSE RandomForestRegressor: {rmse_rfr}")

RMSE GradientBoostingRegressor: 5.335801232635329
RMSE RandomForestRegressor: 5.424365799496919


In [12]:
# Determinar el mejor modelo
if rmse_gbr < rmse_rfr:
    best_rmse = rmse_gbr
    best_model_name = "GradientBoostingRegressor"
    best_run_id = run_id_gbr
else:
    best_rmse = rmse_rfr
    best_model_name = "RandomForestRegressor"
    best_run_id = run_id_rfr

print(f"Mejor modelo: {best_model_name} con RMSE: {best_rmse}")

Mejor modelo: GradientBoostingRegressor con RMSE: 5.335801232635329


### Registrar el mejor modelo en MLflow y asignar el alias 'challenger'

In [13]:
# Registrar el nuevo modelo
result = mlflow.register_model(
    model_uri=f"runs:/{best_run_id}/model",
    name="nyc-taxi-model"
)

client = MlflowClient(tracking_uri=MLFLOW_TRACKING_URI)
client.update_registered_model(
    name="nyc-taxi-model",
    description="Modelo para predecir la duración de viajes en taxi en Nueva York"
)

new_version = result.version

# Asignar el alias 'challenger' al nuevo modelo
client.set_registered_model_alias(
    name="nyc-taxi-model",
    alias="challenger",
    version=new_version
)

Registered model 'nyc-taxi-model' already exists. Creating a new version of this model...
2024/09/23 20:24:54 INFO mlflow.store.model_registry.abstract_store: Waiting up to 300 seconds for model version to finish creation. Model name: nyc-taxi-model, version 4
Created version '4' of model 'nyc-taxi-model'.


#### Descargar el conjunto de datos de marzo de 2024

In [14]:
# Descargar los datos de marzo de 2024
!curl -o ../data/green_tripdata_2024-03.parquet https://d37ci6vzurychx.cloudfront.net/trip-data/green_tripdata_2024-03.parquet

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed

  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
100 1340k  100 1340k    0     0  2427k      0 --:--:-- --:--:-- --:--:-- 2432k


### Cargar los modelos 'champion' y 'challenger'

In [15]:
champion_model = mlflow.pyfunc.load_model(model_uri="models:/nyc-taxi-model@champion")
challenger_model = mlflow.pyfunc.load_model(model_uri=f"models:/nyc-taxi-model/{new_version}")

Downloading artifacts:   0%|          | 0/5 [00:00<?, ?it/s]

 - scikit-learn (current: 1.5.1, required: scikit-learn==1.5.2)
To fix the mismatches, call `mlflow.pyfunc.get_model_dependencies(model_uri)` to fetch the model's environment and install dependencies using the resulting environment file.


Downloading artifacts:   0%|          | 0/5 [00:00<?, ?it/s]

### Evaluar ambos modelos en el conjunto de prueba

In [16]:
# Leer el conjunto de prueba
df_test = read_dataframe('../data/green_tripdata_2024-03.parquet')

In [17]:
# Preparar los datos de prueba
def prepare_test_data(df_test, dv):
    df_test['PU_DO'] = df_test['PULocationID'] + '_' + df_test['DOLocationID']
    categorical = ['PU_DO']
    numerical = ['trip_distance']

    test_dicts = df_test[categorical + numerical].to_dict(orient='records')
    X_test = dv.transform(test_dicts)
    y_test = df_test['duration'].values

    return X_test, y_test

In [18]:
# Obtener X_test y y_test
X_test, y_test = prepare_test_data(df_test, dv)

In [19]:
# Evaluar el modelo champion
start_time = datetime.now()

y_pred_champion = champion_model.predict(X_test)
rmse_champion = mean_squared_error(y_test, y_pred_champion, squared=False)
end_time = datetime.now()

champion_time = end_time - start_time

print(f"Tiempo de ejecución del modelo champion: {champion_time}")
print(f"RMSE Champion: {rmse_champion}")

Tiempo de ejecución del modelo champion: 0:00:00.174926
RMSE Champion: 5.204890632355449




In [20]:
# Evaluar el modelo challenger
start_time = datetime.now()

y_pred_challenger = challenger_model.predict(X_test)
rmse_challenger = mean_squared_error(y_test, y_pred_challenger, squared=False)
end_time = datetime.now()

challenger_time = end_time - start_time

print(f"Tiempo de ejecución del modelo challenger: {challenger_time}")
print(f"RMSE Challenger: {rmse_challenger}")

Tiempo de ejecución del modelo challenger: 0:00:00.154118
RMSE Challenger: 5.369724023676936




### Decidir si promover el modelo 'challenger' a 'champion'

In [21]:
if rmse_challenger < rmse_champion:
    # Promover challenger a champion
    client.set_registered_model_alias(
        name="nyc-taxi-model",
        alias="champion",
        version=new_version
    )
    print("El modelo 'challenger' ha sido promovido a 'champion'.")
else:
    print("El modelo 'challenger' no superó al 'champion' y no será promovido.")

El modelo 'challenger' no superó al 'champion' y no será promovido.


In [24]:
from IPython.display import Markdown as md

md(f"""
# Análisis para Decidir la Promoción del Modelo Challenger

### Resultados Obtenidos:

- **RMSE del Modelo Champion**: **{rmse_champion:.4f}**
- **RMSE del Modelo Challenger**: **{rmse_challenger:.4f}**
- **Tiempo de Inferencia del Modelo Champion**: **{champion_time}**
- **Tiempo de Inferencia del Modelo Challenger**: **{challenger_time}**

---

### 1. Rendimiento (RMSE):

- El **modelo champion** tiene un RMSE menor que el **modelo challenger**, indicando una mejor precisión en las predicciones.
- La diferencia en RMSE es de aproximadamente **{abs(rmse_champion - rmse_challenger):.4f}**.

**Conclusión:** En términos de precisión, el **modelo champion** es superior.

---

### 2. Tiempo de Inferencia:

- El **modelo challenger** es más rápido en tiempo de inferencia.
- La diferencia en tiempo es de aproximadamente **{(champion_time - challenger_time).total_seconds():.4f} segundos**.

**Análisis:**

- La mejora en tiempo de inferencia es mínima y puede no justificar una menor precisión.

**Conclusión:** El **modelo champion** sigue siendo preferible por su mejor precisión.

---

### Decisión Final:

**No se recomienda promover el modelo 'challenger' a 'champion' en este momento.**

---

### Justificación:

- **Mayor Precisión del Champion:** Ofrece predicciones más exactas.
- **Diferencia de Tiempo Mínima:** La mejora en tiempo de inferencia del 'challenger' es mínima y no compensa la pérdida de precisión.
- **Riesgos Asociados:** Cambiar el modelo podría introducir riesgos sin beneficios significativos.

---

### Acciones Recomendadas:

- **Optimización Continua:** Explorar otras técnicas o ajustar hiperparámetros para mejorar futuros modelos 'challenger'.
- **Monitoreo Constante:** Observar el desempeño de ambos modelos, ya que cambios en los datos podrían alterar su rendimiento.
- **Consulta con el Negocio:** Confirmar si los requerimientos podrían cambiar, haciendo que la velocidad sea más importante.
""")


# Análisis para Decidir la Promoción del Modelo Challenger

### Resultados Obtenidos:

- **RMSE del Modelo Champion**: **5.2049**
- **RMSE del Modelo Challenger**: **5.3697**
- **Tiempo de Inferencia del Modelo Champion**: **0:00:00.174926**
- **Tiempo de Inferencia del Modelo Challenger**: **0:00:00.154118**

---

### 1. Rendimiento (RMSE):

- El **modelo champion** tiene un RMSE menor que el **modelo challenger**, indicando una mejor precisión en las predicciones.
- La diferencia en RMSE es de aproximadamente **0.1648**.

**Conclusión:** En términos de precisión, el **modelo champion** es superior.

---

### 2. Tiempo de Inferencia:

- El **modelo challenger** es más rápido en tiempo de inferencia.
- La diferencia en tiempo es de aproximadamente **0.0208 segundos**.

**Análisis:**

- La mejora en tiempo de inferencia es mínima y puede no justificar una menor precisión.

**Conclusión:** El **modelo champion** sigue siendo preferible por su mejor precisión.

---

### Decisión Final:

**No se recomienda promover el modelo 'challenger' a 'champion' en este momento.**

---

### Justificación:

- **Mayor Precisión del Champion:** Ofrece predicciones más exactas.
- **Diferencia de Tiempo Mínima:** La mejora en tiempo de inferencia del 'challenger' es mínima y no compensa la pérdida de precisión.
- **Riesgos Asociados:** Cambiar el modelo podría introducir riesgos sin beneficios significativos.

---

### Acciones Recomendadas:

- **Optimización Continua:** Explorar otras técnicas o ajustar hiperparámetros para mejorar futuros modelos 'challenger'.
- **Monitoreo Constante:** Observar el desempeño de ambos modelos, ya que cambios en los datos podrían alterar su rendimiento.
- **Consulta con el Negocio:** Confirmar si los requerimientos podrían cambiar, haciendo que la velocidad sea más importante.
