# Entrenamiento de Modelos con MLFlow

## Objetivo
Entrenar y comparar modelos de regresión para predecir precios de automóviles, utilizando MLFlow para:
1. Registrar experimentos y parámetros
2. Rastrear métricas de desempeño
3. Guardar y versionar modelos
4. Facilitar la reproducibilidad

## Modelos a entrenar:
- **Regresión Lineal**: Modelo base simple
- **Random Forest**: Modelo más complejo con mejor capacidad de capturar relaciones no lineales

In [1]:
# Importar librerías
import pandas as pd
import numpy as np
from pathlib import Path
import joblib

# Machine Learning
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# MLFlow para tracking de experimentos
import mlflow
import mlflow.sklearn

# Configuración
import warnings
warnings.filterwarnings('ignore')

print("Librerías importadas correctamente.")

Librerías importadas correctamente.


## 1. Configuración de MLFlow

MLFlow es una plataforma para gestionar el ciclo de vida de Machine Learning, incluyendo experimentación, reproducibilidad y deployment.

In [2]:
# Configurar MLFlow
# Crear directorio para almacenar experimentos
mlflow_dir = Path('../mlruns')
mlflow_dir.mkdir(exist_ok=True)

# Establecer URI de tracking (almacenamiento local)
mlflow.set_tracking_uri(f"file:///{mlflow_dir.absolute()}")

# Crear o usar experimento existente
experiment_name = "prediccion_precios_automoviles"
mlflow.set_experiment(experiment_name)

print(f"Experimento configurado: {experiment_name}")
print(f"Tracking URI: {mlflow.get_tracking_uri()}")

2025/10/26 15:49:20 INFO mlflow.tracking.fluent: Experiment with name 'prediccion_precios_automoviles' does not exist. Creating a new experiment.


Experimento configurado: prediccion_precios_automoviles
Tracking URI: file:////Users/david.palacio/Documents/academia/data-projects-lab/projects/prediccion-precios-automoviles/notebooks/../mlruns


## 2. Carga y Preparación de Datos

In [3]:
# Cargar dataset
data_path = Path('../data/raw/automoviles_usados.parquet')
df = pd.read_parquet(data_path)

print(f"Dataset cargado: {len(df)} registros")
df.head()

Dataset cargado: 10000 registros


Unnamed: 0,marca,tipo_carroceria,año,kilometraje,tipo_combustible,transmision,cilindrada,potencia,peso,consumo,color,edad_propietarios,calificacion_estado,region_venta,precio
0,Ford,Hatchback,2015,400000,Gasolina,Automática,2039,93,1690,7.269729,Rojo,1,7.269855,Sur,2400.0
1,Mercedes-Benz,Sedán,2021,400000,Gasolina,Manual,1606,91,1476,7.508579,Gris,1,7.224478,Sur,15500.0
2,Hyundai,Hatchback,2015,400000,Gasolina,Manual,2204,120,1373,8.237119,Azul,2,7.377436,Oeste,2100.0
3,Nissan,Sedán,2017,400000,Diesel,Automática,1894,96,1191,6.526941,Blanco,4,4.944675,Norte,2600.0
4,Honda,Hatchback,2020,400000,Gasolina,Automática,1775,80,1139,7.587182,Azul,2,3.025227,Sur,2200.0


In [4]:
# Separar características (X) y variable objetivo (y)
X = df.drop('precio', axis=1)
y = df['precio']

print(f"Características (X): {X.shape}")
print(f"Variable objetivo (y): {y.shape}")

Características (X): (10000, 14)
Variable objetivo (y): (10000,)


In [5]:
# Identificar columnas numéricas y categóricas
# Excluimos 'precio' ya que es la variable objetivo
numeric_features = ['año', 'kilometraje', 'cilindrada', 'potencia', 'peso', 
                   'consumo', 'edad_propietarios', 'calificacion_estado']

categorical_features = ['marca', 'tipo_carroceria', 'tipo_combustible', 
                       'transmision', 'color', 'region_venta']

print(f"Variables numéricas: {len(numeric_features)}")
print(numeric_features)
print(f"\nVariables categóricas: {len(categorical_features)}")
print(categorical_features)

Variables numéricas: 8
['año', 'kilometraje', 'cilindrada', 'potencia', 'peso', 'consumo', 'edad_propietarios', 'calificacion_estado']

Variables categóricas: 6
['marca', 'tipo_carroceria', 'tipo_combustible', 'transmision', 'color', 'region_venta']


## 3. División Train/Test

Dividimos los datos en conjuntos de entrenamiento (80%) y prueba (20%) para evaluar el desempeño del modelo en datos no vistos.

In [6]:
# Split train/test con semilla fija para reproducibilidad
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2, 
    random_state=42
)

print(f"Conjunto de entrenamiento: {X_train.shape[0]} registros")
print(f"Conjunto de prueba: {X_test.shape[0]} registros")
print(f"\nProporción train/test: {X_train.shape[0]/len(df):.1%} / {X_test.shape[0]/len(df):.1%}")

Conjunto de entrenamiento: 8000 registros
Conjunto de prueba: 2000 registros

Proporción train/test: 80.0% / 20.0%


## 4. Pipeline de Preprocesamiento

Creamos un pipeline que:
- **Variables numéricas**: Aplica StandardScaler para normalizar (media=0, std=1)
- **Variables categóricas**: Aplica OneHotEncoder para convertir categorías en variables binarias

El uso de pipelines asegura que el preprocesamiento sea consistente entre train y test.

In [7]:
# Crear transformadores para cada tipo de variable
numeric_transformer = StandardScaler()
categorical_transformer = OneHotEncoder(handle_unknown='ignore', sparse_output=False)

# Combinar transformadores en un ColumnTransformer
# Esto permite aplicar diferentes transformaciones a diferentes columnas
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ]
)

print("Pipeline de preprocesamiento creado.")

Pipeline de preprocesamiento creado.


## 5. Función para Evaluar Modelos

Creamos una función para calcular métricas estándar de regresión:
- **RMSE** (Root Mean Squared Error): Error cuadrático medio, penaliza errores grandes
- **MAE** (Mean Absolute Error): Error absoluto medio, más robusto a outliers
- **R²** (Coeficiente de determinación): Proporción de varianza explicada (0-1, mayor es mejor)

In [8]:
def evaluate_model(y_true, y_pred, model_name="Modelo"):
    """
    Calcula y muestra métricas de evaluación para un modelo de regresión.
    
    Args:
        y_true: Valores reales
        y_pred: Valores predichos
        model_name: Nombre del modelo para identificación
    
    Returns:
        dict: Diccionario con las métricas calculadas
    """
    rmse = np.sqrt(mean_squared_error(y_true, y_pred))
    mae = mean_absolute_error(y_true, y_pred)
    r2 = r2_score(y_true, y_pred)
    
    metrics = {
        'RMSE': rmse,
        'MAE': mae,
        'R2': r2
    }
    
    print(f"\n{'='*60}")
    print(f"Métricas para {model_name}:")
    print(f"{'='*60}")
    print(f"  RMSE (Root Mean Squared Error): ${rmse:,.2f}")
    print(f"  MAE  (Mean Absolute Error):     ${mae:,.2f}")
    print(f"  R²   (R-squared):               {r2:.4f} ({r2*100:.2f}%)")
    print(f"{'='*60}\n")
    
    return metrics

## 6. Entrenamiento - Modelo 1: Regresión Lineal

La regresión lineal es un modelo simple que asume relaciones lineales entre características y la variable objetivo. Sirve como baseline para comparar modelos más complejos.

In [9]:
# Iniciar un run de MLFlow para este experimento
with mlflow.start_run(run_name="linear_regression"):
    
    print("Entrenando modelo: Regresión Lineal")
    
    # Crear pipeline completo: preprocesamiento + modelo
    pipeline_lr = Pipeline([
        ('preprocessor', preprocessor),
        ('regressor', LinearRegression())
    ])
    
    # Entrenar modelo
    pipeline_lr.fit(X_train, y_train)
    print("Modelo entrenado.")
    
    # Hacer predicciones
    y_train_pred = pipeline_lr.predict(X_train)
    y_test_pred = pipeline_lr.predict(X_test)
    
    # Evaluar en conjunto de entrenamiento
    print("\nEvaluación en conjunto de ENTRENAMIENTO:")
    train_metrics = evaluate_model(y_train, y_train_pred, "Regresión Lineal - Train")
    
    # Evaluar en conjunto de prueba
    print("Evaluación en conjunto de PRUEBA:")
    test_metrics = evaluate_model(y_test, y_test_pred, "Regresión Lineal - Test")
    
    # Registrar parámetros en MLFlow
    mlflow.log_param("model_type", "LinearRegression")
    mlflow.log_param("test_size", 0.2)
    mlflow.log_param("random_state", 42)
    mlflow.log_param("n_features", X_train.shape[1])
    mlflow.log_param("n_samples_train", X_train.shape[0])
    
    # Registrar métricas de entrenamiento en MLFlow
    mlflow.log_metric("train_rmse", train_metrics['RMSE'])
    mlflow.log_metric("train_mae", train_metrics['MAE'])
    mlflow.log_metric("train_r2", train_metrics['R2'])
    
    # Registrar métricas de prueba en MLFlow
    mlflow.log_metric("test_rmse", test_metrics['RMSE'])
    mlflow.log_metric("test_mae", test_metrics['MAE'])
    mlflow.log_metric("test_r2", test_metrics['R2'])
    
    # Guardar modelo en MLFlow
    mlflow.sklearn.log_model(pipeline_lr, "model")
    
    print("Métricas y modelo registrados en MLFlow.")



Entrenando modelo: Regresión Lineal
Modelo entrenado.

Evaluación en conjunto de ENTRENAMIENTO:

Métricas para Regresión Lineal - Train:
  RMSE (Root Mean Squared Error): $2,889.84
  MAE  (Mean Absolute Error):     $1,729.63
  R²   (R-squared):               0.7933 (79.33%)

Evaluación en conjunto de PRUEBA:

Métricas para Regresión Lineal - Test:
  RMSE (Root Mean Squared Error): $2,818.62
  MAE  (Mean Absolute Error):     $1,718.15
  R²   (R-squared):               0.7770 (77.70%)





Métricas y modelo registrados en MLFlow.


## 7. Entrenamiento - Modelo 2: Random Forest

Random Forest es un modelo basado en árboles de decisión que:
- Puede capturar relaciones no lineales
- Es robusto a outliers
- Maneja bien la interacción entre variables
- Generalmente tiene mejor desempeño que regresión lineal en datos complejos

In [10]:
# Iniciar un nuevo run de MLFlow para Random Forest
with mlflow.start_run(run_name="random_forest"):
    
    print("Entrenando modelo: Random Forest")
    
    # Definir hiperparámetros para Random Forest
    rf_params = {
        'n_estimators': 100,        # Número de árboles en el bosque
        'max_depth': 20,            # Profundidad máxima de cada árbol
        'min_samples_split': 5,     # Mínimo de muestras para dividir un nodo
        'min_samples_leaf': 2,      # Mínimo de muestras en una hoja
        'random_state': 42,         # Para reproducibilidad
        'n_jobs': -1                # Usar todos los cores disponibles
    }
    
    # Crear pipeline completo
    pipeline_rf = Pipeline([
        ('preprocessor', preprocessor),
        ('regressor', RandomForestRegressor(**rf_params))
    ])
    
    # Entrenar modelo
    pipeline_rf.fit(X_train, y_train)
    print("Modelo entrenado.")
    
    # Hacer predicciones
    y_train_pred_rf = pipeline_rf.predict(X_train)
    y_test_pred_rf = pipeline_rf.predict(X_test)
    
    # Evaluar en conjunto de entrenamiento
    print("\nEvaluación en conjunto de ENTRENAMIENTO:")
    train_metrics_rf = evaluate_model(y_train, y_train_pred_rf, "Random Forest - Train")
    
    # Evaluar en conjunto de prueba
    print("Evaluación en conjunto de PRUEBA:")
    test_metrics_rf = evaluate_model(y_test, y_test_pred_rf, "Random Forest - Test")
    
    # Registrar parámetros en MLFlow
    mlflow.log_param("model_type", "RandomForest")
    mlflow.log_param("test_size", 0.2)
    mlflow.log_param("random_state", 42)
    mlflow.log_param("n_features", X_train.shape[1])
    mlflow.log_param("n_samples_train", X_train.shape[0])
    
    # Registrar hiperparámetros específicos de Random Forest
    for param_name, param_value in rf_params.items():
        mlflow.log_param(f"rf_{param_name}", param_value)
    
    # Registrar métricas de entrenamiento en MLFlow
    mlflow.log_metric("train_rmse", train_metrics_rf['RMSE'])
    mlflow.log_metric("train_mae", train_metrics_rf['MAE'])
    mlflow.log_metric("train_r2", train_metrics_rf['R2'])
    
    # Registrar métricas de prueba en MLFlow
    mlflow.log_metric("test_rmse", test_metrics_rf['RMSE'])
    mlflow.log_metric("test_mae", test_metrics_rf['MAE'])
    mlflow.log_metric("test_r2", test_metrics_rf['R2'])
    
    # Guardar modelo en MLFlow
    mlflow.sklearn.log_model(pipeline_rf, "model")
    
    print("Métricas y modelo registrados en MLFlow.")

Entrenando modelo: Random Forest




Modelo entrenado.

Evaluación en conjunto de ENTRENAMIENTO:

Métricas para Random Forest - Train:
  RMSE (Root Mean Squared Error): $649.88
  MAE  (Mean Absolute Error):     $301.62
  R²   (R-squared):               0.9895 (98.95%)

Evaluación en conjunto de PRUEBA:

Métricas para Random Forest - Test:
  RMSE (Root Mean Squared Error): $1,309.54
  MAE  (Mean Absolute Error):     $632.21
  R²   (R-squared):               0.9519 (95.19%)





Métricas y modelo registrados en MLFlow.


## 8. Comparación de Modelos

In [11]:
# Crear tabla comparativa
comparison_df = pd.DataFrame({
    'Modelo': ['Regresión Lineal', 'Random Forest'],
    'RMSE (Test)': [test_metrics['RMSE'], test_metrics_rf['RMSE']],
    'MAE (Test)': [test_metrics['MAE'], test_metrics_rf['MAE']],
    'R² (Test)': [test_metrics['R2'], test_metrics_rf['R2']],
    'R² (Train)': [train_metrics['R2'], train_metrics_rf['R2']]
})

# Calcular overfitting (diferencia entre R² train y test)
comparison_df['Overfitting (R²)'] = comparison_df['R² (Train)'] - comparison_df['R² (Test)']

print("\n" + "="*80)
print("COMPARACIÓN DE MODELOS")
print("="*80)
print(comparison_df.to_string(index=False))
print("="*80)

# Identificar mejor modelo (basado en R² de test)
best_model_idx = comparison_df['R² (Test)'].idxmax()
best_model_name = comparison_df.loc[best_model_idx, 'Modelo']
best_r2 = comparison_df.loc[best_model_idx, 'R² (Test)']

print(f"\nMejor modelo: {best_model_name} (R² = {best_r2:.4f})")


COMPARACIÓN DE MODELOS
          Modelo  RMSE (Test)  MAE (Test)  R² (Test)  R² (Train)  Overfitting (R²)
Regresión Lineal  2818.615068 1718.152500   0.776961    0.793335          0.016374
   Random Forest  1309.536472  632.206624   0.951856    0.989548          0.037692

Mejor modelo: Random Forest (R² = 0.9519)


## 9. Análisis de Importancia de Variables (Random Forest)

Random Forest permite identificar qué variables contribuyen más a las predicciones.

In [12]:
# Obtener el modelo Random Forest del pipeline
rf_model = pipeline_rf.named_steps['regressor']

# Obtener nombres de características después del preprocesamiento
# Para categóricas, OneHotEncoder crea múltiples columnas
cat_encoder = pipeline_rf.named_steps['preprocessor'].named_transformers_['cat']
cat_feature_names = cat_encoder.get_feature_names_out(categorical_features)
feature_names = list(numeric_features) + list(cat_feature_names)

# Crear DataFrame con importancias
feature_importance_df = pd.DataFrame({
    'Feature': feature_names,
    'Importance': rf_model.feature_importances_
}).sort_values('Importance', ascending=False)

print("\nTop 15 variables más importantes (Random Forest):")
print(feature_importance_df.head(15).to_string(index=False))


Top 15 variables más importantes (Random Forest):
                  Feature  Importance
                      año    0.534450
      calificacion_estado    0.169433
      marca_Mercedes-Benz    0.074182
               marca_Audi    0.067488
                marca_BMW    0.051460
              kilometraje    0.041028
      tipo_carroceria_SUV    0.013850
                  consumo    0.011631
tipo_carroceria_Hatchback    0.007182
                     peso    0.003702
    tipo_carroceria_Sedán    0.003426
               cilindrada    0.003130
                 potencia    0.002930
   tipo_carroceria_Pickup    0.002014
tipo_combustible_Gasolina    0.001769


## 10. Guardar Mejor Modelo

Guardamos el modelo con mejor desempeño para su uso posterior en producción.

In [13]:
# Crear directorio para modelos
models_dir = Path('../models')
models_dir.mkdir(exist_ok=True)

# Determinar qué modelo guardar (el de mejor R²)
if best_model_name == 'Random Forest':
    best_pipeline = pipeline_rf
    model_filename = 'random_forest_best_model.pkl'
else:
    best_pipeline = pipeline_lr
    model_filename = 'linear_regression_best_model.pkl'

# Guardar modelo usando joblib (formato eficiente para sklearn)
model_path = models_dir / model_filename
joblib.dump(best_pipeline, model_path)

print(f"\nModelo guardado en: {model_path}")
print(f"Modelo: {best_model_name}")
print(f"R² en test: {best_r2:.4f}")

# También guardamos información de las características
metadata = {
    'model_type': best_model_name,
    'numeric_features': numeric_features,
    'categorical_features': categorical_features,
    'test_r2': float(best_r2),
    'feature_names': feature_names
}

import json
metadata_path = models_dir / 'model_metadata.json'
with open(metadata_path, 'w') as f:
    json.dump(metadata, f, indent=2)

print(f"Metadata guardada en: {metadata_path}")


Modelo guardado en: ../models/random_forest_best_model.pkl
Modelo: Random Forest
R² en test: 0.9519
Metadata guardada en: ../models/model_metadata.json


## 11. Cómo Visualizar Experimentos en MLFlow UI

Para visualizar los experimentos registrados en la interfaz web de MLFlow, ejecuta en terminal:

```bash
cd projects/prediccion-precios-automoviles
mlflow ui --backend-store-uri file:///$(pwd)/mlruns
```

Luego abre tu navegador en: http://localhost:5000

En la UI podrás:
- Comparar métricas entre diferentes runs
- Visualizar parámetros de cada experimento
- Descargar modelos guardados
- Crear gráficos de comparación

## Conclusión

### Resultados del entrenamiento:

Se entrenaron exitosamente dos modelos de regresión y se registraron sus métricas en MLFlow:

1. **Regresión Lineal** (modelo baseline):
   - Modelo simple que asume relaciones lineales
   - Útil como punto de referencia
   - Entrenable rápidamente
   - Interpretabilidad alta

2. **Random Forest** (modelo avanzado):
   - Captura relaciones no lineales y complejas
   - Mayor capacidad predictiva
   - Proporciona importancia de variables
   - Más robusto a outliers

### Próximos pasos:

Con el mejor modelo guardado, podemos:
1. Implementar módulos Python reutilizables (config, preprocessing, training, predict)
2. Crear interfaces de usuario con Gradio
3. Desarrollar APIs con FastAPI para servir predicciones
4. Realizar fine-tuning de hiperparámetros con validación cruzada
5. Explorar modelos más avanzados (XGBoost, LightGBM)