In [55]:
# gradient_boosting.ipynb
# -------------------------------------------------------
# Experimento con Gradient Boosting Regression
# Proyecto 4 - Introducción a la IA
# -------------------------------------------------------

# 1. Importaciones necesarias
import pandas as pd
import numpy as np
import time
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error, r2_score
from itertools import product

In [56]:
# 2. Cargar los datos de entrenamiento, validación y prueba
X_train = pd.read_csv("../Datos/Train_X.csv")
y_train = pd.read_csv("../Datos/Train_Y.csv").values.ravel()

X_val = pd.read_csv("../Datos/Validation_1.csv")
y_val = pd.read_csv("../Datos/Validation_2.csv").values.ravel()

X_test = pd.read_csv("../Datos/Test_1.csv")
y_test = pd.read_csv("../Datos/Test_2.csv").values.ravel()

print("✅ Datos cargados correctamente")
print(f"Train shape: {X_train.shape}, Validation shape: {X_val.shape}, Test shape: {X_test.shape}")

✅ Datos cargados correctamente
Train shape: (596, 8), Validation shape: (199, 8), Test shape: (199, 8)


In [57]:
# 3. Definir combinaciones de hiperparámetros
params = {
    "n_estimators": [50, 100, 200],
    "learning_rate": [0.01, 0.05, 0.1],
    "max_depth": [2, 3, 4]
}

print("🔧 Hiperparámetros definidos:")
for k, v in params.items():
    print(f"  {k}: {v}")

🔧 Hiperparámetros definidos:
  n_estimators: [50, 100, 200]
  learning_rate: [0.01, 0.05, 0.1]
  max_depth: [2, 3, 4]


In [58]:
# 4. Entrenar y evaluar todas las combinaciones
resultados = []

for n_estimators, learning_rate, max_depth in product(
    params["n_estimators"], params["learning_rate"], params["max_depth"]
):
    start = time.time()  # medir tiempo de inicio
    
    model = GradientBoostingRegressor(
        n_estimators=n_estimators,
        learning_rate=learning_rate,
        max_depth=max_depth,
        random_state=42
    )
    model.fit(X_train, y_train)
    
    end = time.time()  # medir tiempo final
    tiempo_total = end - start
    
    # Predicciones
    y_train_pred = model.predict(X_train)
    y_val_pred = model.predict(X_val)
    
    # Métricas
    mse_train = mean_squared_error(y_train, y_train_pred)
    mse_val = mean_squared_error(y_val, y_val_pred)
    r2_train = r2_score(y_train, y_train_pred)
    r2_val = r2_score(y_val, y_val_pred)
    
    resultados.append({
        "n_estimators": n_estimators,
        "learning_rate": learning_rate,
        "max_depth": max_depth,
        "MSE_Train": mse_train,
        "MSE_Val": mse_val,
        "R2_Train": r2_train,
        "R2_Val": r2_val,
        "Tiempo (s)": round(tiempo_total, 3)
    })
    
    print(f"Modelo terminado: n_estimators={n_estimators}, lr={learning_rate}, depth={max_depth}, tiempo={tiempo_total:.2f}s")

Modelo terminado: n_estimators=50, lr=0.01, depth=2, tiempo=0.06s
Modelo terminado: n_estimators=50, lr=0.01, depth=3, tiempo=0.07s
Modelo terminado: n_estimators=50, lr=0.01, depth=4, tiempo=0.16s
Modelo terminado: n_estimators=50, lr=0.05, depth=2, tiempo=0.05s
Modelo terminado: n_estimators=50, lr=0.05, depth=3, tiempo=0.12s
Modelo terminado: n_estimators=50, lr=0.05, depth=4, tiempo=0.07s
Modelo terminado: n_estimators=50, lr=0.1, depth=2, tiempo=0.06s
Modelo terminado: n_estimators=50, lr=0.1, depth=3, tiempo=0.11s
Modelo terminado: n_estimators=50, lr=0.1, depth=4, tiempo=0.07s
Modelo terminado: n_estimators=100, lr=0.01, depth=2, tiempo=0.16s
Modelo terminado: n_estimators=100, lr=0.01, depth=3, tiempo=0.14s
Modelo terminado: n_estimators=100, lr=0.01, depth=4, tiempo=0.17s
Modelo terminado: n_estimators=100, lr=0.05, depth=2, tiempo=0.11s
Modelo terminado: n_estimators=100, lr=0.05, depth=3, tiempo=0.19s
Modelo terminado: n_estimators=100, lr=0.05, depth=4, tiempo=0.21s
Modelo 

In [None]:
# 5. Crear tabla comparativa de resultados
df_resultados = pd.DataFrame(resultados)
df_resultados_sorted = df_resultados.sort_values(by="MSE_Val")
display(df_resultados_sorted.head(10))  # mostrar los 10 mejores

print("\n📊 Mejor modelo según MSE en validación:")
mejor = df_resultados_sorted.iloc[0]
print(mejor)

"""
En esta tabla:
- Los valores con 'Train' muestran el desempeño del modelo con los datos que ya conocía (entrenamiento).
- Los valores con 'Val' reflejan su rendimiento con datos nuevos que nunca había visto.
Ambos indican qué tan bien aprende el modelo y qué tan bien logra generalizar a casos nuevos.
"""

Unnamed: 0,n_estimators,learning_rate,max_depth,MSE_Train,MSE_Val,R2_Train,R2_Val,Tiempo (s)
24,200,0.1,2,0.095437,0.340417,0.9026,0.696725,0.261
16,100,0.1,3,0.076482,0.341716,0.921946,0.695568,0.161
21,200,0.05,2,0.12545,0.344093,0.87197,0.693451,0.285
7,50,0.1,3,0.110932,0.345109,0.886788,0.692545,0.114
15,100,0.1,2,0.125164,0.345204,0.872263,0.69246,0.093
22,200,0.05,3,0.077918,0.348385,0.92048,0.689626,0.303
25,200,0.1,3,0.041986,0.350167,0.95715,0.688039,0.331
13,100,0.05,3,0.109666,0.352016,0.888079,0.686392,0.187
14,100,0.05,4,0.069272,0.353757,0.929303,0.684841,0.208
17,100,0.1,4,0.039478,0.35611,0.95971,0.682744,0.201



📊 Mejor modelo según MSE en validación:
n_estimators     200.000000
learning_rate      0.100000
max_depth          2.000000
MSE_Train          0.095437
MSE_Val            0.340417
R2_Train           0.902600
R2_Val             0.696725
Tiempo (s)         0.261000
Name: 24, dtype: float64


In [60]:
# 6. Evaluación final del mejor modelo
mejor_modelo = GradientBoostingRegressor(
    n_estimators=int(mejor["n_estimators"]),
    learning_rate=mejor["learning_rate"],
    max_depth=int(mejor["max_depth"]),
    random_state=42
)
mejor_modelo.fit(X_train, y_train)

y_test_pred = mejor_modelo.predict(X_test)
mse_test = mean_squared_error(y_test, y_test_pred)
r2_test = r2_score(y_test, y_test_pred)

print("\n--- Rendimiento final ---")
print(f"MSE (Test): {mse_test:.4f}")
print(f"R² (Test): {r2_test:.4f}")



--- Rendimiento final ---
MSE (Test): 0.2109
R² (Test): 0.7712


In [61]:

# 7. Predicción con un dato inventado
nuevo = pd.DataFrame([X_train.mean()], columns=X_train.columns)
pred_nuevo = mejor_modelo.predict(nuevo)

print("\n🔮 Predicción con un pedido promedio:")
print(f"Tiempo estimado de entrega: {pred_nuevo[0]:.2f} minutos")



🔮 Predicción con un pedido promedio:
Tiempo estimado de entrega: -0.13 minutos


In [None]:
# 8. conclusiones
"""
- Mientras más bajo es el MSE y más alto es el R², mejor es el desempeño del modelo.
   Esto indica que el algoritmo logra predecir con mayor precisión los tiempos de entrega
   y entiende mejor la variabilidad de los datos.

- Los hiperparámetros elegidos (número de árboles, tasa de aprendizaje y profundidad)
   influyen directamente en la capacidad del modelo para estimar correctamente el tiempo de demora.
   Representan cuántos árboles conforman el modelo, qué tanto aprende cada uno y qué tan profundo
   analiza los errores antes de corregirlos.

- En general, se observó que al aumentar la cantidad de árboles y la complejidad del modelo,
   el R² tiende a incrementarse (mayor precisión), pero también aumenta el tiempo de entrenamiento.
   Es decir, el modelo se vuelve más exacto, aunque más lento en su ejecución.
"""