Combinacion de resultados - Ensemble

In [1]:
# Importar librerías necesarias
import pandas as pd
import numpy as np

print("Librerías importadas correctamente")

Librerías importadas correctamente


In [2]:
# Cargar los archivos de predicciones
print("Cargando archivos de predicciones...")

# Cargar predicciones de AutoGluon
pred_autogluon = pd.read_csv('data/pred_autogluon_01.csv')
print(f"AutoGluon - Shape: {pred_autogluon.shape}")
print("AutoGluon - Primeras filas:")
print(pred_autogluon.head())

print("\n" + "="*50 + "\n")

# Cargar predicciones de Regresión Lineal
pred_regresion = pd.read_csv('data/pred_regresion_lineal01.csv')
print(f"Regresión Lineal - Shape: {pred_regresion.shape}")
print("Regresión Lineal - Primeras filas:")
print(pred_regresion.head())

Cargando archivos de predicciones...
AutoGluon - Shape: (780, 2)
AutoGluon - Primeras filas:
   product_id           tn
0       20001  1322.782727
1       20002  1076.158858
2       20003   696.172870
3       20004   519.217793
4       20005   501.010270


Regresión Lineal - Shape: (780, 2)
Regresión Lineal - Primeras filas:
   product_id           tn
0       20001  1162.707525
1       20002  1183.640604
2       20003   684.763931
3       20004   580.484961
4       20005   563.560780


In [3]:
# Verificar que ambos archivos tienen los mismos productos
print("Verificando consistencia de datos...")
print(f"Productos únicos en AutoGluon: {pred_autogluon['product_id'].nunique()}")
print(f"Productos únicos en Regresión Lineal: {pred_regresion['product_id'].nunique()}")

# Verificar si tienen exactamente los mismos product_ids
productos_autogluon = set(pred_autogluon['product_id'])
productos_regresion = set(pred_regresion['product_id'])

if productos_autogluon == productos_regresion:
    print("✅ Ambos archivos tienen exactamente los mismos productos")
else:
    print("⚠️ Los archivos NO tienen los mismos productos")
    en_autogluon_no_en_regresion = productos_autogluon - productos_regresion
    en_regresion_no_en_autogluon = productos_regresion - productos_autogluon
    
    if en_autogluon_no_en_regresion:
        print(f"Productos en AutoGluon pero no en Regresión: {len(en_autogluon_no_en_regresion)}")
    if en_regresion_no_en_autogluon:
        print(f"Productos en Regresión pero no en AutoGluon: {len(en_regresion_no_en_autogluon)}")

print(f"\nProductos en común: {len(productos_autogluon & productos_regresion)}")

Verificando consistencia de datos...
Productos únicos en AutoGluon: 780
Productos únicos en Regresión Lineal: 780
✅ Ambos archivos tienen exactamente los mismos productos

Productos en común: 780


In [4]:
# Crear ensemble promediando las predicciones
print("Creando ensemble promediando las predicciones...")

# Renombrar las columnas tn para distinguir los modelos
pred_autogluon_renamed = pred_autogluon.rename(columns={'tn': 'tn_autogluon'})
pred_regresion_renamed = pred_regresion.rename(columns={'tn': 'tn_regresion'})

# Hacer merge por product_id
ensemble_data = pd.merge(
    pred_autogluon_renamed, 
    pred_regresion_renamed, 
    on='product_id', 
    how='inner'
)

print(f"Datos después del merge: {ensemble_data.shape}")
print("\nPrimeras filas del merge:")
print(ensemble_data.head())

# Calcular el promedio de las predicciones
ensemble_data['tn'] = (ensemble_data['tn_autogluon'] + ensemble_data['tn_regresion']) / 2

print(f"\nEstadísticas del ensemble:")
print(f"Promedio de tn: {ensemble_data['tn'].mean():.2f}")
print(f"Mediana de tn: {ensemble_data['tn'].median():.2f}")
print(f"Std de tn: {ensemble_data['tn'].std():.2f}")

# Mostrar comparación de los primeros productos
print(f"\nComparación de predicciones para los primeros 5 productos:")
comparison = ensemble_data[['product_id', 'tn_autogluon', 'tn_regresion', 'tn']].head()
print(comparison)

Creando ensemble promediando las predicciones...
Datos después del merge: (780, 3)

Primeras filas del merge:
   product_id  tn_autogluon  tn_regresion
0       20001   1322.782727   1162.707525
1       20002   1076.158858   1183.640604
2       20003    696.172870    684.763931
3       20004    519.217793    580.484961
4       20005    501.010270    563.560780

Estadísticas del ensemble:
Promedio de tn: 35.96
Mediana de tn: 9.02
Std de tn: 92.80

Comparación de predicciones para los primeros 5 productos:
   product_id  tn_autogluon  tn_regresion           tn
0       20001   1322.782727   1162.707525  1242.745126
1       20002   1076.158858   1183.640604  1129.899731
2       20003    696.172870    684.763931   690.468400
3       20004    519.217793    580.484961   549.851377
4       20005    501.010270    563.560780   532.285525


In [5]:
# Crear el archivo final con solo product_id y tn promediado
print("Preparando datos finales para guardar...")

# Seleccionar solo las columnas necesarias para el archivo final
resultado_final = ensemble_data[['product_id', 'tn']].copy()

# Verificar que no hay valores nulos
print(f"Valores nulos en el resultado final: {resultado_final.isnull().sum().sum()}")
print(f"Shape del resultado final: {resultado_final.shape}")

print("\nPrimeras 10 filas del resultado final:")
print(resultado_final.head(10))

print(f"\nÚltimas 5 filas del resultado final:")
print(resultado_final.tail())

Preparando datos finales para guardar...
Valores nulos en el resultado final: 0
Shape del resultado final: (780, 2)

Primeras 10 filas del resultado final:
   product_id           tn
0       20001  1242.745126
1       20002  1129.899731
2       20003   690.468400
3       20004   549.851377
4       20005   532.285525
5       20006   467.134765
6       20007   394.212203
7       20008   406.082441
8       20009   470.562106
9       20010   400.904045

Últimas 5 filas del resultado final:
     product_id        tn
775       20962  3.277247
776       20975  2.983791
777       20995  2.836510
778       21087  1.142943
779       21214  0.615009


In [8]:
# Guardar el archivo final
archivo_salida = "data/pred_autogluon_rl_01.csv"

print(f"Guardando resultado en: {archivo_salida}")

# Guardar el archivo
resultado_final.to_csv(archivo_salida, index=False)

print(f"✅ Archivo guardado exitosamente: {archivo_salida}")
print(f"Total de productos en el ensemble: {len(resultado_final)}")

# Verificar que el archivo se guardó correctamente
import os
if os.path.exists(archivo_salida):
    tamaño_archivo = os.path.getsize(archivo_salida)
    print(f"Tamaño del archivo: {tamaño_archivo} bytes")
    
    # Leer las primeras líneas del archivo guardado para verificar
    verificacion = pd.read_csv(archivo_salida, nrows=3)
    print(f"\nVerificación - Primeras 3 líneas del archivo guardado:")
    print(verificacion)
else:
    print("⚠️ Error: No se pudo crear el archivo")

Guardando resultado en: data/pred_autogluon_rl_01.csv
✅ Archivo guardado exitosamente: data/pred_autogluon_rl_01.csv
Total de productos en el ensemble: 780
Tamaño del archivo: 19930 bytes

Verificación - Primeras 3 líneas del archivo guardado:
   product_id           tn
0       20001  1242.745126
1       20002  1129.899731
2       20003   690.468400


In [7]:
# Análisis final del ensemble
print("RESUMEN DEL ENSEMBLE")
print("="*50)

# Estadísticas descriptivas de cada modelo
print("Estadísticas de AutoGluon:")
print(f"  Promedio: {ensemble_data['tn_autogluon'].mean():.2f}")
print(f"  Mediana:  {ensemble_data['tn_autogluon'].median():.2f}")
print(f"  Std:      {ensemble_data['tn_autogluon'].std():.2f}")

print("\nEstadísticas de Regresión Lineal:")
print(f"  Promedio: {ensemble_data['tn_regresion'].mean():.2f}")
print(f"  Mediana:  {ensemble_data['tn_regresion'].median():.2f}")
print(f"  Std:      {ensemble_data['tn_regresion'].std():.2f}")

print("\nEstadísticas del Ensemble (Promedio):")
print(f"  Promedio: {ensemble_data['tn'].mean():.2f}")
print(f"  Mediana:  {ensemble_data['tn'].median():.2f}")
print(f"  Std:      {ensemble_data['tn'].std():.2f}")

# Correlación entre modelos
correlacion = ensemble_data['tn_autogluon'].corr(ensemble_data['tn_regresion'])
print(f"\nCorrelación entre modelos: {correlacion:.4f}")

print(f"\n✅ Ensemble completado exitosamente!")
print(f"Archivo final: pred_autogluon_rl_01.csv")
print(f"Total de productos: {len(resultado_final)}")

RESUMEN DEL ENSEMBLE
Estadísticas de AutoGluon:
  Promedio: 36.25
  Mediana:  9.06
  Std:      93.69

Estadísticas de Regresión Lineal:
  Promedio: 35.67
  Mediana:  9.04
  Std:      92.24

Estadísticas del Ensemble (Promedio):
  Promedio: 35.96
  Mediana:  9.02
  Std:      92.80

Correlación entre modelos: 0.9931

✅ Ensemble completado exitosamente!
Archivo final: pred_autogluon_rl_01.csv
Total de productos: 780
