Combinacion de modelos 

In [1]:
# Importar librerías necesarias
import pandas as pd
import numpy as np

print("Librerías importadas correctamente")
print("Combinación: Primeros 300 productos de AutoGluon+RL, resto de Regresión Lineal")

Librerías importadas correctamente
Combinación: Primeros 300 productos de AutoGluon+RL, resto de Regresión Lineal


In [2]:
# Cargar los archivos de predicciones
print("Cargando archivos de predicciones...")

# Cargar predicciones del ensemble AutoGluon + Regresión Lineal
pred_autogluon_rl = pd.read_csv('pred_autogluon_rl_01.csv')
print(f"AutoGluon+RL Ensemble - Shape: {pred_autogluon_rl.shape}")
print("AutoGluon+RL Ensemble - Primeras filas:")
print(pred_autogluon_rl.head())

print("\n" + "="*50 + "\n")

# Cargar predicciones de Regresión Lineal puro
pred_regresion = pd.read_csv('data/pred_regresion_lineal01.csv')
print(f"Regresión Lineal - Shape: {pred_regresion.shape}")
print("Regresión Lineal - Primeras filas:")
print(pred_regresion.head())

# Verificar que ambos archivos tienen product_ids ordenados
print(f"\nProduct_id mínimo AutoGluon+RL: {pred_autogluon_rl['product_id'].min()}")
print(f"Product_id máximo AutoGluon+RL: {pred_autogluon_rl['product_id'].max()}")
print(f"Product_id mínimo Regresión: {pred_regresion['product_id'].min()}")
print(f"Product_id máximo Regresión: {pred_regresion['product_id'].max()}")

Cargando archivos de predicciones...
AutoGluon+RL Ensemble - Shape: (780, 2)
AutoGluon+RL Ensemble - Primeras filas:
   product_id           tn
0       20001  1242.745126
1       20002  1129.899731
2       20003   690.468400
3       20004   549.851377
4       20005   532.285525


Regresión Lineal - Shape: (780, 2)
Regresión Lineal - Primeras filas:
   product_id           tn
0       20001  1162.707525
1       20002  1183.640604
2       20003   684.763931
3       20004   580.484961
4       20005   563.560780

Product_id mínimo AutoGluon+RL: 20001
Product_id máximo AutoGluon+RL: 21276
Product_id mínimo Regresión: 20001
Product_id máximo Regresión: 21276


In [3]:
# Ordenar los datos por product_id para garantizar consistencia
print("Ordenando datos por product_id...")

# Ordenar ambos dataframes por product_id
pred_autogluon_rl = pred_autogluon_rl.sort_values('product_id').reset_index(drop=True)
pred_regresion = pred_regresion.sort_values('product_id').reset_index(drop=True)

print("Datos ordenados correctamente")

# Verificar que ambos archivos tienen los mismos product_ids
productos_autogluon_rl = set(pred_autogluon_rl['product_id'])
productos_regresion = set(pred_regresion['product_id'])

if productos_autogluon_rl == productos_regresion:
    print("✅ Ambos archivos tienen exactamente los mismos productos")
    productos_totales = len(productos_autogluon_rl)
    print(f"Total de productos disponibles: {productos_totales}")
else:
    print("⚠️ Los archivos NO tienen exactamente los mismos productos")
    productos_comunes = productos_autogluon_rl & productos_regresion
    print(f"Productos comunes: {len(productos_comunes)}")
    
print(f"\nPrimeros 5 product_ids ordenados:")
print(pred_autogluon_rl['product_id'].head().tolist())

Ordenando datos por product_id...
Datos ordenados correctamente
✅ Ambos archivos tienen exactamente los mismos productos
Total de productos disponibles: 780

Primeros 5 product_ids ordenados:
[20001, 20002, 20003, 20004, 20005]


In [4]:
# Crear la combinación: primeros 300 productos del ensemble, resto de regresión lineal
print("Creando combinación de modelos...")

# Definir el punto de corte
corte_productos = 300
total_productos = len(pred_autogluon_rl)

print(f"Estrategia de combinación:")
print(f"  - Primeros {corte_productos} productos: AutoGluon+RL Ensemble")
print(f"  - Productos {corte_productos+1} a {total_productos}: Regresión Lineal")

# Tomar los primeros 300 productos del ensemble
primeros_300 = pred_autogluon_rl.head(corte_productos).copy()
primeros_300['origen'] = 'AutoGluon+RL_Ensemble'

# Tomar los productos restantes de regresión lineal
productos_restantes = pred_regresion.iloc[corte_productos:].copy()
productos_restantes['origen'] = 'Regresion_Lineal'

print(f"\nPrimeros 300 productos (del ensemble):")
print(f"  Shape: {primeros_300.shape}")
print(f"  Product_id rango: {primeros_300['product_id'].min()} - {primeros_300['product_id'].max()}")

print(f"\nProductos restantes (de regresión lineal):")
print(f"  Shape: {productos_restantes.shape}")
print(f"  Product_id rango: {productos_restantes['product_id'].min()} - {productos_restantes['product_id'].max()}")

# Combinar ambos conjuntos
combinacion_final = pd.concat([primeros_300, productos_restantes], ignore_index=True)

print(f"\nCombinación final:")
print(f"  Shape total: {combinacion_final.shape}")
print(f"  Productos del ensemble: {(combinacion_final['origen'] == 'AutoGluon+RL_Ensemble').sum()}")
print(f"  Productos de regresión: {(combinacion_final['origen'] == 'Regresion_Lineal').sum()}")

Creando combinación de modelos...
Estrategia de combinación:
  - Primeros 300 productos: AutoGluon+RL Ensemble
  - Productos 301 a 780: Regresión Lineal

Primeros 300 productos (del ensemble):
  Shape: (300, 3)
  Product_id rango: 20001 - 20365

Productos restantes (de regresión lineal):
  Shape: (480, 3)
  Product_id rango: 20366 - 21276

Combinación final:
  Shape total: (780, 3)
  Productos del ensemble: 300
  Productos de regresión: 480


In [5]:
# Mostrar ejemplos de la transición entre modelos
print("ANÁLISIS DE LA TRANSICIÓN ENTRE MODELOS")
print("="*50)

# Mostrar los últimos productos del ensemble y los primeros de regresión
print("Últimos 5 productos del ensemble (AutoGluon+RL):")
transicion_ensemble = combinacion_final[combinacion_final['origen'] == 'AutoGluon+RL_Ensemble'].tail()
print(transicion_ensemble[['product_id', 'tn', 'origen']])

print(f"\nPrimeros 5 productos de regresión lineal:")
transicion_regresion = combinacion_final[combinacion_final['origen'] == 'Regresion_Lineal'].head()
print(transicion_regresion[['product_id', 'tn', 'origen']])

# Comparar estadísticas entre ambos grupos
print(f"\nESTADÍSTICAS COMPARATIVAS:")
stats_ensemble = combinacion_final[combinacion_final['origen'] == 'AutoGluon+RL_Ensemble']['tn']
stats_regresion = combinacion_final[combinacion_final['origen'] == 'Regresion_Lineal']['tn']

print(f"\nPrimeros 300 productos (AutoGluon+RL Ensemble):")
print(f"  Promedio: {stats_ensemble.mean():.2f}")
print(f"  Mediana:  {stats_ensemble.median():.2f}")
print(f"  Std:      {stats_ensemble.std():.2f}")
print(f"  Min:      {stats_ensemble.min():.2f}")
print(f"  Max:      {stats_ensemble.max():.2f}")

print(f"\nProductos restantes (Regresión Lineal):")
print(f"  Promedio: {stats_regresion.mean():.2f}")
print(f"  Mediana:  {stats_regresion.median():.2f}")
print(f"  Std:      {stats_regresion.std():.2f}")
print(f"  Min:      {stats_regresion.min():.2f}")
print(f"  Max:      {stats_regresion.max():.2f}")

print(f"\nCombinación completa:")
print(f"  Promedio: {combinacion_final['tn'].mean():.2f}")
print(f"  Mediana:  {combinacion_final['tn'].median():.2f}")
print(f"  Std:      {combinacion_final['tn'].std():.2f}")

ANÁLISIS DE LA TRANSICIÓN ENTRE MODELOS
Últimos 5 productos del ensemble (AutoGluon+RL):
     product_id         tn                 origen
295       20359  13.314429  AutoGluon+RL_Ensemble
296       20361  16.816129  AutoGluon+RL_Ensemble
297       20362   8.037368  AutoGluon+RL_Ensemble
298       20364  25.532795  AutoGluon+RL_Ensemble
299       20365  13.136061  AutoGluon+RL_Ensemble

Primeros 5 productos de regresión lineal:
     product_id         tn            origen
300       20366  11.442652  Regresion_Lineal
301       20367  10.885084  Regresion_Lineal
302       20368  19.033051  Regresion_Lineal
303       20372  10.150649  Regresion_Lineal
304       20375   9.521231  Regresion_Lineal

ESTADÍSTICAS COMPARATIVAS:

Primeros 300 productos (AutoGluon+RL Ensemble):
  Promedio: 85.46
  Mediana:  40.51
  Std:      135.66
  Min:      8.04
  Max:      1242.75

Productos restantes (Regresión Lineal):
  Promedio: 5.18
  Mediana:  3.39
  Std:      4.99
  Min:      0.23
  Max:      36.50

C

In [7]:
# Preparar y guardar el archivo final
print("Preparando archivo final...")

# Crear el resultado final con solo product_id y tn (sin la columna 'origen')
resultado_final = combinacion_final[['product_id', 'tn']].copy()

# Verificar que está ordenado por product_id
resultado_final = resultado_final.sort_values('product_id').reset_index(drop=True)

# Verificar que no hay valores nulos
print(f"Valores nulos en el resultado final: {resultado_final.isnull().sum().sum()}")
print(f"Shape del resultado final: {resultado_final.shape}")

print(f"\nPrimeras 10 filas del resultado final:")
print(resultado_final.head(10))

print(f"\nÚltimas 5 filas del resultado final:")
print(resultado_final.tail())

# Verificar continuidad en los product_ids
print(f"\nVerificación de continuidad:")
print(f"Product_id mínimo: {resultado_final['product_id'].min()}")
print(f"Product_id máximo: {resultado_final['product_id'].max()}")
print(f"Total de productos: {len(resultado_final)}")

# Punto de transición (producto 300)
producto_300 = resultado_final.iloc[299]  # índice 299 = producto 300
producto_301 = resultado_final.iloc[300]  # índice 300 = producto 301
print(f"\nPunto de transición:")
print(f"Producto {corte_productos} (último del ensemble): ID {producto_300['product_id']}, tn = {producto_300['tn']:.2f}")
print(f"Producto {corte_productos+1} (primero de regresión): ID {producto_301['product_id']}, tn = {producto_301['tn']:.2f}")

Preparando archivo final...
Valores nulos en el resultado final: 0
Shape del resultado final: (780, 2)

Primeras 10 filas del resultado final:
   product_id           tn
0       20001  1242.745126
1       20002  1129.899731
2       20003   690.468400
3       20004   549.851377
4       20005   532.285525
5       20006   467.134765
6       20007   394.212203
7       20008   406.082441
8       20009   470.562106
9       20010   400.904045

Últimas 5 filas del resultado final:
     product_id        tn
775       21263  0.467764
776       21265  0.559941
777       21266  0.562138
778       21267  0.539228
779       21276  0.496965

Verificación de continuidad:
Product_id mínimo: 20001
Product_id máximo: 21276
Total de productos: 780

Punto de transición:
Producto 300 (último del ensemble): ID 20365.0, tn = 13.14
Producto 301 (primero de regresión): ID 20366.0, tn = 11.44


In [8]:
# Guardar el archivo final
archivo_salida = "data/combina_autogluon300_rl01.csv"

print(f"Guardando combinación de modelos en: {archivo_salida}")

# Crear directorio data si no existe
import os
os.makedirs("data", exist_ok=True)

# Guardar el archivo
resultado_final.to_csv(archivo_salida, index=False)

print(f"✅ Archivo guardado exitosamente: {archivo_salida}")
print(f"Total de productos: {len(resultado_final)}")

# Verificar que el archivo se guardó correctamente
if os.path.exists(archivo_salida):
    tamaño_archivo = os.path.getsize(archivo_salida)
    print(f"Tamaño del archivo: {tamaño_archivo} bytes")
    
    # Leer las primeras y últimas líneas del archivo guardado para verificar
    verificacion_inicio = pd.read_csv(archivo_salida, nrows=5)
    print(f"\nVerificación - Primeras 5 líneas del archivo guardado:")
    print(verificacion_inicio)
    
    # Verificar los productos cerca del punto de transición
    verificacion_completa = pd.read_csv(archivo_salida)
    print(f"\nVerificación del punto de transición (alrededor del producto 300):")
    transicion_verificacion = verificacion_completa.iloc[297:303]  # productos 298-303
    print(transicion_verificacion)
    
else:
    print("⚠️ Error: No se pudo crear el archivo")

Guardando combinación de modelos en: data/combina_autogluon300_rl01.csv
✅ Archivo guardado exitosamente: data/combina_autogluon300_rl01.csv
Total de productos: 780
Tamaño del archivo: 19835 bytes

Verificación - Primeras 5 líneas del archivo guardado:
   product_id           tn
0       20001  1242.745126
1       20002  1129.899731
2       20003   690.468400
3       20004   549.851377
4       20005   532.285525

Verificación del punto de transición (alrededor del producto 300):
     product_id         tn
297       20362   8.037368
298       20364  25.532795
299       20365  13.136061
300       20366  11.442652
301       20367  10.885084
302       20368  19.033051


In [9]:
# Resumen final de la combinación
print("RESUMEN FINAL DE LA COMBINACIÓN DE MODELOS")
print("="*60)
print(f"📁 Archivo fuente 1:        pred_autogluon_rl_01.csv (primeros 300)")
print(f"📁 Archivo fuente 2:        data/pred_regresion_lineal01.csv (restantes)")
print(f"📁 Archivo generado:        {archivo_salida}")
print(f"📊 Total de productos:      {len(resultado_final)}")

print(f"\n🔄 ESTRATEGIA DE COMBINACIÓN:")
print(f"   • Productos 1-{corte_productos}:    AutoGluon+RL Ensemble")
print(f"   • Productos {corte_productos+1}-{len(resultado_final)}:   Regresión Lineal pura")

print(f"\n📈 ESTADÍSTICAS POR SEGMENTO:")
print(f"   Ensemble (1-{corte_productos}):")
print(f"     - Promedio: {stats_ensemble.mean():.2f}")
print(f"     - Rango: {stats_ensemble.min():.2f} - {stats_ensemble.max():.2f}")

print(f"   Regresión ({corte_productos+1}-{len(resultado_final)}):")
print(f"     - Promedio: {stats_regresion.mean():.2f}")
print(f"     - Rango: {stats_regresion.min():.2f} - {stats_regresion.max():.2f}")

print(f"\n🎯 JUSTIFICACIÓN:")
print(f"   Esta combinación permite usar las predicciones del ensemble")
print(f"   (más robustas) para los primeros productos, mientras que")
print(f"   utiliza regresión lineal pura para el resto, creando un")
print(f"   enfoque híbrido que balancea precisión y simplicidad.")

print(f"\n✅ Combinación completada exitosamente!")
print(f"   El archivo {archivo_salida} está listo para usar.")

RESUMEN FINAL DE LA COMBINACIÓN DE MODELOS
📁 Archivo fuente 1:        pred_autogluon_rl_01.csv (primeros 300)
📁 Archivo fuente 2:        data/pred_regresion_lineal01.csv (restantes)
📁 Archivo generado:        data/combina_autogluon300_rl01.csv
📊 Total de productos:      780

🔄 ESTRATEGIA DE COMBINACIÓN:
   • Productos 1-300:    AutoGluon+RL Ensemble
   • Productos 301-780:   Regresión Lineal pura

📈 ESTADÍSTICAS POR SEGMENTO:
   Ensemble (1-300):
     - Promedio: 85.46
     - Rango: 8.04 - 1242.75
   Regresión (301-780):
     - Promedio: 5.18
     - Rango: 0.23 - 36.50

🎯 JUSTIFICACIÓN:
   Esta combinación permite usar las predicciones del ensemble
   (más robustas) para los primeros productos, mientras que
   utiliza regresión lineal pura para el resto, creando un
   enfoque híbrido que balancea precisión y simplicidad.

✅ Combinación completada exitosamente!
   El archivo data/combina_autogluon300_rl01.csv está listo para usar.
