## Notebook 1: Preprocesamiento de Datos (Versión Refactorizada)
 
**Objetivo:** Orquestar el proceso de preprocesamiento llamando a las funciones
centralizadas en el módulo de utilidades. Este notebook cuenta la historia de cómo se preparan los datos.
 
**Fases:**
1.  **Configuración:** Importar librerías y nuestras funciones.
2.  **Ejecución del Pipeline:**
     a. Cargar y unir los datos brutos.
     b. Agregar las ventas a nivel mensual (incluyendo cantidad y monto).
3.  **Guardado:** Exportar el DataFrame procesado final.

In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
# ### 1. Configuración
import pandas as pd
import os
import sys

# Importar funciones específicas desde el módulo utils.py
from utils.utils import cargar_datos_dbf, integrar_y_limpiar, agregar_ventas_mensuales

# --- Definición de Rutas Relativas ---
RAW_DATA_DIR = '../02_Data/01_raw/'
PROCESSED_DATA_DIR = '../02_Data/02_processed/'

os.makedirs(PROCESSED_DATA_DIR, exist_ok=True)

print("Librerías y módulos importados. Rutas definidas.")

Librerías y módulos importados. Rutas definidas.


In [3]:
# ### 2. Ejecución del Pipeline de Preprocesamiento

venta_df, dventa_df, productos_df = cargar_datos_dbf(RAW_DATA_DIR)

if venta_df is not None:
    ventas_consolidadas_df = integrar_y_limpiar(venta_df, dventa_df, productos_df)
    ventas_mensuales_df = agregar_ventas_mensuales(ventas_consolidadas_df)
    
    print("\n--- Preprocesamiento Básico Completado ---")
    print(f"Dimensiones: {ventas_mensuales_df.shape}")
    print("\nPrimeras 5 filas del DataFrame procesado:")
    print(ventas_mensuales_df.head())
    
    # ### 3. Guardado de los Datos Procesados
    output_path_main = os.path.join(PROCESSED_DATA_DIR, 'ventas_mensuales_consolidadas.csv')
    ventas_mensuales_df.to_csv(output_path_main, index=False)

    print(f"\n¡Proceso completado! Los datos procesados han sido guardados en:")
    print(output_path_main)
else:
    print("\nEl proceso de preprocesamiento no se completó debido a un error en la carga de datos.")

Datos brutos cargados correctamente.
Tablas integradas y limpiadas (incluyendo monto de venta).
Ventas agregadas a nivel mensual para cantidad y monto (con FECHA_MES_NRO).

--- Preprocesamiento Básico Completado ---
Dimensiones: (248710, 6)

Primeras 5 filas del DataFrame procesado:
  codigo_producto    descripcion_producto        mes  cantidad  monto_venta  \
0               .  DESCUENTO OTORGADO 30% 2013-05-01     200.0      90000.0   
1               .  DESCUENTO OTORGADO 30% 2014-10-01       1.0      90000.0   
2               .  DESCUENTO OTORGADO 30% 2020-05-01       1.0          1.0   
3               .  DESCUENTO OTORGADO 30% 2021-12-01       1.0          1.0   
4               .  DESCUENTO OTORGADO 30% 2022-02-01       1.0      10000.0   

   FECHA_MES_NRO  
0             29  
1             46  
2            113  
3            132  
4            134  

¡Proceso completado! Los datos procesados han sido guardados en:
../02_Data/02_processed/ventas_mensuales_consolidadas.csv
