# Fase 1: An√°lisis Exploratorio de Datos (EDA)

**Proyecto:** SIP Dynamic Pricing  
**Fecha:** 2026-02-19  
**Autores:** Santiago Lanz, Diego Blanco

## Objetivos
1. Entender la distribuci√≥n temporal de ventas (estacionalidad)
2. Analizar el comportamiento por sucursal
3. Identificar productos clave (top volumen/ingreso)
4. Explorar la relaci√≥n precio-demanda
5. Evaluar el efecto de las promociones

In [None]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings

warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8-whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10

# Paths
DATA_RAW = Path('../data/raw')

print("‚úì Librer√≠as cargadas")

## 1. Carga de Datos

In [None]:
# Cargar CompraVenta
df_cv = pd.read_parquet(DATA_RAW / 'compraventa_raw.parquet')
print(f"CompraVenta: {len(df_cv):,} registros")
print(f"Columnas: {df_cv.columns.tolist()}")

In [None]:
# Cargar Promociones
df_promo = pd.read_parquet(DATA_RAW / 'promociones_raw.parquet')
print(f"Promociones: {len(df_promo):,} registros")
print(f"Columnas: {df_promo.columns.tolist()}")

In [None]:
# Cargar Ajustes
df_ajustes = pd.read_parquet(DATA_RAW / 'ajustes_raw.parquet')
print(f"Ajustes: {len(df_ajustes):,} registros")
print(f"Columnas: {df_ajustes.columns.tolist()}")

In [None]:
# Vista previa de CompraVenta
df_cv.head()

In [None]:
# Info del dataset
df_cv.info()

In [None]:
# Estad√≠sticas descriptivas
df_cv.describe()

## 2. Limpieza y Preparaci√≥n Inicial

In [None]:
# Verificar valores nulos
null_counts = df_cv.isnull().sum()
null_pct = (null_counts / len(df_cv) * 100).round(2)
pd.DataFrame({'Nulos': null_counts, '%': null_pct}).query('Nulos > 0')

In [None]:
# Calcular campos derivados
df_cv['Precio_Unitario'] = np.where(
    df_cv['Unidades_Venta_Cantidad'] > 0,
    df_cv['Precio_Venta_Total'] / df_cv['Unidades_Venta_Cantidad'],
    0
)

df_cv['Margen_Bruto'] = df_cv['Precio_Venta_Total'] - df_cv['Costo_Venta_Total']

df_cv['Margen_Porcentaje'] = np.where(
    df_cv['Precio_Venta_Total'] > 0,
    (df_cv['Margen_Bruto'] / df_cv['Precio_Venta_Total'] * 100).round(2),
    0
)

print("‚úì Campos derivados calculados: Precio_Unitario, Margen_Bruto, Margen_Porcentaje")

In [None]:
# Verificar rango de fechas
print(f"Rango de fechas: {df_cv['Fecha'].min()} a {df_cv['Fecha'].max()}")
print(f"D√≠as √∫nicos: {df_cv['Fecha'].nunique()}")

## 3. An√°lisis Temporal

In [None]:
# Ventas diarias agregadas
ventas_diarias = df_cv.groupby('Fecha').agg({
    'Unidades_Venta_Cantidad': 'sum',
    'Precio_Venta_Total': 'sum',
    'Margen_Bruto': 'sum'
}).reset_index()

ventas_diarias.columns = ['Fecha', 'Unidades', 'Ingresos', 'Margen']

fig, axes = plt.subplots(3, 1, figsize=(14, 10), sharex=True)

axes[0].plot(ventas_diarias['Fecha'], ventas_diarias['Unidades'], alpha=0.7)
axes[0].set_ylabel('Unidades Vendidas')
axes[0].set_title('Ventas Diarias - Unidades')

axes[1].plot(ventas_diarias['Fecha'], ventas_diarias['Ingresos'], color='green', alpha=0.7)
axes[1].set_ylabel('Ingresos ($)')
axes[1].set_title('Ventas Diarias - Ingresos')

axes[2].plot(ventas_diarias['Fecha'], ventas_diarias['Margen'], color='orange', alpha=0.7)
axes[2].set_ylabel('Margen ($)')
axes[2].set_title('Ventas Diarias - Margen Bruto')
axes[2].set_xlabel('Fecha')

plt.tight_layout()
plt.savefig('../reports/ventas_diarias.png', dpi=150, bbox_inches='tight')
plt.show()

In [None]:
# Ventas por d√≠a de la semana
df_cv['DiaSemana'] = df_cv['Fecha'].dt.dayofweek
df_cv['NombreDia'] = df_cv['Fecha'].dt.day_name()

ventas_dia_semana = df_cv.groupby('DiaSemana').agg({
    'Unidades_Venta_Cantidad': 'sum',
    'Precio_Venta_Total': 'sum'
}).reset_index()

dias = ['Lunes', 'Martes', 'Mi√©rcoles', 'Jueves', 'Viernes', 'S√°bado', 'Domingo']
ventas_dia_semana['Dia'] = dias

fig, ax = plt.subplots(figsize=(10, 5))
bars = ax.bar(ventas_dia_semana['Dia'], ventas_dia_semana['Precio_Venta_Total'] / 1e6)
ax.set_ylabel('Ingresos (Millones $)')
ax.set_title('Distribuci√≥n de Ventas por D√≠a de la Semana')
plt.xticks(rotation=45)
plt.tight_layout()
plt.savefig('../reports/ventas_dia_semana.png', dpi=150, bbox_inches='tight')
plt.show()

In [None]:
# Ventas por mes
df_cv['A√±oMes'] = df_cv['Fecha'].dt.to_period('M')

ventas_mes = df_cv.groupby('A√±oMes').agg({
    'Unidades_Venta_Cantidad': 'sum',
    'Precio_Venta_Total': 'sum'
}).reset_index()

ventas_mes['A√±oMes'] = ventas_mes['A√±oMes'].astype(str)

fig, ax = plt.subplots(figsize=(14, 5))
ax.bar(ventas_mes['A√±oMes'], ventas_mes['Precio_Venta_Total'] / 1e6)
ax.set_ylabel('Ingresos (Millones $)')
ax.set_title('Evoluci√≥n Mensual de Ventas')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.savefig('../reports/ventas_mensuales.png', dpi=150, bbox_inches='tight')
plt.show()

## 4. An√°lisis por Categor√≠a

In [None]:
# Ventas por Clase
ventas_clase = df_cv.groupby('Clase').agg({
    'Unidades_Venta_Cantidad': 'sum',
    'Precio_Venta_Total': 'sum',
    'Margen_Bruto': 'sum',
    'Codigo_Interno': 'nunique'
}).reset_index()

ventas_clase.columns = ['Clase', 'Unidades', 'Ingresos', 'Margen', 'Productos']
ventas_clase['Margen_%'] = (ventas_clase['Margen'] / ventas_clase['Ingresos'] * 100).round(2)
ventas_clase = ventas_clase.sort_values('Ingresos', ascending=False)

ventas_clase

In [None]:
# Gr√°fico de participaci√≥n por clase
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

# Pie de ingresos
axes[0].pie(ventas_clase['Ingresos'], labels=ventas_clase['Clase'], autopct='%1.1f%%', startangle=90)
axes[0].set_title('Participaci√≥n en Ingresos por Clase')

# Bar de margen %
colors = ['#2ecc71' if x > 20 else '#e74c3c' for x in ventas_clase['Margen_%']]
axes[1].barh(ventas_clase['Clase'], ventas_clase['Margen_%'], color=colors)
axes[1].set_xlabel('Margen Bruto (%)')
axes[1].set_title('Margen por Clase')

plt.tight_layout()
plt.savefig('../reports/analisis_clases.png', dpi=150, bbox_inches='tight')
plt.show()

## 5. An√°lisis por Sucursal

In [None]:
# Ventas por sucursal
ventas_sucursal = df_cv.groupby('Sucursal').agg({
    'Unidades_Venta_Cantidad': 'sum',
    'Precio_Venta_Total': 'sum',
    'Margen_Bruto': 'sum'
}).reset_index()

ventas_sucursal.columns = ['Sucursal', 'Unidades', 'Ingresos', 'Margen']
ventas_sucursal['Margen_%'] = (ventas_sucursal['Margen'] / ventas_sucursal['Ingresos'] * 100).round(2)
ventas_sucursal = ventas_sucursal.sort_values('Ingresos', ascending=False)

ventas_sucursal

In [None]:
# Gr√°fico de sucursales
fig, ax = plt.subplots(figsize=(10, 5))
bars = ax.bar(ventas_sucursal['Sucursal'], ventas_sucursal['Ingresos'] / 1e9)
ax.set_ylabel('Ingresos (Miles de Millones $)')
ax.set_title('Ingresos por Sucursal')
ax.set_xlabel('Sucursal')
plt.tight_layout()
plt.savefig('../reports/ventas_sucursal.png', dpi=150, bbox_inches='tight')
plt.show()

## 6. Top Productos

In [None]:
# Top 20 productos por ingresos
top_productos = df_cv.groupby(['Codigo_Interno', 'Descripcion', 'Clase']).agg({
    'Unidades_Venta_Cantidad': 'sum',
    'Precio_Venta_Total': 'sum',
    'Margen_Bruto': 'sum'
}).reset_index()

top_productos.columns = ['Codigo', 'Descripcion', 'Clase', 'Unidades', 'Ingresos', 'Margen']
top_productos['Margen_%'] = (top_productos['Margen'] / top_productos['Ingresos'] * 100).round(2)

# Top por ingresos
top_ingresos = top_productos.nlargest(20, 'Ingresos')
top_ingresos

In [None]:
# Top por volumen (unidades)
top_volumen = top_productos.nlargest(20, 'Unidades')
top_volumen

In [None]:
# Gr√°fico Top 15 productos
fig, ax = plt.subplots(figsize=(12, 8))
top15 = top_ingresos.head(15)
y_pos = range(len(top15))
ax.barh(y_pos, top15['Ingresos'] / 1e6)
ax.set_yticks(y_pos)
ax.set_yticklabels(top15['Descripcion'].str[:40])
ax.invert_yaxis()
ax.set_xlabel('Ingresos (Millones $)')
ax.set_title('Top 15 Productos por Ingresos')
plt.tight_layout()
plt.savefig('../reports/top_productos.png', dpi=150, bbox_inches='tight')
plt.show()

## 7. An√°lisis de Precios

In [None]:
# Distribuci√≥n de precios unitarios (filtrar outliers)
precios_validos = df_cv[df_cv['Precio_Unitario'] > 0]['Precio_Unitario']

# Percentiles
print("Distribuci√≥n de Precios Unitarios:")
print(precios_validos.describe(percentiles=[.25, .5, .75, .90, .95, .99]))

In [None]:
# Distribuci√≥n de precios por clase
fig, axes = plt.subplots(1, 3, figsize=(15, 5))

for i, clase in enumerate(df_cv['Clase'].unique()):
    data = df_cv[(df_cv['Clase'] == clase) & (df_cv['Precio_Unitario'] > 0) & (df_cv['Precio_Unitario'] < df_cv['Precio_Unitario'].quantile(0.99))]
    axes[i].hist(data['Precio_Unitario'], bins=50, edgecolor='black', alpha=0.7)
    axes[i].set_title(f'Distribuci√≥n Precios - {clase}')
    axes[i].set_xlabel('Precio Unitario ($)')
    axes[i].set_ylabel('Frecuencia')

plt.tight_layout()
plt.savefig('../reports/distribucion_precios.png', dpi=150, bbox_inches='tight')
plt.show()

## 8. Relaci√≥n Precio-Demanda (Elasticidad Preliminar)

In [None]:
# Agregar por producto-d√≠a para ver variaciones
producto_dia = df_cv.groupby(['Codigo_Interno', 'Fecha']).agg({
    'Unidades_Venta_Cantidad': 'sum',
    'Precio_Unitario': 'mean'
}).reset_index()

# Calcular correlaci√≥n por producto
correlaciones = producto_dia.groupby('Codigo_Interno').apply(
    lambda x: x['Precio_Unitario'].corr(x['Unidades_Venta_Cantidad']) if len(x) > 30 else np.nan
).dropna()

print(f"Productos con suficientes datos: {len(correlaciones)}")
print(f"\nCorrelaci√≥n Precio-Demanda:")
print(f"  Media: {correlaciones.mean():.3f}")
print(f"  Mediana: {correlaciones.median():.3f}")
print(f"  % con correlaci√≥n negativa: {(correlaciones < 0).mean()*100:.1f}%")

In [None]:
# Histograma de correlaciones
fig, ax = plt.subplots(figsize=(10, 5))
ax.hist(correlaciones, bins=50, edgecolor='black', alpha=0.7)
ax.axvline(x=0, color='red', linestyle='--', label='Sin correlaci√≥n')
ax.axvline(x=correlaciones.median(), color='green', linestyle='--', label=f'Mediana: {correlaciones.median():.2f}')
ax.set_xlabel('Correlaci√≥n Precio-Demanda')
ax.set_ylabel('N√∫mero de Productos')
ax.set_title('Distribuci√≥n de Correlaci√≥n Precio-Demanda por Producto')
ax.legend()
plt.tight_layout()
plt.savefig('../reports/correlacion_precio_demanda.png', dpi=150, bbox_inches='tight')
plt.show()

## 9. An√°lisis de Promociones

In [None]:
# Resumen de promociones
print(f"Total promociones: {df_promo['Cod_Promocion'].nunique():,}")
print(f"Productos con promoci√≥n: {df_promo['Cod_Producto'].nunique():,}")
print(f"\nDistribuci√≥n por tipo:")
print(df_promo['Tipo_Promocion'].value_counts())

In [None]:
# Tipos de promoci√≥n
tipo_promo_desc = {
    1: 'Precio Oferta',
    2: '% Descuento',
    3: 'Descuento Fijo',
    4: 'M√óN Gratis',
    5: 'M√óN Precio Oferta',
    6: 'M√óN % Descuento',
    7: 'M√óN Monto Fijo',
    8: 'Premio M√óN',
    9: 'Premio Precio Oferta',
    10: 'Premio % Descuento',
    11: 'Premio Monto Descuento'
}

promo_counts = df_promo['Tipo_Promocion'].value_counts()
promo_df = pd.DataFrame({'Tipo': promo_counts.index, 'Cantidad': promo_counts.values})
promo_df['Descripcion'] = promo_df['Tipo'].map(tipo_promo_desc)
promo_df['%'] = (promo_df['Cantidad'] / promo_df['Cantidad'].sum() * 100).round(1)
promo_df

In [None]:
# Gr√°fico de tipos de promoci√≥n
fig, ax = plt.subplots(figsize=(12, 6))
promo_df_sorted = promo_df.sort_values('Cantidad', ascending=True)
ax.barh(promo_df_sorted['Descripcion'], promo_df_sorted['Cantidad'])
ax.set_xlabel('Cantidad de Registros')
ax.set_title('Distribuci√≥n de Tipos de Promoci√≥n')
plt.tight_layout()
plt.savefig('../reports/tipos_promocion.png', dpi=150, bbox_inches='tight')
plt.show()

## 10. An√°lisis de Ajustes de Inventario

In [None]:
# Resumen de ajustes
print(f"Total ajustes: {len(df_ajustes):,}")
print(f"Productos con ajustes: {df_ajustes['Codigo_Producto'].nunique():,}")
print(f"\nDistribuci√≥n por tipo de documento:")
print(df_ajustes['Tipo_Documento'].value_counts())

In [None]:
# Ajustes por c√≥digo de raz√≥n (si tiene datos)
if 'Codigo_Razon' in df_ajustes.columns:
    print("\nDistribuci√≥n por C√≥digo de Raz√≥n:")
    print(df_ajustes['Codigo_Razon'].value_counts().head(20))

In [None]:
# Productos con m√°s ajustes (posibles productos problem√°ticos)
ajustes_por_producto = df_ajustes.groupby('Codigo_Producto').agg({
    'Cantidad': ['count', 'sum']
}).reset_index()
ajustes_por_producto.columns = ['Codigo_Producto', 'Num_Ajustes', 'Cantidad_Total']
ajustes_por_producto = ajustes_por_producto.sort_values('Num_Ajustes', ascending=False)

print("Top 20 productos con m√°s ajustes:")
ajustes_por_producto.head(20)

## 11. Resumen Ejecutivo

In [None]:
# M√©tricas clave
print("="*60)
print("RESUMEN EJECUTIVO - EDA")
print("="*60)

print(f"\nüìä DATOS ANALIZADOS")
print(f"   Registros CompraVenta: {len(df_cv):,}")
print(f"   Per√≠odo: {df_cv['Fecha'].min().strftime('%Y-%m-%d')} a {df_cv['Fecha'].max().strftime('%Y-%m-%d')}")
print(f"   Sucursales: {df_cv['Sucursal'].nunique()}")
print(f"   Productos √∫nicos: {df_cv['Codigo_Interno'].nunique():,}")

print(f"\nüí∞ M√âTRICAS FINANCIERAS")
print(f"   Ingresos totales: ${df_cv['Precio_Venta_Total'].sum():,.2f}")
print(f"   Margen bruto total: ${df_cv['Margen_Bruto'].sum():,.2f}")
print(f"   Margen bruto promedio: {(df_cv['Margen_Bruto'].sum() / df_cv['Precio_Venta_Total'].sum() * 100):.1f}%")

print(f"\nüìà PATRONES IDENTIFICADOS")
print(f"   Correlaci√≥n precio-demanda negativa en {(correlaciones < 0).mean()*100:.1f}% de productos")
print(f"   {len(df_promo):,} registros de promociones disponibles")
print(f"   {len(df_ajustes):,} registros de ajustes de inventario")

print("\n" + "="*60)

## 12. An√°lisis de M√°rgenes por Categor√≠a vs Metas de Negocio

**Reglas de negocio establecidas:**
- Carnes: Meta 25-30%
- Fruver: Meta ‚â•30%
- Charcuter√≠a: Meta >30%

In [None]:
# An√°lisis de m√°rgenes vs metas
metas_margen = {
    '03CARN': {'nombre': 'Carnes', 'meta_min': 25, 'meta_max': 30},
    '08FRUV': {'nombre': 'Fruver', 'meta_min': 30, 'meta_max': 35},
    '04CHAR': {'nombre': 'Charcuter√≠a', 'meta_min': 30, 'meta_max': 35}
}

margen_real = df_cv.groupby('Clase').agg({
    'Margen_Bruto': 'sum',
    'Precio_Venta_Total': 'sum'
}).reset_index()
margen_real['Margen_%_Real'] = (margen_real['Margen_Bruto'] / margen_real['Precio_Venta_Total'] * 100).round(2)

# Agregar metas
margen_real['Meta_Min'] = margen_real['Clase'].map(lambda x: metas_margen.get(x, {}).get('meta_min', np.nan))
margen_real['Meta_Max'] = margen_real['Clase'].map(lambda x: metas_margen.get(x, {}).get('meta_max', np.nan))
margen_real['Gap_vs_Meta'] = margen_real['Margen_%_Real'] - margen_real['Meta_Min']

print('AN√ÅLISIS DE M√ÅRGENES VS METAS DE NEGOCIO')
print('='*60)
print(margen_real[['Clase', 'Margen_%_Real', 'Meta_Min', 'Meta_Max', 'Gap_vs_Meta']].to_string(index=False))
print()
print('‚ö†Ô∏è ALERTA: Carnes presenta un gap significativo (-12 a -17 pp)')
print('   Prioridad alta para ajuste de precios en optimizaci√≥n')

In [None]:
# Visualizaci√≥n de m√°rgenes vs metas
fig, ax = plt.subplots(figsize=(12, 6))

categorias_clave = ['03CARN', '08FRUV', '04CHAR']
data_plot = margen_real[margen_real['Clase'].isin(categorias_clave)].copy()

x = range(len(data_plot))
width = 0.35

bars = ax.bar(x, data_plot['Margen_%_Real'], width, label='Margen Real', color=['#e74c3c' if g < 0 else '#2ecc71' for g in data_plot['Gap_vs_Meta']])

# L√≠neas de meta
for i, (_, row) in enumerate(data_plot.iterrows()):
    if pd.notna(row['Meta_Min']):
        ax.hlines(row['Meta_Min'], i-0.4, i+0.4, colors='blue', linestyles='--', linewidth=2)

ax.set_ylabel('Margen Bruto (%)')
ax.set_title('Margen Real vs Meta por Categor√≠a Clave')
ax.set_xticks(x)
ax.set_xticklabels([metas_margen.get(c, {}).get('nombre', c) for c in data_plot['Clase']])
ax.legend(['Meta M√≠nima', 'Margen Real'])
ax.axhline(y=0, color='gray', linestyle='-', alpha=0.3)

plt.tight_layout()
plt.savefig('../reports/margenes_vs_metas.png', dpi=150, bbox_inches='tight')
plt.show()

## 13. An√°lisis de Demanda Cero (Zeros)

**Decisi√≥n de modelado:** Modelo biet√°pico
- Etapa 1: Clasificaci√≥n P(venta > 0)
- Etapa 2: Regresi√≥n E[cantidad | venta > 0]

In [None]:
# An√°lisis de ceros en la demanda
total_registros = len(df_cv)
ceros = (df_cv['Unidades_Venta_Cantidad'] == 0).sum()
pct_ceros = ceros / total_registros * 100

print('AN√ÅLISIS DE DEMANDA CERO')
print('='*60)
print(f'Total registros: {total_registros:,}')
print(f'Registros con venta = 0: {ceros:,} ({pct_ceros:.2f}%)')
print(f'Registros con venta > 0: {total_registros - ceros:,} ({100-pct_ceros:.2f}%)')
print()
print('Nota: Panel denso - ceros son demanda nula genuina, NO cierre operativo')

In [None]:
# Distribuci√≥n de ceros por categor√≠a
ceros_por_clase = df_cv.groupby('Clase').apply(
    lambda x: pd.Series({
        'Total': len(x),
        'Ceros': (x['Unidades_Venta_Cantidad'] == 0).sum(),
        '%_Ceros': (x['Unidades_Venta_Cantidad'] == 0).mean() * 100
    })
).reset_index()

print('\nDistribuci√≥n de ceros por categor√≠a:')
print(ceros_por_clase.sort_values('%_Ceros', ascending=False).to_string(index=False))

In [None]:
# Visualizaci√≥n de distribuci√≥n de demanda (incluyendo ceros)
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Histograma con ceros
axes[0].hist(df_cv['Unidades_Venta_Cantidad'].clip(upper=50), bins=50, edgecolor='black', alpha=0.7)
axes[0].set_xlabel('Unidades Vendidas')
axes[0].set_ylabel('Frecuencia')
axes[0].set_title('Distribuci√≥n de Demanda (truncada a 50)')
axes[0].axvline(x=0, color='red', linestyle='--', label='Ceros')

# Solo positivos (log scale)
positivos = df_cv[df_cv['Unidades_Venta_Cantidad'] > 0]['Unidades_Venta_Cantidad']
axes[1].hist(np.log1p(positivos), bins=50, edgecolor='black', alpha=0.7, color='green')
axes[1].set_xlabel('log(1 + Unidades)')
axes[1].set_ylabel('Frecuencia')
axes[1].set_title('Distribuci√≥n de Demanda Positiva (log-transformada)')

plt.tight_layout()
plt.savefig('../reports/distribucion_demanda_ceros.png', dpi=150, bbox_inches='tight')
plt.show()

## 14. Limitaciones de Datos Documentadas

**ALERTA CR√çTICA - Mermas:**

Las mermas (p√©rdidas de inventario por deterioro, robo, etc.) NO se registran como ajustes negativos en el sistema. Por pr√°ctica contable-fiscal venezolana, las mermas se absorben en el costo de venta del producto.

**Implicaciones:**
- Los ajustes negativos solo capturan devoluciones de clientes
- Existe subestimaci√≥n sistem√°tica de p√©rdidas de inventario
- El modelo no puede predecir ni usar merma real

**Recomendaci√≥n:** La empresa debe implementar registro interno de mermas independiente del tratamiento fiscal.

In [None]:
# An√°lisis de ajustes negativos (solo devoluciones)
if 'Cantidad' in df_ajustes.columns:
    ajustes_neg = df_ajustes[df_ajustes['Cantidad'] < 0]
    print('AN√ÅLISIS DE AJUSTES NEGATIVOS (DEVOLUCIONES)')
    print('='*60)
    print(f'Total ajustes negativos: {len(ajustes_neg):,}')
    print(f'Cantidad total devuelta: {ajustes_neg["Cantidad"].sum():,.0f} unidades')
    print()
    print('‚ö†Ô∏è NOTA: Estos ajustes NO incluyen mermas.')
    print('   Las mermas se absorben en costo de venta (pr√°ctica fiscal VE)')
else:
    print('Columna de cantidad no encontrada en ajustes')

## 15. Resumen para Tesis

### Hallazgos Clave
1. **Panel denso:** Datos continuos sin cierres operativos
2. **Correlaci√≥n precio-demanda negativa:** Confirma elasticidad normal
3. **M√°rgenes por debajo de metas:** Especialmente Carnes (-12 a -17 pp)
4. **Presencia de ceros:** Justifica modelo biet√°pico
5. **Limitaci√≥n de mermas:** Documentada para la tesis

### Decisiones Derivadas
- Monotonicidad precio‚Üídemanda (constraint=-1)
- WMAPE ponderado por ingreso como m√©trica principal
- Modelo biet√°pico para manejar ceros
- Feriados VE como features binarias

## Pr√≥ximos Pasos

1. **Fase 2:** Dise√±o de arquitectura del modelo de datos
2. **Fase 3:** Pipeline ETL - Integraci√≥n de CompraVenta + Promociones
3. **Fase 4:** Feature Engineering detallado
4. **Fase 5:** Entrenamiento con m√©tricas exhaustivas