# Funcion de limpieza inicial

## Esta función toma el CSV resultado del query SAP realizando lo siguiente:

1. Solo utiliza las columnas DocDate, ItemCode, Quantity
2. Transforma la columna DocDate a Timestamp
3. Agrupa las cantidades vendidas por Dia y por codigo de SKU
4. Se filtran las ventas en un rango de fechas desde y hasta
5. Crea un calendario hasta la fecha hasta
6. Completa los dias faltantes hasta la fecha_hasta desde la fecha de venta minima de cada producto
7. Autocompleta dias sin ventas con cero
8. Devuelve un df en formato largo donde el tiempo es el indice

In [None]:
import pandas as pd

def preparar_series_tiempo(
    file_path,
    fecha_desde,
    fecha_hasta,
    col_fecha='DocDate',
    col_sku='ItemCode',
    col_qty='Quantity'
):
    """
    Prepara un DataFrame de series de tiempo por SKU, completando fechas faltantes
    dinámicamente desde la primera venta de cada SKU hasta fecha_hasta.
    
    Devuelve un DataFrame en formato largo con índice temporal.
    """
    
    # 1. Carga del CSV
    df = pd.read_csv(file_path)
    
    # 2. Selección de columnas
    df = df[[col_fecha, col_sku, col_qty]]
    
    # 3. Conversión a datetime
    df[col_fecha] = pd.to_datetime(df[col_fecha])
    
    # 4. Agrupamos cantidades por día y SKU
    df = df.groupby([col_sku, col_fecha])[col_qty].sum().reset_index()
    
    # 5. Filtro rango global
    df = df[(df[col_fecha] >= fecha_desde) & (df[col_fecha] <= fecha_hasta)]
    
    # 6. Función interna para completar calendario dinámico por SKU
    def completar_calendario(grupo):
        fecha_inicio = max(grupo[col_fecha].min(), pd.to_datetime(fecha_desde))
        calendario = pd.date_range(start=fecha_inicio, end=fecha_hasta, freq='D')
        grupo = grupo.set_index(col_fecha).reindex(calendario, fill_value=0)
        grupo = grupo.rename_axis(col_fecha).reset_index()
        grupo[col_sku] = grupo[col_sku].iloc[0]
        return grupo
    
    # 7. Aplicamos por SKU
    df_final = df.groupby(col_sku, group_keys=False).apply(completar_calendario)
    
    # 8. Reordenamos columnas y ponemos índice temporal
    df_final = df_final[[col_fecha, col_sku, col_qty]].set_index(col_fecha)
    
    return df_final

In [None]:
## Ejemplo de Como usar la funcion
df = preparar_series_tiempo('SALES.csv', fecha_desde='2024-01-01', fecha_hasta='2024-12-31')

# Filtro de datos y visualizacion

In [None]:
## Impresion de total ventas de mayor a menor
df.groupby(['ItemCode'])['Quantity'].sum().sort_values(ascending=False)

In [None]:
## Si quiero filtrar ciertos productos para validar la funcion y graficar 

import seaborn as sns
import matplotlib.pyplot as plt

# Filtrar los productos deseados
df_filtered = df[df['ItemCode'].isin(['1001016056', '1001005059'])].reset_index()

# Gráfico de líneas
plt.figure(figsize=(14, 6))
sns.lineplot(
    data=df_filtered,
    x='DocDate',
    y='Quantity',
    hue='ItemCode'
)

# Estilo del gráfico
plt.title("Evolución de Ventas para Productos Seleccionados", fontsize=14)
plt.xlabel("Fecha")
plt.ylabel("Cantidad Vendida")
plt.legend(title="ItemCode")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()