# Armado Dataset
Carga, limpieza, agregaci√≥n y relleno a nivel product_id

In [4]:
#from google.colab import drive
import pandas as pd
import numpy as np
import os

# 1) Montar Google Drive
#drive.mount('/content/drive')

# 2) Definir rutas en Drive
BASE_DATOS     = '/Users/indianaabeledo/Documents/Maestria/laboratorio_III/datasets/'
INTERMEDIOS   = '/Users/indianaabeledo/Documents/Maestria/laboratorio_III/entrega_final/intermedios/'
SALIDAS       = '/Users/indianaabeledo/Documents/Maestria/laboratorio_III/entrega_final/output/'

# Crear carpetas si no existen
os.makedirs(INTERMEDIOS, exist_ok=True)
os.makedirs(SALIDAS,     exist_ok=True)

In [6]:
# 3) Carga de archivos desde Drive
print("üîÑ Cargando archivos desde carpeta...")
productos_pred = pd.read_csv(os.path.join(BASE_DATOS, "productos_pred.txt"), sep="\t")
df             = pd.read_csv(os.path.join(BASE_DATOS, "sell-in.txt"),        sep="\t")
productos      = pd.read_csv(os.path.join(BASE_DATOS, "tb_productos.txt"),   sep="\t")
stock          = pd.read_csv(os.path.join(BASE_DATOS, "tb_stocks.txt"),      sep="\t")

üîÑ Cargando archivos desde carpeta...


In [7]:
# 4) Tipado y limpieza
productos_pred["product_id"] = productos_pred["product_id"].astype("category")
df["product_id"]             = df["product_id"].astype("category")
df["plan_precios_cuidados"]  = df["plan_precios_cuidados"].fillna(False).astype("bool")
df["periodo"]                = df["periodo"].astype("int32")
df["cust_request_qty"]       = df["cust_request_qty"].astype("float32")
df["cust_request_tn"]        = df["cust_request_tn"].astype("float32")
df["tn"]                     = df["tn"].astype("float32")
df["fecha"]                  = pd.to_datetime(df["periodo"].astype(str) + "01", format="%Y%m%d")

In [8]:
# 5) Agregaci√≥n a nivel product_id‚Äìperiodo
print("üîÑ Agregando a nivel producto-periodo...")
sell_in_agg = (
    df
    .groupby(['periodo','product_id'], observed=True, as_index=False)
    .agg(
        tn                      = ('tn',               'sum'),
        cust_request_qty        = ('cust_request_qty', 'sum'),
        cust_request_tn         = ('cust_request_tn',  'sum'),
        plan_precios_cuidados   = ('plan_precios_cuidados','max'),
        n_customers             = ('customer_id',      'nunique')
    )
)

üîÑ Agregando a nivel producto-periodo...


In [9]:
# 6) Rellenado de ceros para periodos sin ventas
print("üîÑ Rellenando ceros para periodos faltantes...")
periodos      = pd.period_range('2017-01', '2019-12', freq='M').strftime('%Y%m').astype(int)
productos_list= sell_in_agg['product_id'].unique()
df_univ       = pd.MultiIndex.from_product(
                    [periodos, productos_list],
                    names=['periodo','product_id']
                 ).to_frame(index=False)

sell_in_agg = (
    df_univ
    .merge(sell_in_agg, on=['periodo','product_id'], how='left')
    .fillna({
        'tn':                    0,
        'cust_request_qty':      0,
        'cust_request_tn':       0,
        'plan_precios_cuidados': False,
        'n_customers':           0
    })
)

üîÑ Rellenando ceros para periodos faltantes...


  df_univ


In [10]:
# 7) Limpieza de cat√°logo y verificaci√≥n
print("üîÑ Limpiando y verificando cat√°logo de productos...")
productos_clean = (
    productos
    .drop_duplicates()
    .groupby('product_id', as_index=False)
    .agg({
        'cat1': 'first',
        'cat2': 'first',
        'cat3': lambda x: ','.join(sorted(set(x))),
        'brand':'first',
        'sku_size':'first'
    })
)
assert productos_clean['product_id'].is_unique, \
    "‚ùå Duplicados en productos_clean"
assert stock[['periodo','product_id']].drop_duplicates().shape[0] \
       == stock.shape[0], "‚ùå Duplicados en stock"

üîÑ Limpiando y verificando cat√°logo de productos...


In [11]:
# 8) Merge final de tablas
print("üîÑ Haciendo merge final...")
df_prod = sell_in_agg[sell_in_agg['product_id'].isin(productos_pred['product_id'])]
df_prod = df_prod.merge(productos_clean, on='product_id', how='left')
df_prod = df_prod.merge(stock,           on=['periodo','product_id'], how='left')

for col in ['cat1','cat2','cat3','brand']:
    df_prod[col] = df_prod[col].astype('category')

üîÑ Haciendo merge final...


In [12]:
# 9) Creaci√≥n del target
print("üîÑ Creando columna 'target' (tn a dos meses vista)...")
df_prod = df_prod.sort_values(['product_id','periodo'])
df_prod['target'] = df_prod.groupby('product_id')['tn'].shift(-2)

üîÑ Creando columna 'target' (tn a dos meses vista)...


In [13]:
#10) Guardado de resultados en Drive (CSV sin compresi√≥n)
print("üîÑ Guardando resultados en Drive como CSV...")
df_prod.to_csv(
    os.path.join(INTERMEDIOS, "df_limpio_product_id.csv"),
    index=False
)

print("‚úÖ Procesamiento completado.")
print("‚ÑπÔ∏è Archivo CSV guardado en:", os.path.join(INTERMEDIOS, "df_limpio_product_id.csv"))

üîÑ Guardando resultados en Drive como CSV...
‚úÖ Procesamiento completado.
‚ÑπÔ∏è Archivo CSV guardado en: /Users/indianaabeledo/Documents/Maestria/laboratorio_III/entrega_final/intermedios/df_limpio_product_id.csv
