*Carga* Sell-in

In [2]:
import pandas as pd

# --- Nombre del archivo ---
# Asegúrate de que este archivo esté en la misma carpeta que tu script de Python
file_name = 'sell-in.txt'

try:
    # --- Lectura del archivo ---
    # Usamos pd.read_csv porque es muy robusto para leer archivos de texto.
    # sep='\t' le indica que las columnas están separadas por una tabulación.
    # Si tus columnas están separadas por otro carácter (como ';'), cámbialo aquí.
    df = pd.read_csv(file_name, sep='\t')
    
    # --- Muestra el resultado ---
    print(f"Archivo '{file_name}' leído exitosamente.")
    print("Primeras 5 filas del DataFrame:")
    print(df.head())
    
    print("\nInformación del DataFrame:")
    df.info()

except FileNotFoundError:
    print(f"ERROR: No se pudo encontrar el archivo '{file_name}'.")
    print("Asegúrate de que el archivo esté en la misma carpeta que este script.")
except Exception as e:
    print(f"Ocurrió un error al leer el archivo: {e}")

Archivo 'sell-in.txt' leído exitosamente.
Primeras 5 filas del DataFrame:
   periodo  customer_id  product_id  plan_precios_cuidados  cust_request_qty  \
0   201701        10234       20524                      0                 2   
1   201701        10032       20524                      0                 1   
2   201701        10217       20524                      0                 1   
3   201701        10125       20524                      0                 1   
4   201701        10012       20524                      0                11   

   cust_request_tn       tn  
0          0.05300  0.05300  
1          0.13628  0.13628  
2          0.03028  0.03028  
3          0.02271  0.02271  
4          1.54452  1.54452  

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2945818 entries, 0 to 2945817
Data columns (total 7 columns):
 #   Column                 Dtype  
---  ------                 -----  
 0   periodo                int64  
 1   customer_id 

Carga 780 productos

In [3]:
import pandas as pd

# --- Nombre del archivo ---
# Asegúrate de que este archivo esté en la misma carpeta que tu script de Python
file_name = 'product_id_apredecir201912.txt'

try:
    # --- Lectura del archivo ---
    # Usamos pd.read_csv porque es muy robusto para leer archivos de texto.
    # sep='\t' le indica que las columnas están separadas por una tabulación.
    # Si tus columnas están separadas por otro carácter (como ';'), cámbialo aquí.
    df_nuevo = pd.read_csv(file_name, sep='\t')
    
    # --- Muestra el resultado ---
    print(f"Archivo '{file_name}' leído exitosamente.")
    print("Primeras 5 filas del DataFrame:")
    print(df_nuevo.head())
    
    print("\nInformación del DataFrame:")
    df_nuevo.info()

except FileNotFoundError:
    print(f"ERROR: No se pudo encontrar el archivo '{file_name}'.")
    print("Asegúrate de que el archivo esté en la misma carpeta que este script.")
except Exception as e:
    print(f"Ocurrió un error al leer el archivo: {e}")

Archivo 'product_id_apredecir201912.txt' leído exitosamente.
Primeras 5 filas del DataFrame:
   product_id
0       20001
1       20002
2       20003
3       20004
4       20005

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 780 entries, 0 to 779
Data columns (total 1 columns):
 #   Column      Non-Null Count  Dtype
---  ------      --------------  -----
 0   product_id  780 non-null    int64
dtypes: int64(1)
memory usage: 6.2 KB


Filtrar

In [5]:
# Filtrar el DataFrame principal (df)
# Nos quedamos solo con las filas donde el 'product_id' de 'df' esté presente en la columna 'product_id' de 'df_nuevo'
df_final = df[df['product_id'].isin(df_nuevo['product_id'])]

# --- Muestra el DataFrame final y su tamaño ---
print(f"El DataFrame original tenía {len(df)} registros.")
print(f"El DataFrame final tiene {len(df_final)} registros.")
print("\nMostrando el DataFrame final (solo con los productos del archivo auxiliar):")
display(df_final)

El DataFrame original tenía 2945818 registros.
El DataFrame final tiene 2293481 registros.

Mostrando el DataFrame final (solo con los productos del archivo auxiliar):


Unnamed: 0,periodo,customer_id,product_id,plan_precios_cuidados,cust_request_qty,cust_request_tn,tn
0,201701,10234,20524,0,2,0.05300,0.05300
1,201701,10032,20524,0,1,0.13628,0.13628
2,201701,10217,20524,0,1,0.03028,0.03028
3,201701,10125,20524,0,1,0.02271,0.02271
4,201701,10012,20524,0,11,1.54452,1.54452
...,...,...,...,...,...,...,...
2945813,201912,10105,20853,0,1,0.02230,0.02230
2945814,201912,10092,20853,0,1,0.00669,0.00669
2945815,201912,10006,20853,0,7,0.02898,0.02898
2945816,201912,10018,20853,0,4,0.01561,0.01561


In [6]:
# Nombre que le daremos a nuestro archivo de salida
nombre_del_archivo = 'dataframe_final_exportado.csv'

# Usamos la función to_csv para exportar el DataFrame
# index=False es importante para no guardar el índice del DataFrame como una columna
df_final.to_csv(nombre_del_archivo, index=False, encoding='utf-8')

print(f"¡DataFrame exportado exitosamente con el nombre '{nombre_del_archivo}'!")

¡DataFrame exportado exitosamente con el nombre 'dataframe_final_exportado.csv'!


Codigo 17 Millones de registros

In [7]:
import pandas as pd
import numpy as np
import gc

print("--- PASO 1: Cargar Datos Originales ---")
try:
    df_original = pd.read_csv('dataframe_final_exportado.csv')
    df_original['periodo'] = pd.to_datetime(df_original['periodo'], format='%Y%m')
except FileNotFoundError:
    print("Error: 'dataframe_final_exportado.csv' no encontrado. Usando datos de ejemplo.")
    data = {'periodo': pd.to_datetime(pd.date_range(start='2017-06-01', periods=36, freq='MS').tolist() * 5),
            'customer_id': np.repeat([101, 102, 103, 104, 105], 36),
            'product_id': np.repeat([1001, 1002, 1003, 1004, 1005], 36),
            'tn': np.abs(np.random.randn(36 * 5) * 50 + 10)}
    df_original = pd.DataFrame(data)

print(f"Dataset original cargado. Filas: {len(df_original)}")
print("-" * 50)


# --- PASO 2: Definir "Ciclos de Vida" de Productos y Clientes ---
print("--- PASO 2: Calculando el ciclo de vida de cada producto y cliente ---")

# La fecha de fin para todos será la última fecha en todo el dataset.
global_end_date = df_original['periodo'].max()

# Ciclo de vida por producto: Nace con su primera venta y vive hasta el final.
product_lifecycle = df_original.groupby('product_id')['periodo'].agg(['min']).rename(columns={'min': 'product_start'})
product_lifecycle['product_end'] = global_end_date

# Ciclo de vida por cliente: Nace con su primera compra y vive hasta el final.
customer_lifecycle = df_original.groupby('customer_id')['periodo'].agg(['min']).rename(columns={'min': 'customer_start'})
customer_lifecycle['customer_end'] = global_end_date


print("Ciclos de vida calculados con la lógica 'Sin Muerte Prematura'.")
print("-" * 50)


# --- PASO 3: Crear la Grilla Maestra de todas las combinaciones posibles ---
print("--- PASO 3: Construyendo la grilla maestra (esto puede tardar un poco)... ---")

# 1. Crear un rango de fechas completo para todo el historial
start_date = df_original['periodo'].min()
end_date = df_original['periodo'].max()
full_date_range = pd.date_range(start_date, end_date, freq='MS')

# 2. Obtener TODOS los productos y TODOS los clientes únicos
all_products = df_original['product_id'].unique()
all_customers = df_original['customer_id'].unique()

# 3. Crear la grilla completa con el producto cartesiano de todas las entidades
grid_df = pd.MultiIndex.from_product([full_date_range, all_products, all_customers],
                                      names=['periodo', 'product_id', 'customer_id'])
grid_df = pd.DataFrame(index=grid_df).reset_index()

print(f"Grilla maestra creada. Filas teóricas: {len(grid_df)}")
print("-" * 50)


# --- PASO 4: Unir todo y aplicar la lógica de llenado (LÓGICA MODIFICADA) ---
print("--- PASO 4: Uniendo ventas y ciclos de vida a la grilla maestra... ---")

# Unir la grilla con las ventas originales
df_master = pd.merge(grid_df, df_original, on=['periodo', 'product_id', 'customer_id'], how='left')

# Unir con los ciclos de vida de productos y clientes
df_master = pd.merge(df_master, product_lifecycle, on='product_id', how='left')
df_master = pd.merge(df_master, customer_lifecycle, on='customer_id', how='left')

print("Uniones completadas. Aplicando lógica de llenado sobre la grilla completa...")

# Lógica de llenado:
# 1. Definir si la combinación estaba "viva" en un período determinado
is_product_alive = (df_master['periodo'] >= df_master['product_start'])
is_customer_alive = (df_master['periodo'] >= df_master['customer_start'])
is_combo_alive = is_product_alive & is_customer_alive

# 2. Aplicar las reglas sobre TODA la grilla
# Si la combinación NO estaba viva, 'tn' debe ser Nulo (no existía la posibilidad de venta)
df_master.loc[~is_combo_alive, 'tn'] = np.nan

# Si la combinación SÍ estaba viva pero no hay registro de venta (valor nulo de la unión),
# significa que no compró, por lo tanto, 'tn' es 0.
df_master.loc[is_combo_alive, 'tn'] = df_master.loc[is_combo_alive, 'tn'].fillna(0)


# --- PASO 5: Limpieza final y exportación ---
print("--- PASO 5: Limpiando y exportando el dataset maestro ---")

# Seleccionar solo las columnas necesarias para el dataset final
final_columns = ['periodo', 'product_id', 'customer_id', 'tn']
df_final = df_master[final_columns].copy()

# En esta versión, NO eliminamos los nulos para mantener el tamaño completo del dataset.
# Los modelos como LightGBM/XGBoost pueden manejar los valores nulos nativamente.

print(f"Dataset maestro final creado. Filas: {len(df_final)}")
print(f"El dataset original se ha multiplicado por un factor de: {len(df_final) / len(df_original):.2f}x")

# Exportar el resultado a un nuevo archivo CSV
output_filename = 'dataset_maestro_completo_17M.csv'
df_final.to_csv(output_filename, index=False)

print(f"\n¡Proceso completado! El nuevo dataset se ha guardado como '{output_filename}'")
print("\nPrimeras filas del nuevo dataset:")
print(df_final.head())
print("\nÚltimas filas del nuevo dataset:")
print(df_final.tail())

# Liberar memoria
del df_master, df_original, grid_df, product_lifecycle, customer_lifecycle
gc.collect()

--- PASO 1: Cargar Datos Originales ---
Dataset original cargado. Filas: 2293481
--------------------------------------------------
--- PASO 2: Calculando el ciclo de vida de cada producto y cliente ---
Ciclos de vida calculados con la lógica 'Sin Muerte Prematura'.
--------------------------------------------------
--- PASO 3: Construyendo la grilla maestra (esto puede tardar un poco)... ---
Grilla maestra creada. Filas teóricas: 16763760
--------------------------------------------------
--- PASO 4: Uniendo ventas y ciclos de vida a la grilla maestra... ---
Uniones completadas. Aplicando lógica de llenado sobre la grilla completa...
--- PASO 5: Limpiando y exportando el dataset maestro ---
Dataset maestro final creado. Filas: 16763760
El dataset original se ha multiplicado por un factor de: 7.31x

¡Proceso completado! El nuevo dataset se ha guardado como 'dataset_maestro_completo_17M.csv'

Primeras filas del nuevo dataset:
     periodo  product_id  customer_id       tn
0 2017-01-01  

214