In [6]:
import pandas as pd
import numpy as np
import random
import os
from datetime import datetime, timedelta


In [7]:
num_clientes = 500
fecha_inicio_str = "2025-05-01"
fecha_fin_str = "2026-05-01"

fecha_inicio = datetime.strptime(fecha_inicio_str, "%Y-%m-%d")
fecha_fin = datetime.strptime(fecha_fin_str, "%Y-%m-%d")

delta_dias_total = (fecha_fin - fecha_inicio).days

categorias_productos_posibles = ["cervezas", "tragos", "tragos de autor", "vinos", "Picadas", "entradas", "platos principales", "postres", "otros platos", "gaseosas", "aguas", "merch", "whiskys", "otras categorias"]

print(f"Número de clientes a simular: {num_clientes}")
print(f"Periodo de transacciones: Desde {fecha_inicio_str} hasta {fecha_fin_str} ({delta_dias_total + 1} días)")


Número de clientes a simular: 500
Periodo de transacciones: Desde 2025-05-01 hasta 2026-05-01 (366 días)


In [8]:
cliente_ids = [f"Cliente_{str(i).zfill(4)}" for i in range(1, num_clientes + 1)]

# Lista para almacenar todas las transacciones (cada transacción será un diccionario)
transacciones_lista = []

# Bucle principal: iterar sobre cada ID de cliente
for cliente_id in cliente_ids:

    num_visitas_cliente = random.randint(1, 60)

    # Bucle secundario: iterar sobre cada visita simulada para el cliente actual
    for _ in range(num_visitas_cliente):
        # Simular una fecha aleatoria para la visita dentro del rango definido
        dias_aleatorios_offset = random.randint(0, delta_dias_total)
        fecha_visita = fecha_inicio + timedelta(days=dias_aleatorios_offset)

        # Simular un monto de consumo aleatorio para esta visita

        monto_consumo = round(random.uniform(5000, 50000), 2)

        # Asignar una categoría de producto aleatoria a esta transacción
        categoria_consumida = random.choice(categorias_productos_posibles)

        # Añadir la transacción (como un diccionario) a nuestra lista
        transacciones_lista.append({
            "ID_Cliente": cliente_id,
            "Fecha_Visita": fecha_visita,
            "Monto_Consumo": monto_consumo,
            "Categoria_Producto": categoria_consumida
        })

print(f"Se generaron {len(transacciones_lista)} transacciones en total.")

Se generaron 14786 transacciones en total.


In [9]:
# Convertir la lista de diccionarios de transacciones a un DataFrame de Pandas
df_transacciones = pd.DataFrame(transacciones_lista)

# (Opcional) Mostrar las primeras 5 filas para verificar
print("Primeras 5 transacciones generadas:")
print(df_transacciones.head())

# (Opcional) Mostrar información general del DataFrame
print("\nInformación del DataFrame:")
df_transacciones.info()

# (Opcional) Ordenar los datos para una mejor visualización inicial (ej: por cliente y luego por fecha)
df_transacciones = df_transacciones.sort_values(by=["ID_Cliente", "Fecha_Visita"]).reset_index(drop=True)
print("\nPrimeras 5 transacciones después de ordenar:")
print(df_transacciones.head())

Primeras 5 transacciones generadas:
     ID_Cliente Fecha_Visita  Monto_Consumo Categoria_Producto
0  Cliente_0001   2026-03-23        7772.04            Picadas
1  Cliente_0001   2025-09-06       43746.06              merch
2  Cliente_0001   2026-03-23       47001.90            Picadas
3  Cliente_0001   2025-09-14       45092.08             tragos
4  Cliente_0001   2026-03-22        6497.97            whiskys

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14786 entries, 0 to 14785
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   ID_Cliente          14786 non-null  object        
 1   Fecha_Visita        14786 non-null  datetime64[ns]
 2   Monto_Consumo       14786 non-null  float64       
 3   Categoria_Producto  14786 non-null  object        
dtypes: datetime64[ns](1), float64(1), object(2)
memory usage: 462.2+ KB

Primeras 5 transacciones después de orde

In [10]:
# --- 3. Guardar el DataFrame resultante en un archivo CSV dentro de una carpeta data/ ---

# Nombre de la carpeta donde guardaremos los datos
output_dir = 'data'

# Crear la carpeta 'data' si no existe
if not os.path.exists(output_dir):
    os.makedirs(output_dir)
    print(f"Carpeta '{output_dir}' creada.")
else:
    print(f"Carpeta '{output_dir}' ya existe.")

# Definir la ruta completa del archivo CSV
ruta_csv = os.path.join(output_dir, 'transacciones_bar_la_paloma.csv')

# Guardar el DataFrame como CSV
# index=False evita que se guarde el índice del DataFrame como una columna en el CSV
df_transacciones.to_csv(ruta_csv, index=False, date_format='%Y-%m-%d') # Especificar formato de fecha

print(f"\nDataFrame guardado exitosamente como '{ruta_csv}'")

Carpeta 'data' ya existe.

DataFrame guardado exitosamente como 'data\transacciones_bar_la_paloma.csv'
