In [1]:
import numpy as np  # Librería para generar números aleatorios y trabajar con arrays
import pandas as pd  # Librería para manejar estructuras de datos como DataFrames

# Configuración inicial
np.random.seed(42)  # Fijamos la semilla para garantizar reproducibilidad en los datos
num_filas = 5000  # Número de filas del dataset

# Lista de productos disponibles
productos = [
    "pan blanco", "pan queso", "pan integral", "pan cauca", "pan galleta", "pan coco",
    "pan bizcocho", "pan hamburguesa", "pan buffet", "pan maraqueta", "pan lomito",
    "pan baguet", "prepiza pequeña", "prepiza mediana", "hot-dog", "prepiza familiar",
    "prepiza intermedia", "molde blanco", "molde integral", "tostada blanca",
    "tostada integral", "rollo", "empanadas", "pan molido", "alfajores",
    "bandejas de galletas", "budin", "sandwich de pollo", "gelatina", "soda pequeña",
    "queque mediano", "molde de avena", "molde integral", "pan cuerno integral",
    "donas", "muffies", "pie limon", "torta porcion", "cuñape", "cookies",
    "pie chocolate", "pan sin levadura", "palitos de queso"
]

# Lista de precios unitarios correspondientes a los productos
precio_unitario = [
    0.5, 0.5, 0.5, 0.5, 0.66, 0.5, 0.5, 0.5, 0.5, 0.5, 1, 3, 1, 1.5, 0.5, 5,
    3.5, 10, 10, 10, 10, 12, 2, 5, 2, 10, 3, 5, 5, 3, 15, 10, 10, 0.5, 5, 2, 8,
    8, 2, 3, 8, 1, 3
]

# Crear un diccionario que asocie cada producto con un número del 1 al 43
producto_dict = {producto: i + 1 for i, producto in enumerate(productos)}

# Generación de las columnas del dataset
data = {
    # Columna 'Producto' con valores numéricos del 1 al 43
    "Producto": np.random.choice(list(producto_dict.values()), num_filas),

    # Columna 'Producto de terceros': 0 para No, 1 para Sí (aleatorio)
    "Producto de terceros": np.random.choice([0, 1], num_filas),

    # Columna 'Precio unitario' con selección aleatoria de la lista de precios
    "Precio unitario": np.random.choice(precio_unitario, num_filas),

    # Columna 'Categoría': 0 (Salado), 1 (Dulce), 2 (Integral)
    "Categoría": np.random.choice([0, 1, 2], num_filas),

    # Columna 'Unidades vendidas' basada en una distribución Poisson (valores reales)
    "Unidades vendidas": np.random.poisson(5, num_filas),

    # Columna 'Día de semana' con valores del 1 al 7
    "Día de semana": np.random.randint(1, 8, num_filas),

    # Columna 'Hora del día' con horas de 6 AM a 9 PM
    "Hora del día": np.random.randint(6, 22, num_filas),  # Elegir horas entre 6 AM y 9 PM sin probabilidades

    # Columna 'Cliente regular': 0 para No (80%), 1 para Sí (20%)
    "Cliente regular": np.random.choice([0, 1], num_filas, p=[0.8, 0.2]),

    # Columna 'Método de pago': 0 (Efectivo), 1 (QR), 2 (Crédito)
    "Método de pago": np.random.choice([0, 1, 2], num_filas),

    # Columna 'Zona de panadería': 0 (Jaime Mendoza), 1 (Villa Armonía), 2 (Pando)
    "Zona de panadería": np.random.choice([0, 1, 2], num_filas),

    # Columna 'Día laboral durante feriado': 0 (No, 95%), 1 (Sí, 5%)
    "Día laboral durante feriado": np.random.choice([0, 1], num_filas, p=[0.95, 0.05]),

    # Columna 'Pedido': 0 (No, 90%), 1 (Sí, 10%)
    "Pedido": np.random.choice([0, 1], num_filas, p=[0.9, 0.1])
}

# Convertir los datos generados a un DataFrame
df = pd.DataFrame(data)

# Guardar el DataFrame como un archivo CSV
df.to_csv("panaderia_dataset.csv", index=False)
print("Dataset generado y guardado como 'panaderia_dataset.csv'")


Dataset generado y guardado como 'panaderia_dataset.csv'


In [None]:
import os
print(os.getcwd())  # Esto muestra la carpeta donde se guardará el archivo.


/content


In [None]:
# Importar pandas para manejar los datos
import pandas as pd

# Cargar el dataset desde el archivo CSV
df = pd.read_csv("/content/panaderia_dataset.csv")

# Ver las primeras filas del dataset para inspeccionar los datos
print(df.head())

# Ver las columnas del dataset
print(df.columns)

# Si deseas ver un resumen de las estadísticas descriptivas del dataset
print(df.describe())


   Producto  Producto de terceros  Precio unitario  Categoría  \
0        40                     0              3.0          2   
1        29                     1              0.5          2   
2        15                     1              8.0          2   
3         8                     0              0.5          0   
4        21                     1              1.0          0   

   Unidades vendidas  Día de semana  Hora del día  Cliente regular  \
0                  7              4            13                0   
1                 10              2             9                1   
2                  5              5             9                0   
3                  6              1            16                0   
4                  5              1            12                0   

   Método de pago  Zona de panadería  Día laboral durante feriado  Pedido  
0               0                  2                            0       0  
1               1                  2

In [None]:
import pandas as pd

# Cargar el dataset desde el archivo CSV
df = pd.read_csv("panaderia_dataset.csv")

# Imprimir las primeras 20 filas
print("Primeras 20 filas:")
print(df.head(20))  # Muestra las primeras 20 filas

# Imprimir las últimas 20 filas
print("\nÚltimas 20 filas:")
print(df.tail(20))  # Muestra las últimas 20 filas


Primeras 20 filas:
    Producto  Producto de terceros  Precio unitario  Categoría  \
0         40                     0              3.0          2   
1         29                     1              0.5          2   
2         15                     1              8.0          2   
3          8                     0              0.5          0   
4         21                     1              1.0          0   
5         40                     1              2.0          1   
6         33                     1              2.0          1   
7         23                     1              5.0          1   
8         11                     1              3.5          1   
9         11                     1              0.5          1   
10        24                     0              1.0          2   
11        37                     0             15.0          2   
12        41                     0              5.0          2   
13        24                     0              5.0      