In [1]:
import random
import json

def generar_dataset(productos, num_tickets=1000, max_productos_por_ticket=8, archivo_salida="tickets.json"):
    """
    Genera un dataset sintético de tickets y los convierte en pares (entrada → siguiente producto)
    
    Args:
        productos (list): lista de productos.
        num_tickets (int): número de tickets a generar.
        max_productos_por_ticket (int): máximo de productos por ticket.
        archivo_salida (str): nombre del archivo JSON de salida.
    
    Returns:
        list: lista de tickets generados.
        list: lista de pares (entrada, siguiente_producto).
    """
    tickets = []
    pares = []

    # Opciones para crear combinaciones más realistas (puedes agregar más)
    grupos = [
    ["Leche entera", "Pan de molde integral", "Café molido"],
    ["Arroz redondo", "Aceite de oliva virgen extra", "Sal fina"],
    ["Espaguetis", "Tomate frito", "Queso curado"],
    ["Croquetas de jamón", "Pizza barbacoa"],
    ["Pechuga de pollo", "Huevos", "Aceite de oliva virgen extra"],
    ["Yogur natural", "Galletas María", "Plátanos"],
    ["Detergente líquido para ropa", "Suavizante concentrado"],
    ["Gel de ducha", "Champú para cabello normal", "Pasta de dientes"],
    ["Mayonesa", "Ketchup", "Patatas fritas clásicas"],
    ["Chocolate negro", "Helado de vainilla"],
    ["Zumo de naranja", "Cereales de avena", "Leche entera"],
    ["Filetes de merluza congelados", "Arroz redondo", "Aceite de oliva virgen extra"],
    ["Mantequilla sin sal", "Pan de molde integral", "Mermelada"],
    ["Jamón cocido", "Queso curado", "Pan de molde integral"],
    ["Atún en aceite", "Tomate frito", "Espaguetis"],
    ["Plátanos", "Leche semidesnatada", "Galletas María"],
    ["Helado de vainilla", "Chocolate negro", "Galletas María"],
    ["Papel higiénico", "Servilletas de papel", "Bolsas de basura grandes"],
    ["Vinagre de vino blanco", "Aceite de oliva virgen extra", "Sal fina"],
    ["Patatas fritas clásicas", "Ketchup", "Mayonesa"],
    ["Café molido", "Azúcar blanco", "Leche entera"],
    ["Espaguetis", "Tomate frito", "Atún en aceite"],
    ["Pechuga de pollo", "Arroz redondo", "Aceite de oliva virgen extra"],
    ["Gel de ducha", "Champú para cabello normal", "Toalla de baño"],  # aunque no tenemos "toalla", puede ser reemplazable
    ["Detergente líquido para ropa", "Suavizante concentrado", "Bolsas de basura grandes"],
    ]


    for _ in range(num_tickets):
        base = random.choice(grupos)
        extra = random.sample(productos, k=random.randint(0, max_productos_por_ticket - len(base)))
        ticket = list(set(base + extra))
        random.shuffle(ticket)
        tickets.append(ticket)

        # Crear pares (entrada → siguiente producto)
        for i in range(1, len(ticket)):
            entrada = ticket[:i]        # productos comprados hasta el momento
            siguiente = ticket[i]       # producto a predecir
            pares.append((entrada, siguiente))

    # Guardar tickets y pares en un archivo JSON
    with open(archivo_salida, "w", encoding="utf-8") as f:
        json.dump({
            "tickets": tickets,
            "pares": [{"entrada": e, "siguiente": s} for e, s in pares]
        }, f, ensure_ascii=False, indent=2)

    print(f"Generados {len(tickets)} tickets y {len(pares)} pares de entrenamiento en '{archivo_salida}'")
    return tickets, pares


In [2]:
# --- Ejemplo de uso ---
productos = [
    "Leche entera", "Leche semidesnatada", "Pan de molde integral", "Huevos",
    "Aceite de oliva virgen extra", "Arroz redondo", "Macarrones", "Espaguetis",
    "Tomate frito", "Atún en aceite", "Pechuga de pollo", "Filetes de merluza congelados",
    "Pizza barbacoa", "Croquetas de jamón", "Yogur natural", "Queso curado",
    "Jamón cocido", "Café molido", "Zumo de naranja", "Agua mineral",
    "Cereales de avena", "Galletas María", "Chocolate negro", "Helado de vainilla",
    "Mantequilla sin sal", "Patatas fritas clásicas", "Mayonesa", "Ketchup",
    "Vinagre de vino blanco", "Sal fina", "Azúcar blanco", "Detergente líquido para ropa",
    "Suavizante concentrado", "Gel de ducha", "Champú para cabello normal",
    "Pasta de dientes", "Papel higiénico", "Servilletas de papel",
    "Bolsas de basura grandes", "Plátanos"
]

# Genera 10.000 tickets de ejemplo
tickets, pares = generar_dataset(productos, num_tickets=10000, max_productos_por_ticket=8, archivo_salida="dataset_mercadona.json")

Generados 10000 tickets y 42581 pares de entrenamiento en 'dataset_mercadona.json'
