In [None]:
import pandas as pd
import numpy as np
from mlxtend.preprocessing import TransactionEncoder

# Configuração
np.random.seed(42)
num_transactions = 1000

# Catálogo completo de produtos
produtos = {
    'Laticínios': ['Leite', 'Queijo', 'Manteiga', 'Iogurte', 'Requeijão'],
    'Padaria': ['Pão', 'Biscoito', 'Rosca', 'Baguete', 'Croissant'],
    'Bebidas': ['Cerveja', 'Refrigerante', 'Água', 'Suco', 'Vinho'],
    'Mercearia': ['Arroz', 'Feijão', 'Macarrão', 'Óleo', 'Sal', 'Açúcar'],
    'Carnes': ['Frango', 'Carne', 'Peixe', 'Linguiça', 'Bacon'],
    'Hortifruti': ['Tomate', 'Alface', 'Cebola', 'Batata', 'Maçã'],
    'Limpeza': ['Sabão', 'Detergente', 'Desinfetante', 'Esponja', 'Álcool'],
    'Higiene': ['Shampoo', 'Sabonete', 'Pasta Dental', 'Papel Higiênico', 'Fralda']
}

# Padrões de compra
padroes = [
    (['Pão', 'Manteiga', 'Leite'], 0.25),
    (['Arroz', 'Feijão', 'Frango'], 0.20),
    (['Cerveja', 'Amendoim', 'Batata Chips'], 0.15),
    (['Fralda', 'Leite', 'Papel Higiênico'], 0.10),
    (['Vinho', 'Queijo'], 0.08)
]

# Gerar transações
transacoes = []
for _ in range(num_transactions):
    if np.random.random() < 0.7:  # 70% seguem padrões
        rand = np.random.random()
        acumulado = 0
        for itens, prob in padroes:
            acumulado += prob
            if rand < acumulado:
                transacoes.append(list(itens))
                break
        else:
            # Itens aleatórios
            categoria = np.random.choice(list(produtos.keys()))
            transacoes.append(np.random.choice(produtos[categoria], 
                            size=np.random.randint(1,4), replace=False).tolist())
    else:
        # Itens totalmente aleatórios
        num_itens = np.random.randint(1,5)
        transacoes.append(np.random.choice([item for sublist in produtos.values() 
                         for item in sublist], num_itens, replace=False).tolist())

# Transformar para DataFrame
te = TransactionEncoder()
te_ary = te.fit(transacoes).transform(transacoes)
df = pd.DataFrame(te_ary, columns=te.columns_)

# Salvar em dois formatos
# 1. Formato one-hot para análise
df.to_csv('dados_supermercado_onehot.csv', index=False)

# 2. Formato raw para referência
pd.DataFrame({
    'TransacaoID': [f'T{i+1}' for i in range(len(transacoes))],
    'Itens': [', '.join(t) for t in transacoes]
}).to_csv('dados_supermercado_raw.csv', index=False)

print("Bases geradas com sucesso!")
print("- dados_supermercado_onehot.csv (para análise)")
print("- dados_supermercado_raw.csv (transações completas)")