In [1]:
"""
1. INTRODUÇÃO:
Ao iniciarmos este projeto, nosso primeiro passo foi analisar os dados brutos que tínhamos,
que eram os três arquivos: Order, Campaign e CampaignQueue. Nosso objetivo principal
sempre foi aplicar Machine Learning (ML) para criar valor, e pensamos em usar a
clusterização com K-Means para segmentar nossos clientes.

O desafio foi que o K-Means é um modelo matemático, ele não entende o que é uma campanha
ou uma fila de envio. Ele precisa de parâmetros numéricos que façam sentidos para definir
o comportamento de um cliente. Foi aí que trouxemos a metodologia Análise RFM.
Com essa metodologia em mente, focamos no arquivo Order, pois os demais não definiam o
comportamento de compra. Nosso processo de ETL e derivação concentrou-se em extrair
apenas os parâmetros plausíveis: o ID do cliente, a data do pedido (para Recência)
e o valor total (para Valor Monetário).
"""

import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta

print("Iniciando a geração de dados aleatórios (mock data) para análise RFM...")

# --- A. Definição de Parâmetros e Ferramentas (Seleção de Dados) ---
NUM_ORDERS = 5000
NUM_CUSTOMERS = 450
START_DATE = datetime.now() - timedelta(days=730)
END_DATE = datetime.now()

# --- Pools de Dados Aleatórios ---
customer_pool = [f'CUST_{random.randint(1000, 9999)}' for _ in range(NUM_CUSTOMERS)]
status_pool = ['CONCLUDED', 'CONCLUDED', 'CONCLUDED', 'CONCLUDED', 'CANCELED', 'DISPATCHED']
channel_pool = ['App Proprio', 'Website', 'iFood', 'Telefone', 'WhatsApp']

Iniciando a geração de dados aleatórios (mock data) para análise RFM...


In [2]:
# 2. PROCESSO DE ETL: EXECUÇÃO E EXTRAÇÃO

data = []
for i in range(NUM_ORDERS):

    # Extração e Atribuição dos parâmetros chave: customer, createdAt, totalAmount
    customer_id = random.choice(customer_pool)
    order_datetime = START_DATE + timedelta(
        seconds=random.randint(0, int((END_DATE - START_DATE).total_seconds()))
    )
    order_date_str = order_datetime.strftime('%d/%m/%Y %H:%M')
    total_amount = round(np.random.uniform(15.50, 350.75), 2)

    # Geração de campos adicionais
    order_id = f'MOCK_ORD_{10000 + i}'
    order_status = random.choice(status_pool)
    sales_channel = random.choice(channel_pool)

    data.append({
        'id': order_id,
        'customer': customer_id,
        'createdAt': order_date_str,
        'totalAmount': total_amount,
        'status': order_status,
        'salesChannel': sales_channel
    })

# Criação do DataFrame (A Integração dos Dados)
df_mock_orders = pd.DataFrame(data)

print(f"Extração e Geração de {NUM_ORDERS} pedidos concluída.")

Extração e Geração de 5000 pedidos concluída.


In [3]:
# 3. UNIFORMIZAÇÃO E LIMPEZA DE TIPOS

# Garantir que 'totalAmount' é float (limpeza de tipo, essencial para os cálculos de soma do RFM)
df_mock_orders['totalAmount'] = df_mock_orders['totalAmount'].astype(float)

print("Uniformização de tipos concluída: 'totalAmount' garantido como float.")

# Pré-visualização da base de dados (para comprovar os parâmetros plausíveis)
print("\nPré-visualização da base de dados:")
df_mock_orders.head()

Uniformização de tipos concluída: 'totalAmount' garantido como float.

Pré-visualização da base de dados:


Unnamed: 0,id,customer,createdAt,totalAmount,status,salesChannel
0,MOCK_ORD_10000,CUST_3499,22/08/2025 16:00,211.88,CANCELED,App Proprio
1,MOCK_ORD_10001,CUST_2969,02/04/2024 12:36,214.32,CONCLUDED,WhatsApp
2,MOCK_ORD_10002,CUST_3813,31/10/2024 16:14,217.08,CONCLUDED,App Proprio
3,MOCK_ORD_10003,CUST_4164,07/03/2024 03:34,230.6,CONCLUDED,App Proprio
4,MOCK_ORD_10004,CUST_9811,05/04/2024 00:54,138.29,CONCLUDED,Website


In [4]:
# 4. EXPORTAÇÃO FINAL

# Este arquivo simula o resultado exato desse processo de ETL e limpeza. Ele representa
# a nossa base de dados 'limpa e pronta', contendo apenas aqueles parâmetros plausíveis
# que o nosso modelo K-Means precisa para, de fato, encontrar os clusters de clientes
# que buscamos.

# Salvar com separador ';' e decimal ',' (Formato final de BI para a entrega)
output_filename = "mock_orders_for_rfm.csv"
df_mock_orders.to_csv(output_filename, sep=';', index=False, decimal=',')

print(f"\nSucesso! Arquivo '{output_filename}' gerado e formatado.")


Sucesso! Arquivo 'mock_orders_for_rfm.csv' gerado e formatado.


In [5]:
# --- CONCLUSÃO ---
#
# Portanto, para este projeto acadêmico, nós geramos um novo arquivo, o mock_orders_for_rfm.csv.
# Este arquivo simula o resultado exato desse processo de ETL e limpeza.
#
# A fase de preparação de dados cumpriu o objetivo de entregar a base limpa e pronta.
# O arquivo final servirá como a base estruturada e integrada para a aplicação do Machine Learning,
# confirmando a nossa capacidade em selecionar, limpar, derivar, integrar e formatar os dados.