In [2]:
import pandas as pd
import numpy as np

# Configurações iniciais
np.random.seed(42)

n_samples = 200  # Número de amostras por cluster

# Centros de clusters mais distintos
centers = [
    [20, 20], # Produtos de baixo custo que vendem pouco
    [18, 35], # Produtos de baixo custo que vendem muito
    [80, 20], # Produtos de alto custo que vendem pouco
    [80, 25]  # Produtos de alto custo que vendem muito
]

# Listas para guardar os dados
unit_price = []
items_sold = []
product_category = []
avg_website_visits_last_week = []
shipment_type = []
sales_success = []  # variável alvo

In [3]:
# Definir categorias fixas para cada cluster
fixed_categories = ['Eletrônicos', 'Vestuário', 'Casa', 'Alimentos']
fixed_shipment_types = ['Aérea', 'Terrestre', 'Marítima', 'Espacial']

# Desvios padrões arbitrários para cada categoria
visit_std_dev = [500, 400, 300, 200]

for i, center in enumerate(centers):
    # possuem correlação
    unit_price.extend(np.random.normal(center[0], 3, n_samples))
    items_sold.extend(np.round(np.random.normal(center[1], 3, n_samples)).tolist())

    # variável nova: avg_website_visits_last_week
    avg_visits = [5000, 3500, 2500, 1000][i]
    std_dev = visit_std_dev[i]
    avg_website_visits_last_week.extend(np.random.normal(avg_visits, std_dev, n_samples).tolist())

    # Fixar categorias e tipos de envio
    product_category.extend([fixed_categories[i]] * n_samples)
    shipment_type.extend([fixed_shipment_types[i]] * n_samples)
    
    # variável alvo fictícia
    sales_success.extend([i] * n_samples)

In [4]:
# Adicionar algum ruído aos dados numéricos
noise = np.random.normal(0, 1, len(unit_price))
unit_price = unit_price + noise

In [5]:
# Criar o DataFrame
df = pd.DataFrame({
    'unit_price': unit_price,
    'product_category': product_category,
    'avg_website_visits_last_week': avg_website_visits_last_week,
    'shipment_type': shipment_type,
    'items_sold': items_sold,
    'sales_success': sales_success  # variável alvo
})

df.head(2)

df.to_csv("dataset-random-forests.csv", index=False)