<a href="https://colab.research.google.com/github/camylla-ops/synth-ecommerce-data/blob/main/synthcommerceanalytics.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!pip install faker pandas  # Instala as dependências

from faker import Faker
import pandas as pd
import random  # Adicionei para controle de aleatoriedade

# Configurar semente para resultados reproduzíveis
Faker.seed(42)  # Seed para dados do Faker
random.seed(42)  # Seed para seleção de clientes

# Inicializar Faker com localização brasileira
fake = Faker('pt_BR')

# Gerar 100 registros de clientes
clientes = []
for _ in range(100):
    clientes.append({
        "id": fake.uuid4(),
        "nome": fake.name(),
        "email": fake.email(),
        "cidade": fake.city(),
        "ultima_compra": fake.date_this_year()
    })

# Criar DataFrame e manter ordem fixa
df_clientes = pd.DataFrame(clientes)
df_clientes = df_clientes.sort_values('nome').reset_index(drop=True)  # Ordenação consistente

print("Dados de clientes gerados com sucesso!")
print(f" Total de clientes: {len(df_clientes)}")
print(f" Cidades únicas: {df_clientes['cidade'].nunique()}")

Dados de clientes gerados com sucesso!
 Total de clientes: 100
 Cidades únicas: 83


In [None]:
df_clientes

Unnamed: 0,id,nome,email,cidade,ultima_compra
0,c754108f-f418-4f3f-8a14-be62295b4715,Agatha Peixoto,mariana01@example.com,da Costa do Norte,2025-01-14
1,3b8faa18-37f8-488b-97fc-695a07a0ca6e,Amanda Novais,zoeleao@example.org,Pastor de da Mota,2025-02-16
2,26286bfb-e767-4cea-b0e6-a969e21342b0,Ana Carolina Freitas,lorenacardoso@example.org,Fonseca do Norte,2025-02-21
3,a01ac992-7f9d-4e64-81a6-423b9f64eeed,Ana Júlia Costela,isis24@example.com,Campos de Alves,2025-02-25
4,693dffbc-6c6f-4611-9ab3-3edf6e595ed3,Ana Júlia Rocha,araujoisis@example.net,Caldeira de Goiás,2025-01-11
...,...,...,...,...,...
95,a6eab79e-d21c-42f8-8ada-4f80a9e782d4,Thales Andrade,milenapastor@example.com,Macedo,2025-01-06
96,561e16d1-6105-416b-ab0e-664e9c3eb2d5,Thales Duarte,mariahcunha@example.com,Fernandes Paulista,2025-02-20
97,aee1e86b-9ea5-46aa-a1ee-6c5bdeef580f,Theo Pacheco,ravimartins@example.net,Marques Paulista,2025-02-08
98,8e485223-46b9-4991-a14e-b70db380c73a,Valentim Correia,da-costajoana@example.com,Sales,2025-01-28


In [None]:
# Configurar semente para pandas/numpy (afeta o sample)
import numpy as np
np.random.seed(42)  # Adicione no início do código

# Gerar 500 compras fictícias com resultados consistentes
compras = []
for _ in range(500):
    compras.append({
        "id_compra": fake.uuid4(),
        "id_cliente": df_clientes.sample(1, random_state=42)["id"].values[0],  # Fixa a seleção
        "produto": fake.random_element(elements=("Camiseta", "Celular", "Livro", "Tênis")),
        "valor": fake.random_number(digits=3, fix_len=True),
        "data": fake.date_this_year()
    })

df_compras = pd.DataFrame(compras)

# Ordenar por data para consistência
df_compras['data'] = pd.to_datetime(df_compras['data'])
df_compras = df_compras.sort_values('data').reset_index(drop=True)

print("\n Dados de compras gerados com sucesso!")
print(f" Período: {df_compras['data'].min().date()} a {df_compras['data'].max().date()}")
print(f" Valor total: R$ {df_compras['valor'].sum():,.2f}")
print(" Primeiras compras:\n", df_compras.head(3))


 Dados de compras gerados com sucesso!
 Período: 2025-01-01 a 2025-02-26
 Valor total: R$ 289,224.00
 Primeiras compras:
                               id_compra                            id_cliente  \
0  d1682e09-f1f7-4904-9307-5157d8c128e7  b7c93acf-e059-40ee-9132-b63ef16287e4   
1  b57ec883-d258-4d90-96b6-bf61f68c62e6  b7c93acf-e059-40ee-9132-b63ef16287e4   
2  3207343e-c6a0-4656-85c9-fb91ff6ef9ed  b7c93acf-e059-40ee-9132-b63ef16287e4   

    produto  valor       data  
0  Camiseta    882 2025-01-01  
1     Livro    557 2025-01-01  
2   Celular    254 2025-01-01  


In [None]:
df_compras

Unnamed: 0,id_compra,id_cliente,produto,valor,data
0,d1682e09-f1f7-4904-9307-5157d8c128e7,b7c93acf-e059-40ee-9132-b63ef16287e4,Camiseta,882,2025-01-01
1,b57ec883-d258-4d90-96b6-bf61f68c62e6,b7c93acf-e059-40ee-9132-b63ef16287e4,Livro,557,2025-01-01
2,3207343e-c6a0-4656-85c9-fb91ff6ef9ed,b7c93acf-e059-40ee-9132-b63ef16287e4,Celular,254,2025-01-01
3,7bb3447b-e9aa-444b-9dd4-3675ef145064,b7c93acf-e059-40ee-9132-b63ef16287e4,Tênis,116,2025-01-01
4,850a48d4-46b5-48de-9b4b-b8eb537d0bd1,b7c93acf-e059-40ee-9132-b63ef16287e4,Tênis,994,2025-01-01
...,...,...,...,...,...
495,5005680f-24c7-48a5-9b4e-164b5716dc2e,b7c93acf-e059-40ee-9132-b63ef16287e4,Livro,851,2025-02-26
496,2460d0d2-9048-43c1-9151-9998f2933585,b7c93acf-e059-40ee-9132-b63ef16287e4,Celular,956,2025-02-26
497,f54191ea-fde9-4c42-802c-4c2274de5f70,b7c93acf-e059-40ee-9132-b63ef16287e4,Tênis,307,2025-02-26
498,3098f7b2-500e-45c0-b89b-df7f93e34c35,b7c93acf-e059-40ee-9132-b63ef16287e4,Celular,610,2025-02-26


In [None]:
# Salvar em CSV
df_clientes.to_csv("clientes.csv", index=False)
df_compras.to_csv("compras.csv", index=False)

print("Dados salvos!")

Dados salvos!


In [None]:
# Análise 1: Total de vendas por produto
vendas_por_produto = df_compras.groupby("produto")["valor"].sum()
print("Total vendido por produto:\n", vendas_por_produto)


Total vendido por produto:
 produto
Camiseta    68455
Celular     74425
Livro       74520
Tênis       71824
Name: valor, dtype: int64


In [None]:
# Análise 2: Cliente mais frequente
cliente_top = df_compras["id_cliente"].value_counts().idxmax()
nome_cliente_top = df_clientes[df_clientes["id"] == cliente_top]["nome"].values[0]
print(f"\nCliente mais frequente: {nome_cliente_top}")


Cliente mais frequente: Sr. Theo Gonçalves
