In [1]:
import pandas as pd
from faker import Faker
import random

In [2]:
fake = Faker('pt_BR')

In [3]:
# Configuração de parâmetros
num_users = 1000
num_products = 500
num_transactions = 10000
num_reviews = 5000
num_browsing_history = 20000

In [4]:
# Listas de avaliações em português, classificadas por nota
avaliacoes_1 = [
    "Produto veio com defeito, não gostei.",
    "Péssimo atendimento, não recomendo.",
    "Não recomendo, produto de baixa qualidade.",
    "Não compraria novamente, muito frágil.",
    "Produto veio com peças faltando, péssimo."
]

avaliacoes_2 = [
    "Entrega demorou mais do que o esperado.",
    "Muito caro para a qualidade oferecida.",
    "Produto de acordo com a descrição, mas qualidade ruim.",
    "Produto atende às necessidades básicas, mas não impressiona.",
    "Decepcionado com a compra, esperava mais."
]

avaliacoes_3 = [
    "Bom custo-benefício.",
    "Produto razoável, nada de especial.",
    "Cumpre o que promete.",
    "Qualidade razoável pelo preço pago.",
    "Produto atende às expectativas mínimas."
]

avaliacoes_4 = [
    "Produto de excelente qualidade.",
    "Entrega rápida e eficiente.",
    "Muito bom, exatamente como descrito.",
    "Produto bem embalado e chegou sem problemas.",
    "Produto com ótimo acabamento."
]

avaliacoes_5 = [
    "Ótimo produto, recomendo!",
    "Muito satisfeito com a compra.",
    "Produto maravilhoso, superou minhas expectativas.",
    "Qualidade excepcional, vale cada centavo.",
    "Produto incrível, vale cada centavo."
]

In [5]:
# Geração de Usuários
users = []
for _ in range(num_users):
    users.append([fake.uuid4(), fake.name(), random.randint(18, 70), random.choice(['Masculino', 'Feminino']), fake.city(), fake.date_this_decade()])

users_df = pd.DataFrame(users, columns=['user_id', 'nome', 'idade', 'sexo', 'localizacao', 'data_de_registro'])
users_df

Unnamed: 0,user_id,nome,idade,sexo,localizacao,data_de_registro
0,ada7a388-0aa6-4574-9606-525c5935e7b7,Zoe Macedo,59,Feminino,Cunha das Flores,2022-04-03
1,9cf069db-07a9-4914-8b26-7c31a1abd299,Eloá Guerra,51,Feminino,Aragão de Fogaça,2022-03-26
2,c851bcca-7a12-42ba-a316-b3416a131ff5,Lavínia Ramos,63,Masculino,Silva de Peixoto,2022-07-30
3,8b72ad30-0797-49d7-8781-95fff6d8f153,Sra. Letícia Monteiro,70,Feminino,Albuquerque,2022-01-30
4,6ea3dd0c-9707-4a86-80d3-8af341dd327d,Ana Luiza da Mota,18,Feminino,Sales do Galho,2021-02-26
...,...,...,...,...,...,...
995,ad0fad32-b6df-434e-8dbd-5e3a177f5dba,Lucas Vargas,62,Feminino,Borges de Silva,2024-02-02
996,fd02fb0f-38a7-4250-9ca4-a04ca16b6835,Dra. Heloisa Costa,45,Masculino,Costa de Vieira,2022-02-26
997,f9e7ac14-b249-4337-88a7-0da2e08936c9,Maria Isis Pinto,26,Feminino,Aragão,2020-06-11
998,4d8dc712-f3e4-4b9d-a673-790bea7742c5,Kevin Novais,65,Masculino,Brito da Mata,2021-07-15


In [6]:
# Geração de Produtos
products = []
categories = ['Eletrônicos', 'Casa e Jardim', 'Esportes', 'Roupas', 'Automotivo']
subcategories = {'Eletrônicos': ['Smartphones', 'Laptops', 'Tablets'],
                 'Casa e Jardim': ['Cozinha', 'Móveis', 'Jardim'],
                 'Esportes': ['Fitness', 'Outdoor', 'Indoor'],
                 'Roupas': ['Masculino', 'Feminino', 'Infantil'],
                 'Automotivo': ['Acessórios para Carro', 'Acessórios para Moto', 'Ferramentas']}

for _ in range(num_products):
    category = random.choice(categories)
    subcategory = random.choice(subcategories[category])
    products.append([fake.uuid4(), category, subcategory, fake.word(), round(random.uniform(10, 5000), 2), fake.company(), random.randint(0, 1000)])

products_df = pd.DataFrame(products, columns=['product_id', 'categoria', 'subcategoria', 'nome', 'preco', 'marca', 'quantidade_em_estoque'])


In [7]:
# Geração de Transações
transactions = []
for _ in range(num_transactions):
    transactions.append([fake.uuid4(), random.choice(users_df['user_id']), random.choice(products_df['product_id']), random.randint(1, 5), fake.date_this_year(), round(random.uniform(10, 5000), 2)])

transactions_df = pd.DataFrame(transactions, columns=['transaction_id', 'user_id', 'product_id', 'quantidade', 'data_da_transacao', 'preco'])

In [8]:
# Geração de Avaliações
reviews = []
for _ in range(num_reviews):
    user_id = random.choice(users_df['user_id'])
    product_id = random.choice(products_df['product_id'])
    rating = random.randint(1, 5)
    
    if rating == 1:
        texto_avaliacao = random.choice(avaliacoes_1)
    elif rating == 2:
        texto_avaliacao = random.choice(avaliacoes_2)
    elif rating == 3:
        texto_avaliacao = random.choice(avaliacoes_3)
    elif rating == 4:
        texto_avaliacao = random.choice(avaliacoes_4)
    elif rating == 5:
        texto_avaliacao = random.choice(avaliacoes_5)
    
    reviews.append([fake.uuid4(), user_id, product_id, rating, texto_avaliacao, fake.date_this_year()])

reviews_df = pd.DataFrame(reviews, columns=['review_id', 'user_id', 'product_id', 'avaliacao', 'texto_da_avaliacao', 'data_da_avaliacao'])
reviews_df

Unnamed: 0,review_id,user_id,product_id,avaliacao,texto_da_avaliacao,data_da_avaliacao
0,82461a16-3894-4c8c-bd24-f67c44c18b0f,e2c35732-dfe8-4888-b881-2316047e8afb,caeec05e-2827-4a18-bc81-98b31ffa6d16,1,"Produto veio com defeito, não gostei.",2024-03-26
1,33ee5210-3dda-41ed-afff-14201b13dc77,2c8b9ad2-2fd8-4c28-bbae-15d61b28a26b,313deec4-bb19-419b-80d6-07129fd2db50,3,Produto atende às expectativas mínimas.,2024-04-06
2,d4317eb3-d493-492e-86f1-1d9a5f97d8f1,825cf162-fdf7-4163-80e1-2feb58a73671,90cd526e-7232-4f10-a76c-86ed52d0f619,3,Cumpre o que promete.,2024-01-09
3,ad9b811c-4794-4334-b76b-aae2232423d6,12316b7e-cf0d-4e42-92eb-3f32448f0510,e5a60122-2d5d-4c6c-ba2d-fe57503c747a,2,"Produto atende às necessidades básicas, mas nã...",2024-03-08
4,dc480776-748b-4112-bc0f-a9c38fa7a0ca,1aeadd08-a240-4d03-8bfe-013a216323ed,85730d17-54bc-465a-abf5-8c6eb6c19487,4,Entrega rápida e eficiente.,2024-05-01
...,...,...,...,...,...,...
4995,a8bfc105-f8a7-4ad9-a0ae-f6f359da0532,2158c0bb-09d0-46fc-9385-4f8a9b188c79,d5bfadfb-23dd-4939-9f75-fcff3b7bd65d,5,"Qualidade excepcional, vale cada centavo.",2024-05-13
4996,91c2660e-a5a7-4784-a6d8-a46d1d043527,f05c5c32-c338-4678-841c-394568e485e6,dc93e91a-1d61-4212-a6fb-8083e48216fb,1,"Não recomendo, produto de baixa qualidade.",2024-04-25
4997,713342b1-f6de-4cbf-9d41-e40322b80dda,a0b2c042-c69a-4247-bbe8-7f6e05490f01,7cc92af3-5a04-4495-8319-d5b5f44a2c96,3,Cumpre o que promete.,2024-01-29
4998,1deeb974-9cf3-4203-abe4-720cc4738bda,9d74732a-74dd-4c81-9260-8163e6e6ff62,1787d7aa-e534-4a72-ae0f-cfe80cf26c4b,5,"Qualidade excepcional, vale cada centavo.",2024-04-13


In [9]:
# Geração de Histórico de Navegação
browsing_history = []
actions = ['visualizacao', 'adicionar_ao_carrinho', 'compra']
for _ in range(num_browsing_history):
    browsing_history.append([fake.uuid4(), random.choice(users_df['user_id']), random.choice(products_df['product_id']), fake.date_time_this_year(), random.choice(actions)])

browsing_history_df = pd.DataFrame(browsing_history, columns=['session_id', 'user_id', 'product_id', 'timestamp', 'tipo_de_acao'])
browsing_history_df

Unnamed: 0,session_id,user_id,product_id,timestamp,tipo_de_acao
0,25285cf4-1325-4f6a-9c1c-e5263d7d741d,e96f1d4f-fe8e-4e34-b60f-378bda90d812,b1a4dbca-23db-4f71-834a-51a48d15264f,2024-05-02 22:47:21,visualizacao
1,958e16a8-4e2f-41fc-bcad-d8043f32cd64,f6d4cf11-a8e1-44bb-b7a5-b601dfb474e7,12547ef5-5350-4d23-a157-2be5ab80e0b1,2024-05-05 01:56:12,compra
2,ee366491-eef1-49ce-bde7-4f413062e34d,70002a24-a0e4-480c-857a-4cfa9f3193f6,b184d8a4-67f4-4399-b0f1-e092a8b8bfd4,2024-04-02 10:31:19,visualizacao
3,5db0d171-0d7c-4510-8768-4b9f741ed925,2b1ff7e9-4b1f-49b4-ac83-5576fc60be8b,d74086eb-abb2-45b4-b288-e6a6be85aeee,2024-04-08 02:53:40,adicionar_ao_carrinho
4,1a0af4c8-8ea1-4fec-acf1-dae588c12657,79013169-e9e6-45e4-8d9b-9bd24107b895,7caa0332-f684-4813-bb41-cb2c713e8f89,2024-03-05 17:48:01,compra
...,...,...,...,...,...
19995,38db2c9e-62ec-4327-992b-ac3eef298e3b,fb7dbc46-7d1d-4d2e-978b-d262a6d8047a,c8a4a72a-9b12-4832-8653-3af348370bfd,2024-03-02 03:12:16,adicionar_ao_carrinho
19996,63363c69-9e73-44c1-a0d6-db459f5341e4,2583270d-50cd-4d4a-8662-94dfd4ddcaeb,dd0eb2eb-d6ba-4398-9c56-76922b92a578,2024-04-03 02:38:38,visualizacao
19997,7a07851a-2ec4-4da5-be6b-cc66bcc3f607,3c8aad99-c5fe-48d0-becc-abe79a8e33b2,28fdb5a9-8a6b-41cb-b3f1-68a43556b4eb,2024-05-11 07:04:47,adicionar_ao_carrinho
19998,91a0bc38-7994-45d2-8a30-abbe3d88e5fd,4d8dc712-f3e4-4b9d-a673-790bea7742c5,481e33c4-0bcf-4f09-8e57-0bf56995aac8,2024-01-26 02:13:59,adicionar_ao_carrinho


In [10]:
# Salvando em arquivos CSV
users_df.to_csv('results/usuarios.csv', index=False)
products_df.to_csv('results/produtos.csv', index=False)
transactions_df.to_csv('results/transacoes.csv', index=False)
reviews_df.to_csv('results/avaliacoes.csv', index=False)
browsing_history_df.to_csv('results/historico_de_navegacao.csv', index=False)