In [None]:
import pandas as pd
from faker import Faker
import random

In [None]:
fake = Faker('pt_BR')

In [None]:
# Configuração de parâmetros
num_users = 1000
num_products = 500
num_transactions = 10000
num_reviews = 5000
num_browsing_history = 20000

In [None]:
# Listas de avaliações em português, classificadas por nota
avaliacoes_1 = [
    "Produto veio com defeito, não gostei.",
    "Péssimo atendimento, não recomendo.",
    "Não recomendo, produto de baixa qualidade.",
    "Não compraria novamente, muito frágil.",
    "Produto veio com peças faltando, péssimo."
]

avaliacoes_2 = [
    "Entrega demorou mais do que o esperado.",
    "Muito caro para a qualidade oferecida.",
    "Produto de acordo com a descrição, mas qualidade ruim.",
    "Produto atende às necessidades básicas, mas não impressiona.",
    "Decepcionado com a compra, esperava mais."
]

avaliacoes_3 = [
    "Bom custo-benefício.",
    "Produto razoável, nada de especial.",
    "Cumpre o que promete.",
    "Qualidade razoável pelo preço pago.",
    "Produto atende às expectativas mínimas."
]

avaliacoes_4 = [
    "Produto de excelente qualidade.",
    "Entrega rápida e eficiente.",
    "Muito bom, exatamente como descrito.",
    "Produto bem embalado e chegou sem problemas.",
    "Produto com ótimo acabamento."
]

avaliacoes_5 = [
    "Ótimo produto, recomendo!",
    "Muito satisfeito com a compra.",
    "Produto maravilhoso, superou minhas expectativas.",
    "Qualidade excepcional, vale cada centavo.",
    "Produto incrível, vale cada centavo."
]

In [None]:
# Geração de Usuários
users = []
for _ in range(num_users):
    users.append([fake.uuid4(), fake.name(), random.randint(18, 70), random.choice(['Masculino', 'Feminino']), fake.city(), fake.date_this_decade()])

users_df = pd.DataFrame(users, columns=['user_id', 'nome', 'idade', 'sexo', 'localizacao', 'data_de_registro'])
users_df

In [None]:
# Geração de Produtos
products = []
categories = ['Eletrônicos', 'Casa e Jardim', 'Esportes', 'Roupas', 'Automotivo']
subcategories = {'Eletrônicos': ['Smartphones', 'Laptops', 'Tablets'],
                 'Casa e Jardim': ['Cozinha', 'Móveis', 'Jardim'],
                 'Esportes': ['Fitness', 'Outdoor', 'Indoor'],
                 'Roupas': ['Masculino', 'Feminino', 'Infantil'],
                 'Automotivo': ['Acessórios para Carro', 'Acessórios para Moto', 'Ferramentas']}

for _ in range(num_products):
    category = random.choice(categories)
    subcategory = random.choice(subcategories[category])
    products.append([fake.uuid4(), category, subcategory, fake.word(), round(random.uniform(10, 5000), 2), fake.company(), random.randint(0, 1000)])

products_df = pd.DataFrame(products, columns=['product_id', 'categoria', 'subcategoria', 'nome', 'preco', 'marca', 'quantidade_em_estoque'])


In [None]:
# Geração de Transações
transactions = []
for _ in range(num_transactions):
    transactions.append([fake.uuid4(), random.choice(users_df['user_id']), random.choice(products_df['product_id']), random.randint(1, 5), fake.date_this_year(), round(random.uniform(10, 5000), 2)])

transactions_df = pd.DataFrame(transactions, columns=['transaction_id', 'user_id', 'product_id', 'quantidade', 'data_da_transacao', 'preco'])

In [None]:
# Geração de Avaliações
reviews = []
for _ in range(num_reviews):
    user_id = random.choice(users_df['user_id'])
    product_id = random.choice(products_df['product_id'])
    rating = random.randint(1, 5)
    
    if rating == 1:
        texto_avaliacao = random.choice(avaliacoes_1)
    elif rating == 2:
        texto_avaliacao = random.choice(avaliacoes_2)
    elif rating == 3:
        texto_avaliacao = random.choice(avaliacoes_3)
    elif rating == 4:
        texto_avaliacao = random.choice(avaliacoes_4)
    elif rating == 5:
        texto_avaliacao = random.choice(avaliacoes_5)
    
    reviews.append([fake.uuid4(), user_id, product_id, rating, texto_avaliacao, fake.date_this_year()])

reviews_df = pd.DataFrame(reviews, columns=['review_id', 'user_id', 'product_id', 'avaliacao', 'texto_da_avaliacao', 'data_da_avaliacao'])
reviews_df

In [None]:
# Geração de Histórico de Navegação
browsing_history = []
actions = ['visualizacao', 'adicionar_ao_carrinho', 'compra']
for _ in range(num_browsing_history):
    browsing_history.append([fake.uuid4(), random.choice(users_df['user_id']), random.choice(products_df['product_id']), fake.date_time_this_year(), random.choice(actions)])

browsing_history_df = pd.DataFrame(browsing_history, columns=['session_id', 'user_id', 'product_id', 'timestamp', 'tipo_de_acao'])
browsing_history_df