In [66]:
import random
import pandas as pd
from faker import Faker
from datetime import datetime

In [67]:
# Inicializar Faker para gerar dados fictícios
fake = Faker()

In [68]:
# Definir categorias, canais de vendas, estados e cidades associadas
product_categories = ['Smartphones', 'Laptops', 'Acessórios', 'Tablets', 'Smartwatches']
sales_channels = ['E-commerce', 'Marketplace']
states_and_cities = {
    'São Paulo': ['São Paulo', 'Campinas', 'Santos'],
    'Rio de Janeiro': ['Rio de Janeiro', 'Niterói', 'Petrópolis'],
    'Minas Gerais': ['Belo Horizonte', 'Uberlândia', 'Juiz de Fora'],
    'Paraná': ['Curitiba', 'Londrina', 'Maringá'],
    'Rio Grande do Sul': ['Porto Alegre', 'Caxias do Sul', 'Pelotas']
}
# Preços médios por categoria de produto (valores médios aleatórios dentro dos intervalos fornecidos)
category_price_range = {
    'Tablets': (1090, 4230),
    'Smartphones': (1300, 4500),
    'Smartwatches': (980, 1800),
    'Laptops': (2500, 5700),
    'Acessórios': (50, 890)
}


In [69]:
# Função para verificar se a venda ocorreu durante uma campanha
def verificar_campanha(data_venda):
    ano_venda = data_venda.year  # Obtém o ano da venda (ainda nao estou satisfeito com esta etapa, quero melhorar este código)
    campanhas = [
        {"id_campanha": 1, "nome": "Dia das Mães", "data_inicio": f"{ano_venda}-05-10", "data_fim": f"{ano_venda}-05-14", "investimento": 10000},
        {"id_campanha": 2, "nome": "Dia dos Pais", "data_inicio": f"{ano_venda}-08-01", "data_fim": f"{ano_venda}-08-10", "investimento": 15000},
        {"id_campanha": 3, "nome": "Dia do Consumidor", "data_inicio": f"{ano_venda}-03-15", "data_fim": f"{ano_venda}-03-15", "investimento": 19000},
        {"id_campanha": 4, "nome": "Black Friday", "data_inicio": f"{ano_venda}-11-29", "data_fim": f"{ano_venda}-11-29", "investimento": 30000},
        {"id_campanha": 5, "nome": "Promoção de Aniversário da Loja", "data_inicio": f"{ano_venda}-02-01", "data_fim": f"{ano_venda}-02-15", "investimento": 12000},
        {"id_campanha": 6, "nome": "Super Ofertas do Mês", "data_inicio": f"{ano_venda}-06-01", "data_fim": f"{ano_venda}-06-30", "investimento": 10000},
        {"id_campanha": 7, "nome": "Inverno Tecnológico", "data_inicio": f"{ano_venda}-07-01", "data_fim": f"{ano_venda}-07-31", "investimento": 15000},
        {"id_campanha": 8, "nome": "Semana da Tecnologia", "data_inicio": f"{ano_venda}-09-01", "data_fim": f"{ano_venda}-09-07", "investimento": 8000},
        {"id_campanha": 9, "nome": "Ofertas Imperdíveis", "data_inicio": f"{ano_venda}-11-20", "data_fim": f"{ano_venda}-11-30", "investimento": 20000},
    ]
    
    for campanha in campanhas:
        # Converter as datas de início e fim da campanha para datetime.date
        data_inicio = datetime.strptime(campanha["data_inicio"], "%Y-%m-%d").date()
        data_fim = datetime.strptime(campanha["data_fim"], "%Y-%m-%d").date()
        
        # Verificar se a data da venda está dentro do período da campanha
        if data_inicio <= data_venda <= data_fim:
            return campanha
    
    return None

In [70]:
# Função para obter o preço unitário de um produto com base na categoria
def obter_preco_categoria(categoria_produto):
    min_price, max_price = category_price_range[categoria_produto]
    return round(random.uniform(min_price, max_price), 2)

In [71]:
# Criar dados fictícios para 10000 vendas
dados_vendas = []  # Lista para armazenar as vendas geradas

In [72]:
# Criar dados fictícios para 90000 vendas
dados_vendas = []  # Lista para armazenar as vendas geradas

# Loop para gerar 90000 registros
for i in range(90000):
    # Gerar um ID único para a venda
    id_venda = random.randint(10000, 99999)
    data_venda = fake.date_between(start_date='-1y', end_date='today')
    data_venda_dt = datetime.strptime(str(data_venda), "%Y-%m-%d").date()  # Converter para formato de data

    # Verificar se a venda ocorreu durante uma campanha
    campanha = verificar_campanha(data_venda_dt)

    if campanha:
        id_campanha = campanha["id_campanha"]
        nome_campanha = campanha["nome"]
        investimento_campanha = campanha["investimento"]
    else:
        id_campanha = None
        nome_campanha = None
        investimento_campanha = 0

    # Gerar dados adicionais para a venda
    categoria_produto = random.choice(product_categories)
    canal_vendas = random.choice(sales_channels)
    unidades_vendidas = random.randint(1, 10)
    preco_unitario = obter_preco_categoria(categoria_produto)  # Preço aleatório dentro do intervalo da categoria
    receita = round(unidades_vendidas * preco_unitario, 2)
    localizacao = random.choice(locations)
    cidade = random.choice(cidades)  # Cidade aleatória

    # Adicionar os dados da venda à lista
    dados_vendas.append([id_venda, data_venda_dt, categoria_produto, canal_vendas, 
                         unidades_vendidas, receita, localizacao, cidade, 
                         id_campanha, nome_campanha, investimento_campanha])

In [73]:
# Criar o DataFrame usando pandas
df_vendas = pd.DataFrame(dados_vendas, columns=['id_venda', 'data_venda', 'categoria_produto', 'canal_vendas', 
                                               'unidades_vendidas', 'receita', 'localizacao', 'cidade', 
                                               'id_campanha', 'nome_campanha', 'investimento_campanha'])

In [74]:
# Verificar se o DataFrame está correto antes de salvar
print(f'Número de registros gerados: {len(df_vendas)}')

Número de registros gerados: 90000


In [77]:
# Escrever o DataFrame no arquivo CSV
nome_arquivo = 'vendas_com_precos.csv'
df_vendas.to_csv(nome_arquivo, index=False, encoding='utf-8')

In [78]:
print(f'{len(dados_vendas)} vendas foram geradas e gravadas no arquivo "{nome_arquivo}".')

90000 vendas foram geradas e gravadas no arquivo "vendas_com_precos.csv".
