In [None]:
# primeiro passo, instalo as bibliotecas necessárias
!pip install pandas faker

# importo as bibliotecas
import pandas as pd # útil para criar DataFrames, analisar e manipular dados
from faker import Faker # útil para gerar dados de teste
import random # útil para gerar escolhas pseudoaleatórias
from datetime import datetime, timedelta

In [3]:
# crio uma instância do Faker em pt-br (dados mais realistas)
fake = Faker('pt_BR')

# crio a lista de produtos
produtos_info = {
    'Blusa de Seda': 'Blusas',
    'Camisa Social': 'Camisas',
    'Calça Jeans Slim': 'Calças',
    'Calça de Moletom': 'Calças',
    'Vestido de Verão': 'Vestidos',
    'Vestido Longo de Festa': 'Vestidos',
    'Saia Midi': 'Saias',
    'Shorts de Linho': 'Shorts',
    'Jaqueta de Couro Sintético': 'Casacos',
    'Tênis Branco Casual': 'Calçados',
    'Sandália de Salto': 'Calçados',
    'Cinto de Couro': 'Acessórios',
    'Bolsa Tiracolo': 'Acessórios'
}

# crio uma lista de cidades do Brasil para os dados
cidades = ['São Paulo', 'Itajubá', 'Pouso Alegre', 'Rio de Janeiro']

# defino a quantidade de registros
num_registros = 1000

# crio um lista para armazernar as vendas
dados_vendas = []

# defino o tempo (últimos 3 meses)
data_fim = datetime.now() # data de hoje
data_inicio = data_fim - timedelta(days=90) # data de hoje 'menos' 90 dias

# loop para gerar cada registro
for i in range(num_registros):
  # escolhe um produto aleatório
  produto = random.choice(list(produtos_info.keys()))
  categoria = produtos_info[produto]

  # defino um preço base
  if categoria == 'Blusas':
    base_preco = 80.0
  elif categoria == 'Camisas':
      base_preco = 110.0
  elif categoria == 'Calças':
      base_preco = 150.0
  elif categoria == 'Vestidos':
      base_preco = 200.0
  elif categoria == 'Saias':
      base_preco = 90.0
  elif categoria == 'Shorts':
      base_preco = 75.0
  elif categoria == 'Casacos':
      base_preco = 250.0
  elif categoria == 'Calçados':
      base_preco = 180.0
  else: # Acessórios
      base_preco = 50.0

  # adiciono uma pequena variação(para parecer mais real)
  valor_unitario = round(base_preco * (1+ random.uniform(-0.1, 0.1)), 2)
  quantidade = random.randint(1,5)

  # gero um registro de venda
  venda = {
      'id_venda' : i +1,
      'data_venda' : fake.date_time_between(start_date=data_inicio, end_date=data_fim)\
      .strftime('%Y-%m-%d %H:%M:%S'),
      'produto' : produto,
      'categoria' : categoria,
      'quantidade' : quantidade,
      'valor_unitario' : valor_unitario,
      'valor_total' : round(quantidade * valor_unitario, 2),
      'cidade' : random.choice(cidades)
  }
  dados_vendas.append(venda)

# converto a lista de dicionários em um DataFrame do Pandas
df_vendas = pd.DataFrame(dados_vendas)

# exibo as 5 primeiras linhas para testar
print('Visualizando as 5 primeiras linhas do DataFrame:')
print(df_vendas.head())

# salvo o DataFrame em um arquivo CSV para uso futuro
df_vendas.to_csv('vendas_miss_lena.csv', index=False)

print('\nDados criados e salvos com sucesso no arquivo "vendas_miss_lena.csv"!')

Visualizando as 5 primeiras linhas do DataFrame:
   id_venda           data_venda              produto categoria  quantidade  \
0         1  2025-06-20 15:02:40  Tênis Branco Casual  Calçados           3   
1         2  2025-09-05 07:11:53        Blusa de Seda    Blusas           3   
2         3  2025-07-19 04:13:23        Blusa de Seda    Blusas           5   
3         4  2025-07-20 01:38:28     Calça de Moletom    Calças           3   
4         5  2025-08-19 10:37:19      Shorts de Linho    Shorts           3   

   valor_unitario  valor_total          cidade  
0          171.04       513.12         Itajubá  
1           78.62       235.86         Itajubá  
2           87.85       439.25  Rio de Janeiro  
3          143.74       431.22  Rio de Janeiro  
4           73.90       221.70  Rio de Janeiro  

Dados criados e salvos com sucesso no arquivo "vendas_miss_lena.csv"!
