In [15]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# Função para gerar valores de preço unitário entre 3% e 15% maiores que os valores de custo unitário
def generate_price(cost):
    return cost * np.random.uniform(1.03, 1.15)

# Criar DataFrame de vendas
n_products = 30
n_states = 26
n_sales = 15000

products_df = pd.DataFrame({
    'IDproduto': np.repeat(np.arange(1, n_products + 1), n_sales // n_products)[:n_sales],
    'Custo unitário': np.random.uniform(5, 50, n_sales).round(2)
})

# Atualizar a coluna de Preço unitário
products_df['Preço unitário'] = products_df['Custo unitário'].apply(generate_price)

# Adicionar IDestado repetindo para alcançar n_sales
states = np.random.randint(1, n_states + 1, n_sales)
products_df['IDestado'] = states

# Adicionar Unidades vendidas
products_df['Unidades vendidas'] = np.random.randint(1, 16, n_sales)

# Adicionar 'data de venda'
start_date = datetime(2021, 1, 1)
end_date = datetime(2024, 12, 31)
delta = end_date - start_date

dates = [start_date + timedelta(days=np.random.randint(delta.days)) for _ in range(n_sales)]
products_df['data de venda'] = dates

# Adicionar IdSubcategoria produto
products_df['IdSubcategoria produto'] = np.random.randint(1, 11, n_sales)

# Criar DataFrame de informações dos produtos
brands = ['Brand{}'.format(i) for i in range(1, 11)]
products_info_df = pd.DataFrame({
    'IDproduto': range(1, n_products + 1),
    'Nome da marca': np.random.choice(brands, n_products),
    'Nome do produto': ['Product{}'.format(i) for i in range(1, n_products + 1)]
})

# Criar DataFrame de subcategorias
subcategories_df = pd.DataFrame({
    'Categoria do produto': np.random.randint(1, 11, 10),
    'subcategoria do produto': ['Subcategory{}'.format(i) for i in range(1, 11)],
    'IdSubcategoria produto': range(1, 11)
})

# Criar DataFrame de Estados
states_df = pd.DataFrame({
    'IDEstado': range(1, n_states + 1),
    'NomeEstado': [
        'Acre', 'Alagoas', 'Amapá', 'Amazonas', 'Bahia', 'Ceará', 'Espírito Santo', 'Goiás',
        'Maranhão', 'Mato Grosso', 'Mato Grosso do Sul', 'Minas Gerais', 'Pará', 'Paraíba',
        'Paraná', 'Pernambuco', 'Piauí', 'Rio de Janeiro', 'Rio Grande do Norte',
        'Rio Grande do Sul', 'Rondônia', 'Roraima', 'Santa Catarina', 'São Paulo',
        'Sergipe', 'Tocantins'
    ]
})

# Criar DataFrame de Calendário
dates = pd.date_range(start=start_date, end=end_date)
calendar_df = pd.DataFrame({
    'Data': dates,
    'Ano': dates.year,
    'Mês': dates.month,
    'Dia': dates.day
})

# Salvar em um arquivo Excel
with pd.ExcelWriter('vendas2.xlsx') as writer:
    products_df.to_excel(writer, sheet_name='Vendas', index=False)
    products_info_df.to_excel(writer, sheet_name='InfoProdutos', index=False)
    subcategories_df.to_excel(writer, sheet_name='Subcategoria', index=False)
    states_df.to_excel(writer, sheet_name='Estados', index=False)
    calendar_df.to_excel(writer, sheet_name='Calendário', index=False)

In [16]:
#adicionando colunas condicionais, primeiro, adicionando uma coluna de lucro
products_df ['Lucro (R$)'] = products_df['Preço unitário'] - products_df['Custo unitário']


In [17]:
#adicionando colunas condicionais, primeiro, adicionando uma coluna de Margem de lucro

products_df [ 'Margem de Lucro (%)'] = products_df['Lucro (R$)']/products_df['Preço unitário']

In [18]:
products_df.head(10)

Unnamed: 0,IDproduto,Custo unitário,Preço unitário,IDestado,Unidades vendidas,data de venda,IdSubcategoria produto,Lucro (R$),Margem de Lucro (%)
0,1,20.15,21.747798,17,2,2023-12-31,6,1.597798,0.073469
1,1,23.9,24.995777,5,2,2023-06-21,7,1.095777,0.043838
2,1,6.36,6.948982,5,11,2023-10-20,10,0.588982,0.084758
3,1,14.76,16.613972,4,3,2022-01-19,1,1.853972,0.111591
4,1,17.61,18.390046,23,9,2023-05-05,1,0.780046,0.042417
5,1,18.81,19.920422,26,1,2024-08-25,5,1.110422,0.055743
6,1,20.77,22.982205,10,14,2024-07-25,1,2.212205,0.096257
7,1,10.56,12.091764,10,12,2024-04-04,4,1.531764,0.126678
8,1,49.11,55.987382,3,2,2023-03-24,10,6.877382,0.122838
9,1,47.79,54.113688,2,9,2021-02-08,2,6.323688,0.116859


In [23]:
# Definindo a função lambda para avaliar a margem de lucro
def classificação_margem(margem):
    if margem >= 0.1:
        return 'Alta'
    elif margem >= 0.05:
        return 'Média'
    else:
        return 'Baixa'

# Aplicando a função lambda ao DataFrame para criar uma nova coluna de classificação de margem de lucro
products_df['Classificação de margem'] = products_df['Margem de Lucro (%)'].apply(lambda x: classificação_margem(x))

# Visualizando o DataFrame com a nova coluna
print(products_df.head())

   IDproduto  Custo unitário  Preço unitário  IDestado  Unidades vendidas  \
0          1           20.15       21.747798        17                  2   
1          1           23.90       24.995777         5                  2   
2          1            6.36        6.948982         5                 11   
3          1           14.76       16.613972         4                  3   
4          1           17.61       18.390046        23                  9   

  data de venda  IdSubcategoria produto  Lucro (R$)  Margem de Lucro (%)  \
0    2023-12-31                       6    1.597798             0.073469   
1    2023-06-21                       7    1.095777             0.043838   
2    2023-10-20                      10    0.588982             0.084758   
3    2022-01-19                       1    1.853972             0.111591   
4    2023-05-05                       1    0.780046             0.042417   

  Classificação de margem  
0                   Média  
1                   Baix

In [24]:
# Salvar em um arquivo Excel
with pd.ExcelWriter('vendas2.xlsx') as writer:
    products_df.to_excel(writer, sheet_name='Vendas', index=False)
    products_info_df.to_excel(writer, sheet_name='InfoProdutos', index=False)
    subcategories_df.to_excel(writer, sheet_name='Subcategoria', index=False)
    states_df.to_excel(writer, sheet_name='Estados', index=False)
    calendar_df.to_excel(writer, sheet_name='Calendário', index=False)