üß† Cen√°rio de Neg√≥cio: Loja de Artigos Esportivos
Voc√™ √© um analista de dados contratado por uma rede de lojas de artigos esportivos que est√° avaliando o desempenho de suas unidades. Seu objetivo √© entender quais fatores impactam no volume de vendas para ajudar a diretoria a definir estrat√©gias de crescimento.

A empresa forneceu uma base contendo os dados mensais de 30 filiais diferentes, durante 12 meses (360 observa√ß√µes).

üìä Base de Dados: vendas_lojas.csv
Crie uma base fict√≠cia com as seguintes colunas:

Coluna	Tipo	Descri√ß√£o
loja_id	int	ID da loja (1 a 30)
mes	object	M√™s da venda (formato "2024-01", etc.)
vendas	float	Total de vendas no m√™s (em mil R$)
clientes	int	N√∫mero de clientes atendidos no m√™s
descontos	float	Percentual m√©dio de desconto oferecido (%)
campanha_marketing	bool	Se houve campanha de marketing no m√™s (0 = n√£o, 1 = sim)
regiao	string	Regi√£o da loja (Sul, Sudeste, Centro-Oeste, Nordeste, Norte)
preco_medio_produto	float	Pre√ßo m√©dio dos produtos vendidos
indice_satisfacao	float	√çndice m√©dio de satisfa√ß√£o dos clientes (0 a 10)


In [None]:
# Libraries for Extract, Treat and Load
import numpy as np, pandas as pd


In [3]:
# Setando rand√¥micos est√°ticos
np.random.seed(42)

# Definindo lojas e periodos das vendas
lojas = list(range(1, 31))
meses = pd.date_range('01/01/2024', periods=24, freq='MS').strftime('%Y-%m').to_list()

# Gerando tabela inicial
FactVendas = pd.DataFrame(data=[(loja, mes) for loja in lojas for mes in meses], columns=['IdLoja', 'MesAnoVenda'])

In [4]:
# Atribuindo regi√£o da venda
regioes = ['Centro-Oeste', 'Nordeste', 'Norte', 'Sudeste', 'Sul']

# Mapeamento das regioes 
map_regioes = {loja: np.random.choice(regioes) for loja in lojas}

FactVendas['Regiao'] = FactVendas['IdLoja'].map(map_regioes)

In [5]:
# Gerando as vari√°veis num√©ricas

# 1) Quantidade mensal de clientes
FactVendas['Clientes'] = np.random.randint(500, 2000, size=len(FactVendas))

# 2) Desconto ofertado
FactVendas['DescontoPercent'] = np.round(np.random.uniform(0, 30, size=len(FactVendas)))

# 3) Venda sob campanha de marketing? (definido sob probabilidade de 30%)
FactVendas['CampanhaMarketing'] = np.random.choice([0, 1], size=len(FactVendas), p=(0.7, 0.3))

# 4) Pre√ßo m√©dio do produto
FactVendas['PrecoMedio'] = np.round(np.random.normal(loc=150, scale=40, size=len(FactVendas)), 2)
FactVendas['PrecoMedio'] = FactVendas['PrecoMedio'].clip(50, 300)

# 5) Indice de Satisfa√ß√£o
FactVendas['IndiceSatisfacao'] = np.round(np.random.uniform(5.5, 9.8, size=len(FactVendas)), 2)

In [6]:
# L√≥gica para construir as vendas em milhares de reais
FactVendas['Vendas'] = FactVendas.PrecoMedio * FactVendas.Clientes * (1 - FactVendas.DescontoPercent / 100) * (1 - FactVendas.IndiceSatisfacao / 100)
FactVendas['Vendas'] = np.round(FactVendas.Vendas * (1 + 0.1 * FactVendas.CampanhaMarketing) / 1000, 2)

# Salvando em Parquet
FactVendas.to_parquet('SalesProjectGPT.parquet')