<a href="https://colab.research.google.com/github/NiveskZ/KEVIN_MENESES_DDF_TECH_122025/blob/feat%2Fgeracao-dados/notebooks/01_geracao_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üìä Gera√ß√£o de Dados Sint√©ticos

Este notebook tem como objetivo a gera√ß√£o de dados sint√©ticos para o case t√©cnico da Dadosfera. A inspira√ß√£o para o cen√°rio de neg√≥cio foi uma loja de varejo local de S√£o Jos√© dos Campos (SP), especializada em revenda e distribui√ß√£o de cervejas artesanais e bebidas alco√≥licas em geral.

Com mais de 10 anos de hist√≥ria, a empresa busca expandir seus neg√≥cios atrav√©s da implementa√ß√£o de uma plataforma de dados, visando solu√ß√µes data-driven e a estrutura√ß√£o de uma opera√ß√£o de e-commerce.
Estrat√©gia de Gera√ß√£o:

  - **Bibliotecas**: Utiliza√ß√£o da Faker (localidade pt_BR) para gera√ß√£o de dados cadastrais realistas (nomes, endere√ßos e datas).

  - **Cat√°logo de Produtos*: Baseado em marcas reais (populares e artesanais como Dogma e Roleta Russa), com pre√ßos e SKUs condizentes com o mercado f√≠sico.

  - **Modelagem de Probabilidade (Pesos)**: Implementa√ß√£o de l√≥gica de pesos para simular a realidade de consumo, onde produtos mainstream possuem maior volumetria de vendas que produtos premium/nicho.

  - **Hist√≥rico de Clientes**: Simula√ß√£o de uma base de clientes acumulada ao longo de 11 anos, permitindo futuras an√°lises de Cohort e fidelidade.

  - **Motor de Vendas e Sazonalidade**: Janela temporal de 3 anos para an√°lise de s√©rie temporal.

      - Sazonalidade semanal: aumento no volume de vendas em finais de semana (sexta a domingo).

      - Escolha aleat√≥ria ponderada de produtos e clientes.

## 1. Configura√ß√£o de Cat√°logos e Pesos


In [None]:
# Instalando o faker
!pip install faker

Collecting faker
  Downloading faker-40.1.0-py3-none-any.whl.metadata (16 kB)
Downloading faker-40.1.0-py3-none-any.whl (2.0 MB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m2.0/2.0 MB[0m [31m13.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faker
Successfully installed faker-40.1.0


In [None]:
# Importando bibliotecas
import pandas as pd
import numpy as np
from faker import Faker
from sqlalchemy import text
import random
from datetime import datetime, timedelta

In [None]:
# Configura√ß√µes Iniciais
fake = Faker('pt_BR')
Faker.seed(42)
np.random.seed(42)
random.seed(42)

print("üöÄ Iniciando gera√ß√£o de dados para o Case varejo ...")

# ==============================================================================
# CAT√ÅLOGO DE PRODUTOS
# ==============================================================================
# Estrutura: Nome, Categoria, Pre√ßo Venda, Custo, Peso (Chance de venda)
# Peso alto (100) = Vende muito (Popular)
# Peso baixo (5-10) = Vende menos (Nicho/Caro)

produtos_base = [
    # --- Cervejas Mainstream (Alto Volume) ---
    {'nome': 'Cerveja Skol Pilsen Lata 350ml', 'cat': 'Cerveja Comum', 'preco': 3.49, 'custo': 2.10, 'peso': 70},
    {'nome': 'Cerveja Brahma Chopp Lata 350ml', 'cat': 'Cerveja Comum', 'preco': 3.59, 'custo': 2.20, 'peso': 80},
    {'nome': 'Cerveja Antarctica Boa Lata 350ml', 'cat': 'Cerveja Comum', 'preco': 3.39, 'custo': 2.05, 'peso': 80},
    {'nome': 'Cerveja Heineken Long Neck 330ml', 'cat': 'Cerveja Premium', 'preco': 7.50, 'custo': 4.80, 'peso': 100},
    {'nome': 'Cerveja Spaten Munchen Lata 350ml', 'cat': 'Cerveja Premium', 'preco': 5.29, 'custo': 3.50, 'peso': 90},
    {'nome': 'Cerveja Imperio Puro Malte Lata 350ml', 'cat': 'Cerveja Premium', 'preco': 4.50, 'custo': 2.90, 'peso': 95},

    # --- Tend√™ncia: Sem Gl√∫ten / Low Carb ---
    {'nome': 'Cerveja Michelob Ultra Lata 350ml', 'cat': 'Cerveja Especial', 'preco': 5.90, 'custo': 3.80, 'peso': 40},
    {'nome': 'Cerveja Stella Artois Pure Gold 330ml', 'cat': 'Cerveja Especial', 'preco': 6.50, 'custo': 4.20, 'peso': 35},
    {'nome': 'Cerveja Bruder Baixa Gastronomia (S/ Gl√∫ten) 600ml', 'cat': 'Cerveja Artesanal', 'preco': 22.90, 'custo': 14.00, 'peso': 20},

    # --- Artesanais: Roleta Russa ---
    {'nome': 'Roleta Russa Easy IPA Lata 350ml', 'cat': 'Cerveja Artesanal', 'preco': 5.99, 'custo': 3.50, 'peso': 30},
    {'nome': 'Roleta Russa Imperial IPA Lata 350ml', 'cat': 'Cerveja Artesanal', 'preco': 10.99, 'custo': 7.60, 'peso': 10},
    {'nome': 'Roleta Russa New England IPA Lata 350ml', 'cat': 'Cerveja Artesanal', 'preco': 9.99, 'custo': 6.80, 'peso': 15},
    {'nome': 'Growler Roleta Russa Easy IPA 1L', 'cat': 'Cerveja Artesanal', 'preco': 19.99, 'custo': 13.40, 'peso': 30},

    # --- Artesanais: Imigra√ß√£o ---
    {'nome': 'Cerveja Imigra√ß√£o Pilsen Garrafa 500ml', 'cat': 'Cerveja Artesanal', 'preco': 16.99, 'custo': 10.00, 'peso': 25},
    {'nome': 'Cerveja Imigra√ß√£o Hop Lager Lata 350ml', 'cat': 'Cerveja Artesanal', 'preco': 4.99, 'custo': 3.50, 'peso': 40},
    {'nome': 'Growler Imigra√ß√£o Export 1L', 'cat': 'Cerveja Artesanal', 'preco': 15.99, 'custo': 10.00, 'peso': 25},

    # --- Artesanais: Dogma, Escafandrista e Locais (Alto valor agregado) ---
    {'nome': 'Cerveja Dogma Rizoma Double IPA 473ml', 'cat': 'Cerveja Artesanal', 'preco': 29.99, 'custo': 18.30, 'peso': 20},
    {'nome': 'Cerveja Dogma American IPA (Lata Nova 355ml)', 'cat': 'Cerveja Artesanal', 'preco': 14.99, 'custo': 8.33, 'peso': 35},
    {'nome': 'Cerveja Escafandrista Smoothie Sour 473ml', 'cat': 'Cerveja Artesanal', 'preco': 45.90, 'custo': 30.00, 'peso': 5},
    {'nome': 'Cerveja Three Lions Session IPA (SJC) 473ml', 'cat': 'Cerveja Artesanal', 'preco': 24.00, 'custo': 15.00, 'peso': 15},
    {'nome': 'Cerveja Campinas Forasteira IPA 473ml', 'cat': 'Cerveja Artesanal', 'preco': 21.00, 'custo': 13.50, 'peso': 18},

    # --- Custo Benef√≠cio (Wienbier) ---
    {'nome': 'Wienbier 55 Pilsen Lata 710ml', 'cat': 'Cerveja Comum', 'preco': 8.90, 'custo': 5.50, 'peso': 60},
    {'nome': 'Wienbier 58 Chopp de Vinho 710ml', 'cat': 'Coquetel Alco√≥lico', 'preco': 9.90, 'custo': 6.00, 'peso': 50},

    # --- Importadas Cl√°ssicas ---
    {'nome': 'Cerveja Guinness Draught Lata 440ml', 'cat': 'Importada', 'preco': 37.99, 'custo': 28.00, 'peso': 25},
    {'nome': 'Cerveja Paulaner Weissbier 500ml', 'cat': 'Importada', 'preco': 24.90, 'custo': 16.50, 'peso': 12},
    {'nome': 'Cerveja Blue Moon Belgian White 355ml', 'cat': 'Importada', 'preco': 17.90, 'custo': 11.00, 'peso': 15},

    # --- Destilados e Outros ---
    {'nome': 'Whisky Jack Daniels 1L', 'cat': 'Destilados', 'preco': 169.90, 'custo': 120.00, 'peso': 5},
    {'nome': 'Gin Tanqueray 750ml', 'cat': 'Destilados', 'preco': 119.90, 'custo': 85.00, 'peso': 5},
    {'nome': 'Vodka Absolut 1L', 'cat': 'Destilados', 'preco': 89.90, 'custo': 60.00, 'peso': 8},
    {'nome': 'Cacha√ßa Velho Barreiro 910ml', 'cat': 'Destilados', 'preco': 14.90, 'custo': 9.00, 'peso': 25},

    # --- N√£o Alco√≥licos e Mercearia ---
    {'nome': 'Refrigerante Coca-Cola 2L', 'cat': 'N√£o Alco√≥lico', 'preco': 10.90, 'custo': 7.50, 'peso': 100},
    {'nome': '√Ågua Mineral s/ G√°s 500ml', 'cat': 'N√£o Alco√≥lico', 'preco': 3.00, 'custo': 0.90, 'peso': 80},
    {'nome': 'Energ√©tico Red Bull 250ml', 'cat': 'N√£o Alco√≥lico', 'preco': 8.90, 'custo': 5.50, 'peso': 60},
    {'nome': 'Gelo Filtrado Cubo 5kg', 'cat': 'Gelo/Carv√£o', 'preco': 14.00, 'custo': 6.00, 'peso': 75},
    {'nome': 'Carv√£o Vegetal 4kg', 'cat': 'Gelo/Carv√£o', 'preco': 22.00, 'custo': 12.00, 'peso': 40},
    {'nome': 'Chocolate KitKat', 'cat': 'Bomboniere', 'preco': 4.50, 'custo': 2.50, 'peso': 50},
    {'nome': 'Salgadinho Doritos 140g', 'cat': 'Bomboniere', 'preco': 12.90, 'custo': 8.00, 'peso': 45},
    {'nome': 'Arroz Tio Jo√£o 1kg', 'cat': 'Mercearia', 'preco': 7.90, 'custo': 5.00, 'peso': 20}
]

# Preparando Dataframe de Produtos e vetores de probabilidade
df_produtos = pd.DataFrame(produtos_base)
df_produtos['id_produto'] = range(1, len(df_produtos) + 1)
pesos_produtos = df_produtos['peso'].values / df_produtos['peso'].sum() # Normalizar para probabilidade

produtos_dict = df_produtos.to_dict('records')

print(f"‚úÖ Cat√°logo criado com {len(df_produtos)} SKUs.")

üöÄ Iniciando gera√ß√£o de dados para o Case varejo ...
‚úÖ Cat√°logo criado com 38 SKUs.


## 2. Gera√ß√£o da Base de Clientes (Hist√≥rico de 11 anos)

In [None]:
print("Gerando carteira de clientes...")
num_clientes = 2500

clientes_list = []
for _ in range(num_clientes):
    # Data de cadastro aleat√≥ria nos √∫ltimos 11 anos
    data_cadastro = fake.date_between(start_date='-11y', end_date='today')

    clientes_list.append({
        'id_cliente': fake.unique.random_number(digits=6),
        'nome': fake.name(),
        'cidade': 'S√£o Jos√© dos Campos', # Fixar cidade local
        'bairro': fake.bairro() if random.random() > 0.1 else 'Centro',
        'data_cadastro': data_cadastro,
        'email': fake.email()
    })

df_clientes = pd.DataFrame(clientes_list)

clientes_ids = df_clientes['id_cliente'].values

print(f"‚úÖ Carteira criada com {len(df_clientes)} clientes.")

Gerando carteira de clientes...
‚úÖ Carteira criada com 2500 clientes.


## 3. Processamento do Loop Transacional

In [None]:
print("Gerando transa√ß√µes de vendas com metas de faturamento e feriados...")

import dateutil.easter as easter

def get_special_dates(year):
    pasc = easter.easter(year)
    mae = pasc + timedelta(days=21) # Aproxima√ß√£o: 2¬∫ dom de maio costuma ser 3-4 semanas ap√≥s pascoa
    # Para fins de simula√ß√£o, vamos definir datas aproximadas para os domingos comemorativos:
    pasc_dom = pasc
    maes_dom = datetime(year, 5, 8) + timedelta(days=(6 - datetime(year, 5, 8).weekday()) % 7)
    pais_dom = datetime(year, 8, 8) + timedelta(days=(6 - datetime(year, 8, 8).weekday()) % 7)
    return {'pascoa': pasc_dom, 'maes': maes_dom, 'pais': pais_dom}

data_inicio_vendas = datetime.now() - timedelta(days=365*5)
dias_simulados = 365 * 5
vendas_list = []
id_venda_counter = 1

ticket_medio_estimado = df_produtos['preco'].mean() * 6 # Estimativa de gasto por venda

for dia in range(dias_simulados):
    data_atual = data_inicio_vendas + timedelta(days=dia)
    especiais = get_special_dates(data_atual.year)

    # --- DEFINI√á√ÉO DE METAS E HOR√ÅRIOS ---
    faturamento_alvo = 5000 # Base dia de semana
    hora_abertura, hora_fechamento = 9, 20

    dia_semana = data_atual.weekday()

    # Sabado (Meta 24k)
    if dia_semana == 5:
        faturamento_alvo = 24000
        hora_abertura, hora_fechamento = 8, 21

    # Domingo (Meta 10k)
    elif dia_semana == 6:
        faturamento_alvo = 10000
        hora_abertura, hora_fechamento = 8, 14

        # Feriados M√≥veis no Domingo (Meta igual s√°bado)
        if data_atual.date() in [especiais['pascoa'], especiais['maes'], especiais['pais']]:
            faturamento_alvo = 24000

    # Natal e Ano Novo (V√©speras 24/12 e 31/12)
    if (data_atual.month == 12 and data_atual.day == 24) or (data_atual.month == 12 and data_atual.day == 31):
        faturamento_alvo = random.randint(60000, 70000)
        hora_abertura, hora_fechamento = 8, 18

    # --- EXECU√á√ÉO DAS VENDAS ---
    # Calculamos o n√∫mero de vendas baseado no faturamento alvo / ticket m√©dio
    num_vendas = int(faturamento_alvo / ticket_medio_estimado)
    num_vendas = int(num_vendas * random.uniform(0.9, 1.1)) # Variabilidade de 10%

    produtos_escolhidos = np.random.choice(produtos_dict, size=num_vendas, p=pesos_produtos)
    clientes_do_dia = np.random.choice(clientes_ids, size=num_vendas)

    for i in range(num_vendas):
        produto = produtos_escolhidos[i]
        cat = produto['cat']

        # Ajuste de quantidade por categoria
        if cat == 'Cerveja Comum':
            qtd = random.choices([6, 12, 15, 24], weights=[40, 30, 20, 10], k=1)[0]
        elif cat == 'Cerveja Premium':
            qtd = random.choices([4, 6, 8, 12], weights=[30, 40, 20, 10], k=1)[0]
        else:
            qtd = random.randint(1, 3)

        vendas_list.append({
            'id_venda': id_venda_counter,
            'data_venda': data_atual.strftime("%Y-%m-%d"),
            'hora_venda': f"{random.randint(hora_abertura, hora_fechamento-1):02d}:{random.randint(0, 59):02d}",
            'id_cliente': clientes_do_dia[i],
            'id_produto': produto['id_produto'],
            'quantidade': qtd,
            'valor_unitario': produto['preco'],
            'valor_total': round(qtd * produto['preco'], 2)
        })
        id_venda_counter += 1

df_vendas = pd.DataFrame(vendas_list)

print(f"‚úÖ Dataframe de vendas criado.")

Gerando transa√ß√µes de vendas com metas de faturamento e feriados...
‚úÖ Dataframe de vendas criado.


## 4. Exporta√ß√£o dos Dados e Resumo Final

In [None]:
print("\n--- RESUMO FINAL ---")
print(f"Total Vendas Geradas: {len(df_vendas)}")
print(f"Data Inicial: {df_vendas['data_venda'].min()}")
print(f"Data Final: {df_vendas['data_venda'].max()}")
print(f"Faturamento Total Simulado: R$ {df_vendas['valor_total'].sum():,.2f}")

if len(df_vendas) > 100000:
    print("‚úÖ REQUISITO DO CASE ATENDIDO: > 100.000 Registros")
else:
    print("‚ö†Ô∏è Aumente o per√≠odo ou vendas di√°rias.")

# Salvando
df_produtos.drop(columns=['peso']).to_csv('produtos.csv', index=False) # Removemos a coluna peso pois √© s√≥ l√≥gica interna
df_clientes.to_csv('clientes.csv', index=False)
df_vendas.to_csv('vendas.csv', index=False)

print("\nüìÇ Arquivos gerados: produtos.csv, clientes.csv, vendas.csv")


--- RESUMO FINAL ---
Total Vendas Geradas: 115594
Data Inicial: 2021-01-03
Data Final: 2026-01-01
Faturamento Total Simulado: R$ 4,051,100.64
‚úÖ REQUISITO DO CASE ATENDIDO: > 100.000 Registros

üìÇ Arquivos gerados: produtos.csv, clientes.csv, vendas.csv


In [None]:
# Gerando amostras (1000 linhas) para documenta√ß√£o no Git
df_produtos.head(1000).to_csv('produtos_sample.csv', index=False)
df_clientes.head(1000).to_csv('clientes_sample.csv', index=False)
df_vendas.head(1000).to_csv('vendas_sample.csv', index=False)

print("Amostras geradas!")

Amostras geradas!


In [None]:
from sqlalchemy import create_engine, text
from google.colab import userdata
from urllib.parse import quote
# senha postgre
password = quote(userdata.get('DB_PASSWORD'))

DB_URI = f"postgresql://postgres.cxdlybaeosnszzaixoia:{password}@aws-1-sa-east-1.pooler.supabase.com:6543/postgres"

In [None]:
print("Conectando ao Banco de Dados...")
engine = create_engine(DB_URI,connect_args={"sslmode": "require"})

with engine.connect() as conn:
    print("Limpando estrutura anterior (Cascade)...")
    # Deletamos a tabela dependente primeiro ou usamos CASCADE
    conn.execute(text("DROP TABLE IF EXISTS vendas CASCADE;"))
    conn.execute(text("DROP TABLE IF EXISTS produtos CASCADE;"))
    conn.execute(text("DROP TABLE IF EXISTS clientes CASCADE;"))
    conn.commit()

print("Enviando tabelas...")
df_produtos.to_sql('produtos', engine, if_exists='replace', index=False)
df_clientes.to_sql('clientes', engine, if_exists='replace', index=False)
# Garantindo unicidade antes do envio para evitar erro na PK
df_vendas.drop_duplicates(subset=['id_venda'], inplace=True)
df_vendas.to_sql('vendas', engine, if_exists='replace', index=False, chunksize=1000)

print("‚úÖ SUCESSO! Dados carregados no PostgreSQL.")

Conectando ao Banco de Dados...
Limpando estrutura anterior (Cascade)...
Enviando tabelas...
‚úÖ SUCESSO! Dados carregados no PostgreSQL.


In [None]:
with engine.connect() as conn:
    # Definindo PKs
    conn.execute(text("ALTER TABLE produtos ADD PRIMARY KEY (id_produto);"))
    conn.execute(text("ALTER TABLE clientes ADD PRIMARY KEY (id_cliente);"))
    conn.execute(text("ALTER TABLE vendas ADD PRIMARY KEY (id_venda);"))

    # Definindo FKs (Vendas aponta para Produtos e Clientes)
    conn.execute(text("""
        ALTER TABLE vendas
        ADD CONSTRAINT fk_vendas_produtos
        FOREIGN KEY (id_produto) REFERENCES produtos (id_produto);
    """))

    conn.execute(text("""
        ALTER TABLE vendas
        ADD CONSTRAINT fk_vendas_clientes
        FOREIGN KEY (id_cliente) REFERENCES clientes (id_cliente);
    """))

    # 1. Ativa o RLS para cada tabela
    conn.execute(text("ALTER TABLE produtos ENABLE ROW LEVEL SECURITY;"))
    conn.execute(text("ALTER TABLE clientes ENABLE ROW LEVEL SECURITY;"))
    conn.execute(text("ALTER TABLE vendas ENABLE ROW LEVEL SECURITY;"))

    conn.commit()

# 5. Cataloga√ß√£o via API Dadosfera

In [None]:
import requests

def get_dadosfera_token(totp):
    auth_url = "https://maestro.dadosfera.ai/auth/sign-in"

    # Use o userdata para proteger suas credenciais de login
    payload = {
        "username": userdata.get('DADOSFERA_USER'), # Seu e-mail
        "password": userdata.get('DADOSFERA_PASS'), # Sua senha
        "totp": f"{totp}" # Veja a nota abaixo sobre MFA
    }

    response = requests.post(auth_url, json=payload)

    if response.status_code == 200:
        tokens = response.json().get('tokens', {})
        print("‚úÖ Token gerado com sucesso!")
        return tokens.get('accessToken'), tokens.get('refreshToken')
    else:
        print(f"‚ùå Erro na autentica√ß√£o: {response.text}")
        return None

# A autentica√ß√£o √© feita via protocolo OAuth2/JWT. Necessitando o c√≥digo gerado pelo autenticador injetado manualmente.
access_token, refresh_token = get_dadosfera_token(395372)

‚úÖ Token gerado com sucesso!


In [None]:
def catalogar_ativo_automatico(asset_id, novo_nome, descricao, list_tags):
    url = f"https://maestro.dadosfera.ai/catalog/data-asset/{asset_id}"
    headers = {
        "Authorization": f"{access_token}",
        "Content-Type": "application/json",
        "accept": "application/json"
    }

    payload = {
        "display_name": novo_nome,
        "description": descricao,
        "tags": list_tags
    }

    # Usamos PUT para atualizar apenas esses campos
    res = requests.put(url, json=payload, headers=headers)

    if res.status_code in [200, 204]:
        print(f"‚úÖ Ativo {novo_nome} catalogado com sucesso!")
    else:
        print(f"‚ùå Falha ao catalogar {novo_nome}: {res.status_code}")

# LISTA DE ATIVOS PARA CATALOGAR
meus_ativos = {
    "7c448aae-d76d-4ef3-a29d-a5a2e6da9be3": {
        "nome": "Varejo | Fato Vendas (5 Anos)",
        "desc": "Hist√≥rico transacional de vendas com 115k+ registros. Cont√©m m√©tricas de faturamento e chaves para produtos/clientes."
    },
    "4eef3148-79a4-473e-8f5a-060810b55883": {
        "nome": "Varejo | Dimens√£o Clientes",
        "desc": "Base de clientes anonimizada via criptografia (LGPD). Cont√©m localiza√ß√£o e dados de cadastro."
    },
    "9cb82842-75af-4ec1-8f5c-0a18f677a419": {
        "nome": "Varejo | Dimens√£o Produtos",
        "desc": "Cat√°logo de produtos com pre√ßos unit√°rios e categorias (Cervejas, Vinhos, Destilados)."
    }
}

for aid, info in meus_ativos.items():
    catalogar_ativo_automatico(aid, info['nome'], info['desc'],['landing','varejo','sint√©tico'])

‚úÖ Ativo Varejo | Fato Vendas (5 Anos) catalogado com sucesso!
‚úÖ Ativo Varejo | Dimens√£o Clientes catalogado com sucesso!
‚úÖ Ativo Varejo | Dimens√£o Produtos catalogado com sucesso!
