üß± **C√©lula 1 ‚Äî Cabe√ßalho e Introdu√ß√£o**

"""

PROJETO: An√°lise e Automa√ß√£o de Vendas de um E-commerce Brasileiro

AUTOR: Gustavo de Paula Silva (@gustavogit4)

OBJETIVO:
    Este notebook gera um banco de dados relacional realista (clientes, produtos e vendas)
    para demonstrar habilidades em Python, SQL e Power BI, abordando conceitos de:
    
    - ETL e modelagem de dados;
    
    - simula√ß√£o estat√≠stica e controle de reprodutibilidade;
    
    - gera√ß√£o de dados sint√©ticos representativos para an√°lise explorat√≥ria e BI.

"""

**1Ô∏è‚É£ Importa√ß√£o das bibliotecas**

In [11]:
# ============================
# IMPORTA√á√ÉO DE BIBLIOTECAS
# ============================

# Importa√ß√µes principais
import os
import sys
import pandas as pd
import numpy as np
import random
from faker import Faker
from datetime import date, datetime, timezone, timedelta
import sqlite3

print("‚úÖ Bibliotecas importadas com sucesso!")

‚úÖ Bibliotecas importadas com sucesso!


**2Ô∏è‚É£ Configura√ß√£o de ambiente e caminhos**

In [12]:
def em_notebook():
    """Detecta se o c√≥digo est√° sendo executado em um notebook."""
    try:
        shell = get_ipython().__class__.__name__
        if shell in ("ZMQInteractiveShell", "Shell"):  # VSCode, Colab, Jupyter
            return True
        else:
            return False
    except NameError:
        return False

# Define diret√≥rio base (compat√≠vel com notebook e script .py)
if em_notebook():
    BASE_DIR = os.getcwd()
else:
    BASE_DIR = os.path.dirname(os.path.abspath(__file__))

# Caminho para o banco de dados
CAMINHO_BANCO = os.path.join(BASE_DIR, "data", "ecommerce_realista.db")

# Cria a pasta 'data' se n√£o existir
os.makedirs(os.path.join(BASE_DIR, "data"), exist_ok=True)

print(f"üìÇ Caminho do banco configurado em: {CAMINHO_BANCO}")

üìÇ Caminho do banco configurado em: c:\Users\--\Desktop\ecommerce-data-analytics\notebooks\data\ecommerce_realista.db


**3Ô∏è‚É£ Configura√ß√µes do simulador**

In [13]:
# ============================
# CONFIGURA√á√ïES DO SIMULADOR
# ============================

"""
Define os par√¢metros principais da simula√ß√£o e garante reprodutibilidade.
Todas as vari√°veis-chave est√£o centralizadas aqui para f√°cil ajuste.
"""

N_CLIENTES = 1000
N_PRODUTOS = 50
N_VENDAS = 15000
SEED = 42

np.random.seed(SEED)
random.seed(SEED)
faker = Faker("pt_BR")

print("‚öôÔ∏è Configura√ß√µes definidas com sucesso!")

‚öôÔ∏è Configura√ß√µes definidas com sucesso!


**4Ô∏è‚É£ Gera√ß√£o da tabela de clientes**

In [14]:
# ============================
# GERA√á√ÉO DA TABELA DE CLIENTES
# ============================

"""
Cria a tabela de clientes com informa√ß√µes demogr√°ficas e geogr√°ficas simuladas.
Adiciona vari√°veis derivadas que n√£o alteram a estrutura original usada nos notebooks seguintes.
"""

from datetime import date

hoje = date.today()

idades = np.random.normal(35, 10, N_CLIENTES).astype(int)
idades = np.clip(idades, 18, 70)

clientes = pd.DataFrame({
    "id_cliente": range(1, N_CLIENTES + 1),
    "nome": [faker.name() for _ in range(N_CLIENTES)],
    "idade": idades,
    "genero": np.random.choice(["Masculino", "Feminino"], size=N_CLIENTES),
    "cidade": [faker.city() for _ in range(N_CLIENTES)],
    "estado": [faker.estado_sigla() for _ in range(N_CLIENTES)],
    "data_cadastro": [faker.date_between(start_date="-3y", end_date="today") for _ in range(N_CLIENTES)]
})

# -------- Vari√°veis complementares (sem alterar estrutura) --------
def faixa_etaria(idade):
    if idade < 25:
        return "18‚Äì24"
    elif idade < 35:
        return "25‚Äì34"
    elif idade < 50:
        return "35‚Äì49"
    else:
        return "50+"

clientes["faixa_etaria"] = clientes["idade"].apply(faixa_etaria)
clientes["tempo_cliente_dias"] = (pd.to_datetime(hoje) - pd.to_datetime(clientes["data_cadastro"])).dt.days
clientes["canal_preferencial"] = np.random.choice(
    ["E-commerce", "Loja F√≠sica", "WhatsApp"],
    size=N_CLIENTES,
    p=[0.45, 0.45, 0.10]
)

print("üë• Tabela 'clientes' revisada e gerada com sucesso!")
display(clientes.head(10))

üë• Tabela 'clientes' revisada e gerada com sucesso!


Unnamed: 0,id_cliente,nome,idade,genero,cidade,estado,data_cadastro,faixa_etaria,tempo_cliente_dias,canal_preferencial
0,1,Henry da Costa,39,Masculino,Pires,CE,2025-09-18,35‚Äì49,39,Loja F√≠sica
1,2,Srta. Evelyn da Mota,33,Feminino,Nascimento,PR,2024-09-17,25‚Äì34,405,E-commerce
2,3,Nat√°lia Pereira,41,Masculino,Ferreira da Serra,AC,2025-07-30,35‚Äì49,89,E-commerce
3,4,Andr√© Macedo,50,Feminino,Mendes,PE,2024-06-10,50+,504,E-commerce
4,5,Al√≠cia Gon√ßalves,32,Masculino,da Rocha,TO,2024-10-25,25‚Äì34,367,WhatsApp
5,6,Andr√© Cirino,32,Masculino,Almeida,PB,2023-12-27,25‚Äì34,670,Loja F√≠sica
6,7,Pedro Henrique da Paz,50,Masculino,Carvalho,RN,2024-10-23,50+,369,E-commerce
7,8,Dr. Igor Gon√ßalves,42,Masculino,Monteiro da Prata,SC,2023-11-04,35‚Äì49,723,E-commerce
8,9,Luana Castro,30,Feminino,Rezende de da Rosa,RO,2023-12-18,25‚Äì34,679,E-commerce
9,10,Davi Luiz Sousa,40,Masculino,Abreu,AC,2025-05-19,35‚Äì49,161,Loja F√≠sica


**5Ô∏è‚É£ Gera√ß√£o da Tabela de Produtos**

In [15]:
# ============================
# 5Ô∏è‚É£ GERA√á√ÉO DA TABELA DE PRODUTOS
# ============================

"""
Cria a tabela de produtos com categorias distintas e faixas de pre√ßo realistas,
mantendo a estrutura original (id_produto, nome_produto, categoria, preco_unitario).
Inclui novas colunas opcionais (margem, estoque, fornecedor) que enriquecem o banco
para an√°lises futuras no Power BI, sem afetar os notebooks anteriores.
"""

# Dicion√°rio base de categorias e faixas de pre√ßo
categorias_preco = {
    "Alimentos": (5, 50),
    "Bebidas": (3, 80),
    "Limpeza": (5, 40),
    "Higiene": (8, 60),
    "Eletr√¥nicos": (100, 3000)
}

# Lista de produtos brasileiros plaus√≠veis
produtos_brasileiros = [
    "Arroz Tio Jo√£o 5kg", "Feij√£o Carioca Camil 1kg", "A√ß√∫car Uni√£o 1kg", "Caf√© Pil√£o 500g", "Macarr√£o Renata Espaguete 500g",
    "Leite Integral Itamb√© 1L", "Manteiga Avia√ß√£o 200g", "√ìleo de Soja Soya 900ml", "Biscoito Nestl√© Recheado 140g", "Refrigerante Coca-Cola 2L",
    "Sab√£o em P√≥ Omo 1kg", "Amaciante Downy 1L", "Detergente Yp√™ 500ml", "Desinfetante Pinho Sol 500ml", "√Ågua Sanit√°ria Qboa 2L",
    "Shampoo Seda 325ml", "Condicionador Dove 325ml", "Sabonete Lux 90g", "Creme Dental Colgate 90g", "Desodorante Rexona Aerosol 150ml",
    "Notebook Lenovo IdeaPad 15\"", "Smartphone Samsung Galaxy A15", "Monitor LG 24\"", "Headset Logitech H390", "Mouse Sem Fio Dell WM126",
    "Teclado Mec√¢nico Redragon Kumara", "Smart TV LG 50\"", "Caixa de Som JBL Flip 6", "Pen Drive Sandisk 64GB", "HD Externo Seagate 1TB",
    "Caderno Universit√°rio Tilibra 10 Mat√©rias", "Caneta Bic Azul", "L√°pis Faber-Castell HB2", "Apontador Maped", "Borracha Mercur",
    "Mochila Dell Preto 15\"", "Agenda Permanente 2025", "Estojo Escolar Kipling", "Livro 'O Capital' ‚Äì Karl Marx", "Livro 'Dom Casmurro' ‚Äì Machado de Assis",
    "Vassoura Bettanin Novi√ßa", "Rodo Sanremo 40cm", "Pano Multiuso Scotch-Brite", "Balde Pl√°stico 10L", "Esponja de A√ßo Bombril",
    "Papel Higi√™nico Neve 12 Rolos", "Guardanapo Snob 50un", "Toalha de Papel Kitchen 2 Rolos", "Filtro de Caf√© Melitta 103", "Pilha AA Duracell"
]

# Fun√ß√£o para detectar categoria a partir do nome
def detectar_categoria(nome_produto):
    chaves = {
        "Alimentos": ["Arroz", "Feij√£o", "A√ß√∫car", "Caf√©", "Macarr√£o", "Leite", "Manteiga", "√ìleo", "Biscoito"],
        "Bebidas": ["Refrigerante"],
        "Higiene": ["Shampoo", "Condicionador", "Sabonete", "Creme Dental", "Desodorante", "Papel Higi√™nico"],
        "Limpeza": ["Sab√£o", "Amaciante", "Detergente", "Desinfetante", "√Ågua Sanit√°ria", "Pano", "Vassoura", "Rodo"],
        "Eletr√¥nicos": ["Notebook", "Smartphone", "Monitor", "Headset", "Mouse", "Teclado", "Smart TV", "Caixa de Som", "Pen Drive", "HD", "Pilha"]
    }
    for categoria, termos in chaves.items():
        if any(t.lower() in nome_produto.lower() for t in termos):
            return categoria
    return "Outros"

# Gera√ß√£o da tabela de produtos
produtos = pd.DataFrame({
    "id_produto": range(1, len(produtos_brasileiros) + 1),
    "nome_produto": produtos_brasileiros,
    "categoria": [detectar_categoria(p) for p in produtos_brasileiros],
})

# Atribui pre√ßos dentro da faixa de cada categoria
precos = []
for cat in produtos["categoria"]:
    min_p, max_p = categorias_preco.get(cat, (10, 100))
    precos.append(round(np.random.uniform(min_p, max_p), 2))
produtos["preco_unitario"] = precos

# --- Novas vari√°veis complementares (opcionais, n√£o usadas no notebook 2) ---
# Margem de lucro estimada (%)
produtos["margem_lucro"] = np.where(produtos["categoria"] == "Eletr√¥nicos",
                                    np.random.uniform(0.15, 0.30, len(produtos)),
                                    np.random.uniform(0.25, 0.45, len(produtos)))

# Estoque atual (simulado)
produtos["estoque_atual"] = np.random.randint(20, 500, size=len(produtos))

# Fornecedor simulado
produtos["fornecedor"] = np.random.choice(
    ["Distribuidora Global", "Atacado Minas", "Comercial Silva", "Fornecedor Nacional", "Importadora BRTech"],
    size=len(produtos)
)

print("üõçÔ∏è Tabela 'produtos' revisada com sucesso!")
display(produtos.head())

üõçÔ∏è Tabela 'produtos' revisada com sucesso!


Unnamed: 0,id_produto,nome_produto,categoria,preco_unitario,margem_lucro,estoque_atual,fornecedor
0,1,Arroz Tio Jo√£o 5kg,Alimentos,8.29,0.357819,340,Fornecedor Nacional
1,2,Feij√£o Carioca Camil 1kg,Alimentos,33.01,0.306494,210,Atacado Minas
2,3,A√ß√∫car Uni√£o 1kg,Alimentos,49.15,0.335046,236,Distribuidora Global
3,4,Caf√© Pil√£o 500g,Alimentos,13.55,0.257514,70,Comercial Silva
4,5,Macarr√£o Renata Espaguete 500g,Alimentos,40.67,0.275573,311,Comercial Silva


**6Ô∏è‚É£ Fun√ß√µes Auxiliares**

In [16]:
# ============================
# FUN√á√ïES AUXILIARES
# ============================

"""
Define fun√ß√µes auxiliares utilizadas na gera√ß√£o da tabela de vendas.
Essas fun√ß√µes modelam comportamento temporal e prefer√™ncias de consumo
sem alterar a estrutura original do banco de dados.
"""

from datetime import date

def gerar_data_venda():
    """
    Gera uma data de venda entre 2022 e 2024 com sazonalidade realista.

    As vendas s√£o mais concentradas nos meses de:
    - Maio (Dia das M√£es)
    - Novembro (Black Friday)
    - Dezembro (Natal)

    Retorna:
        datetime.date: Data da venda simulada.
    """
    data_inicio = date(2022, 1, 1)
    data_fim = date(2024, 12, 31)

    data = faker.date_between(start_date=data_inicio, end_date=data_fim)
    mes = data.month

    # Meses de pico com probabilidade maior de repeti√ß√£o
    if mes in [5, 11, 12] and random.random() < 0.6:
        ano = random.choice([2022, 2023, 2024])
        dia = random.randint(1, 28)
        return date(ano, mes, dia)

    return data


def canal_por_idade(idade):
    """
    Define o canal de venda com base na idade do cliente.

    L√≥gica:
    - Jovens (<30): prefer√™ncia por E-commerce.
    - Adultos (30‚Äì49): equil√≠brio entre loja f√≠sica e online.
    - Idosos (50+): prefer√™ncia por WhatsApp e loja f√≠sica.

    Retorna:
        str: Canal de venda escolhido.
    """
    if idade < 30:
        return np.random.choice(
            ["E-commerce", "Loja F√≠sica", "WhatsApp"], p=[0.6, 0.3, 0.1]
        )
    elif idade < 50:
        return np.random.choice(
            ["E-commerce", "Loja F√≠sica", "WhatsApp"], p=[0.4, 0.5, 0.1]
        )
    else:
        return np.random.choice(
            ["E-commerce", "Loja F√≠sica", "WhatsApp"], p=[0.2, 0.4, 0.4]
        )


def aplicar_desconto(categoria, valor_total):
    """
    (Fun√ß√£o opcional, n√£o utilizada no Notebook 2)
    Simula pol√≠ticas de desconto promocional para futuras an√°lises no Power BI.

    Regras simuladas:
    - Eletr√¥nicos: at√© 10%
    - Alimentos e Bebidas: at√© 5%
    - Demais categorias: at√© 8%

    Retorna:
        float: Valor total com desconto aplicado.
    """
    descontos = {
        "Eletr√¥nicos": np.random.uniform(0, 0.10),
        "Alimentos": np.random.uniform(0, 0.05),
        "Bebidas": np.random.uniform(0, 0.05),
    }
    desconto = descontos.get(categoria, np.random.uniform(0, 0.08))
    return round(valor_total * (1 - desconto), 2)

**7Ô∏è‚É£ Gera√ß√£o da Tabela de Vendas**

In [17]:
# ============================
# GERA√á√ÉO DA TABELA DE VENDAS
# ============================

"""
Cria a tabela de vendas integrando as tabelas de clientes e produtos.
Mant√©m a estrutura original (id_venda, id_cliente, id_produto, quantidade,
data_venda, canal_venda, valor_total) ‚Äî garantindo compatibilidade total
com as an√°lises e dashboards existentes.

O modelo de gera√ß√£o considera:
- Clientes com frequ√™ncia desigual de compra (exponencial)
- Categorias com diferentes volumes e ticket m√©dio
- Canais de venda influenciados pela idade do cliente
- Sazonalidade anual (via gerar_data_venda)
"""

# --- Distribui√ß√£o de clientes: alguns compram mais que outros ---
pesos = np.random.exponential(scale=0.8, size=N_CLIENTES)
pesos = pesos / pesos.sum()

clientes_vendas = np.random.choice(
    clientes["id_cliente"],
    size=N_VENDAS,
    p=pesos
)

# --- Dicion√°rios auxiliares para lookup r√°pido ---
idades_clientes = clientes.set_index("id_cliente")["idade"].to_dict()
produtos_dict = produtos.set_index("id_produto")[["categoria", "preco_unitario"]].to_dict("index")

# --- Lista para armazenar as vendas simuladas ---
vendas = []

for i in range(N_VENDAS):
    id_cliente = int(clientes_vendas[i])
    idade_cliente = idades_clientes[id_cliente]
    id_produto = random.choice(list(produtos_dict.keys()))
    categoria = produtos_dict[id_produto]["categoria"]
    preco = produtos_dict[id_produto]["preco_unitario"]

    # Quantidade m√©dia varia conforme categoria
    if categoria == "Eletr√¥nicos":
        quantidade = max(1, int(np.random.normal(1.2, 0.5)))
    elif categoria in ["Alimentos", "Bebidas"]:
        quantidade = max(1, int(np.random.normal(3, 1)))
    else:
        quantidade = max(1, int(np.random.normal(2, 0.8)))

    data_venda = gerar_data_venda()
    canal_venda = canal_por_idade(idade_cliente)

    # Valor total (sem aplicar desconto ainda)
    valor_total = round(quantidade * preco, 2)

    # --- Registro final da venda ---
    vendas.append({
        "id_venda": i + 1,
        "id_cliente": id_cliente,
        "id_produto": id_produto,
        "quantidade": quantidade,
        "data_venda": data_venda,
        "canal_venda": canal_venda,
        "valor_total": valor_total
    })

# --- Cria o DataFrame final de vendas ---
vendas = pd.DataFrame(vendas)

# --- Inserir 1% de valores nulos para testes de limpeza (mantido) ---
for col in ["canal_venda", "quantidade"]:
    nulos = int(len(vendas) * 0.01)
    vendas.loc[vendas.sample(n=nulos).index, col] = np.nan

print("üí∏ Tabela 'vendas' gerada com sucesso!")
display(vendas.head())

print(f"Total de registros: {len(vendas):,}")
print(f"Per√≠odo de vendas: {vendas['data_venda'].min()} ‚Üí {vendas['data_venda'].max()}")


üí∏ Tabela 'vendas' gerada com sucesso!


Unnamed: 0,id_venda,id_cliente,id_produto,quantidade,data_venda,canal_venda,valor_total
0,1,780,41,1.0,2022-03-05,WhatsApp,39.76
1,2,244,8,3.0,2024-01-05,E-commerce,144.63
2,3,963,2,2.0,2023-03-05,E-commerce,66.02
3,4,343,48,3.0,2022-11-05,E-commerce,286.74
4,5,338,48,2.0,2024-10-04,E-commerce,191.16


Total de registros: 15,000
Per√≠odo de vendas: 2022-01-01 ‚Üí 2024-12-30


**8Ô∏è‚É£ Valida√ß√£o dos Dados**

In [18]:
# ============================================
# VALIDA√á√ÉO DOS DADOS 
# ============================================

"""
Valida a integridade e consist√™ncia das tabelas antes de salvar o banco.

Essa etapa garante que o dataset est√° limpo, coerente e pronto para uso
nas an√°lises e dashboards. Inclui verifica√ß√µes de nulos, tipos, coer√™ncia
quantitativa e estat√≠sticas descritivas resumidas.
"""

print("üîé Iniciando valida√ß√£o dos dados...\n")

# --- Contagem geral de registros ---
print("üìä Quantidade de registros:")
print(f"- Clientes:  {len(clientes):>6}")
print(f"- Produtos:  {len(produtos):>6}")
print(f"- Vendas:    {len(vendas):>6}\n")

# --- Verifica√ß√£o de valores nulos ---
print("üß© Valores nulos por coluna (tabela vendas):")
nulos_vendas = vendas.isnull().sum()
print(nulos_vendas.to_string(), "\n")

# --- Tipos de dados e amostra ---
print("üìã Estrutura da tabela 'vendas':")
print(vendas.dtypes.to_string(), "\n")

print("üîé Amostra de registros:")
display(vendas.head(5))

# --- Regras de coer√™ncia ---
print("\nüß† Verifica√ß√µes de integridade:")

# Quantidade inv√°lida
vendas_invalidas = vendas[vendas["quantidade"] <= 0]
if len(vendas_invalidas) > 0:
    print(f"‚ö†Ô∏è  {len(vendas_invalidas)} registros com quantidade inv√°lida detectados.")
else:
    print("‚úÖ Nenhuma quantidade inv√°lida encontrada.")

# Valor total inconsistente (pre√ßo unit√°rio * quantidade ‚âà valor_total)
verificacao_precos = vendas.merge(produtos[["id_produto", "preco_unitario"]], on="id_produto", how="left")
verificacao_precos["check"] = np.isclose(
    verificacao_precos["valor_total"],
    verificacao_precos["quantidade"] * verificacao_precos["preco_unitario"],
    atol=0.1
)
erros_preco = verificacao_precos[~verificacao_precos["check"]]
if len(erros_preco) > 0:
    print(f"‚ö†Ô∏è  {len(erros_preco)} inconsist√™ncias de valor detectadas.")
else:
    print("‚úÖ Todos os valores de venda est√£o coerentes.\n")

# --- Estat√≠sticas resumidas ---
print("üìà Resumo estat√≠stico de valores monet√°rios:")
display(vendas["valor_total"].describe(percentiles=[0.25, 0.5, 0.75]).round(2))

# --- Intervalo temporal das vendas ---
print("üóìÔ∏è Intervalo de datas das vendas:")
print(f"In√≠cio: {vendas['data_venda'].min()}  |  Fim: {vendas['data_venda'].max()}\n")

# --- Caminho do banco (para confer√™ncia visual e conex√£o Power BI) ---
CAMINHO_BANCO = os.path.join(BASE_DIR, "data", "ecommerce_realista.db")
print(f"üìÇ Caminho configurado: {CAMINHO_BANCO}")


üîé Iniciando valida√ß√£o dos dados...

üìä Quantidade de registros:
- Clientes:    1000
- Produtos:      50
- Vendas:     15000

üß© Valores nulos por coluna (tabela vendas):
id_venda         0
id_cliente       0
id_produto       0
quantidade     150
data_venda       0
canal_venda    150
valor_total      0 

üìã Estrutura da tabela 'vendas':
id_venda         int64
id_cliente       int64
id_produto       int64
quantidade     float64
data_venda      object
canal_venda     object
valor_total    float64 

üîé Amostra de registros:


Unnamed: 0,id_venda,id_cliente,id_produto,quantidade,data_venda,canal_venda,valor_total
0,1,780,41,1.0,2022-03-05,WhatsApp,39.76
1,2,244,8,3.0,2024-01-05,E-commerce,144.63
2,3,963,2,2.0,2023-03-05,E-commerce,66.02
3,4,343,48,3.0,2022-11-05,E-commerce,286.74
4,5,338,48,2.0,2024-10-04,E-commerce,191.16



üß† Verifica√ß√µes de integridade:
‚úÖ Nenhuma quantidade inv√°lida encontrada.
‚ö†Ô∏è  150 inconsist√™ncias de valor detectadas.
üìà Resumo estat√≠stico de valores monet√°rios:


count    15000.00
mean       353.36
std        685.20
min          6.57
25%         41.31
50%         86.92
75%        156.50
max       5571.92
Name: valor_total, dtype: float64

üóìÔ∏è Intervalo de datas das vendas:
In√≠cio: 2022-01-01  |  Fim: 2024-12-30

üìÇ Caminho configurado: c:\Users\--\Desktop\ecommerce-data-analytics\notebooks\data\ecommerce_realista.db


**9Ô∏è‚É£ Cria√ß√£o e Salvamento do Banco SQLite**

In [19]:
# ============================================
# CRIA√á√ÉO E SALVAMENTO DO BANCO SQLITE
# ============================================

"""
Cria (ou substitui) o banco de dados SQLite com as tabelas 'clientes',
'produtos', 'vendas' e 'atualizacao'. Garante compatibilidade total com
os notebooks seguintes e com a integra√ß√£o Power BI.

Formato: data/ecommerce_realista.db
"""

# --- Caminho final dentro do projeto local ---
CAMINHO_BANCO = os.path.join(BASE_DIR, "data", "ecommerce_realista.db")

# Cria a pasta 'data' se n√£o existir
os.makedirs(os.path.dirname(CAMINHO_BANCO), exist_ok=True)

# --- Conex√£o com SQLite ---
conn = sqlite3.connect(CAMINHO_BANCO)

# Salva as tabelas principais
clientes.to_sql("clientes", conn, if_exists="replace", index=False)
produtos.to_sql("produtos", conn, if_exists="replace", index=False)
vendas.to_sql("vendas", conn, if_exists="replace", index=False)

# --- Registro de atualiza√ß√£o ---
fuso_brasilia = timezone(timedelta(hours=-3))
agora_brasilia = datetime.now(fuso_brasilia)
data_atualizacao = pd.DataFrame({
    "ultima_atualizacao": [agora_brasilia.strftime("%Y-%m-%d %H:%M:%S")]
})
data_atualizacao.to_sql("atualizacao", conn, if_exists="replace", index=False)

# --- Confirma e fecha ---
conn.commit()
conn.close()

# --- Informa√ß√µes de verifica√ß√£o ---
tamanho_mb = os.path.getsize(CAMINHO_BANCO) / (1024 * 1024)
print("‚úÖ Banco de dados SQLite criado e atualizado com sucesso!")
print(f"üìÇ Localiza√ß√£o: {CAMINHO_BANCO}")
print(f"üìä Tamanho aproximado: {tamanho_mb:.2f} MB")
print(f"‚è∞ √öltima atualiza√ß√£o: {agora_brasilia.strftime('%d/%m/%Y %H:%M:%S')} (Hor√°rio de Bras√≠lia)")


‚úÖ Banco de dados SQLite criado e atualizado com sucesso!
üìÇ Localiza√ß√£o: c:\Users\--\Desktop\ecommerce-data-analytics\notebooks\data\ecommerce_realista.db
üìä Tamanho aproximado: 0.78 MB
‚è∞ √öltima atualiza√ß√£o: 27/10/2025 09:26:40 (Hor√°rio de Bras√≠lia)


**üîü Teste de Conex√£o e Verifica√ß√£o de Estrutura**

In [20]:
# ============================================
# TESTE DE CONEX√ÉO AO BANCO DE DADOS
# ============================================

"""
Valida se o banco SQLite foi criado corretamente e est√° pronto para ser
lido por ferramentas externas, como Power BI ou scripts Python.

Essa c√©lula:
1. Conecta ao banco local.
2. Lista as tabelas dispon√≠veis.
3. Exibe uma amostra de registros de cada tabela.
"""

import sqlite3

# Conecta ao banco
conn = sqlite3.connect(CAMINHO_BANCO)

# --- 1. Listagem das tabelas ---
print("üìö Tabelas dispon√≠veis no banco:")
tabelas = pd.read_sql_query("SELECT name FROM sqlite_master WHERE type='table';", conn)
display(tabelas)

# --- 2. Visualiza√ß√£o r√°pida das tabelas principais ---
for tabela in ["clientes", "produtos", "vendas"]:
    print(f"\nüîç Amostra da tabela '{tabela}':")
    try:
        amostra = pd.read_sql_query(f"SELECT * FROM {tabela} LIMIT 5;", conn)
        display(amostra)
    except Exception as e:
        print(f"‚ö†Ô∏è Erro ao ler '{tabela}': {e}")

# --- 3. Confirma data de atualiza√ß√£o ---
print("\nüïí √öltima atualiza√ß√£o registrada:")
try:
    ultima = pd.read_sql_query("SELECT * FROM atualizacao;", conn)
    display(ultima)
except Exception as e:
    print("‚ö†Ô∏è N√£o foi poss√≠vel carregar a tabela de atualiza√ß√£o:", e)

conn.close()
print("\n‚úÖ Conex√£o encerrada com sucesso.")

üìö Tabelas dispon√≠veis no banco:


Unnamed: 0,name
0,clientes
1,produtos
2,vendas
3,atualizacao



üîç Amostra da tabela 'clientes':


Unnamed: 0,id_cliente,nome,idade,genero,cidade,estado,data_cadastro,faixa_etaria,tempo_cliente_dias,canal_preferencial
0,1,Henry da Costa,39,Masculino,Pires,CE,2025-09-18,35‚Äì49,39,Loja F√≠sica
1,2,Srta. Evelyn da Mota,33,Feminino,Nascimento,PR,2024-09-17,25‚Äì34,405,E-commerce
2,3,Nat√°lia Pereira,41,Masculino,Ferreira da Serra,AC,2025-07-30,35‚Äì49,89,E-commerce
3,4,Andr√© Macedo,50,Feminino,Mendes,PE,2024-06-10,50+,504,E-commerce
4,5,Al√≠cia Gon√ßalves,32,Masculino,da Rocha,TO,2024-10-25,25‚Äì34,367,WhatsApp



üîç Amostra da tabela 'produtos':


Unnamed: 0,id_produto,nome_produto,categoria,preco_unitario,margem_lucro,estoque_atual,fornecedor
0,1,Arroz Tio Jo√£o 5kg,Alimentos,8.29,0.357819,340,Fornecedor Nacional
1,2,Feij√£o Carioca Camil 1kg,Alimentos,33.01,0.306494,210,Atacado Minas
2,3,A√ß√∫car Uni√£o 1kg,Alimentos,49.15,0.335046,236,Distribuidora Global
3,4,Caf√© Pil√£o 500g,Alimentos,13.55,0.257514,70,Comercial Silva
4,5,Macarr√£o Renata Espaguete 500g,Alimentos,40.67,0.275573,311,Comercial Silva



üîç Amostra da tabela 'vendas':


Unnamed: 0,id_venda,id_cliente,id_produto,quantidade,data_venda,canal_venda,valor_total
0,1,780,41,1.0,2022-03-05,WhatsApp,39.76
1,2,244,8,3.0,2024-01-05,E-commerce,144.63
2,3,963,2,2.0,2023-03-05,E-commerce,66.02
3,4,343,48,3.0,2022-11-05,E-commerce,286.74
4,5,338,48,2.0,2024-10-04,E-commerce,191.16



üïí √öltima atualiza√ß√£o registrada:


Unnamed: 0,ultima_atualizacao
0,2025-10-27 09:26:40



‚úÖ Conex√£o encerrada com sucesso.
