## Imports

In [12]:
from spark_config import init_spark
from pyspark.sql import functions as F
from datetime import date
import os
import shutil

## Start Spark Session

In [13]:
spark = init_spark("Create delta lake tables")


‚úÖ Spark 3.5.7 iniciado com Hive local persistente!
üìÅ Warehouse: D:/Projetos/DataLake/spark-warehouse
üìÅ Metastore: D:/Projetos/DataLake/metastore_db



## Variables

In [14]:
# Define caminhos locais onde ser√£o armazenadas as tabelas Delta
base_bronze_path = "D:/Projetos/Jornada_financas_pessoais/data/delta/bronze"
base_silver_path = "D:/Projetos/Jornada_financas_pessoais/data/delta/silver"
base_gold_path = "D:/Projetos/Jornada_financas_pessoais/data/delta/gold"

# Define o caminho da tabela Delta Bronze
delta_path_cotahist = f"{base_bronze_path}/raw_cotahist"
delta_path_cadcliente = f"{base_bronze_path}/raw_cadcliente"
delta_path_controleativo = f"{base_bronze_path}/raw_controleativo"

# Define o caminho da tabela Delta Silver
delta_path_cotacao_historica = f"{base_silver_path}/stg_cotacao_historica"
delta_path_controle_ativo = f"{base_silver_path}/stg_controle_ativo"

# Dimens√µes
delta_path_dim_ativo = f"{base_gold_path}/dim_ativo_financeiro"
delta_path_dim_tempo = f"{base_gold_path}/dim_tempo"
delta_path_dim_cliente = f"{base_gold_path}/dim_cliente"

# Fato
delta_path_fato_cotacao = f"{base_gold_path}/fato_cotacao"
delta_path_fato_carteira = f"{base_gold_path}/fato_carteira"

## Create Schemas

In [None]:
 # BRONZE - Camada de dados RAW
spark.sql(f"""
    CREATE SCHEMA IF NOT EXISTS bronze
    LOCATION '{base_bronze_path}'
    COMMENT 'Camada Bronze - Dados brutos sem transforma√ß√£o. 
            Dados exatamente como chegam dos arquivos Excel.
            Todos os campos em STRING para preservar dados originais.'
    WITH DBPROPERTIES (
        'layer' = 'bronze',
        'data_quality' = 'raw',
        'created_date' = '2025-10-27',
        'sla' = 'near_realtime',
        'retention_days' = '30',
        'pii_data' = 'yes'
    )
""")

print("‚úÖ Schema bronze criada com sucesso!")

In [None]:
# Schema Silver
spark.sql(f"""
    CREATE SCHEMA IF NOT EXISTS silver
    LOCATION '{base_silver_path}'
    COMMENT 'Camada Silver - Dados limpos e validados'
    WITH DBPROPERTIES (
        'layer' = 'silver',
        'data_quality' = 'cleaned_and_validated',
        'created_date' = '2025-10-27',
        'sla' = 'daily',
        'retention_days' = '365',
        'pii_data' = 'masked'
    )
""")

print("‚úÖ Schema silver criada com sucesso!")

In [None]:
# Schema Gold
spark.sql(f"""
    CREATE SCHEMA IF NOT EXISTS gold
    LOCATION '{base_gold_path}'
    COMMENT 'Camada Gold - Dados agregados e m√©tricas'
    WITH DBPROPERTIES (
        'layer' = 'gold',
        'data_quality' = 'curated',
        'created_date' = '2025-10-27',
        'sla' = 'daily',
        'retention_days' = '2555',
        'pii_data' = 'no'
    )
""")

print("‚úÖ Schema gold criada com sucesso!")

## Create Table Bronze

In [None]:
# Remove o diret√≥rio da tabela Delta se ele existir
if os.path.exists(delta_path_cotahist):
    shutil.rmtree(delta_path_cotahist)
    print(f"‚úÖ Diret√≥rio removido: {delta_path_cotahist}")


## Create bronze cotahist
spark.sql("""
CREATE TABLE IF NOT EXISTS bronze.raw_cotahist (
  tipo_registro STRING,
  data_pregao STRING,
  codigo_bdi STRING,
  codigo_negociacao STRING,
  tipo_mercado STRING,
  nome_resumido_empresa STRING,
  especificacao_papel STRING,
  prazo_dias_mercado STRING,
  moeda_referencia STRING,
  preco_abertura_papel STRING,
  preco_maximo_papel STRING,
  preco_minimo_papel STRING,
  preco_medio_papel STRING,
  preco_ultimo_negocio STRING,
  preco_melhor_oferta_compra STRING,
  preco_melhor_oferta_venda STRING,
  numero_negocios_efetuados STRING,
  quantidade_total_titulos STRING,
  volume_total_titulos STRING,
  preco_exercicio_opcoes STRING,
  indicador_correcao_precos STRING,
  data_vencimento_opcoes STRING,
  fator_cotacao_papel STRING,
  preco_exercicio_pontos STRING,
  codigo_papel_sistema STRING,
  numero_distribuicao_papel STRING,
  nome_arquivo STRING
)
USING DELTA
""")

print("‚úÖ Tabela raw_cotahist criada com sucesso!")

In [None]:
# Remove o diret√≥rio da tabela Delta se ele existir
if os.path.exists(delta_path_cadcliente):
    shutil.rmtree(delta_path_cadcliente)
    print(f"‚úÖ Diret√≥rio removido: {delta_path_cadcliente}")

# Criar bronze cadastro cliente
spark.sql("""
CREATE TABLE IF NOT EXISTS bronze.raw_cadcliente (
    cpf STRING,
    nome STRING,
    data_nascimento STRING,
    email STRING,
    telefone STRING,
    nome_arquivo STRING
)
USING DELTA
""")

print("‚úÖ Tabela raw_cadcliente criada com sucesso!")

In [None]:
# Remove o diret√≥rio da tabela Delta se ele existir
if os.path.exists(delta_path_controleativo):
    shutil.rmtree(delta_path_controleativo)
    print(f"‚úÖ Diret√≥rio removido: {delta_path_controleativo}")

# Criar bronze controle ativo
spark.sql("""
CREATE TABLE IF NOT EXISTS bronze.raw_controleativo (
    data STRING,
    papel STRING,
    op STRING,
    qtd STRING,
    preco STRING,
    custo_total STRING,
    total_op STRING,
    rateio STRING,
    v_liquido STRING,
    estoque STRING,
    pmedio STRING,
    gan_per STRING,
    ir_mes STRING,
    mes_ref STRING,
    vendas_mes STRING,
    cpf STRING,
    cotista STRING,
    arquivo_origem STRING
)
USING DELTA
""")

print("‚úÖ Tabela raw_controleativo criada com sucesso!")

## Create Table Silver

In [None]:
# Remove o diret√≥rio da tabela Delta se ele existir
if os.path.exists(delta_path_cotacao_historica):
    shutil.rmtree(delta_path_cotacao_historica)
    print(f"‚úÖ Diret√≥rio removido: {delta_path_cotacao_historica}")

## Create table stg_cotacao_historica
spark.sql("""
CREATE TABLE IF NOT EXISTS silver.stg_cotacao_historica (
  tp_registro STRING COMMENT 'Tipo do registro no arquivo',
  dt_pregao DATE COMMENT 'Data do preg√£o',
  cd_bdi STRING COMMENT 'C√≥digo BDI (identifica√ß√£o da a√ß√£o)',
  cd_negociacao STRING COMMENT 'C√≥digo de negocia√ß√£o do papel',
  tp_mercado STRING COMMENT 'Tipo de mercado',
  nm_empresa STRING COMMENT 'Nome resumido da empresa',
  ds_especificacao_papel STRING COMMENT 'Especifica√ß√£o do papel',
  nr_prazo_dias_mercado STRING COMMENT 'Prazo em dias de mercado',
  cd_moeda_referencia STRING COMMENT 'Moeda de refer√™ncia',
  vl_abertura DECIMAL(11,2) COMMENT 'Pre√ßo de abertura do papel',
  vl_maximo DECIMAL(11,2) COMMENT 'Pre√ßo m√°ximo do papel',
  vl_minimo DECIMAL(11,2) COMMENT 'Pre√ßo m√≠nimo do papel',
  vl_medio DECIMAL(11,2) COMMENT 'Pre√ßo m√©dio do papel',
  vl_ultimo_negocio DECIMAL(11,2) COMMENT 'Pre√ßo do √∫ltimo neg√≥cio',
  vl_melhor_oferta_compra DECIMAL(11,2) COMMENT 'Pre√ßo da melhor oferta de compra',
  vl_melhor_oferta_venda DECIMAL(11,2) COMMENT 'Pre√ßo da melhor oferta de venda',
  qt_negocios_efetuados INT COMMENT 'N√∫mero de neg√≥cios efetuados',
  qt_total_titulos INT COMMENT 'Quantidade total de t√≠tulos negociados',
  vl_total_titulos DECIMAL(16,2) COMMENT 'Volume total t√≠tulos negociados',
  vl_exercicio_opcoes DECIMAL(11,2) COMMENT 'Pre√ßo de exerc√≠cio de op√ß√µes',
  cd_indicador_correcao STRING COMMENT 'Indicador de corre√ß√£o de pre√ßos',
  dt_vencimento_opcoes DATE COMMENT 'Data de vencimento das op√ß√µes',
  cd_fator_cotacao STRING COMMENT 'Fator de cota√ß√£o do papel',
  vl_exercicio_pontos DECIMAL(7,6) COMMENT 'Pre√ßo de exerc√≠cio em pontos',
  cd_papel_sistema STRING COMMENT 'C√≥digo do papel no sistema',
  nr_distribuicao_papel STRING COMMENT 'N√∫mero de distribui√ß√£o do papel',
  nm_arquivo_origem STRING COMMENT 'Nome do arquivo origem com os dados carregados',
  ts_insercao TIMESTAMP COMMENT 'Timestamp de inser√ß√£o do registro'
)
USING DELTA
COMMENT 'Hist√≥rico de cota√ß√µes de pap√©is da bolsa de valores'
""")

print("‚úÖ Tabela stg_cotacao_historica criada com sucesso!")

In [None]:
# Remove o diret√≥rio da tabela Delta se ele existir
if os.path.exists(delta_path_controle_ativo):
    shutil.rmtree(delta_path_controle_ativo)
    print(f"‚úÖ Diret√≥rio removido: {delta_path_controle_ativo}")

# Criar bronze controle ativo
spark.sql("""
CREATE TABLE IF NOT EXISTS silver.stg_controle_ativo (
    dt_operacao DATE COMMENT 'Data da opera√ß√£o de compra ou venda do ativo',
    cd_ativo STRING COMMENT 'C√≥digo do ativo (A√ß√µes ou FII) negociado',
    cd_tipo_operacao STRING COMMENT 'Tipo da opera√ß√£o (ex.: COMPRA, VENDA)',
    qt_operacao INT COMMENT 'Quantidade de ativos na opera√ß√£o',
    vl_preco_ativo DECIMAL(11,2) COMMENT 'Pre√ßo unit√°rio do ativo na opera√ß√£o',
    vl_custo_total DECIMAL(11,2) COMMENT 'Custo total da opera√ß√£o (pre√ßo √ó quantidade + custos)',
    vl_total_operacao DECIMAL(11,2) COMMENT 'Valor total da opera√ß√£o (pode incluir taxas, l√≠quido da opera√ß√£o)',
    vl_rateio DECIMAL(11,2) COMMENT 'Rateio de custos ou despesas proporcional √† opera√ß√£o',
    vl_liquido DECIMAL(11,2) COMMENT 'Valor l√≠quido da opera√ß√£o ap√≥s impostos e taxas',
    qt_estoque INT COMMENT 'Quantidade de ativos em estoque ap√≥s a opera√ß√£o',
    vl_pmedio DECIMAL(11,2) COMMENT 'Pre√ßo m√©dio ponderado do ativo no estoque',
    vl_ganho_perda DECIMAL(11,2) COMMENT 'Ganho ou perda da opera√ß√£o ou do ativo',
    ir_mes DECIMAL(11,2) COMMENT 'Imposto de renda calculado para o m√™s da opera√ß√£o',
    mes_referencia STRING COMMENT 'M√™s de refer√™ncia da opera√ß√£o (ex.: "2025-10")',
    vl_vendas_mes DECIMAL(11,2) COMMENT 'Valor total de vendas do ativo no m√™s de refer√™ncia',
    cpf STRING COMMENT 'CPF do investidor ou cotista',
    cotista STRING COMMENT 'Nome do cotista ou titular da opera√ß√£o',
    arquivo_origem STRING COMMENT 'Nome do arquivo Excel de origem da carga',
    ts_insercao TIMESTAMP COMMENT 'Timestamp de inser√ß√£o do registro'
)
USING DELTA
COMMENT 'Tabela staging com opera√ß√µes de ativos dos investidores';
""")

print("‚úÖ Tabela stg_controle_ativo criada com sucesso!")

## Create Dimension Tables - Gold

In [None]:
# Remove o diret√≥rio da tabela Delta se ele existir
if os.path.exists(delta_path_dim_ativo):
    shutil.rmtree(delta_path_dim_ativo)
    print(f"‚úÖ Diret√≥rio removido: {delta_path_dim_ativo}")

# Criar dimens√£o Ativo
spark.sql("""
CREATE TABLE IF NOT EXISTS gold.dim_ativo_financeiro (
    sk_ativo STRING NOT NULL COMMENT 'Chave surrogate da dimens√£o ativo',
    cd_ativo STRING NOT NULL COMMENT 'C√≥digo de negocia√ß√£o do ativo',
    nm_empresa STRING COMMENT 'Nome da empresa',
    ds_ativo STRING COMMENT 'Descri√ß√£o do ativo',
    cd_tipo_mercado STRING COMMENT 'C√≥digo do tipo de mercado',
    ds_tipo_mercado STRING COMMENT 'Descri√ß√£o do tipo de mercado',
    cd_isin STRING COMMENT 'C√≥digo ISIN do ativo',
    ds_tipo_ativo STRING COMMENT 'Descri√ß√£o do tipo do ativo (a√ß√£o, FII, etc)',
    ts_insercao TIMESTAMP COMMENT 'Timestamp de inser√ß√£o do registro',
    ts_atualizacao TIMESTAMP COMMENT 'Timestamp da √∫ltima atualiza√ß√£o'
)
USING DELTA
COMMENT 'Dimens√£o de ativos financeiros'
""")

# Inserir registro dummy para criar a estrutura f√≠sica
df_inicial = spark.createDataFrame([
    ("-1", "-1", "N√ÉO INFORMADO", "N√ÉO INFORMADO", "N√ÉO INFORMADO", 
     "N√ÉO INFORMADO", "N√ÉO INFORMADO", "N√ÉO INFORMADO")
], ["sk_ativo", "cd_ativo", "nm_empresa", "ds_ativo", "cd_tipo_mercado", 
    "ds_tipo_mercado", "cd_isin", "ds_tipo_ativo"])

df_inicial = df_inicial.withColumn("ts_insercao", F.current_timestamp()) \
                       .withColumn("ts_atualizacao", F.current_timestamp())

# Salvar usando o DataFrame (isso cria a estrutura f√≠sica)
df_inicial.write.format("delta").mode("append").save(delta_path_dim_ativo)

print("‚úÖ Tabela dim_ativo_financeiro criada com sucesso!")

‚úÖ Tabela dim_ativo_financeiro criada com sucesso!


In [None]:
# Remove o diret√≥rio da tabela Delta se ele existir
if os.path.exists(delta_path_dim_tempo):
    shutil.rmtree(delta_path_dim_tempo)
    print(f"‚úÖ Diret√≥rio removido: {delta_path_dim_tempo}")

# Criar dimens√£o Tempo
spark.sql("""
CREATE TABLE IF NOT EXISTS gold.dim_tempo (
    dt_dia DATE NOT NULL COMMENT 'Data do dia',
    nr_dia INT COMMENT 'N√∫mero do dia no m√™s (1-31)',
    nr_dia_ano INT COMMENT 'N√∫mero do dia no ano (1-366)',
    nr_dia_semana INT COMMENT 'N√∫mero do dia na semana (1-7)',      
    nm_dia_semana STRING COMMENT 'Nome do dia da semana (Segunda-feira, Ter√ßa-feira, etc)',
    ds_periodo_semana STRING COMMENT 'Descri√ß√£o do per√≠odo da semana dd-mm-yyyy a dd-mm-yyyy', 
    nr_mes INT COMMENT 'N√∫mero do m√™s no ano (1-12)', 
    nm_mes STRING COMMENT 'Nome do m√™s (Janeiro, Fevereiro, etc)',
    ds_mes_ano STRING COMMENT 'Descri√ß√£o do m√™s e ano (ex.: Outubro 2025)',
    nr_bimestre INT COMMENT 'N√∫mero do bimestre no ano (1-6)',
    ds_bimestre STRING COMMENT 'Descri√ß√£o do bimestre (ex.: 1¬∫ Bimestre)',
    nr_trimestre INT COMMENT 'N√∫mero do trimestre no ano (1-4)',
    ds_trimestre STRING COMMENT 'Descri√ß√£o do trimestre (ex.: 1¬∫ Trimestre)',
    nr_quadrimestre INT COMMENT 'N√∫mero do quadrimestre no ano (1-3)',
    ds_quadrimestre STRING COMMENT 'Descri√ß√£o do quadrimestre (ex.: 1¬∫ Quadrimestre)',
    nr_semeste INT COMMENT 'N√∫mero do semestre no ano (1-2)',
    ds_semestre STRING COMMENT 'Descri√ß√£o do semestre (ex.: 1¬∫ Semestre)',
    nr_ano INT COMMENT 'N√∫mero do ano',
    dt_ultimo_dia_util_mes DATE COMMENT 'Data do √∫ltimo dia √∫til do m√™s',
    dt_ultimo_dia_mes DATE COMMENT 'Data do √∫ltimo dia do m√™s',
    fl_feriado BOOLEAN COMMENT 'Flag que indica se √© feriado nacional',
    fl_fim_semana BOOLEAN COMMENT 'Flag que indica se √© fim de semana',
    fl_dia_util BOOLEAN COMMENT 'Flag que indica se √© dia √∫til',
    ts_insercao TIMESTAMP COMMENT 'Timestamp de inser√ß√£o do registro',
)
USING DELTA
COMMENT 'Dimens√£o de tempo'
""")

print("‚úÖ Tabela dim_tempo criada com sucesso!")

In [None]:
# Remove o diret√≥rio da tabela Delta se ele existir
if os.path.exists(delta_path_dim_cliente):
    shutil.rmtree(delta_path_dim_cliente)
    print(f"‚úÖ Diret√≥rio removido: {delta_path_dim_cliente}")

# Criar dimens√£o Cliente
spark.sql("""
CREATE TABLE IF NOT EXISTS gold.dim_cliente (
    sk_cliente STRING NOT NULL COMMENT 'Chave surrogate da dimens√£o cliente',
    cd_cpf_pessoa STRING NOT NULL COMMENT 'C√≥digo do cpf da pessoa',
    nm_cliente STRING COMMENT 'Nome do cliente',
    dt_nascimento DATE COMMENT 'Data de nascimento',
    ds_email STRING COMMENT 'Endere√ßo de email',
    nr_telefone STRING COMMENT 'N√∫mero de telefone',
    ts_insercao TIMESTAMP COMMENT 'Timestamp de inser√ß√£o do registro',
    ts_atualizacao TIMESTAMP COMMENT 'Timestamp da √∫ltima atualiza√ß√£o'
)
USING DELTA
COMMENT 'Dimens√£o de clientes'
""")

# Inserir registro dummy para criar a estrutura f√≠sica
df_inicial = spark.createDataFrame([
    ("-1", "-1", "N√ÉO INFORMADO", date(2100, 1, 1), "N√ÉO INFORMADO", "N√ÉO INFORMADO")
], ["sk_cliente", "cd_cpf_pessoa", "nm_cliente", "dt_nascimento", "ds_email", "nr_telefone"])

df_inicial = df_inicial.withColumn("ts_insercao", F.current_timestamp()) \
                       .withColumn("ts_atualizacao", F.current_timestamp())

# Salvar usando o DataFrame (isso cria a estrutura f√≠sica)
df_inicial.write.format("delta").mode("append").save(delta_path_dim_cliente)

print("‚úÖ Tabela dim_cliente criada com sucesso!")

‚úÖ Tabela dim_cliente criada com sucesso!


## Create Fact Table - Gold

In [None]:
# Remove diret√≥rio existente da tabela fato
if os.path.exists(delta_path_fato_cotacao):
    shutil.rmtree(delta_path_fato_cotacao)
    print(f"‚úÖ Diret√≥rio removido: {delta_path_fato_cotacao}")

# Criar tabela fato de cota√ß√µes
spark.sql("""
CREATE TABLE IF NOT EXISTS gold.fato_cotacao (
    dt_pregao DATE NOT NULL COMMENT 'Data do preg√£o',
    sk_ativo STRING NOT NULL COMMENT 'Chave surrogate da dimens√£o ativo',
    vl_abertura DECIMAL(11,2) COMMENT 'Pre√ßo de abertura',
    vl_minimo DECIMAL(11,2) COMMENT 'Pre√ßo m√≠nimo',
    vl_maximo DECIMAL(11,2) COMMENT 'Pre√ßo m√°ximo',
    vl_medio DECIMAL(11,2) COMMENT 'Pre√ßo m√©dio',
    vl_ultimo_negocio DECIMAL(11,2) COMMENT 'Pre√ßo do √∫ltimo neg√≥cio',
    qt_negocio INT COMMENT 'Quantidade de neg√≥cios realizados',
    qt_titulo INT COMMENT 'Quantidade de t√≠tulos negociados',
    vl_volume DECIMAL(16,2) COMMENT 'Volume financeiro negociado',
    ts_insercao TIMESTAMP COMMENT 'Timestamp de inser√ß√£o do registro',
    ano_pregao INT NOT NULL COMMENT 'Ano do preg√£o (parti√ß√£o)',
    mes_pregao INT NOT NULL COMMENT 'M√™s do preg√£o (parti√ß√£o)'
)
USING DELTA
PARTITIONED BY (ano_pregao, mes_pregao)
COMMENT 'Fato de cota√ß√µes de ativos'
""")

print("‚úÖ Tabela fato_cotacao criada com sucesso!")

In [None]:
# Remove diret√≥rio existente da tabela fato
if os.path.exists(delta_path_fato_carteira):
    shutil.rmtree(delta_path_fato_carteira)
    print(f"‚úÖ Diret√≥rio removido: {delta_path_fato_carteira}")

# Criar tabela fato de carteira
spark.sql("""
CREATE TABLE IF NOT EXISTS gold.fato_carteira (
    dt_carteira DATE NOT NULL COMMENT 'Data da carteira',
    sk_cliente STRING NOT NULL COMMENT 'Chave surrogate da dimens√£o cliente',
    sk_ativo STRING NOT NULL COMMENT 'Chave surrogate da dimens√£o ativo',
    qt_ativo INT COMMENT 'Quantidade de ativos na carteira',
    vl_ativo DECIMAL(11,2) COMMENT 'Pre√ßo do ativo',
    vl_medio DECIMAL(11,2) COMMENT 'Pre√ßo m√©dio do ativo',
    vl_total_investido DECIMAL(16,2) COMMENT 'Valor total investido',
    vl_total_carteira DECIMAL(16,2) COMMENT 'Valor total da carteira',      
    ts_insercao TIMESTAMP COMMENT 'Timestamp de inser√ß√£o do registro'
)
USING DELTA
COMMENT 'Fato de carteira de ativos'
""")

print("‚úÖ Tabela fato_carteira criada com sucesso!")

## Stop Spark Session

In [16]:
# Encerra a SparkSession
spark.stop()