# Carga Gold - Fato de Cota√ß√£o

Este notebook realiza a carga da fato de cota√ß√£o (fato_cotacao) a partir dos dados da tabela staging de cota√ß√£o hist√≥rica.

## Imports

In [8]:
from spark_config import init_spark
from pyspark.sql import functions as F
from delta.tables import DeltaTable

## Start Spark Session

In [9]:
spark = init_spark("Carga fato cota√ß√£o")


‚úÖ Spark 3.5.7 iniciado com Hive local persistente!
üìÅ Warehouse: D:/Projetos/DataLake/spark-warehouse
üìÅ Metastore: D:/Projetos/DataLake/metastore_db



## Define Delta Table Paths

In [10]:
# Define caminhos locais onde ser√£o armazenadas as tabelas Delta
base_silver_path = "D:/Projetos/Jornada_financas_pessoais/data/delta/silver"
base_gold_path = "D:/Projetos/Jornada_financas_pessoais/data/delta/gold"

# Define caminhos das tabelas Delta
delta_path_cotacao_historica = f"{base_silver_path}/stg_cotacao_historica"
delta_path_dim_ativo = f"{base_gold_path}/dim_ativo_financeiro"
delta_path_fato_cotacao = f"{base_gold_path}/fato_cotacao"

## Read Source Data

In [11]:
# L√™ a tabela staging de cota√ß√£o hist√≥rica
df_stg_cotacao_historica = spark.read.format("delta").load(delta_path_cotacao_historica)

print(f"[SUCESSO] Leitura da tabela staging em: {delta_path_cotacao_historica}")
print(f"Total de registros: {df_stg_cotacao_historica.count()}")

df_dim_ativo = spark.read.format("delta").load(delta_path_dim_ativo)

print(f"[SUCESSO] Leitura da tabela dimens√£o em: {delta_path_dim_ativo}")
print(f"Total de registros: {df_dim_ativo.count()}")

[SUCESSO] Leitura da tabela staging em: D:/Projetos/Jornada_financas_pessoais/data/delta/silver/stg_cotacao_historica
Total de registros: 2900062
[SUCESSO] Leitura da tabela dimens√£o em: D:/Projetos/Jornada_financas_pessoais/data/delta/gold/dim_ativo_financeiro
Total de registros: 3201


## Transform Data

In [12]:
# Filtra apenas registros com tp_mercado = '10'
df_stg_cotacao_historica = df_stg_cotacao_historica.filter(F.col("tp_mercado") == "010")

# Join LEFT (mant√©m todas as cota√ß√µes mesmo sem correspond√™ncia na dimens√£o)
df_joined = (
    df_stg_cotacao_historica.alias("stg")
    .join(
        df_dim_ativo.alias("dim"),
        F.col("stg.cd_negociacao") == F.col("dim.cd_ativo"),
        "left"  # mant√©m as linhas da stg mesmo se n√£o achar na dimens√£o
    )
)

# Tratamento da chave surrogate faltante (usa -1)
df_fato_cotacao = (
    df_joined.select(
        F.col("stg.dt_pregao"),
        F.when(F.col("sk_ativo").isNull(), F.lit("-1")).otherwise(F.col("sk_ativo")).alias("sk_ativo"),
        F.col("vl_abertura"),
        F.col("vl_minimo"),
        F.col("vl_maximo"),
        F.col("vl_medio"),
        F.col("vl_ultimo_negocio"),
        F.col("qt_negocios_efetuados").alias("qt_negocio"),
        F.col("qt_total_titulos").alias("qt_titulo"),
        F.col("vl_total_titulos").alias("vl_volume"),
        F.current_timestamp().alias("ts_insercao")
    )
)


## Write Data

In [13]:
# Obter datas a reprocessar
datas = [row.dt_pregao for row in df_fato_cotacao.select("dt_pregao").distinct().collect()]

print(f"üìä Carregando {df_fato_cotacao.count()} registros de {len(datas)} datas")

# Processar
if DeltaTable.isDeltaTable(spark, delta_path_fato_cotacao):
    deltaTable = DeltaTable.forPath(spark, delta_path_fato_cotacao)
    
    # DELETE per√≠odos
    if datas:
        df_datas = spark.createDataFrame([(d,) for d in datas], ["dt_pregao"])
        deltaTable.alias("destino").merge(
            df_datas.alias("datas"),
            "destino.dt_pregao = datas.dt_pregao"
        ).whenMatchedDelete().execute()
        print(f"‚úÖ Deletados dados de {len(datas)} datas")
    
    # INSERT
    df_fato_cotacao.write.format("delta").mode("append").save(delta_path_fato_cotacao)
    print(f"‚úÖ Inseridos {df_fato_cotacao.count()} registros")
    
else:
    # Primeira carga
    df_fato_cotacao.write.format("delta").mode("overwrite").option("overwriteSchema", "false").save(delta_path_fato_cotacao)
    print(f"‚úÖ Tabela criada com {df_fato_cotacao.count()} registros")

# OPTIMIZE
DeltaTable.forPath(spark, delta_path_fato_cotacao).optimize().executeCompaction()
print("‚úÖ Carga e otimiza√ß√£o conclu√≠das!")

üìä Carregando 309457 registros de 231 datas
‚úÖ Deletados dados de 231 datas
‚úÖ Inseridos 309457 registros
‚úÖ Carga e otimiza√ß√£o conclu√≠das!


## Stop Spark Session

In [14]:
# Encerra a SparkSession
spark.stop()