# ü™ô Camada Silver - Criptoativos

## üìÑ Descri√ß√£o
Este notebook realiza o processamento incremental da camada Bronze para a camada Silver, consolidando dados hist√≥ricos e intradi√°rios em uma √∫nica tabela Delta do dom√≠nio de criptoativos.

O pipeline utiliza **Structured Streaming com Delta Change Data Feed (CDF)** para garantir ingest√£o eficiente, incremental e confi√°vel. Durante a primeira execu√ß√£o, o notebook carrega o hist√≥rico completo dos ativos. Ap√≥s isso, realiza atualiza√ß√µes cont√≠nuas com base em novos dados recebidos diariamente.

Al√©m disso, o notebook possui intelig√™ncia para detectar **novos ativos** adicionados na Bronze, realizando a carga hist√≥rica automaticamente, garantindo consist√™ncia e cobertura total do dom√≠nio.

## üì• Entradas (Bronze)
- `bronze_historico`: hist√≥rico de pre√ßos di√°rios via Yahoo Finance
- `bronze_intradiario`: cota√ß√µes intradi√°rias via CoinGecko

## üì§ Sa√≠da (Silver)
- `silver.ativo_financeiro`: tabela Delta unificada contendo hist√≥rico e atualiza√ß√µes di√°rias de todos os criptoativos

## ‚öôÔ∏è Tecnologias e Estrat√©gias
- üîÑ Structured Streaming com `foreachBatch`
- üß† Processamento incremental via `readChangeFeed`
- ‚ö° Merge Upsert com Delta Lake
- üîç Detec√ß√£o autom√°tica de novos ativos
- ‚úÖ Checagem de exist√™ncia da tabela Silver e schema evolution autom√°tico
- üóÇ Checkpoints para toler√¢ncia a falhas e reprocessamentos seguros

---

> üí° *Este pipeline est√° preparado para rodar continuamente em ambiente de produ√ß√£o, garantindo atualiza√ß√£o constante dos dados financeiros do dom√≠nio de criptoativos.*


In [0]:
from delta.tables import DeltaTable
from pyspark.sql.functions import expr, col
from pyspark.sql import DataFrame

In [0]:
spark.sql("create catalog if not exists lakehouse managed location 's3://databricks-9cwyoqzauqyermnrdpparb-cloud-storage-bucket/unity-catalog/1732645886098685'")
spark.sql("use catalog lakehouse")

In [0]:
spark.sql("create schema if not exists silver")
spark.sql("create volume if not exists silver.checkpoint_cripto")
spark.sql("create volume if not exists silver.schema_cripto")

In [0]:
checkpoint_path = "/Volumes/lakehouse/silver/checkpoint_cripto" 
schema_path = "/Volumes/lakehouse/silver/schema_cripto"
table_name = "silver.cripto"

In [0]:
# =====================================================================
# Leitura com Structured Streaming e Change Data Feed (CDF) dos dados da camada Bronze
# =====================================================================

# L√™ as mudan√ßas da tabela bronze_historico desde a primeira vers√£o (full load na primeira execu√ß√£o)
df_historico = (
    spark.readStream
         .format("delta")
         .table("bronze.historico_cripto")
)
# L√™ as mudan√ßas da tabela bronze_intradiario
df_intradiario = (
    spark.readStream
         .format("delta")
         .table("bronze.diario_cripto")
)

# Ajuste do nome das colunas para facilitar a manipula√ß√£o
df_historico = df_historico.withColumn("asset_name", col("ticker")).drop(col("ticker")).withColumn("time_interval",col("timestamp"))

# Acrescenta uma coluna para diferenciar a origem do dado (opcional, mas √∫til para debug/an√°lise)
df_historico = df_historico.withColumn("source_type", expr("'historico'"))
df_intradiario = df_intradiario.withColumn("source_type", expr("'intradiario'"))

# Une os dois streams, garantindo que os schemas sejam compat√≠veis
df_union = df_historico.unionByName(df_intradiario)

In [0]:
def insert_to_silver(microBatchDF: DataFrame, batchId: int):
    """
    Fun√ß√£o para inserir (append) os registros do microbatch na tabela Silver.
    Como as tabelas Bronze s√£o insertOnly e o Structured Streaming capta apenas os registros novos,
    n√£o √© necess√°rio fazer merge (upsert).
    """
    microBatchDF.write.format("delta").mode("append").saveAsTable("silver.cripto")
    print(f"Batch {batchId} inserido com sucesso na camada Silver.")


In [0]:

# =====================================================================
# Configura o streaming para processar incrementalmente na Silver
# =====================================================================

silver_stream = (
    df_union.writeStream
            .option("checkpointLocation", checkpoint_path)
            .foreachBatch(insert_to_silver)
            .outputMode("append")  # Pode ser "update" ou "append" dependendo da l√≥gica de merge
            .trigger(availableNow=True)
            .start()
)

silver_stream.awaitTermination()


In [0]:
spark.sql("alter table silver.cripto cluster by AUTO")

In [0]:
spark.sql("optimize silver.cripto").display()