--packages databricks:mosaic:0.22.0

# ======================================================
# JOB: Carga de √°reas queimadas (Arquivo TIFF)
# ORIGEM: /Volumes/datamasters/raw/raw_inpe
# DESTINO: Tabela Delta datamasters.b_inep.m_area_queim
======================================================

In [0]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from datetime import datetime
import os

spark = SparkSession.builder.getOrCreate()

In [0]:
# ======================================================
# 1Ô∏è‚É£ - PAR√ÇMETRO DE ENTRADA (DATA DE REFER√äNCIA)
# ======================================================
dbutils.widgets.text("data_referencia", "")
referencia = dbutils.widgets.get("data_referencia").strip()

if not referencia or len(referencia) != 6:
    raise ValueError("‚ö†Ô∏è Par√¢metro 'data_referencia' deve ser informado no formato AAAAMM (ex: 202509).")

print(f"üìÖ Data de refer√™ncia recebida: {referencia}")

In [0]:
# ======================================================
# 2Ô∏è‚É£ - DEFINI√á√ÉO DE CAMINHOS E ARQUIVO
# ======================================================
origem_base = "/Volumes/datamasters/raw/raw_inpe"
nome_arquivo = f"aqm1km_{referencia}.tif"
caminho_arquivo = os.path.join(origem_base, nome_arquivo)

print(f"üìÇ Procurando arquivo: {caminho_arquivo}")

In [0]:
# ======================================================
# 3Ô∏è‚É£ - VALIDA√á√ÉO DE EXIST√äNCIA DO ARQUIVO
# ======================================================
arquivos = [f.path for f in dbutils.fs.ls(origem_base) if nome_arquivo in f.path]

if not arquivos:
    raise FileNotFoundError(f"üö´ Arquivo n√£o encontrado: {nome_arquivo} em {origem_base}")

print(f"‚úÖ Arquivo encontrado: {arquivos[0]}")

In [0]:
# ======================================================
# 4Ô∏è‚É£ - LEITURA DO ARQUIVO TIFF (RASTER)
# ======================================================
# Requer biblioteca RasterFrames:
# Adicione em Libraries (Maven): org.locationtech.rasterframes:rasterframes_2.12:0.9.0

df_raster = (
    spark.read.format("raster")
    .option("bandIndexes", "1")  # l√™ a primeira banda
    .load(arquivos[0])
)

print("üõ∞Ô∏è Leitura do arquivo TIFF conclu√≠da.")

In [0]:
# ======================================================
# 5Ô∏è‚É£ - ENRIQUECIMENTO COM METADADOS
# ======================================================
df_final = (
    df_raster
    .withColumn("data_referencia", F.lit(referencia))
    .withColumn("data_carga", F.current_timestamp())
)

display(df_final.limit(5))

In [0]:
# ==============================
# 6  Carga MENSAL
# ==============================
tabela_delta = "datamasters.b_inep.m_area_queim"

try:
    (
        df_final.write
        .format("delta")
        .mode("append")
        .partitionBy("data_referencia")
        .saveAsTable(tabela_delta)
    )

    print(f"‚úÖ Dados gravados com sucesso na tabela {tabela_delta}")

except Exception as e:
    print(f"‚ö†Ô∏è Nenhum arquivo mensal encontrado para {data_ref_fmt}: {str(e)}")