In [0]:
%pip install pillow

In [0]:
# ======================================================
# JOB: Carga de √°reas queimadas (Arquivo TIFF)
# ======================================================

from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from PIL import Image
import numpy as np
import os

spark = SparkSession.builder.getOrCreate()

In [0]:
# ======================================================
# 1Ô∏è‚É£ - Par√¢metro de entrada
# ======================================================
dbutils.widgets.text("data_referencia", "")
referencia = dbutils.widgets.get("data_referencia").strip()
# Exemplo local:
# referencia = "202509"

if not referencia or len(referencia) != 6:
    raise ValueError("‚ö†Ô∏è Informe a data_referencia no formato AAAAMM (ex: 202509).")

print(f"üìÖ Data de refer√™ncia: {referencia}")

In [0]:
# ======================================================
# 2Ô∏è‚É£ - Caminho e nome do arquivo
# ======================================================
origem_base = "/Volumes/datamasters/raw/raw_inpe"
nome_arquivo = f"aqm1km_{referencia}.tif"
caminho_arquivo = os.path.join(origem_base, nome_arquivo)

print(f"üìÇ Procurando arquivo: {caminho_arquivo}")

if not any(nome_arquivo in f.path for f in dbutils.fs.ls(origem_base)):
    raise FileNotFoundError(f"üö´ Arquivo {nome_arquivo} n√£o encontrado em {origem_base}")

In [0]:
# ======================================================
# 3Ô∏è‚É£ - Leitura do TIFF com Pillow
# ======================================================
img = Image.open(caminho_arquivo)
array = np.array(img)

print(f"üìè Dimens√µes da imagem: {array.shape}")

In [0]:
# ======================================================
# 4Ô∏è‚É£ - Convers√£o em DataFrame Spark
# ======================================================
# (Transforma pixels em linhas ‚Äî pode ser pesado em imagens grandes)
linhas = array.shape[0]
colunas = array.shape[1]

# Gera tuplas (linha, coluna, valor)
dados = [(int(i), int(j), float(array[i, j])) for i in range(linhas) for j in range(colunas)]

df = spark.createDataFrame(dados, ["linha", "coluna", "valor"])

df_final = (
    df.withColumn("data_referencia", F.lit(referencia))
      .withColumn("data_carga", F.current_timestamp())
)

display(df_final.limit(5))

In [0]:
# ======================================================
# 5Ô∏è‚É£ - Grava√ß√£o em Delta Lake
# ======================================================
tabela_delta = "datamasters.b_inep.m_area_queim"

(
    df_final.write
    .format("delta")
    .mode("append")
    .partitionBy("data_referencia")
    .saveAsTable(tabela_delta)
)

print(f"‚úÖ Dados gravados com sucesso na tabela {tabela_delta}")