# foco_queim_inc_silver

In [0]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, lit, when, trim
from pyspark.sql.types import DoubleType, StringType, IntegerType, TimestampType, NumericType

In [0]:
# ==============================
# WIDGETS / PAR√ÇMETROS
# ==============================
dbutils.widgets.text("catalog", "")
dbutils.widgets.text("schema_in", "")
dbutils.widgets.text("table_in", "")
dbutils.widgets.text("schema_out", "")
dbutils.widgets.text("table_out", "")
dbutils.widgets.text("data_ref_carga", "")

catalog = dbutils.widgets.get("catalog").strip()
schema_in = dbutils.widgets.get("schema_in").strip()
table_in = dbutils.widgets.get("table_in").strip()
schema_out = dbutils.widgets.get("schema_out").strip()
table_out = dbutils.widgets.get("table_out").strip()
data_ref_carga = dbutils.widgets.get("data_ref_carga").strip()

In [0]:
# ==============================
# TRATAMENTO DE ERROS: par√¢metros obrigat√≥rios
# ==============================
params = {
    "catalog": catalog,
    "schema_in": schema_in,
    "table_in": table_in,
    "schema_out": schema_out,
    "table_out": table_out,
    "data_ref_carga": data_ref_carga
}
missing = [k for k, v in params.items() if v == ""]
if missing:
    raise ValueError(f"Par√¢metros obrigat√≥rios n√£o informados: {', '.join(missing)}")

In [0]:
# ==============================
# Formatacao de tabela
# ==============================
spark = SparkSession.builder.getOrCreate()
tabela_bronze = f"{catalog}.{schema_in}.{table_in}"
tabela_silver = f"{catalog}.{schema_out}.{table_out}"

print(f"Lendo tabela bronze: {tabela_bronze} - parti√ß√£o data_ref_carga = {data_ref_carga}")

In [0]:
# ==============================
# LEITURA (filtrando por parti√ß√£o)
# ==============================
try:
    df = spark.read.table(tabela_bronze).filter(col("data_ref_carga") == lit(data_ref_carga))
except Exception as e:
    raise RuntimeError(f"Erro ao ler a tabela bronze {tabela_bronze}: {e}")

In [0]:
# ==============================
# TRATAMENTO DE NULOS
# ==============================

In [0]:
# detectar colunas por tipo
string_cols = [f.name for f in df.schema.fields if isinstance(f.dataType, StringType)]
numeric_cols = [f.name for f in df.schema.fields if isinstance(f.dataType, NumericType)]

# aplicar transforma√ß√µes
for c in string_cols:
    df = df.withColumn(c, when(col(c).isNull(), lit(" ")).otherwise(col(c)))

for c in numeric_cols:
    df = df.withColumn(c, when(col(c).isNull(), lit(0)).otherwise(col(c)))

In [0]:
# ============================================================
# CONVERS√ïES PARA TIPOS NUM√âRICOS (com fallback = 0)
# ============================================================
df = (
    df
    .withColumn(
        "numero_dias_sem_chuva",
        when(trim(col("numero_dias_sem_chuva")) == "", lit(0))
        .otherwise(col("numero_dias_sem_chuva").cast(IntegerType()))
    )
    .withColumn(
        "precipitacao",
        when(trim(col("precipitacao")) == "", lit(0.0))
        .otherwise(col("precipitacao").cast(DoubleType()))
    )
    .withColumn(
        "risco_fogo",
        when(trim(col("risco_fogo")) == "", lit(0.0))
        .otherwise(col("risco_fogo").cast(DoubleType()))
    )
)

In [0]:
# ==============================
# REGRAS DE VALIDA√á√ÉO / CORRE√á√ÉO
# ==============================
df = df.withColumn("risco_fogo", when(col("risco_fogo") == -999, lit(0)).otherwise(col("risco_fogo")))
df = df.withColumn("lat", when((col("lat") >= -90.0) & (col("lat") <= 90.0), col("lat")).otherwise(lit(0.0)))
df = df.withColumn("lon", when((col("lon") >= -180.0) & (col("lon") <= 180.0), col("lon")).otherwise(lit(0.0)))

In [0]:
# ==============================
# DEFINI√á√ÉO DOS TIPOS E COMENT√ÅRIOS PARA A TABELA SILVER
# ==============================
columns_definition = [
    ("id", "STRING", "C√≥digo √∫nico"),
    ("lat", "DOUBLE", "Latitude do centro do p√≠xel de fogo ativo apresentada em unidade de graus decimais"),
    ("lon", "DOUBLE", "Longitude do centro do p√≠xel de fogo ativo apresentada em unidade de graus decimais"),
    ("data_hora_gmt", "TIMESTAMP", "Hor√°rio de refer√™ncia da passagem do sat√©lite segundo o fuso hor√°rio de Greenwich (GMT). Formato: YYYY-MM-DDTHH:MM:SS.sss+00:00"),
    ("satelite", "STRING", "Nome do algoritmo utilizado e refer√™ncia ao sat√©lite provedor da imagem."),
    ("municipio", "STRING", "Nome do munic√≠pio. Para o Brasil foi utilizado como refer√™ncia o dado do IBGE 2000."),
    ("estado", "STRING", "Nome do estado (n√≠vel 1 do GADM)."),
    ("pais", "STRING", "Nome do Pa√≠s (n√≠vel 0 do GADM)."),
    ("municipio_id", "INT", "C√≥digo/ID do munic√≠pio (refer√™ncia IBGE quando aplic√°vel)."),
    ("estado_id", "INT", "C√≥digo do estado"),
    ("pais_id", "INT", "C√≥digo do pa√≠s"),
    ("numero_dias_sem_chuva", "INT", "N√∫mero de dias sem chuva at√© a detec√ß√£o do foco."),
    ("precipitacao", "DOUBLE", "Valor da precipita√ß√£o acumulada no dia at√© o momento da detec√ß√£o do foco."),
    ("risco_fogo", "DOUBLE", "Valor do Risco de Fogo previsto para o dia da detec√ß√£o do foco. Valores inv√°lidos -999 foram setados para 0."),
    ("bioma", "STRING", "Nome do Bioma segundo refer√™ncia do IBGE 2004. Para outros pa√≠ses o campo pode ficar nulo (representado como ' ')."),
    ("frp", "DOUBLE", "Fire Radiative Power, MW (megawatts)."),
    ("data_ref_carga", "STRING", "Data do processamento da parti√ß√£o (YYYY-MM-DD)")
]

# descri√ß√£o geral da tabela
descricao_tabela = (
    "Tabela Silver - Focos de Queimadas e Inc√™ndios (tratada)."
)

In [0]:
# ==============================
# CRIAR TABELA SE N√ÉO EXISTIR (COM OS COMENT√ÅRIOS) OU SOBRESCREVER DADOS SE EXISTIR
# ==============================
from pyspark.sql.utils import AnalysisException

def create_table_with_comments(table_fqdn, columns_def, partition_col, table_description):
    """
    Cria a tabela usando os tipos e coment√°rios informados.
    Faz escape de aspas simples nos coment√°rios para evitar SQL parse errors.
    """
    # Fun√ß√£o utilit√°ria para escapar coment√°rios para SQL (substitui ' por '')
    def escape_comment_for_sql(text: str) -> str:
        if text is None:
            return ""
        # substitui ' por '' (padr√£o SQL) e remove quebras de linha n√£o desejadas
        return text.replace("'", "''").replace("\n", " ").replace("\r", " ")

    cols_parts = []
    for name, dtype, comment in columns_def:
        safe_comment = escape_comment_for_sql(comment)
        cols_parts.append(f"{name} {dtype} COMMENT '{safe_comment}'")

    cols_sql = ",\n  ".join(cols_parts)

    sql = f"""
    CREATE TABLE {table_fqdn} (
      {cols_sql}
    )
    USING DELTA
    PARTITIONED BY ({partition_col})
    """

    # executa cria√ß√£o
    spark.sql(sql)

    # setar descri√ß√£o da tabela (escape tamb√©m)
    safe_table_description = escape_comment_for_sql(table_description)
    spark.sql(f"ALTER TABLE {table_fqdn} SET TBLPROPERTIES (description = '{safe_table_description}')")


In [0]:
# verifica exist√™ncia
table_exists = spark.catalog.tableExists(tabela_silver)  # uso interno catalog para suportar catalog.schema.table

if not table_exists:
    print(f"Tabela {tabela_silver} n√£o existe. Criando com coment√°rios...")
    try:
        create_table_with_comments(
            tabela_silver,
            columns_definition,
            "data_ref_carga",
            descricao_tabela
        )
    except Exception as e:
        raise RuntimeError(f"Erro ao criar tabela silver {tabela_silver}: {e}")
else:
    print(f"Tabela {tabela_silver} j√° existe. Irei gravar dados e atualizar coment√°rios das colunas (se necess√°rio).")

In [0]:
from pyspark.sql.functions import col, trim, when, lit
from pyspark.sql.types import NumericType, StringType, DateType, TimestampType

def sanitize_and_cast(df, tabela_destino: str):
    """
    Alinha DataFrame ao schema da tabela destino e remove valores inv√°lidos.
    Garante tipos corretos ANTES da escrita Delta.
    """
    schema_destino = spark.table(tabela_destino).schema
    df_sel = df.select([c for c in df.columns if c in [f.name for f in schema_destino]])

    for field in schema_destino:
        nome = field.name
        tipo = field.dataType

        if nome not in df_sel.columns:
            continue

        # üßπ 1. Remove espa√ßos e strings vazias
        df_sel = df_sel.withColumn(nome, trim(col(nome)))
        df_sel = df_sel.withColumn(nome, when((col(nome) == "") | (col(nome).isNull()), lit(None)).otherwise(col(nome)))

        # üî¢ 2. Trata tipos num√©ricos
        if isinstance(tipo, NumericType):
            df_sel = df_sel.withColumn(
                nome,
                when(
                    col(nome).rlike("^[+-]?\\d+(\\.\\d+)?$"),
                    col(nome).cast(tipo.simpleString())
                ).otherwise(lit(None).cast(tipo.simpleString()))
            )

        # üïì 3. Trata timestamps e datas
        elif isinstance(tipo, (TimestampType, DateType)):
            df_sel = df_sel.withColumn(nome, col(nome).cast(tipo.simpleString()))

        # üî§ 4. Strings apenas limpam espa√ßos
        elif isinstance(tipo, StringType):
            df_sel = df_sel.withColumn(nome, when(col(nome) == "", lit(None)).otherwise(col(nome)))

        else:
            df_sel = df_sel.withColumn(nome, col(nome).cast(tipo.simpleString()))

    return df_sel


In [0]:
# Limpa e ajusta schema antes de gravar na tabela destino
df_sanitized = sanitize_and_cast(df, tabela_silver)
display(df_sanitized)

In [0]:
# ==============================
# 1Ô∏è‚É£ Fun√ß√£o para reaplicar coment√°rios
# ==============================
def apply_table_comments(table_fqdn: str, columns_def: list, table_description: str):
    """
    Aplica coment√°rios em colunas e descri√ß√£o da tabela no Delta.
    """
    def escape_comment(text):
        return (text or "").replace("'", "''").replace("\n", " ").replace("\r", " ")

    # Alterar coment√°rio das colunas
    for name, _, comment in columns_def:
        safe_comment = escape_comment(comment)
        spark.sql(f"ALTER TABLE {table_fqdn} CHANGE COLUMN {name} COMMENT '{safe_comment}'")

    # Alterar descri√ß√£o da tabela
    safe_table_description = escape_comment(table_description)
    spark.sql(f"ALTER TABLE {table_fqdn} SET TBLPROPERTIES (description = '{safe_table_description}')")

In [0]:
# ==============================
# GRAVANDO DADOS NA TABELA SILVER (por parti√ß√£o)
# - Usamos overwrite for√ßando apenas a parti√ß√£o espec√≠fica para evitar perder hist√≥rico
# ==============================
try:
    # op√ß√£o: sobrescrever apenas a parti√ß√£o espec√≠fica (modo compat√≠vel com Delta)
    (
        df_sanitized.write
        .format("delta")
        .mode("overwrite")
        .option("overwriteSchema", "false")
        .partitionBy("data_ref_carga")
        .saveAsTable(tabela_silver)
    )
    print("Grava√ß√£o realizada com sucesso na tabela silver.")
except Exception as e:
    raise RuntimeError(f"Erro ao gravar na tabela silver {tabela_silver}: {e}")

In [0]:
# ==============================
# 5Ô∏è‚É£ Reaplicar coment√°rios e descri√ß√£o
# ==============================
apply_table_comments(tabela_silver, columns_definition, descricao_tabela)
print("Coment√°rios e descri√ß√£o reaplicados ‚úÖ")

In [0]:
# ==============================
# FIM - resumo / contagem de registros
# ==============================
record_count = df.count()
print(f"Registros processados para data_ref_carga={data_ref_carga}: {record_count}")
print("Job finalizado com sucesso ‚úÖ")