
# Silver — URA

Este notebook **atualiza a tabela Silver de URA** consumindo **apenas as mudanças** da Bronze por **Change Data Feed (CDF)** e aplicando **MERGE**.
O processo usa uma **tabela de controle** que guarda a última versão (`_commit_version`) aplicada.

**Fluxo**
1. Lê o **marcador** de versão na tabela de controle.
2. Lê o **CDF** da Bronze desde esse marcador.
3. Faz **parse mínimo** do `body` (JSON) com `StructType`, renomeia colunas e deriva campos de data.
4. **Garante** que a Silver exista com o **mesmo schema** do staged (criação segura).
5. Aplica **MERGE** por chave de negócio.
6. Atualiza o **marcador** com a maior versão aplicada.



## Parâmetros


In [None]:

# ===================== PARÂMETROS =====================
CATALOG        = "prd"
BRONZE_SCHEMA  = "b_dm_callcenter"
SILVER_SCHEMA  = "s_dm_callcenter"
BRONZE_TABLE   = "ura_once"
SILVER_TABLE   = "tabe_ura_anlt"

# FQNs
BRONZE_FQN = f"{CATALOG}.{BRONZE_SCHEMA}.{BRONZE_TABLE}"
SILVER_FQN = f"{CATALOG}.{SILVER_SCHEMA}.{SILVER_TABLE}"

# Tabela de controle
CTRL_TBL_FQN = f"{CATALOG}.{SILVER_SCHEMA}.__last_processed_version"

print("Bronze:", BRONZE_FQN)
print("Silver:", SILVER_FQN)
print("Ctrl  :", CTRL_TBL_FQN)


## Imports

In [None]:
from pyspark.sql import functions as F, types as T, Window as W


## Helpers — Tabela de controle
Lê/atualiza o marcador de versão.


In [2]:

def get_last_version(src_fqn: str) -> int:
    """Retorna a última versão (_commit_version) processada para a fonte."""
    row = (spark.table(CTRL_TBL_FQN)
             .filter(F.col("source_table")==src_fqn)
             .select("last_version")
             .limit(1)
             .collect())
    return int(row[0][0]) if row else 0

def set_last_version(src_fqn: str, new_version: int):
    """Atualiza o marcador com a última versão aplicada."""
    spark.sql(f"""
        MERGE INTO {CTRL_TBL_FQN} t
        USING (SELECT '{src_fqn}' AS source_table, {int(new_version)} AS last_version, current_timestamp() AS last_run_at) s
        ON t.source_table = s.source_table
        WHEN MATCHED THEN UPDATE SET *
        WHEN NOT MATCHED THEN INSERT *
    """)



## Leitura do CDF da Bronze
Lê apenas mudanças a partir do `startingVersion`.


In [None]:

def read_bronze_cdf(src_fqn: str, starting_version: int):
    return (spark.read
            .format("delta")
            .option("readChangeFeed", "true")
            .option("startingVersion", starting_version)
            .table(src_fqn))



## Transformação


In [None]:

def transform(df_raw):
    # Schema do JSON
    schema = T.StructType([
        T.StructField("id_chamada", T.StringType(),  True),
        T.StructField("id_cliente", T.StringType(),  True),
        T.StructField("id_fila", T.StringType(),     True),
        T.StructField("data_hora_inicio", T.TimestampType(), True),
        T.StructField("data_hora_fim",    T.TimestampType(), True),
        T.StructField("autenticado", T.BooleanType(), True),
        T.StructField("opcoes_navegadas", T.IntegerType(), True),
        T.StructField("codigo_opcao", T.StringType(),  True),
        T.StructField("derivado_atendimento", T.BooleanType(), True),
    ])

    rename = {
        "id_chamada":          "ID_CHAM",
        "id_cliente":          "ID_CLIE",
        "id_fila":             "ID_FILA",
        "data_hora_inicio":    "DH_INIC",
        "data_hora_fim":       "DH_FIM",
        "opcoes_navegadas":    "QT_OPCA_NAVG",
        "codigo_opcao":        "CD_ULTI_OPCA",
        "autenticado":         "IN_AUTN",
        "derivado_atendimento":"IN_DERV_ATEN",
    }

    df = (df_raw
          .withColumn("body", F.from_json(F.col("body"), schema))
          .filter(F.col("body").isNotNull())
          .withColumn("_cv", F.col("_commit_version").cast("long"))
          .withColumn("_ct", F.col("_commit_timestamp").cast("timestamp"))
          .select("body.*", "_cv", "_ct")
    )

    # Renomeia as colunas
    df = df.select([F.col(c).alias(rename.get(c, c)) for c in df.columns])

    # Colunas de DATA do evento e carga
    df = (df
          .withColumn("CD_PERI", F.date_format(F.col("DH_INIC"), "yyyyMM").cast("int"))
          .withColumn("DT_INIC", F.to_date("DH_INIC"))
          .withColumn("DT_FIM",  F.to_date("DH_FIM"))
          .withColumn("DH_REFE_CRGA", F.current_timestamp())
    )
    return df


## Garantir criação da Silver com o **mesmo schema** do staged
Cria a tabela **vazia** com o schema do `staged_df` se ela ainda não existir.

In [None]:

def ensure_table_exists(silver_fqn: str, staged_df):
    parts = silver_fqn.split(".")
    if len(parts) != 3:
        raise ValueError(f"FQN inválido: {silver_fqn}. Use catalog.schema.table")
    
    # Checa existência via catálogo
    if not spark.catalog.tableExists(silver_fqn):
        empty = spark.createDataFrame([], staged_df.schema)
        (empty.write
              .format("delta")
              .mode("overwrite")
              .saveAsTable(silver_fqn))
        spark.sql(f"ALTER TABLE {silver_fqn} CLUSTER BY (CD_PERI,DT_INIC,ID_CHAM)")

## MERGE
- **MATCHED** → `UPDATE SET *`
- **NOT MATCHED** → `INSERT *`

In [None]:

def merge(silver_fqn: str, staged_df, keys):
    ensure_table_exists(silver_fqn, staged_df)
    staged_df.createOrReplaceTempView("_stg_silver_ura")
    on_clause = " AND ".join([f"S.{k} = C.{k}" for k in keys])
    spark.sql(f"""
        MERGE INTO {silver_fqn} AS S
        USING _stg_silver_ura AS C
        ON {on_clause}
        WHEN MATCHED THEN UPDATE SET *
        WHEN NOT MATCHED THEN INSERT *
    """)



## ▶️ Execução
1) Lê marcador → 2) Lê CDF → 3) Filtra inserts → 4) Transforma → 5) MERGE → 6) Atualiza marcador.


In [None]:

# 1) marcador
last_v = get_last_version(BRONZE_FQN)
print(f"Última versão processada (CDF) para {BRONZE_FQN}: {last_v}")

# 2) CDF
df_bronze = read_bronze_cdf(BRONZE_FQN, starting_version=last_v)

# 3) Capturando as mudanças
df_cdf = df_bronze.filter(F.col("_change_type").isin("insert"))

# 4) TRANSFORMAÇÃO
df_staged = transform(df_cdf)

# 5) MERGE
merge(SILVER_FQN, df_staged, keys=["ID_CHAM"])

# 6) atualizar marcador com a MAIOR versão
max_version = df_cdf.agg(F.max("_commit_version")).first()[0]
if max_version is not None:
    set_last_version(BRONZE_FQN, int(max_version))
    print(f"Marcador atualizado → last_version = {int(max_version)}")
else:
    print("Nenhuma mudança nova no CDF (nada a atualizar).")