# üîÑ Silver - tb_motivo (SRC)

**Camada**: Silver  
**Cat√°logo**: v_credit  
**Tabelas de Sa√≠da**:
- `tb_motivo` ‚Üí Registros v√°lidos
- `tb_motivo_invalidos` ‚Üí Registros rejeitados (auditoria)

**Origem**: `v_credit.bronze.base_motivos`

**Objetivo**: Limpar, padronizar e validar dados de motivos com governan√ßa de qualidade

## üìã Imports e Configura√ß√£o

In [0]:
from pyspark.sql import functions as F
from pyspark.sql.types import *

processing_timestamp = spark.sql("SELECT current_timestamp() as ts").collect()[0]['ts']

In [0]:
CATEGORIAS = ["CADASTRAL", "CARTAO", "FINANCEIRO", "ATENDIMENTO", "BENEFICIOS", "NAO CLASSIFICADO"	]
CRITICIDADE = {
    "BAIXA": "BAIXA",
    "M√âDIA": "MEDIA",
    "MEDIA": "MEDIA",
    "ALTA": "ALTA"
}

## 1Ô∏è‚É£ Leitura da Bronze

In [0]:
TABLE_SOURCE = "v_credit.bronze.base_motivos"
TABLE_TARGET_VALIDOS = "v_credit.silver.tb_motivo"
TABLE_TARGET_INVALIDOS = "v_credit.silver.tb_motivo_invalidos"

In [0]:
df_bronze = spark.table(TABLE_SOURCE)

total_bronze = df_bronze.count()
print(f"\n‚úÖ Total de registros lidos da Bronze: {total_bronze}")

## 2Ô∏è‚É£ Limpeza e Padroniza√ß√£o

In [0]:
df_categorizado = df_bronze.withColumn(
    "ds_categoria_temp",
    F.when(
        F.lower(F.col("nome_motivo")).rlike(
            "cadastr|dados|telefone|email|vencimento|transfer√™ncia|ag√™ncia|cancelamento"
        ), 
        CATEGORIAS[0]
    ).when(
        F.lower(F.col("nome_motivo")).rlike(
            "cart√£o|bloqueio|desbloqueio|adicional|compra|contra√ß"
        ),
        CATEGORIAS[1]
    ).when(
        F.lower(F.col("nome_motivo")).rlike(
            "fatura|limite|contrato|renegocia√ß√£o|d√≠vida|pagamento"
        ),
        CATEGORIAS[2]
    ).when(
        F.lower(F.col("nome_motivo")).rlike(
            "aplicativo|app|site|sistema|erro|problema|t√©cnico"
        ),
        CATEGORIAS[3]
    ).when(
        F.lower(F.col("nome_motivo")).rlike(
            "pontos|programa|benef√≠cio"
        ),
        CATEGORIAS[4]
    ).otherwise(CATEGORIAS[5])
)

print("‚úÖ Categoriza√ß√£o autom√°tica aplicada")

In [0]:
crit_map = F.create_map(
    *[item for kv in CRITICIDADE.items() for item in (F.lit(kv[0]), F.lit(kv[1]))]
)

df_limpo = (
    df_categorizado
    .select(
        F.col("id_motivo").cast("bigint").alias("cd_motivo"),
        F.trim(F.col("nome_motivo")).alias("ds_motivo"),
        crit_map.getItem(F.upper(F.trim(F.col("criticidade")))).alias("ds_criticidade"),
        F.col("ds_categoria_temp").alias("ds_categoria"),
        # CORRE√á√ÉO: Mant√©m estritamente o timestamp da origem (Bronze)
        F.col("ingestion_timestamp").alias("dt_ingestion"),
        F.coalesce(F.col("origem"), F.lit("base_motivos"))
            .alias("dc_origem"),
    )
    .dropDuplicates(["cd_motivo"])
    .withColumn("data_processamento", F.current_timestamp())
)

total_limpo = df_limpo.count()
print(f"‚úÖ Dados limpos e padronizados: {total_limpo} registros")

## 3Ô∏è‚É£ Regras de Valida√ß√£o e Qualidade

In [0]:
df_validacao = (
    df_limpo
    # Flag 1: cd_motivo n√£o pode ser NULL
    .withColumn(
        "flag_id_valido", 
        F.col("cd_motivo").isNotNull()
    )
    # Flag 2: ds_motivo n√£o pode estar vazio ou NULL
    .withColumn(
        "flag_nome_valido", 
        (F.col("ds_motivo").isNotNull()) & (F.length(F.trim(F.col("ds_motivo"))) > 0)
    )
    # Flag 3: ds_categoria n√£o pode estar vazio ou NULL
    .withColumn(
        "flag_categoria_valida", 
        (F.col("ds_categoria").isNotNull()) & (F.length(F.trim(F.col("ds_motivo"))) > 0)
    )
    # Flag 4: ds_criticidade n√£o pode estar vazio ou NULL
    .withColumn(
        "flag_criticidade_valida", 
        (F.col("ds_criticidade").isNotNull()) & (F.length(F.trim(F.col("ds_criticidade"))) > 0)
    )
    # Flag geral de qualidade
    .withColumn(
        "flag_qualidade",
        F.when(
            F.col("flag_id_valido") &
            F.col("flag_nome_valido") &
            F.col("flag_categoria_valida") &
            F.col("flag_criticidade_valida"),
            F.lit("OK")
        ).otherwise(F.lit("ERRO"))
    )
)
print("‚úÖ Regras de valida√ß√£o aplicadas")

## 4Ô∏è‚É£ Separa√ß√£o de Dados V√°lidos e Inv√°lidos

In [0]:
# Define valid and invalid DataFrames
df_validos = df_validacao.filter(F.col("flag_qualidade") == "OK")

df_invalidos = (
    df_validacao
    .filter(F.col("flag_qualidade") == "ERRO")
    .withColumn(
        "motivo_rejeicao",
        F.concat_ws(
            "; ",
            F.when(~F.col("flag_id_valido"), F.lit("cd_motivo NULL")),
            F.when(~F.col("flag_nome_valido"), F.lit("ds_motivo vazio")),
            F.when(~F.col("flag_categoria_valida"), F.lit("ds_categoria vazio ou NULL")),
            F.when(~F.col("flag_criticidade_valida"), F.lit("ds_criticidade vazio ou NULL"))
        )
    )
    .withColumn("dt_validacao", F.lit(processing_timestamp))
    .drop(
        "flag_id_valido",
        "flag_nome_valido",
        "flag_categoria_valida",
        "flag_criticidade_valida",
        "data_processamento"
    )
)

total_validos = df_validos.count()
total_invalidos = df_invalidos.count()

print(f"‚ÑπÔ∏è Resumo: {total_validos} v√°lidos | {total_invalidos} inv√°lidos")

## 5Ô∏è‚É£ Grava√ß√£o: MERGE de Registros V√°lidos

In [0]:
# ---------------------------
# MERGE registros v√°lidos na tabela principal
# ---------------------------
if total_validos > 0:
    # Criar temp view
    df_validos.createOrReplaceTempView("temp_motivos_validos")
    
    print(f"üîÑ Executando MERGE de {total_validos} registros v√°lidos em {TABLE_TARGET_VALIDOS}...")
    
    # MERGE SQL
    spark.sql(f"""
        MERGE INTO {TABLE_TARGET_VALIDOS} AS target
        USING temp_motivos_validos AS source
        ON target.cd_motivo = source.cd_motivo
        
        WHEN MATCHED THEN
            UPDATE SET
                target.ds_motivo = source.ds_motivo,
                target.ds_categoria = source.ds_categoria,
                target.ds_criticidade = source.ds_criticidade,
                target.dt_ingestion = source.dt_ingestion,
                target.dc_origem = source.dc_origem
        
        WHEN NOT MATCHED THEN
            INSERT (
                cd_motivo,
                ds_motivo,
                ds_categoria,
                ds_criticidade,
                dt_ingestion,
                dc_origem
            )
            VALUES (
                source.cd_motivo,
                source.ds_motivo,
                source.ds_categoria,
                source.ds_criticidade,
                source.dt_ingestion,
                source.dc_origem
            )
    """)
    
    print(f"‚úÖ MERGE conclu√≠do com sucesso!")
else:
    print("‚ö†Ô∏è  Nenhum registro v√°lido para inserir na Silver")

## 6Ô∏è‚É£ Grava√ß√£o: APPEND de Registros Inv√°lidos

In [0]:
# ---------------------------
# APPEND registros inv√°lidos na tabela de auditoria
# ---------------------------
if total_invalidos > 0:
    print(f"üìù Enviando {total_invalidos} registro(s) inv√°lido(s) para auditoria...")
    
    # APPEND (acumula hist√≥rico de rejei√ß√µes)
    (df_invalidos.write
        .format("delta")
        .mode("append")
        .saveAsTable(TABLE_TARGET_INVALIDOS))
    
    print(f"‚úÖ Registros inv√°lidos gravados em {TABLE_TARGET_INVALIDOS}")
else:
    print("üéâ Nenhum registro inv√°lido - 100% de qualidade!")