# üîÑ Silver - tb_pesquisa (SRC)

**Camada**: Silver  
**Cat√°logo**: v_credit  
**Tabelas de Sa√≠da**:
- `tb_pesquisa` ‚Üí Registros v√°lidos (Inclui pesquisas sem resposta/NULL)
- `tb_pesquisa_invalidos` ‚Üí Registros rejeitados (auditoria)

**Origem**: `v_credit.bronze.pesquisa_satisfacao`

**Objetivo**: Limpar, padronizar e validar dados de pesquisas de satisfa√ß√£o (NPS/CSAT). 
**Nota**: Valores de nota vazios s√£o mantidos como NULL. Data de ingest√£o √© preservada da origem.

## üìã Imports e Configura√ß√£o

In [0]:
from pyspark.sql import functions as F
from pyspark.sql.types import *

processing_timestamp = spark.sql("SELECT current_timestamp() as ts").collect()[0]['ts']

In [0]:
# Configura√ß√µes de Regras de Neg√≥cio
# Nota deve ser inteira entre 1 e 5, ou NULA (caso n√£o respondida)
VALID_NOTES = [1, 2, 3, 4, 5]

##1Ô∏è‚É£ Leitura da Bronze

In [0]:
TABLE_SOURCE = "v_credit.bronze.pesquisa_satisfacao"
TABLE_TARGET_VALIDOS = "v_credit.silver.tb_pesquisa"
TABLE_TARGET_INVALIDOS = "v_credit.silver.tb_pesquisa_invalidos"

In [0]:
df_bronze = spark.table(TABLE_SOURCE)

total_bronze = df_bronze.count()
print(f"\n‚úÖ Total de registros lidos da Bronze: {total_bronze}")

## 2Ô∏è‚É£ Limpeza e Padroniza√ß√£o

In [0]:
# Aplica casting e renomea√ß√£o conforme dicion√°rio de dados
df_limpo = (
    df_bronze
    .select(
        F.col("id_pesquisa").cast("bigint").alias("cd_pesquisa"),
        F.col("id_chamado").cast("bigint").alias("cd_chamado"),
        # try_cast converte erro (string vazia) em NULL pacificamente
        F.expr("try_cast(nota_atendimento as smallint)").alias("nu_nota"),
        # CORRE√á√ÉO: Mant√©m estritamente o timestamp da origem (Bronze)
        F.col("ingestion_timestamp").alias("dt_ingestion"),
        F.coalesce(F.col("origem"), F.lit("sistema_pesquisa")).alias("dc_origem")
    )
    # Remove duplicatas pela Chave Prim√°ria
    .dropDuplicates(["cd_pesquisa"])
    .withColumn("data_processamento", F.current_timestamp())
)

total_limpo = df_limpo.count()
print(f"‚úÖ Dados limpos e padronizados: {total_limpo} registros")

## 3Ô∏è‚É£ Regras de Valida√ß√£o e Qualidade

In [0]:
df_validacao = (
    df_limpo
    # Flag 1: PK (cd_pesquisa) n√£o pode ser NULL
    .withColumn(
        "flag_pk_valida", 
        F.col("cd_pesquisa").isNotNull()
    )
    # Flag 2: FK (cd_chamado) n√£o pode ser NULL (garantir v√≠nculo)
    .withColumn(
        "flag_fk_valida", 
        F.col("cd_chamado").isNotNull()
    )
    # Flag 3: Valida√ß√£o da Nota
    # Regra: Deve ser NULL (permitido vazio) OU entre 1 e 5
    .withColumn(
        "flag_nota_valida", 
        (F.col("nu_nota").isNull()) | 
        ((F.col("nu_nota") >= 1) & (F.col("nu_nota") <= 5))
    )
    # Flag geral de qualidade
    .withColumn(
        "flag_qualidade",
        F.when(
            F.col("flag_pk_valida") &
            F.col("flag_fk_valida") &
            F.col("flag_nota_valida"),
            F.lit("OK")
        ).otherwise(F.lit("ERRO"))
    )
)
print("‚úÖ Regras de valida√ß√£o aplicadas (Notas nulas aceitas como v√°lidas)")

## 4Ô∏è‚É£ Separa√ß√£o de Dados V√°lidos e Inv√°lidos

In [0]:
df_invalidos = (
    df_validacao
    .filter(F.col("flag_qualidade") == "ERRO")
    .withColumn(
        "motivo_rejeicao",
        F.concat_ws(
            "; ",
            F.when(~F.col("flag_pk_valida"), F.lit("cd_pesquisa NULL")),
            F.when(~F.col("flag_fk_valida"), F.lit("cd_chamado NULL")),
            F.when(~F.col("flag_nota_valida"), F.lit("nu_nota fora do range 1-5"))
        )
    )
    .withColumn("dt_validacao", F.lit(processing_timestamp))
    .drop(
        "flag_pk_valida",
        "flag_fk_valida",
        "flag_nota_valida",
        "data_processamento"
    )
)

## 5Ô∏è‚É£ Grava√ß√£o: MERGE de Registros V√°lidos

In [0]:
# ---------------------------
# MERGE registros v√°lidos na tabela principal
# ---------------------------
if total_validos > 0:
    # Criar temp view
    df_validos.createOrReplaceTempView("temp_pesquisa_validos")
    
    print(f"üîÑ Executando MERGE de {total_validos} registros v√°lidos em {TABLE_TARGET_VALIDOS}...")
    
    # MERGE SQL - Chave: cd_pesquisa
    spark.sql(f"""
        MERGE INTO {TABLE_TARGET_VALIDOS} AS target
        USING temp_pesquisa_validos AS source
        ON target.cd_pesquisa = source.cd_pesquisa
        
        WHEN MATCHED THEN
            UPDATE SET
                target.cd_chamado = source.cd_chamado,
                target.nu_nota = source.nu_nota,
                target.dt_ingestion = source.dt_ingestion,
                target.dc_origem = source.dc_origem
        
        WHEN NOT MATCHED THEN
            INSERT (
                cd_pesquisa,
                cd_chamado,
                nu_nota,
                dt_ingestion,
                dc_origem
            )
            VALUES (
                source.cd_pesquisa,
                source.cd_chamado,
                source.nu_nota,
                source.dt_ingestion,
                source.dc_origem
            )
    """)
    
    print(f"‚úÖ MERGE conclu√≠do com sucesso!")
    
    # Mostrar estat√≠sticas do MERGE
    merge_stats = spark.sql(f"""
        SELECT 
            version,
            timestamp,
            operationMetrics.numTargetRowsInserted as inseridos,
            operationMetrics.numTargetRowsUpdated as atualizados,
            operationMetrics.numOutputRows as total_afetados
        FROM (DESCRIBE HISTORY {TABLE_TARGET_VALIDOS})
        WHERE operation = 'MERGE'
        ORDER BY version DESC
        LIMIT 1
    """)
    
    if merge_stats.count() > 0:
        stats = merge_stats.collect()[0]
        print(f"\nüìä Estat√≠sticas do MERGE:")
        print(f"   - Registros inseridos: {stats['inseridos']}")
        print(f"   - Registros atualizados: {stats['atualizados']}")
        print(f"   - Total afetados: {stats['total_afetados']}")
else:
    print("‚ö†Ô∏è  Nenhum registro v√°lido para inserir na Silver")

## 6Ô∏è‚É£ Grava√ß√£o: APPEND de Registros Inv√°lidos

In [0]:
if total_invalidos > 0:
    print(f"üìù Enviando {total_invalidos} registro(s) inv√°lido(s) para auditoria...")
    
    # APPEND (acumula hist√≥rico de rejei√ß√µes)
    (df_invalidos.write
        .format("delta")
        .mode("append")
        .saveAsTable(TABLE_TARGET_INVALIDOS))
    
    print(f"‚úÖ Registros inv√°lidos gravados em {TABLE_TARGET_INVALIDOS}")
    
else:
    print("üéâ Nenhum registro inv√°lido - 100% de qualidade!")