## Setup Inicial

Configuração do ambiente e definição de variáveis do Unity Catalog.
Importação de bibliotecas necessárias para transformações de dados.

In [0]:
from datetime import datetime
from pyspark.sql import SparkSession
from pyspark.sql.functions import (
    col, trim, upper, lower, initcap, current_timestamp, 
    lit, coalesce, when, regexp_replace, length, row_number, to_timestamp
)
from pyspark.sql.types import IntegerType, StringType, TimestampType, StructType, StructField
from pyspark.sql.window import Window
from pyspark.sql.utils import AnalysisException
import pyspark.sql.functions as F

In [0]:
catalog_name = "atendimento_catalog"
bronze_db_name = "bronze"
silver_db_name = "silver"

In [0]:
spark.sql(f"USE CATALOG {catalog_name}")
spark.sql(f"USE SCHEMA {silver_db_name}")

## Funções Utilitárias

Funções auxiliares para validação, normalização e transformação de dados.
Incluem tratamento de timezone para horário de Brasília e remoção de acentos.

In [0]:
def safe_table_exists(spark, full_name: str) -> bool:
    try:
        spark.table(full_name)
        return True
    except AnalysisException:
        return False
    except Exception:
        return False

def safe_col(df, name):
    return col(name) if name in df.columns else lit(None).cast(StringType())

def safe_cast_int(col_expr):
    return when(
        col_expr.isNotNull() & (trim(col_expr).cast(StringType()) != ""),
        F.regexp_replace(trim(col_expr).cast(StringType()), r'[^\d]', '').cast(IntegerType())
    ).otherwise(None)

def remove_accents_udf(text_col):
    return F.translate(
        text_col,
        "áàãâäéèêëíìîïóòõôöúùûüçñÁÀÃÂÄÉÈÊËÍÌÎÏÓÒÕÔÖÚÙÛÜÇÑ",
        "aaaaaeeeeiiiiooooouuuucnAAAAAEEEEIIIIOOOOOUUUUCN"
    )

def normalize_text(col_expr):
    return trim(regexp_replace(regexp_replace(col_expr, r'\s+', ' '), r'[^\x20-\x7E\u00C0-\u00FF]', ''))

def clean_brazil_timestamp(col_expr):
    cleaned = regexp_replace(col_expr, r'[ ]', ' ')
    cleaned = regexp_replace(cleaned, r'\bàs\b|\bas\b|\bàs\b', ' ')
    cleaned = regexp_replace(cleaned, r'\s+', ' ')
    cleaned = trim(cleaned)
    return cleaned

def parse_to_brasilia_timezone(col_expr):
    cleaned = clean_brazil_timestamp(col_expr)
    parsed_naive = to_timestamp(cleaned, 'dd/MM/yyyy HH:mm:ss')
    parsed_utc = F.to_utc_timestamp(parsed_naive, 'America/Sao_Paulo')
    parsed_brasilia = F.from_utc_timestamp(parsed_utc, 'America/Sao_Paulo')
    return parsed_brasilia

## Processamento: ft_atendentes

Transformação da tabela de atendentes da camada Bronze para Silver.
Aplicação de normalização de nomes e validação de níveis de atendimento.

### Leitura da Tabela Bronze

Carregamento da tabela `ft_atendentes` da camada Bronze.
Validação de existência e contagem inicial de registros.

In [0]:
src_table_atendentes = f"{catalog_name}.{bronze_db_name}.ft_atendentes"
tgt_table_atendentes = f"{catalog_name}.{silver_db_name}.ft_atendentes"

if not safe_table_exists(spark, src_table_atendentes):
    raise RuntimeError(f"Tabela fonte não encontrada: {src_table_atendentes}")

df_atendentes_src = spark.table(src_table_atendentes)
total_before_atendentes = df_atendentes_src.count()

print(f"Leitura: {src_table_atendentes}")
print(f"Registros Bronze: {total_before_atendentes:,}")

### Transformação e Normalização

Aplicação de transformações para padronização de tipos e formatos.
Coerção de IDs para IntegerType e normalização de nomes com remoção de acentos.

In [0]:
df_atendentes = df_atendentes_src \
    .withColumn("id_atendente_raw", safe_col(df_atendentes_src, "id_atendente")) \
    .withColumn("nome_atendente_raw", safe_col(df_atendentes_src, "nome_atendente")) \
    .withColumn("nivel_atendimento_raw", safe_col(df_atendentes_src, "nivel_atendimento"))

df_atendentes = df_atendentes.withColumn(
    "id_atendente",
    safe_cast_int(col("id_atendente_raw"))
)

df_atendentes = df_atendentes.withColumn(
    "nome_atendente_normalized",
    normalize_text(col("nome_atendente_raw"))
)

df_atendentes = df_atendentes.withColumn(
    "nome_atendente",
    initcap(remove_accents_udf(col("nome_atendente_normalized")))
)

df_atendentes = df_atendentes.withColumn(
    "nivel_atendimento",
    when(
        safe_cast_int(col("nivel_atendimento_raw")).isin([1, 2]),
        safe_cast_int(col("nivel_atendimento_raw"))
    ).otherwise(None)
)

print(f"Transformações aplicadas")


### Regras de Transformação

**Normalização de Nome:**
- Remoção de espaços extras e caracteres especiais
- Remoção de acentos (João → Joao, André → Andre)
- Aplicação de initcap (primeira letra maiúscula)

**Coerção de ID:**
- Conversão segura para IntegerType
- Remoção de caracteres não numéricos
- Valores inválidos resultam em NULL

**Validação de Nível:**
- Apenas valores 1 ou 2 são aceitos
- Valores fora do intervalo são convertidos para NULL

### Validações de Qualidade

Aplicação de regras de validação para garantir qualidade dos dados.
Remoção de registros com campos obrigatórios inválidos ou nulos.

In [0]:
null_id_atendente = df_atendentes.filter(col("id_atendente").isNull()).count()
null_nome_atendente = df_atendentes.filter(col("nome_atendente").isNull() | (trim(col("nome_atendente")) == "")).count()
null_nivel_atendimento = df_atendentes.filter(col("nivel_atendimento").isNull()).count()

print(f"Validação de campos obrigatórios:")
print(f"  - id_atendente NULL: {null_id_atendente:,}")
print(f"  - nome_atendente NULL/vazio: {null_nome_atendente:,}")
print(f"  - nivel_atendimento NULL: {null_nivel_atendimento:,}")

df_atendentes_valid = df_atendentes.filter(
    (col("id_atendente").isNotNull()) & (col("id_atendente") > 0) &
    (col("nome_atendente").isNotNull()) & (trim(col("nome_atendente")) != "") &
    (col("nivel_atendimento").isNotNull())
)

removed_by_validation_atendentes = total_before_atendentes - df_atendentes_valid.count()
print(f"\nRegistros removidos por validação: {removed_by_validation_atendentes:,}")
print(f"Registros válidos: {df_atendentes_valid.count():,}")

### Deduplicação

Remoção de registros duplicados mantendo apenas a versão mais recente.
Ordenação por ingestion_timestamp para preservar último registro ingerido.

In [0]:
dup_count_atendentes = df_atendentes_valid.groupBy("id_atendente").count().filter(col("count") > 1).count()
print(f"Duplicatas detectadas: {dup_count_atendentes:,}")

w_atendentes = Window.partitionBy("id_atendente").orderBy(
    col("ingestion_timestamp").desc_nulls_last() if "ingestion_timestamp" in df_atendentes_valid.columns
    else lit(datetime.now())
)

df_atendentes_dedup = df_atendentes_valid \
    .withColumn("rn", row_number().over(w_atendentes)) \
    .filter(col("rn") == 1) \
    .drop("rn")

removed_by_dedup_atendentes = df_atendentes_valid.count() - df_atendentes_dedup.count()
print(f"Registros removidos por deduplicação: {removed_by_dedup_atendentes:,}")

### Preparação Final

Adição de metadados de processamento e seleção de colunas finais.
Aplicação de schema com constraints.

In [0]:
df_atendentes_final = df_atendentes_dedup.withColumn("processed_timestamp", current_timestamp())

final_cols_atendentes = [
    "id_atendente",
    "nome_atendente",
    "nivel_atendimento",
    "processed_timestamp",
    "ingestion_timestamp"
]

df_atendentes_final = df_atendentes_final.select(*[c for c in final_cols_atendentes if c in df_atendentes_final.columns])

df_atendentes_typed = df_atendentes_final \
    .withColumn("id_atendente", col("id_atendente").cast(IntegerType())) \
    .withColumn("nome_atendente", col("nome_atendente").cast(StringType())) \
    .withColumn("nivel_atendimento", col("nivel_atendimento").cast(IntegerType())) \
    .withColumn("processed_timestamp", col("processed_timestamp").cast(TimestampType())) \
    .withColumn("ingestion_timestamp", 
                col("ingestion_timestamp").cast(TimestampType()) if "ingestion_timestamp" in df_atendentes_final.columns 
                else lit(None).cast(TimestampType()))

print(f"Total de registros finais: {df_atendentes_typed.count():,}")

### Gravação na Camada Silver

Persistência da tabela transformada em formato Delta na camada Silver.
Modo overwrite com overwriteSchema para garantir schema atualizado.

In [0]:
df_atendentes_typed.write.format("delta") \
    .mode("overwrite") \
    .option("overwriteSchema", "true") \
    .saveAsTable(tgt_table_atendentes)

silver_table_atendentes = spark.table(tgt_table_atendentes)
final_count_atendentes = silver_table_atendentes.count()
duplicates_atendentes = silver_table_atendentes.groupBy("id_atendente").count().filter(col("count") > 1).count()

print(f"Salvo em: {tgt_table_atendentes}")
print(f"Contagem final: {final_count_atendentes:,}")
print(f"Duplicatas na Silver: {duplicates_atendentes}")

display(silver_table_atendentes.limit(10))

### Relatório de Transformação

Resumo estatístico da transformação Bronze para Silver.
Métricas de qualidade e taxa de aproveitamento dos dados.

In [0]:
print("="*80)
print("RELATÓRIO DE TRANSFORMAÇÃO - FT_ATENDENTES")
print("="*80)
print(f"Registros Bronze (origem): {total_before_atendentes:,}")
print(f"Registros removidos (validação): {removed_by_validation_atendentes:,}")
print(f"Registros removidos (deduplicação): {removed_by_dedup_atendentes:,}")
print(f"Registros Silver (destino): {final_count_atendentes:,}")
print(f"Taxa de aproveitamento: {(final_count_atendentes/total_before_atendentes*100):.2f}%")
print("="*80)
print(f"Timestamp de processamento: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print("="*80)

## Processamento: ft_chamados_hora

Transformação da tabela de chamados da camada Bronze para Silver.
Aplicação de tratamento de timezone e validação de consistência temporal.

### Leitura da Tabela Bronze

Carregamento da tabela `ft_chamados_hora` da camada Bronze.
Validação de existência e contagem inicial de registros.

In [0]:
src_table_chamados = f"{catalog_name}.{bronze_db_name}.ft_chamados_hora"
tgt_table_chamados = f"{catalog_name}.{silver_db_name}.ft_chamados_hora"

if not safe_table_exists(spark, src_table_chamados):
    raise RuntimeError(f"Tabela fonte não encontrada: {src_table_chamados}")

df_chamados_src = spark.table(src_table_chamados)
total_before_chamados = df_chamados_src.count()

print(f"Leitura: {src_table_chamados}")
print(f"Registros Bronze: {total_before_chamados:,}")

### Transformação e Normalização

Aplicação de transformações para padronização de tipos e formatos.
Coerção de id_chamado para IntegerType e id_cliente como StringType.
Correção de encoding e tratamento de timezone para timestamps.

In [0]:
df_chamados = df_chamados_src \
    .withColumn("id_chamado_raw", safe_col(df_chamados_src, "ID_Chamado")) \
    .withColumn("id_cliente_raw", safe_col(df_chamados_src, "ID_Cliente")) \
    .withColumn("hora_abertura_raw", safe_col(df_chamados_src, "Hora_Abertura_Chamado")) \
    .withColumn("hora_inicio_raw", safe_col(df_chamados_src, "Hora_Inicio_Atendimento")) \
    .withColumn("hora_finalizacao_raw", safe_col(df_chamados_src, "Hora_Finalizacao_Atendimento"))

df_chamados = df_chamados.withColumn("id_chamado", safe_cast_int(col("id_chamado_raw")))
df_chamados = df_chamados.withColumn("id_cliente", trim(col("id_cliente_raw")))

print("Amostra de dados brutos:")
df_chamados.select("hora_abertura_raw", "hora_inicio_raw", "hora_finalizacao_raw").show(3, truncate=False)

### Correção de Encoding e Parsing de Timestamps

Tratamento de timestamps com encoding incorreto e conversão para horário de Brasília.
Aplicação de timezone America/Sao_Paulo com tratamento correto de DST.

In [0]:
df_chamados = df_chamados.withColumn("hora_abertura_chamado_brasilia", parse_to_brasilia_timezone(col("hora_abertura_raw")))
df_chamados = df_chamados.withColumn("hora_inicio_atendimento_brasilia", parse_to_brasilia_timezone(col("hora_inicio_raw")))
df_chamados = df_chamados.withColumn("hora_finalizacao_atendimento_brasilia", parse_to_brasilia_timezone(col("hora_finalizacao_raw")))

print("Amostra de timestamps convertidos:")
df_chamados.select(
    "hora_abertura_chamado_brasilia", 
    "hora_inicio_atendimento_brasilia", 
    "hora_finalizacao_atendimento_brasilia"
).show(5, truncate=False)

parsing_failures_abertura = df_chamados.filter(
    col("hora_abertura_raw").isNotNull() & col("hora_abertura_chamado_brasilia").isNull()
).count()
parsing_failures_inicio = df_chamados.filter(
    col("hora_inicio_raw").isNotNull() & col("hora_inicio_atendimento_brasilia").isNull()
).count()
parsing_failures_fim = df_chamados.filter(
    col("hora_finalizacao_raw").isNotNull() & col("hora_finalizacao_atendimento_brasilia").isNull()
).count()

print(f"\nFalhas de parsing:")
print(f"  - hora_abertura: {parsing_failures_abertura:,}")
print(f"  - hora_inicio: {parsing_failures_inicio:,}")
print(f"  - hora_finalizacao: {parsing_failures_fim:,}")

### Tratamento de Timezone

**Problema:** Timestamps com encoding incorreto (dd/MM/yyyy  s HH:mm:ss)

**Solução:**
- Substituição de caracteres problemáticos
- Parsing no formato brasileiro (dd/MM/yyyy HH:mm:ss)
- Interpretação como horário de Brasília (America/Sao_Paulo)
- Conversão via UTC para garantir tratamento correto de DST
- Representação final em TimestampType no fuso de Brasília

### Validações de Qualidade

Aplicação de regras de validação para garantir qualidade dos dados.
Remoção de registros com campos obrigatórios nulos ou timestamps inválidos.

In [0]:
null_id_chamado = df_chamados.filter(col("id_chamado").isNull()).count()
null_id_cliente = df_chamados.filter(col("id_cliente").isNull()).count()
null_hora_abertura = df_chamados.filter(col("hora_abertura_chamado_brasilia").isNull()).count()
null_hora_inicio = df_chamados.filter(col("hora_inicio_atendimento_brasilia").isNull()).count()
null_hora_fim = df_chamados.filter(col("hora_finalizacao_atendimento_brasilia").isNull()).count()

print(f"Validação de campos obrigatórios:")
print(f"  - id_chamado NULL: {null_id_chamado:,}")
print(f"  - id_cliente NULL: {null_id_cliente:,}")
print(f"  - hora_abertura_chamado_brasilia NULL: {null_hora_abertura:,}")
print(f"  - hora_inicio_atendimento_brasilia NULL: {null_hora_inicio:,}")
print(f"  - hora_finalizacao_atendimento_brasilia NULL: {null_hora_fim:,}")

df_chamados_valid_nulls = df_chamados.filter(
    (col("id_chamado").isNotNull()) & (col("id_chamado") > 0) &
    (col("id_cliente").isNotNull()) & (length(col("id_cliente")) > 0) &
    (col("hora_abertura_chamado_brasilia").isNotNull()) &
    (col("hora_inicio_atendimento_brasilia").isNotNull()) &
    (col("hora_finalizacao_atendimento_brasilia").isNotNull())
)

removed_by_nulls_chamados = total_before_chamados - df_chamados_valid_nulls.count()
print(f"\nRegistros removidos por campos obrigatórios inválidos: {removed_by_nulls_chamados:,}")
print(f"Registros restantes: {df_chamados_valid_nulls.count():,}")

### Validação de Consistência Temporal

Verificação da ordem cronológica dos eventos.
Descarte de registros com timestamps fora de ordem.

In [0]:
df_chamados_temporal = df_chamados_valid_nulls.withColumn(
    "valido_abertura_inicio",
    col("hora_abertura_chamado_brasilia") <= col("hora_inicio_atendimento_brasilia")
).withColumn(
    "valido_inicio_fim",
    col("hora_inicio_atendimento_brasilia") <= col("hora_finalizacao_atendimento_brasilia")
).withColumn(
    "valido_temporal",
    col("valido_abertura_inicio") & col("valido_inicio_fim")
)

invalidos_abertura_inicio = df_chamados_temporal.filter(~col("valido_abertura_inicio")).count()
invalidos_inicio_fim = df_chamados_temporal.filter(~col("valido_inicio_fim")).count()
invalidos_total = df_chamados_temporal.filter(~col("valido_temporal")).count()

print(f"Validação de consistência temporal:")
print(f"  - Abertura > Início (inválido): {invalidos_abertura_inicio:,}")
print(f"  - Início > Fim (inválido): {invalidos_inicio_fim:,}")
print(f"  - Total de registros temporalmente inválidos: {invalidos_total:,}")

if invalidos_total > 0:
    print(f"\nAmostra de registros com ordem temporal inválida:")
    df_chamados_temporal.filter(~col("valido_temporal")).select(
        "id_chamado",
        "hora_abertura_chamado_brasilia",
        "hora_inicio_atendimento_brasilia",
        "hora_finalizacao_atendimento_brasilia"
    ).show(5, truncate=False)

df_chamados_valid = df_chamados_temporal.filter(col("valido_temporal")).drop(
    "valido_abertura_inicio", "valido_inicio_fim", "valido_temporal"
)

removed_by_temporal_chamados = df_chamados_valid_nulls.count() - df_chamados_valid.count()
print(f"\nRegistros removidos por inconsistência temporal: {removed_by_temporal_chamados:,}")
print(f"Registros restantes: {df_chamados_valid.count():,}")

### Regras de Consistência Temporal

**Validações aplicadas:**
- hora_abertura_chamado <= hora_inicio_atendimento
- hora_inicio_atendimento <= hora_finalizacao_atendimento

**Ação:** Registros com timestamps fora de ordem são removidos.

### Deduplicação

Remoção de registros duplicados mantendo apenas a versão mais recente.
Ordenação por ingestion_timestamp para preservar último registro ingerido.

In [0]:
dup_count_chamados = df_chamados_valid.groupBy("id_chamado").count().filter(col("count") > 1).count()
print(f"Duplicatas detectadas: {dup_count_chamados:,}")

w_chamados = Window.partitionBy("id_chamado").orderBy(
    col("ingestion_timestamp").desc_nulls_last() if "ingestion_timestamp" in df_chamados_valid.columns
    else lit(datetime.now())
)

df_chamados_dedup = df_chamados_valid \
    .withColumn("rn", row_number().over(w_chamados)) \
    .filter(col("rn") == 1) \
    .drop("rn")

removed_by_dedup_chamados = df_chamados_valid.count() - df_chamados_dedup.count()
print(f"Registros removidos por deduplicação: {removed_by_dedup_chamados:,}")

### Preparação Final

Adição de metadados de processamento e seleção de colunas finais.
Aplicação de schema com constraints.

In [0]:
df_chamados_final = df_chamados_dedup.withColumn("processed_timestamp", current_timestamp())

final_cols_chamados = [
    "id_chamado",
    "id_cliente",
    "hora_abertura_chamado_brasilia",
    "hora_inicio_atendimento_brasilia",
    "hora_finalizacao_atendimento_brasilia",
    "processed_timestamp",
    "ingestion_timestamp"
]

df_chamados_final = df_chamados_final.select(*[c for c in final_cols_chamados if c in df_chamados_final.columns])

df_chamados_typed = df_chamados_final \
    .withColumn("id_chamado", col("id_chamado").cast(IntegerType())) \
    .withColumn("id_cliente", col("id_cliente").cast(StringType())) \
    .withColumn("hora_abertura_chamado_brasilia", col("hora_abertura_chamado_brasilia").cast(TimestampType())) \
    .withColumn("hora_inicio_atendimento_brasilia", col("hora_inicio_atendimento_brasilia").cast(TimestampType())) \
    .withColumn("hora_finalizacao_atendimento_brasilia", col("hora_finalizacao_atendimento_brasilia").cast(TimestampType())) \
    .withColumn("processed_timestamp", col("processed_timestamp").cast(TimestampType())) \
    .withColumn("ingestion_timestamp", 
                col("ingestion_timestamp").cast(TimestampType()) if "ingestion_timestamp" in df_chamados_final.columns 
                else lit(None).cast(TimestampType()))

print(f"Total de registros finais: {df_chamados_typed.count():,}")

### Schema Final

**Colunas:**
- id_chamado: IntegerType, NOT NULL
- id_cliente: StringType, NOT NULL
- hora_abertura_chamado_brasilia: TimestampType, NOT NULL
- hora_inicio_atendimento_brasilia: TimestampType, NOT NULL
- hora_finalizacao_atendimento_brasilia: TimestampType, NOT NULL
- processed_timestamp: TimestampType
- ingestion_timestamp: TimestampType

**Nota:** Métricas de tempo foram removidas desta camada.

### Gravação na Camada Silver

Persistência da tabela transformada em formato Delta na camada Silver.
Modo overwrite com overwriteSchema para garantir schema atualizado.

In [0]:
df_chamados_typed.write.format("delta") \
    .mode("overwrite") \
    .option("overwriteSchema", "true") \
    .saveAsTable(tgt_table_chamados)

silver_table_chamados = spark.table(tgt_table_chamados)
final_count_chamados = silver_table_chamados.count()
duplicates_chamados = silver_table_chamados.groupBy("id_chamado").count().filter(col("count") > 1).count()

print(f"Salvo em: {tgt_table_chamados}")
print(f"Contagem final: {final_count_chamados:,}")
print(f"Duplicatas na Silver: {duplicates_chamados}")

display(silver_table_chamados.limit(10))

### Relatório de Transformação

Resumo estatístico da transformação Bronze para Silver.
Métricas de qualidade e taxa de aproveitamento dos dados.

In [0]:
print("="*80)
print("RELATÓRIO DE TRANSFORMAÇÃO - FT_CHAMADOS_HORA")
print("="*80)
print(f"Registros Bronze (origem): {total_before_chamados:,}")
print(f"Registros removidos (campos obrigatórios inválidos): {removed_by_nulls_chamados:,}")
print(f"Registros removidos (inconsistência temporal): {removed_by_temporal_chamados:,}")
print(f"Registros removidos (deduplicação): {removed_by_dedup_chamados:,}")
print(f"Registros Silver (destino): {final_count_chamados:,}")
print(f"Taxa de aproveitamento: {(final_count_chamados/total_before_chamados*100):.2f}%")
print("="*80)
print(f"\nDetalhamento de validações:")
print(f"  - Falhas de parsing (abertura): {parsing_failures_abertura:,}")
print(f"  - Falhas de parsing (início): {parsing_failures_inicio:,}")
print(f"  - Falhas de parsing (finalização): {parsing_failures_fim:,}")
print(f"  - Abertura > Início: {invalidos_abertura_inicio:,}")
print(f"  - Início > Fim: {invalidos_inicio_fim:,}")
print("="*80)
print(f"Timestamp de processamento: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print("="*80)

## Processamento: dm_motivos

Transformação da tabela de motivos da camada Bronze para Silver.
Padronização de descrições e validação de IDs.

### Leitura da Tabela Bronze

Carregamento da tabela `ft_motivos` da camada Bronze.
Validação de existência e contagem inicial de registros.

In [0]:
src_table_motivos = f"{catalog_name}.{bronze_db_name}.ft_motivos"
tgt_table_motivos = f"{catalog_name}.{silver_db_name}.dm_motivos"

if not safe_table_exists(spark, src_table_motivos):
    raise RuntimeError(f"Tabela fonte não encontrada: {src_table_motivos}")

df_motivos_src = spark.table(src_table_motivos)
total_before_motivos = df_motivos_src.count()

print(f"Leitura: {src_table_motivos}")
print(f"Registros Bronze: {total_before_motivos:,}")

### Transformação e Normalização

Aplicação de transformações para padronização de tipos e formatos.
Coerção de id_motivo para IntegerType e normalização de descrições.

In [0]:
df_motivos = df_motivos_src \
    .withColumn("id_motivo_raw", safe_col(df_motivos_src, "id_motivo")) \
    .withColumn("nome_motivo_raw", safe_col(df_motivos_src, "nome_motivo"))

df_motivos = df_motivos.withColumn(
    "id_motivo",
    safe_cast_int(col("id_motivo_raw"))
)

df_motivos = df_motivos.withColumn(
    "nome_motivo_normalized",
    normalize_text(col("nome_motivo_raw"))
)

df_motivos = df_motivos.withColumn(
    "nome_motivo",
    initcap(remove_accents_udf(col("nome_motivo_normalized")))
)

print("Transformações aplicadas")

### Validações de Qualidade

Aplicação de regras de validação para garantir qualidade dos dados.
Remoção de registros com campos obrigatórios inválidos ou nulos.

In [0]:
null_id_motivo = df_motivos.filter(col("id_motivo").isNull()).count()
null_nome_motivo = df_motivos.filter(col("nome_motivo").isNull() | (trim(col("nome_motivo")) == "")).count()

print(f"Validação de campos obrigatórios:")
print(f"  - id_motivo NULL: {null_id_motivo:,}")
print(f"  - nome_motivo NULL/vazio: {null_nome_motivo:,}")

df_motivos_valid = df_motivos.filter(
    (col("id_motivo").isNotNull()) & (col("id_motivo") > 0) &
    (col("nome_motivo").isNotNull()) & (trim(col("nome_motivo")) != "")
)

removed_by_validation_motivos = total_before_motivos - df_motivos_valid.count()
print(f"\nRegistros removidos por validação: {removed_by_validation_motivos:,}")
print(f"Registros válidos: {df_motivos_valid.count():,}")

### Deduplicação

Remoção de registros duplicados mantendo apenas a versão mais recente.
Ordenação por ingestion_timestamp para preservar último registro ingerido.

In [0]:
dup_count_motivos = df_motivos_valid.groupBy("id_motivo").count().filter(col("count") > 1).count()
print(f"Duplicatas detectadas: {dup_count_motivos:,}")

w_motivos = Window.partitionBy("id_motivo").orderBy(
    col("ingestion_timestamp").desc_nulls_last() if "ingestion_timestamp" in df_motivos_valid.columns
    else lit(datetime.now())
)

df_motivos_dedup = df_motivos_valid \
    .withColumn("rn", row_number().over(w_motivos)) \
    .filter(col("rn") == 1) \
    .drop("rn")

removed_by_dedup_motivos = df_motivos_valid.count() - df_motivos_dedup.count()
print(f"Registros removidos por deduplicação: {removed_by_dedup_motivos:,}")

### Preparação Final

Adição de metadados de processamento e seleção de colunas finais.
Aplicação de schema com constraints.

In [0]:
df_motivos_final = df_motivos_dedup.withColumn("processed_timestamp", current_timestamp())

final_cols_motivos = [
    "id_motivo",
    "nome_motivo",
    "processed_timestamp",
    "ingestion_timestamp"
]

df_motivos_final = df_motivos_final.select(*[c for c in final_cols_motivos if c in df_motivos_final.columns])

df_motivos_typed = df_motivos_final \
    .withColumn("id_motivo", col("id_motivo").cast(IntegerType())) \
    .withColumn("nome_motivo", col("nome_motivo").cast(StringType())) \
    .withColumn("processed_timestamp", col("processed_timestamp").cast(TimestampType())) \
    .withColumn("ingestion_timestamp", 
                col("ingestion_timestamp").cast(TimestampType()) if "ingestion_timestamp" in df_motivos_final.columns 
                else lit(None).cast(TimestampType()))

print(f"Total de registros finais: {df_motivos_typed.count():,}")

### Gravação na Camada Silver

Persistência da tabela transformada em formato Delta na camada Silver.
Modo overwrite com overwriteSchema para garantir schema atualizado.

In [0]:
df_motivos_typed.write.format("delta") \
    .mode("overwrite") \
    .option("overwriteSchema", "true") \
    .saveAsTable(tgt_table_motivos)

silver_table_motivos = spark.table(tgt_table_motivos)
final_count_motivos = silver_table_motivos.count()
duplicates_motivos = silver_table_motivos.groupBy("id_motivo").count().filter(col("count") > 1).count()

print(f"Salvo em: {tgt_table_motivos}")
print(f"Contagem final: {final_count_motivos:,}")
print(f"Duplicatas na Silver: {duplicates_motivos}")

display(silver_table_motivos.limit(10))

### Relatório de Transformação

Resumo estatístico da transformação Bronze para Silver.
Métricas de qualidade e taxa de aproveitamento dos dados.

In [0]:
print("="*80)
print("RELATÓRIO DE TRANSFORMAÇÃO - DM_MOTIVOS")
print("="*80)
print(f"Registros Bronze (origem): {total_before_motivos:,}")
print(f"Registros removidos (validação): {removed_by_validation_motivos:,}")
print(f"Registros removidos (deduplicação): {removed_by_dedup_motivos:,}")
print(f"Registros Silver (destino): {final_count_motivos:,}")
print(f"Taxa de aproveitamento: {(final_count_motivos/total_before_motivos*100):.2f}%")
print("="*80)
print(f"Timestamp de processamento: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print("="*80)

## Processamento: dm_canais

Transformação da tabela de canais da camada Bronze para Silver.
Padronização de nomes e validação de status.

### Leitura da Tabela Bronze

Carregamento da tabela `dm_canais` da camada Bronze.
Validação de existência e contagem inicial de registros.

In [0]:
src_table_canais = f"{catalog_name}.{bronze_db_name}.dm_canais"
tgt_table_canais = f"{catalog_name}.{silver_db_name}.dm_canais"

if not safe_table_exists(spark, src_table_canais):
    raise RuntimeError(f"Tabela fonte não encontrada: {src_table_canais}")

df_canais_src = spark.table(src_table_canais)
total_before_canais = df_canais_src.count()

print(f"Leitura: {src_table_canais}")
print(f"Registros Bronze: {total_before_canais:,}")

### Transformação e Normalização

Aplicação de transformações para padronização de tipos e formatos.
Geração de id_canal sequencial e normalização de nomes de canais.

In [0]:
df_canais = df_canais_src \
    .withColumn("nome_canal_raw", safe_col(df_canais_src, "nome_canal"))

df_canais = df_canais.withColumn(
    "nome_canal_normalized",
    normalize_text(col("nome_canal_raw"))
)

df_canais = df_canais.withColumn(
    "nome_canal",
    initcap(remove_accents_udf(col("nome_canal_normalized")))
)

w_id_canal = Window.orderBy("nome_canal")
df_canais = df_canais.withColumn("id_canal", row_number().over(w_id_canal))

print("Transformações aplicadas")

### Validações de Qualidade

Aplicação de regras de validação para garantir qualidade dos dados.
Remoção de registros com campos obrigatórios inválidos ou nulos.

In [0]:
null_nome_canal = df_canais.filter(col("nome_canal").isNull() | (trim(col("nome_canal")) == "")).count()

print(f"Validação de campos obrigatórios:")
print(f"  - nome_canal NULL/vazio: {null_nome_canal:,}")

df_canais_valid = df_canais.filter(
    (col("nome_canal").isNotNull()) & (trim(col("nome_canal")) != "")
)

removed_by_validation_canais = total_before_canais - df_canais_valid.count()
print(f"\nRegistros removidos por validação: {removed_by_validation_canais:,}")
print(f"Registros válidos: {df_canais_valid.count():,}")

### Deduplicação

Remoção de registros duplicados mantendo apenas a versão mais recente.
Ordenação por nome_canal para manter consistência de IDs sequenciais.

In [0]:
dup_count_canais = df_canais_valid.groupBy("nome_canal").count().filter(col("count") > 1).count()
print(f"Duplicatas detectadas: {dup_count_canais:,}")

w_canais = Window.partitionBy("nome_canal").orderBy(
    col("ingestion_timestamp").desc_nulls_last() if "ingestion_timestamp" in df_canais_valid.columns
    else lit(datetime.now())
)

df_canais_dedup = df_canais_valid \
    .withColumn("rn", row_number().over(w_canais)) \
    .filter(col("rn") == 1) \
    .drop("rn")

removed_by_dedup_canais = df_canais_valid.count() - df_canais_dedup.count()
print(f"Registros removidos por deduplicação: {removed_by_dedup_canais:,}")

### Preparação Final

Adição de metadados de processamento e seleção de colunas finais.
Aplicação de schema com constraints.

In [0]:
df_canais_final = df_canais_dedup.withColumn("processed_timestamp", current_timestamp())

final_cols_canais = [
    "id_canal",
    "nome_canal",
    "processed_timestamp",
    "ingestion_timestamp"
]

df_canais_final = df_canais_final.select(*[c for c in final_cols_canais if c in df_canais_final.columns])

df_canais_typed = df_canais_final \
    .withColumn("id_canal", col("id_canal").cast(IntegerType())) \
    .withColumn("nome_canal", col("nome_canal").cast(StringType())) \
    .withColumn("processed_timestamp", col("processed_timestamp").cast(TimestampType())) \
    .withColumn("ingestion_timestamp", 
                col("ingestion_timestamp").cast(TimestampType()) if "ingestion_timestamp" in df_canais_final.columns 
                else lit(None).cast(TimestampType()))

print(f"Total de registros finais: {df_canais_typed.count():,}")

### Gravação na Camada Silver

Persistência da tabela transformada em formato Delta na camada Silver.
Modo overwrite com overwriteSchema para garantir schema atualizado.

In [0]:
df_canais_typed.write.format("delta") \
    .mode("overwrite") \
    .option("overwriteSchema", "true") \
    .saveAsTable(tgt_table_canais)

silver_table_canais = spark.table(tgt_table_canais)
final_count_canais = silver_table_canais.count()
duplicates_canais = silver_table_canais.groupBy("id_canal").count().filter(col("count") > 1).count()

print(f"Salvo em: {tgt_table_canais}")
print(f"Contagem final: {final_count_canais:,}")
print(f"Duplicatas na Silver: {duplicates_canais}")

display(silver_table_canais.limit(10))

### Relatório de Transformação

Resumo estatístico da transformação Bronze para Silver.
Métricas de qualidade e taxa de aproveitamento dos dados.

In [0]:
print("="*80)
print("RELATÓRIO DE TRANSFORMAÇÃO - DM_CANAIS")
print("="*80)
print(f"Registros Bronze (origem): {total_before_canais:,}")
print(f"Registros removidos (validação): {removed_by_validation_canais:,}")
print(f"Registros removidos (deduplicação): {removed_by_dedup_canais:,}")
print(f"Registros Silver (destino): {final_count_canais:,}")
print(f"Taxa de aproveitamento: {(final_count_canais/total_before_canais*100):.2f}%")
print("="*80)
print(f"Timestamp de processamento: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print("="*80)

## Processamento: dm_clientes

Transformação da tabela de clientes da camada Bronze para Silver.
Padronização de nomes, validação de emails e normalização de dados cadastrais.

### Leitura da Tabela Bronze

Carregamento da tabela `dm_clientes` da camada Bronze.
Validação de existência e contagem inicial de registros.

In [0]:
src_table_clientes = f"{catalog_name}.{bronze_db_name}.dm_clientes"
tgt_table_clientes = f"{catalog_name}.{silver_db_name}.dm_clientes"

if not safe_table_exists(spark, src_table_clientes):
    raise RuntimeError(f"Tabela fonte não encontrada: {src_table_clientes}")

df_clientes_src = spark.table(src_table_clientes)
total_before_clientes = df_clientes_src.count()

print(f"Leitura: {src_table_clientes}")
print(f"Registros Bronze: {total_before_clientes:,}")

### Transformação e Normalização

Aplicação de transformações para padronização de tipos e formatos.
Coerção de id_cliente para StringType, normalização de nomes e validação de estrutura de dados.

In [0]:
df_clientes = df_clientes_src \
    .withColumn("id_cliente_raw", safe_col(df_clientes_src, "id_cliente")) \
    .withColumn("nome_raw", safe_col(df_clientes_src, "nome")) \
    .withColumn("email_raw", safe_col(df_clientes_src, "email")) \
    .withColumn("regiao_raw", safe_col(df_clientes_src, "regiao")) \
    .withColumn("idade_raw", safe_col(df_clientes_src, "idade"))

df_clientes = df_clientes.withColumn(
    "id_cliente",
    trim(col("id_cliente_raw"))
)

df_clientes = df_clientes.withColumn(
    "nome_normalized",
    normalize_text(col("nome_raw"))
)

df_clientes = df_clientes.withColumn(
    "nome",
    initcap(remove_accents_udf(col("nome_normalized")))
)

df_clientes = df_clientes.withColumn(
    "email",
    lower(trim(col("email_raw")))
)

df_clientes = df_clientes.withColumn(
    "regiao_normalized",
    normalize_text(col("regiao_raw"))
)

df_clientes = df_clientes.withColumn(
    "regiao",
    initcap(remove_accents_udf(col("regiao_normalized")))
)

df_clientes = df_clientes.withColumn(
    "idade",
    safe_cast_int(col("idade_raw"))
)

print("Transformações aplicadas")

### Validações de Qualidade

Aplicação de regras de validação para garantir qualidade dos dados.
Remoção de registros com campos obrigatórios inválidos ou emails sem formato válido.

In [0]:
null_id_cliente = df_clientes.filter(col("id_cliente").isNull() | (trim(col("id_cliente")) == "")).count()
null_nome = df_clientes.filter(col("nome").isNull() | (trim(col("nome")) == "")).count()
null_email = df_clientes.filter(col("email").isNull() | (trim(col("email")) == "")).count()
invalid_email = df_clientes.filter(~col("email").contains("@")).count()

print(f"Validação de campos obrigatórios:")
print(f"  - id_cliente NULL/vazio: {null_id_cliente:,}")
print(f"  - nome NULL/vazio: {null_nome:,}")
print(f"  - email NULL/vazio: {null_email:,}")
print(f"  - email sem @: {invalid_email:,}")

df_clientes_valid = df_clientes.filter(
    (col("id_cliente").isNotNull()) & (trim(col("id_cliente")) != "") &
    (col("nome").isNotNull()) & (trim(col("nome")) != "") &
    (col("email").isNotNull()) & (trim(col("email")) != "") &
    (col("email").contains("@"))
)

removed_by_validation_clientes = total_before_clientes - df_clientes_valid.count()
print(f"\nRegistros removidos por validação: {removed_by_validation_clientes:,}")
print(f"Registros válidos: {df_clientes_valid.count():,}")

### Deduplicação

Remoção de registros duplicados mantendo apenas a versão mais recente.
Ordenação por ingestion_timestamp para preservar último registro ingerido.

In [0]:
dup_count_clientes = df_clientes_valid.groupBy("id_cliente").count().filter(col("count") > 1).count()
print(f"Duplicatas detectadas: {dup_count_clientes:,}")

w_clientes = Window.partitionBy("id_cliente").orderBy(
    col("ingestion_timestamp").desc_nulls_last() if "ingestion_timestamp" in df_clientes_valid.columns
    else lit(datetime.now())
)

df_clientes_dedup = df_clientes_valid \
    .withColumn("rn", row_number().over(w_clientes)) \
    .filter(col("rn") == 1) \
    .drop("rn")

removed_by_dedup_clientes = df_clientes_valid.count() - df_clientes_dedup.count()
print(f"Registros removidos por deduplicação: {removed_by_dedup_clientes:,}")

### Preparação Final

Adição de metadados de processamento e seleção de colunas finais.
Aplicação de schema com constraints.

In [0]:
df_clientes_final = df_clientes_dedup.withColumn("processed_timestamp", current_timestamp())

final_cols_clientes = [
    "id_cliente",
    "nome",
    "email",
    "regiao",
    "idade",
    "processed_timestamp",
    "ingestion_timestamp"
]

df_clientes_final = df_clientes_final.select(*[c for c in final_cols_clientes if c in df_clientes_final.columns])

df_clientes_typed = df_clientes_final \
    .withColumn("id_cliente", col("id_cliente").cast(StringType())) \
    .withColumn("nome", col("nome").cast(StringType())) \
    .withColumn("email", col("email").cast(StringType())) \
    .withColumn("regiao", col("regiao").cast(StringType())) \
    .withColumn("idade", col("idade").cast(IntegerType())) \
    .withColumn("processed_timestamp", col("processed_timestamp").cast(TimestampType())) \
    .withColumn("ingestion_timestamp", 
                col("ingestion_timestamp").cast(TimestampType()) if "ingestion_timestamp" in df_clientes_final.columns 
                else lit(None).cast(TimestampType()))

print(f"Total de registros finais: {df_clientes_typed.count():,}")

### Gravação na Camada Silver

Persistência da tabela transformada em formato Delta na camada Silver.
Modo overwrite com overwriteSchema para garantir schema atualizado.

In [0]:
df_clientes_typed.write.format("delta") \
    .mode("overwrite") \
    .option("overwriteSchema", "true") \
    .saveAsTable(tgt_table_clientes)

silver_table_clientes = spark.table(tgt_table_clientes)
final_count_clientes = silver_table_clientes.count()
duplicates_clientes = silver_table_clientes.groupBy("id_cliente").count().filter(col("count") > 1).count()

print(f"Salvo em: {tgt_table_clientes}")
print(f"Contagem final: {final_count_clientes:,}")
print(f"Duplicatas na Silver: {duplicates_clientes}")

display(silver_table_clientes.limit(10))

### Relatório de Transformação

Resumo estatístico da transformação Bronze para Silver.
Métricas de qualidade e taxa de aproveitamento dos dados.

In [0]:
print("="*80)
print("RELATÓRIO DE TRANSFORMAÇÃO - DM_CLIENTES")
print("="*80)
print(f"Registros Bronze (origem): {total_before_clientes:,}")
print(f"Registros removidos (validação): {removed_by_validation_clientes:,}")
print(f"Registros removidos (deduplicação): {removed_by_dedup_clientes:,}")
print(f"Registros Silver (destino): {final_count_clientes:,}")
print(f"Taxa de aproveitamento: {(final_count_clientes/total_before_clientes*100):.2f}%")
print("="*80)
print(f"Timestamp de processamento: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print("="*80)

## Processamento: ft_pesquisa_satisfacao

Transformação da tabela de pesquisa de satisfação da camada Bronze para Silver.
Validação de notas de atendimento e consistência de relacionamentos.

### Leitura da Tabela Bronze

Carregamento da tabela `ft_pesquisa_satisfacao` da camada Bronze.
Validação de existência e contagem inicial de registros.

In [0]:
src_table_pesquisa = f"{catalog_name}.{bronze_db_name}.ft_pesquisa_satisfacao"
tgt_table_pesquisa = f"{catalog_name}.{silver_db_name}.ft_pesquisa_satisfacao"

if not safe_table_exists(spark, src_table_pesquisa):
    raise RuntimeError(f"Tabela fonte não encontrada: {src_table_pesquisa}")

df_pesquisa_src = spark.table(src_table_pesquisa)
total_before_pesquisa = df_pesquisa_src.count()

print(f"Leitura: {src_table_pesquisa}")
print(f"Registros Bronze: {total_before_pesquisa:,}")

### Transformação e Normalização

Aplicação de transformações para padronização de tipos e formatos.
Coerção de IDs para IntegerType e validação de nota de atendimento.

In [0]:
df_pesquisa = df_pesquisa_src \
    .withColumn("id_pesquisa_raw", safe_col(df_pesquisa_src, "id_pesquisa")) \
    .withColumn("id_chamado_raw", safe_col(df_pesquisa_src, "id_chamado")) \
    .withColumn("nota_atendimento_raw", safe_col(df_pesquisa_src, "nota_atendimento"))

df_pesquisa = df_pesquisa.withColumn(
    "id_pesquisa",
    safe_cast_int(col("id_pesquisa_raw"))
)

df_pesquisa = df_pesquisa.withColumn(
    "id_chamado",
    safe_cast_int(col("id_chamado_raw"))
)

df_pesquisa = df_pesquisa.withColumn(
    "nota_atendimento",
    safe_cast_int(col("nota_atendimento_raw"))
)

print("Transformações aplicadas")

### Validações de Qualidade

Aplicação de regras de validação para garantir qualidade dos dados.
Remoção de registros com campos obrigatórios inválidos ou notas fora do intervalo válido.

In [0]:
null_id_pesquisa = df_pesquisa.filter(col("id_pesquisa").isNull()).count()
null_id_chamado = df_pesquisa.filter(col("id_chamado").isNull()).count()
null_nota = df_pesquisa.filter(col("nota_atendimento").isNull()).count()
invalid_nota = df_pesquisa.filter((col("nota_atendimento") < 1) | (col("nota_atendimento") > 5)).count()

print(f"Validação de campos obrigatórios:")
print(f"  - id_pesquisa NULL: {null_id_pesquisa:,}")
print(f"  - id_chamado NULL: {null_id_chamado:,}")
print(f"  - nota_atendimento NULL: {null_nota:,}")
print(f"  - nota_atendimento fora do intervalo [1,5]: {invalid_nota:,}")

df_pesquisa_valid = df_pesquisa.filter(
    (col("id_pesquisa").isNotNull()) & (col("id_pesquisa") > 0) &
    (col("id_chamado").isNotNull()) & (col("id_chamado") > 0) &
    (col("nota_atendimento").isNotNull()) &
    (col("nota_atendimento") >= 1) & (col("nota_atendimento") <= 5)
)

removed_by_validation_pesquisa = total_before_pesquisa - df_pesquisa_valid.count()
print(f"\nRegistros removidos por validação: {removed_by_validation_pesquisa:,}")
print(f"Registros válidos: {df_pesquisa_valid.count():,}")

### Deduplicação

Remoção de registros duplicados mantendo apenas a versão mais recente.
Ordenação por ingestion_timestamp para preservar último registro ingerido.

In [0]:
dup_count_pesquisa = df_pesquisa_valid.groupBy("id_pesquisa").count().filter(col("count") > 1).count()
print(f"Duplicatas detectadas: {dup_count_pesquisa:,}")

w_pesquisa = Window.partitionBy("id_pesquisa").orderBy(
    col("ingestion_timestamp").desc_nulls_last() if "ingestion_timestamp" in df_pesquisa_valid.columns
    else lit(datetime.now())
)

df_pesquisa_dedup = df_pesquisa_valid \
    .withColumn("rn", row_number().over(w_pesquisa)) \
    .filter(col("rn") == 1) \
    .drop("rn")

removed_by_dedup_pesquisa = df_pesquisa_valid.count() - df_pesquisa_dedup.count()
print(f"Registros removidos por deduplicação: {removed_by_dedup_pesquisa:,}")

### Preparação Final

Adição de metadados de processamento e seleção de colunas finais.
Aplicação de schema com constraints.

In [0]:
df_pesquisa_final = df_pesquisa_dedup.withColumn("processed_timestamp", current_timestamp())

final_cols_pesquisa = [
    "id_pesquisa",
    "id_chamado",
    "nota_atendimento",
    "processed_timestamp",
    "ingestion_timestamp"
]

df_pesquisa_final = df_pesquisa_final.select(*[c for c in final_cols_pesquisa if c in df_pesquisa_final.columns])

df_pesquisa_typed = df_pesquisa_final \
    .withColumn("id_pesquisa", col("id_pesquisa").cast(IntegerType())) \
    .withColumn("id_chamado", col("id_chamado").cast(IntegerType())) \
    .withColumn("nota_atendimento", col("nota_atendimento").cast(IntegerType())) \
    .withColumn("processed_timestamp", col("processed_timestamp").cast(TimestampType())) \
    .withColumn("ingestion_timestamp", 
                col("ingestion_timestamp").cast(TimestampType()) if "ingestion_timestamp" in df_pesquisa_final.columns 
                else lit(None).cast(TimestampType()))

print(f"Total de registros finais: {df_pesquisa_typed.count():,}")

### Gravação na Camada Silver

Persistência da tabela transformada em formato Delta na camada Silver.
Modo overwrite com overwriteSchema para garantir schema atualizado.

In [0]:
df_pesquisa_typed.write.format("delta") \
    .mode("overwrite") \
    .option("overwriteSchema", "true") \
    .saveAsTable(tgt_table_pesquisa)

silver_table_pesquisa = spark.table(tgt_table_pesquisa)
final_count_pesquisa = silver_table_pesquisa.count()
duplicates_pesquisa = silver_table_pesquisa.groupBy("id_pesquisa").count().filter(col("count") > 1).count()

print(f"Salvo em: {tgt_table_pesquisa}")
print(f"Contagem final: {final_count_pesquisa:,}")
print(f"Duplicatas na Silver: {duplicates_pesquisa}")

display(silver_table_pesquisa.limit(10))

### Relatório de Transformação

Resumo estatístico da transformação Bronze para Silver.
Métricas de qualidade e taxa de aproveitamento dos dados.

In [0]:
print("="*80)
print("RELATÓRIO DE TRANSFORMAÇÃO - FT_PESQUISA_SATISFACAO")
print("="*80)
print(f"Registros Bronze (origem): {total_before_pesquisa:,}")
print(f"Registros removidos (validação): {removed_by_validation_pesquisa:,}")
print(f"Registros removidos (deduplicação): {removed_by_dedup_pesquisa:,}")
print(f"Registros Silver (destino): {final_count_pesquisa:,}")
print(f"Taxa de aproveitamento: {(final_count_pesquisa/total_before_pesquisa*100):.2f}%")
print("="*80)
print(f"Timestamp de processamento: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print("="*80)

## Processamento: ft_custos

Transformação da tabela de custos da camada Bronze para Silver.
Padronização de tipos numéricos, validação de identificadores e garantia de consistência dos valores de custo.

### Leitura da Tabela Bronze

Carregamento da tabela `ft_custos` da camada Bronze. Validação de existência e contagem inicial de registros.


In [0]:
src_table_custos = f"{catalog_name}.{bronze_db_name}.ft_custos"
tgt_table_custos = f"{catalog_name}.{silver_db_name}.ft_custos"

if not safe_table_exists(spark, src_table_custos):
    raise RuntimeError(f"Tabela fonte não encontrada: {src_table_custos}")

df_custos_src = spark.table(src_table_custos)
total_before_custos = df_custos_src.count()

print(f"Leitura: {src_table_custos}")
print(f"Registros Bronze: {total_before_custos:,}")


###Transformação e Normalização
Aplicação de transformações para padronização de tipos e formatos. Coerção de `id_chamado` e `id_custo` para IntegerType, `custo` para DecimalType(18,8) e validação de consistência dos valores de custo.

In [0]:
# Conta linhas onde 'custo' não é apenas números, ponto ou vírgula, opcionalmente negativo
invalid_format_count = df_custos_src.filter(
    ~col("custo").rlike(r"^-?[0-9]+([.,][0-9]+)?$")
).count()

print(f"Número de linhas com custo em formato incorreto: {invalid_format_count:,}")

In [0]:
df_custos = df_custos_src \
    .withColumn("id_chamado_raw", safe_col(df_custos_src, "id_chamado")) \
    .withColumn("id_custo_raw", safe_col(df_custos_src, "id_custo")) \
    .withColumn("custo_raw", safe_col(df_custos_src, "custo")) \
    .withColumn("ingestion_timestamp", safe_col(df_custos_src, "ingestion_timestamp"))

# Conversão de tipos
df_custos = df_custos.withColumn(
    "id_chamado",
    safe_cast_int(col("id_chamado_raw"))
)

df_custos = df_custos.withColumn(
    "id_custo",
    safe_cast_int(col("id_custo_raw"))
)

# Tratamento da coluna custo (remover caracteres indesejados e converter para Decimal(18,8))
df_custos = df_custos.withColumn(
    "custo",
    regexp_replace(col("custo_raw"), "[^0-9,.-]", "")
)
df_custos = df_custos.withColumn(
    "custo",
    regexp_replace(col("custo"), ",", ".")
)
df_custos = df_custos.withColumn(
    "custo",
    col("custo").cast("decimal(18,8)")
)

# Filtragem de valores nulos
df_custos = df_custos.filter(
    col("id_chamado").isNotNull() &
    col("id_custo").isNotNull() &
    col("custo").isNotNull()
)

# Adiciona timestamp de processamento
df_custos = df_custos.withColumn("processed_timestamp", current_timestamp())

print("Transformações aplicadas na ft_custos")


### Validações de Qualidade

Aplicação de regras de validação para garantir a qualidade dos dados.  
Remoção de registros com `id_chamado`, `id_custo` ou `custo` nulos, além de valores inconsistentes na coluna `custo`.


In [0]:
# Contagem de nulos
null_id_chamado = df_custos.filter(col("id_chamado").isNull()).count()
null_id_custo = df_custos.filter(col("id_custo").isNull()).count()
null_custo = df_custos.filter(col("custo").isNull()).count()

removed_by_nulls = null_id_chamado + null_id_custo + null_custo

# Contagem de valores inválidos (custo < 0)
invalid_custo = df_custos.filter(col("custo") < 0).count()

print(f"Validação de campos obrigatórios e formato:")
print(f"  - id_chamado NULL: {null_id_chamado:,}")
print(f"  - id_custo NULL: {null_id_custo:,}")
print(f"  - custo NULL: {null_custo:,}")
print(f"  - custo inválido (< 0): {invalid_custo:,}")

# Filtragem de registros válidos
df_custos_valid = df_custos.filter(
    (col("id_chamado").isNotNull()) & (col("id_chamado") > 0) &
    (col("id_custo").isNotNull()) & (col("id_custo") > 0) &
    (col("custo").isNotNull()) & (col("custo") >= 0)
)

removed_by_validation_custos = total_before_custos - df_custos_valid.count()
print(f"\nRegistros removidos por validação: {removed_by_validation_custos:,}")
print(f"Registros válidos: {df_custos_valid.count():,}")


### Deduplicação

Remoção de registros duplicados na tabela `ft_custos`, mantendo apenas a versão mais recente.  
Ordenação por `ingestion_timestamp` para preservar o último registro ingerido.


In [0]:
# Contagem de duplicatas
dup_count_custos = df_custos_valid.groupBy("id_chamado", "id_custo").count().filter(col("count") > 1).count()
print(f"Duplicatas detectadas: {dup_count_custos:,}")

# Criação da janela para manter o registro mais recente
w_custos = Window.partitionBy("id_chamado", "id_custo").orderBy(
    col("ingestion_timestamp").desc_nulls_last() if "ingestion_timestamp" in df_custos_valid.columns
    else lit(datetime.now())
)

# Deduplicação
df_custos_dedup = df_custos_valid \
    .withColumn("rn", row_number().over(w_custos)) \
    .filter(col("rn") == 1) \
    .drop("rn")

removed_by_dedup_custos = df_custos_valid.count() - df_custos_dedup.count()
print(f"Registros removidos por deduplicação: {removed_by_dedup_custos:,}")


### Preparação Final

Adição de metadados de processamento na tabela `ft_custos` e seleção das colunas finais.  
Aplicação do schema Silver com constraints de NOT NULL e tipos padronizados.


In [0]:
# Adição do timestamp de processamento
df_custos_final = df_custos_dedup.withColumn("processed_timestamp", current_timestamp())

# Seleção das colunas finais
final_cols_custos = [
    "id_chamado",
    "id_custo",
    "custo",
    "processed_timestamp",
    "ingestion_timestamp"
]

df_custos_final = df_custos_final.select(*[c for c in final_cols_custos if c in df_custos_final.columns])

# Aplicação de tipos finais
df_custos_typed = df_custos_final \
    .withColumn("id_chamado", col("id_chamado").cast(IntegerType())) \
    .withColumn("id_custo", col("id_custo").cast(IntegerType())) \
    .withColumn("custo", col("custo").cast("decimal(18,8)")) \
    .withColumn("processed_timestamp", col("processed_timestamp").cast(TimestampType())) \
    .withColumn(
        "ingestion_timestamp",
        col("ingestion_timestamp").cast(TimestampType()) if "ingestion_timestamp" in df_custos_final.columns
        else lit(None).cast(TimestampType())
    )

print(f"Total de registros finais: {df_custos_typed.count():,}")


### Gravação na Camada Silver

Persistência da tabela `ft_custos` transformada em formato Delta na camada Silver.  
Modo `overwrite` com `overwriteSchema` para garantir que o schema esteja atualizado.


In [0]:
# Gravação na camada Silver
df_custos_typed.write.format("delta") \
    .mode("overwrite") \
    .option("overwriteSchema", "true") \
    .saveAsTable(tgt_table_custos)

silver_table_custos = spark.table(tgt_table_custos)
final_count_custos = silver_table_custos.count()
duplicates_custos = silver_table_custos.groupBy("id_chamado", "id_custo").count().filter(col("count") > 1).count()

print(f"Salvo em: {tgt_table_custos}")
print(f"Contagem final: {final_count_custos:,}")
print(f"Duplicatas na Silver: {duplicates_custos}")

display(silver_table_custos.limit(10))


### Relatório de Transformação

Resumo estatístico da transformação da tabela `ft_custos` da camada Bronze para Silver.  
Exibição de métricas de qualidade, registros válidos, removidos e taxa de aproveitamento dos dados.


In [0]:
# Total de registros removidos antes da deduplicação

total_removed_pre_dedup = removed_by_nulls + invalid_format_count

# Taxa de aproveitamento considerando validação + deduplicação
taxa_aproveitamento = (final_count_custos / total_before_custos * 100)

print("="*80)
print("RELATÓRIO DE TRANSFORMAÇÃO - FT_CUSTOS")
print("="*80)
print(f"Registros Bronze (origem): {total_before_custos:,}")
print(f"Registros removidos (validação de campos obrigatórios): {removed_by_nulls:,}")
print(f"Registros removidos (formato inválido): {invalid_format_count:,}")
print(f"Total removidos antes da deduplicação: {total_removed_pre_dedup:,}")
print(f"Registros removidos (deduplicação): {removed_by_dedup_custos:,}")
print(f"Registros Silver (destino): {final_count_custos:,}")
print(f"Taxa de aproveitamento: {taxa_aproveitamento:.2f}%")
print("="*80)
print(f"Timestamp de processamento: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print("="*80)
