## ü•à Camada Silver ‚Äì Validar e Tratar


####üß™ Camada Silver ‚Äì Tratamento e Enriquecimento

In [0]:
# Importa√ß√£o
from pyspark.sql.functions import trim, col, when, lit
from pyspark.sql.types import StringType

# Leitura das tabelas bronze
df_transacoes = spark.table("adb_cliente_savana_prd.daniel_bronze.transacoes")
df_clientes = spark.table("adb_cliente_savana_prd.daniel_bronze.clientes")

# Join entre as tabelas de transa√ß√µes e clientes, mantendo apenas as transa√ß√µes que possuem data n√£o nula, Remove duplicatas para garantir que cada transa√ß√£o seja √∫nica.
df_silver = df_transacoes.join(
    df_clientes,
    col("transacoes.ID_Transacao") == col("clientes.Transacao"),
    "inner"
).filter(
    col("clientes.Dt_Transacao").isNotNull()
).distinct()

# Limpeza de espa√ßos extras
for campo in ["Nome", "Cidade", "Meio_de_Pgmt"]:
    if campo in df_silver.columns:
        df_silver = df_silver.withColumn(campo, trim(col(campo)))

# Corre√ß√µes manuais de erros de Nome conhecidos
df_silver = df_silver.withColumn("Nome",
    when(col("Nome") == "Ana", "Ana Costa")
    .when(col("Nome") == "Carlos", "Carlos Pereira")
    .when(col("Nome") == "Fernanda", "Fernanda Gomes")
    .when(col("Nome") == "Gabriel", "Gabriel Martins")
    .when(col("Nome") == "Jos", "Jos√© da Silva")
    .when(col("Nome") == "Jos da Silva", "Jos√© da Silva")
    .when(col("Nome") == "Maria", "Maria Oliveira")
    .when(col("Nome") == "Mariana", "Mariana Almeida")
    .when(col("Nome") == "Ricardo", "Ricardo Lima")
    .when(col("Nome") == "Roberto", "Roberto Santos")
    .when(col("Nome") == "Tatiane", "Tatiane Ramos")
    .otherwise(col("Nome"))
)

df_silver = df_silver.withColumn("Cidade",
    when(col("Cidade") == "So Paulo", "S√£o Paulo")
    .when(col("Cidade") == "Bralia", "Bras√≠lia")
    .when(col("Cidade") == "Braslia", "Bras√≠lia")
    .when(col("Cidade") == "Goinia", "Goi√¢nia")
    .when(col("Cidade") == "Joo Pessoa", "Jo√£o Pessoa")
    .otherwise(col("Cidade"))
)

def padronizar_nulls(df):
    for campo in df.schema.names:
        if df.schema[campo].dataType == StringType():
            df = df.withColumn(campo, when(trim(col(campo)) == "", None).otherwise(col(campo)))
    return df

# Qualquer Dado que estiver Duplicado ele ser√° Eliminado
df_drop_duplicado = df_silver.dropDuplicates([
    "ID", "Nome", "Transacao", "ID_Transacao", "dt_transacao", "Cidade"
])

# Aplicar ao df_silver
df_silver = padronizar_nulls(df_silver)

# Exibir
display(df_silver)

In [0]:
# Conta total de registros
total_registros = df_silver.count()

# Conta total de IDs distintos
ids_unicos = df_silver.select("ID").distinct().count()

# Valida√ß√£o
if total_registros == ids_unicos:
    print("‚úÖ Todos os registros da coluna 'ID' s√£o diferentes (√∫nicos).")
else:
    print(f"‚ö†Ô∏è Existem IDs duplicados. Total de registros: {total_registros}, IDs √∫nicos: {ids_unicos}")


####üß™ Camada Silver ‚Äì Quebra de Duplicados

In [0]:
# Qualquer Dado que estiver Duplicado ele ser√° Eliminado
df_silver_finalizado = df_silver.dropDuplicates([
    "ID", "Nome", "Transacao", "ID_Transacao", "dt_transacao", "Cidade"
])
display(df_silver_finalizado)

In [0]:
# Conta total de registros
total_registros = df_silver_finalizado.count()

# Conta total de IDs distintos
ids_unicos = df_silver_finalizado.select("ID").distinct().count()

# Valida√ß√£o
if total_registros == ids_unicos:
    print(" Todos os registros da coluna 'ID' s√£o diferentes (√∫nicos).")
else:
    print(f" Existem IDs duplicados. Total de registros: {total_registros}, IDs √∫nicos: {ids_unicos}")

####üß™ Camada Silver ‚Äì Subindo a Tabela

In [0]:
# (Opcional) Remover a Tabela antiga visando Evitar Conflitos
spark.sql("DROP TABLE IF EXISTS adb_cliente_savana_prd.daniel_silver.BaseCliente_Transacoes")

# Salvar na camada Silver
df_silver_finalizado.write.format("delta").mode("overwrite") \
        .option("mergeSchema", "true").saveAsTable("adb_cliente_savana_prd.daniel_silver.BaseClientes_Transacoes")


### üö® Alerta

###### Observa√ß√µes: A coluna ID_Cliente aqui representa o cliente que fez a transa√ß√£o. Os IDs dos clientes v√£o at√© pelo menos 389, enquanto na tabela de clientes o maior ID parece ser bem menor (em torno de 5 nas primeiras linhas).

###‚ùó Problema de Consist√™ncia:
###### N√£o √© poss√≠vel fazer a jun√ß√£o diretamente, pois: A tabela de transa√ß√µes possui ID_Cliente com valores que n√£o existem na tabela de clientes. O campo Transacao da tabela de clientes parece representar o n√∫mero da transa√ß√£o, mas n√£o h√° liga√ß√£o clara com ID_Transacao.

### ‚úÖ Recomenda√ß√µes:
###### Verifique a origem das tabelas: parece que elas vieram de fontes diferentes ou uma delas est√° desatualizada/incompleta. Corrija a tabela de clientes ou reavalie a tabela de transa√ß√µes. A √∫nica forma vi√°vel de fazer a jun√ß√£o √© se: O campo ID da tabela de clientes bater com o ID_Cliente da tabela de transa√ß√µes.

### üèÅ Decis√£o:
###### O projeto √© considerado um Prototipo com fins academicos, foi criado esse Markdown justamente para alertar sobre isso, Algumas deci√ß√µes aplicadas aqui seriam desconsideradas em um Projeto Real

### ‚ÑπÔ∏è Fontes:
###### Para chegar as devidas conclus√µes foi usado algumas rodas de conversar com o Time sobre eticas de um Engenheiro de Dados, Valida√ß√£o junto a uma Inteligencia Artificial (ChatGPT)

### üíº Projeto Alternativo
###### O Projeto alternativo ultiliza de uma Base de Dados mais coesa e n√£o sofre com esse Tipo de Problema da Vers√£o do Desafio