## Camada Silver – Tratamento e Padronização

Este notebook aplica regras de limpeza, conversão de tipos e padronização textual aos dados da CEAP, mantendo a granularidade original.



**Objetivo da camada Silver:** 
Transformar os dados brutos da camada Bronze em dados confiáveis, tipados, padronizados e consistentes, mantendo a granularidade original, sem ainda aplicar modelagem analítica.

**Visão geral do mapeamento**

| Ação       | Bronze    | Silver                   |
| ---------- | --------- | ------------------------ |
| Estrutura  | CSV cru   | Tabela Spark estruturada |
| Tipos      | String    | Tipos corretos           |
| Datas      | Texto ISO | Date                     |
| Valores    | String    | Decimal                  |
| Duplicatas | Mantidas  | Avaliadas                |
| Outliers   | Mantidos  | Identificados            |
| Semântica  | Original  | Preservada               |


Na camada Silver foram aplicadas transformações de padronização de tipos, normalização textual, conversão de datas e valores monetários, além da avaliação de valores nulos e inconsistentes. Não foram realizadas agregações ou alterações de granularidade, mantendo-se a correspondência de uma linha por despesa.

**Tabela Silver proposta:**

SILVER_DESPESA_CEAP

####Mapeamento campo a campo:
**Identificadores e metadados**
| Campo Bronze | Tipo Bronze | Campo Silver | Tipo Silver | Regra          |
| ------------ | ----------- | ------------ | ----------- | -------------- |
| idDocumento  | string      | id_documento | string      | trim, não nulo |
| ano          | string/int  | ano          | int         | cast int       |

**Parlamentar**
| Campo Bronze    | Campo Silver     | Tipo   | Regra        |
| --------------- | ---------------- | ------ | ------------ |
| idDeputado      | id_parlamentar   | int    | cast         |
| nomeParlamentar | nome_parlamentar | string | trim + upper |
| siglaPartido    | sigla_partido    | string | trim + upper |
| siglaUF         | sigla_uf         | string | trim + upper |
| legislatura     | legislatura      | int    | cast         |

**Datas**
| Campo Bronze | Campo Silver | Tipo | Regra     |
| ------------ | ------------ | ---- | --------- |
| datEmissao   | data_despesa | date | parse ISO |
| mes          | mes          | int  | cast      |
| ano          | ano          | int  | cast      |

**Valores monetários**
| Campo Bronze | Campo Silver  | Tipo          | Regra |
| ------------ | ------------- | ------------- | ----- |
| vlrDocumento | valor_despesa | decimal(12,2) | cast  |
| vlrGlosa     | valor_glosa   | decimal(12,2) | cast  |
| vlrLiquido   | valor_liquido | decimal(12,2) | cast  |

**Tipo de despesa**
| Campo Bronze   | Campo Silver      | Tipo   | Regra |
| -------------- | ----------------- | ------ | ----- |
| codTipoDespesa | id_tipo_despesa   | int    | cast  |
| txtDescricao   | descricao_despesa | string | trim  |

**Fornecedor**
| Campo Bronze      | Campo Silver        | Tipo   | Regra           |
| ----------------- | ------------------- | ------ | --------------- |
| txtFornecedor     | fornecedor          | string | trim            |
| cnpjCpfFornecedor | cnpj_cpf_fornecedor | string | somente dígitos |
| txtCNPJCPF        | cnpj_cpf_formatado  | string | manter original |

**Localização da despesa**
| Campo Bronze | Campo Silver | Tipo   | Regra        |
| ------------ | ------------ | ------ | ------------ |
| txtMunicipio | municipio    | string | trim         |
| txtUF        | uf_despesa   | string | trim + upper |
| txtPais      | pais         | string | default = BR |

**Documento fiscal**
| Campo Bronze | Campo Silver     | Tipo   | Regra  |
| ------------ | ---------------- | ------ | ------ |
| urlDocumento | url_documento    | string | manter |
| numDocumento | numero_documento | string | trim   |


In [0]:
spark.sql("USE CATALOG mvp_ed_ceap")
spark.sql("USE SCHEMA layer_silver")

DataFrame[]

In [0]:
from pyspark.sql.functions import col, to_date, trim, upper

df_bronze = spark.table("mvp_ed_ceap.layer_bronze.bronze_ceap_despesas")

df_silver = (
    df_bronze
    .withColumn("id_documento", trim(col("ideDocumento")))
    .withColumn("id_parlamentar", col("idDeputado").cast("int"))
    .withColumn("nome_parlamentar", upper(trim(col("nomeParlamentar"))))
    .withColumn("sigla_partido", upper(trim(col("siglaPartido"))))
    .withColumn("sigla_uf", upper(trim(col("siglaUF"))))
    .withColumn("data_despesa", to_date(col("datEmissao")))
    .withColumn("valor_despesa", col("vlrDocumento").cast("decimal(12,2)"))
    .withColumn("id_tipo_despesa", col("codTipoDespesa").cast("int"))
)

(
    df_silver
    .write
    .mode("overwrite")
    .format("delta")
    .saveAsTable("silver_ceap_despesas")
)


[0;31m---------------------------------------------------------------------------[0m
[0;31mAnalysisException[0m                         Traceback (most recent call last)
File [0;32m<command-4728930721504161>, line 22[0m
[1;32m      3[0m df_bronze [38;5;241m=[39m spark[38;5;241m.[39mtable([38;5;124m"[39m[38;5;124mmvp_ed_ceap.layer_bronze.bronze_ceap_despesas[39m[38;5;124m"[39m)
[1;32m      5[0m df_silver [38;5;241m=[39m (
[1;32m      6[0m     df_bronze
[1;32m      7[0m     [38;5;241m.[39mwithColumn([38;5;124m"[39m[38;5;124mid_documento[39m[38;5;124m"[39m, trim(col([38;5;124m"[39m[38;5;124midDocumento[39m[38;5;124m"[39m)))
[0;32m   (...)[0m
[1;32m     14[0m     [38;5;241m.[39mwithColumn([38;5;124m"[39m[38;5;124mid_tipo_despesa[39m[38;5;124m"[39m, col([38;5;124m"[39m[38;5;124mcodTipoDespesa[39m[38;5;124m"[39m)[38;5;241m.[39mcast([38;5;124m"[39m[38;5;124mint[39m[38;5;124m"[39m))
[1;32m     15[0m )
[1;32m     17[0m (
[1;