# **Camada Silver (Cleaned / Refined Layer)**

Dados j√° limpos, validados e com estrutura√ß√£o melhorada.

Normalmente inclui tratamento de erros, remo√ß√£o de duplicatas e padroniza√ß√£o.

Serve para an√°lises intermedi√°rias e alimenta√ß√£o de modelos.

In [0]:
%sql
SELECT current_catalog();

In [0]:
spark.sql("USE CATALOG pipe1")

# Tratamento de dados da LCB

‚úÖ O que √© particionamento?
Particionamento √© a t√©cnica de organizar fisicamente os dados em pastas separadas com base nos valores de uma ou mais colunas (ex: ano, m√™s, regi√£o etc).
üìÇ Exemplo:
Se voc√™ particionar uma tabela pela coluna ano, o Delta Lake vai salvar os dados assim:
ano=2023/part-0001.parquet  
ano=2024/part-0002.parquet  
Se particionar por ano e mes:
/ano=2024/mes=01/part-001.snappy.parquet  
/ano=2024/mes=02/part-002.snappy.parquet  
üöÄ Por que o particionamento √© importante no Delta Lake?
O Delta Lake usa o particionamento para acelerar as consultas, pois ele:

1. üîç Reduz o volume de dados lido
Se voc√™ filtrar WHERE ano = 2024, o Spark l√™ s√≥ a pasta ano=2024, ignorando as demais.

Isso acelera muito a leitura e economiza recursos de CPU/mem√≥ria.

2. üßπ Organiza melhor os dados
Ideal para dados temporais (ano, m√™s, dia), regionais (estado, cidade) ou categorias.

Ajuda na manuten√ß√£o e gerenciamento do data lake.

3. ‚öôÔ∏è Facilita atualiza√ß√£o incremental
Se cada parti√ß√£o representa um m√™s, por exemplo, √© poss√≠vel atualizar apenas aquele m√™s com overwrite sem afetar os demais.

4. üìä Melhora performance de ferramentas BI
Power BI, Metabase, Superset... todas se beneficiam de datasets bem particionados (menos tempo de carregamento e resposta).
‚ö†Ô∏è Cuidado: particionar demais tamb√©m atrapalha
Particionar por colunas de alta cardinalidade (como CPF, ID de cliente, ou timestamps completos) cria milhares de pastas, e isso piora a performance.

Sempre particione por colunas com baixo n√∫mero de valores √∫nicos e que voc√™ costuma usar em filtros.

‚úÖ Resumo visual:
Sem particionamento	Com particionamento por ano, mes
Spark l√™ todos os arquivos	Spark l√™ s√≥ os arquivos relevantes
Consulta lenta	Consulta r√°pida
Uso excessivo de recursos	Economia de CPU e mem√≥ria
Mais dif√≠cil de manter	Organiza√ß√£o mais clara e modular

üß† O que √© o Z-Ordering?
√â um tipo especial de ordena√ß√£o multidimensional dos dados dentro de cada parti√ß√£o Delta. Ele reorganiza os arquivos internamente, colocando juntos os registros que compartilham valores semelhantes nas colunas mais consultadas.

√â inspirado no Z-order curve, uma t√©cnica de indexa√ß√£o espacial que melhora a localidade dos dados em disco.

 Exemplo pr√°tico (sem Z-ordering):
Voc√™ tem uma tabela com milh√µes de linhas e faz consultas com filtros assim:

SELECT * FROM vendas WHERE cidade = 'S√£o Paulo'

Se os dados est√£o desordenados, o Spark precisa ler muitos arquivos, mesmo que apenas alguns contenham 'S√£o Paulo'.

‚úÖ Exemplo com Z-Ordering:
Se voc√™ aplica:
OPTIMIZE minha_tabela ZORDER BY (cidade)

O Delta Lake reorganiza os dados internamente, agrupando os registros de 'S√£o Paulo' nos mesmos arquivos ou blocos.

A pr√≥xima vez que voc√™ rodar o SELECT, o Spark ler√° menos arquivos, reduzindo o tempo e custo da consulta.

üß™ Quando usar Z-Ordering?
A tabela j√° tem particionamento por colunas como ano, mes, e voc√™ quer melhorar o desempenho de filtros por colunas n√£o particionadas (ex: cidade, produto_id, cliente_id).

Voc√™ faz muitas leituras com filtros em uma ou mais colunas espec√≠ficas.

A tabela tem grande volume de dados e voc√™ quer otimizar leitura sem alterar a parti√ß√£o f√≠sica.

üìå Sintaxe no Databricks:

OPTIMIZE minha_tabela
ZORDER BY (coluna1, coluna2)

Ou em PySpark:
spark.sql("""
  OPTIMIZE pipe1.silver.slv_despesas_lcb_contemporaneo
  ZORDER BY (condominio, tipo_despesa)
""")

‚ö†Ô∏è Observa√ß√µes:
Item	Z-Ordering
N√≠vel de atua√ß√£o	Dentro de arquivos/parquet
Altera a parti√ß√£o f√≠sica	‚ùå N√£o
Aumenta o custo de escrita	‚úÖ Sim (reordena arquivos)
Melhora leitura	‚úÖ Muito, quando bem usado

‚úÖ Conclus√£o:
Z-Ordering = reorganiza√ß√£o interna dos dados em Delta Lake para tornar consultas filtradas mais r√°pidas.

Use quando:

Voc√™ tem filtros repetitivos por coluna(s).

Sua tabela j√° est√° estabilizada e voc√™ quer otimizar leitura.

In [0]:
from pyspark.sql.functions import col, date_format, round, year, month, to_timestamp, to_date, substring

# 1. Ler tabela Bronze
df_bronze = spark.table("pipe1.bronze.brz_despesas_lcb_contemporaneo")

# 2. Remover a coluna _line
df = df_bronze.drop("_line")

# 3. Transformar _fivetran_synced para string com timestamp formatado
df = df.withColumn("_fivetran_synced", date_format(col("_fivetran_synced"), "yyyy-MM-dd'T'HH:mm:ss"))

# 4. Garantir que 'periodo' esteja no formato string "yyyy-MM"
# (caso venha como date ou timestamp, usamos date_format)
df = df.withColumn("periodo", date_format(col("periodo"), "yyyy-MM"))

# 5. Arredondar colunas num√©ricas
df = df.withColumn("kwh_dia", round(col("kwh_dia"), 2))
df = df.withColumn("total_agua", round(col("total_agua"), 2))

# 6. Substituir valores nulos por 0
df = df.fillna(0)

# 7. Criar colunas de parti√ß√£o ano e m√™s extra√≠das da string 'periodo'
df = df.withColumn("ano", substring(col("periodo"), 1, 4).cast("int")) \
       .withColumn("mes", substring(col("periodo"), 6, 2).cast("int"))

# 8. Salvar como Delta particionado por ano e m√™s
df.write.format("delta") \
    .mode("overwrite") \
    .partitionBy("ano", "mes") \
    .saveAsTable("pipe1.silver.slv_despesas_lcb_contemporaneo")


In [0]:
# dropar a tabela
#spark.sql("DROP TABLE IF EXISTS pipe1.silver.slv_despesas_lcb_contemporaneo")



In [0]:
df_silver = spark.table("pipe1.silver.slv_despesas_lcb_contemporaneo")
display(df_silver)

# Tratamento de dados da Timbauvas

In [0]:
%sql
select * from workspace.google_drive.dados_despesas_home_despesa_timbauvas

In [0]:
from pyspark.sql.functions import col, to_date, to_timestamp, date_format, round, substring
from pyspark.sql.types import DoubleType

# 1. Carregar dados da camada Bronze
df = spark.table("pipe1.bronze.brz_despesas_timbauvas")

# 2. Remover a coluna _line
df = df.drop("_line")

# 3. Transformar _fivetran_synced para yyyy-MM-dd e timestamp formatado
df = df.withColumn("_fivetran_synced", date_format(col("_fivetran_synced"), "yyyy-MM-dd'T'HH:mm:ss"))

# 4. Alterar a coluna 'periodo' para string no formato ano-m√™s ("yyyy-MM")
df = df.withColumn("periodo", date_format(to_timestamp(col("periodo")), "yyyy-MM"))

# 5. Arredondar kwh_dia para 2 casas decimais
df = df.withColumn("kwh_dia", round(col("kwh_dia"), 2))

# 6. Converter despesa_de_luz para n√∫mero com 2 casas decimais
df = df.withColumn("despesa_de_luz", round(col("despesa_de_luz").cast(DoubleType()), 2))

# 7. Substituir todos os valores nulos por 0
df = df.fillna(0)

# 8. Arredondar consumo_kg para 2 casas decimais
df = df.withColumn("consumo_de_agua", round(col("consumo_de_agua"), 2))

# 9. Arredondar total_agua para 2 casas decimais
df = df.withColumn("total_agua", round(col("total_agua"), 2))

# 10. Criar colunas 'ano' e 'mes' extra√≠das da string 'periodo'
df = df.withColumn("ano", substring(col("periodo"), 1, 4).cast("int")) \
       .withColumn("mes", substring(col("periodo"), 6, 2).cast("int"))

# 11. Gravar na camada Silver particionado por ano e m√™s
df.write.format("delta") \
    .mode("overwrite") \
    .partitionBy("ano", "mes") \
    .saveAsTable("pipe1.silver.slv_despesas_timbauvas")


In [0]:
df_silver = spark.table("pipe1.silver.slv_despesas_timbauvas")
display(df_silver)

In [0]:
# dropar a tabela
#spark.sql("DROP TABLE IF EXISTS pipe1.silver.slv_despesas_timbauvas")