<small style="font-size:10px;">

# üìå **Camada Prata**  

### **üîπ 1Ô∏è‚É£ Importa√ß√£o de Bibliotecas**  
Carrega fun√ß√µes do **PySpark** para tratamento de strings, limpeza de dados e manipula√ß√£o de colunas.  

### **üîπ 2Ô∏è‚É£ Execu√ß√£o de Vari√°veis Globais**  
Executa o notebook `Variaveis`, que cont√©m os caminhos do Data Lake.  

### **üîπ 3Ô∏è‚É£ Leitura dos Dados da Camada Bronze**  
Carrega os dados brutos armazenados na **Camada Bronze (Delta Lake)** e exibe o schema.  

### **üîπ 4Ô∏è‚É£ Tratamento de Valores Nulos**  
Substitui valores ausentes por padr√µes como `"Desconhecido"`, `"0.0"` e `"Sem_Site"`.  

### **üîπ 5Ô∏è‚É£ Adi√ß√£o da Origem dos Dados**  
Cria a coluna `"fonte_dados"` para indicar que os dados v√™m da **API Open Brewery DB**.  

### **üîπ 6Ô∏è‚É£ Remo√ß√£o de Colunas Desnecess√°rias**  
Exclui **`nm_estado_repetido` e `nm_rua`** por n√£o serem relevantes.  

### **üîπ 7Ô∏è‚É£ Cria√ß√£o de Novas Colunas**  
- `"Possui_Site?"` ‚Üí **Identifica se h√° um site cadastrado**.  
- `"Esta_Ativa?"` ‚Üí **Indica se a cervejaria est√° em opera√ß√£o**.  
- `"Localizacao"` ‚Üí **Concatena pa√≠s, estado e cidade para facilitar consultas**.  

### **üîπ 8Ô∏è‚É£ Remo√ß√£o de Duplicatas**  
Remove registros **com o mesmo nome, localiza√ß√£o, endere√ßo e CEP**.  

### **üîπ 9Ô∏è‚É£ Padroniza√ß√£o de CEP**  
Remove **tra√ßos e espa√ßos** para manter um formato uniforme.  

### **üîπ üîü Padroniza√ß√£o de Nomes**  
Ajusta `"nm_cervejaria"` para **inicial mai√∫scula + remo√ß√£o de espa√ßos extras**.  

### **üîπ 1Ô∏è‚É£1Ô∏è‚É£ Reordena√ß√£o de Colunas**  
Organiza as colunas em uma estrutura **mais intuitiva** para consumo.  

### **üîπ 1Ô∏è‚É£2Ô∏è‚É£ Particionamento e Salvamento**  
Os dados s√£o **reparticionados por `Localizacao`** e salvos na **Camada Prata** em **Delta Lake** para otimiza√ß√£o.  

---

‚úÖ **Agora os dados est√£o limpos, padronizados e otimizados para a Camada Ouro!** üöÄ  

</small>


In [0]:
from pyspark.sql.functions import when, concat, lit,regexp_replace,trim,initcap

In [0]:
%run "./Variaveis"  

In [0]:
df = spark.read.format("delta").load(f"{camada_bronze}cervejarias")
display(df)
df.printSchema()

In [0]:
df = df.fillna({
    "ds_endereco_1":"Desconhecido",
    "ds_endereco_2":"Desconhecido",
    "ds_endereco_3":"Desconhecido",
    "nr_longitude" :"0.0",
    "nr_latitude"  :"0.0",
    "nr_telefone" :"Desconhecido",
    "ds_site_web" : "Sem_Site",
})

In [0]:
df = df.withColumn("fonte_dados", lit("API Open Brewery DB"))


In [0]:
df_dropColumn = df.drop("nm_estado_repetido", "nm_rua")

In [0]:
df_possui_site = df_dropColumn.withColumn(
    "Possui_Site?", when(df_dropColumn.ds_site_web == "Sem_Site", False).otherwise(True)
)

In [0]:
df_esta_ativa = df_possui_site.withColumn(
    "Esta_Ativa?",
    when(df_possui_site.nm_tipo_cervejaria == "closed", False).otherwise(True),
)

In [0]:
df_localizacao = df_esta_ativa.withColumn("Localizacao",concat("nm_pais",lit(" - "),"nm_estado",lit(" - "),"nm_cidade"))

In [0]:
df_localizacao = df_localizacao.dropDuplicates(["nm_cervejaria","Localizacao","cd_cep","ds_endereco_1"])


In [0]:
df_cep = df_localizacao.withColumn("cd_cep", regexp_replace(df_localizacao.cd_cep,"-",""))
df_cep = df_cep.withColumn("cd_cep", regexp_replace(df_cep.cd_cep," ",""))


In [0]:
df_padronizar_nomeCervejaria = df_cep.withColumn("nm_cervejaria", trim(initcap(df_cep.nm_cervejaria)))


In [0]:
df_reordenar = df_padronizar_nomeCervejaria.select(
    "id_cervejaria",
    "nm_cervejaria",
    "nm_tipo_cervejaria",
    "Esta_Ativa?",
    "Localizacao",
    "ds_endereco_1",
    "ds_endereco_2",
    "ds_endereco_3",
    "nr_longitude",
    "nr_latitude",
    "nr_telefone",
    "Possui_Site?",
    "ds_site_web",
    "cd_cep",
    "nm_pais",
    "nm_estado",
    "nm_cidade",
    "fonte_dados",
    "data_ingestao"
)
df_reordenar.repartition(10,"Localizacao")
display(df_reordenar)


In [0]:
df_prata = (
    df_reordenar.write.format("delta")
    .mode("overwrite")
    .partitionBy("Localizacao")
    .save(f"{camada_prata}cervejarias")
)