# üöÄ Demo: Arquitetura Medallion no Databricks
Nesta demonstra√ß√£o, vamos simular um pipeline de dados b√°sico utilizando os conceitos de **Camada Bronze** e **Camada Silver**.

**O que vamos fazer:**
1. **Ingest√£o:** Trazer os dados brutos para o ambiente Spark.
2. **Camada Bronze:** Salvar os dados originais com data de recebimento.
3. **Camada Silver:** Limpar, padronizar e preparar os dados para an√°lise.

---

In [0]:
import pandas as pd
from pyspark.sql import functions as F

# 1. Link do Dataset (Cat√°logo de t√≠tulos)
url = "https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2021/2021-04-20/netflix_titles.csv"

# 2. Leitura via Pandas (√ötil para coletar dados externos via URL)
pdf = pd.read_csv(url)

# 3. Convers√£o para Spark DataFrame
# Transformamos em Spark para processar grandes volumes de dados de forma distribu√≠da
df_raw = spark.createDataFrame(pdf)

print("‚úÖ Dados carregados com sucesso no Spark!")

## ü•â Camada Bronze (Raw)
A **Camada Bronze** armazena o dado bruto. 
- **Regra:** N√£o alteramos o conte√∫do original.
- **A√ß√£o:** Apenas adicionamos uma coluna de controle para saber *quando* o dado foi coletado.

In [0]:
# Criar o banco de dados se n√£o existir
spark.sql("CREATE DATABASE IF NOT EXISTS bronze")

# Adicionamos uma coluna de controle (_ingestion_date) para auditoria
bronze_df = df_raw.withColumn("_ingestion_date", F.current_timestamp())

# Salvando no formato Delta (Padr√£o do Databricks)
bronze_df.write.format("delta").mode("overwrite").saveAsTable("bronze.plotly_raw")

print("‚úÖ Tabela BRONZE criada!")
display(spark.table("bronze.plotly_raw").limit(5))

## ü•à Camada Silver (Clean/Refined)
Na **Camada Silver**, os dados passam por uma "filtragem". O objetivo √© deixar os dados prontos para os analistas de neg√≥cios.

**Transforma√ß√µes aplicadas:**
1. Padroniza√ß√£o de nomes (snake_case e min√∫sculas).
2. Remo√ß√£o de registros completamente vazios.

In [0]:
# 1. Prepara√ß√£o do ambiente
spark.sql("CREATE DATABASE IF NOT EXISTS silver")

# 2. Leitura da camada anterior (Bronze)
bronze_data = spark.table("bronze.plotly_raw")

# 3. Limpeza e Padroniza√ß√£o
silver_df = bronze_data

# Loop para renomear colunas: remove espa√ßos e coloca em min√∫sculas
for column in silver_df.columns:
    new_name = column.lower().replace(" ", "_")
    silver_df = silver_df.withColumnRenamed(column, new_name)

# Remove linhas onde todos os valores s√£o nulos
silver_df = silver_df.dropna(how="all")

# 4. Escrita na Camada Silver
silver_df.write.format("delta").mode("overwrite").saveAsTable("silver.plotly_clean")

print("‚úÖ Tabela SILVER processada e pronta para uso!")
display(spark.table("silver.plotly_clean").limit(10))