# Notebook de Inicializa√ß√£o - Spotify Analytics Data Lakehouse

## Prop√≥sito
Este notebook realiza a configura√ß√£o inicial do ambiente de Data Lakehouse, criando a estrutura de diret√≥rios e schemas necess√°rios para o projeto Spotify Analytics.

## O que este notebook faz:
1. Cria estrutura de diret√≥rios locais para organiza√ß√£o dos notebooks
2. Cria o cat√°logo `spotify_analytics` no Databricks
3. Cria os schemas das camadas da Medallion Architecture:
   - **landing**: Arquivos raw (JSON brutos do Spotify)
   - **bronze**: Dados brutos ingeridos com metadata
   - **silver**: Dados limpos e validados
   - **gold**: Agrega√ß√µes para analytics e BI (inclui views da camada diamond)

4. Cria volume `raw_data` para upload de arquivos JSON

**Observa√ß√£o importante sobre a camada Diamond:**
- A camada Diamond **N√ÉO possui schema pr√≥prio**
- As views da Diamond s√£o criadas dentro do schema `gold`
- Exemplo: `spotify_analytics.gold.vw_track_analytics`
- Diamond √© composta apenas de views (n√£o h√° tabelas f√≠sicas)

## Quando executar:
- **UMA VEZ** na cria√ß√£o inicial do projeto
- Sempre que resetar o ambiente completo

## Pr√≥ximo passo:
Ap√≥s executar este notebook:
1. Fa√ßa upload dos arquivos JSON em `/Volumes/spotify_analytics/landing/raw_data/`
2. Execute os notebooks de DDL para criar as tabelas (bronze, silver, gold)
3. Execute os notebooks de carga na ordem: bronze ‚Üí silver ‚Üí gold ‚Üí diamond

## 1. Cria√ß√£o da Estrutura de Diret√≥rios

In [0]:
import os

base_path = os.getcwd()

dirs = {
    "src": ["landing", "bronze", "silver", "gold", "diamond"],
    "ddl": ["bronze", "silver", "gold"]
}

for parent, subs in dirs.items():
    for sub in subs:
        full_path = os.path.join(base_path, parent, sub)
        os.makedirs(full_path, exist_ok=True)
        print(f"Diret√≥rio criado: {full_path}")

## 2. Cria√ß√£o do Cat√°logo e Schemas

In [0]:
catalog_name = "spotify_analytics"
schemas = ["landing", "bronze", "silver", "gold"]

# Cria o cat√°logo
spark.sql(f"CREATE CATALOG IF NOT EXISTS {catalog_name}")
spark.sql(f"USE CATALOG {catalog_name}")
print(f"‚úì Cat√°logo criado e selecionado: {catalog_name}")

# Cria os schemas
for schema in schemas:
    spark.sql(f"CREATE SCHEMA IF NOT EXISTS {schema}")
    print(f"‚úì Schema garantido: {catalog_name}.{schema}")

# Cria volume para armazenar arquivos raw JSON na camada landing
spark.sql(f"""
    CREATE VOLUME IF NOT EXISTS {catalog_name}.landing.raw_data
    COMMENT 'Volume para armazenar arquivos JSON brutos do Spotify'
""")
print(f"‚úì Volume criado: {catalog_name}.landing.raw_data")
print(f"\nüìÅ Caminho para upload: /Volumes/{catalog_name}/landing/raw_data/")

## 3. Verifica√ß√£o do Ambiente

In [None]:
# Lista todos os schemas criados
print("\n=== Schemas Criados ===")
spark.sql("SHOW SCHEMAS").show(truncate=False)

print("\n‚úÖ Inicializa√ß√£o conclu√≠da com sucesso!")
print("\nüìã Pr√≥ximos passos:")
print("   1. Execute os DDLs de cria√ß√£o de tabelas em ddl/bronze/")
print("   2. Execute os DDLs de cria√ß√£o de tabelas em ddl/silver/")
print("   3. Execute os DDLs de cria√ß√£o de tabelas em ddl/gold/")
print("   4. Execute os notebooks de carga em src/ na ordem: bronze ‚Üí silver ‚Üí gold ‚Üí diamond")
print("\nüí° Lembre-se: A camada diamond n√£o tem DDLs (s√£o apenas views criadas nos notebooks src/diamond/)")