In [None]:
from pyspark.sql import functions as F

CATALOGO = "spotify_analytics"
SCHEMA = "gold"
TABELA = "dm_track"
FULL_NAME = f"{CATALOGO}.{SCHEMA}.{TABELA}"

### Configuração

Define catálogo, schema e nome da dimensão de tracks (camada Gold - Star Schema).

### DDL - Dimensão Track

Cria dimensão de tracks para Star Schema:
- **cd_track** (PK): Surrogate key (autoincrement)
- **id_track_spotify**: Natural key (ID original do Spotify)
- **nm_track**: Nome da música
- **nm_album**: Nome do álbum
- **ds_album_type**: Tipo do álbum (album, single, compilation)
- **ds_duracao**: Classificação descritiva da duração

**Importante**: Dimensão usada no fato ft_track_popularity.

**Decisão Arquitetural**: Desnormalizar informações do álbum na dimensão track para:
1. Simplificar queries de BI
2. Evitar JOIN adicional (não temos dimensão dm_album)
3. Trade-off consciente: duplicação vs performance de leitura

In [None]:
spark.sql(f"""
CREATE OR REPLACE TABLE {FULL_NAME} (
    cd_track BIGINT GENERATED ALWAYS AS IDENTITY COMMENT 'PK: Surrogate key autoincrement.',
    id_track_spotify STRING COMMENT 'Natural key: ID original do Spotify.',
    nm_track STRING COMMENT 'Nome da track/música.',
    nm_album STRING COMMENT 'Nome do álbum.',
    ds_album_type STRING COMMENT 'Tipo: album, single ou compilation.',
    ds_duracao STRING COMMENT 'Classificação: Curta / Média / Longa.',
    CONSTRAINT pk_dm_track PRIMARY KEY (cd_track)
)
COMMENT 'Dimensão de tracks (músicas) para análise no Star Schema.';
""")

print(f"✅ Tabela {FULL_NAME} criada com sucesso!")