In [None]:
from pyspark.sql import functions as F

CATALOGO = "spotify_analytics"
SCHEMA = "gold"
TABELA = "dm_artist"
FULL_NAME = f"{CATALOGO}.{SCHEMA}.{TABELA}"

### Configuração

Define catálogo, schema e nome da dimensão de artistas (camada Gold - Star Schema).

### DDL - Dimensão Artist

Cria dimensão de artistas para Star Schema:
- **cd_artist** (PK): Surrogate key (autoincrement)
- **id_artist_spotify**: Natural key (ID original do Spotify)
- **nm_artist**: Nome do artista
- **qt_tracks**: Quantidade de tracks do artista (coluna derivada)
- **ds_popularidade**: Classificação descritiva baseada em popularidade média

**Importante**: Dimensão usada no fato ft_track_popularity.

**Decisão Arquitetural**: Usar surrogate key (cd_artist) ao invés de natural key (id_artist_spotify) para:
1. Independência de sistemas externos
2. Performance em JOINs (INTEGER vs STRING)
3. Facilitar SCD (Slowly Changing Dimensions) no futuro

In [None]:
spark.sql(f"""
CREATE OR REPLACE TABLE {FULL_NAME} (
    cd_artist BIGINT GENERATED ALWAYS AS IDENTITY COMMENT 'PK: Surrogate key autoincrement.',
    id_artist_spotify STRING COMMENT 'Natural key: ID original do Spotify.',
    nm_artist STRING COMMENT 'Nome do artista.',
    qt_tracks BIGINT COMMENT 'Quantidade total de tracks do artista no dataset.',
    ds_popularidade STRING COMMENT 'Classificação: Desconhecido / Emergente / Popular / Muito Popular / Superstar.',
    CONSTRAINT pk_dm_artist PRIMARY KEY (cd_artist)
)
COMMENT 'Dimensão de artistas para análise no Star Schema.';
""")

print(f"✅ Tabela {FULL_NAME} criada com sucesso!")