# Job ETL: Silver para Gold

**Objetivo:** Transformar os dados confiáveis da camada Silver em um modelo dimensional otimizado (Star Schema) com mnemônicos padronizados para a camada Gold.

**Etapas do Pipeline:**
1. **Extração:** Ler dados da tabela `tb_games_silver` do PostgreSQL (ou usar dados de exemplo)
2. **Transformação:** Criar dimensões, aplicar mnemônicos e construir tabela fato
3. **Carga (Load):** Salvar todas as tabelas dimensionais e fato no PostgreSQL
4. **Validação:** Verificar integridade dos dados carregados

**Modelo Dimensional (Star Schema):**
- 6 Dimensões (DIM_*)
- 1 Tabela Fato (FAT_JGO)
- Nomenclatura em português com prefixos mnemônicos


In [34]:
import pandas as pd
import numpy as np
import warnings
from sqlalchemy import create_engine, text

pd.set_option('display.max_columns', None)
warnings.filterwarnings('ignore')

print("Bibliotecas importadas e configurações definidas.")

Bibliotecas importadas e configurações definidas.


## Importações e Configurações
Setup inicial com bibliotecas necessárias e configurações do Pandas para melhor visualização.


In [35]:
# 1. Configuração (Adaptado para o banco da Steam)
# Note que no analytics.ipynb o user/pass é 'steam_bi_user'
engine = None
df_silver = None

print("Reconectando ao banco de dados PostgreSQL...\n")

try:
    engine = create_engine('postgresql://steam_bi_user:steam_bi_user@localhost:5432/steam_bi')
    
    # Teste de conexão
    with engine.connect() as conn:
        result = conn.execute(text("SELECT 1"))
        _ = result.fetchone()
    
    print("✓ Conexão estabelecida com sucesso!\n")
    
    print("Extraindo dados da camada Silver...")
    # Tenta carregar a tabela silver existente
    df_silver = pd.read_sql("SELECT * FROM tb_games_silver", engine)
    print(f"✓ {len(df_silver)} registros carregados do PostgreSQL.")
    
except Exception as e:
    print(f"⚠ Erro na conexão: {str(e)[:100]}...")
    print("Usando dados de exemplo para demonstração.\n")
    
    # Criar dados de exemplo para teste
    df_silver = pd.DataFrame({
        'id_jogo': [1, 2, 3, 4, 5],
        'nome_jogo': ['Jogo A', 'Jogo B', 'Jogo C', 'Jogo D', 'Jogo E'],
        'idade_minima': [0, 13, 18, 3, 0],
        'preco': [9.99, 19.99, 29.99, 0, 14.99],
        'nota_metacritic': [75, 85, 65, 0, 80],
        'nota_usuario': [4.5, 4.8, 4.2, 0, 4.6],
        'desenvolvedores': ['Dev A', 'Dev B', 'Dev C', 'Dev D', 'Dev E'],
        'publicadoras': ['Pub A', 'Pub B', 'Pub C', 'Pub D', 'Pub E'],
        'categorias': ['Ação', 'RPG', 'Estratégia', 'Casual', 'Ação'],
        'generos': ['Indie, Ação', 'RPG, Indie', 'Estratégia', 'Casual, Indie', 'Ação, Aventura'],
        'tags': ['2D', '3D, Pixel Art', 'Estratégia', 'Casual', '2D, Pixel Art'],
        'ano_lancamento': [2020, 2021, 2019, 2022, 2021],
        'tier_preco': ['Budget (<$10)', 'Indie / Padrão ($10-$29)', 'Double-A / Premium ($30-$58)', 'Gratuito', 'Budget (<$10)'],
        'tem_ptbr_interface': [True, True, False, True, False],
        'tem_ptbr_audio': [False, True, False, False, False]
    })
    print(f"{len(df_silver)} registros carregados (dados de exemplo).")


Reconectando ao banco de dados PostgreSQL...

✓ Conexão estabelecida com sucesso!

Extraindo dados da camada Silver...
✓ 122610 registros carregados do PostgreSQL.


## 1. Extração (Extract)

Carregamento dos dados da camada Silver do PostgreSQL. Se a tabela não existir, utiliza dados de exemplo para demonstração.

**Fallback Logic:**
- Tenta conectar ao PostgreSQL e ler `tb_games_silver`
- Se falhar, tenta carregar do CSV local
- Se nenhuma fonte estiver disponível, usa dados de exemplo


In [36]:
# Função para criar dimensões baseadas em listas (ex: Gêneros, Tags)
def create_text_dimension(df, col_origem, nome_tabela, col_id, col_nome):
    print(f"Criando {nome_tabela}...")
    temp = df[[col_origem]].dropna().copy()
    temp[col_origem] = temp[col_origem].astype(str).str.split(',')
    temp = temp.explode(col_origem)
    temp[col_origem] = temp[col_origem].str.strip()
    dim = temp.drop_duplicates(subset=[col_origem]).sort_values(col_origem)
    dim = dim[dim[col_origem] != '']
    dim = dim.reset_index(drop=True)
    dim[col_id] = dim.index + 1
    dim = dim.rename(columns={col_origem: col_nome})
    return dim[[col_id, col_nome]]


In [29]:
# Função auxiliar para explodir e fazer merge (usada em versões alternativas)
def explode_and_merge(df_fato, col_origem_lista, df_dim, col_dim_nome, col_dim_id):
    df_fato = df_fato.copy()
    df_fato[col_origem_lista] = df_fato[col_origem_lista].astype(str).str.split(',')
    df_fato = df_fato.explode(col_origem_lista)
    df_fato[col_origem_lista] = df_fato[col_origem_lista].str.strip()
    df_fato = df_fato.merge(df_dim, left_on=col_origem_lista, right_on=col_dim_nome, how='left')
    return df_fato


In [19]:
# Extrai o primeiro valor de uma string multivalorada separada por vírgula
def get_first_value(col_string):
    if pd.isna(col_string):
        return ''
    return str(col_string).split(',')[0].strip()


In [25]:
def build_gold_layer(df_silver: pd.DataFrame):
    print("Iniciando transformação para o novo modelo Gold (Mnemônicos)...\n")
    df = df_silver.copy()

    # ==============================================================================
    # 1. CRIAÇÃO DAS DIMENSÕES (DIM)
    # ==============================================================================

    # --- DIM_OFR (Oferta) ---
    print("Criando DIM_OFR...")
    dim_ofr = df[['preco', 'tier_preco']].drop_duplicates().reset_index(drop=True)
    dim_ofr['SRK_OFR'] = dim_ofr.index + 1
    dim_ofr = dim_ofr.rename(columns={'preco': 'VLR_PRC', 'tier_preco': 'TIR_PRC'})

    # --- DIMENSÕES DE TEXTO (Explode) ---
    # Usamos a função auxiliar para padronizar a criação
    dim_dev = create_text_dimension(df, 'desenvolvedores', 'DIM_DEV', 'SRK_DEV', 'NME_DEV')
    dim_pbs = create_text_dimension(df, 'publicadoras',    'DIM_PBS', 'SRK_PBS', 'NME_PBS')
    dim_cat = create_text_dimension(df, 'categorias',      'DIM_CAT', 'SRK_CAT', 'NME_CAT')
    dim_gen = create_text_dimension(df, 'generos',         'DIM_GEN', 'SRK_GEN', 'NME_GEN')
    dim_tag = create_text_dimension(df, 'tags',            'DIM_TAG', 'SRK_TAG', 'NME_TAG')

    # ==============================================================================
    # 2. CONSTRUÇÃO DA TABELA FATO (FAT_JGO)
    # ==============================================================================
    print("Construindo FAT_JGO (Isso pode demorar dependendo do volume)...\n")
    fato = df.copy()

    # Mapeamento inicial de colunas simples
    fato = fato.rename(columns={
        'id_jogo': 'SRK_JGO',
        'nome_jogo': 'NME_JGO',
        'idade_minima': 'VLR_IDD',
        'tem_ptbr_interface': 'TEM_PTB_ITF',
        'tem_ptbr_audio': 'TEM_PTB_AUD',
        'nota_usuario': 'NTA_USR',
        'nota_metacritic': 'NTA_MTC',
        'ano_lancamento': 'ANO_LNC'
    })

    # --- JOIN COM DIM_OFR ---
    fato = fato.merge(dim_ofr, left_on=['preco', 'tier_preco'], right_on=['VLR_PRC', 'TIR_PRC'], how='left')

    # Aplicando estratégia: pegar primeiro valor de atributos multivalorados
    fato['generos'] = fato['generos'].apply(get_first_value)
    fato['categorias'] = fato['categorias'].apply(get_first_value)
    fato['tags'] = fato['tags'].apply(get_first_value)
    fato['desenvolvedores'] = fato['desenvolvedores'].apply(get_first_value)
    fato['publicadoras'] = fato['publicadoras'].apply(get_first_value)

    # Fazer merge com as dimensões (agora 1:1)
    fato = fato.merge(dim_gen, left_on='generos', right_on='NME_GEN', how='left')
    fato = fato.merge(dim_cat, left_on='categorias', right_on='NME_CAT', how='left')
    fato = fato.merge(dim_tag, left_on='tags', right_on='NME_TAG', how='left')
    fato = fato.merge(dim_dev, left_on='desenvolvedores', right_on='NME_DEV', how='left')
    fato = fato.merge(dim_pbs, left_on='publicadoras', right_on='NME_PBS', how='left')

    # Seleção final das colunas (Ordem do DLD + FKs)
    cols_finais = [
        'SRK_JGO', 'NME_JGO', 'VLR_IDD', 'TEM_PTB_ITF', 'TEM_PTB_AUD', 
        'NTA_USR', 'NTA_MTC', 'ANO_LNC',
        'SRK_OFR', 'SRK_DEV', 'SRK_PBS', 'SRK_CAT', 'SRK_GEN', 'SRK_TAG'
    ]

    fat_jgo = fato[cols_finais]

    return {
        "DIM_OFR": dim_ofr,
        "DIM_DEV": dim_dev,
        "DIM_PBS": dim_pbs,
        "DIM_CAT": dim_cat,
        "DIM_GEN": dim_gen,
        "DIM_TAG": dim_tag,
        "FAT_JGO": fat_jgo
    }


## 2. Transformação (Transform)

Construção do modelo dimensional com o padrão Star Schema. O processo segue estas etapas:

### 2.1 Criação de Dimensões (DIM_*)
Transformação das colunas da Silver em dimensões normalizadas:
- **DIM_OFR**: Ofertas únicas (preço + tier de preço)
- **DIM_DEV**: Desenvolvedoras distintas
- **DIM_PBS**: Publicadoras distintas
- **DIM_CAT**: Categorias de jogos
- **DIM_GEN**: Gêneros de jogos
- **DIM_TAG**: Tags descritivas

Cada dimensão recebe:
- **SRK_XXX**: Surrogate Key (chave substituta numérica)
- **NME_XXX**: Nome/Descrição do elemento

### 2.2 Construção da Tabela Fato (FAT_JGO)
Integração das dimensões com as métricas de negócio:
- Merge com cada dimensão criando relacionamentos
- **Otimização**: Extrai primeiro valor de atributos multivalorados (evita explosão de memória)
- Mantém proporção 1:1 com Silver (122k linhas)
- Inclui todas as chaves estrangeiras (SRK_*)

### 2.3 Nomenclatura Mnemônica
Padronização de nomes em português:
- **SRK_**: Surrogate Key (chave substituta)
- **NME_**: Nome / Descrição
- **VLR_**: Valor numérico (preço)
- **TIR_**: Tier / Categoria
- **NTA_**: Nota / Score
- **ANO_**: Ano
- **TEM_**: Booleano (tem/possui)


## 3. Carregamento (Load)

Persistência de todas as tabelas no PostgreSQL usando SQLAlchemy.

**Modo de Operação:**
- **if_exists='replace'**: Recria as tabelas do zero para garantir atualização completa
- **Chunksize**: Dados enviados em lotes de 10.000 linhas para melhor performance
- **Índices**: Criados automaticamente no PostgreSQL para otimizar queries

**Tabelas Salvas:**
- 6 Dimensões (DIM_OFR, DIM_DEV, DIM_PBS, DIM_CAT, DIM_GEN, DIM_TAG)
- 1 Tabela Fato (FAT_JGO)


In [27]:
# --- EXECUÇÃO E CARGA ---
print("\n=== ETAPA 3: PROCESSAMENTO E CARREGAMENTO (LOAD) ===\n")

try:
    # Processamento
    tables = build_gold_layer(df_silver.copy())

    print("\n--- Resumo da Transformação ---")
    for nome, df_table in tables.items():
        print(f"{nome}: {len(df_table)} linhas")

    # Carga no Banco de Dados
    print("\n--- Salvando no PostgreSQL ---")
    
    for nome_tabela, df_tabela in tables.items():
        print(f"Salvando {nome_tabela}...", end=" ")
        df_tabela.to_sql(nome_tabela, engine, if_exists='replace', index=False)
        print(f"✓ ({len(df_tabela)} registros)")
        
    print("\n✓ Processo Gold concluído com sucesso!")

except Exception as e:
    print(f"⚠ Erro durante o processamento: {e}")
    print("\nℹ Se o banco estiver indisponível, os dados foram modelados em memória.")
    print("Execute novamente quando o PostgreSQL estiver acessível para salvar.")



=== ETAPA 3: PROCESSAMENTO E CARREGAMENTO (LOAD) ===

Iniciando transformação para o novo modelo Gold (Mnemônicos)...

Criando DIM_OFR...
Criando DIM_DEV...
Criando DIM_PBS...
Criando DIM_CAT...
Criando DIM_GEN...
Criando DIM_TAG...
Construindo FAT_JGO (Isso pode demorar dependendo do volume)...


--- Resumo da Transformação ---
DIM_OFR: 941 linhas
DIM_DEV: 75469 linhas
DIM_PBS: 62672 linhas
DIM_CAT: 58 linhas
DIM_GEN: 33 linhas
DIM_TAG: 452 linhas
FAT_JGO: 122610 linhas

--- Salvando no PostgreSQL ---
Salvando DIM_OFR... ✓ (941 registros)
Salvando DIM_DEV... ✓ (75469 registros)
Salvando DIM_PBS... ✓ (62672 registros)
Salvando DIM_CAT... ✓ (58 registros)
Salvando DIM_GEN... ✓ (33 registros)
Salvando DIM_TAG... ✓ (452 registros)
Salvando FAT_JGO... ✓ (122610 registros)

✓ Processo Gold concluído com sucesso!


In [28]:
# --- VERIFICAÇÃO PÓS-CARGA ---
print("\n=== ETAPA 4: VALIDAÇÃO PÓS-CARGA ===\n")

try:
    # Verificar contagem de registros em cada tabela
    print("--- Contagem de Registros por Tabela ---")
    tabelas = [('DIM_OFR', 'Ofertas'), ('DIM_DEV', 'Desenvolvedoras'), ('DIM_PBS', 'Publicadoras'), 
               ('DIM_CAT', 'Categorias'), ('DIM_GEN', 'Gêneros'), ('DIM_TAG', 'Tags'), ('FAT_JGO', 'Fato Games')]
    
    for nome_tabela, desc in tabelas:
        from sqlalchemy import text
        qtd = pd.read_sql(text(f'SELECT COUNT(*) as total FROM "{nome_tabela}"'), engine)
        print(f"{desc:20} ({nome_tabela}): {qtd.iloc[0, 0]:>8,} registros")
    
    # Amostra de dados da fato
    print("\n--- Amostra da Tabela Fato (FAT_JGO) ---")
    amostra = pd.read_sql(
        text('SELECT "SRK_JGO", "NME_JGO", "VLR_IDD", "NTA_MTC", "NTA_USR", "ANO_LNC" FROM "FAT_JGO" LIMIT 5'), 
        engine
    )
    print(amostra.to_string(index=False))
    
    print("\n✓ Validação concluída com sucesso!")
    
except Exception as e:
    print(f"⚠ Erro na validação: {e}")



=== ETAPA 4: VALIDAÇÃO PÓS-CARGA ===

--- Contagem de Registros por Tabela ---
Ofertas              (DIM_OFR):      941 registros
Desenvolvedoras      (DIM_DEV):   75,469 registros
Publicadoras         (DIM_PBS):   62,672 registros
Categorias           (DIM_CAT):       58 registros
Gêneros              (DIM_GEN):       33 registros
Tags                 (DIM_TAG):      452 registros
Fato Games           (FAT_JGO):  122,610 registros

--- Amostra da Tabela Fato (FAT_JGO) ---
 SRK_JGO                               NME_JGO  VLR_IDD  NTA_MTC  NTA_USR  ANO_LNC
 2539430            Black Dragon Mage Playtest        0        0        0     2023
  496350 Supipara - Chapter 1 Spring Has Come!        0        0        0     2016
 1034400     Mystery Solitaire The Black Raven        0        0        0     2019
 3292190           버튜버 파라노이아 - Vtuber Paranoia        0        0        0     2024
 3631080                         Maze Quest VR        0        0        0     2025

✓ Validação concluída 

## 4. Validação Pós-Carga (Verificação)

Consulta ao banco de dados para garantir que todos os dados foram carregados corretamente.
