# Job ETL: Raw para Silver

**Objetivo:** Processar os dados brutos, aplicar regras de negócio e estruturar a tabela confiável (`tb_games_silver`).

**Etapas do Pipeline:**
1.  **Extração:** Ler o arquivo CSV bruto da pasta `data_layer/raw`.
2.  **Transformação:** limpeza do arquivo e criação de colunas intermediárias de análise.
3.  **Carga (Load):** Salvar os dados tratados no PostgreSQL.

Importações e Configurações

In [1]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
import warnings

pd.set_option('display.max_columns', None)
warnings.filterwarnings('ignore')

print("Bibliotecas importadas e configurações definidas.")

Bibliotecas importadas e configurações definidas.


## 1. Extração (Extract)
Leitura do arquivo CSV bruto. Utilizamos `low_memory=False` para evitar erros de tipagem na leitura inicial e definimos manualmente os nomes das colunas originais para garantir que o Pandas leia tudo corretamente.

CSV -> Dataframe Pandas, com correção nas colunas.

In [2]:
caminho_csv = '../data_layer/raw/games.csv'

print("Carregando o CSV para o Pandas...")

colunas_originais = [
    'AppID', 'Name', 'Release date', 'Estimated owners', 'Peak CCU', 
    'Required age', 'Price', 'Discount', 'DLC count', 'About the game', 
    'Supported languages', 'Full audio languages', 'Reviews', 'Header image', 
    'Website', 'Support url', 'Support email', 'Windows', 'Mac', 'Linux', 
    'Metacritic score', 'Metacritic url', 'User score', 'Positive', 'Negative', 
    'Score rank', 'Achievements', 'Recommendations', 'Notes', 
    'Average playtime forever', 'Average playtime two weeks', 
    'Median playtime forever', 'Median playtime two weeks', 
    'Developers', 'Publishers', 'Categories', 'Genres', 'Tags', 
    'Screenshots', 'Movies'
]

try:
    df = pd.read_csv(
        caminho_csv, 
        header=0, 
        names=colunas_originais,
        low_memory=False
    )
    print(f"Dataset carregado com sucesso.")
    print(f"Dimensões Iniciais: {df.shape[0]} linhas e {df.shape[1]} colunas.")
except FileNotFoundError:
    print("Erro: Arquivo não encontrado. Verifique o caminho.")

df.head(3)

Carregando o CSV para o Pandas...
Dataset carregado com sucesso.
Dimensões Iniciais: 122611 linhas e 40 colunas.


Unnamed: 0,AppID,Name,Release date,Estimated owners,Peak CCU,Required age,Price,Discount,DLC count,About the game,Supported languages,Full audio languages,Reviews,Header image,Website,Support url,Support email,Windows,Mac,Linux,Metacritic score,Metacritic url,User score,Positive,Negative,Score rank,Achievements,Recommendations,Notes,Average playtime forever,Average playtime two weeks,Median playtime forever,Median playtime two weeks,Developers,Publishers,Categories,Genres,Tags,Screenshots,Movies
0,2539430,Black Dragon Mage Playtest,"Aug 1, 2023",0 - 0,0,0,0.0,0,0,,[],[],,https://shared.akamai.steamstatic.com/store_it...,,,,True,False,False,0,,0,0,0,,0,0,,0,0,0,0,,,,,,https://shared.akamai.steamstatic.com/store_it...,
1,496350,Supipara - Chapter 1 Spring Has Come!,"Jul 29, 2016",0 - 20000,0,0,5.24,65,0,"Springtime, April: when the cherry trees come ...",['English'],[],,https://shared.akamai.steamstatic.com/store_it...,http://mangagamer.org/supipara,http://mangagamer.com,support@mangagamer.com,True,False,False,0,,0,252,3,,0,231,,8,0,8,0,minori,MangaGamer,"Single-player,Steam Trading Cards,Steam Cloud,...",Adventure,"Adventure,Visual Novel,Anime,Cute",https://shared.akamai.steamstatic.com/store_it...,
2,1034400,Mystery Solitaire The Black Raven,"May 6, 2019",0 - 20000,0,0,4.99,0,0,"Immerse yourself in the most beloved, mystical...","['English', 'French', 'German', 'Russian']",[],,https://shared.akamai.steamstatic.com/store_it...,https://www.facebook.com/8FloorGames/,https://www.facebook.com/8FloorGames,support@8floor.net,True,True,False,0,,0,21,3,,0,0,,0,0,0,0,Somer Games,8floor,"Single-player,Family Sharing",Casual,"Casual,Card Game,Solitaire,Puzzle,Hidden Objec...",https://shared.akamai.steamstatic.com/store_it...,


## 2 Transformação e Higienização dos Dados
Nesta etapa, reaplicamos a limpeza feita no analytics, aplicamos as regras de negócio e garantimos a integridade referencial dos dados para a camada Silver. O processo consiste em cinco operações sequenciais:
1. **Renomeação das Colunas:** em português, com *snake_case*.
2.  **Tratamento de NaN:** Preenchimento ou remoção de valores nulos (NaN) em todas as colunas.
3.  **Integridade Estrutural:** Remoção de registros duplicados (baseado no campo de id) e exclusão de jogos sem nome, pois são essenciais para a identificação do registro.
5.  **Definição de Schema:** criação de colunas intermediárias para análise, exclusão das que não serão usadas e seleção do dataset final.


In [3]:
def classificar_tier_mercado(valor):
    if valor == 0:
        return 'Gratuito'
    elif valor < 10:
        return 'Budget (<$10)'
    elif valor < 30:
        return 'Indie / Padrão ($10-$29)'
    elif valor < 59: 
        return 'Double-A / Premium ($30-$58)'
    else:
        return 'AAA / Lançamento (+$59)'

print("iniciando transformação e limpeza...")

# Renomear colunas
mapa_colunas = {
    'AppID': 'id_jogo',
    'Name': 'nome_jogo',
    'Release date': 'data_lancamento',
    'Estimated owners': 'qtde_donos',
    'Peak CCU': 'pico_usuarios',
    'Required age': 'idade_minima',
    'Price': 'preco',
    'Discount': 'preco_desconto',
    'DLC count': 'qtde_dlcs', 
    'About the game': 'descricao',
    'Supported languages': 'idiomas_suportados',
    'Full audio languages': 'idiomas_audio_suportados',
    'Reviews': 'avaliacao',
    'Header image': 'url_imagem_capa',
    'Website': 'website',
    'Support url': 'url_suporte',
    'Support email': 'email_suporte',
    'Windows': 'windows',
    'Mac': 'mac',
    'Linux': 'linux',
    'Metacritic score': 'nota_metacritic',
    'Metacritic url': "url_metacritic",
    'User score': 'nota_usuario',
    'Positive': 'avaliacoes_positivas',
    'Negative': 'avaliacoes_negativas',
    'Score rank': 'recomendacoes_usuario',
    'Achievements': 'qtde_conquistas',
    'Recommendations': 'recomendacoes',
    'Notes': 'observacoes',
    'Average playtime forever': 'media_tempo_de_jogo_desde_sempre',
    'Average playtime two weeks': 'media_tempo_de_jogo_desde_duas_semanas',
    'Median playtime forever': 'mediana_tempo_de_jogo_desde_sempre',
    'Median playtime two weeks': 'mediana_tempo_de_jogo_desde_duas_semanas',
    'Developers': 'desenvolvedores',
    'Publishers': 'publicadoras',
    'Categories': 'categorias',
    'Genres': 'generos',
    'Tags': 'tags',
    'Screenshots': 'urls_screenshot',
    'Movies': 'filmes'
}

df = df.rename(columns=mapa_colunas)

# Apagar colunas com muitos NaN
df = df.drop(columns=["filmes", "observacoes", "recomendacoes_usuario", "url_metacritic", "url_suporte", "website", "avaliacao"])

# Preencher ou excluir registros com NaN.
df.dropna(subset=["nome_jogo"], inplace=True)
df.fillna({
    "descricao": "",
    "url_imagem_capa": "urls",
    "email_suporte": f"https://shared.akamai.steamstatic.com/store_item_assets/steam/apps/{df['id_jogo']}/header.jpg",
    "desenvolvedores": "",
    "publicadoras": "",
    "categorias": "",
    "generos": "",
    "tags": "",
    "urls_screenshot": "",
    }, inplace=True)

# Apagar duplicatas
df = df.drop_duplicates(subset=['id_jogo'], keep='first')

# Criação de colunas intermediárias
df['ano_lancamento'] = pd.to_datetime(df['data_lancamento'], errors='coerce').dt.year
df['tier_preco'] = df['preco'].apply(classificar_tier_mercado)
df['tem_ptbr_interface'] = df['idiomas_suportados'].astype(str).str.contains('Portuguese - Brazil', case=False, regex=False)
df['tem_ptbr_audio'] = df['idiomas_audio_suportados'].astype(str).str.contains('Portuguese - Brazil', case=False, regex=False)

# Remoção de colunas que não vão para a silver
df = df.drop(columns=["qtde_donos", "pico_usuarios", 'data_lancamento', 'preco_desconto', 'qtde_dlcs', 'descricao', 'idiomas_suportados', 'idiomas_audio_suportados', 'url_imagem_capa', 'email_suporte', 'windows', 'mac', 'linux', 'avaliacoes_positivas', 'avaliacoes_negativas', 'qtde_conquistas', 'recomendacoes', 'media_tempo_de_jogo_desde_sempre', 'media_tempo_de_jogo_desde_duas_semanas', 'mediana_tempo_de_jogo_desde_sempre', 'mediana_tempo_de_jogo_desde_duas_semanas', 'urls_screenshot'])

print(df.info())

iniciando transformação e limpeza...
<class 'pandas.core.frame.DataFrame'>
Index: 122610 entries, 0 to 122610
Data columns (total 15 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   id_jogo             122610 non-null  int64  
 1   nome_jogo           122610 non-null  object 
 2   idade_minima        122610 non-null  int64  
 3   preco               122610 non-null  float64
 4   nota_metacritic     122610 non-null  int64  
 5   nota_usuario        122610 non-null  int64  
 6   desenvolvedores     122610 non-null  object 
 7   publicadoras        122610 non-null  object 
 8   categorias          122610 non-null  object 
 9   generos             122610 non-null  object 
 10  tags                122610 non-null  object 
 11  ano_lancamento      122610 non-null  int32  
 12  tier_preco          122610 non-null  object 
 13  tem_ptbr_interface  122610 non-null  bool   
 14  tem_ptbr_audio      122610 non-null  bool   
dtypes:

In [None]:
from collections import Counter
sorted([len(i) for i in df["genero"]], reverse=True)

[534,
 522,
 489,
 478,
 477,
 477,
 472,
 469,
 469,
 459,
 450,
 445,
 444,
 443,
 441,
 437,
 429,
 427,
 426,
 424,
 421,
 415,
 415,
 415,
 413,
 413,
 410,
 405,
 404,
 403,
 399,
 399,
 398,
 398,
 397,
 397,
 396,
 396,
 395,
 395,
 395,
 392,
 391,
 391,
 391,
 390,
 390,
 388,
 387,
 386,
 386,
 384,
 383,
 383,
 382,
 382,
 382,
 381,
 381,
 380,
 378,
 378,
 378,
 377,
 376,
 376,
 376,
 375,
 375,
 374,
 372,
 372,
 370,
 370,
 368,
 368,
 368,
 368,
 368,
 367,
 366,
 366,
 364,
 364,
 363,
 363,
 362,
 362,
 361,
 360,
 360,
 360,
 360,
 359,
 359,
 358,
 357,
 357,
 357,
 356,
 356,
 355,
 355,
 355,
 354,
 354,
 354,
 354,
 354,
 353,
 353,
 353,
 353,
 353,
 353,
 353,
 353,
 352,
 351,
 351,
 351,
 351,
 351,
 350,
 350,
 349,
 348,
 348,
 348,
 348,
 347,
 347,
 347,
 347,
 347,
 347,
 347,
 345,
 345,
 344,
 344,
 344,
 343,
 343,
 342,
 342,
 342,
 342,
 342,
 341,
 341,
 341,
 340,
 340,
 339,
 339,
 339,
 339,
 339,
 339,
 339,
 338,
 338,
 338,
 338,
 338,
 338

## 3. Carregamento (Load)
Conectamos ao container PostgreSQL via SQLAlchemy e salvamos a tabela `tb_games_silver`.
* **Modo:** `replace` (Se a tabela existir, ela será recriada do zero para garantir atualização total).
* **Chunksize:** Enviamos dados em lotes de 1000 linhas para melhor performance.

In [14]:
print("Conectando ao PostgreSQL...")

conn_string = 'postgresql://steam_bi_user:steam_bi_user@localhost:5432/steam_bi'
engine = create_engine(conn_string)

try:
    print("Iniciando carga no banco de dados...")
    
    df.to_sql(
        'tb_games_silver', 
        engine, 
        if_exists='replace',
        index=False, 
        chunksize=1000
    )
    
    print("Carga Concluída! Tabela 'tb_games_silver' criada/atualizada com sucesso.")
    
except Exception as e:
    print(f"Erro fatal na carga: {e}")

Conectando ao PostgreSQL...
Iniciando carga no banco de dados...
Carga Concluída! Tabela 'tb_games_silver' criada/atualizada com sucesso.


### 3.1 Verificação Pós-Carga
Consultamos o banco de dados diretamente para garantir que os dados estão lá e acessíveis via SQL.

In [15]:
try:
    qtd = pd.read_sql("SELECT COUNT(*) FROM tb_games_silver", engine)
    
    amostra = pd.read_sql("SELECT id_jogo, nome_jogo, preco, ano_lancamento FROM tb_games_silver LIMIT 5", engine)
    
    print(f"\n--- Relatório Final ---")
    print(f"Registros no Banco: {qtd.iloc[0,0]}")
    print("Amostra dos dados salvos:")
    display(amostra)
    
except Exception as e:
    print(f"Erro ao verificar dados: {e}")


--- Relatório Final ---
Registros no Banco: 122610
Amostra dos dados salvos:


Unnamed: 0,id_jogo,nome_jogo,preco,ano_lancamento
0,2539430,Black Dragon Mage Playtest,0.0,2023
1,496350,Supipara - Chapter 1 Spring Has Come!,5.24,2016
2,1034400,Mystery Solitaire The Black Raven,4.99,2019
3,3292190,버튜버 파라노이아 - Vtuber Paranoia,8.99,2024
4,3631080,Maze Quest VR,4.99,2025
