# Job ETL: Raw para Silver

**Objetivo:** Processar os dados brutos, aplicar regras de negócio e estruturar a tabela confiável (`tb_games_silver`).

**Etapas do Pipeline:**
1.  **Extração:** Ler o arquivo CSV bruto da pasta `data_layer/raw`.
2.  **Transformação:**
    * Remover duplicatas (Garantir unicidade por `AppID`).
    * **Regra de Preço:** Converter "Free", "Demo" e textos para `0.0` e limpar símbolos ($).
    * **Regra de Data:** Padronizar datas bagunçadas para o formato `YYYY-MM-DD` (ISO 8601).
    * **Renomeação:** Padronizar colunas para *snake_case* (padrão de banco de dados).
3.  **Carga (Load):** Salvar os dados tratados no PostgreSQL.

Importações e Configurações

In [1]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
import warnings

pd.set_option('display.max_columns', None)
warnings.filterwarnings('ignore')

print("Bibliotecas importadas e configurações definidas.")

Bibliotecas importadas e configurações definidas.


## 1. Extração (Extract)
Leitura do arquivo CSV bruto. Utilizamos `low_memory=False` para evitar erros de tipagem na leitura inicial e definimos manualmente os nomes das colunas originais para garantir que o Pandas leia tudo corretamente.

CSV -> Dataframe Pandas, com correção nas colunas.

In [2]:
caminho_csv = '../data_layer/raw/games.csv'

print("Carregando o CSV para o Pandas...")

colunas_originais = [
    'AppID', 'Name', 'Release date', 'Estimated owners', 'Peak CCU', 
    'Required age', 'Price', 'Discount', 'DLC count', 'About the game', 
    'Supported languages', 'Full audio languages', 'Reviews', 'Header image', 
    'Website', 'Support url', 'Support email', 'Windows', 'Mac', 'Linux', 
    'Metacritic score', 'Metacritic url', 'User score', 'Positive', 'Negative', 
    'Score rank', 'Achievements', 'Recommendations', 'Notes', 
    'Average playtime forever', 'Average playtime two weeks', 
    'Median playtime forever', 'Median playtime two weeks', 
    'Developers', 'Publishers', 'Categories', 'Genres', 'Tags', 
    'Screenshots', 'Movies'
]

try:
    df = pd.read_csv(
        caminho_csv, 
        header=0, 
        names=colunas_originais,
        low_memory=False
    )
    print(f"Dataset carregado com sucesso.")
    print(f"Dimensões Iniciais: {df.shape[0]} linhas e {df.shape[1]} colunas.")
except FileNotFoundError:
    print("Erro: Arquivo não encontrado. Verifique o caminho.")

df.head(3)

Carregando o CSV para o Pandas...
Dataset carregado com sucesso.
Dimensões Iniciais: 122611 linhas e 40 colunas.


Unnamed: 0,AppID,Name,Release date,Estimated owners,Peak CCU,Required age,Price,Discount,DLC count,About the game,Supported languages,Full audio languages,Reviews,Header image,Website,Support url,Support email,Windows,Mac,Linux,Metacritic score,Metacritic url,User score,Positive,Negative,Score rank,Achievements,Recommendations,Notes,Average playtime forever,Average playtime two weeks,Median playtime forever,Median playtime two weeks,Developers,Publishers,Categories,Genres,Tags,Screenshots,Movies
0,2539430,Black Dragon Mage Playtest,"Aug 1, 2023",0 - 0,0,0,0.0,0,0,,[],[],,https://shared.akamai.steamstatic.com/store_it...,,,,True,False,False,0,,0,0,0,,0,0,,0,0,0,0,,,,,,https://shared.akamai.steamstatic.com/store_it...,
1,496350,Supipara - Chapter 1 Spring Has Come!,"Jul 29, 2016",0 - 20000,0,0,5.24,65,0,"Springtime, April: when the cherry trees come ...",['English'],[],,https://shared.akamai.steamstatic.com/store_it...,http://mangagamer.org/supipara,http://mangagamer.com,support@mangagamer.com,True,False,False,0,,0,252,3,,0,231,,8,0,8,0,minori,MangaGamer,"Single-player,Steam Trading Cards,Steam Cloud,...",Adventure,"Adventure,Visual Novel,Anime,Cute",https://shared.akamai.steamstatic.com/store_it...,
2,1034400,Mystery Solitaire The Black Raven,"May 6, 2019",0 - 20000,0,0,4.99,0,0,"Immerse yourself in the most beloved, mystical...","['English', 'French', 'German', 'Russian']",[],,https://shared.akamai.steamstatic.com/store_it...,https://www.facebook.com/8FloorGames/,https://www.facebook.com/8FloorGames,support@8floor.net,True,True,False,0,,0,21,3,,0,0,,0,0,0,0,Somer Games,8floor,"Single-player,Family Sharing",Casual,"Casual,Card Game,Solitaire,Puzzle,Hidden Objec...",https://shared.akamai.steamstatic.com/store_it...,


## 2. Transformação (Transform) - Funções de Limpeza
Aqui definimos as regras de negócio descobertas na fase de Analytics:
1.  **Tratar Preço:** O dataset mistura números e textos ("Free to Play"). Convertemos tudo para Float.
2.  **Tratar Data:** Datas vêm em formatos variados (ex: "Nov 2023"). O Pandas padroniza isso.

In [3]:
def limpar_preco(valor):
    if pd.isna(valor):
        return 0.0
    
    valor_str = str(valor).lower().strip()
    
    if any(x in valor_str for x in ['free', 'demo', 'play', 'install']):
        return 0.0
    
    try:
        limpo = valor_str.replace('$', '').replace('€', '').replace(',', '')
        return float(limpo)
    except ValueError:
        return 0.0

print(f"Teste 'Free to Play': {limpar_preco('Free to Play')}")
print(f"Teste '$19.99': {limpar_preco('$19.99')}")

Teste 'Free to Play': 0.0
Teste '$19.99': 19.99


## 2.1 Transformação e Higienização dos Dados
Nesta etapa, aplicamos as regras de negócio e garantimos a integridade referencial dos dados para a camada Silver. O processo consiste em cinco operações sequenciais:

1.  **Integridade Estrutural:** Remoção de registros duplicados (baseado no `AppID`) e exclusão de jogos sem nome (`Name`), pois são essenciais para a identificação do registro.
2.  **Sanitização de Métricas:** Aplicação das funções personalizadas para converter preços em *float* e padronizar datas para o formato ISO.
3.  **Tratamento de Tipagem (Numéricos):** Preenchimento de valores nulos (NaN) com `0` em colunas contábeis (ex: avaliações, conquistas) para garantir a conversão correta para números inteiros (`int`), evitando erros de ponto flutuante no banco.
4.  **Tratamento de Dados Ausentes (Texto):** Preenchimento de colunas categóricas vazias (ex: Desenvolvedores, Gêneros) com o valor `'Unknown'`, preservando a integridade para filtros de BI.
5.  **Definição de Schema:** Renomeação final das colunas para o padrão *snake_case* e seleção do dataset final.

In [4]:
def classificar_tier_mercado(valor):
    if valor == 0:
        return 'Gratuito'
    elif valor < 10:
        return 'Budget (<$10)'
    elif valor < 30:
        return 'Indie / Padrão ($10-$29)'
    elif valor < 59: 
        return 'Double-A / Premium ($30-$58)'
    else:
        return 'AAA / Lançamento (+$59)'

print("iniciando transformação e limpeza...")

df_silver = df.copy()

df_silver = df_silver.drop_duplicates(subset=['AppID'], keep='first')
df_silver = df_silver.dropna(subset=['Name'])

print(f"Linhas válidas após remoção de duplicatas e sem nome: {df_silver.shape[0]}")

df_silver['price_clean'] = df_silver['Price'].apply(limpar_preco)
df_silver['date_clean'] = pd.to_datetime(df_silver['Release date'], errors='coerce')

df_silver['release_year'] = df_silver['date_clean'].dt.year.fillna(0).astype(int)

df_silver['price_tier'] = df_silver['price_clean'].apply(classificar_tier_mercado)

df_silver['has_ptbr_interface'] = df_silver['Supported languages'].fillna('').astype(str).str.contains('Portuguese - Brazil', case=False, regex=False)
df_silver['has_ptbr_audio'] = df_silver['Full audio languages'].fillna('').astype(str).str.contains('Portuguese - Brazil', case=False, regex=False)

colunas_inteiras_originais = [
    'Required age', 'DLC count', 'Metacritic score', 'User score', 
    'Positive', 'Negative', 'Achievements', 'Recommendations', 
    'Average playtime forever'
]
for col in colunas_inteiras_originais:
    df_silver[col] = df_silver[col].fillna(0).astype(int)

colunas_texto_originais = [
    'Developers', 'Publishers', 'Categories', 'Genres', 'Tags', 
    'Supported languages', 'Full audio languages'
]
df_silver[colunas_texto_originais] = df_silver[colunas_texto_originais].fillna('Unknown')

cols_map = {
    'AppID': 'app_id',
    'Name': 'name',
    'date_clean': 'release_date',
    'release_year': 'release_year',
    'price_clean': 'price',
    'price_tier': 'price_tier',   
    'has_ptbr_interface': 'has_ptbr_interface', 
    'has_ptbr_audio': 'has_ptbr_audio',    
    'Required age': 'required_age',
    'Metacritic score': 'metacritic_score',
    'User score': 'user_score',
    'Publishers': 'publishers',
    'Categories': 'categories',
    'Genres': 'genres',
    'Tags': 'tags',
    'Supported languages': 'supported_languages',
    'Full audio languages': 'full_audio_languages'
}

df_silver = df_silver.rename(columns=cols_map)

colunas_finais = list(cols_map.values())
df_silver = df_silver[colunas_finais]

iniciando transformação e limpeza...
Linhas válidas após remoção de duplicatas e sem nome: 122610


## 2.2 Validação de Tipagem
Antes de enviar ao banco, verificamos:
* `release_date` deve ser `datetime`.
* `price` deve ser `float`.
* `app_id` deve ser inteiro.

In [5]:
print(df_silver.info())

print(df_silver[['price', 'metacritic_score']].describe())

<class 'pandas.core.frame.DataFrame'>
Index: 122610 entries, 0 to 122610
Data columns (total 17 columns):
 #   Column                Non-Null Count   Dtype         
---  ------                --------------   -----         
 0   app_id                122610 non-null  int64         
 1   name                  122610 non-null  object        
 2   release_date          122610 non-null  datetime64[ns]
 3   release_year          122610 non-null  int64         
 4   price                 122610 non-null  float64       
 5   price_tier            122610 non-null  object        
 6   has_ptbr_interface    122610 non-null  bool          
 7   has_ptbr_audio        122610 non-null  bool          
 8   required_age          122610 non-null  int64         
 9   metacritic_score      122610 non-null  int64         
 10  user_score            122610 non-null  int64         
 11  publishers            122610 non-null  object        
 12  categories            122610 non-null  object        
 13  genr

## 3. Carregamento (Load)
Conectamos ao container PostgreSQL via SQLAlchemy e salvamos a tabela `tb_games_silver`.
* **Modo:** `replace` (Se a tabela existir, ela será recriada do zero para garantir atualização total).
* **Chunksize:** Enviamos dados em lotes de 1000 linhas para melhor performance.

In [6]:
print("Conectando ao PostgreSQL...")

conn_string = 'postgresql://steam_bi_user:steam_bi_user@localhost:5432/steam_bi'
engine = create_engine(conn_string)

try:
    print("Iniciando carga no banco de dados...")
    
    df_silver.to_sql(
        'tb_games_silver', 
        engine, 
        if_exists='replace',
        index=False, 
        chunksize=1000
    )
    
    print("Carga Concluída! Tabela 'tb_games_silver' criada/atualizada com sucesso.")
    
except Exception as e:
    print(f"Erro fatal na carga: {e}")

Conectando ao PostgreSQL...
Iniciando carga no banco de dados...
Carga Concluída! Tabela 'tb_games_silver' criada/atualizada com sucesso.


## 4. Verificação Pós-Carga
Consultamos o banco de dados diretamente para garantir que os dados estão lá e acessíveis via SQL.

In [7]:
try:
    qtd = pd.read_sql("SELECT COUNT(*) FROM tb_games_silver", engine)
    
    amostra = pd.read_sql("SELECT app_id, name, price, release_date FROM tb_games_silver LIMIT 5", engine)
    
    print(f"\n--- Relatório Final ---")
    print(f"Registros no Banco: {qtd.iloc[0,0]}")
    print("Amostra dos dados salvos:")
    display(amostra)
    
except Exception as e:
    print(f"Erro ao verificar dados: {e}")


--- Relatório Final ---
Registros no Banco: 122610
Amostra dos dados salvos:


Unnamed: 0,app_id,name,price,release_date
0,2539430,Black Dragon Mage Playtest,0.0,2023-08-01
1,496350,Supipara - Chapter 1 Spring Has Come!,5.24,2016-07-29
2,1034400,Mystery Solitaire The Black Raven,4.99,2019-05-06
3,3292190,버튜버 파라노이아 - Vtuber Paranoia,8.99,2024-10-31
4,3631080,Maze Quest VR,4.99,2025-04-24
