# Job ETL Raw para Silver
Objetivos:
* Extração: extrair da camada Raw `data_layer/raw/games.csv.7z`
* Transformação:
    * limpar os dados
    * realizar a criação de colunas necessárias para a análise na Silver
* Carregamento: carregar dados no postgres da camada Silver

## Extração

* Descompactar arquivo
* Ler CSV corretamente.

Importações e Configurações

In [None]:

import pandas as pd

# Configuração para visualizar todas as colunas no Jupyter
pd.set_option('display.max_columns', None)

caminho_csv_completo = '../data_layer/raw/games.csv'

print("Bibliotecas importadas e configurações definidas.")

Bibliotecas importadas e configurações definidas.


CSV -> Dataframe Pandas, com correção nas colunas.

In [None]:
print("Carregando o CSV para o Pandas...")

colunas_corretas = [
    'AppID', 'Name', 'Release date', 'Estimated owners', 'Peak CCU', 
    'Required age', 'Price', 'Discount', 'DLC count', 'About the game', 
    'Supported languages', 'Full audio languages', 'Reviews', 'Header image', 
    'Website', 'Support url', 'Support email', 'Windows', 'Mac', 'Linux', 
    'Metacritic score', 'Metacritic url', 'User score', 'Positive', 'Negative', 
    'Score rank', 'Achievements', 'Recommendations', 'Notes', 
    'Average playtime forever', 'Average playtime two weeks', 
    'Median playtime forever', 'Median playtime two weeks', 
    'Developers', 'Publishers', 'Categories', 'Genres', 'Tags', 
    'Screenshots', 'Movies'
]

df = pd.read_csv(
    caminho_csv_completo, 
    low_memory=False, 
    header=0, 
    names=colunas_corretas
)

print(f"Dataset carregado. Linhas: {df.shape[0]}, Colunas: {df.shape[1]}")
df.head(3)

Carregando o CSV para o Pandas...
Dataset carregado. Linhas: 122611, Colunas: 40


Unnamed: 0,AppID,Name,Release date,Estimated owners,Peak CCU,Required age,Price,Discount,DLC count,About the game,Supported languages,Full audio languages,Reviews,Header image,Website,Support url,Support email,Windows,Mac,Linux,Metacritic score,Metacritic url,User score,Positive,Negative,Score rank,Achievements,Recommendations,Notes,Average playtime forever,Average playtime two weeks,Median playtime forever,Median playtime two weeks,Developers,Publishers,Categories,Genres,Tags,Screenshots,Movies
0,2539430,Black Dragon Mage Playtest,"Aug 1, 2023",0 - 0,0,0,0.0,0,0,,[],[],,https://shared.akamai.steamstatic.com/store_it...,,,,True,False,False,0,,0,0,0,,0,0,,0,0,0,0,,,,,,https://shared.akamai.steamstatic.com/store_it...,
1,496350,Supipara - Chapter 1 Spring Has Come!,"Jul 29, 2016",0 - 20000,0,0,5.24,65,0,"Springtime, April: when the cherry trees come ...",['English'],[],,https://shared.akamai.steamstatic.com/store_it...,http://mangagamer.org/supipara,http://mangagamer.com,support@mangagamer.com,True,False,False,0,,0,252,3,,0,231,,8,0,8,0,minori,MangaGamer,"Single-player,Steam Trading Cards,Steam Cloud,...",Adventure,"Adventure,Visual Novel,Anime,Cute",https://shared.akamai.steamstatic.com/store_it...,
2,1034400,Mystery Solitaire The Black Raven,"May 6, 2019",0 - 20000,0,0,4.99,0,0,"Immerse yourself in the most beloved, mystical...","['English', 'French', 'German', 'Russian']",[],,https://shared.akamai.steamstatic.com/store_it...,https://www.facebook.com/8FloorGames/,https://www.facebook.com/8FloorGames,support@8floor.net,True,True,False,0,,0,21,3,,0,0,,0,0,0,0,Somer Games,8floor,"Single-player,Family Sharing",Casual,"Casual,Card Game,Solitaire,Puzzle,Hidden Objec...",https://shared.akamai.steamstatic.com/store_it...,


Funções de Limpeza

In [None]:
def tratar_preco(valor):
    """
    O dataset tem preços como 'Free', 'Free to Play', ou números.
    Esta função padroniza tudo para FLOAT.
    """
    if pd.isna(valor):
        return 0.0
    
    valor_str = str(valor).lower()
    
    # Se tiver palavras indicando gratuidade, é 0.0
    if 'free' in valor_str or 'demo' in valor_str or 'play' in valor_str:
        return 0.0
    
    try:
        # Tenta limpar simbolos de moeda e converter
        # Ex: "$19.99" vira 19.99
        limpo = valor_str.replace('$', '').replace(',', '')
        return float(limpo)
    except:
        # Se falhar, retorna 0.0 para não quebrar o banco
        return 0.0

def tratar_data(data_str):
    """
    Converte strings de data bagunçadas para formato de Data real.
    Se a data for inválida (ex: 'Coming Soon'), vira NaT (Nulo).
    """
    try:
        # O Pandas é inteligente para entender formatos como "Nov 2023"
        return pd.to_datetime(data_str)
    except:
        return None

print("Funções de limpeza definidas.")

Funções de limpeza definidas.


In [None]:
# --- CÉLULA 5 (ATUALIZADA): Aplicando a Limpeza ---

# 1. Criar uma cópia
df_silver = df.copy()

# 2. Remover duplicatas
df_silver = df_silver.drop_duplicates(subset=['AppID'], keep='first')
print(f"Linhas após remover duplicatas: {df_silver.shape[0]}")

# 3. Aplicar limpeza de Preço
print("Limpando coluna de Preços...")
df_silver['Price'] = df_silver['Price'].apply(tratar_preco)

# 4. Aplicar limpeza de Data
print("Padronizando Datas...")
df_silver['Release date'] = pd.to_datetime(df_silver['Release date'], errors='coerce')

# 5. Renomear colunas para Snake Case
# Note que agora usamos 'DLC count' direto, pois corrigimos na leitura
mapa_colunas = {
    'AppID': 'id',
    'Name': 'nome',
    'Release date': 'data_de_lancamento',
    'Price': 'preco',
    'Supported languages': 'idiomas_suportados',
    'Full audio languages': 'full_audio_languages',
    'Metacritic score': 'nota_de_metacritic',
    'User score': 'nota_de_usuario',
    'Positive': 'avaliacoes_positivas',
    'Negative': 'avaliacoes_negativas',
    'Categories': 'categorias',
    'Genres': 'generos',
}

df_silver = df_silver.rename(columns=mapa_colunas)

# Selecionar colunas finais
colunas_finais = list(mapa_colunas.values())
df_silver = df_silver[colunas_finais]

print("Limpeza concluída! Colunas renomeadas corretamente.")

Linhas após remover duplicatas: 122611
Limpando coluna de Preços...
Padronizando Datas...
Limpeza concluída! Colunas renomeadas corretamente.
['app_id', 'name', 'release_date', 'estimated_owners', 'peak_ccu', 'price', 'dlc_count', 'about_the_game', 'supported_languages', 'full_audio_languages', 'header_image', 'website', 'support_url', 'support_email', 'windows', 'mac', 'linux', 'metacritic_score', 'user_score', 'positive_ratings', 'negative_ratings', 'achievements', 'recommendations', 'average_playtime_forever', 'average_playtime_two_weeks', 'median_playtime_forever', 'median_playtime_two_weeks', 'developers', 'publishers', 'categories', 'genres', 'tags', 'screenshots', 'movies']


In [46]:
# --- CÉLULA 6: Validação ---
# Verifica se deu certo antes de tentar salvar no banco

# Mostra tipos de dados (Data deve ser datetime64, Preço deve ser float64)
print(df_silver.info())

# Mostra estatísticas do preço para ver se faz sentido
print(df_silver['price'].describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 122611 entries, 0 to 122610
Data columns (total 34 columns):
 #   Column                      Non-Null Count   Dtype         
---  ------                      --------------   -----         
 0   app_id                      122611 non-null  int64         
 1   name                        122610 non-null  object        
 2   release_date                122611 non-null  datetime64[ns]
 3   estimated_owners            122611 non-null  object        
 4   peak_ccu                    122611 non-null  int64         
 5   price                       122611 non-null  float64       
 6   dlc_count                   122611 non-null  int64         
 7   about_the_game              122611 non-null  int64         
 8   supported_languages         114162 non-null  object        
 9   full_audio_languages        122611 non-null  object        
 10  header_image                12070 non-null   object        
 11  website                     122530 non-

In [None]:
# --- CÉLULA FINAL: Carga no Banco de Dados (Load) ---
from sqlalchemy import create_engine

print("Iniciando conexão com o Banco de Dados...")

# CORREÇÃO AQUI:
# Atualizado conforme seu docker-compose.yml
# postgresql://usuario:senha@host:porta/banco
engine = create_engine('postgresql://steam_bi_user:steam_bi_user@localhost:5432/steam_bi')

try:
    print("Salvando dados na tabela 'tb_games_silver'...")
    
    # chunksize=1000: Envia de mil em mil linhas para ser mais rápido e seguro
    # if_exists='replace': Se a tabela já existir, apaga e cria de novo
    df_silver.to_sql('tb_games_silver', engine, if_exists='replace', index=False, chunksize=1000)
    
    print("✅ SUCESSO! Todos os dados foram carregados no PostgreSQL.")
    print("Seu ETL Raw -> Silver está completo.")
    
except Exception as e:
    print(f"❌ Erro ao salvar no banco: {e}")

Iniciando conexão com o Banco de Dados...
Salvando dados na tabela 'tb_games_silver'...
✅ SUCESSO! Todos os dados foram carregados no PostgreSQL.
Seu ETL Raw -> Silver está completo.


In [48]:
# --- CÉLULA DE VERIFICAÇÃO ---
import pandas as pd
from sqlalchemy import create_engine

# Conexão (com as credenciais corretas)
engine = create_engine('postgresql://steam_bi_user:steam_bi_user@localhost:5432/steam_bi')

# 1. Conta quantas linhas tem na tabela
qtd = pd.read_sql("SELECT COUNT(*) FROM tb_games_silver", engine)
print(f"Total de jogos salvos no banco: {qtd.iloc[0,0]}")

# 2. Mostra uma amostra para ver se as colunas estão certas
print("\nAmostra dos dados no PostgreSQL:")
df_teste = pd.read_sql("SELECT app_id, name, price, release_date FROM tb_games_silver LIMIT 5", engine)
display(df_teste)

Total de jogos salvos no banco: 122611

Amostra dos dados no PostgreSQL:


Unnamed: 0,app_id,name,price,release_date
0,2539430,Black Dragon Mage Playtest,0.0,2023-08-01
1,496350,Supipara - Chapter 1 Spring Has Come!,5.24,2016-07-29
2,1034400,Mystery Solitaire The Black Raven,4.99,2019-05-06
3,3292190,버튜버 파라노이아 - Vtuber Paranoia,8.99,2024-10-31
4,3631080,Maze Quest VR,4.99,2025-04-24
