## Contextualização do Projeto: ##

**Steam:**
A Steam é uma das maiores plataformas de distribuição digital de jogos do mundo, desenvolvida e mantida pela Valve Corporation. Além de permitir a compra, download e gerenciamento de jogos, a plataforma possui um sistema robusto de avaliações feitas pelos próprios usuários, que é amplamente utilizado como referência de qualidade pela comunidade gamer.

As avaliações da Steam funcionam da seguinte forma:

- Usuários podem classificar jogos como avaliação positiva ou avaliação negativa;

- O volume total de avaliações positivas e negativas é público;

A partir dessas informações, é possível calcular métricas como:

- Total de avaliações;

- Percentual de aprovação;

- Indicadores ponderados que consideram a quantidade de reviews.

Esse modelo faz com que a Steam forneça uma visão direta e quantitativa da percepção dos jogadores, porém sujeita a vieses, como jogos com poucas avaliações apresentarem notas artificialmente elevadas.

**Metacritic:** É uma plataforma de agregação de avaliações que consolida críticas especializadas de veículos da mídia, como sites e revistas especializadas em jogos, filmes e música.

No contexto deste projeto:

- O Metacritic Score representa uma média ponderada das notas atribuídas por críticos profissionais;

- Diferente da Steam, o Metacritic não se baseia na opinião direta do consumidor final, mas sim em análises técnicas e especializadas;

Isso permite uma comparação interessante entre:

- A percepção da crítica especializada;

- A opinião dos jogadores.

A comparação entre Steam e Metacritic possibilita análises como:

- Correlação entre aprovação dos usuários e nota da crítica;

- Identificação de divergências entre opinião popular e especializada

### Desenvolvedoras e Publishers

**Desenvolvedora (Developer):**

A desenvolvedora é responsável pela criação do jogo, incluindo:

- Programação;

- Design;

- Arte;

- Mecânicas de gameplay;

- Testes e manutenção técnica.

**Publisher:**

A publisher é responsável pela:

- Distribuição do jogo;

- Marketing;

- Financiamento;

- Estratégias de lançamento;

- Suporte comercial.

Em muitos casos, a desenvolvedora e a publisher podem ser a mesma empresa, porém em grandes produções esses papéis costumam ser separados.


### Entendendo o conceito por trás de jogo Indie:

O termo **“jogo indie”** (derivado de independent game) refere-se a jogos desenvolvidos de forma independente, geralmente por pequenos estúdios ou até mesmo desenvolvedores individuais, sem o suporte financeiro direto de grandes publishers tradicionais.

Características comuns de jogos indie:

- Orçamento reduzido;

- Equipes de desenvolvimento pequenas;

- Maior liberdade criativa;

- Forte foco em inovação, narrativa ou mecânicas diferenciadas;

- Menor investimento em marketing em comparação a grandes produções (AAA).

Diferentemente de jogos produzidos por grandes estúdios, os jogos indie costumam assumir mais riscos criativos, explorando estilos artísticos únicos e propostas experimentais.


### O presente projeto tem como finalidade realizar uma análise exploratória e comparativa de dados provenientes de duas plataformas amplamente utilizadas no mercado de jogos digitais: Steam e Metacritic. Para isso, será utilizado um conjunto de dados referente ao período de Março de 2025:


A partir dessa base, busca-se investigar padrões e relações relevantes no desempenho comercial e na recepção crítica dos jogos.

Principais Perguntas de Negócio a Serem Respondidas:

- Quais são os TOP 10 jogos mais bem avaliados considerando as duas plataformas analisadas (metacritic = crítica especializada vs steam = usuários)?

- Existe correlação entre o preço de um jogo e sua avaliação final nas plataformas?

- Jogos bem avaliados em uma plataforma tendem a ser bem avaliados na outra?

- Quais são os gêneros de jogos mais bem avaliados no período analisado?

- Qual ano de lançamento apresenta os jogos com melhores avaliações médias?

- Quais desenvolvedoras/publishers possuem os jogos mais bem avaliados?

- Quais os jogos Indie mais bem avaliados?

- Quantos jogos que estão disponíveis para windows estão disponíveis para Linux e Mac?

In [0]:
%sql
SELECT * FROM workspace.games_analytics_bronze.games_march_2025
LIMIT (100)

-- Inicialmente, tem suma importância a utilização de um SELECT geral, para poder entender os dados que estão vindo da fonte, para que seja possível realizar uma análise mais profunda e precisa do que realmente é necessário fazer para a camada SILVER;
-- Baseado nisso, alguns pontos que exigem alteração já foram observados

In [0]:
%sql

SELECT COUNT(genres) FROM workspace.games_analytics_bronze.games_march_2025


In [0]:
%sql

SELECT DISTINCT COUNT(genres) FROM workspace.games_analytics_bronze.games_march_2025

Após realizar a contagem dos gêneros utilizando SQL, foi possível observar que a coluna genres apresenta 94.948 registros, que correspondem ao total de linhas da tabela. Isso indica que cada jogo pode ter múltiplos gêneros concatenados em uma única string (por exemplo: "Action, Adventure"), e não que existam 94 mil gêneros distintos.

Para garantir uma análise mais precisa na camada Silver, será necessário tratar essa coluna, realizando a separação dos gêneros em colunas distintas. Inicialmente, serão criadas duas novas colunas contendo apenas os dois primeiros gêneros identificados para cada jogo, permitindo análises mais estruturadas e consistentes na próxima etapa da arquitetura

In [0]:
%sql
SELECT COUNT(*) FROM workspace.games_analytics_bronze.games_march_2025
WHERE metacritic_score == 0

Após realizar a contagem dos registros onde a coluna metacritic_score é igual a zero, foi possível observar que uma parcela muito significativa dos jogos (91.372 registros) não possui avaliação registrada no Metacritic. Essa ausência de nota compromete análises estatísticas que dependem desse valor.

Por esse motivo, na camada Silver esses registros serão desconsiderados ou tratados separadamente, garantindo maior precisão nas análises que envolvem médias, correlações e rankings de avaliação.

In [0]:
%sql
SELECT name, COUNT(name) as contagem FROM workspace.games_analytics_bronze.games_march_2025
WHERE metacritic_score <> 0
GROUP BY name
HAVING count(name) > 1  
ORDER BY contagem DESC

-- DIARIO PRA AMANHA:
-- AGRUPAMENTO POR NEGATIVO E POSITIVO
-- CRIAR COLUNA DE MÉDIA PRA ELES POSITIVO / TOTAL
-- FILTRAR POR METACRITC_SCORE <> 0


Outro ponto observado durante a análise, é o fato de alguns registros serem repetidos na tabela, causando duplicatas em caso da utilização dos mesmos para análises, com isso, deverá ser feito um agrupamento dessas linhas, evitando esse problema.

In [0]:
%sql
SELECT about_the_game, short_description, reviews, pct_pos_recent, num_reviews_recent, pct_pos_total, peak_ccu, average_playtime_forever, average_playtime_2weeks, median_playtime_forever, median_playtime_2weeks, score_rank, user_score, website, support_url, support_email, packages, screenshots, movies, header_image 

FROM workspace.games_analytics_bronze.games_march_2025




Com base na análise preliminar realizada na camada Bronze, verificou-se que as colunas apresentadas acima não possuem relevância analítica, seja por ausência de uso, baixa qualidade dos dados ou falta de relação com os indicadores do projeto. Assim, essas colunas serão removidas na transformação para a camada Silver.

### Camada Bronze — Ingestão e Análise Exploratória Inicial:

A camada Bronze tem como objetivo realizar a ingestão inicial dos dados brutos, preservando ao máximo sua estrutura original, além de promover uma análise exploratória preliminar para entendimento da base e identificação de ajustes necessários nas camadas subsequentes.

### Origem dos Dados: 

Os dados utilizados neste projeto foram obtidos a partir de um arquivo CSV disponibilizado publicamente no Kaggle, contendo informações sobre jogos disponíveis na plataforma Steam.

Fonte dos dados:
https://www.kaggle.com/datasets/artermiloff/steam-games-dataset


Nesta etapa, os dados foram carregados diretamente do arquivo CSV, sem transformações estruturais profundas, respeitando o conceito de dados brutos (raw data).

### Os principais objetivos desta camada são:

- Realizar a ingestão dos dados brutos no ambiente Databricks;

- Compreender a estrutura do dataset (schema, tipos de dados e volume);

### Identificar:### 

- Campos inconsistentes ou mal tipados;

- Valores nulos ou inválidos;

- Colunas com necessidade de normalização;

- Possíveis duplicidades;

- Campos que exigirão regras de negócio específicas;

Definir, a partir da análise exploratória, quais transformações serão aplicadas na camada Silver.