# MVP de Engenharia de Dados

>


## Pedro Augusto Boller


## 1 Objetivo

**Objetivo Geral do MVP:** \
O propósito deste MVP é estabelecer um pipeline de dados da Steam, a plataforma de jogos eletrônicos, com o intuito de disponibilizar ao usuário um banco de dados para explorar e extrair insights valiosos a respeito dos jogos disponíveis na referida plataforma.

**Perguntas a serem respondidas:** \
1.	Quais são os cinco jogos mais bem avaliados na categoria "Roguelike" que foram lançados nos últimos 12 meses? \n2.	Qual é o jogo mais popular que inclui a palavra "cyberpunk" em sua descrição ou tags? \n3.	Quais são os três jogos de estratégia com temática de ficção científica que têm o maior número de horas jogadas no total? \n4.	Qual é a porcentagem média de conclusão dos jogos de terror mais assustadores disponíveis na Steam? \n5.	Quais são os cinco jogos mais jogados que tem exatamente 1 GB de tamanho? \n6.	Quais são os três jogos mais caros que têm suporte para realidade virtual? \n7.	Qual é o jogo com a trilha sonora mais extensa em termos de número de faixas de música disponíveis? \n8.	Quais são os jogos que têm a maior diferença entre a classificação dos críticos e dos jogadores? \n9.	Quais são os jogos de estratégia em tempo real mais antigos que ainda têm uma comunidade ativa de jogadores online? \n10.	Quais são os jogos independentes mais populares que foram lançados por desenvolvedoras com sede na América do Sul?

## 2 Detalhamento

## 2.1 Busca pelos dados

Inicialmente, foi planejado utilizar uma API para coletar os dados e criar uma tabela que seria posteriormente inserida no banco de dados do Azure para a criação do pipeline, limpeza e análise. No entanto, devido à necessidade de um aprendizado adicional e ao tempo limitado disponível para a conclusão do projeto, não foi viável gerar esses dados por meio da API.

Portanto, decidi baixar os dados de um usuário do Kaggle que utilizou a API. Conforme relatado pelo autor, esses dados foram obtidos em maio de 2019 e abrangem a maioria dos jogos lançados até essa data. É importante destacar que os dados já foram submetidos a processos de limpeza e tratamento. No entanto, será realizado uma análise minuciosa de cada coluna para avaliar a qualidade dos dados.

É possivel encontrar os dados na seguinte página do Kaggle: 

https://www.kaggle.com/datasets/nikdavis/steam-store-games

## 2.2 Coleta

Os dados foram obtidos a partir do Kaggle e posteriormente inseridos na plataforma de nuvem da Microsoft, o Azure. Para a realização deste trabalho, foi utilizado o Databricks como a ferramenta principal.

![test_image](/coleta1.png)

![test_image](/coleta2.png)

![test_image](/coleta3.png)

## 2.3 Modelagem

Para este projeto, obtou-se por utilizar um modelo de dados plano (flat) devido à natureza variada dos dados disponíveis. Os dados se enquadram melhor em um conceito de Data Lake, pois abrangem informações numéricas, de datas, texto e "dicionários".

Inicialmente, trabalhamos com três tabelas principais:

Tabela "steam": Esta tabela contém a maioria dos dados essenciais relacionados aos jogos.

Tabela "steam_description_data": Nesta tabela, encontramos informações detalhadas sobre a descrição de cada jogo.

Tabela "steam_requirements_data": Aqui, são registrados os dados referentes aos requisitos mínimos e recomendados para cada jogo.

A ferramenta de catálogo do databricks só pode ser utilizada a partir de um conta paga, então a solução que encontrei para compor o catálogo de dados foi utilizando markdowns.

A seguir, apresentamos uma visão geral de cada uma das tabelas e seus respectivos campos:

In [0]:
%sql
SELECT * FROM steam
LIMIT 3

appid,name,release_date,english,developer,publisher,platforms,required_age,categories,genres,steamspy_tags,achievements,positive_ratings,negative_ratings,average_playtime,median_playtime,owners,price
10,Counter-Strike,2000-11-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-Player;Valve Anti-Cheat enabled,Action,Action;FPS;Multiplayer,0,124534,3339,17612,317,10000000-20000000,7.19
20,Team Fortress Classic,1999-04-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-Player;Valve Anti-Cheat enabled,Action,Action;FPS;Multiplayer,0,3318,633,277,62,5000000-10000000,3.99
30,Day of Defeat,2003-05-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Valve Anti-Cheat enabled,Action,FPS;World War II;Multiplayer,0,3416,398,187,34,5000000-10000000,3.99


Esta tabela possui as seguintes colunas:

**appid**: Código unico de cada jogo.\
**name**: Nome do jogo.\
**release_date**: Data de quando o jogo foi lançado.\
**english**: Variavel booleana que indica se o jogo tem suporte para a lingua inglesa. São esperados valores 0 e 1.\
**developer**: A empresa que produziu o jogo.\
**publisher**: A empresa que publicou o jogo.\
**platforms**: Lista de sistemas operacionais suportados. São esperados nomes como windows, mac e linux.\
**required_age**: Idade minima exigida para jogar o jogo.São esperados valores de 0 a 18.\
**categories**: Lista de tags(categorias) do jogo.\
**genres**: Genero(categoria dominante) do jogo.\
**steamspy_tags**: Categorias do jogo definidas pelo steamspy.\
**achievements**: Numero de conquistas do jogo. O menor valor esperado é 0.\
**positive_ratings**: Numero de avaliações positivas. O menor valor esperado é 0\
**negative_ratings**: Numero de avaliações negativas. O menor valor esperado é 0\
**average_playtime**: Média de tempo de jogo dos usuarios. O menor valor esperado é 0\
**median_playtime**: Mediana do tempo dejogo dos usuarios. O menor valor esperado é 0\
**owners**: Quantas pessoas compraram o jogo. O menor valor esperado é 0\
**price**: Preço do jogo. O menor valor esperado é 0.





In [0]:
%sql
SELECT * FROM steam_description_data
LIMIT 3

steam_appid,detailed_description,about_the_game,short_description
10,Play the world's number 1 online action game. Engage in an incredibly realistic brand of terrorist warfare in this wildly popular team-based game. Ally with teammates to complete strategic missions. Take out enemy sites. Rescue hostages. Your role affects your team's success. Your team's success affects your role.,Play the world's number 1 online action game. Engage in an incredibly realistic brand of terrorist warfare in this wildly popular team-based game. Ally with teammates to complete strategic missions. Take out enemy sites. Rescue hostages. Your role affects your team's success. Your team's success affects your role.,Play the world's number 1 online action game. Engage in an incredibly realistic brand of terrorist warfare in this wildly popular team-based game. Ally with teammates to complete strategic missions. Take out enemy sites. Rescue hostages. Your role affects your team's success. Your team's success affects your role.
20,"One of the most popular online action games of all time, Team Fortress Classic features over nine character classes -- from Medic to Spy to Demolition Man -- enlisted in a unique style of online team warfare. Each character class possesses unique weapons, items, and abilities, as teams compete online in a variety of game play modes.","One of the most popular online action games of all time, Team Fortress Classic features over nine character classes -- from Medic to Spy to Demolition Man -- enlisted in a unique style of online team warfare. Each character class possesses unique weapons, items, and abilities, as teams compete online in a variety of game play modes.","One of the most popular online action games of all time, Team Fortress Classic features over nine character classes -- from Medic to Spy to Demolition Man -- enlisted in a unique style of online team warfare. Each character class possesses unique weapons, items, and abilities, as teams compete online in a variety of game play modes."
30,"Enlist in an intense brand of Axis vs. Allied teamplay set in the WWII European Theatre of Operations. Players assume the role of light/assault/heavy infantry, sniper or machine-gunner class, each with a unique arsenal of historical weaponry at their disposal. Missions are based on key historical operations. And, as war rages, players must work together with their squad to accomplish a variety of mission-specific objectives.","Enlist in an intense brand of Axis vs. Allied teamplay set in the WWII European Theatre of Operations. Players assume the role of light/assault/heavy infantry, sniper or machine-gunner class, each with a unique arsenal of historical weaponry at their disposal. Missions are based on key historical operations. And, as war rages, players must work together with their squad to accomplish a variety of mission-specific objectives.","Enlist in an intense brand of Axis vs. Allied teamplay set in the WWII European Theatre of Operations. Players assume the role of light/assault/heavy infantry, sniper or machine-gunner class, each with a unique arsenal of historical weaponry at their disposal. Missions are based on key historical operations."


Esta tabela possui as seguintes colunas:

**steam_appid**: Código unico de cada jogo.\
**detailed_description**: Descrição detalhada do jogo. São esperados dados em formato de texto.\
**about_the_game**: Descrição sobre o que se trata o jogo. São esperados dados em formato de texto.\
**short_description**: Descrição reduzida do jogo. São esperados dados em formato de texto.


In [0]:
%sql
SELECT * FROM steam_requirements_data
LIMIT 3

steam_appid,pc_requirements,mac_requirements,linux_requirements,minimum,recommended
10,"{'minimum': '\r\n\t\t\tMinimum: 500 mhz processor, 96mb ram, 16mb video card, Windows XP, Mouse, Keyboard, Internet Connection \r\n\t\t\tRecommended: 800 mhz processor, 128mb ram, 32mb+ video card, Windows XP, Mouse, Keyboard, Internet Connection \r\n\t\t\t'}","{'minimum': 'Minimum: OS X Snow Leopard 10.6.3, 1GB RAM, 4GB Hard Drive Space,NVIDIA GeForce 8 or higher, ATI X1600 or higher, or Intel HD 3000 or higher Mouse, Keyboard, Internet Connection'}","{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual-core from Intel or AMD at 2.8 GHz, 1GB Memory, nVidia GeForce 8600/9600GT, ATI/AMD Radeaon HD2600/3600 (Graphic Drivers: nVidia 310, AMD 12.11), OpenGL 2.1, 4GB Hard Drive Space, OpenAL Compatible Sound Card'}","500 mhz processor, 96mb ram, 16mb video card, Windows XP, Mouse, Keyboard, Internet Connection Recommended: 800 mhz processor, 128mb ram, 32mb+ video card, Windows XP, Mouse, Keyboard, Internet Connection",
20,"{'minimum': '\r\n\t\t\tMinimum: 500 mhz processor, 96mb ram, 16mb video card, Windows XP, Mouse, Keyboard, Internet Connection \r\n\t\t\tRecommended: 800 mhz processor, 128mb ram, 32mb+ video card, Windows XP, Mouse, Keyboard, Internet Connection \r\n\t\t\t'}","{'minimum': 'Minimum: OS X Snow Leopard 10.6.3, 1GB RAM, 4GB Hard Drive Space,NVIDIA GeForce 8 or higher, ATI X1600 or higher, or Intel HD 3000 or higher Mouse, Keyboard, Internet Connection'}","{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual-core from Intel or AMD at 2.8 GHz, 1GB Memory, nVidia GeForce 8600/9600GT, ATI/AMD Radeaon HD2600/3600 (Graphic Drivers: nVidia 310, AMD 12.11), OpenGL 2.1, 4GB Hard Drive Space, OpenAL Compatible Sound Card'}","500 mhz processor, 96mb ram, 16mb video card, Windows XP, Mouse, Keyboard, Internet Connection Recommended: 800 mhz processor, 128mb ram, 32mb+ video card, Windows XP, Mouse, Keyboard, Internet Connection",
30,"{'minimum': '\r\n\t\t\tMinimum: 500 mhz processor, 96mb ram, 16mb video card, Windows XP, Mouse, Keyboard, Internet Connection \r\n\t\t\tRecommended: 800 mhz processor, 128mb ram, 32mb+ video card, Windows XP, Mouse, Keyboard, Internet Connection \r\n\t\t\t'}","{'minimum': 'Minimum: OS X Snow Leopard 10.6.3, 1GB RAM, 4GB Hard Drive Space,NVIDIA GeForce 8 or higher, ATI X1600 or higher, or Intel HD 3000 or higher Mouse, Keyboard, Internet Connection'}","{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual-core from Intel or AMD at 2.8 GHz, 1GB Memory, nVidia GeForce 8600/9600GT, ATI/AMD Radeaon HD2600/3600 (Graphic Drivers: nVidia 310, AMD 12.11), OpenGL 2.1, 4GB Hard Drive Space, OpenAL Compatible Sound Card'}","500 mhz processor, 96mb ram, 16mb video card, Windows XP, Mouse, Keyboard, Internet Connection Recommended: 800 mhz processor, 128mb ram, 32mb+ video card, Windows XP, Mouse, Keyboard, Internet Connection",


Esta tabela possui as seguintes colunas:

**steam_appid**: Código unico de cada jogo.\
**pc_requirements**: Descrição em formato json sobre os requerimentos minimos e recomendados do jogo no windows. São esperados dados em formato json.\
**mac_requirements**: Descrição em formato json sobre os requerimentos minimos e recomendados do jogo no mac. São esperados dados em formato json.\
**linux_requirements**: Descrição em formato json sobre os requerimentos minimos e recomendados do jogo no linux. São esperados dados em formato json.\
**minimum**: Descrição em formato de texto sobre os requerimentos minimos do jogo no windows. São esperados dados em formato de texto.\
**recommended**: Descrição em formato de texto sobre os requerimentos recomendados do jogo no windows. São esperados dados em formato de texto.


Para compor o banco de dados utilizado nas análises, foi feito uma junção de todas as tabelas, utilizando o código unico de cada jogo para isso. O processo de criação da tabela final está descrito na sessão "Carga", a seguir.

## 2.4 Carga

Nesta fase, executamos os processos de Extração, Transformação e Carga (ETL) necessários para criar a tabela final no formato plano (flat). Inicialmente, os dados foram inseridos no sistema de arquivos distribuídos (DBFS) do Databricks e, em seguida, processados no pipeline apresentado abaixo. Ao final do processo, a tabela é novamente convertida para um formato compatível com o Spark e recarregada no banco de dados para a realização das análises por meio de consultas SQL.

O processo de ETL envolveu as seguintes etapas:

Extração dos Dados: Os dados foram obtidos a partir do DBFS do Databricks, onde foram previamente armazenados após o download do Kaggle.

Transformação dos Dados: Nesta etapa, aplicamos as transformações necessárias para criar a estrutura de dados desejada no formato plano (flat), garantindo que os dados estejam prontos para análise.

Carga dos Dados: Após a transformação, os dados foram carregados novamente no ambiente do Databricks, em um formato compatível com o Spark, permitindo a realização de análises avançadas por meio de SQL.

In [0]:
from pyspark.sql import SparkSession  # Importa a biblioteca PySpark para criar uma sessão Spark.
import pandas as pd  # Importa a biblioteca Pandas para manipulação de dados em Python.

# Criação da sessão Spark
spark = SparkSession.builder.enableHiveSupport().getOrCreate()

# Definição dos caminhos dos arquivos no sistema de arquivos distribuído.
arquivo_steam = 'dbfs:/user/hive/warehouse/steam'
arquivo_description = 'dbfs:/user/hive/warehouse/steam_description_data'
arquivo_requirements = 'dbfs:/user/hive/warehouse/steam_requirements_data'

# Leitura dos dados para DataFrames Spark.
steam = spark.read.load(arquivo_steam)
description = spark.read.load(arquivo_description)
requirements = spark.read.load(arquivo_requirements)

# Conversão dos DataFrames Spark em DataFrames Pandas.
steam = steam.toPandas()
description = description.toPandas()
requirements = requirements.toPandas()



In [0]:
# União dos três datasets
steam_all_data = pd.merge(steam, description, left_on='appid', right_on='steam_appid')
steam_all_data = pd.merge(steam_all_data, requirements, left_on='appid', right_on='steam_appid')
steam_all_data.head(5)

Unnamed: 0,appid,name,release_date,english,developer,publisher,platforms,required_age,categories,genres,...,steam_appid_x,detailed_description,about_the_game,short_description,steam_appid_y,pc_requirements,mac_requirements,linux_requirements,minimum,recommended
0,10,Counter-Strike,2000-11-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,...,10.0,Play the world's number 1 online action game. ...,Play the world's number 1 online action game. ...,Play the world's number 1 online action game. ...,10,{'minimum': '\r\n\t\t\t<p><strong>Minimum:</st...,{'minimum': 'Minimum: OS X Snow Leopard 10.6....,"{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual...","500 mhz processor, 96mb ram, 16mb video card, ...",
1,10,Counter-Strike,2000-11-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,...,10.0,000 levels of chaotic science fiction horror t...,in any order,from the dead easy beginning sectors to the c...,10,{'minimum': '\r\n\t\t\t<p><strong>Minimum:</st...,{'minimum': 'Minimum: OS X Snow Leopard 10.6....,"{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual...","500 mhz processor, 96mb ram, 16mb video card, ...",
2,10,Counter-Strike,2000-11-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,...,10.0,000 levels of chaotic science fiction horror t...,in any order,from the dead easy beginning sectors to the c...,10,{'minimum': '\r\n\t\t\t<p><strong>Minimum:</st...,{'minimum': 'Minimum: OS X Snow Leopard 10.6....,"{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual...","500 mhz processor, 96mb ram, 16mb video card, ...",
3,20,Team Fortress Classic,1999-04-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,...,20.0,One of the most popular online action games of...,One of the most popular online action games of...,One of the most popular online action games of...,20,{'minimum': '\r\n\t\t\t<p><strong>Minimum:</st...,{'minimum': 'Minimum: OS X Snow Leopard 10.6....,"{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual...","500 mhz processor, 96mb ram, 16mb video card, ...",
4,30,Day of Defeat,2003-05-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Valve Anti-Cheat enabled,Action,...,30.0,Enlist in an intense brand of Axis vs. Allied ...,Enlist in an intense brand of Axis vs. Allied ...,Enlist in an intense brand of Axis vs. Allied ...,30,{'minimum': '\r\n\t\t\t<p><strong>Minimum:</st...,{'minimum': 'Minimum: OS X Snow Leopard 10.6....,"{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual...","500 mhz processor, 96mb ram, 16mb video card, ...",


In [0]:
# Remoção das colunas desnecessarias
steam_all_data_clean = steam_all_data.drop(columns = ['english', 'steam_appid_y', 'steam_appid_x'])
steam_all_data_clean.head(5)

Unnamed: 0,appid,name,release_date,developer,publisher,platforms,required_age,categories,genres,steamspy_tags,...,owners,price,detailed_description,about_the_game,short_description,pc_requirements,mac_requirements,linux_requirements,minimum,recommended
0,10,Counter-Strike,2000-11-01,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,...,10000000-20000000,7.19,Play the world's number 1 online action game. ...,Play the world's number 1 online action game. ...,Play the world's number 1 online action game. ...,{'minimum': '\r\n\t\t\t<p><strong>Minimum:</st...,{'minimum': 'Minimum: OS X Snow Leopard 10.6....,"{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual...","500 mhz processor, 96mb ram, 16mb video card, ...",
1,10,Counter-Strike,2000-11-01,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,...,10000000-20000000,7.19,000 levels of chaotic science fiction horror t...,in any order,from the dead easy beginning sectors to the c...,{'minimum': '\r\n\t\t\t<p><strong>Minimum:</st...,{'minimum': 'Minimum: OS X Snow Leopard 10.6....,"{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual...","500 mhz processor, 96mb ram, 16mb video card, ...",
2,10,Counter-Strike,2000-11-01,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,...,10000000-20000000,7.19,000 levels of chaotic science fiction horror t...,in any order,from the dead easy beginning sectors to the c...,{'minimum': '\r\n\t\t\t<p><strong>Minimum:</st...,{'minimum': 'Minimum: OS X Snow Leopard 10.6....,"{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual...","500 mhz processor, 96mb ram, 16mb video card, ...",
3,20,Team Fortress Classic,1999-04-01,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,...,5000000-10000000,3.99,One of the most popular online action games of...,One of the most popular online action games of...,One of the most popular online action games of...,{'minimum': '\r\n\t\t\t<p><strong>Minimum:</st...,{'minimum': 'Minimum: OS X Snow Leopard 10.6....,"{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual...","500 mhz processor, 96mb ram, 16mb video card, ...",
4,30,Day of Defeat,2003-05-01,Valve,Valve,windows;mac;linux,0,Multi-player;Valve Anti-Cheat enabled,Action,FPS;World War II;Multiplayer,...,5000000-10000000,3.99,Enlist in an intense brand of Axis vs. Allied ...,Enlist in an intense brand of Axis vs. Allied ...,Enlist in an intense brand of Axis vs. Allied ...,{'minimum': '\r\n\t\t\t<p><strong>Minimum:</st...,{'minimum': 'Minimum: OS X Snow Leopard 10.6....,"{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual...","500 mhz processor, 96mb ram, 16mb video card, ...",


In [0]:
# Remoção de linhas duplicadas
steam_all_data_clean = steam_all_data_clean.drop_duplicates(subset='appid')
steam_all_data_clean.head(5)

Unnamed: 0,appid,name,release_date,developer,publisher,platforms,required_age,categories,genres,steamspy_tags,...,owners,price,detailed_description,about_the_game,short_description,pc_requirements,mac_requirements,linux_requirements,minimum,recommended
0,10,Counter-Strike,2000-11-01,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,...,10000000-20000000,7.19,Play the world's number 1 online action game. ...,Play the world's number 1 online action game. ...,Play the world's number 1 online action game. ...,{'minimum': '\r\n\t\t\t<p><strong>Minimum:</st...,{'minimum': 'Minimum: OS X Snow Leopard 10.6....,"{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual...","500 mhz processor, 96mb ram, 16mb video card, ...",
3,20,Team Fortress Classic,1999-04-01,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,...,5000000-10000000,3.99,One of the most popular online action games of...,One of the most popular online action games of...,One of the most popular online action games of...,{'minimum': '\r\n\t\t\t<p><strong>Minimum:</st...,{'minimum': 'Minimum: OS X Snow Leopard 10.6....,"{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual...","500 mhz processor, 96mb ram, 16mb video card, ...",
4,30,Day of Defeat,2003-05-01,Valve,Valve,windows;mac;linux,0,Multi-player;Valve Anti-Cheat enabled,Action,FPS;World War II;Multiplayer,...,5000000-10000000,3.99,Enlist in an intense brand of Axis vs. Allied ...,Enlist in an intense brand of Axis vs. Allied ...,Enlist in an intense brand of Axis vs. Allied ...,{'minimum': '\r\n\t\t\t<p><strong>Minimum:</st...,{'minimum': 'Minimum: OS X Snow Leopard 10.6....,"{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual...","500 mhz processor, 96mb ram, 16mb video card, ...",
5,40,Deathmatch Classic,2001-06-01,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,...,5000000-10000000,3.99,Enjoy fast-paced multiplayer gaming with Death...,Enjoy fast-paced multiplayer gaming with Death...,Enjoy fast-paced multiplayer gaming with Death...,{'minimum': '\r\n\t\t\t<p><strong>Minimum:</st...,{'minimum': 'Minimum: OS X Snow Leopard 10.6....,"{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual...","500 mhz processor, 96mb ram, 16mb video card, ...",
6,50,Half-Life: Opposing Force,1999-11-01,Gearbox Software,Valve,windows;mac;linux,0,Single-player;Multi-player;Valve Anti-Cheat en...,Action,FPS;Action;Sci-fi,...,5000000-10000000,3.99,Return to the Black Mesa Research Facility as ...,Return to the Black Mesa Research Facility as ...,Return to the Black Mesa Research Facility as ...,{'minimum': '\r\n\t\t\t<p><strong>Minimum:</st...,{'minimum': 'Minimum: OS X Snow Leopard 10.6....,"{'minimum': 'Minimum: Linux Ubuntu 12.04, Dual...","500 mhz processor, 96mb ram, 16mb video card, ...",


In [0]:
# Cria um dataframe spark usando o dataframe do pandas modificado
sparkDF=spark.createDataFrame(steam_all_data_clean) 

# Cria uma tabela no banco de dados
sparkDF.write.mode('overwrite').saveAsTable("steam_all_data")

![test_image](/carga.png)

## 2.5 Análise

## 2.5.1 Qualidade dos dados

Nesta etapa, será uma análise detalhada da qualidade dos dados por atributo na tabela que foi construída nas etapas anteriores. Avaliaremos cada atributo em busca de problemas potenciais, incluindo valores ausentes, inconsistências, valores atípicos e tipos de dados apropriados. A identificação e resolução desses problemas são cruciais para garantir a integridade e confiabilidade dos dados, preparando-os para as análises subsequentes.

In [0]:
steam_all_data_clean.isnull().sum()

Out[9]: appid                       0
name                        0
release_date                0
developer                   0
publisher                   0
platforms                   0
required_age                0
categories                  0
genres                      0
steamspy_tags               0
achievements                0
positive_ratings            0
negative_ratings            0
average_playtime            0
median_playtime             0
owners                      0
price                       0
detailed_description        0
about_the_game           6782
short_description        6966
pc_requirements             0
mac_requirements            0
linux_requirements          0
minimum                     5
recommended             13044
dtype: int64

A primeira análise é a verificação dos valores faltantes. Como é possivel ver no resultado acima, os unicos atributos que possuem dados faltantes são o "about_the_game", "short_description" , "minimum" e "recommended".

O "about_the_game" e "short_description" se tratam de dados da descrição do jogo na plataforma, e não é incomum alguns jogos não terem a descrição. A coluna "recommended" se trata dos requisitos recomentados para rodar o jogo, e tambem não é incomum que estes dados estejam faltantes. A coluna "minimum" possui apenas 5 valores faltantes, o que leva a crer que ocorreu algum erro na hora de retirar os dados, ou foram perdidos de alguma forma.

In [0]:
steam_all_data_clean.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 27062 entries, 0 to 27063
Data columns (total 25 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   appid                 27062 non-null  int64  
 1   name                  27062 non-null  object 
 2   release_date          27062 non-null  object 
 3   developer             27062 non-null  object 
 4   publisher             27062 non-null  object 
 5   platforms             27062 non-null  object 
 6   required_age          27062 non-null  int64  
 7   categories            27062 non-null  object 
 8   genres                27062 non-null  object 
 9   steamspy_tags         27062 non-null  object 
 10  achievements          27062 non-null  int64  
 11  positive_ratings      27062 non-null  int64  
 12  negative_ratings      27062 non-null  int64  
 13  average_playtime      27062 non-null  int64  
 14  median_playtime       27062 non-null  int64  
 15  owners             

Os tipos de dados de cada uma das colunas está dentro do esperado.

In [0]:
steam_all_data_clean.describe()

Unnamed: 0,appid,required_age,achievements,positive_ratings,negative_ratings,average_playtime,median_playtime,price
count,27062.0,27062.0,27062.0,27062.0,27062.0,27062.0,27062.0,27062.0
mean,596323.9,0.353817,45.26624,1000.845,211.082773,149.856662,146.105351,6.078505
std,250810.4,2.402338,352.753851,18993.28,4285.965411,1827.474576,2354.443666,7.875836
min,10.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,401375.0,0.0,0.0,6.0,2.0,0.0,0.0,1.69
50%,599120.0,0.0,7.0,24.0,9.0,0.0,0.0,3.99
75%,798825.0,0.0,23.0,125.0,41.0,0.0,0.0,7.19
max,1069460.0,18.0,9821.0,2644404.0,487076.0,190625.0,190625.0,421.99


Agora, procederemos à análise dos dados numéricos presentes na tabela para verificar se estão dentro do esperado.

**appid**: Os valores são inteiros, variando de 10 a 1.069.460, o que está de acordo com as expectativas.\
**required_age**: Também são valores inteiros, variando de 0 a 18, dentro das faixas esperadas.\
**achievements**: Novamente, valores inteiros, variando de 0 a 9.821, consistentes com as expectativas.\
**positive_ratings**: Valores inteiros de 0 a 2.644.404, dentro das faixas esperadas.\
**negative_ratings**: Valores inteiros de 0 a 487.076, dentro das expectativas.\
**average_playtime e median_playtime**: Aqui, encontramos valores estranhos, pois o tempo máximo observado parece improvável, mesmo quando considerado em minutos. Não podemos determinar a casa decimal correta para esses dados, portanto, decidimos manter as colunas como estão. Essa decisão é justificada pelo fato de que, se houve alguma operação realizada nessas colunas, ela afetou todas as linhas de maneira uniforme. Para as respostas às perguntas propostas, os valores extremos não devem representar um problema significativo.

In [0]:
steam_all_data_clean.describe(include=object)

Unnamed: 0,name,release_date,developer,publisher,platforms,categories,genres,steamspy_tags,owners,detailed_description,about_the_game,short_description,pc_requirements,mac_requirements,linux_requirements,minimum,recommended
count,27062,27062,27062,27062,27062,27062,27062,27062,27062,27062,20280,20096,27062,27062,27062,27057,14018
unique,27020,2617,17107,14348,5,3333,1551,6418,13,26915,20269,20020,25182,8030,5263,24906,12226
top,Dark Matter,2018-07-13,Choice of Games,Big Fish Games,windows,Single-player,Action;Indie,Action;Indie;Casual,0-20000,\n,Those who love platform games may think this i...,Minimal physical puzzle with explosions,{'minimum': '<strong>Minimum:</strong><br><ul ...,[],[],OS: Windows 7,Requires a 64-bit processor and operating system
freq,3,64,94,212,18393,6104,1852,845,18591,24,3,12,133,15934,18784,137,808


Agora serão analisados as colunas não numéricas.

**name**: Texto. Está dentro do esperado.\
**release_date**: Data. Está dentro do esperado.\
**developer**: Texto. Está dentro do esperado.\
**publisher**: Texto. Está dentro do esperado.\
**platforms**: Texto. Está dentro do esperado.\
**categories**: Texto. Está dentro do esperado.\
**genres**: Texto. Está dentro do esperado.\
**steampsy_tags**: Texto. Está dentro do esperado.\
**owners**: Texto. Está dentro do esperado.\
**detailed_description**: Texto. Está dentro do esperado.\
**about_the_game**: Texto. Está dentro do esperado.\
**short_description**: Texto. Está dentro do esperado.\
**pc_requirements**: Texto. Está dentro do esperado.\
**mac_requirements**: Texto. Está dentro do esperado.\
**linux_requirements**: Texto. Está dentro do esperado.\
**minimum**: Texto. Está dentro do esperado.\
**recommended**: Texto. Está dentro do esperado.

## 2.5.2 Solução do problema

Nesta etapa, as perguntas formuladas no inicio do trabalho serão respondidas, usando a tabela criada no pipeline detalhado anteriormente. Será utilizado a linguagem SQL para responder as perguntas.

1. Quais são os cinco jogos mais bem avaliados na categoria "Roguelike" que foram lançados nos últimos 12 meses?

Como os dados são de 2019, a pergunta será reformulada da seguinte forma:

1. Quais são os cinco jogos mais bem avaliados na categoria "Roguelike" que foram lançados entre 2018 e 2019?

In [0]:
%sql
SELECT name, ((positive_ratings / (positive_ratings + negative_ratings)) * 100) as Ratings, release_date
FROM steam_all_data
WHERE (categories LIKE '%Rogue-like%' 
        OR genres LIKE '%Rogue-like%' 
        OR steamspy_tags LIKE '%Rogue-like%')
        AND release_date BETWEEN '2018-01-01' AND '2019-12-31'
        AND ((positive_ratings / (positive_ratings + negative_ratings)) * 100) < 100
ORDER BY Ratings DESC
LIMIT 5;

name,Ratings,release_date
Slay the Spire,96.32601973199824,2019-01-23
Risk of Rain 2,94.8349843725168,2019-03-28
Dead Cells,94.77918957294207,2018-08-06
ABYSS CRAWLERS plus,92.45283018867924,2018-03-08
Vagante,89.49919224555735,2018-02-21


Para responder essa pergunta, considerei que para ser bem avaliado, um jogo precisa ter a maior porcentagem absoluta de avaliações positivas, e o menor valor possivel de avaliações negativas. Tambem adicionei a coluna de data de lançamento para garantir que a consulta retornou apenas os jogos dentro do intervalo especifico. Adicionei tambem uma condição para mostrar apenas os jogos que o rating seja menor que 100, para evitar os jogos com pouquissimas avaliações.

2) Qual é o jogo mais popular que inclui a palavra "cyberpunk" em sua descrição ou tags?

In [0]:
%sql
SELECT name, int((SUBSTRING_INDEX(owners, '-', 1) + SUBSTRING_INDEX(owners, '-', -1)) / 2) AS Media_de_Donos, ((positive_ratings / (positive_ratings + negative_ratings)) * 100) AS Ratings
FROM steam_all_data
WHERE (categories LIKE '%cyberpunk%' 
       OR genres LIKE '%cyberpunk%' 
       OR steamspy_tags LIKE '%cyberpunk%' 
       OR detailed_description LIKE '%cyberpunk%' 
       OR about_the_game LIKE '%cyberpunk%' 
       OR short_description LIKE '%cyberpunk%')
ORDER BY Media_de_Donos DESC, Ratings DESC
LIMIT 1;

name,Media_de_Donos,Ratings
Shadowrun Returns,1500000,88.4584013050571


O banco de dados construido não possui nenhum indice de popularidade, apenas uma variavel em formato de string que indica um intervalo de valores possiveis para ser o numero de donos daquele jogo. Então para resolver este problema, fiz uma média entre o primeiro e o ultimo valor da variavel "owners". Como existem muitos jogos com o mesmo intervalo de donos, usei o calculo anterior de ratings como segunda métrica para determinar o jogo mais popular. Na clausula "where", filtrei a string "cyberpunk" em todos os possiveis lugares onde ela poderia aparecer.

3) Quais são os três jogos de estratégia com temática de ficção científica que têm o maior número de horas jogadas no total? 

In [0]:
%sql
SELECT name, average_playtime
FROM steam_all_data
WHERE ((categories LIKE '%Strategy%' 
       OR genres LIKE '%Strategy%' 
       OR steamspy_tags LIKE '%Strategy%')
       and (categories LIKE '%Sci-fi%' 
       OR genres LIKE '%Sci-fi%' 
       OR steamspy_tags LIKE '%Sci-fi%'))
ORDER BY average_playtime DESC
LIMIT 3;

name,average_playtime
EVE Online,5123
DG2: Defense Grid 2,3601
UFO: Afterlight,2380


Nesta consulta podemos notar os valores estranhos de tempo de jogo, algo que comentei anteriormente. Porem, como o objetivo é analisar o maior valor absoluto, podemos ignorar a magnitude do numero.

4)	Qual é a porcentagem média de conclusão dos jogos de terror mais assustadores disponíveis na Steam?

Não é possivel responder essa pergunta, pois não existem dados da conclusão média dos jogos.

5)	Quais são os cinco jogos mais jogados que tem exatamente 1 GB de tamanho?


In [0]:
%sql
SELECT name, average_playtime
FROM steam_all_data
WHERE minimum LIKE '% 1 GB available space%'
        or recommended LIKE '% 1 GB available space%'
        or pc_requirements LIKE '% 1 GB available space%'
        or linux_requirements LIKE '% 1 GB available space%'
        or mac_requirements LIKE '% 1 GB available space%'
ORDER BY average_playtime DESC
LIMIT 5;

name,average_playtime
The Desolate Hope,21168
Catan Universe,16710
"Dr. Langeskov, The Tiger, and The Terribly Cursed Emerald: A Whirlwind Heist",15907
Duelyst,14620
Factorio,10087


Para determinar os jogos mais jogados, usei a variavel de tempo médio de jogo. Da mesma forma que no caso anterior, não devemos analisar o numero de tempo de jogo, apenas ver qual são os maiores valores.

6.	Quais são os três jogos mais caros que têm suporte para realidade virtual?

In [0]:
%sql
SELECT name, price
FROM steam_all_data
WHERE (categories LIKE '%VR%' 
       OR genres LIKE '%VR%' 
       OR steamspy_tags LIKE '%VR%')
ORDER BY price DESC
LIMIT 3;

name,price
The Music Room,98.99
ARK: Survival Evolved,44.99
The Elder Scrolls V: Skyrim VR,39.99


Os jogos com suporte a realidade virtual possuem a sua própria tag, então para resolver esta consulta foi necessario apenas usar a tag como filtro.

7.	Qual é o jogo com a trilha sonora mais extensa em termos de número de faixas de música disponíveis?

Não existem dados de trilha sonora disponiveis.

8.	Quais são os jogos que têm a maior diferença entre a classificação dos críticos e dos jogadores?

Não existem dados de notas dos criticos.

9.	Quais são os jogos de estratégia em tempo real mais antigos que ainda têm uma comunidade ativa de jogadores online?

Não existem dados correpondentes a comunidade de cada jogo na tabela.

10.	Quais são os jogos independentes mais populares que foram lançados por desenvolvedoras com sede na América do Sul?

Não existem dados correpondentes as sedes das desenvolvedoras.

## 3 Autoavaliação


Durante o desenvolvimento deste projeto, encontrei alguns desafios notáveis, principalmente na escolha da plataforma de nuvem e no aprendizado necessário para sua eficaz utilização. A plataforma Databricks do Azure chamou minha atenção e, no desfecho, provou ser a escolha mais apropriada para a condução deste trabalho.

O objetivo principal, a construção de um Data Lake com informações abrangentes sobre os jogos da plataforma Steam, foi, sem dúvida, alcançado. Contudo, devido a restrições temporais, lamentavelmente não foi possível empregar uma API para obter dados diretamente da plataforma, o que teria proporcionado uma análise ainda mais realista.

No que diz respeito ao segundo objetivo do trabalho, que era responder às perguntas propostas, foi alcançado um progresso parcial. As perguntas foram formuladas antes da aquisição dos dados, resultando em limitações quanto à nossa capacidade de prever com precisão quais informações poderiam ser extraídas.

Em resumo, este projeto possibilitou a aquisição de habilidades valiosas em engenharia de dados, desde a coleta até o preparo e análise. Além disso, destacou a importância crítica da qualidade dos dados como alicerce de qualquer empreendimento de análise de dados.

Como perspectiva para futuros trabalhos, considero muito interessante a criação de uma API para a coleta automática de dados da plataforma, aprimorando ainda mais o processo de análise de dados e fornecendo resultados mais atuais.