# Análise Exploratória Jogos Steam - Modelo 1 ETL 

Esta análise explortaória é sobre os dados caputados no site da steam através do processo de webscrpaing realizado no projeto :[link de referencia do projeto de ETL da steam]. Esse trabalho tem como objetivo realizar uma investigação inicial sobre os dados caputados e buscar insigths sobre os jogos e a área de negocio que está envolvida, portanto caso seja necessário, novas etapas de ETL poderá ser realizada. Com o fim da análise, a comunicação dos resultados será direcionada para dashboards e relatórios. 

In [29]:
# Importando os pacotes
import pandas as pd
import numpy as np
import matplotlib.pyplot as mlp
import psycopg2
import ast
from sqlalchemy import create_engine, MetaData 

from IPython.display import Image, display
# My Util
from my_utils import EDA

In [2]:
# Criando o engine e conectando ao banco de dados:
engine = create_engine('postgresql://docker:docker@localhost/etl-steam')

# Pegando as tabelas presentes no banco de dados:
metadata = MetaData(bind=engine)
metadata.reflect()
tables = metadata.tables.keys()

In [3]:
# Iterando sobre as tabelas e salvando em dataframes pandas
df_dict = {}
for table in tables:
    df_dict[table] = pd.read_sql('select * from'+' '+table, engine)
    
print(f'Tabelas:{df_dict.keys()}')

Tabelas:dict_keys(['prices', 'reviews', 'info', 'links'])


In [7]:
# Criando novos objetos dataframe com a cópia dos dados orignais para transormações/alterações
df_info = df_dict.get('info')
df_prices = df_dict.get('prices')
df_reviews = df_dict.get('reviews')

* A tabela referente links não será utilizada durante essa análise pois não trás informações relevantes, é somente um armazenamento dos links da página de cada jogo para futuras implementações.

## **Resumos das tabelas sobre tipo dados, quantidade de registros, valores ausentes, duplicidades:**

In [12]:
# Tabela info: 
df_info.head(3)

Unnamed: 0,steam_id,title,tagid_steam
0,730,Counter-Strike: Global Offensive,"[1663,1774,3859,3878,19,5711,5055]"
1,1245620,ELDEN RING,"[29482,4604,122,1695,4026,4231,1697]"
2,1174180,Red Dead Redemption 2,"[1695,1742,1647,21,19,3859,4175]"


**Sobre df_info:**
 - `steam_id`: ID do jogo registrado na steam - deve ser tratado como tipo: numérico;
 - `title`: Título/nome do jogo - tipo: string;
 - `tagid_steam`: Id sobre a tag que classifica o tipo de jogo no site - tipo string;
 
*Obs: Deverá ser realizado o levantamento dos tipos de jogos com suas respectivas tagid_steam. 

In [8]:
EDA.summary_dataframes(df_info)

Quantidade total de registros:141100. 


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 141100 entries, 0 to 141099
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   steam_id     133225 non-null  object
 1   title        141100 non-null  object
 2   tagid_steam  132650 non-null  object
dtypes: object(3)
memory usage: 3.2+ MB
None


 Total Valores nulos:
              Total Values null  %_weight
steam_id                  7875  5.581148
title                        0  0.000000
tagid_steam               8450  5.988661 


Total valores duplicados: 
 18972 ->  13.45 %


**Sobre Prices:**

- `release_date`: Data de lançamento do jogo - tipo datatime
- `price_real`: Valor do jogo em real. - tipo float
- `discount`: Valor desconto em porcentagem sobre o preço real - tipo float
- `data_view`: Data de coleta dos dados. 


In [13]:
#Tabela prices
df_prices.head(3)

Unnamed: 0,steam_id,release_date,price_real,discount,data_view
0,730,"21 Aug, 2012",freetoplay,,13-07-2023
1,1245620,"24 Feb, 2022",249.90,,13-07-2023
2,1174180,"5 Dec, 2019",299.90,,13-07-2023


In [9]:
EDA.summary_dataframes(df_prices)

Quantidade total de registros:141100. 


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 141100 entries, 0 to 141099
Data columns (total 5 columns):
 #   Column        Non-Null Count   Dtype 
---  ------        --------------   ----- 
 0   steam_id      133225 non-null  object
 1   release_date  141100 non-null  object
 2   price_real    141100 non-null  object
 3   discount      3763 non-null    object
 4   data_view     141100 non-null  object
dtypes: object(5)
memory usage: 5.4+ MB
None


 Total Valores nulos:
               Total Values null   %_weight
steam_id                   7875   5.581148
release_date                  0   0.000000
price_real                    0   0.000000
discount                 137337  97.333097
data_view                     0   0.000000 


Total valores duplicados: 
 21317 ->  15.11 %


**Sobre reviews:**

- `total_reviews`: Total de reviews - tipo inteiro
- `percent_positive_reviews`: Porcentagem de reviews que são positivo - tipo float

In [14]:
#Tabela 
df_reviews.head(3)

Unnamed: 0,steam_id,total_reviews,percent_positive_reviews
0,730,7348617,88
1,1245620,515427,92
2,1174180,388323,90


In [10]:
EDA.summary_dataframes(df_reviews)

Quantidade total de registros:141100. 


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 141100 entries, 0 to 141099
Data columns (total 3 columns):
 #   Column                    Non-Null Count   Dtype 
---  ------                    --------------   ----- 
 0   steam_id                  133225 non-null  object
 1   total_reviews             41243 non-null   object
 2   percent_positive_reviews  41243 non-null   object
dtypes: object(3)
memory usage: 3.2+ MB
None


 Total Valores nulos:
                           Total Values null   %_weight
steam_id                               7875   5.581148
total_reviews                         99857  70.770376
percent_positive_reviews              99857  70.770376 


Total valores duplicados: 
 20924 ->  14.83 %


    * Observa-se uma alta taxa de dados faltantes nas tabelas de prices['discount'] e reviews['total_reviews, 'percent_positive_reviews']  
    
    Esse primeiro modelo de ETL apresentou 70% de dados faltantes para as colunas total_reviews e percent_positive_reviews. E uma média de 14% de dados duplicados para cada tabela. 
    Outra variável bastante afetada foi a de `discount`com a presença de 97% dos dados faltantes. 
    
    Portanto reforça a necessidade de olhar para as variáveis citadas acima e verificar o tratamento de erro para melhorar essa captura de dados. 

### Verificando os valores duplicados

In [22]:
df_info[df_info.duplicated(keep=False)]

Unnamed: 0,steam_id,title,tagid_steam
429,,R-Type Final 2 - Stage Pass,[19]
1019,675910,Visual Out,"[492,19,21,1628]"
1184,610100,64.0 Soundtrack,"[19,492,1756]"
4416,911930,BATTLETECH Flashpoint,"[9,21,19,4821,1677]"
4512,911930,BATTLETECH Flashpoint,"[9,21,19,4821,1677]"
...,...,...,...
141093,1104810,NB Desktop - Game Display 游戏展示,"[84,87,809,1445]"
141094,1104920,The Man Came Around,"[4064,6052,1698,4026,1662,6426,1710]"
141096,1104960,Alien Kingdom,"[492,597,19,4345,4667,9,599]"
141097,1105050,Clipptic,"[87,493,84,1038,8013]"


### Transformações dos tipos dos dados

#### df_info:
 

In [25]:
df_info.head(3)

Unnamed: 0,steam_id,title,tagid_steam
0,730,Counter-Strike: Global Offensive,"[1663,1774,3859,3878,19,5711,5055]"
1,1245620,ELDEN RING,"[29482,4604,122,1695,4026,4231,1697]"
2,1174180,Red Dead Redemption 2,"[1695,1742,1647,21,19,3859,4175]"


In [28]:
df_info[df_info.steam_id.isnull()]

Unnamed: 0,steam_id,title,tagid_steam
343,,Maestro Collection,"[21,597,1738]"
429,,R-Type Final 2 - Stage Pass,[19]
432,,Grand Theft Auto V: Premium Edition,"[19,1695,3859,6378,21,1697,12095]"
663,,The Binding of Isaac: Rebirth Complete Bundle,"[42804,4711,4026,492,1716,19,21]"
720,,Subnautica Deep Ocean Bundle,"[1100689,1662,1695,9157,3834,1667,4182]"
...,...,...,...
133982,,Mythical Agent + Soundtrack,"[21725,14139,9204,10235,122,17305]"
135499,,COMPLETE PAINTBALL COLLECTION,"[113,19,128,492,597,9,599]"
135671,,A Drop of Hope + Original Soundtrack,"[5537,5379,3964,4106,5030,1625]"
140377,,LGT Match 3 Bundle Part I,"[1665,1664,597,5350,3871,1738,13070]"


**Notações:**

- Os valores None da `steam_id` são devido ao tipo de jogo, nesses casos são bundle (coleções de jogos), estão classificados com o atributo na tag de 'data-ds-bundleid'.

Ex:  
    ![example](img_examples/eda_modelo1_etl/attr_bundleid.png)