# Análise Exploratória Jogos Steam - Modelo 1 ETL 

Esta análise explortaória é sobre os dados caputados no site da steam através do processo de webscrpaing realizado no projeto :[link de referencia do projeto de ETL da steam]. Esse trabalho tem como objetivo realizar uma investigação inicial sobre os dados caputados e buscar insigths sobre os jogos e a área de negocio que está envolvida, portanto caso seja necessário, novas etapas de ETL poderá ser realizada. Com o fim da análise, a comunicação dos resultados será direcionada para dashboards e relatórios. 

In [1]:
# Importando os pacotes
import pandas as pd
import numpy as np
import matplotlib.pyplot as mlp
import psycopg2
import ast
from sqlalchemy import create_engine, MetaData 

# My Util
from my_utils import EDA

In [2]:
# Definição de funções: 
def transform_multipleID(df, column):
    data = df[column].apply(lambda x: None if x is None else [int(i) for i in x.split(',')])
    return data

In [3]:
# Criando o engine e conectando ao banco de dados:
engine = create_engine('postgresql://docker:docker@localhost/etl-steam')

# Pegando as tabelas presentes no banco de dados:
SCHEMA_NAME = 'modelo2'
metadata = MetaData(bind=engine, schema=SCHEMA_NAME)
metadata.reflect()
tables = metadata.tables.keys()
tables

dict_keys(['modelo2.exemplo_tab', 'modelo2.info', 'modelo2.reviews', 'modelo2.prices', 'modelo2.links'])

In [4]:
# Iterando sobre as tabelas e salvando em dataframes pandas
df_dict = {}
for table in tables:
    df_dict[table] = pd.read_sql('select * from'+' '+table, engine)
    
print(f'Tabelas:{df_dict.keys()}')

Tabelas:dict_keys(['modelo2.exemplo_tab', 'modelo2.info', 'modelo2.reviews', 'modelo2.prices', 'modelo2.links'])


In [5]:
# Criando novos objetos dataframe com a cópia dos dados orignais para transormações/alterações
df_info = df_dict.get(SCHEMA_NAME+'.info')
df_prices = df_dict.get(SCHEMA_NAME+'.prices')
df_reviews = df_dict.get(SCHEMA_NAME+'.reviews')

* A tabela referente links não será utilizada durante essa análise pois não trás informações relevantes, é somente um armazenamento dos links da página de cada jogo para futuras implementações.

## **Resumos das tabelas sobre tipo dados, quantidade de registros, valores ausentes, duplicidades:**

In [6]:
# Tabela info: 
df_info.head()

Unnamed: 0,index,steam_id,title,tagid_steam
0,0,730,Counter-Strike: Global Offensive,"[1663,1774,3859,3878,19,5711,5055]"
1,1,671860,BattleBit Remastered,"[1663,1774,3859,5363,128,4168,1775]"
2,2,1086940,Baldur's Gate 3,"[493,122,6426,4747,1742,4474,1684]"
3,3,271590,Grand Theft Auto V,"[1695,19,3859,6378,1100687,1697,3839]"
4,4,1938090,Call of Duty®: Modern Warfare® II,"[1663,3859,19,1774,4182,4168,3839]"


**Sobre df_info:**
 - `steam_id`: ID do jogo registrado na steam - deve ser tratado como tipo: lista, pois há jogos cadastrados na página que irão conter mais de um id, pois tratam de versões do mesmo jogo;
 - `title`: Título/nome do jogo - tipo: string;
 - `tagid_steam`: Id sobre a tag que classifica o tipo de jogo no site - tipo lista, contem as id tag que o jogo é classificado;
 
*Obs: Na steam há a presença de softwares, pacotes de músicas, imagens que não são classificados em uma tag, portanto são publicadas sem classificação. 

In [7]:
EDA.summary_dataframes(df_info)

Quantidade total de registros:142100. 


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 142100 entries, 0 to 142099
Data columns (total 4 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   index        142100 non-null  int64 
 1   steam_id     142089 non-null  object
 2   title        142100 non-null  object
 3   tagid_steam  133860 non-null  object
dtypes: int64(1), object(3)
memory usage: 4.3+ MB
None


 Total Valores nulos:
              Total Values null  %_weight
index                        0  0.000000
steam_id                    11  0.007741
title                        0  0.000000
tagid_steam               8240  5.798733 


Total valores duplicados: 
 472 ->  0.33 %


**Sobre Prices:**

- `release_date`: Data de lançamento do jogo - tipo datatime
- `price_real`: Valor do jogo em real. - tipo float
- `discount`: Valor desconto em porcentagem sobre o preço real - tipo float
- `data_view`: Data de coleta dos dados. 

* OBS: a presença do campo desconto é relevantes em periores promocionais da steam


In [8]:
#Tabela prices
df_prices.head(3)

Unnamed: 0,index,steam_id,release_date,price_real,discount,data_view
0,0,730,"21 Aug, 2012",76.49,,19-07-2023
1,1,671860,"15 Jun, 2023",49.0,,19-07-2023
2,2,1086940,"6 Oct, 2020",199.99,,19-07-2023


In [9]:
EDA.summary_dataframes(df_prices)

Quantidade total de registros:142100. 


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 142100 entries, 0 to 142099
Data columns (total 6 columns):
 #   Column        Non-Null Count   Dtype 
---  ------        --------------   ----- 
 0   index         142100 non-null  int64 
 1   steam_id      142089 non-null  object
 2   release_date  142100 non-null  object
 3   price_real    142100 non-null  object
 4   discount      0 non-null       object
 5   data_view     142100 non-null  object
dtypes: int64(1), object(5)
memory usage: 6.5+ MB
None


 Total Valores nulos:
               Total Values null    %_weight
index                         0    0.000000
steam_id                     11    0.007741
release_date                  0    0.000000
price_real                    0    0.000000
discount                 142100  100.000000
data_view                     0    0.000000 


Total valores duplicados: 
 472 ->  0.33 %


**Sobre reviews:**

- `total_reviews`: Total de reviews - tipo inteiro
- `percent_positive_reviews`: Porcentagem de reviews que são positivo - tipo float

In [10]:
#Tabela 
df_reviews.head()

Unnamed: 0,index,steam_id,total_reviews,percent_positive_reviews
0,0,730,7364036,88
1,1,671860,57174,90
2,2,1086940,59852,88
3,3,271590,1451735,86
4,4,1938090,404438,60


In [11]:
EDA.summary_dataframes(df_reviews)

Quantidade total de registros:142100. 


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 142100 entries, 0 to 142099
Data columns (total 4 columns):
 #   Column                    Non-Null Count   Dtype 
---  ------                    --------------   ----- 
 0   index                     142100 non-null  int64 
 1   steam_id                  142089 non-null  object
 2   total_reviews             54769 non-null   object
 3   percent_positive_reviews  54769 non-null   object
dtypes: int64(1), object(3)
memory usage: 4.3+ MB
None


 Total Valores nulos:
                           Total Values null   %_weight
index                                     0   0.000000
steam_id                                 11   0.007741
total_reviews                         87331  61.457424
percent_positive_reviews              87331  61.457424 


Total valores duplicados: 
 472 ->  0.33 %


    * Observa-se uma alta taxa de dados faltantes nas tabelas de prices['discount'] e reviews['total_reviews, 'percent_positive_reviews']  
    
    Esse primeiro modelo de ETL apresentou 70% de dados faltantes para as colunas total_reviews e percent_positive_reviews. E uma média de 14% de dados duplicados para cada tabela. 
    Outra variável bastante afetada foi a de `discount`com a presença de 97% dos dados faltantes. 
    
    Portanto reforça a necessidade de olhar para as variáveis citadas acima e verificar o tratamento de erro para melhorar essa captura de dados. 

### Verificando os valores duplicados

In [12]:
df_info[df_info.duplicated(keep=False)]

Unnamed: 0,index,steam_id,title,tagid_steam
29239,37,7060,VR MegaPack,"[21978,492,4182,9,599,597,1663]"
29289,37,7060,VR MegaPack,"[21978,492,4182,9,599,597,1663]"
29538,36,15675,Dungeon Crusher Kiritan with Crabs!!,"[9,1732,1645,599,4726,8122,1741]"
29539,37,15698,Gryphon Knight Epic - Loyalty Bundle,"[19,4255,3871,1684,492,3964,1774]"
29540,38,15761,Thimbleweed Park Soundtrack Edition,"[21,1698,3964,492,1664,1719]"
...,...,...,...,...
141895,45,2373200,Unhinged 2,"[19,1664,1774,1663,3839,4342,1667]"
141896,46,2373340,Monster Line of Defense,"[597,12095,5611,24904,4637,3871,4085]"
141897,47,2373360,Witchcraft: Candy Hunt,"[19,597,1773,4736,1774,4885,3798]"
141898,48,2373460,Chess!,"[597,4184,1770,4191,599,9,1664]"


### Transformações dos tipos dos dados

#### df_info:
 

In [13]:
df_info.tagid_steam = df_info.tagid_steam.apply(lambda x: 'nao_classificado' if x is None else eval(x))

In [14]:
df_info.steam_id = transform_multipleID(df_info, 'steam_id')

In [15]:
df_info.head(3)

Unnamed: 0,index,steam_id,title,tagid_steam
0,0,[730],Counter-Strike: Global Offensive,"[1663, 1774, 3859, 3878, 19, 5711, 5055]"
1,1,[671860],BattleBit Remastered,"[1663, 1774, 3859, 5363, 128, 4168, 1775]"
2,2,[1086940],Baldur's Gate 3,"[493, 122, 6426, 4747, 1742, 4474, 1684]"


**Notações:**

- Os valores None da `steam_id` são devido ao tipo de jogo, nesses casos são bundle (coleções de jogos), estão classificados com o atributo na tag de 'data-ds-bundleid'.

Ex:  
    ![example](img_examples/eda_modelo1_etl/attr_bundleid.png)

**df_prices**

In [16]:
df_prices.steam_id = transform_multipleID(df_prices, 'steam_id')
df_prices.discount = df_prices.discount.apply(lambda x: 'nao_informado' if x is None else x)

In [17]:
df_prices.head()

Unnamed: 0,index,steam_id,release_date,price_real,discount,data_view
0,0,[730],"21 Aug, 2012",76.49,nao_informado,19-07-2023
1,1,[671860],"15 Jun, 2023",49.0,nao_informado,19-07-2023
2,2,[1086940],"6 Oct, 2020",199.99,nao_informado,19-07-2023
3,3,[271590],"13 Apr, 2015",0.0,nao_informado,19-07-2023
4,4,[1938090],"27 Oct, 2022",299.9,nao_informado,19-07-2023


**df_reviews**

In [18]:
df_reviews.head()

Unnamed: 0,index,steam_id,total_reviews,percent_positive_reviews
0,0,730,7364036,88
1,1,671860,57174,90
2,2,1086940,59852,88
3,3,271590,1451735,86
4,4,1938090,404438,60


In [19]:
columns_type = {'total_reviews':'int64', 'percent_positive_reviews':'float64'}
df_reviews = EDA.define_column_type(df_reviews, **columns_type)

In [20]:
df_reviews.steam_id = transform_multipleID(df_reviews, 'steam_id')

In [21]:
df_reviews.head()

Unnamed: 0,index,steam_id,total_reviews,percent_positive_reviews
0,0,[730],7364036,88.0
1,1,[671860],57174,90.0
2,2,[1086940],59852,88.0
3,3,[271590],1451735,86.0
4,4,[1938090],404438,60.0


In [22]:
df_reviews.isnull().sum()

index                           0
steam_id                       11
total_reviews               87331
percent_positive_reviews    87331
dtype: int64

In [23]:
df_reviews[df_reviews.total_reviews.isnull()]

Unnamed: 0,index,steam_id,total_reviews,percent_positive_reviews
72,22,[1282100],,
125,25,[2195250],,
134,34,[1716740],,
173,23,[1517290],,
180,30,[1665460],,
...,...,...,...,...
142095,45,[2519130],,
142096,46,[2519140],,
142097,47,[2519150],,
142098,48,[2519420],,


## Construção de uma unica tabela relacional para agrupamento de informações

In [24]:
# Como o scraping dos dados foi realizado simultaneamente para cada caso, o index é válido como referencia
# para relacionamento entre as tabelas salvas no banco de dados, iremos realizar os agrupamentos utilizando esse parametro. 


In [25]:
df_prices.head()

Unnamed: 0,index,steam_id,release_date,price_real,discount,data_view
0,0,[730],"21 Aug, 2012",76.49,nao_informado,19-07-2023
1,1,[671860],"15 Jun, 2023",49.0,nao_informado,19-07-2023
2,2,[1086940],"6 Oct, 2020",199.99,nao_informado,19-07-2023
3,3,[271590],"13 Apr, 2015",0.0,nao_informado,19-07-2023
4,4,[1938090],"27 Oct, 2022",299.9,nao_informado,19-07-2023


In [29]:
df_reviews.head()

Unnamed: 0,index,steam_id,total_reviews,percent_positive_reviews
0,0,[730],7364036,88.0
1,1,[671860],57174,90.0
2,2,[1086940],59852,88.0
3,3,[271590],1451735,86.0
4,4,[1938090],404438,60.0


In [34]:
data = pd.concat([df_info, 
                  df_prices[['release_date','price_real','discount']],
                  df_reviews[['total_reviews','percent_positive_reviews']]
                 ], axis=1)

In [35]:
data.head()

Unnamed: 0,index,steam_id,title,tagid_steam,release_date,price_real,discount,total_reviews,percent_positive_reviews
0,0,[730],Counter-Strike: Global Offensive,"[1663, 1774, 3859, 3878, 19, 5711, 5055]","21 Aug, 2012",76.49,nao_informado,7364036,88.0
1,1,[671860],BattleBit Remastered,"[1663, 1774, 3859, 5363, 128, 4168, 1775]","15 Jun, 2023",49.0,nao_informado,57174,90.0
2,2,[1086940],Baldur's Gate 3,"[493, 122, 6426, 4747, 1742, 4474, 1684]","6 Oct, 2020",199.99,nao_informado,59852,88.0
3,3,[271590],Grand Theft Auto V,"[1695, 19, 3859, 6378, 1100687, 1697, 3839]","13 Apr, 2015",0.0,nao_informado,1451735,86.0
4,4,[1938090],Call of Duty®: Modern Warfare® II,"[1663, 3859, 19, 1774, 4182, 4168, 3839]","27 Oct, 2022",299.9,nao_informado,404438,60.0


In [43]:
data[data.title == "Memory Traces: Japan"]

Unnamed: 0,index,steam_id,title,tagid_steam,release_date,price_real,discount,total_reviews,percent_positive_reviews
27126,24,[1906180],Memory Traces: Japan,"[1664, 597, 492, 5350, 1654, 3810, 1643]","15 Dec, 2016",0.0,nao_informado,196,88.0


## Dev Functions