## Steam Games

In [17]:
import pandas as pd
import json
import gzip
import ast

#### Procedemos a cargar el dataset

In [18]:
games = pd.read_json("../Dataset/steam_games.json.gz", compression="gzip", lines=True)
games.head(5)

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
0,,,,,,,,,,,,,
1,,,,,,,,,,,,,
2,,,,,,,,,,,,,
3,,,,,,,,,,,,,
4,,,,,,,,,,,,,


### Se debera detectar la cantidad de valores nulos y se debera proceder a eliminarlos

In [19]:
# Identificaremos los valores nulos
games.id.isna().value_counts()

id
True     88312
False    32133
Name: count, dtype: int64

In [20]:
# Sabremos cuantos valores nulos existen en cada columna
for column in games.columns:
    print(f'Hay {games[column].isna().sum()} valores nulos en {column}')

Hay 96362 valores nulos en publisher
Hay 91593 valores nulos en genres
Hay 88312 valores nulos en app_name
Hay 90360 valores nulos en title
Hay 88310 valores nulos en url
Hay 90377 valores nulos en release_date
Hay 88473 valores nulos en tags
Hay 88312 valores nulos en reviews_url
Hay 88980 valores nulos en specs
Hay 89687 valores nulos en price
Hay 88310 valores nulos en early_access
Hay 88312 valores nulos en id
Hay 91609 valores nulos en developer


### Procedemos a eliminar los valores nulos

In [21]:
clean_games = games.dropna(how='all')

In [22]:
clean_games.head(3)

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
88310,Kotoshiro,"[Action, Casual, Indie, Simulation, Strategy]",Lost Summoner Kitty,Lost Summoner Kitty,http://store.steampowered.com/app/761140/Lost_...,2018-01-04,"[Strategy, Action, Indie, Casual, Simulation]",http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,0.0,761140.0,Kotoshiro
88311,"Making Fun, Inc.","[Free to Play, Indie, RPG, Strategy]",Ironbound,Ironbound,http://store.steampowered.com/app/643980/Ironb...,2018-01-04,"[Free to Play, Strategy, Indie, RPG, Card Game...",http://steamcommunity.com/app/643980/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",Free To Play,0.0,643980.0,Secret Level SRL
88312,Poolians.com,"[Casual, Free to Play, Indie, Simulation, Sports]",Real Pool 3D - Poolians,Real Pool 3D - Poolians,http://store.steampowered.com/app/670290/Real_...,2017-07-24,"[Free to Play, Simulation, Sports, Casual, Ind...",http://steamcommunity.com/app/670290/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",Free to Play,0.0,670290.0,Poolians.com


### Tratamiento de datos

In [23]:
# Controlaremos las columnas y revisaremos la cantidad de valores nulos
for column in clean_games.columns:
    print(f'Hay {clean_games[column].isna().sum()} valores nulos en {column}')

Hay 8052 valores nulos en publisher
Hay 3283 valores nulos en genres
Hay 2 valores nulos en app_name
Hay 2050 valores nulos en title
Hay 0 valores nulos en url
Hay 2067 valores nulos en release_date
Hay 163 valores nulos en tags
Hay 2 valores nulos en reviews_url
Hay 670 valores nulos en specs
Hay 1377 valores nulos en price
Hay 0 valores nulos en early_access
Hay 2 valores nulos en id
Hay 3299 valores nulos en developer


### Elimino las columnas que no voy a usar

In [24]:
games.drop(columns= ['app_name', 'url', 'tags', 'reviews_url', 'specs', 'early_access', ], inplace=True)

In [10]:
# Eliminaremos los valores nulos en la clumna llamada id
# games = games.dropna(subset="id", axis=0)

In [25]:
games.info()

<class 'pandas.core.frame.DataFrame'>
Index: 120445 entries, 0 to 120444
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   publisher     24083 non-null  object 
 1   genres        28852 non-null  object 
 2   title         30085 non-null  object 
 3   release_date  30068 non-null  object 
 4   price         30758 non-null  object 
 5   id            32133 non-null  float64
 6   developer     28836 non-null  object 
dtypes: float64(1), object(6)
memory usage: 7.4+ MB


### Creamos dummys para genres

In [26]:
games['genres'] = games['genres'].fillna('[]') #Relleno los valores faltantes con una lista vacia
games['genres'] = games['genres'].apply(lambda x: ', '.join(x)) #Convertir la lista de generos separada por comas

Creamos variables para los generos

In [27]:
dummy_genres = games['genres'].str.get_dummies(', ')

Concateno las variables con el Dataframe original

In [28]:
games_with_dymmys = pd.concat([games, dummy_genres], axis=1)

In [29]:
games_with_dymmys.info()

<class 'pandas.core.frame.DataFrame'>
Index: 120445 entries, 0 to 120444
Data columns (total 31 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   publisher                  24083 non-null   object 
 1   genres                     120445 non-null  object 
 2   title                      30085 non-null   object 
 3   release_date               30068 non-null   object 
 4   price                      30758 non-null   object 
 5   id                         32133 non-null   float64
 6   developer                  28836 non-null   object 
 7   Accounting                 120445 non-null  int64  
 8   Action                     120445 non-null  int64  
 9   Adventure                  120445 non-null  int64  
 10  Animation &amp; Modeling   120445 non-null  int64  
 11  Audio Production           120445 non-null  int64  
 12  Casual                     120445 non-null  int64  
 13  Design &amp; Illustration  120445 

De la columna release_date extraigo solo el año

In [30]:
games = games_with_dymmys

In [31]:
# Reemplazar los valores no validos por NaN
games['release_date'] = pd.to_datetime(games['release_date'], errors='coerce')

# Filtrar el DataFrame para obtener los registros validos
games_filtered = games.dropna(subset=['release_date'])

# Convierto la columna "release_date" a tipo datatime
games_filtered.loc[:, 'release_date'] = pd.to_datetime(games_filtered['release_date'])


In [33]:
# Relleno los valores faltantes con mode
column_mode = ['release_date']
for col in column_mode:
    games[col] = games[col].fillna(games[col].mode()[0])

In [37]:
# Modelar y eliminacion de la columna 'release_date' 
games['year'] = games['release_date'].dt.year.astype('Int64')
games.drop('release_date', axis=1, inplace=True)

In [38]:
for column in games.columns:
    print(f'Hay {games[column].isna().sum()} valores nulos en {column}')

Hay 96362 valores nulos en publisher
Hay 0 valores nulos en genres
Hay 90360 valores nulos en title
Hay 89687 valores nulos en price
Hay 88312 valores nulos en id
Hay 91609 valores nulos en developer
Hay 0 valores nulos en Accounting
Hay 0 valores nulos en Action
Hay 0 valores nulos en Adventure
Hay 0 valores nulos en Animation &amp; Modeling
Hay 0 valores nulos en Audio Production
Hay 0 valores nulos en Casual
Hay 0 valores nulos en Design &amp; Illustration
Hay 0 valores nulos en Early Access
Hay 0 valores nulos en Education
Hay 0 valores nulos en Free to Play
Hay 0 valores nulos en Indie
Hay 0 valores nulos en Massively Multiplayer
Hay 0 valores nulos en Photo Editing
Hay 0 valores nulos en RPG
Hay 0 valores nulos en Racing
Hay 0 valores nulos en Simulation
Hay 0 valores nulos en Software Training
Hay 0 valores nulos en Sports
Hay 0 valores nulos en Strategy
Hay 0 valores nulos en Utilities
Hay 0 valores nulos en Video Production
Hay 0 valores nulos en Web Publishing
Hay 0 valores n

Importamos a ¿Parquet?

In [40]:
games.to_csv('steam_games_clean.csv')
# 120444