# EDA
Como paso inicial se importa las librerias a utilizar en nuestro proceso de exploración de los datos que se encuentran comprimidos en formato .gz; estos datos vienen en un formato json, se va a convertirlos en data frames haciendo uso de pandas para ser guardados en un formato csv.

In [1]:
# *** HENRY ***
# *** PROYECTO INDIVIDUAL 01 ***
# *** Sistema de Recomendación de Videojuegos ***
# *** MLOps Engineer ***

# ARCHIVO 'steam_games.json.gz'

# LIBRERÍAS
import pandas as pd
import gzip
import ast
import json
# Descomprimiendo el archivo y convirtiendolo en un DataFrame
data = []
with gzip.open("C:\\Users\\PC\\Music\\Programas_VSC\\HENRY_PI_01\\steam_games.json.gz", 'rb') as f:
  for line in f:
    data.append(json.loads(line))
games = pd.DataFrame(data)
f.close()

In [2]:
#Visualizando las 5 primeras filas del dataframe
games.head()

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
0,,,,,,,,,,,,,
1,,,,,,,,,,,,,
2,,,,,,,,,,,,,
3,,,,,,,,,,,,,
4,,,,,,,,,,,,,


In [3]:
# Visualizando las últimas 5 filas del dataframe
games.tail()

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
120440,Ghost_RUS Games,"[Casual, Indie, Simulation, Strategy]",Colony On Mars,Colony On Mars,http://store.steampowered.com/app/773640/Colon...,2018-01-04,"[Strategy, Indie, Casual, Simulation]",http://steamcommunity.com/app/773640/reviews/?...,"[Single-player, Steam Achievements]",1.99,False,773640,"Nikita ""Ghost_RUS"""
120441,Sacada,"[Casual, Indie, Strategy]",LOGistICAL: South Africa,LOGistICAL: South Africa,http://store.steampowered.com/app/733530/LOGis...,2018-01-04,"[Strategy, Indie, Casual]",http://steamcommunity.com/app/733530/reviews/?...,"[Single-player, Steam Achievements, Steam Clou...",4.99,False,733530,Sacada
120442,Laush Studio,"[Indie, Racing, Simulation]",Russian Roads,Russian Roads,http://store.steampowered.com/app/610660/Russi...,2018-01-04,"[Indie, Simulation, Racing]",http://steamcommunity.com/app/610660/reviews/?...,"[Single-player, Steam Achievements, Steam Trad...",1.99,False,610660,Laush Dmitriy Sergeevich
120443,SIXNAILS,"[Casual, Indie]",EXIT 2 - Directions,EXIT 2 - Directions,http://store.steampowered.com/app/658870/EXIT_...,2017-09-02,"[Indie, Casual, Puzzle, Singleplayer, Atmosphe...",http://steamcommunity.com/app/658870/reviews/?...,"[Single-player, Steam Achievements, Steam Cloud]",4.99,False,658870,"xropi,stev3ns"
120444,,,Maze Run VR,,http://store.steampowered.com/app/681550/Maze_...,,"[Early Access, Adventure, Indie, Action, Simul...",http://steamcommunity.com/app/681550/reviews/?...,"[Single-player, Stats, Steam Leaderboards, HTC...",4.99,True,681550,


In [4]:
# Información del DataFrame
games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120445 entries, 0 to 120444
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   publisher     24083 non-null  object
 1   genres        28852 non-null  object
 2   app_name      32133 non-null  object
 3   title         30085 non-null  object
 4   url           32135 non-null  object
 5   release_date  30068 non-null  object
 6   tags          31972 non-null  object
 7   reviews_url   32133 non-null  object
 8   specs         31465 non-null  object
 9   price         30758 non-null  object
 10  early_access  32135 non-null  object
 11  id            32133 non-null  object
 12  developer     28836 non-null  object
dtypes: object(13)
memory usage: 11.9+ MB


In [5]:
# Cantidad de filas con tolas columnas NaN 
games.isna().all(axis=1).sum()

88310

In [6]:
# Mostrando todas las columnas
games.columns

Index(['publisher', 'genres', 'app_name', 'title', 'url', 'release_date',
       'tags', 'reviews_url', 'specs', 'price', 'early_access', 'id',
       'developer'],
      dtype='object')

##### Descripción del DataFrame:
Se puede observar que el DataFrame tiene 13 columnas y 120445 filas.
También se puede notar que existen 88310 filas donde todas las columnas son NaN y que se pueden borrar.
Explorando las columnas nos podemos dar cuenta que para nuestro objetivo no son necesarias las columnas 'tags',
'specs', 'url', y 'reviews_url' por lo que se pueden borrar.

Por otro lado, se hace una pequeña descripción de cada una de las columnas:
- publisher: es la empresa que publica el contenido.
- genres: es el género del juego. Esta formado por una lista de uno o mas géneros por registro.
- app_name: es el nombre del juego.
- title: es el título del item.
- url: es la url del juego.
- release_date: es la fecha de lanzamiento del item en formato año-mes-día.
- tags: es la etiqueta del contenido. Esta formado por una lista de uno o más etiquetas por registro.
- reviews_url: es la url donde se encuentra el review de ese juego.
- specs: son especificaciones de cada item. Es una lista con uno o mas string con las especificaciones.
- price: es el precio del item.
- early_access: indica el acceso temprano con un True/False.
- id: es el identificador único del juego.
- developer: es el desarrollador del juego. 

# ETL
Como segundo paso se procede a realizar las transformaciones tomando en cuenta el análisis exploratorio de los datos.

In [7]:
# Eliminando las columnas que se repiten como aquellas que no vana ser necesarias para nuestro análisis
games.drop( ['url','reviews_url','tags', 'specs'], axis=1, inplace=True )

In [8]:
# Eliminando todas las filas donde todas las columnas son NaN
games.dropna(how='all', inplace=True)

In [9]:
# Elimina todas las filas en donde aparece al menos un NaN
games.dropna(inplace=True)

In [11]:
# Desanidando la columna genero
games = games.explode('genres')
# Reordenando la numeración de las filas
games = games.reset_index(drop=True)

In [12]:
# Se analizan filas duplicadas.
duplicados = games.duplicated(subset=['id'], keep=False)
# Se filtra los datos suplicados
duplicados_df = games[duplicados]
# Se muestra el DataFrame con las filas duplicadas
duplicados_df

Unnamed: 0,publisher,genres,app_name,title,release_date,price,early_access,id,developer
0,Kotoshiro,Action,Lost Summoner Kitty,Lost Summoner Kitty,2018-01-04,4.99,False,761140,Kotoshiro
1,Kotoshiro,Casual,Lost Summoner Kitty,Lost Summoner Kitty,2018-01-04,4.99,False,761140,Kotoshiro
2,Kotoshiro,Indie,Lost Summoner Kitty,Lost Summoner Kitty,2018-01-04,4.99,False,761140,Kotoshiro
3,Kotoshiro,Simulation,Lost Summoner Kitty,Lost Summoner Kitty,2018-01-04,4.99,False,761140,Kotoshiro
4,Kotoshiro,Strategy,Lost Summoner Kitty,Lost Summoner Kitty,2018-01-04,4.99,False,761140,Kotoshiro
...,...,...,...,...,...,...,...,...,...
56158,Laush Studio,Indie,Russian Roads,Russian Roads,2018-01-04,1.99,False,610660,Laush Dmitriy Sergeevich
56159,Laush Studio,Racing,Russian Roads,Russian Roads,2018-01-04,1.99,False,610660,Laush Dmitriy Sergeevich
56160,Laush Studio,Simulation,Russian Roads,Russian Roads,2018-01-04,1.99,False,610660,Laush Dmitriy Sergeevich
56161,SIXNAILS,Casual,EXIT 2 - Directions,EXIT 2 - Directions,2017-09-02,4.99,False,658870,"xropi,stev3ns"


In [13]:
# Eliminando filas duplicadas
games = games.drop_duplicates()

In [14]:
# Reordenando la numeración de las filas
games = games.reset_index(drop=True)

In [16]:
# Convirtiendo el tipo de dato en la colunma fecha_lanzamiento

games['release_date'] = pd.to_datetime(games['release_date'], errors='coerce')
games = games.dropna(subset=['release_date'])

In [17]:
# Convirtiendo el tipo de dato en la colunma precio

games['price'] = pd.to_numeric(games['price'], errors='coerce')
games = games.dropna(subset=['price'])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  games['price'] = pd.to_numeric(games['price'], errors='coerce')


In [18]:
# Convirtiendo el tipo de dato en la colunma id

games['id'] = pd.to_numeric(games['id'], errors='coerce')
games = games.dropna(subset=['id'])

In [19]:
# Eliminando filas duplicadas

games = games.drop_duplicates()

In [20]:
# Reordenando la numeración de las filas

games = games.reset_index(drop=True)

In [21]:
# Creando una columna en donde solo muestra el año

games['año_lanzamiento'] = games['release_date'].dt.year

In [22]:
# Elimina la columna donde aparece toda la fecha completa

games.drop('release_date', axis=1, inplace=True)

In [24]:
# Guardando el archivo limpio en formato csv

# Formato csv
games.to_csv('games_limpio.csv', index=False)
# Formato parquet
games.to_parquet('games_limpio.parquet')
