In [1]:
import warnings
warnings.filterwarnings("ignore")

# Inicialización

Importamos las librerías que nos servirán para poder procesar, visualizar y explorar nuestros datos de manera efectiva, la librería `pandas`, `numpy`, `json`, `gzip`.


In [2]:
import pandas as pd
import numpy as np
import json
import gzip

%load_ext autoreload
%autoreload 2

# Extracción de los datos Steam Games

Extraer datos del archivo JSON "steam_games.json.gz", convertirlos en un DataFrame utilizando Pandas y explorar su contenido inicial.


In [3]:
# Ruta al archivo comprimido
file_path = 'steam_games.json.gz'

# Lista para almacenar los datos
data_list = []

# Descomprime el archivo y lee línea por línea
with gzip.open(file_path, 'rt', encoding='utf-8') as file:
    for line in file:
        # Carga la línea como JSON
        data = json.loads(line)
        data_list.append(data)

# Crea un DataFrame a partir de la lista de datos
data_games = pd.DataFrame(data_list)

FileNotFoundError: [Errno 2] No such file or directory: 'steam_games.json.gz'

In [None]:
data_games

# Dataset

Para explorar nuestra base de datos vamos a llamar al atributo shape para saber el número total de filas y columnas, posteriormente utilizaremos los métodos head() y tail() para realizar un primer análisis de datos y familiarizarnos con nuestro dataframe. El dataset contiene los siguientes campos:

**publisher:** Empresa publicadora del contenido.

**genres:** Genero del juego. (lista de uno o mas géneros por registro)

**app_name:** Nombre del juego.

**title:** Titulo del contenido.

**url:** URL de publicación del contenido.

**release_date:** Fecha de lanzamiento.

**tags:** Etiqueta del contenido. (lista de uno o mas etiquetas por registro)

**reviews_url:** Reviews de contenido

**specs:** Especificaciones (lista con una o mas especificaciones por registro).

**price:**  Precio del videojuego.

**early_access:** Acceso temprano (Booleano).

**id:** Identificador único del juego.

**developer:** Desarrollador del contenido.

In [None]:
data_games.shape

In [None]:
data_games.head(10)

In [None]:
data_games.tail(10)

En nuestro DataFrame, inicialmente registramos un total de 120445 filas y 13 columnas, hemos identificado que algunas filas contienen valores vacíos en todos los registros, y también hemos encontrado algunos valores nulos en otras áreas del conjunto de datos. 

# Preparación y Limpieza de los Datos

Antes de analizar y modelar los datos, es esencial asegurarnos de que estén limpios y bien preparados. Esto implica tratar valores faltantes, eliminar duplicados, corregir errores y convertir datos en formatos adecuados. Además, es fundamental revisar cada variable de manera inicial para detectar problemas y realizar las correcciones necesarias. Este proceso garantiza que los datos sean confiables y coherentes para análisis posteriores.

## Eliminación de Registros Vacíos

En una primera vista, identificamos filas que contienen valores vacíos en todos los registros. Vamos a eliminar estas filas para asegurar que trabajemos con datos completos y significativos.


In [None]:
# Eliminar filas con valores nulos en todo el registro
data_games = data_games.dropna(how='all').reset_index(drop=True)

In [None]:
data_games.shape

hemos eliminado estas filas que contenían todos los datos nulos. El resultado es un DataFrame más limpio y eficiente, con un total de 32,135 filas y 13 columnas.

cantidad de valores nulos por variable en el DataFrame `data_games`.

In [None]:
data_games.isnull().sum()

# Conocer estructura de algunas de nuestras variables

In [None]:
unique_values = data_games['publisher'].unique()
num_unique_values = len(unique_values)
print(f'Variable: Publisher, Valores Únicos: {num_unique_values}')
print('Valores Únicos:', unique_values)
print('\n')

In [None]:
unique_values = data_games['price'].unique()
num_unique_values = len(unique_values)
print(f'Variable: price, Valores Únicos: {num_unique_values}')
print('Valores Únicos:', unique_values)
print('\n')

In [None]:
unique_values = data_games['early_access'].unique()
num_unique_values = len(unique_values)
print(f'Variable: early_access, Valores Únicos: {num_unique_values}')
print('Valores Únicos:', unique_values)
print('\n')

In [4]:
data_games['genres']

NameError: name 'data_games' is not defined

In [None]:
data_games['tags']

In [5]:
data_games['specs']

NameError: name 'data_games' is not defined

# Verificación de Datos Duplicados

Llevaremos a cabo una verificación de datos duplicados en nuestra columna 'id' del DataFrame. El objetivo es determinar si existen registros duplicados en base a este identificador único. 


In [6]:
duplicated_games = data_games.loc[data_games['id'].duplicated(keep=False)]
if not duplicated_games.empty:
    print("Registros duplicados")
else:
    print("No se encontraron registros duplicados en id. Total: 0")
duplicated_games

NameError: name 'data_games' is not defined

Podemos observar que se han detectado dos casos de datos duplicados en la columna 'id'. En el primer caso, el registro numero 13894 y 14573, el 'id' 612880 es idéntico en ambas instancias. Esto sugiere que uno de los registros duplicados puede eliminarse sin afectar la integridad de los datos.

En el segundo caso, se observa que uno de los 'id' es NaN (valor nulo) y la primera aparición presenta más valores NaN que la segunda aparición. Esto puede requerir una revisión adicional para determinar si uno de los registros debe mantenerse o si ambos son redundantes.

Procedemos a observar la columna 'developer', que nos proporcionará información sobre el desarrollador o creador del juego.

In [None]:
data_games[data_games['developer']=='Rocksteady Studios,Feral Interactive (Mac)']

Al observar la columna 'developer', que nos proporciona información sobre el desarrollador o creador del juego, notamos que el registro sin un valor 'id' (el 'id' 200260) está completo y no presenta faltantes de información.

Por lo tanto, en este escenario, se sugiere eliminar ambas filas duplicadas, ya que el registro sin 'id' completo no afecta la integridad de los datos y puede considerarse redundante.

In [7]:
# Eliminar filas con los índices 74, 14573, 30961

data_games = data_games.drop([ 74, 14573, 30961])

NameError: name 'data_games' is not defined

In [8]:
# Nos aseguramos que no hay datos duplicados en nuestra columna 'id' del DataFrame


duplicated_games = data_games.loc[data_games['id'].duplicated(keep=False)]
if not duplicated_games.empty:
    print("Registros duplicados")
else:
    print("No se encontraron registros duplicados en id. Total: 0")


NameError: name 'data_games' is not defined

# Eliminación de Columnas no Relevantes 

En esta fase del proceso, nos encontramos con la necesidad de simplificar nuestro DataFrame para centrarnos en las variables clave que serán utilizadas en consultas futuras a la API y en la construcción de nuestro modelo de recomendación. Por lo tanto, hemos decidido eliminar las columnas `url`, `tags`, `reviews_url` y `specs` en esta primera instancia.

Es importante destacar que esta eliminación no se realiza debido a que estas variables carezcan de importancia, sino más bien porque esta información no será utilizada en las consultas a la API ni en la generación del modelo de recomendación. Este enfoque contribuirá a simplificar nuestro conjunto de datos y nos permitirá concentrarnos en las variables que son esenciales para nuestras tareas de análisis y recomendación.


In [21]:
data_games = data_games.drop(['tags', 'specs', 'url', 'reviews_url'], axis=1)
data_games.head(10)

Unnamed: 0,publisher,genres,app_name,title,release_date,price,early_access,id,developer
0,Kotoshiro,"[Action, Casual, Indie, Simulation, Strategy]",Lost Summoner Kitty,Lost Summoner Kitty,2018-01-04,4.99,False,761140,Kotoshiro
1,"Making Fun, Inc.","[Free to Play, Indie, RPG, Strategy]",Ironbound,Ironbound,2018-01-04,Free To Play,False,643980,Secret Level SRL
2,Poolians.com,"[Casual, Free to Play, Indie, Simulation, Sports]",Real Pool 3D - Poolians,Real Pool 3D - Poolians,2017-07-24,Free to Play,False,670290,Poolians.com
3,彼岸领域,"[Action, Adventure, Casual]",弹炸人2222,弹炸人2222,2017-12-07,0.99,False,767400,彼岸领域
4,,,Log Challenge,,,2.99,False,773570,
5,Trickjump Games Ltd,"[Action, Adventure, Simulation]",Battle Royale Trainer,Battle Royale Trainer,2018-01-04,3.99,False,772540,Trickjump Games Ltd
6,,"[Free to Play, Indie, Simulation, Sports]",SNOW - All Access Basic Pass,SNOW - All Access Basic Pass,2018-01-04,9.99,False,774276,Poppermost Productions
7,Poppermost Productions,"[Free to Play, Indie, Simulation, Sports]",SNOW - All Access Pro Pass,SNOW - All Access Pro Pass,2018-01-04,18.99,False,774277,Poppermost Productions
8,Poppermost Productions,"[Free to Play, Indie, Simulation, Sports]",SNOW - All Access Legend Pass,SNOW - All Access Legend Pass,2018-01-04,29.99,False,774278,Poppermost Productions
9,RewindApp,"[Casual, Indie, Racing, Simulation]",Race,Race,2018-01-04,,False,768800,RewindApp


# Transformación de Columnas y Gestión de Valores Nulos

Continuando con nuestra preparación de datos, nos enfocamos en las columnas `publisher`, `app_name`, `title` y `developer`. Al revisar estas columnas, observamos la presencia de valores nulos en algunos registros. Para asegurarnos de que las variables sean consistentes y manejar adecuadamente los datos faltantes, decidimos completar los valores nulos con la etiqueta 'Dato no disponible'.


In [22]:
# Reemplazo de valores nulos en las columnas 'publisher', 'app_name', 'title' y 'developer'
data_games['publisher'].fillna('Dato no disponible', inplace=True)
data_games['app_name'].fillna('Dato no disponible', inplace=True)
data_games['title'].fillna('Dato no disponible', inplace=True)
data_games['developer'].fillna('Dato no disponible', inplace=True)


In [23]:
data_games.head()

Unnamed: 0,publisher,genres,app_name,title,release_date,price,early_access,id,developer
0,Kotoshiro,"[Action, Casual, Indie, Simulation, Strategy]",Lost Summoner Kitty,Lost Summoner Kitty,2018-01-04,4.99,False,761140,Kotoshiro
1,"Making Fun, Inc.","[Free to Play, Indie, RPG, Strategy]",Ironbound,Ironbound,2018-01-04,Free To Play,False,643980,Secret Level SRL
2,Poolians.com,"[Casual, Free to Play, Indie, Simulation, Sports]",Real Pool 3D - Poolians,Real Pool 3D - Poolians,2017-07-24,Free to Play,False,670290,Poolians.com
3,彼岸领域,"[Action, Adventure, Casual]",弹炸人2222,弹炸人2222,2017-12-07,0.99,False,767400,彼岸领域
4,Dato no disponible,,Log Challenge,Dato no disponible,,2.99,False,773570,Dato no disponible




# Transformación de la Columna 'genres'

A partir de la columna 'genres', aplicaremos una transformación específica para descomponer las listas de géneros de videojuegos en registros individuales. 

In [24]:
# Usar explode para descomponer la columna 'genres'
data_games = data_games.explode('genres')

# Eliminar filas con valores nulos en la columna 'genres'
data_games = data_games.dropna(subset=['genres'])


In [25]:
data_games.head(10)

Unnamed: 0,publisher,genres,app_name,title,release_date,price,early_access,id,developer
0,Kotoshiro,Action,Lost Summoner Kitty,Lost Summoner Kitty,2018-01-04,4.99,False,761140,Kotoshiro
0,Kotoshiro,Casual,Lost Summoner Kitty,Lost Summoner Kitty,2018-01-04,4.99,False,761140,Kotoshiro
0,Kotoshiro,Indie,Lost Summoner Kitty,Lost Summoner Kitty,2018-01-04,4.99,False,761140,Kotoshiro
0,Kotoshiro,Simulation,Lost Summoner Kitty,Lost Summoner Kitty,2018-01-04,4.99,False,761140,Kotoshiro
0,Kotoshiro,Strategy,Lost Summoner Kitty,Lost Summoner Kitty,2018-01-04,4.99,False,761140,Kotoshiro
1,"Making Fun, Inc.",Free to Play,Ironbound,Ironbound,2018-01-04,Free To Play,False,643980,Secret Level SRL
1,"Making Fun, Inc.",Indie,Ironbound,Ironbound,2018-01-04,Free To Play,False,643980,Secret Level SRL
1,"Making Fun, Inc.",RPG,Ironbound,Ironbound,2018-01-04,Free To Play,False,643980,Secret Level SRL
1,"Making Fun, Inc.",Strategy,Ironbound,Ironbound,2018-01-04,Free To Play,False,643980,Secret Level SRL
2,Poolians.com,Casual,Real Pool 3D - Poolians,Real Pool 3D - Poolians,2017-07-24,Free to Play,False,670290,Poolians.com


In [26]:
data_games[data_games['genres']=='Accounting']

Unnamed: 0,publisher,genres,app_name,title,release_date,price,early_access,id,developer
5219,Individual Software,Accounting,Quicken Legal Business Pro,Quicken Legal Business Pro,2015-10-15,44.99,False,411350,Nolo
8499,Individual Software,Accounting,Quicken WillMaker Plus 2017,Quicken WillMaker Plus 2017,2016-11-08,54.99,False,555810,Nolo
11751,MING-CHIEN LEE,Accounting,MyMoney,MyMoney,2017-09-30,Free,False,677310,MING-CHIEN LEE
12296,Individual Software,Accounting,Quicken WillMaker Plus 2018,Quicken WillMaker Plus 2018,2017-11-10,69.99,False,732710,Nolo
15811,Stardock,Accounting,Multiplicity,Multiplicity,2017-09-07,19.99,False,620040,Stardock
17192,Individual Software,Accounting,Professor Teaches QuickBooks 2017,Professor Teaches QuickBooks 2017,2017-04-03,14.99,False,623590,Individual Software
24387,Individual Software,Accounting,Quicken WillMaker Plus 2016,Quicken WillMaker Plus 2016,2015-10-15,59.99,False,411340,Nolo


# Transformación de la Columna 'release_date'
A partir de la columna 'release_date', extraeremos el año de lanzamiento y crearemos una nueva columna para almacenar este dato. En caso de que la fecha esté ausente, se marcará como "Dato no disponible".


In [27]:
# Convertir la columna 'release_date' al tipo datetime
data_games['release_date'] = pd.to_datetime(data_games['release_date'], errors='coerce')

# Extraer el año y crear la columna 'release_year', asignando -1 a los valores no válidos
data_games['release_year'] = data_games['release_date'].dt.year.fillna(-1).astype(int)

# Reemplazar los valores -1 por "Dato no disponible" en la columna 'release_year'
data_games['release_year'] = data_games['release_year'].replace(-1, "Dato no disponible")

# Eliminar la columna 'release_date' original
data_games.drop('release_date', axis=1, inplace=True)

# Transformación de la Columna 'price'

En la columna 'price' Reemplazaremos los valores de texto, como promociones o juegos gratuitos, por 0 para facilitar futuros análisis. También imputaremos los valores nulos como 0 para mantener coherencia en el conjunto de datos.

In [28]:
# Reemplazar cualquier valor de texto por 0, formatear a dos decimales y asignar 0 a los valores nulos en la columna 'price'
data_games['price'] = data_games['price'].apply(lambda x: 0 if isinstance(x, str) else round(float(x), 2)).fillna(0)


In [31]:
data_games.head()

Unnamed: 0,publisher,genres,app_name,title,price,early_access,id,developer,release_year
0,Kotoshiro,Action,Lost Summoner Kitty,Lost Summoner Kitty,4.99,False,761140,Kotoshiro,2018
0,Kotoshiro,Casual,Lost Summoner Kitty,Lost Summoner Kitty,4.99,False,761140,Kotoshiro,2018
0,Kotoshiro,Indie,Lost Summoner Kitty,Lost Summoner Kitty,4.99,False,761140,Kotoshiro,2018
0,Kotoshiro,Simulation,Lost Summoner Kitty,Lost Summoner Kitty,4.99,False,761140,Kotoshiro,2018
0,Kotoshiro,Strategy,Lost Summoner Kitty,Lost Summoner Kitty,4.99,False,761140,Kotoshiro,2018


In [None]:
# Reemplazar 'Dato no disponible' con NaN
data_items['release_year'] = data_items['release_year'].replace('Dato no disponible', np.nan)

# Eliminar filas con NaN en la columna 'release_year'
data_items.dropna(subset=['release_year'], inplace=True)

In [32]:
data_games.isnull().sum()

publisher       0
genres          0
app_name        0
title           0
price           0
early_access    0
id              0
developer       0
release_year    0
dtype: int64

# Carga del Conjunto de Datos Transformado

En esta etapa, cargaremos el conjunto de datos transformado y depurado, el cual hemos nombrado `"data_games_cleaned.csv"`. Este archivo refleja nuestro conjunto de datos preparado y optimizado para análisis y modelado de datos

In [286]:
# Especifica el nombre del archivo
nombre_del_archivo = 'data_games_cleaned.csv'

# Guarda el DataFrame en el archivo CSV
data_games.to_csv(nombre_del_archivo, index=False, encoding='utf-8')
print(f'Se ha guardado el archivo {nombre_del_archivo} en la misma carpeta.')



Se ha guardado el archivo data_games_cleaned.csv en la misma carpeta.
