## Informe de Extracción, Transformación y Carga de Datos (ETL): output_steam_games

En este apartado, llevaremos a cabo el proceso de Extracción, Transformación y Carga (ETL) del dataset output_steam_games, que contiene información general relacionada con los juegos publicados en la plataforma Steam, tal como: Genero, desarrolladores, precio, entre otros. El objetivo es preparar los datos para su posterior exploración y análisis.

Después de importar las bibliotecas necesarias para el trabajo, nos enfocaremos en abordar posibles inconvenientes en los datos, aplicaremos técnicas de depuración y preprocesamiento, y finalmente, almacenaremos los datos transformados en un archivo csv.

### 1. Importación de las bibliotecas necesarias

In [1]:
# Pandas para el análisis de datos tabulares
import pandas as pd

# NumPy proporciona soporte para arreglos y matrices multidimensionales
import numpy as np

### 2. Carga del archivo

In [2]:
# Ruta del archivo
ruta = "../Datasets/output_steam_games.json"

In [3]:
# Creamos un DataFrame a partir de la ruta del archivo
df_steam_games = pd.read_json(ruta, lines=True)

### 3. Exploración del DataFrame

In [4]:
# Mostramos las primeras 5 filas del DataFrame
print("\nPrimeras filas del DataFrame:")
df_steam_games.head()


Primeras filas del DataFrame:


Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
0,,,,,,,,,,,,,
1,,,,,,,,,,,,,
2,,,,,,,,,,,,,
3,,,,,,,,,,,,,
4,,,,,,,,,,,,,


In [5]:
# Mostramos las últimas 5 filas del DataFrame
print("\nÚltimas filas del DataFrame:")
df_steam_games.tail()


Últimas filas del DataFrame:


Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
120440,Ghost_RUS Games,"[Casual, Indie, Simulation, Strategy]",Colony On Mars,Colony On Mars,http://store.steampowered.com/app/773640/Colon...,2018-01-04,"[Strategy, Indie, Casual, Simulation]",http://steamcommunity.com/app/773640/reviews/?...,"[Single-player, Steam Achievements]",1.99,0.0,773640.0,"Nikita ""Ghost_RUS"""
120441,Sacada,"[Casual, Indie, Strategy]",LOGistICAL: South Africa,LOGistICAL: South Africa,http://store.steampowered.com/app/733530/LOGis...,2018-01-04,"[Strategy, Indie, Casual]",http://steamcommunity.com/app/733530/reviews/?...,"[Single-player, Steam Achievements, Steam Clou...",4.99,0.0,733530.0,Sacada
120442,Laush Studio,"[Indie, Racing, Simulation]",Russian Roads,Russian Roads,http://store.steampowered.com/app/610660/Russi...,2018-01-04,"[Indie, Simulation, Racing]",http://steamcommunity.com/app/610660/reviews/?...,"[Single-player, Steam Achievements, Steam Trad...",1.99,0.0,610660.0,Laush Dmitriy Sergeevich
120443,SIXNAILS,"[Casual, Indie]",EXIT 2 - Directions,EXIT 2 - Directions,http://store.steampowered.com/app/658870/EXIT_...,2017-09-02,"[Indie, Casual, Puzzle, Singleplayer, Atmosphe...",http://steamcommunity.com/app/658870/reviews/?...,"[Single-player, Steam Achievements, Steam Cloud]",4.99,0.0,658870.0,"xropi,stev3ns"
120444,,,Maze Run VR,,http://store.steampowered.com/app/681550/Maze_...,,"[Early Access, Adventure, Indie, Action, Simul...",http://steamcommunity.com/app/681550/reviews/?...,"[Single-player, Stats, Steam Leaderboards, HTC...",4.99,1.0,681550.0,


In [6]:
# Revisamos las información general del DataFrame
df_steam_games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120445 entries, 0 to 120444
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   publisher     24083 non-null  object 
 1   genres        28852 non-null  object 
 2   app_name      32133 non-null  object 
 3   title         30085 non-null  object 
 4   url           32135 non-null  object 
 5   release_date  30068 non-null  object 
 6   tags          31972 non-null  object 
 7   reviews_url   32133 non-null  object 
 8   specs         31465 non-null  object 
 9   price         30758 non-null  object 
 10  early_access  32135 non-null  float64
 11  id            32133 non-null  float64
 12  developer     28836 non-null  object 
dtypes: float64(2), object(11)
memory usage: 11.9+ MB


Al realizar una vista previa del DataFrame, se observa que los primeros registros contienen valores nulos (None y NaN) en todas las columnas.

Se observa además que las columnas "genres", "tags" y "specs" contienen listas de categorías.
La columna "release_date" tiene el tipo de dato object pero parece contener fechas, por lo que se podría convertir a tipo de dato de fecha (datetime).
La columna "early_access" tiene el tipo de datos float64, por lo que se podría convertir a tipo de dato booleano.
La columna "price" tiene el tipo de dato object, por lo que se podría convertir a tipo de dato numérico.

### 4. Limpieza y preprocesamiento del conjunto de datos

In [7]:
# Eliminamos las filas con todos los valores nulos
df_steam_games = df_steam_games.dropna(how="all").reset_index(drop=True)

In [8]:
# Reemplazamos los valores vacíos, 'null' y 'None' con NaN en todo el DataFrame
df_steam_games.replace(["", "null", "None"], np.nan, inplace=True)

In [9]:
# Renombramos las columnas
df_steam_games.rename(columns={"app_name": "name", "id": "item_id"}, inplace=True)

In [10]:
# Verificamos la cantidad de valores nulos en las columnas "publisher" y "developer"
df_steam_games[["publisher", "developer"]].isnull().sum()

publisher    8061
developer    3299
dtype: int64

Se identificó que la columna "developer" contenía 3,299 valores nulos, mientras que la columna "publisher" tenía 8,061 valores nulos.
Para abordar esta disparidad y aprovechando la disponibilidad de datos en "publisher", se decidió realizar un tratamiento específico para los valores nulos en "developer". Se aplicó una operación que verificó si "developer" estaba vacía y "publisher" tenía datos, y en caso afirmativo, se copió el valor de "publisher" a "developer".
Este enfoque permitió mejorar la integridad de los datos en la columna "developer" utilizando información disponible en "publisher".

In [11]:
# Eliminamos registros donde "item_id" es nulo o NaN
df_steam_games = df_steam_games.dropna(subset=['item_id'])

In [12]:
# Expandimos las listas de la columna "genres"
df_steam_games = df_steam_games.explode('genres').reset_index(drop=True)

In [13]:
# Convertimos la columa "release_date" a formato fecha
df_steam_games["release_date"]=pd.to_datetime(df_steam_games["release_date"], errors="coerce", exact=False)

# Extraemos el año y crear una nueva columna "year"
df_steam_games["year"] = df_steam_games["release_date"].dt.year.astype('Int64')

# Eliminamos la columna "release_date"
df_steam_games.drop("release_date", axis=1, inplace=True)

In [14]:
# Verificar si "developer" está vacía y "publisher" está llena, luego copiar el valor
df_steam_games.loc[df_steam_games["developer"].isnull() & ~df_steam_games["publisher"].isnull(), "developer"] = df_steam_games["publisher"]

In [15]:
# Eliminamos las columnas "title", "url", "reviews_url", "early_access" y "publisher" por considerarse no relevantes
df_steam_games.drop(["title", "url", "reviews_url", "early_access", "publisher"], axis=1, inplace=True)

In [16]:
# Establecemos un umbral del 80% para decidir que columnas eliminar por cantidad de valores nulos
umbral_nulos = 0.8

# Calculamos el porcentaje de valores nulos por columna
porcentaje_nulos = df_steam_games.isnull().mean()

# Filtramos las columnas que superan el umbral
columnas_a_eliminar = porcentaje_nulos[porcentaje_nulos > umbral_nulos]

# Mostramos las columnas y su respectivo porcentaje de valores nulos
print(f"Las columnas con más del {umbral_nulos*100}% de valores nulos son:")
for columna, porcentaje in columnas_a_eliminar.items():
    print(f"{columna}: {round(porcentaje*100, 2)}%")

Las columnas con más del 80.0% de valores nulos son:


In [17]:
# Rellenamos con la mediana los datos faltantes de la columna "year"
df_steam_games["year"] = df_steam_games["year"].fillna(df_steam_games["year"].median())

In [18]:
# Convertimos la columna "price" a tipo numérico y asignamos NaN a "Free To Play"
df_steam_games["price"] = pd.to_numeric(df_steam_games["price"], errors="coerce")

In [19]:
# Convertimos la columna "item_id" a tipo int
df_steam_games["item_id"] = df_steam_games["item_id"].astype('Int64')

In [20]:
# Eliminamos las columnas "tags" por considerarse no relevante
df_steam_games.drop(["tags"], axis=1, inplace=True)

In [21]:
# Eliminamos los registros con valores nulos en la columna "genres"
df_steam_games = df_steam_games.dropna(subset=["genres"])

In [22]:
# Observamos el resultado
df_steam_games.head()

Unnamed: 0,genres,name,specs,price,item_id,developer,year
0,Action,Lost Summoner Kitty,[Single-player],4.99,761140,Kotoshiro,2018
1,Casual,Lost Summoner Kitty,[Single-player],4.99,761140,Kotoshiro,2018
2,Indie,Lost Summoner Kitty,[Single-player],4.99,761140,Kotoshiro,2018
3,Simulation,Lost Summoner Kitty,[Single-player],4.99,761140,Kotoshiro,2018
4,Strategy,Lost Summoner Kitty,[Single-player],4.99,761140,Kotoshiro,2018


### 5. Guardar el conjunto de datos limpio

In [23]:
# Los archivos se almacenan en local 
df_steam_games.to_csv('output_steam_games_cleaned.csv', index=False)