## Extracción, Tratamiento y Carga de datos (ETL)

### Objetivo

El objetivo de este notebook es realizar un proceso de ETL del archivo JSON "output_steam_games". Como primer paso de la Ingeniería de datos, los datos se prepararán y limpiarán para su posterior análisis.

### Archivo de Datos: output_steam_games

El archivo "output_steam_games" contiene información sobre los contenidos de los juegos jugados por los usuarios de la plataforma STEAM (plataforma multinacional de videojuegos). 
La información que nos muestra es: 'publisher', 'genres', 'app_name', 'title', 'url', 'release_date', 'tags', 'reviews_url', 'specs', 'price', 'early_access', 'id' y 'developer'.

El detalle de los datos se encuentran en el siguiente [LINK](https://docs.google.com/spreadsheets/d/1y2FbOU9jsJbJkdmBLC7Lr3u576yENh0Z/edit?usp=sharing&ouid=100343940744383618882&rtpof=true&sd=true) con el diccionario de datos del dataset.

### 1. Carga de datos

Librerías

In [2]:
import pandas as pd
import numpy as np
import json

Cargamos el archivo JSON. El archivo se llama "output_steam_games" el cual se utilizará en adelante y se encuentra en el siguiente [link](https://drive.google.com/drive/folders/1PvMb8F0veZYFmmcZytfVBNvmfzi6Rwl9?usp=sharing).

Se tiene múltiples objetos JSON cada uno en diferentes líneas en el archivo 'output_steam_games'

In [3]:
# Abre el archivo como dataframe
df = pd.read_json('output_steam_games.json', lines=True) # lines=True will read each line as a separate JSON object


In [4]:
print(f"El DataFrame tiene {df.shape[0]} filas y {df.shape[1]} columnas.")


El DataFrame tiene 120445 filas y 13 columnas.


In [5]:
df_steam_games=df.copy()

### 2. Exploramos el Dataframe

In [6]:
# Resumen general del dataframe 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120445 entries, 0 to 120444
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   publisher     24083 non-null  object 
 1   genres        28852 non-null  object 
 2   app_name      32133 non-null  object 
 3   title         30085 non-null  object 
 4   url           32135 non-null  object 
 5   release_date  30068 non-null  object 
 6   tags          31972 non-null  object 
 7   reviews_url   32133 non-null  object 
 8   specs         31465 non-null  object 
 9   price         30758 non-null  object 
 10  early_access  32135 non-null  float64
 11  id            32133 non-null  float64
 12  developer     28836 non-null  object 
dtypes: float64(2), object(11)
memory usage: 11.9+ MB


In [5]:
df

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
0,,,,,,,,,,,,,
1,,,,,,,,,,,,,
2,,,,,,,,,,,,,
3,,,,,,,,,,,,,
4,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
120440,Ghost_RUS Games,"[Casual, Indie, Simulation, Strategy]",Colony On Mars,Colony On Mars,http://store.steampowered.com/app/773640/Colon...,2018-01-04,"[Strategy, Indie, Casual, Simulation]",http://steamcommunity.com/app/773640/reviews/?...,"[Single-player, Steam Achievements]",1.99,0.0,773640.0,"Nikita ""Ghost_RUS"""
120441,Sacada,"[Casual, Indie, Strategy]",LOGistICAL: South Africa,LOGistICAL: South Africa,http://store.steampowered.com/app/733530/LOGis...,2018-01-04,"[Strategy, Indie, Casual]",http://steamcommunity.com/app/733530/reviews/?...,"[Single-player, Steam Achievements, Steam Clou...",4.99,0.0,733530.0,Sacada
120442,Laush Studio,"[Indie, Racing, Simulation]",Russian Roads,Russian Roads,http://store.steampowered.com/app/610660/Russi...,2018-01-04,"[Indie, Simulation, Racing]",http://steamcommunity.com/app/610660/reviews/?...,"[Single-player, Steam Achievements, Steam Trad...",1.99,0.0,610660.0,Laush Dmitriy Sergeevich
120443,SIXNAILS,"[Casual, Indie]",EXIT 2 - Directions,EXIT 2 - Directions,http://store.steampowered.com/app/658870/EXIT_...,2017-09-02,"[Indie, Casual, Puzzle, Singleplayer, Atmosphe...",http://steamcommunity.com/app/658870/reviews/?...,"[Single-player, Steam Achievements, Steam Cloud]",4.99,0.0,658870.0,"xropi,stev3ns"


Del dataframe **df** se tiene lo siguiente:

| n° | Variable  | Descripción                                      |
|----|-----------|-------------------------------------------------------|
|1| publisher   | Empresa publicadora del contenido                |
|2| genres  | Género del contenido                         |
|3| app_name   | Nombre del contenido |
|4| title| Título del contenido|
|5| url| URL de publicación del contenido|
|6| release_date|Fecha de lanzamiento |
|7| tags| Etiquetas de contenido|
|8| reviews_url| Precio de descuento| 
|9 | specs| Especificaciones| 
|10|  price| Precio de contenido|
|11| early_access  | Acceso temprano|
|12| id | Identificador único de contenido |
|13| developer|Desarrollador | 

Observamos que hay algunas columnas ('genres', 'tags' y 'specs') que estan presentadas como listas. Deben ser emploradas a más detalle las variables.

Visualizaremos los datos de las columnas para saber qué tipo de información contienen. Para lo cual utilizaremos el método **unique()**, este método se aplica a la columna seleccionada y devuelve un array que contiene los valores únicos presentes en esa columna.

In [7]:
df.columns # Imprime las columnas del dataframe

Index(['publisher', 'genres', 'app_name', 'title', 'url', 'release_date',
       'tags', 'reviews_url', 'specs', 'price', 'early_access', 'id',
       'developer'],
      dtype='object')

In [8]:
df['publisher'].unique()

array([None, 'Kotoshiro', 'Making Fun, Inc.', ..., 'OrtiGames/OrtiSoft',
       'INGAME', 'Bidoniera Games'], dtype=object)

In [9]:
#df['genres'].unique()

In [8]:
df['app_name'].unique()

array([None, 'Lost Summoner Kitty', 'Ironbound', ..., 'Russian Roads',
       'EXIT 2 - Directions', 'Maze Run VR'], dtype=object)

In [11]:
df['title'].unique()

array([None, 'Lost Summoner Kitty', 'Ironbound', ...,
       'LOGistICAL: South Africa', 'Russian Roads', 'EXIT 2 - Directions'],
      dtype=object)

In [12]:
#df['url'].unique()

In [13]:
df['release_date'].unique()

array([None, '2018-01-04', '2017-07-24', ..., '2016-11-19',
       'January 2018', '2018-10-01'], dtype=object)

In [14]:
#df['tags'].unique()

In [15]:
#df['reviews_url'].unique()

In [16]:
#df['specs'].unique()

In [17]:
df['price'].unique()

array([None, 4.99, 'Free To Play', 'Free to Play', 0.99, 2.99, 3.99, 9.99,
       18.99, 29.99, 'Free', 10.99, 1.5899999999999999, 14.99, 1.99,
       59.99, 8.99, 6.99, 7.99, 39.99, 19.99, 7.49, 12.99, 5.99, 2.49,
       15.99, 1.25, 24.99, 17.99, 61.99, 3.49, 11.99, 13.99, 'Free Demo',
       'Play for Free!', 34.99, 74.76, 1.49, 32.99, 99.99, 14.95, 69.99,
       16.99, 79.99, 49.99, 5.0, 44.99, 13.98, 29.96, 119.99, 109.99,
       149.99, 771.71, 'Install Now', 21.99, 89.99,
       'Play WARMACHINE: Tactics Demo', 0.98, 139.92, 4.29, 64.99,
       'Free Mod', 54.99, 74.99, 'Install Theme', 0.89, 'Third-party',
       0.5, 'Play Now', 299.99, 1.29, 3.0, 15.0, 5.49, 23.99, 49.0, 20.99,
       10.93, 1.3900000000000001, 'Free HITMAN™ Holiday Pack', 36.99,
       4.49, 2.0, 4.0, 9.0, 234.99, 1.9500000000000002, 1.5, 199.0, 189.0,
       6.66, 27.99, 10.49, 129.99, 179.0, 26.99, 399.99, 31.99, 399.0,
       20.0, 40.0, 3.33, 199.99, 22.99, 320.0, 38.85, 71.7, 59.95, 995.0,
       27.49,

In [18]:
df['early_access'].unique()

array([nan,  0.,  1.])

In [9]:
df['id'].unique()

array([    nan, 761140., 643980., ..., 610660., 658870., 681550.])

In [20]:
df['developer'].unique()

array([None, 'Kotoshiro', 'Secret Level SRL', ...,
       'Oscar Ortigueira López,OrtiGames/OrtiSoft', 'INGAME',
       'Bidoniera Games'], dtype=object)

Luego de ver los valores que contienen las columnas del dataframe tenemos que las columnas tienen valores vacíos o nulos que deben tratarse, 'early_access' parece ser un boleano ya que solo tiene de valores 0 y 1. Por otro lado, 'price' podría ser un float ya que indica precio pero tiene también valores string.

LIMPIEZA Y PREPROCESAMIENTO DE LOS DATOS

Evaluaremos si las variables son relevantes o si deben ser eliminadas. Primero, se evaluará los nulos de cada columna.

#### 2.1 Identificar y tratar datos nulos

Primero identificamos cuántos datos tienen '', 'null' o 'None' entre sus datos:

In [9]:
total_blanco = (df == '').sum().sum()
# Mostrar los resultados
print("Cantidad de valores blanco ('') en todo el DataFrame:", total_blanco)

total_nulos = (df == 'null').sum().sum()
# Mostrar los resultados
print("Cantidad de valores nulos en todo el DataFrame:", total_nulos)

total_vacios = (df == 'None').sum().sum()
# Mostrar los resultados
print("Cantidad de valores 'None' en todo el DataFrame:", total_vacios)

total_faltantes = (df.isnull().sum()).sum()
# Mostrar los resultados
print("Cantidad de valores 'null o NaN' en todo el DataFrame:", total_faltantes)

Cantidad de valores blanco ('') en todo el DataFrame: 0
Cantidad de valores nulos en todo el DataFrame: 0
Cantidad de valores 'None' en todo el DataFrame: 9
Cantidad de valores 'null o NaN' en todo el DataFrame: 1168997


Ahora que ya los identificamos, los reemplazamos por nan

Para crear consistencia de los datos y facilitar su manejo reemplazamos los valores vacios y/o nulos por NaN, de esta forma mantenemos la integridad de los datos al representarlos de una forma estándar.

In [10]:
df.replace(['', 'null', 'None'], np.nan, inplace=True)

In [11]:
# Verifica nulos en el dataframe
print("Total nulos:",(df.isnull().sum()).sum())
df.isnull().sum()

Total nulos: 1169006


publisher       96371
genres          91593
app_name        88312
title           90360
url             88310
release_date    90377
tags            88473
reviews_url     88312
specs           88980
price           89687
early_access    88310
id              88312
developer       91609
dtype: int64

#### 2.2. Evaluar columnas a eliminar y tratamiento de nulos

Veamos cuánto representan los datos nulos de nuestro dataframe en cada columna

In [12]:
porcentaje_nulos_por_variable = (df.isnull().mean() * 100).round(2)
porcentaje_nulos_por_variable

publisher       80.01
genres          76.05
app_name        73.32
title           75.02
url             73.32
release_date    75.04
tags            73.46
reviews_url     73.32
specs           73.88
price           74.46
early_access    73.32
id              73.32
developer       76.06
dtype: float64

Todas las variables tienen valores similares de nulos, podrían ser posibles variables a eliminar. En este caso debido a la cantidad de nulos que presenta por columna es posible que hayan filas con solo valores nulos, evaluaremos lo siguiente a continuación.

In [13]:
# Identifica las filas con solo nulos
rows_with_all_nulls = df[df.isnull().all(axis=1)]
rows_with_all_nulls

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
0,,,,,,,,,,,,,
1,,,,,,,,,,,,,
2,,,,,,,,,,,,,
3,,,,,,,,,,,,,
4,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
88305,,,,,,,,,,,,,
88306,,,,,,,,,,,,,
88307,,,,,,,,,,,,,
88308,,,,,,,,,,,,,


In [14]:
# Elimina las filas con todos los valores nulos
df_cleaned = df.dropna(how='all')

In [15]:
df_cleaned.shape

(32135, 13)

Ahora que el dataframe esta más limpio, analizamos los nulos por columna

In [16]:
# Verifica nulos en cada columna del DataFrame
nulos_por_columna = df_cleaned.isnull().sum()
porcentaje_nulos_por_columna = (df_cleaned.isnull().mean() * 100).round(2)

# Muestra la cantidad y porcentaje de nulos por columna
resultados_nulos = pd.DataFrame({
    'Nulos por Columna': nulos_por_columna,
    'Porcentaje de Nulos': porcentaje_nulos_por_columna
})

print("Resumen de nulos por columna:")
resultados_nulos


Resumen de nulos por columna:


Unnamed: 0,Nulos por Columna,Porcentaje de Nulos
publisher,8061,25.08
genres,3283,10.22
app_name,2,0.01
title,2050,6.38
url,0,0.0
release_date,2067,6.43
tags,163,0.51
reviews_url,2,0.01
specs,670,2.08
price,1377,4.29


In [27]:
df_Steam_Games=df_cleaned.copy()

* Revisemos la variable 'id'

In [28]:
# Muestra las filas donde 'id' es nulo
filtered_rows = df_Steam_Games[df_Steam_Games['id'].isnull()]
filtered_rows

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
88384,,,,,http://store.steampowered.com/,,,,,19.99,0.0,,
119271,"Warner Bros. Interactive Entertainment, Feral ...","[Action, Adventure]",Batman: Arkham City - Game of the Year Edition,Batman: Arkham City - Game of the Year Edition,http://store.steampowered.com/app/200260,2012-09-07,"[Action, Open World, Batman, Adventure, Stealt...",,"[Single-player, Steam Achievements, Steam Trad...",19.99,0.0,,"Rocksteady Studios,Feral Interactive (Mac)"


In [29]:
# Elimina las filas donde 'id' es nulo, se elimina porque no se encuentrauna manera de imputar los datos daod que son valores únicos, además son pocos datos
df_Steam_Games.dropna(subset=['id'], inplace=True)

* Revisemos la variable 'release_date'

Es necesario tener la información del año para su uso más adelante*. Esta información se encuentra implicitamente dentro de la columna 'release_date'.

*Sustento: Información necesaria para la etapa de la creación de funciones para los endpoints de la API.

In [30]:
# Los registros como 'coming soon' no nos interesa para el objetivo y el analisis posterior del dataset
print("Filas:",df_Steam_Games[df_Steam_Games['release_date'] == 'Coming Soon'].shape[0])


Filas: 27


In [31]:
# ELimina registros 'Coming Soon', 'coming soon', 'SOON™', 'When it's done!'
df_Steam_Games = df_Steam_Games[(df_Steam_Games['release_date'].str.lower() != 'coming soon')& (df_Steam_Games['release_date'] != 'SOON™')& (df_Steam_Games['release_date'] != "When it's done!")]


In [32]:
# Extraer el año utilizando expresiones regulares
df_Steam_Games['release_year'] = df_Steam_Games['release_date'].str.extract(r'(\d{4})')

# Convertir la columna 'year' a tipo float
df_Steam_Games['release_year'] = df_Steam_Games['release_year'].astype(float).astype(pd.Int64Dtype(), errors='ignore')


In [33]:
# Nos aseguramos que tener años válidos en nuestro conjunto

# Filtra las filas donde 'release_year' sea menor o igual a 2023
df_Steam_Games = df_Steam_Games.loc[df_Steam_Games['release_year'] <= 2023]

**Método de imputación:** Se decide imputar los años faltantes reemplazandolos por la mediana agrupando previamente por id. Se agrupa por 'id' para considerar las fechas actuales y así estimar un valor dentro de ese conjunto de datos que ya se conocen.

Imputamos valores

In [35]:
# Agrupamos por 'id' y reemplazamos los valores NaN con la mediana del grupo
df_Steam_Games['release_year'] = df_Steam_Games.groupby('id')['release_year'].transform(lambda x: x.fillna(x.median(skipna=True))) #skipna=true ignora advertencias que se genera por tratar de caluclar la mediana de un conjunto de datos que está vacío o consiste solo en valores NaN. 

# Redondear y convertir a tipo entero 
#df_Steam_Games['release_year'] = df_Steam_Games['release_year'].round().astype('Int64', errors='ignore')

In [39]:
df_2 = df_Steam_Games.copy()

* Revisemos la columna 'publisher' y 'developer', parecen contener la misma información

Para nuestros análisis posteriores nos interesa 'developer' o desarrollador, se imputará los datos faltantes en 'developer' con la información de 'publisher', ya que aparentemente - en su mayoría - es la misma información.

In [40]:
df_Steam_Games[['publisher','developer']].head(10)

Unnamed: 0,publisher,developer
88310,Kotoshiro,Kotoshiro
88311,"Making Fun, Inc.",Secret Level SRL
88312,Poolians.com,Poolians.com
88313,彼岸领域,彼岸领域
88315,Trickjump Games Ltd,Trickjump Games Ltd
88316,,Poppermost Productions
88317,Poppermost Productions,Poppermost Productions
88318,Poppermost Productions,Poppermost Productions
88319,RewindApp,RewindApp
88322,Stegalosaurus Game Development,Stegalosaurus Game Development


In [41]:
# Reemplaza los valores faltantes en 'developer' con los de 'publisher'
df_Steam_Games['developer'].fillna(df_Steam_Games['publisher'], inplace=True)


* Revisemos la columna 'price'

In [42]:
# Asignamos 0 a los valores 'Free to play' porque no tienen precio
(df_Steam_Games['price'] == 'Free To Play').sum()

370

In [43]:
# Reemplaza 'Free To Play' con 0 
df_Steam_Games['price'] = df_Steam_Games['price'].replace('Free To Play', 0)

In [44]:
# Convierte la columna 'price' a numérica
df_Steam_Games['price'] = pd.to_numeric(df_Steam_Games['price'], errors='coerce') # mantiene los valores no numéricos como NaN

#### 2.3 Duplicados

In [46]:
# creamos una copia del datfarame hasta el momento
sd=df_Steam_Games.copy()

In [57]:
# Busca duplicados en base a las columnas id y release_date
df_Steam_Games[df_Steam_Games.duplicated(subset=['id','release_date'], keep=False)]


Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer,release_year
102204,Bethesda Softworks,[Action],Wolfenstein II: The New Colossus,Wolfenstein II: The New Colossus,http://store.steampowered.com/app/612880/,2017-10-26,"[Action, FPS, Gore, Violent, Alternate History...",http://steamcommunity.com/app/612880/reviews/?...,"[Single-player, Steam Achievements, Full contr...",59.99,0.0,612880.0,Machine Games,2017
102883,Bethesda Softworks,[Action],Wolfenstein II: The New Colossus,Wolfenstein II: The New Colossus,http://store.steampowered.com/app/612880/Wolfe...,2017-10-26,"[Action, FPS, Gore, Violent, Alternate History...",http://steamcommunity.com/app/612880/reviews/?...,"[Single-player, Steam Achievements, Full contr...",59.99,0.0,612880.0,Machine Games,2017


In [58]:
# Eliminamos duplicados
df_Steam_Games.drop_duplicates(subset=['id','release_date'], keep='first', inplace=True)

df_Steam_Games.shape

(29964, 14)

#### 2.3 Columnas necesarias


In [59]:
df_Steam_Games.columns

Index(['publisher', 'genres', 'app_name', 'title', 'url', 'release_date',
       'tags', 'reviews_url', 'specs', 'price', 'early_access', 'id',
       'developer', 'release_year'],
      dtype='object')

In [60]:
# Se elimina las columnas que no contribuyen a nuestro posterior análisis
df_Steam = df_Steam_Games.drop(['publisher','title','url','release_date','reviews_url','early_access'], axis=1)
df_Steam.columns

Index(['genres', 'app_name', 'tags', 'specs', 'price', 'id', 'developer',
       'release_year'],
      dtype='object')

* Verificamos los nulos luego de imputar y/o eliminar valores

In [61]:
# Verifica nulos en cada columna del DataFrame
nulos_por_columna = df_Steam.isnull().sum()
porcentaje_nulos_por_columna = (df_Steam.isnull().mean() * 100).round(2)

# Muestra la cantidad y porcentaje de nulos por columna
resultados_nulos = pd.DataFrame({
    'Nulos por Columna': nulos_por_columna,
    'Porcentaje de Nulos': porcentaje_nulos_por_columna
})

# Ordena los resultados por el porcentaje de nulos de manera descendente
resultados_nulos_sorted = resultados_nulos.sort_values(by='Porcentaje de Nulos', ascending=False)

print("Resumen de nulos por columna:")
resultados_nulos_sorted

Resumen de nulos por columna:


Unnamed: 0,Nulos por Columna,Porcentaje de Nulos
price,2357,7.87
genres,1234,4.12
developer,1185,3.95
specs,669,2.23
tags,161,0.54
app_name,1,0.0
id,0,0.0
release_year,0,0.0


In [62]:
df_Steam.shape

(29964, 8)

In [65]:
# Tratamientos adicionales

# Actualiza el nombre a 'item_id'
df_Steam = df_Steam.rename(columns={'id': 'item_id'})
# Ordena las columnas
column_order = ['item_id', 'developer', 'release_year', 'app_name', 'tags', 'specs', 'genres', 'price']
df_Steam = df_Steam[column_order]

# Convertir la columna item_id de float64 a int64
df_Steam['item_id'] = df_Steam['item_id'].astype('Int64')

In [76]:
df_Steam.info()

<class 'pandas.core.frame.DataFrame'>
Index: 29964 entries, 88310 to 120443
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   item_id       29964 non-null  Int64  
 1   developer     28779 non-null  object 
 2   release_year  29964 non-null  Int64  
 3   app_name      29963 non-null  object 
 4   tags          29803 non-null  object 
 5   specs         29295 non-null  object 
 6   genres        28730 non-null  object 
 7   price         27607 non-null  float64
dtypes: Int64(2), float64(1), object(5)
memory usage: 2.1+ MB


### 3. Cargar

En este paso se guarda los datos transformados en un formato csv y listos para su posterior análisis o uso.

In [78]:
# Los archivos se almacenan en local 
df_Steam.to_csv('steam_games_final.csv', index=False)

Opcional

In [79]:
# Menor uso de espacio de almacenamiento en comparación con CSV, especialmente para conjuntos de datos grandes.
df_Steam.to_parquet('steam_games_final.parquet', index=False)