## Informe de Extracción, Transformación y Carga de Datos: ETL_steam_games

En esta sección, nos sumergiremos en el proceso de Extracción, Transformación y Carga (ETL) de los datos que contiene información general relacionada con los juegos publicados en la plataforma **Steam**, tal como: Genero, desarrolladores, precio, entre otros.

El objetivo principal es preparar estos datos para su análisis, asegurándonos de que sean aptos y consistentes. Comenzaremos importando las bibliotecas esenciales. Asegúrese de tener estas bibliotecas instaladas previamente para garantizar una ejecución sin contratiempos.

A lo largo del informe, nos enfocaremos en abordar problemas potenciales en los datos, aplicar técnicas de limpieza y preprocesamiento, y finalmente, almacenar los datos transformados para futuras exploraciones y análisis.

### Requisitos


⚠️ **Asegúrese de instalar las siguientes bibliotecas antes de ejecutar el código**

- pandas
- numpy

Puede instalar estas bibliotecas debe abrir una terminal o ventana de línea de comandos y ejecutar el siguiente comando:

*`pip install pandas numpy`*

### Importar Bibliotecas 

In [33]:
# Importamos pandas para el análisis de datos tabulares
import pandas as pd

# NumPy proporciona soporte para arreglos y matrices multidimensionales
import numpy as np

# El módulo os permite interactuar con el sistema operativo
import os

# Gdown facilita la descarga de archivos desde Google Drive utilizando su ID
import gdown

# JSON es un formato común para el intercambio de datos, y Python tiene soporte incorporado para trabajar con JSON
import json

import warnings
warnings.filterwarnings("ignore")

A continuación, realizaremos las etapas del proceso ETL:

### 1. Cargar el conjunto de datos original

Fuente de datos: **output_steam_games.json**

El archivo original en su formato JSON específicamente los valores que podían ser cadenas de caracteres, números, arreglos, ó valores Booleanos no se encontraban entre comillas dobles. Sin embargo debido a la flexibilidad de la librería Pandas para manejar ciertos formatos de datos pudo interpretar el contenido del JSON. A continuación en las siguientes líneas de código se estará realizando la **descarga automática** del archivo (recomendado).

En caso de preferirlo, puede acceder al enlace a continuación para descargar manualmente el archivo: 
Datasets: https://bit.ly/47J98PN

In [34]:
def descargar_leer_json(url, nombre_archivo):
    """
    Descarga un archivo JSON desde la URL proporcionada, lo guarda localmente
    con el nombre especificado y lo lee en un DataFrame de pandas.

    Parameters:
    - url (str): URL del archivo en Google Drive.
    - nombre_archivo (str): Nombre del archivo.

    Returns:
    - df (pd.DataFrame): DataFrame de pandas con los datos del archivo JSON.
    """

    # Verificar si el archivo ya existe localmente (Asegúrese que sea la versión reparada)
    if not os.path.exists(nombre_archivo):
        # Si no existe, descargar el archivo desde Google Drive
        gdown.download(url, nombre_archivo, quiet=False)

    # Lectura del JSON en un DataFrame de pandas
    df=pd.read_json(nombre_archivo, lines=True)

    return df

In [35]:
#URL del archivo en Google Drive y nombre del archivo local
url = 'https://bit.ly/49MGNKk'
output = 'output_steam_games.json'

#Utilizar la función (descargar_leer_json) para descargar y leer el JSON
df_Games = descargar_leer_json(url, output)

Downloading...
From: https://bit.ly/49MGNKk
To: C:\Users\johan\Bootcamp_SoyHenry\PI_MlopsSteam\PI_01\output_steam_games.json
100%|██████████| 38.3M/38.3M [01:42<00:00, 373kB/s]


### 2. Explorar y entender el conjunto de datos

Exploramos y entendemos la estructura del conjunto de datos, revisando las primeras filas, información general y estadísticas descriptivas.

In [36]:
# Mostrar las primeras filas del DataFrame
print("Primeras filas del DataFrame:")
df_Games

Primeras filas del DataFrame:


Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
0,,,,,,,,,,,,,
1,,,,,,,,,,,,,
2,,,,,,,,,,,,,
3,,,,,,,,,,,,,
4,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
120440,Ghost_RUS Games,"[Casual, Indie, Simulation, Strategy]",Colony On Mars,Colony On Mars,http://store.steampowered.com/app/773640/Colon...,2018-01-04,"[Strategy, Indie, Casual, Simulation]",http://steamcommunity.com/app/773640/reviews/?...,"[Single-player, Steam Achievements]",1.99,0.0,773640.0,"Nikita ""Ghost_RUS"""
120441,Sacada,"[Casual, Indie, Strategy]",LOGistICAL: South Africa,LOGistICAL: South Africa,http://store.steampowered.com/app/733530/LOGis...,2018-01-04,"[Strategy, Indie, Casual]",http://steamcommunity.com/app/733530/reviews/?...,"[Single-player, Steam Achievements, Steam Clou...",4.99,0.0,733530.0,Sacada
120442,Laush Studio,"[Indie, Racing, Simulation]",Russian Roads,Russian Roads,http://store.steampowered.com/app/610660/Russi...,2018-01-04,"[Indie, Simulation, Racing]",http://steamcommunity.com/app/610660/reviews/?...,"[Single-player, Steam Achievements, Steam Trad...",1.99,0.0,610660.0,Laush Dmitriy Sergeevich
120443,SIXNAILS,"[Casual, Indie]",EXIT 2 - Directions,EXIT 2 - Directions,http://store.steampowered.com/app/658870/EXIT_...,2017-09-02,"[Indie, Casual, Puzzle, Singleplayer, Atmosphe...",http://steamcommunity.com/app/658870/reviews/?...,"[Single-player, Steam Achievements, Steam Cloud]",4.99,0.0,658870.0,"xropi,stev3ns"


Al realizar una vista previa del DataFrame df_Games, se observa que las primeras filas contienen valores nulos (NaN) en todas las columnas. Esto indica que es necesario investigar la fuente de datos o el proceso de carga para asegurar la integridad de los datos y garantizar que se estén cargando correctamente en el DataFrame. Se planea realizar una revisión más detallada del archivo de origen y del código de carga de datos para abordar este problema y obtener datos válidos para su análisis.
Laa columnas 'genres','tags', 'specs', contienen datos estructurados (formato JSON). Se procede abrir el archivo en modo lectura con codificación UTF-8 y se carga el contenido como un objeto Python lo que nos permitirá explorar esta columna más a fondo (puede revelar información adicional sobre las revisiones de los usuarios).

In [37]:
# Obtener información general del DataFrame
print("\nInformación general del DataFrame:")
df_Games.info()


Información general del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120445 entries, 0 to 120444
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   publisher     24083 non-null  object 
 1   genres        28852 non-null  object 
 2   app_name      32133 non-null  object 
 3   title         30085 non-null  object 
 4   url           32135 non-null  object 
 5   release_date  30068 non-null  object 
 6   tags          31972 non-null  object 
 7   reviews_url   32133 non-null  object 
 8   specs         31465 non-null  object 
 9   price         30758 non-null  object 
 10  early_access  32135 non-null  float64
 11  id            32133 non-null  float64
 12  developer     28836 non-null  object 
dtypes: float64(2), object(11)
memory usage: 11.9+ MB


Se observa que las columnas 'app_name', 'url', 'reviews_url', 'early_access' tienen todos los valores no nulos. Las columnas como 'genres', 'tags', 'specs' parecen contener listas de categorías. La columna 'release_date' parece contener fechas, se considera convertirla al tipo de datos de fecha (datetime). La columna 'early_access' tiene el tipo de datos float64, podríamos considerar convertirla a un tipo de datos booleano (bool). La columna 'price' podría ser un tipo de datos numérico.

### 3. Limpiar y preprocesar el conjunto de datos

- Manejar valores nulos o duplicados.
- Identificar y eliminar columnas irrelevantes (si es necesario).


In [19]:
# Eliminar filas con todos los valores nulos
df_Games = df_Games.dropna(how='all').reset_index(drop=True)
df_Games.shape

(32135, 13)

In [20]:
# Reemplazar valores vacíos, 'null' y 'None' con NaN en todo el DataFrame
df_Games.replace(['', 'null', 'None'], np.nan, inplace=True)

In [21]:
# Renombrar columnas
df_Games.rename(columns={'app_name': 'name', 'id': 'item_id'}, inplace=True)

In [22]:
# Cantidad de valores nulos en las columnas 'publisher' y 'developer'
df_Games[['publisher', 'developer']].isnull().sum()

publisher    8061
developer    3299
dtype: int64

Al analizar el conjunto de datos, se observó que las columnas 'developer' y 'publisher' comparten muchos datos, pero presentan algunas discrepancias en cuanto a los valores nulos. Se identificó que la columna 'developer' contenía 3,299 valores nulos, mientras que la columna 'publisher' tenía 8,061 valores nulos. Para abordar esta disparidad y aprovechando la disponibilidad de datos en 'publisher', se decidió realizar un tratamiento específico para los valores nulos en 'developer'. Se aplicó una operación que verificó si 'developer' estaba vacía y 'publisher' tenía datos, y en caso afirmativo, se copió el valor de 'publisher' a 'developer'. Este enfoque permitió mejorar la integridad de los datos en la columna 'developer' utilizando información disponible en 'publisher'.

In [23]:
# Filtrar registros donde item_id es nulo o NaN
df_Games[df_Games['item_id'].isna()]

Unnamed: 0,publisher,genres,name,title,url,release_date,tags,reviews_url,specs,price,early_access,item_id,developer
74,,,,,http://store.steampowered.com/,,,,,19.99,0.0,,
30961,"Warner Bros. Interactive Entertainment, Feral ...","[Action, Adventure]",Batman: Arkham City - Game of the Year Edition,Batman: Arkham City - Game of the Year Edition,http://store.steampowered.com/app/200260,2012-09-07,"[Action, Open World, Batman, Adventure, Stealt...",,"[Single-player, Steam Achievements, Steam Trad...",19.99,0.0,,"Rocksteady Studios,Feral Interactive (Mac)"


In [24]:
# Eliminar registros donde item_id es nulo o NaN
df_Games = df_Games.dropna(subset=['item_id'])

In [11]:
'''
# Convertimos la columna 'genres' a tipo lista, conservando NaN
df_Games['genres'] = df_Games['genres'].apply(lambda x: ast.literal_eval(x) if isinstance(x, str) else x)

# Expandimos las listas en filas
df_genres = df_Games.explode('genres')

# Obtener la lista de géneros únicos, incluyendo los valores nulos
lista_generos = df_genres['genres'].unique()

df_Games['tags'] = df_Games['tags'].apply(lambda x: ast.literal_eval(x) if isinstance(x, str) else x)
df_Games['genres'] = df_Games.apply(
    lambda row: [tag for tag in row['tags'] if tag in lista_generos] if isinstance(row['tags'], list) else row['genres'],
    axis=1
    )
'''

In [25]:
# Visualizar los datos de la columna 'release_date'
unique_release_dates = df_Games['release_date'].unique()

for value in unique_release_dates:
    print(value)
    

2018-01-04
2017-07-24
2017-12-07
None
Soon..
2018-01-03
2017-12-22
2017-12-23
1997-06-30
1998-11-08
2016-11-25
2018-01-01
2017-12-30
2006-07-06
2006-07-11
2017
Beta测试已开启
2017-12-29
2018-03-30
2005-08-09
2006-09-29
2006-11-20
2006-11-29
2006-11-24
2006-12-14
2006-12-19
2003-08-23
2006-12-21
2006-04-17
2006-08-01
2005-07-12
2007-06-26
2006-07-24
2002-11-12
2000-11-17
2003-10-23
2006-10-16
1998-10-31
2007-06-01
1995-04-01
2007-06-05
2006-05-23
2006-10-17
1996-06-17
2007-06-29
2006-12-20
1995-04-30
1995-06-01
1994-05-05
1994-08-03
2001-11-20
1997-02-28
1993-10-10
2003-09-09
2007-08-03
2007-05-31
2007-03-20
2006-01-01
2007-08-21
2006-10-09
2004-09-22
2006-06-26
2007-12-14
1998-06-30
1999-10-25
2004-04-20
2003-07-01
2003-10-14
2006-04-07
2001-07-25
2008-10-28
2007-10-10
2007-10-23
2007-08-01
2007-09-01
2007-12-03
2008-02-08
2007-05-08
2006-02-21
2006-05-02
2007-10-16
2006-05-30
2006-10-26
2005-03-14
2003-02-03
1998-04-30
2008-03-21
2003-02-18
2004-03-23
2000-10-25
2006-12-12
2005-03-15
2008-

In [26]:
#Convertimos la columa release_date a formato fecha
df_Games['release_date']=pd.to_datetime(df_Games['release_date'], errors='coerce', exact=False)

#Solo nos interesa el año

# Extraer el año y crear una nueva columna 'release_year'
df_Games['year'] = df_Games['release_date'].dt.year.astype('Int64')

# Eliminar la columna 'release_date'
#df_Games = df_Games.drop(columns=['release_date'])


In [27]:
# Verificar si 'developer' está vacía y 'publisher' está llena, luego copiar el valor
df_Games.loc[df_Games['developer'].isnull() & ~df_Games['publisher'].isnull(), 'developer'] = df_Games['publisher']

In [28]:
# Se eliminan las columnas 'title','url','reviews_url','early_access','publisher','release_date' por considerarse no relevantes
df_Games.drop(['title','url','reviews_url','early_access','publisher','release_date'], axis=1, inplace=True)

In [29]:
# Se establece umbral del 80% para decidir que columnas eliminar por valores nulos
umbral_nulos = 0.8

# Calcula el porcentaje de valores nulos por columna
porcentaje_nulos = df_Games.isnull().mean()

# Filtra las columnas que superan el umbral
columnas_a_eliminar = porcentaje_nulos[porcentaje_nulos > umbral_nulos]

# Muestra las columnas y su respectivo porcentaje de valores nulos
print("Columnas con más del {}% de valores nulos (candidatas a eliminar):".format(umbral_nulos * 100))
for columna, porcentaje in columnas_a_eliminar.items():
    print("{}: {:.2%}".format(columna, porcentaje))

Columnas con más del 80.0% de valores nulos (candidatas a eliminar):


In [30]:
# Si aún hay valores nulos después de la interpolación, se llenan con la mediana. 
df_Games['year'] = df_Games['year'].fillna(df_Games['year'].median())

In [31]:
# Convertir 'price' a tipo numérico, asignar NaN a 'Free To Play'
df_Games['price'] = pd.to_numeric(df_Games['price'], errors='coerce')

### 4. Guardar el conjunto de datos limpio
Guardamos el conjunto de datos limpio en un nuevo archivo CSV/JSON/PARQUET para facilitar el acceso y la reutilización.

In [32]:
# Los archivos se almacenan en local 
df_Games.to_csv('steam_games_cleaned.csv', index=False)
df_Games.to_json('steam_games_cleaned.json', orient='records', lines=True)
df_Games.to_parquet('steam_games_cleaned.parquet', index=False)