# **ETL steam_games.json**

1. ETL para datos de games plataforma STEAM: Transformamos de la información general del archivo. 
2. Objetivo: preparar datos para análisis. 
3. Importamos bibliotecas esenciales y nos enfocamos en limpieza y almacenamiento de datos transformados.

# Librerias

In [22]:
import pandas as pd
import numpy as np
import os
import json

La primera etapa del proceso de ETL para el archivo de juegos comienza con la descarga del archivo original desde Google Drive. Se requiere la aplicación de técnicas de lectura y limpieza para preparar los datos antes de proceder con su análisis posterior.

Creamos funcion de lectura para archivos desde la carpera **Archivos originales PI_1** ubicada en el disco local

In [23]:
import os
import json

def leer_json(nombre_archivo):
    # Verificar si el archivo existe en la ruta proporcionada
    if not os.path.exists(nombre_archivo):
        print(f"El archivo {nombre_archivo} no existe.")
        return None

    # Lista para almacenar los datos JSON
    datos = []

    # Leer el archivo línea por línea y cargar cada objeto JSON por separado
    with open(nombre_archivo, 'r', encoding='utf-8') as file:
        for line in file:
            # Verificar si la línea no está vacía y si contiene un objeto JSON válido
            if line.strip() and line.strip()[0] == '{' and line.strip()[-1] == '}':
                try:
                    datos.append(json.loads(line))
                except ValueError as e:
                    print(f"Error al cargar el objeto JSON en la línea {len(datos) + 1}: {e}")

    # Convertir la lista de objetos JSON en un DataFrame de pandas
    df = pd.DataFrame(datos)

    return df


In [24]:
ruta_archivo = r'C:\Users\pc-admin\Documents\DATA\Archivos originales PI_1\output_steam_games.json'
games = leer_json(ruta_archivo)

In [25]:
games.head(5)

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
0,,,,,,,,,,,,,
1,,,,,,,,,,,,,
2,,,,,,,,,,,,,
3,,,,,,,,,,,,,
4,,,,,,,,,,,,,


In [26]:
games.tail(3)

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
120442,Laush Studio,"[Indie, Racing, Simulation]",Russian Roads,Russian Roads,http://store.steampowered.com/app/610660/Russi...,2018-01-04,"[Indie, Simulation, Racing]",http://steamcommunity.com/app/610660/reviews/?...,"[Single-player, Steam Achievements, Steam Trad...",1.99,False,610660,Laush Dmitriy Sergeevich
120443,SIXNAILS,"[Casual, Indie]",EXIT 2 - Directions,EXIT 2 - Directions,http://store.steampowered.com/app/658870/EXIT_...,2017-09-02,"[Indie, Casual, Puzzle, Singleplayer, Atmosphe...",http://steamcommunity.com/app/658870/reviews/?...,"[Single-player, Steam Achievements, Steam Cloud]",4.99,False,658870,"xropi,stev3ns"
120444,,,Maze Run VR,,http://store.steampowered.com/app/681550/Maze_...,,"[Early Access, Adventure, Indie, Action, Simul...",http://steamcommunity.com/app/681550/reviews/?...,"[Single-player, Stats, Steam Leaderboards, HTC...",4.99,True,681550,


In [27]:
games.dtypes

publisher       object
genres          object
app_name        object
title           object
url             object
release_date    object
tags            object
reviews_url     object
specs           object
price           object
early_access    object
id              object
developer       object
dtype: object

In [28]:
# Imprimir los nombres de las columnas en el DataFrame games
print(games.columns)

Index(['publisher', 'genres', 'app_name', 'title', 'url', 'release_date',
       'tags', 'reviews_url', 'specs', 'price', 'early_access', 'id',
       'developer'],
      dtype='object')


## **Analisis inicial del archivo**

Basándome en el inicio y el final del archivo proporcionado, aquí hay algunas observaciones sobre la estructura, la información y las situaciones atípicas:

1. **Estructura del archivo**: El archivo parece ser un conjunto de datos tabulares con columnas que representan diferentes atributos de los juegos de Steam, como el editor, los géneros, el nombre del juego, la fecha de lanzamiento, las etiquetas, las URL, etc. Cada fila corresponde a un juego individual.

2. **Información disponible**: Las columnas parecen contener una variedad de información útil sobre los juegos, como el nombre del editor, los géneros del juego, el nombre del juego, la fecha de lanzamiento, las etiquetas, las URL de las reseñas, etc. Esto proporciona una amplia gama de características para analizar y comprender los juegos.

3. **Valores faltantes al inicio**: En el inicio del archivo, parece que todas las filas contienen valores NaN (Not a Number) en todas las columnas. Esto sugiere que el archivo puede haber sido inicializado con un tamaño predeterminado o que las primeras filas están incompletas o vacías.

4. **Valores faltantes al final**: En el final del archivo, vemos filas que contienen valores NaN en algunas columnas, lo que indica que no toda la información está disponible para esos juegos específicos. Esto es común en los conjuntos de datos del mundo real, donde algunos campos pueden no estar completos para todos los elementos.

5. **Situaciones atípicas**: Algunas filas tienen valores NaN en varias columnas, lo que indica que no se proporcionó información para esos juegos específicos. También hay casos donde el valor NaN aparece en las columnas "publisher" y "developer", lo que sugiere que la información del editor y del desarrollador no está disponible para esos juegos.

En general, parece que el archivo contiene información sobre una variedad de juegos de Steam, pero algunos juegos pueden tener información incompleta o faltante en ciertas columnas. Esto es algo común en conjuntos de datos del mundo real y puede ser manejado durante el análisis de datos mediante técnicas como la imputación de valores faltantes o el enfoque en las columnas con datos completos.


## Procedemos a realizar algunos procedimientos de **limpieza** necesarios para el resto del proyecto

Este código se utiliza para limpiar el DataFrame games eliminando las filas que no contienen información válida (es decir, todas las columnas son nulas) y restableciendo el índice del DataFrame resultante. Después de ejecutar este código, df_Games contendrá el DataFrame limpio y games mantendrá su forma original.

In [29]:
games = games.dropna(how='all').reset_index(drop=True)
games.shape


(32135, 13)

A continuación reemplazamos valores específicos ('', 'null', 'None') por NaN en el DataFrame games, lo que puede ser útil para limpiar los datos y tratar adecuadamente los valores faltantes o incorrectos. Después de ejecutar este código, los valores especificados serán tratados como valores nulos en el DataFrame games.

In [30]:
games.replace(['', 'null', 'None'], np.nan, inplace=True)

  games.replace(['', 'null', 'None'], np.nan, inplace=True)


In [31]:
total_filas = len(games)
valores_nulos_por_columna = games.isnull().sum()

# Calcular el porcentaje de valores nulos en cada columna
porcentaje_valores_nulos_por_columna = (valores_nulos_por_columna / total_filas) * 100

# Imprimir el porcentaje de valores nulos en cada columna
print("Porcentaje de valores nulos por columna:")
print(porcentaje_valores_nulos_por_columna)


Porcentaje de valores nulos por columna:
publisher       25.084799
genres          10.216275
app_name         0.006224
title            6.379337
url              0.000000
release_date     6.432239
tags             0.507235
reviews_url      0.006224
specs            2.084954
price            4.285047
early_access     0.000000
id               0.006224
developer       10.266065
dtype: float64


Esto nos da una idea de la integridad de los datos en cada una de las columnas del DataFrame `games`.

- La columna `publisher` tiene un alto porcentaje de valores nulos (aproximadamente el 25%). Esto significa que alrededor de una cuarta parte de las entradas en esta columna no tienen un valor de editor asociado.
- La columna `genres` tiene un porcentaje de valores nulos de alrededor del 10%, lo que indica que una décima parte de las entradas en esta columna no tienen géneros especificados.
- La columna `app_name` tiene un porcentaje muy bajo de valores nulos, lo que sugiere que casi todas las entradas tienen un nombre de aplicación asociado.
- Las columnas `url`, `reviews_url` y `early_access` no tienen valores nulos, lo que indica que todas las entradas tienen valores válidos para estas características.
- Las columnas `title`, `release_date`, `tags`, `specs`, `price`, `id` y `developer` tienen porcentajes de valores nulos en el rango del 0-10%, lo que sugiere que algunos valores pueden faltar en estas columnas, pero en general la integridad de los datos parece ser buena.

Con esta información, puedes tomar decisiones informadas sobre cómo manejar los valores nulos en tu análisis de datos, como imputar valores faltantes, eliminar filas correspondientes o ajustar análisis para tener en cuenta la ausencia de datos en ciertas columnas.

In [32]:
dates = games['release_date'].unique()
print(dates[:5])


['2018-01-04' '2017-07-24' '2017-12-07' nan 'Soon..']


 El siguiente código convierte la columna 'release_date' en un formato de fecha y hora, y luego extrae el año de cada fecha y lo almacena en una nueva columna llamada 'year' en el DataFrame 'games'.

In [33]:
games['release_date']=pd.to_datetime(games['release_date'], errors='coerce', exact=False)
games['year'] = games['release_date'].dt.year.astype('Int64')

Ahora, Se rellenan los valores nulos en la columna 'year' con la mediana de los valores no nulos de esa columna. Esto se hace mediante el uso del método fillna() de Pandas, pasando como argumento la mediana calculada a partir de games['year'].median().

Se convierte la columna 'price' a tipo numérico. Si algún valor no puede ser convertido a numérico (por ejemplo, si el valor es 'Free To Play'), se asigna NaN a ese valor. Esto se logra utilizando pd.to_numeric() con el parámetro errors='coerce', que convierte los valores no numéricos a NaN.

In [34]:
games['year'] = games['year'].fillna(games['year'].median())

games['price'] = pd.to_numeric(games['price'], errors='coerce')


In [35]:
# Calcular el porcentaje de valores nulos por columna
total_filas = len(games)
valores_nulos_por_columna = games.isnull().sum()
porcentaje_valores_nulos_por_columna = (valores_nulos_por_columna / total_filas) * 100

# Eliminar columnas con más del 10% de valores nulos
columnas_eliminar = porcentaje_valores_nulos_por_columna[porcentaje_valores_nulos_por_columna > 10].index
data_games_clean = games.drop(columns=columnas_eliminar)

# Imputar valores nulos utilizando el método ffill
data_games_clean.fillna(method='ffill', inplace=True)

# Guardar el DataFrame limpio como un nuevo archivo JSON
ruta_guardado_json = r'C:\Users\pc-admin\Documents\DATA\Archivos Limpios Json PI_1\data_games_clean.json'
data_games_clean.to_json(ruta_guardado_json, orient='records', lines=True)

# Guardar el DataFrame limpio como un nuevo archivo CSV
ruta_guardado_csv = r'C:\Users\pc-admin\Documents\ML_RecSys_Model\Data_ETL\data_games_clean.csv'
data_games_clean.to_csv(ruta_guardado_csv, index=False)


  data_games_clean.fillna(method='ffill', inplace=True)


In [36]:
import pandas as pd

# Ruta del archivo CSV limpio
file_clean = r'C:\Users\pc-admin\Documents\ML_RecSys_Model\Data_ETL\data_games_clean.csv'

# Cargar el DataFrame limpio desde el archivo CSV
data_games_clean = pd.read_csv(file_clean)

# Calcular el total de filas y los valores nulos por columna
total_filas = len(games)
valores_nulos_por_columna = data_games_clean.isnull().sum()

# Calcular el porcentaje de valores nulos en cada columna
porcentaje_valores_nulos_por_columna = (valores_nulos_por_columna / total_filas) * 100

# Imprimir el porcentaje de valores nulos en cada columna
print("Porcentaje de valores nulos por columna:")
print(porcentaje_valores_nulos_por_columna)


Porcentaje de valores nulos por columna:
app_name        0.0
title           0.0
url             0.0
release_date    0.0
tags            0.0
reviews_url     0.0
specs           0.0
early_access    0.0
id              0.0
year            0.0
dtype: float64


In [37]:
data_games_clean.head(5)

Unnamed: 0,app_name,title,url,release_date,tags,reviews_url,specs,early_access,id,year
0,Lost Summoner Kitty,Lost Summoner Kitty,http://store.steampowered.com/app/761140/Lost_...,2018-01-04,"['Strategy', 'Action', 'Indie', 'Casual', 'Sim...",http://steamcommunity.com/app/761140/reviews/?...,['Single-player'],False,761140,2018
1,Ironbound,Ironbound,http://store.steampowered.com/app/643980/Ironb...,2018-01-04,"['Free to Play', 'Strategy', 'Indie', 'RPG', '...",http://steamcommunity.com/app/643980/reviews/?...,"['Single-player', 'Multi-player', 'Online Mult...",False,643980,2018
2,Real Pool 3D - Poolians,Real Pool 3D - Poolians,http://store.steampowered.com/app/670290/Real_...,2017-07-24,"['Free to Play', 'Simulation', 'Sports', 'Casu...",http://steamcommunity.com/app/670290/reviews/?...,"['Single-player', 'Multi-player', 'Online Mult...",False,670290,2017
3,弹炸人2222,弹炸人2222,http://store.steampowered.com/app/767400/2222/,2017-12-07,"['Action', 'Adventure', 'Casual']",http://steamcommunity.com/app/767400/reviews/?...,['Single-player'],False,767400,2017
4,Log Challenge,弹炸人2222,http://store.steampowered.com/app/773570/Log_C...,2017-12-07,"['Action', 'Indie', 'Casual', 'Sports']",http://steamcommunity.com/app/773570/reviews/?...,"['Single-player', 'Full controller support', '...",False,773570,2016


**Como el objetivo del proyecto es desarrollar un sistema de recomendacion efectivo pero a la vez liviano, que se pueda trabajar en la version free de Render, vamos a proceder a eliminar las columnas de menor relevancia del DataSet**

In [38]:
data_games_clean.drop(['title','url','reviews_url','early_access','release_date'], axis=1, inplace=True)

In [39]:
data_games_clean.head(5)

Unnamed: 0,app_name,tags,specs,id,year
0,Lost Summoner Kitty,"['Strategy', 'Action', 'Indie', 'Casual', 'Sim...",['Single-player'],761140,2018
1,Ironbound,"['Free to Play', 'Strategy', 'Indie', 'RPG', '...","['Single-player', 'Multi-player', 'Online Mult...",643980,2018
2,Real Pool 3D - Poolians,"['Free to Play', 'Simulation', 'Sports', 'Casu...","['Single-player', 'Multi-player', 'Online Mult...",670290,2017
3,弹炸人2222,"['Action', 'Adventure', 'Casual']",['Single-player'],767400,2017
4,Log Challenge,"['Action', 'Indie', 'Casual', 'Sports']","['Single-player', 'Full controller support', '...",773570,2016


In [40]:
# Guardar el DataFrame limpio como un nuevo archivo CSV
ruta_guardado_csv = r'C:\Users\pc-admin\Documents\ML_RecSys_Model\Data_ETL\data_games_clean.csv'
data_games_clean.to_csv(ruta_guardado_csv, index=False)


In [41]:
data_games_clean.dtypes

app_name    object
tags        object
specs       object
id           int64
year         int64
dtype: object