# Análisis exploratorio de los archivos de datos suministrados
Los datos suministrados están contenidos en tres (3) archivos comprimidos a los que se pudo acceder a través del enlace: https://drive.google.com/drive/folders/1HqBG2-sUkz_R3h1dZU5F2uAzpRn7BSpj. De estos, se extrajeron los siguientes archivos: 
australian_user_reviews.json, output_steam_games.json, y australian_users_items.json. Estos archivos se dejaron en la ruta '../Datasets/Original_Data_STEAM/'.

Para la exploración inicial de los archivos JSON se intentó la carga de los mismos con el método que ofrece PANDAS para tal efecto; pero no fue posible abrirlos, aparentemente porque los archivos, o algunos de sus elementos, no son JSON, aunque la extensión en el nombre del archivo así lo indique. 

In [13]:
import pandas as pd

# Carga el archivo JSON en el DataFrame 'df'
df = pd.read_json('../Datasets/Original_Data_STEAM/australian_user_reviews.json')

# Muestra las primeras y ultimas filas del DataFrame para explorar el contenido
df

ValueError: Trailing data

#### Explorador de archivos JSON y Validador de sus elementos

Con el fin de entender como esta estructurado el contenido de los archivos, y observar la sintaxis de los elementos que lo componen, se creó el código presentado en la celda a continuación.

Las líneas de la 6 a la 11, definen la función 'isJsonValid()', la cual recibe un elemento JSON para que la función verifique si su estructura y sintaxis son válidos.

Las líneas 14 a 16 especifican la ruta del archivo a ser analizado. Se debe habilitar solo aquel que corresponda al archivo que se desea explorar.

La linea 21 pone en la variable 'lineNumber' el número de linea del archivo que queremos revisar. El primer elemento del archivo está en la linea 0.

Como salidas el código imprime dos líneas. La primera muestra si el elemento en la línea del archivo indicada por la variable 'lineNumber' es un JSON válido o no (True/False). La segunda linea impresa contiene al elemento crudo sin ninguna transformación.

Cambiando el valor de 'lineNumber' podemos revisar cualquier línea que deseemos del archivo. Si entendemos que esperar de la estructura en un archivo JSON válido, y sus correspondientes elementos, bastará con revisar las primeras líneas para evidenciar la validez tanto del archivo -estructura- como de sus elementos -estructura y sintaxis.

Siguiendo el enlace a continuación, se llega a una descripción concisa pero bien explicada del standard: https://docs.oracle.com/en/database/oracle/oracle-database/21/adjsn/json-data.html#GUID-615A4146-6DC0-4E66-9AD0-CD74C90D208A

El siguiente enlace, lleva a la página oficial del Standard JSON: https://www.json.org/json-en.html

IMPORTANTE: El objetivo es asegurar que los archivos de datos puedan ser cargados -sin que en el proceso ocurra un error- usando los métodos y funciones que dispone Python para tal efecto. El objetivo nunca será el asegurar que los archivos cumplan al 100% con el Standard JSON.

In [12]:
# Explorador de archivos JSON y Validador de sus elementos
##########################################################

import json

def isJsonValid(jsonInput):   
    try:
        json.loads(jsonInput)
        return True
    except json.JSONDecodeError:
        return False

# Nombre del archivo 
file_path = '../Datasets/Original_Data_STEAM/australian_user_reviews.json' 
#file_path = '../Datasets/Original_Data_STEAM/output_steam_games.json' 
#file_path = '../Datasets/Original_Data_STEAM/australian_users_items.json' 

with open(file_path, encoding='utf-8') as f:
    lines = f.readlines()

lineNumber = 8831
line = lines[lineNumber]    

print("is valid JSON element?", isJsonValid(line))
line


is valid JSON element? False


'{\'user_id\': \'heisawizard\', \'user_url\': \'http://steamcommunity.com/id/heisawizard\', \'reviews\': [{\'funny\': \'\', \'posted\': \'Posted March 28, 2014.\', \'last_edited\': \'\', \'item_id\': \'236370\', \'helpful\': \'4 of 5 people (80%) found this review helpful\', \'recommend\': True, \'review\': \'this game is a great game to playi love the graphics and the weather changes aswell10/10\'}, {\'funny\': \'\', \'posted\': \'Posted December 16, 2014.\', \'last_edited\': \'\', \'item_id\': \'49520\', \'helpful\': \'No ratings yet\', \'recommend\': True, \'review\': "AWESOME GAME AWESOME DLC\'s (heard from my mates gettin them sometime christmas)10bananas/10"}, {\'funny\': \'\', \'posted\': \'Posted March 5, 2014.\', \'last_edited\': \'\', \'item_id\': \'252490\', \'helpful\': \'No ratings yet\', \'recommend\': True, \'review\': \'Great game if you like survival games, my friennds and I play it for hours and it is great.Also the fact that is is in alpha stage is awesome considerin

## Estructura de los archivos

Los tres archivos, aunque tienen la extensión JSON, no están estructurados como tal, y en cambio guardan una estructura NDJSON muy comunmente encontrada en los archivos producidos por los procesos de LOG de soluciones software.
Una característica de estos archivos NDJSON es que cada linea del archivo corresponde a un elemento JSON -encerrado entre llaves '{}'- y separan los elementos no con coma (,)* sino con un final de linea (\n). 

*NOTA: un archivo JSON válido puede incluir un salto de línea (\n) además de la coma (,) obligatoria para separar sus elementos.

Para un archivo JSON, se espera la siguiente estructura:

[

{elemento_JSON_0},

{elemento_JSON_1},

.

.

.

{elemento_JSON_N}

]

### ...
Los archivos NDJSON recibidos están estructurados de la siguiente manera:

{elemento_JSON_0}\n

{elemento_JSON_1}\n

.

.

.

{elemento_JSON_N}\n






## Estructura y sintaxis de los elementos JSON en los archivos

### australian_user_reviews.json

Este archivo contiene las opiniones y recomendaciones de los juegos, hechas por los usuarios de los mismos.
Por cada línea de este archivo hay un usuario con una lista de diccionarios, cada uno conteniendo la información relativa a opiniones y recomendaciones de un juego en particular. Es decir, que si el usuario identificado en la línea 123 ha diligenciado el formulario de opiniones y recomendaciones de STEAM para ocho(8) juegos, entonces, la línea 123 del archivo 'australian_user_reviews.json', tendrá un diccionario externo con Keys 'user_id', 'user_url' y 'reviews', siendo el Value del Key 'reviews', una lista de ocho(8) diccionarios, y cada uno contiene información suministrada por el usuario respecto a uno de los juegos, incluyendo -entre otros- un review en forma de texto, y si lo recomienda o no.

Los elementos de este archivo guardan una estructura JSON de Key-Value, con Value simple para los keys 'user_id' y 'user_url'. Sin embargo, para el Key 'reviews', encontramos como Value una Lista de diccionarios con los Keys 'funny', 'posted', 'last_edited', 'item_id', 'helpful', 'recommend', y 'review'. Esta estructura, aunque compleja, es válida en el Standard JSON.

Pese a lo anterior, los elementos del archivo 'australian_user_reviews.json' no son JSON válidos debido a la sintaxis, donde se encuentran entre otras, las siguientes desviaciones del Standard:

1. Cada par Key-Value debería estar entre comillas dobles, y en cambio, están encerrados por comillas simples escapadas (\\').
2. Se encuentran comillas dobles sin escapar en algunos de los Value del Key 'review' perteneciente a los diccionarios contenidos en la Lista que es el Value del Key 'reviews'.
3. Como dijimos anteriormente, el Key 'reviews' es una lista de diccionarios separados por coma (,). Sin embargo, en algunas ocasiones, la coma está ausente.






### output_steam_games.json

Este archivo condensa en detalle, la información referente a cada uno de los juegos ofrecidos en el sitio WEB de STEAM.

Los elementos de este archivo guardan una estructura JSON de Key-Value, con Value simple para sus keys 'publisher', 'app_name', 'title', 'url', 'release_date', 'reviews_url', 'price', 'early_access', 'id', y 'developer'. Sin embargo, los Keys 'genres', 'tags' y 'specs', tienen Listas como Value. Algunos de los Values para estos Keys -que ayudan a dar sentido al contenido del archivo para su posterior procesamiento- se presentan a continuación: 

1. "genres": ["Casual", "Indie"]
2. "tags": ["Casual", "Indie", "Comedy"]
3. "specs": ["Single-player", "Multi-player"]

Luego de usar el 'Explorador de archivos JSON y Validador de sus elementos' presentado lineas arriba, se observó que los elementos del archivo 'output_steam_games.json' son JSON válidos por estructura y sintaxis.

Un aspecto a destacar de este archivo, es que para cada Key del objeto JSON en las lineas que van desde la 0 hasta la 88309, el Value es 'NaN'. 

### australian_users_items.json

Cada línea del archivo es única para un usuario del sitio WEB de STEAM, y guarda estadísticas relativas a su interacción con los distintos juegos de la plataforma; entre ellas, la cantidad de juegos diferentes que ha jugado, y el tiempo empleado en cada juego. Sin embargo, como un usuario puede haber jugado múltiples juegos -a veces más de 100 según las observaciones realizadas-, y solo se permite una linea del archivo por usuario, entonces, guarda en un diccionario la estadística de interacción con cada juego, y agrupa los diccionarios en una Lista dentro de la línea, que es el Value del Key 'items'. 

Los elementos de este archivo guardan semejanza -en estructura y sintaxis- con los del archivo 'australian_user_reviews.json'.

La estructura de estos elementos es JSON de Key-Value, con Value simple para los keys 'user_id', 'items_count', 'steam_id', y 'user_url'. Sin embargo, para el Key 'items', encontramos una Lista significativamente extensa de diccionarios, que incluye los Keys 'item_id', 'item_name', 'playtime_forever', y 'playtime_2weeks'. Esta estructura, resulta válida en el Standard JSON.

Pese a que la estructura de los elementos del archivo 'australian_users_items.json' es válida, los errores de sintaxis invalidan estos elementos. Entre estos errores, el más evidente y recurrente, tiene que ver con que cada par Key-Value debería estar entre comillas dobles, y en cambio, están encerrados por comillas simples escapadas (\\').


# Conversión de los archivos originales a JSON Válidos
#### REGEX, Solución Software, o Servicio WEB?

En esta instancia, la primera idea que surge es la de usar 'Regular Expressions' (REGEX) para facilitar la búsqueda y corrección de aquellos errores de sintaxis encontrados. Sin embargo, el uso de REGEX con este propósito puede no ser la mejor alternativa en mi caso, por cuanto no se conoce el Standard JSON a profundidad, y esto hace difícil crear las expresiones generalizadas que hagan match con todas las posibles combinaciones que no se ajusten a dicho Standard.

Como alternativa, se busca en la INTERNET una solución software -o servicio WEB- que corrija los errores en los archivos y permita producir archivos JSON válidos. Se probó con la expresión 'fix invalid json' en el buscador de Google, y el primer resultado llevó al servicio WEB 'https://codebeautify.org/json-fixer'.

#### Fraccionamiento de los archivos
Este servicio WEB permite subir un archivo completo. Sin embargo, se cuelga por el tamaño de los mismos, y tocó dividirlos para subirlos por partes más pequeñas que el servicio WEB pudiera manejar.
Los archivos 'australian_user_reviews.json' y 'output_steam_games.json', se dividieron en archivos de 10.000 líneas cada uno, mientras que 'australian_users_items.json', por la gran cantidad de diccionarios anidados en el Value del Key 'items', debió dividirse en archivos de 2.000 lineas cada uno.

El fraccionamiento de los archivos se llevó a cabo usando el comando 'split' en una ventana BASH de GIT. A manera de ejemplo de lo realizado, se fraccionó el archivo 'australian_users_items.json' usando la siguiente instrucción:

split -l 2000 --additional-suffix=.json -d australian_users_items.json australian_users_items_

Cada fragmento del archivo original ahora puede subirse al servicio WEB 'https://codebeautify.org/json-fixer', donde es automáticamente corregido, para finalmente ser descargado como fracción corregida del archivo original.

#### Consolidación de los fragmentos corregidos
Una vez corregidos todos los fragmentos del archivo original, se consolidan en uno solo asegurandose de obtener la estructura esperada para un archivo JSON válido, tal cual se presenta al inicio de este documento en la sección 'Estructura de los archivos'.

Como resultado obtenemos los siguientes archivos JSON válidos:

Fixed_australian_user_reviews.json, Fixd_output_steam_games.json, y Fixed_australian_users_items.json.

#### Validación de los archivos por cuenta de un tercero
Los archivos JSON válidos deben ser verificados para observar que en verdad lo sean. Una opción, es usar el servicio de validación en el mismo sitio WEB donde se usó el servicio WEB para corregirlos. Sin embargo, tratando el asunto con la debida rigurosodad, se prefiere usar el servicio de validación JSON del sitio 'https://jsonlint.com/'.

Para usar el servicio, es necesario abrir el archivo corregido que se quiere validar, y pegar su contenido en la caja de texto. Acto seguido se da click al botón 'Validate JSON', y si no hay problemas, el mensaje 'JSON is valid!' será presentado sobre una franja verde ubicada debajo del botón.

Como resultado de este procedimiento, los tres archivos -'Fixed_australian_user_reviews.json', 'Fixed_output_steam_games.json', y 'Fixed_australian_users_items.json'- fueron refrendados como JSON válidos.

Estos tres archivos se guardaron en la ruta '../Datasets/Fixed_Data_STEAM/'.


# Proceso para llevar los archivos de JSON Válido con diccionarios anidados a PARQUET
A continuación se describe un proceso simple que será aplicado a cada uno de los archivos JSON válidos -los Fixed_-, hasta extraer de estos solo los datos necesarios, para así optimizar el rendimiento de la API y el entrenamiento del modelo de ML. El proceso culmina en la creación de tres archivos PARQUET -mucho más pequeños que los JSON- cuyos nombres son:

'Clean_australian_user_reviews.parquet', 'Clean_output_steam_games.parquet', y 'Clean_australian_users_items.parquet'.

Estos archivos parquet no solo son más pequeños que su contraparte JSON, sino que también tienen tiempos de lectura y escritura más favorables. Como base comparativa, puede verificar que la carga y procesamiento del archivo 'Fixed_australian_users_items.json' en la última celda de este documento, llega a demorar poco más de un minuto, mientras que la carga de la versión parquet del mismo archivo tarda menos de dos segundos -ver el archivo 'endpoints_fastAPI.ipynb'. Así mismo, mientras que 'Fixed_australian_users_items.json' pesa cerca de 541 MB, la versión parquet pesa cerca de 48 MB.

## Aplanado de la estructura de diccionarios anidados
Tal como se describió previamente en la sección 'Estructura y sintaxis de los elementos JSON en los archivos', los datos originales provienen de los archivos 'australian_user_reviews.json', 'output_steam_games.json', y 'australian_users_items.json'.

Las líneas de estos archivos -y sus versiones corregidas o válidas- son elementos que guardan una estructura JSON válido de Keys y Values; sin embargo, 'australian_user_reviews.json' y 'australian_users_items.json', tienen cada uno un Key -'reviews' en el primero e 'items' en el segundo-, cuyo Value es una lista de diccionarios; esto es, diccionarios anidados dentro de un diccionario externo. 

Se busca llevar los archivos JSON válidos a una versión de datos PARQUET, que optimicen el uso del espacio en disco, y el tiempo de carga en un DataFrame. Para cumplir este objetivo, primero hay que 'aplanar' los datos desanidando los diccionarios. Esto lo haremos siguiendo una estrategia simple, que consiste en extender -agregar a- los diccionarios anidados en cada línea, con los pares Key-value del diccionario externo que lo contiene, para luego agregar ese diccionario extendido a una lista que contendrá solo diccionarios extendidos con la siguiente entructura:

{"k1_anidado": "v1_anidado", ..., "kn_anidado": "vn_anidado", "k1_externo": "v1_externo", ..., "kn-1_externo": "vn-1_externo"}

Una vez se tiene la lista de diccionarios extendidos, se usa Pandas para crear un DataFrame con la siguiente instrucción:

df = pd.DataFrame(lista_de_diccionarios_extendidos)

## Limpieza de los datos
Para optimizar el rendimiento de la API y el entrenamiento del modelo de ML, se quitan todas aquellas columnas y filas que no se necesitan para las consultas y/o el entrenamiento del modelo de ML. 

### Eliminación de filas - criterios
Tal como vimos lineas arriba en este documento, el archivo 'output_steam_games.json' -y por tanto su versión de archivo JSON válido- tenía "...para cada Key del objeto JSON en las lineas que van desde la 0 hasta la 88309, el Value es 'NaN'...". Esta situación fue evidente al explorar las primeras líneas del archivo, más no se observó en los otros dos archivos. Sin embargo, también es cierto que no se revisó cada una de las líneas, dado la extensión de estos dos archivos -sobre todo el 'australian_users_items.json'. 

Considerando que las lineas en cuestión no ofrecen datos de los cuales sacar algún tipo de información útil para el proyecto, y que es posible que sean producto de un error sistemático que no fue posible detectar en el análisis exploratorio de los archivos originales, pero que puede estar presente en todos los archivos, se incluye dentro del proceso la eliminación de registros duplicados en los DataFrames cargados desde cada uno de los archivos JSON válidos. No se usará una instrucción Python para eliminar nulos, porque los Values 'NaN' en esas lineas son de typo 'str'.

### Eliminación de columnas - criterios
Aunque son muchas las cosas que se pueden considerar en torno a los criterios que se deben usar para eliminar o dejar columnas en las tablas finales, en mi rol de Data Scientist de STEAM, y más exactamente en mis labores como Data Engineer, fui expresamente instruido en no realizar transformaciones de datos, aun cuando encuentre motivos para hacerlos -y si que encontré varios en el análisis exploratorio de datos, pero no se hablará de ellos porque no aportan a la solución requerida. Las únicas modificaciones autorizadas son:
1. las requeridas para leer los datos -que ya se realizaron al modificar la sintaxis de los elementos JSON en los archivos originales-, y
2. la eliminación de columnas que no sean requeridas para responder las consultas o preparar el/los modelos de aprendizaje automático.

El código en la siguiente celda define la función 'imprimirTasaElementosNulos(df)' que ayuda a identificar en términos porcentuales la cantidad de elementos de una columna considerados como carentes de información: nulos según pandas, strigs 'NaN', y celdas vacías (''). Esta función es usada por las celdas subsiguientes para ayudar a identificar columnas candidatas a ser eliminadas. 

Considerando lo anterior, se decide eliminar para cada archivo, las siguientes columnas:
* Fixed_australian_user_reviews.json:
se eliminan las columnas 'funny', y 'last_edited', por tener respectivamente alrededor de 86.29% y 89.67% de elementos nulos. La columna 'helpful' por otro lado, tiene 0% de elementos nulos, pero se decide eliminar por cuanto no brida información en cuanto al juego en sí, sino sobre si el review fue de ayuda o no.
* Fixed_output_steam_games.json: 
se eliminan las columnas 'title', 'url', 'reviews_url', 'publisher' y 'tags'. La primera, porque duplica el contenido de 'app_name', y tiene más nulos que ella. La segunda porque la información que puede aportar ya está en 'app_name' y 'id'. Por otro lado, 'reviews_url' no aporta información más allá de la que hay en el DataFrame que se obtiene al cargar 'Fixed_australian_user_reviews.json'. Por otro lado, 'publisher' tiene una alta tasa de nulos, que asciende a 25.06%, y en gran medida, duplica a 'developer'. Finalmente, se decide sacar a la columna 'Tags' porque su contenido es muy similar al de la columna 'genres', pero en múltiples ocaciones se observó que la excede y por tanto puede meter mucho ruido al modelo de ML. 
* Fixed_australian_users_items.json:
se eliminan las columnas 'items_count', 'steam_id', 'user_url'. La primera es un número que indica la cantidad de items -juegos- asociados a un usuario. La segunda contiene el mismo dato encontrado en 'user_id'. Finalmente, 'user_url' no parece aportar nada nuevo a lo que brindan las columnas que se han dejado.

## Carga de los datos en archivos parquet 

Esta parte del proceso guarda en la ruta '../Datasets/Clean_Parquet_Data_Steam/' los archivos 'Clean_australian_user_reviews.parquet', 'Clean_output_steam_games.parquet', y 'Clean_australian_users_items.parquet'.


# Aplicación práctica del proceso JSON Válido a PARQUET

In [2]:
def imprimirTasaElementosNulos(df):
    # Esta función es llamada desde el código en las celdas a continuación. lo que hace es calcular e imprimir 
    # por cada columna del DataFrame pasado como argumento, el porcentaje de valores/elementos que no son datos 
    # válidos; más exáctamente, valores nulos, strings 'NaN', y valores ''.
    
    for columna in df.columns:
        # Cuenta los valores nulos según el criterio de Pandas
        nulos_pandas = df[columna].isnull().sum()  
        # Cuenta los string 'NaN'
        nulos_str_nan = df[columna].astype(str).apply(lambda x: x.strip() == 'NaN').sum()  
        # Cuenta los registros que no son nulos pero contienen ''
        nulos_espacios_vacios = df[columna].astype(str).apply(lambda x: x.strip() == '').sum()  
        nulos_total = nulos_pandas + nulos_str_nan + nulos_espacios_vacios
        
        total_elementos = len(df[columna])
        tasa_nulos = (nulos_total / total_elementos) * 100
        
        print(f"Columna '{columna}': {tasa_nulos:.2f}% de elementos nulos")

### Fixed_australian_user_reviews.json

In [5]:
import pandas as pd
import json

file_path = '../Datasets/Fixed_Data_STEAM/Fixed_australian_user_reviews.json'

# Carga el archivo JSON con codificación UTF-8
with open(file_path, 'r', encoding='utf-8') as file:
    data = json.load(file)

# Crea una lista para almacenar los datos desanidados
dict_review_list = []

# Itera a través de las lineas del archivo
for entry in data:
    user_id = entry['user_id']
    user_url = entry['user_url']
    reviews = entry['reviews']
    # Recordemos que 'reviews' es una lista cuyos elementos son diccionarios, cada uno de los cuales contiene la información 
    # de opiniones/recomendaciones que un usuario hace de un juego en particular.
    # Itera a través de la Lista de diccionarios con opiniones del usuario sobre los juegos
    for dict_review in reviews:
        dict_review['user_id'] = user_id
        dict_review['user_url'] = user_url
        dict_review_list.append(dict_review)

# Pone la lista en un DataFrame
df = pd.DataFrame(dict_review_list)

# Elimina las filas duplicadas
df.drop_duplicates(inplace=True)

# Después de eliminar duplicados, reindexa el DataFrame
df.reset_index(drop=True, inplace=True)

# Llama a la función que imprime para cada columna de df el porcentaje de valores/elementos que no son datos válidos.
imprimirTasaElementosNulos(df)

# Elimina las columnas que se decidieron innecesarias 
df.drop(['funny', 'last_edited', 'helpful'], axis=1, inplace=True) 

# Guarda los datos en archivo Clean_australian_user_reviews.parquet
df.to_parquet('../Datasets/Clean_Parquet_Data_Steam/Clean_australian_user_reviews.parquet')

# Muestra las primeras y últimas filas del DataFrame resultante
df


Columna 'funny': 86.29% de elementos nulos
Columna 'posted': 0.00% de elementos nulos
Columna 'last_edited': 89.67% de elementos nulos
Columna 'item_id': 0.00% de elementos nulos
Columna 'helpful': 0.00% de elementos nulos
Columna 'recommend': 0.00% de elementos nulos
Columna 'review': 0.07% de elementos nulos
Columna 'user_id': 0.00% de elementos nulos
Columna 'user_url': 0.00% de elementos nulos


Unnamed: 0,posted,item_id,recommend,review,user_id,user_url
0,"Posted November 5, 2011.",1250,True,Simple yet with great replayability. In my opi...,76561197970982479,http://steamcommunity.com/profiles/76561197970...
1,"Posted July 15, 2011.",22200,True,It's unique and worth a playthrough.,76561197970982479,http://steamcommunity.com/profiles/76561197970...
2,"Posted April 21, 2011.",43110,True,Great atmosphere. The gunplay can be a bit chu...,76561197970982479,http://steamcommunity.com/profiles/76561197970...
3,"Posted June 24, 2014.",251610,True,I know what you think when you see this title ...,js41637,http://steamcommunity.com/id/js41637
4,"Posted September 8, 2013.",227300,True,For a simple (it's actually not all that simpl...,js41637,http://steamcommunity.com/id/js41637
...,...,...,...,...,...,...
58426,Posted July 10.,70,True,a must have classic from steam definitely wort...,76561198312638244,http://steamcommunity.com/profiles/76561198312...
58427,Posted July 8.,362890,True,this game is a perfect remake of the original ...,76561198312638244,http://steamcommunity.com/profiles/76561198312...
58428,Posted July 3.,273110,True,had so much fun plaing this and collecting res...,LydiaMorley,http://steamcommunity.com/id/LydiaMorley
58429,Posted July 20.,730,True,:D,LydiaMorley,http://steamcommunity.com/id/LydiaMorley


### Fixed_output_steam_games.json

In [3]:
import pandas as pd, numpy as np
import json

file_path = '../Datasets/Fixed_Data_STEAM/Fixed_output_steam_games.json'

# Carga el archivo JSON con codificación UTF-8
with open(file_path, 'r', encoding='utf-8') as file:
    data = json.load(file)

# Crea una lista para almacenar los datos desanidados 
steam_games_list = []

for entry in data:
    steam_games_list.append(entry)

# Pone la lista en un DataFrame
df = pd.DataFrame(steam_games_list)

# Elimina las filas duplicadas
# pero primero convierte las listas del DataFrame en tuplas, y luego revierte la conversión
df = df.map(lambda x: tuple(x) if isinstance(x, list) else x)
df.drop_duplicates(inplace=True)
df = df.map(lambda x: list(x) if isinstance(x, tuple) else x)
df.drop(0, inplace=True)
# Elimina un registro duplicado problemático que no pudo sacarse con el drop_duplicates de arriba
df.drop_duplicates(subset='id', keep='first', inplace=True)

# Elimina nulos
# Reemplaza los 'NaN' como strings por valores NaN de NumPy para luego eliminar las filas que los contienen 
df.replace({'NaN': np.nan}, inplace=True)
df.dropna(inplace=True)

# Después de eliminar duplicados, reindexa el DataFrame
df.reset_index(drop=True, inplace=True)

# Llama a la función que imprime para cada columna de df el porcentaje de valores/elementos que no son datos válidos.
imprimirTasaElementosNulos(df)

# Elimina las columnas innecesarias
df.drop(['publisher', 'title', 'tags', 'url', 'reviews_url'], axis=1, inplace=True)

# Convierte a string las columnas 'genres' y 'specs'
df['genres'] = df['genres'].apply(lambda x: ', '.join(x))
df['specs'] = df['specs'].apply(lambda x: ', '.join(x))

# Convierte la columna 'price' a numérica, reemplazando los valores no convertibles por NaN
df['price'] = pd.to_numeric(df['price'], errors='coerce')

# Guarda los datos en archivo Clean_output_steam_games.parquet
df.to_parquet('../Datasets/Clean_Parquet_Data_Steam/Clean_output_steam_games.parquet')

# Muestra las primeras y últimas filas del DataFrame resultante
df


Columna 'publisher': 0.00% de elementos nulos
Columna 'genres': 0.00% de elementos nulos
Columna 'app_name': 0.00% de elementos nulos
Columna 'title': 0.00% de elementos nulos
Columna 'url': 0.00% de elementos nulos
Columna 'release_date': 0.00% de elementos nulos
Columna 'tags': 0.00% de elementos nulos
Columna 'reviews_url': 0.00% de elementos nulos
Columna 'specs': 0.00% de elementos nulos
Columna 'price': 0.00% de elementos nulos
Columna 'early_access': 0.00% de elementos nulos
Columna 'id': 0.00% de elementos nulos
Columna 'developer': 0.00% de elementos nulos


Unnamed: 0,genres,app_name,release_date,specs,price,early_access,id,developer
0,"Action, Casual, Indie, Simulation, Strategy",Lost Summoner Kitty,2018-01-04,Single-player,4.99,False,761140,Kotoshiro
1,"Free to Play, Indie, RPG, Strategy",Ironbound,2018-01-04,"Single-player, Multi-player, Online Multi-Play...",,False,643980,Secret Level SRL
2,"Casual, Free to Play, Indie, Simulation, Sports",Real Pool 3D - Poolians,2017-07-24,"Single-player, Multi-player, Online Multi-Play...",,False,670290,Poolians.com
3,"Action, Adventure, Casual",弹炸人2222,2017-12-07,Single-player,0.99,False,767400,彼岸领域
4,"Action, Adventure, Simulation",Battle Royale Trainer,2018-01-04,"Single-player, Steam Achievements",3.99,False,772540,Trickjump Games Ltd
...,...,...,...,...,...,...,...,...
22524,"Action, Adventure, Casual, Indie",Kebab it Up!,2018-01-04,"Single-player, Steam Achievements, Steam Cloud",1.99,False,745400,Bidoniera Games
22525,"Casual, Indie, Simulation, Strategy",Colony On Mars,2018-01-04,"Single-player, Steam Achievements",1.99,False,773640,"Nikita ""Ghost_RUS"""
22526,"Casual, Indie, Strategy",LOGistICAL: South Africa,2018-01-04,"Single-player, Steam Achievements, Steam Cloud...",4.99,False,733530,Sacada
22527,"Indie, Racing, Simulation",Russian Roads,2018-01-04,"Single-player, Steam Achievements, Steam Tradi...",1.99,False,610660,Laush Dmitriy Sergeevich


### Fixed_australian_users_items.json

In [7]:
import pandas as pd
import json

file_path = '../Datasets/Fixed_Data_STEAM/Fixed_australian_users_items.json'

# Carga el archivo JSON con codificación UTF-8
with open(file_path, 'r', encoding='utf-8') as file:
    data = json.load(file)

# Crea una lista para almacenar los datos desanidados
items_list = []

# Itera a través de los datos
for entry in data:
    user_id = entry['user_id']
    items_count = entry['items_count']
    steam_id = entry['steam_id']
    user_url = entry['user_url']
    items = entry['items']
    
# Itera a través de los juegos del usuario (contenidos en 'items')
# Muchas de las columnas creadas con el código en las próximas líneas, serán descartadas luego por ser innecesarias. Sin 
# embargo se dejan con un ánimo pedagógico, y para ser consistentes con el proceso establecido.       
    for item in items:
        item['user_id'] = user_id
        item['items_count'] = items_count
        item['steam_id'] = steam_id
        item['user_url'] = user_url
        items_list.append(item)

# Pone la lista en un DataFrame
df = pd.DataFrame(items_list)

# Elimina las filas duplicadas
df.drop_duplicates(inplace=True)

# Después de eliminar duplicados, reindexa el DataFrame
df.reset_index(drop=True, inplace=True)

# Llama a la función que imprime para cada columna de df el porcentaje de valores/elementos que no son datos válidos.
imprimirTasaElementosNulos(df)

# Elimina las columnas innecesarias
df.drop(['items_count', 'steam_id', 'user_url'], axis=1, inplace=True)

# Guarda los datos en archivo Clean_australian_users_items.parquet
df.to_parquet('../Datasets/Clean_Parquet_Data_Steam/Clean_australian_users_items.parquet')

# Muestra las primeras y últimas filas del DataFrame resultante
df


Columna 'item_id': 0.00% de elementos nulos
Columna 'item_name': 0.00% de elementos nulos
Columna 'playtime_forever': 0.00% de elementos nulos
Columna 'playtime_2weeks': 0.00% de elementos nulos
Columna 'user_id': 0.00% de elementos nulos
Columna 'items_count': 0.00% de elementos nulos
Columna 'steam_id': 0.00% de elementos nulos
Columna 'user_url': 0.00% de elementos nulos


Unnamed: 0,item_id,item_name,playtime_forever,playtime_2weeks,user_id
0,10,Counter-Strike,6,0,76561197970982479
1,20,Team Fortress Classic,0,0,76561197970982479
2,30,Day of Defeat,7,0,76561197970982479
3,40,Deathmatch Classic,0,0,76561197970982479
4,50,Half-Life: Opposing Force,0,0,76561197970982479
...,...,...,...,...,...
4938217,346330,BrainBread 2,0,0,76561198329548331
4938218,373330,All Is Dust,0,0,76561198329548331
4938219,388490,One Way To Die: Steam Edition,3,3,76561198329548331
4938220,521570,You Have 10 Seconds 2,4,4,76561198329548331
