# Carga de Librerías necesarias

In [1]:
import pandas as pd
import numpy as np
import gzip
import ast
import json

# Carga del archivo en un DataFrame: steam_games.json.gz 

In [2]:
# Ruta del archivo de Steam Games.
file_path = r'.\\Dataset\\steam_games.json.gz'

# Lista para almacenar los objetos JSON.
data_list = []  

# Se abre el archivo con la librería gzip sin necesidad de descomprimirlo previamente.
with gzip.open(file_path) as file:
    # Se recorre cada línea del arhivo.
    for line in file:
        # Cargar cada línea como objeto JSON y se agrega a la lista.
        data = json.loads(line.decode('utf-8'))  # Decodificado en UTF-8
        data_list.append(data)

# Convertir la lista de diccionarios en un DataFrame de pandas.
df_steam_games = pd.DataFrame(data_list)

# Cambiar la columna 'price' a tipo string porque contiene "Free to Play" y sino no puedo guardarlo como "parquet".
df_steam_games['price'] = df_steam_games['price'].astype(str)

# Guardo el DF en parquet para levantarlo más rápido la próxima vez.
df_steam_games.to_parquet('.\\Dataset\\steam_games.parquet', index=False)


# Carga y desanidado del archivo: user_reviews.json.gz

In [3]:
# Ruta del archivo de Reviews.
file_path = r'.\\Dataset\\user_reviews.json.gz'

# Lista para almacenar los datos de las reviews.
reviews_list = []

# Se abre el archivo con la librería gzip sin necesidad de descomprimirlo previamente.
with gzip.open(file_path) as file:
    
    # Se recorre línea por línea ya que cada línea es un objeto
    for line in file:

        # Se convierte cada línea en un diccionario.
        data = ast.literal_eval(line.decode('utf-8'))

        # Si el campo "reviews" está vacío, se agrega un diccionario con valores None.
        if not data['reviews']:
            reviews_list.append({
                'item_id': None,
                'posted': None,
                'helpful': None,
                'recommend': None,
                'funny': None,
                'review': None,
                'user_id': data['user_id'],
                'user_url': data['user_url']
            })
        else:
            # Si el campo "reviews" tiene datos, se añade cada reseña al diccionario de resultados con sus respectivos user_id y user_url
            for review in data['reviews']:
                review['user_id'] = data['user_id']
                review['user_url'] = data['user_url']
                reviews_list.append(review)

# Creo el DataFrame a partir de la lista de diccionarios.
df_reviews = pd.DataFrame(reviews_list)

# Reorganizo columnas según el orden deseado
df_reviews = df_reviews[['user_id', 'user_url', 'item_id', 'posted', 'helpful', 'recommend', 'funny', 'review']]

# Guardo el DF en parquet para levantarlo más rápido la próxima vez.
df_reviews.to_parquet('.\\Dataset\\user_reviews.parquet', index=False)

# Carga y desanidado del archivo: users_items.json.gz

In [18]:
# Ruta del archivo de Reviews.
file_path = r'.\\Dataset\\users_items.json.gz'

# Lista para almacenar los datos de las reseñas.
items_list = []

# Se abre el archivo con la librería gzip sin necesidad de descomprimirlo previamente.
with gzip.open(file_path) as file:
    
    # Se recorre línea por línea ya que cada línea es un objeto
    for line in file:

        # Se convierte cada línea en un diccionario.
        data = ast.literal_eval(line.decode('utf-8'))

        # Si el campo "items" está vacío, se agrega un diccionario con valores None.
        if not data['items']:
            items_list.append({
                'item_id': None,
                'item_name': None,
                'playtime_forever': None,
                'playtime_2weeks': None,
                'user_id': data['user_id'],
                'user_url': data['user_url']
            })
        else:
            # Si el campo "items" tiene datos, se añade cada reseña al diccionario de resultados con sus respectivos user_id y user_url
            for item in data['items']:
                item['user_id'] = data['user_id']
                item['user_url'] = data['user_url']
                items_list.append(item)

# Creo el DataFrame a partir de la lista de diccionarios.
df_items = pd.DataFrame(items_list)

# Reorganizo columnas según el orden deseado
df_items = df_items[['user_id', 'user_url', 'item_id', 'item_name', 'playtime_forever', 'playtime_2weeks']]

# Guardo el DF en parquet para levantarlo más rápido la próxima vez.
df_items.to_parquet('.\\Dataset\\users_items.parquet', index=False)