In [2]:
import pandas as pd
import json
from pandas import json_normalize
import ast
import gzip


## Lectura de archivos
- En este primer notebook, el objetivo es leer los datasets en el formato correcto y guardarlos en un archivo csv para posteriormente iniciar   
el trabajo de preprocesamiento de los datos. Se aprecia que los datos en el archivo json viene en formato incorrecto (comillas simples en vez de dobles),  
por tanto, tras probar con distintas soluciones, se muestra aquí el código que logra un resultado de apertura exitoso que es posible leerlo en un dataframe.

## 1. Apertura de user_reviews.json.gz

In [3]:
# Tras un pimer intento, se aprecia que el archivo json viene en formato incorrecto (comillas simples en vez de dobles) 
# Se lee el archivo usando el método ast.literal_eval() 
data_json = r'C:\Users\Lenovo\Desktop\Proyecto Individual\PI MLOps - STEAM\user_reviews.json.gz'

# lista para almacenar cada dato procesado
lista_reviews = []

# Abrir el archivo .gz con gzip.open y leer las líneas
with gzip.open(data_json, 'rt', encoding='utf-8') as files:
    for line in files.readlines():
        lista_reviews.append(ast.literal_eval(line))



In [4]:
# Convertir la lista en un DataFrame y visualizarlo
df_reviews = pd.DataFrame(lista_reviews)
df_reviews.head()

Unnamed: 0,user_id,user_url,reviews
0,76561197970982479,http://steamcommunity.com/profiles/76561197970...,"[{'funny': '', 'posted': 'Posted November 5, 2..."
1,js41637,http://steamcommunity.com/id/js41637,"[{'funny': '', 'posted': 'Posted June 24, 2014..."
2,evcentric,http://steamcommunity.com/id/evcentric,"[{'funny': '', 'posted': 'Posted February 3.',..."
3,doctr,http://steamcommunity.com/id/doctr,"[{'funny': '', 'posted': 'Posted October 14, 2..."
4,maplemage,http://steamcommunity.com/id/maplemage,"[{'funny': '3 people found this review funny',..."


## 2. Apertura de ser_items.json.gz

In [5]:
# leer el siguiente dataset, ruta al archivo comprimido user_items.json.gz

data2_json = r'C:\Users\Lenovo\Desktop\Proyecto Individual\PI MLOps - STEAM\users_items.json.gz'

lista_items = []
with gzip.open(data2_json, 'rt', encoding='utf-8') as files:
    for line in files.readlines():
        lista_items.append(ast.literal_eval(line))



In [6]:
# Convertir la lista en un DataFrame y visualizarlo para chequeo
df_items = pd.DataFrame(lista_items)
df_items.head()

Unnamed: 0,user_id,items_count,steam_id,user_url,items
0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
1,js41637,888,76561198035864385,http://steamcommunity.com/id/js41637,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
2,evcentric,137,76561198007712555,http://steamcommunity.com/id/evcentric,"[{'item_id': '1200', 'item_name': 'Red Orchest..."
3,Riot-Punch,328,76561197963445855,http://steamcommunity.com/id/Riot-Punch,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
4,doctr,541,76561198002099482,http://steamcommunity.com/id/doctr,"[{'item_id': '300', 'item_name': 'Day of Defea..."


## 3. Apertura de steam_games.json.gz

In [7]:
# para el tercer archivo, steam_games.json.gz, esta vez se usa json.loads en vez del método ast.literal_eval, ruta al archivo steam_games.json.gz
data3_json = r'C:\Users\Lenovo\Desktop\Proyecto Individual\PI MLOps - STEAM\steam_games.json.gz'

# Lista para almacenar los datos
lista_games = []

# Cargar el archivo y leer las líneas
with gzip.open(data3_json, 'rt', encoding='utf-8') as files:
    for line in files:
        try:
            lista_games.append(json.loads(line))  # Usar json.loads en lugar de ast.literal_eval
        except json.JSONDecodeError as e:
            print(f"Error decoding JSON: {e}")



In [8]:
# Crear DataFrame y mostrarlo
df_steam = pd.DataFrame(lista_games)
df_steam

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
0,,,,,,,,,,,,,
1,,,,,,,,,,,,,
2,,,,,,,,,,,,,
3,,,,,,,,,,,,,
4,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
120440,Ghost_RUS Games,"[Casual, Indie, Simulation, Strategy]",Colony On Mars,Colony On Mars,http://store.steampowered.com/app/773640/Colon...,2018-01-04,"[Strategy, Indie, Casual, Simulation]",http://steamcommunity.com/app/773640/reviews/?...,"[Single-player, Steam Achievements]",1.99,False,773640,"Nikita ""Ghost_RUS"""
120441,Sacada,"[Casual, Indie, Strategy]",LOGistICAL: South Africa,LOGistICAL: South Africa,http://store.steampowered.com/app/733530/LOGis...,2018-01-04,"[Strategy, Indie, Casual]",http://steamcommunity.com/app/733530/reviews/?...,"[Single-player, Steam Achievements, Steam Clou...",4.99,False,733530,Sacada
120442,Laush Studio,"[Indie, Racing, Simulation]",Russian Roads,Russian Roads,http://store.steampowered.com/app/610660/Russi...,2018-01-04,"[Indie, Simulation, Racing]",http://steamcommunity.com/app/610660/reviews/?...,"[Single-player, Steam Achievements, Steam Trad...",1.99,False,610660,Laush Dmitriy Sergeevich
120443,SIXNAILS,"[Casual, Indie]",EXIT 2 - Directions,EXIT 2 - Directions,http://store.steampowered.com/app/658870/EXIT_...,2017-09-02,"[Indie, Casual, Puzzle, Singleplayer, Atmosphe...",http://steamcommunity.com/app/658870/reviews/?...,"[Single-player, Steam Achievements, Steam Cloud]",4.99,False,658870,"xropi,stev3ns"


## 4. Guardar los datasets en formato CSV:
   - Utilizo `to_csv()` para guardar el DataFrame en formato CSV, sin incluir el índice.

In [9]:
# user_reviews
df_reviews.to_parquet(r'raw_reviews.parquet', index=False)

In [12]:
# user_items
df_items.to_parquet(r'raw_items.parquet', index=False)

In [19]:
# steam_games lo pasamos a formato json dado que genera un error por los valores mixtos de la columna price
df_steam.to_json(r'raw_games.json', orient='records',lines=True)