## ETL del dataset `steam_items`

En esta jupyter notebook se desarrolla la extracción, transformación y carga (ETL) del conjunto de datos `steam_items.json.gz`.

### Descripción de Columnas en user_items.gz.json

| Columna  | Descripción                                | Ejemplo                                                                                        |
|----------|--------------------------------------------|-----------------------------------------------------------------------------------------------|
| user_id  | Identificador único de usuario             | [76561197970982479, evcentric, maplemage]                                                     |
| user_url | URL del perfil del usuario                 | [http://steamcommunity.com/id/evcentric]                                                      |
| items    | Items de usuario en formato JSON           | {'item_id': '273350', 'item_name': 'Evolve Stage 2', 'playtime_forever': 58, 'playtime_2weeks': 0} |

In [1]:
import gzip  # Para trabajar con archivos comprimidos en formato Gzip
import json  # Para trabajar con datos en formato JSON
import matplotlib.pyplot as plt  # Para crear gráficos y visualizaciones
import numpy as np  # Para operaciones matemáticas eficientes y manipulación de arrays
import pandas as pd  # Para el análisis y manipulación de datos en forma de DataFrames
import pyarrow as pa  # Herramientas para trabajar con datos en formato de flecha (Arrow)
import pyarrow.parquet as pq  # Para trabajar con archivos en formato Parquet
import seaborn as sns  # Biblioteca de visualización de datos basada en matplotlib
import ast

In [None]:
# Ruta al dataset australian_user_reviews
ruta_items = 'data/australian_users_items.json'

# Se lee de cada línea del dataset
filas_items = []
with open(ruta_items) as f:
    for line in f.readlines():
        filas_items.append(ast.literal_eval(line))

# Se convierte en dataframe
df_items = pd.DataFrame(filas_items)
df_items

In [4]:
# Leemos el archivo gz que contiene el json y lo guardamos en una lista
filas_review = []  # creamos una lista vacía para ir agregando las filas del archivo json
with gzip.open("data/users_items.json.gz", 'rt', encoding='utf-8') as file:
    for line in file.readlines():
        filas_review.append(ast.literal_eval(line))

# Se convierte en dataframe
df_items = pd.DataFrame(filas_review)
df_items


Unnamed: 0,user_id,items_count,steam_id,user_url,items
0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
1,js41637,888,76561198035864385,http://steamcommunity.com/id/js41637,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
2,evcentric,137,76561198007712555,http://steamcommunity.com/id/evcentric,"[{'item_id': '1200', 'item_name': 'Red Orchest..."
3,Riot-Punch,328,76561197963445855,http://steamcommunity.com/id/Riot-Punch,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
4,doctr,541,76561198002099482,http://steamcommunity.com/id/doctr,"[{'item_id': '300', 'item_name': 'Day of Defea..."
...,...,...,...,...,...
88305,76561198323066619,22,76561198323066619,http://steamcommunity.com/profiles/76561198323...,"[{'item_id': '413850', 'item_name': 'CS:GO Pla..."
88306,76561198326700687,177,76561198326700687,http://steamcommunity.com/profiles/76561198326...,"[{'item_id': '11020', 'item_name': 'TrackMania..."
88307,XxLaughingJackClown77xX,0,76561198328759259,http://steamcommunity.com/id/XxLaughingJackClo...,[]
88308,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...,"[{'item_id': '304930', 'item_name': 'Unturned'..."


In [None]:
games.shape # Obsevamos el tamaño del dataset

Ahora es necesario observar el número de nulos presentes en el dataset, para un posible imputación o eliminación de datos

In [None]:
games.isna().sum().sort_values(ascending= False)/len(games) * 100

Conclusión:

* Para la totalidad de columnas se presenta un valor mayor del 70% de vacíos
* No se puede concluir la eliminación de columnas ya que todos presentan alto procentaje de nulos
* Se eliminarán las filas que contengas el todas de sus registros vaciós