## ETL del dataset `steam_reviews`

En esta jupyter notebook se desarrolla la extracción, transformación y carga (ETL) del conjunto de datos `steam_reviews.json.gz`.

### Descripción de Columnas en user_reviews.gz.json

| Columna     | Descripción                                   | Ejemplo                                                                      |
|-------------|-----------------------------------------------|------------------------------------------------------------------------------|
| user_id     | Identificador único de usuario                | [76561197970982479, evcentric, maplemage]                                   |
| user_url    | URL del perfil del usuario                    | [http://steamcommunity.com/id/evcentric]                                    |
| reviews     | Revisión del usuario en formato JSON          | {'funny': '', 'posted': 'Posted September 8, 2013.', 'last_edited': '', 'item_id': '227300', 'helpful': '0 of 1 people (0%) found this review helpful', 'recommend': True, 'review': "For a simple (it's actually not all that simple but it can be!) truck driving Simulator, it is quite a fun and relaxing game. Playing on simple (or easy?) its just the basic WASD keys for driving but (if you want) the game can be much harder and realistic with having to manually change gears, much harder turning, etc. And reversing in this game is a ♥♥♥♥♥, as I imagine it would be with an actual truck. Luckily, you don't have to reverse park it but you get extra points if you do cause it is bloody hard. But this is surprisingly a nice truck driving game and I had a bit of fun with it."} |


In [7]:
import gzip  # Para trabajar con archivos comprimidos en formato Gzip
import json  # Para trabajar con datos en formato JSON
import matplotlib.pyplot as plt  # Para crear gráficos y visualizaciones
import numpy as np  # Para operaciones matemáticas eficientes y manipulación de arrays
import pandas as pd  # Para el análisis y manipulación de datos en forma de DataFrames
import pyarrow as pa  # Herramientas para trabajar con datos en formato de flecha (Arrow)
import pyarrow.parquet as pq  # Para trabajar con archivos en formato Parquet
import seaborn as sns  # Biblioteca de visualización de datos basada en matplotlib

In [13]:
# Leemos el archivo gz que contiene el json y lo guardamos en una lista
row = []  # creamos una lista vacía para ir agregando las filas del archivo json
with gzip.open("data/steam_reviews.json.gz", 'rt', encoding='utf-8') as file:
    for line in file.readlines():  # leemos línea por línea
        data = json.loads(line)
        row.append(data)

# Convertimos la lista en un DataFrame
games = pd.DataFrame(row)
games.head()


Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
0,,,,,,,,,,,,,
1,,,,,,,,,,,,,
2,,,,,,,,,,,,,
3,,,,,,,,,,,,,
4,,,,,,,,,,,,,


In [10]:
games.shape # Obsevamos el tamaño del dataset

(120445, 13)

Ahora es necesario observar el número de nulos presentes en el dataset, para un posible imputación o eliminación de datos

In [11]:
games.isna().sum().sort_values(ascending= False)/len(games) * 100

publisher       80.004982
developer       76.058782
genres          76.045498
release_date    75.035909
title           75.021794
price           74.463033
specs           73.876043
tags            73.455104
app_name        73.321433
reviews_url     73.321433
id              73.321433
url             73.319773
early_access    73.319773
dtype: float64

Conclusión:

* Para la totalidad de columnas se presenta un valor mayor del 70% de vacíos
* No se puede concluir la eliminación de columnas ya que todos presentan alto procentaje de nulos
* Se eliminarán las filas que contengas el todas de sus registros vaciós