## 🛠️ **ETL (Extract, Transform, Load)**
### **📂Procesamos el 2do archivo: `user_items.json.gz`**


📂 **user_reviews.json**:: 
- 🗃️ `Items `**:** Desanidado: era una lista de diccionarios
- 🔄 `Playtime_forever `: Transformamos los minutos a horas

#### 📦 **EXTRACT**

#### **Importamos las librerías que vamos a usar**


In [1]:
import pandas as pd  # Pandas se utiliza para el manejo y análisis de datos tabulares
import pyarrow as pa  # PyArrow se utiliza para trabajar con formatos de datos columnares y eficientes como Parquet
import pyarrow.parquet as pq  # Importamos Parquet

import ast  # AST (Abstract Syntax Trees) se utiliza para interpretar expresiones Python
import gzip
import json  # JSON se utiliza para trabajar con datos en formato JSON
import os  # OS proporciona funciones para interactuar con el sistema operativo
import time
import warnings  # Warnings se utiliza para gestionar advertencias y filtrarlas si es necesario
warnings.filterwarnings("ignore")
from data_utils import data_type_check, duplicados_columna
# Autoreload se utiliza para recargar automáticamente los módulos al realizar cambios
%load_ext autoreload
%autoreload 2

#### **Descomprimimos el archivo gz** 

In [2]:
# Obtenemos el tiempo de inicio de todo este ipynb 
start_time = time.time()

def descomprimir_archivos_gz(archivos_gz, carpeta_destino):
    for archivo_gz in archivos_gz:
        with gzip.open(archivo_gz, 'rb') as f_in:
            contenido = f_in.read()
            archivo_destino = os.path.join(carpeta_destino, os.path.splitext(os.path.basename(archivo_gz))[0])
            with open(archivo_destino, 'wb') as f_out:
                f_out.write(contenido)
        print(f'Archivo descomprimido: {archivo_destino}')

# Ejemplo de uso con una lista de archivos gz
archivo_gz_a_descomprimir = ['../0 Dataset/users_items.json.gz']
carpeta_destino = '../0 Dataset/'

descomprimir_archivos_gz(archivo_gz_a_descomprimir, carpeta_destino)


Archivo descomprimido: ../0 Dataset/users_items.json


### **📂Procesamos el 2do archivo: `user_items.json.gz`**


- Tomamos los datos del archivo JSON, transformamos en un DataFrame y realizamos una primera observación de su contenido.

In [3]:
#Creamos una lista vacía llamada "rows" donde almacenaremos los datos del archivo JSON.
rows = []
#Abrir el archivo "user_reviews.json/australian_user_reviews.json" con la codificación MacRoman.
with open("../0 Dataset/users_items.json", encoding='utf-8') as f:
    # Leer cada línea del archivo.
    for line in f.readlines():
        # Utilizar "ast.literal_eval" para convertir cada línea en un diccionario de Python
        # y agregarlo a la lista "rows".
        rows.append(ast.literal_eval(line))

#Crear un DataFrame de Pandas a partir de la lista de diccionarios "rows".
df_users_items = pd.DataFrame(rows)
#Veamos unos registros al asar
df_users_items.sample(2)

Unnamed: 0,user_id,items_count,steam_id,user_url,items
60397,76561198063871255,0,76561198063871255,http://steamcommunity.com/profiles/76561198063...,[]
18546,76561197967609413,331,76561197967609413,http://steamcommunity.com/profiles/76561197967...,"[{'item_id': '220', 'item_name': 'Half-Life 2'..."


Usando la funcion personalizada `data_type_check` invocada desde `data_utils.py` podemos observar:
- Variables categóricas
- Variables numéricas
- Dimensiones del dataframe
- Nulos
- Tipos de datos
- Informacion acerca de los datos faltantes o nulos de cada columna    


In [4]:
data_type_check(df_users_items)


 Resumen del dataframe 'df_users_items': 

Dimensiones:  (88310, 5)
       columna  %_no_nulos  %_nulos  total_nulos tipo_dato
0      user_id       100.0      0.0            0    object
1  items_count       100.0      0.0            0     int64
2     steam_id       100.0      0.0            0    object
3     user_url       100.0      0.0            0    object
4        items       100.0      0.0            0    object


Este conjunto contiene 5 columnas y 88310 filas sin nulos.

In [5]:
df_users_items.sample(1)

Unnamed: 0,user_id,items_count,steam_id,user_url,items
16246,supremosniper,65,76561198089782215,http://steamcommunity.com/id/supremosniper,"[{'item_id': '12100', 'item_name': 'Grand Thef..."


### 🔁 **TRANSFORM**

#### **Columna "user_url"**

Eliminamos estas columnas ya que son irrelevantes para el problema que queremos resolver:

In [6]:
#Eliminamos las columnas irrelevantes que no nos riven
df_users_items.drop(["user_url"], axis=1, inplace=True)

#### Columna **'items'** (es una lista de diccionarios)


Desanidado de items, que contiene:
- Item_name
- playtime_forever
- playtime_2weeks

In [7]:
#Creamos una nueva fila para cada elemento de la lista en la columna items
df_users_items = df_users_items.explode("items").reset_index()
#Eliminamos la columna index
df_users_items = df_users_items.drop(columns="index")
# Creamos una nueva columna para cada elemento de la lista en la columna items
df_users_items = pd.concat([df_users_items, pd.json_normalize(df_users_items['items'])], axis=1)

data_type_check(df_users_items)


 Resumen del dataframe 'df_users_items': 

Dimensiones:  (5170015, 8)
            columna  %_no_nulos  %_nulos  total_nulos tipo_dato
0           user_id      100.00     0.00            0    object
1       items_count      100.00     0.00            0     int64
2          steam_id      100.00     0.00            0    object
3             items       99.67     0.33        16806    object
4           item_id       99.67     0.33        16806    object
5         item_name       99.67     0.33        16806    object
6  playtime_forever       99.67     0.33        16806   float64
7   playtime_2weeks       99.67     0.33        16806   float64


#### Playtime_forever: Transformamos los minutos a horas 

In [8]:
'''
playtime_forever
'''

# mostramos un playtime_forever de ejemplo
print("Antes de limpiar")
df_users_items.head(1)

#borramos donde no haya tiempo de juego
df_users_items = df_users_items[df_users_items['playtime_forever'] != 0]
#Convertimos los minutos a horas
df_users_items['playtime_forever'] = df_users_items['playtime_forever'] / 60

# mostramos un playtime_forever de ejemplo
print("Despues de limpiar")
df_users_items.head(1)
data_type_check(df_users_items)




Antes de limpiar
Despues de limpiar

 Resumen del dataframe 'df_users_items': 

Dimensiones:  (3302052, 8)
            columna  %_no_nulos  %_nulos  total_nulos tipo_dato
0           user_id      100.00     0.00            0    object
1       items_count      100.00     0.00            0     int64
2          steam_id      100.00     0.00            0    object
3             items       99.49     0.51        16806    object
4           item_id       99.49     0.51        16806    object
5         item_name       99.49     0.51        16806    object
6  playtime_forever       99.49     0.51        16806   float64
7   playtime_2weeks       99.49     0.51        16806   float64


#### user_id

In [9]:

# Eliminar espacios en blanco al principio y al final de los valores
df_users_items['user_id'] = df_users_items['user_id'].str.strip()
# Llenar valores nulos con un valor específico (por ejemplo, cadena vacía)
df_users_items['user_id'].fillna(' ', inplace=True)
# Eliminar caracteres especiales o no imprimibles
df_users_items['user_id'] = df_users_items['user_id'].str.replace(r'\W', '')
# Convertir a tipo string
df_users_items = df_users_items.astype({'user_id': 'string'})


#### **item_id**

In [10]:
df_users_items['item_id'] = df_users_items['item_id'].fillna(-1)
# Remove empty strings (if needed)
df_users_items['item_id'] = df_users_items['item_id'].str.replace('"', '')

In [11]:
# Call your data_type_check function here
data_type_check(df_users_items)


 Resumen del dataframe 'df_users_items': 

Dimensiones:  (3302052, 8)
            columna  %_no_nulos  %_nulos  total_nulos       tipo_dato
0           user_id      100.00     0.00            0  string[python]
1       items_count      100.00     0.00            0           int64
2          steam_id      100.00     0.00            0          object
3             items       99.49     0.51        16806          object
4           item_id       99.49     0.51        16806          object
5         item_name       99.49     0.51        16806          object
6  playtime_forever       99.49     0.51        16806         float64
7   playtime_2weeks       99.49     0.51        16806         float64


### 📤 **LOAD**

In [12]:
#convertimos a csv
items= df_users_items.to_csv('./0 Dataset/user_items_LIMPIO.csv',index=False) 
# Leemos el archivo CSV en un DataFrame de pandas
items = pd.read_csv('./0 Dataset/user_items_LIMPIO.csv')

OSError: Cannot save file into a non-existent directory: '0 Dataset'

tengo esto dos veces+

In [None]:
# Convertir el DataFrame de pandas a una tabla de PyArrow
table = pa.Table.from_pandas(items)
# Escribir la tabla en un archivo Parquet
pq.write_table(table, './0 Dataset/user_items_LISTO.parquet')

In [None]:
# Convertir la tabla de PyArrow a un DataFrame de pandas
items_parquet = table.to_pandas()
#Borramos el csv limpio ya que nos sirve mas en parquet
os.remove('./0 Dataset/user_items_LIMPIO.csv')
#Dejamos informacion de nuestro dataset
data_type_check(df_users_items)


 Resumen del Dataframe 
Dimensiones:  (3285246, 7)
            columna  %_no_nulos  %_nulos  total_nulos       tipo_dato
0           user_id       100.0      0.0            0  string[python]
1       items_count       100.0      0.0            0           int64
2          steam_id       100.0      0.0            0          object
3           item_id       100.0      0.0            0           int32
4         item_name       100.0      0.0            0          object
5  playtime_forever       100.0      0.0            0         float64
6   playtime_2weeks       100.0      0.0            0         float64


### 📤 **LOAD**

Eliminamos el archivo descomprimidos que ahora tenemos limpio y liviano en formato parquet

In [None]:
# Lista de archivos descomprimidos
gz_descomprimidos = [
    './0 Dataset/users_items.json'
]

# Eliminar archivos descomprimidos
for archivo_json in gz_descomprimidos:
    try:
        os.remove(archivo_json)
        print(f'Archivo eliminado: {archivo_json}')
    except FileNotFoundError:
        print(f'Archivo no encontrado: {archivo_json}')

Archivo eliminado: ./0 Dataset/steam_games.json
Archivo eliminado: ./0 Dataset/user_reviews.json
Archivo eliminado: ./0 Dataset/users_items.json


Observamos el tiempo de ejecucion total de nuestro proceso ETL 🔥

In [None]:
# Obtener el tiempo de finalización
end_time = time.time()
# Calcular el tiempo total de ejecución
total_time = end_time - start_time
# Convertir a minutos y redondear a 2 decimales
total_time_minutes = round(total_time / 60, 2)
# Imprimir resultados
print(f"Tiempo total de ejecución de este ipynb: {total_time_minutes} minutos")

Tiempo total de ejecución de este ipynb: 3.79 minutos
