# Notebook ETL_user_items

Este notebook tiene como objetivo realizar las tareas de Extracción, Transformación y Carga (ETL) de los datos del archivo user_items.json.gz.

## 1. Importamos librerías

In [1]:
# Importamos pandas para la manipulación y análisis de datos tabulares
import pandas as pd
from pandas import json_normalize

# Importamos numpy para operaciones numéricas eficientes y manipulación de matrices
import numpy as np

# Importamos gzip para trabajar con archivos comprimidos en formato gzip
import gzip

# Importamos json para trabajar con datos en formato JSON
import json

# Importamos ast (Abstract Syntax Trees) para análisis sintáctico y evaluación de expresiones Python
import ast

# Importamos os para interactuar con el sistema operativo y manipular archivos y directorios
import os

# %load_ext autoreload y %autoreload 2 se utilizan para recargar automáticamente los módulos importados
# Esto es útil cuando estamos desarrollando y queremos que los cambios realizados en un módulo se reflejen automáticamente
%load_ext autoreload
%autoreload 2

# Importamos warnings para controlar las advertencias que pueden surgir durante la ejecución del código
import warnings
warnings.filterwarnings("ignore")  # Ignoramos las advertencias para mantener el flujo de trabajo limpio


Ahora continuamos con los pasos del proceso ETL.

## 2. Extracción (carga) de los conjuntos de datos

En esta fase del proceso ETL, se lleva a cabo la extracción de datos desde el archivo comprimido en formato *gzip* llamado **users_items.json.gz**. Este archivo contiene información sobre los items de usuario en la plataforma Steam.

Archivo origen: **users_items.json.gz** (Ubicado en *Data\Raw\users_items.json.gz*)

In [2]:
# Ruta al archivo gzip comprimido
ruta_item = '../Data/Raw/users_items.json.gz'

# Lista para almacenar las filas de datos descomprimidos
filas_item = []

# Se lee cada línea del archivo gzip y se descomprime
with gzip.open(ruta_item, 'rt', encoding='utf-8') as f:
    for line in f.readlines():
        # Se utiliza ast.literal_eval para evaluar la cadena como una expresión Python segura
        # Esto convierte la cadena JSON en un diccionario Python
        filas_item.append(ast.literal_eval(line))

# Se convierte la lista de diccionarios en un DataFrame de pandas
df_items = pd.DataFrame(filas_item)

# Se muestra el DataFrame resultante
df_items


Unnamed: 0,user_id,items_count,steam_id,user_url,items
0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
1,js41637,888,76561198035864385,http://steamcommunity.com/id/js41637,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
2,evcentric,137,76561198007712555,http://steamcommunity.com/id/evcentric,"[{'item_id': '1200', 'item_name': 'Red Orchest..."
3,Riot-Punch,328,76561197963445855,http://steamcommunity.com/id/Riot-Punch,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
4,doctr,541,76561198002099482,http://steamcommunity.com/id/doctr,"[{'item_id': '300', 'item_name': 'Day of Defea..."
...,...,...,...,...,...
88305,76561198323066619,22,76561198323066619,http://steamcommunity.com/profiles/76561198323...,"[{'item_id': '413850', 'item_name': 'CS:GO Pla..."
88306,76561198326700687,177,76561198326700687,http://steamcommunity.com/profiles/76561198326...,"[{'item_id': '11020', 'item_name': 'TrackMania..."
88307,XxLaughingJackClown77xX,0,76561198328759259,http://steamcommunity.com/id/XxLaughingJackClo...,[]
88308,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...,"[{'item_id': '304930', 'item_name': 'Unturned'..."


## 3. Exploración del conjunto de datos

La sección "Exploración del conjunto de datos" ofrece un vistazo inicial al DataFrame `df_UserItems`. Se muestran las primeras filas del DataFrame seguidas de información general, como el tipo de datos de cada columna y el recuento de valores no nulos. Este análisis preliminar sienta las bases para comprender la estructura y calidad de los datos.

In [3]:
df_items.head()

Unnamed: 0,user_id,items_count,steam_id,user_url,items
0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
1,js41637,888,76561198035864385,http://steamcommunity.com/id/js41637,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
2,evcentric,137,76561198007712555,http://steamcommunity.com/id/evcentric,"[{'item_id': '1200', 'item_name': 'Red Orchest..."
3,Riot-Punch,328,76561197963445855,http://steamcommunity.com/id/Riot-Punch,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
4,doctr,541,76561198002099482,http://steamcommunity.com/id/doctr,"[{'item_id': '300', 'item_name': 'Day of Defea..."


In [4]:
# Obtener información general del DataFrame
print("\nInformación general del DataFrame:")
df_items.info()


Información general del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 88310 entries, 0 to 88309
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   user_id      88310 non-null  object
 1   items_count  88310 non-null  int64 
 2   steam_id     88310 non-null  object
 3   user_url     88310 non-null  object
 4   items        88310 non-null  object
dtypes: int64(1), object(4)
memory usage: 3.4+ MB


La exploración inicial del DataFrame revela que consta de 88,310 filas y 5 columnas. No se identificaron valores nulos en ninguna de las columnas, lo que indica que el conjunto de datos está completo en términos de información esencial. Las columnas incluyen 'user_id', 'items_count', 'steam_id', 'user_url' y 'items', todas ellas representadas como objetos, excepto 'items_count', que se interpreta como un entero. Este análisis proporciona una comprensión fundamental de la estructura y la integridad del DataFrame, lo que es crucial para la subsiguiente exploración y análisis de los datos.

## 4. Limpiar y preprocesar el conjunto de datos

Primero verificaremos los 15 primeros elementos de la columna items

In [5]:
df_items['items'].head(15)


0     [{'item_id': '10', 'item_name': 'Counter-Strik...
1     [{'item_id': '10', 'item_name': 'Counter-Strik...
2     [{'item_id': '1200', 'item_name': 'Red Orchest...
3     [{'item_id': '10', 'item_name': 'Counter-Strik...
4     [{'item_id': '300', 'item_name': 'Day of Defea...
5     [{'item_id': '50', 'item_name': 'Half-Life: Op...
6     [{'item_id': '240', 'item_name': 'Counter-Stri...
7     [{'item_id': '220', 'item_name': 'Half-Life 2'...
8     [{'item_id': '240', 'item_name': 'Counter-Stri...
9                                                    []
10    [{'item_id': '4000', 'item_name': 'Garry's Mod...
11                                                   []
12    [{'item_id': '240', 'item_name': 'Counter-Stri...
13    [{'item_id': '3920', 'item_name': 'Sid Meier's...
14    [{'item_id': '220', 'item_name': 'Half-Life 2'...
Name: items, dtype: object

La columna 'items' del DataFrame presenta una estructura anidada, donde cada elemento es una lista de diccionarios que contiene información detallada sobre los ítems de los usuarios. Para normalizar esta columna y obtener una columna por cada clave del diccionario, manteniendo la trazabilidad de las columnas 'steam_id', 'items_count', 'user_id' y 'user_url', se utilizará el método json_normalize() de pandas. Este método permitirá desglosar la estructura anidada y expandir los datos en nuevas columnas.

In [6]:
# Normalizar la columna 'items' y expandirla en nuevas columnas
df_items = pd.json_normalize(df_items.to_dict('records'), record_path='items', meta=['steam_id', 'items_count', 'user_id', 'user_url'])

In [7]:
df_items

Unnamed: 0,item_id,item_name,playtime_forever,playtime_2weeks,steam_id,items_count,user_id,user_url
0,10,Counter-Strike,6,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
1,20,Team Fortress Classic,0,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
2,30,Day of Defeat,7,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
3,40,Deathmatch Classic,0,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
4,50,Half-Life: Opposing Force,0,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
...,...,...,...,...,...,...,...,...
5153204,346330,BrainBread 2,0,0,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...
5153205,373330,All Is Dust,0,0,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...
5153206,388490,One Way To Die: Steam Edition,3,3,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...
5153207,521570,You Have 10 Seconds 2,4,4,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...


Ahora trataremos los duplicados, primero debemos contabilizarlos

In [8]:
# Encuentra los registros duplicados basados en las columnas especificadas
duplicados_count = df_items.duplicated(subset=['steam_id','item_id','playtime_forever']).sum()

print("Cantidad de registros duplicados encontrados:", duplicados_count)


Cantidad de registros duplicados encontrados: 59117


Dada su cantidad procedemos a elminar los duplicados

In [9]:
# Elimina los registros duplicados y conserva solo el primer registro
df_items = df_items.drop_duplicates(subset=['steam_id', 'item_id', 'playtime_forever'], keep='first')

# Verifica la forma del DataFrame después de eliminar los duplicados
print("Forma del DataFrame después de eliminar los duplicados:", df_items.shape)


Forma del DataFrame después de eliminar los duplicados: (5094092, 8)


Ahora convertimos el valor de playtime_forever de minutos a horas (redondeando a dos dígitos)

In [10]:
# Convertir los valores de la columna 'playtime_forever' de minutos a horas y redondear a 2 dígitos
df_items['playtime_forever'] = (df_items['playtime_forever'] / 60).round(2)


Verificamos el último cambio imprimiendo los valores únicos de playtime_forever de forma decreciente

In [11]:
# Obtener los valores únicos de playtime_forever y ordenar de forma descendente
valores_unicos = sorted(df_items['playtime_forever'].unique(), reverse=True)

# Imprimir los valores únicos ordenados de forma descendente
print("Valores únicos de playtime_forever (orden descendente):")
print(valores_unicos)


Valores únicos de playtime_forever (orden descendente):
[10712.88, 10588.25, 10540.87, 10223.52, 10001.13, 9195.32, 8848.03, 8358.3, 8250.97, 8229.85, 8213.5, 7985.28, 7331.87, 7133.53, 7090.62, 7027.53, 6941.18, 6850.32, 6808.2, 6778.62, 6765.1, 6680.45, 6499.23, 6477.02, 6280.98, 6271.12, 6159.95, 6114.87, 6052.45, 6024.93, 5999.57, 5936.95, 5907.42, 5812.85, 5748.85, 5737.77, 5714.75, 5713.42, 5695.38, 5685.68, 5642.87, 5624.22, 5612.72, 5583.82, 5558.03, 5541.55, 5523.95, 5493.98, 5483.07, 5464.1, 5408.02, 5407.48, 5394.25, 5260.25, 5209.12, 5190.12, 5143.53, 5103.45, 5070.48, 5057.77, 5051.77, 5023.05, 4986.52, 4981.07, 4967.88, 4953.18, 4952.88, 4941.17, 4928.35, 4903.07, 4891.13, 4881.37, 4835.88, 4818.37, 4783.37, 4764.38, 4763.3, 4751.67, 4740.2, 4727.77, 4670.08, 4663.35, 4656.33, 4636.48, 4634.33, 4633.52, 4620.23, 4611.83, 4606.92, 4604.38, 4590.92, 4584.78, 4580.28, 4548.43, 4545.37, 4543.02, 4530.95, 4518.48, 4470.8, 4461.53, 4459.53, 4446.07, 4444.72, 4438.45, 4424.82, 4

Renombramos la columna "playtime_forever" por "hours_played"

In [12]:
# Renombrar la columna 'playtime_forever' a 'hours_played'
df_items = df_items.rename(columns={'playtime_forever': 'hours_played'})

Después eliminamos columnas irrelevantes

In [13]:
# Eliminar columnas irrelevantes
columnas_irrelevantes = ['playtime_2weeks', 'user_url', 'items_count', 'item_name', 'steam_id']
df_items = df_items.drop(columns=columnas_irrelevantes)

## 5. Guardar el conjunto de datos limpio

In [14]:
# Ruta de exportación del archivo CSV
ruta_exportacion = '../Data/Processed/Clean_data/user_items_cleaned.csv'

# Exportar el DataFrame a un archivo CSV
df_items.to_csv(ruta_exportacion, index=False)

print("El DataFrame ha sido exportado exitosamente a:", ruta_exportacion)


El DataFrame ha sido exportado exitosamente a: ../Data/Processed/Clean_data/user_items_cleaned.csv
