In [1]:
import warnings
warnings.filterwarnings("ignore")

# Inicialización

Importamos las librerías que nos servirán para poder procesar, visualizar y explorar nuestros datos de manera efectiva, la librería `pandas`, `numpy`, `json`, `gzip` y `ast`.

In [2]:
import pandas as pd
import numpy as np
import json
import gzip
import ast

%load_ext autoreload
%autoreload 2

# Extracción de los datos Users items

Extraer datos del archivo JSON "users_items.json.gz", convertirlos en un DataFrame utilizando Pandas y explorar su contenido inicial.

In [12]:
# Ruta al archivo comprimido
file_path = 'users_items.json.gz'

# Lista para almacenar los datos
data_list = []

# Descomprime el archivo y lee línea por línea
with gzip.open(file_path, 'rt', encoding='utf-8') as file:
    for line in file.readlines():
        data = ast.literal_eval(line)
        data_list.append(data)

# Crea un DataFrame a partir de la lista de datos
data_items = pd.DataFrame(data_list)

In [13]:
data_items

Unnamed: 0,user_id,items_count,steam_id,user_url,items
0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
1,js41637,888,76561198035864385,http://steamcommunity.com/id/js41637,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
2,evcentric,137,76561198007712555,http://steamcommunity.com/id/evcentric,"[{'item_id': '1200', 'item_name': 'Red Orchest..."
3,Riot-Punch,328,76561197963445855,http://steamcommunity.com/id/Riot-Punch,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
4,doctr,541,76561198002099482,http://steamcommunity.com/id/doctr,"[{'item_id': '300', 'item_name': 'Day of Defea..."
...,...,...,...,...,...
88305,76561198323066619,22,76561198323066619,http://steamcommunity.com/profiles/76561198323...,"[{'item_id': '413850', 'item_name': 'CS:GO Pla..."
88306,76561198326700687,177,76561198326700687,http://steamcommunity.com/profiles/76561198326...,"[{'item_id': '11020', 'item_name': 'TrackMania..."
88307,XxLaughingJackClown77xX,0,76561198328759259,http://steamcommunity.com/id/XxLaughingJackClo...,[]
88308,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...,"[{'item_id': '304930', 'item_name': 'Unturned'..."


# Dataset

Para explorar nuestra base de datos vamos a llamar al atributo shape para saber el número total de filas y columnas, posteriormente utilizaremos los métodos head() y tail() para realizar un primer análisis de datos y familiarizarnos con nuestro dataframe. El dataset contiene los siguientes campos:

- **user_id:** Identificador único del usuario.
- **items_count:** Indica la cantidad de juegos que ha consumido el usuario.
- **steam_id:** Identificador único del usuario para la plataforma.
- **user_url:** URL del perfil del usuario
- **items:** Esta variable es una lista de diccionarios. Cada diccionario corresponde a los items que consume cada usuario y contiene los siguientes subcampos:
    - **item_id:** Identificador del juego.
    - **item_name:** Nombre del juego.
    - **playtime_forever:** Tiempo acumulado de un usuario en determinado juego.
    - **playtime_2weeks:** Tiempo acumulado de un usuario en determinado juego en las últimas dos semanas.


In [14]:
data_items.shape

(88310, 5)

In [15]:
data_items.head()

Unnamed: 0,user_id,items_count,steam_id,user_url,items
0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
1,js41637,888,76561198035864385,http://steamcommunity.com/id/js41637,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
2,evcentric,137,76561198007712555,http://steamcommunity.com/id/evcentric,"[{'item_id': '1200', 'item_name': 'Red Orchest..."
3,Riot-Punch,328,76561197963445855,http://steamcommunity.com/id/Riot-Punch,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
4,doctr,541,76561198002099482,http://steamcommunity.com/id/doctr,"[{'item_id': '300', 'item_name': 'Day of Defea..."


In [16]:
data_items.tail()

Unnamed: 0,user_id,items_count,steam_id,user_url,items
88305,76561198323066619,22,76561198323066619,http://steamcommunity.com/profiles/76561198323...,"[{'item_id': '413850', 'item_name': 'CS:GO Pla..."
88306,76561198326700687,177,76561198326700687,http://steamcommunity.com/profiles/76561198326...,"[{'item_id': '11020', 'item_name': 'TrackMania..."
88307,XxLaughingJackClown77xX,0,76561198328759259,http://steamcommunity.com/id/XxLaughingJackClo...,[]
88308,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...,"[{'item_id': '304930', 'item_name': 'Unturned'..."
88309,edward_tremethick,0,76561198331598578,http://steamcommunity.com/id/edward_tremethick,[]


En nuestro DataFrame, inicialmente registramos un total de 88,309 filas y 5 columnas. A primera vista, no se observan valores ausentes en nuestro dataframe. Sin embargo, es necesario realizar un análisis más detallado para identificar posibles problemas en los datos y corregirlos de ser necesario.

Lo que sí podemos observar es que tenemos un diccionario en la columna "items". Este diccionario contiene información adicional sobre el consumo del usuario.

# Preparación y Limpieza de los Datos

Antes de analizar y modelar los datos, es esencial asegurarnos de que estén limpios y bien preparados. Esto implica tratar valores faltantes, eliminar duplicados, corregir errores y convertir datos en formatos adecuados. Además, es fundamental revisar cada variable de manera inicial para detectar problemas y realizar las correcciones necesarias. Este proceso garantiza que los datos sean confiables y coherentes para análisis posteriores.

In [18]:
data_items.isnull().sum()

user_id        0
items_count    0
steam_id       0
user_url       0
items          0
dtype: int64

El conjunto de datos no presenta valores faltantes en ninguna de sus columnas.

# Conocer estructura de algunas de nuestras variables

In [19]:
data_items['user_id']

0              76561197970982479
1                        js41637
2                      evcentric
3                     Riot-Punch
4                          doctr
                  ...           
88305          76561198323066619
88306          76561198326700687
88307    XxLaughingJackClown77xX
88308          76561198329548331
88309          edward_tremethick
Name: user_id, Length: 88310, dtype: object

In [20]:
data_items['items_count']

0        277
1        888
2        137
3        328
4        541
        ... 
88305     22
88306    177
88307      0
88308      7
88309      0
Name: items_count, Length: 88310, dtype: int64

In [21]:
data_items['steam_id']

0        76561197970982479
1        76561198035864385
2        76561198007712555
3        76561197963445855
4        76561198002099482
               ...        
88305    76561198323066619
88306    76561198326700687
88307    76561198328759259
88308    76561198329548331
88309    76561198331598578
Name: steam_id, Length: 88310, dtype: object

In [22]:
data_items['user_url']

0        http://steamcommunity.com/profiles/76561197970...
1                     http://steamcommunity.com/id/js41637
2                   http://steamcommunity.com/id/evcentric
3                  http://steamcommunity.com/id/Riot-Punch
4                       http://steamcommunity.com/id/doctr
                               ...                        
88305    http://steamcommunity.com/profiles/76561198323...
88306    http://steamcommunity.com/profiles/76561198326...
88307    http://steamcommunity.com/id/XxLaughingJackClo...
88308    http://steamcommunity.com/profiles/76561198329...
88309       http://steamcommunity.com/id/edward_tremethick
Name: user_url, Length: 88310, dtype: object

In [23]:
data_items['items'][1]

[{'item_id': '10',
  'item_name': 'Counter-Strike',
  'playtime_forever': 0,
  'playtime_2weeks': 0},
 {'item_id': '80',
  'item_name': 'Counter-Strike: Condition Zero',
  'playtime_forever': 0,
  'playtime_2weeks': 0},
 {'item_id': '100',
  'item_name': 'Counter-Strike: Condition Zero Deleted Scenes',
  'playtime_forever': 0,
  'playtime_2weeks': 0},
 {'item_id': '300',
  'item_name': 'Day of Defeat: Source',
  'playtime_forever': 220,
  'playtime_2weeks': 0},
 {'item_id': '30',
  'item_name': 'Day of Defeat',
  'playtime_forever': 0,
  'playtime_2weeks': 0},
 {'item_id': '40',
  'item_name': 'Deathmatch Classic',
  'playtime_forever': 0,
  'playtime_2weeks': 0},
 {'item_id': '60',
  'item_name': 'Ricochet',
  'playtime_forever': 0,
  'playtime_2weeks': 0},
 {'item_id': '240',
  'item_name': 'Counter-Strike: Source',
  'playtime_forever': 62,
  'playtime_2weeks': 0},
 {'item_id': '280',
  'item_name': 'Half-Life: Source',
  'playtime_forever': 0,
  'playtime_2weeks': 0},
 {'item_id': 

# Verificación de Datos Duplicados

Llevaremos a cabo una verificación de datos duplicados en nuestra columna 'user_id' del DataFrame. El objetivo es determinar si existen registros duplicados en base a este identificador único. 

In [24]:
# Encuentra y agrupa los registros duplicados por 'user_id'
duplicated_items = data_items[data_items.duplicated(subset='user_id', keep=False)]

if not duplicated_items.empty:
    # Ordena el DataFrame por 'user_id' para que los duplicados estén juntos
    duplicated_items = duplicated_items.sort_values(by='user_id')
    print("Registros duplicados:")
else:
    print("No se encontraron registros duplicados en id. Total: 0")
duplicated_items

Registros duplicados:


Unnamed: 0,user_id,items_count,steam_id,user_url,items
11000,05041129,35,76561198167088451,http://steamcommunity.com/id/05041129,"[{'item_id': '4000', 'item_name': 'Garry's Mod..."
29193,05041129,35,76561198167088451,http://steamcommunity.com/id/05041129,"[{'item_id': '4000', 'item_name': 'Garry's Mod..."
37062,10outof10matee,56,76561198050688208,http://steamcommunity.com/id/10outof10matee,"[{'item_id': '220', 'item_name': 'Half-Life 2'..."
37061,10outof10matee,56,76561198050688208,http://steamcommunity.com/id/10outof10matee,"[{'item_id': '220', 'item_name': 'Half-Life 2'..."
6167,111222333444555666888,52,76561198082607692,http://steamcommunity.com/id/11122233344455566...,"[{'item_id': '240', 'item_name': 'Counter-Stri..."
...,...,...,...,...,...
4625,youseeitnowgetout,5,76561198087136132,http://steamcommunity.com/id/youseeitnowgetout,"[{'item_id': '230410', 'item_name': 'Warframe'..."
3473,zandado,107,76561198057890701,http://steamcommunity.com/id/zandado,"[{'item_id': '20', 'item_name': 'Team Fortress..."
34176,zandado,107,76561198057890701,http://steamcommunity.com/id/zandado,"[{'item_id': '20', 'item_name': 'Team Fortress..."
12417,zeroblade,306,76561197970272666,http://steamcommunity.com/id/zeroblade,"[{'item_id': '18110', 'item_name': 'Shattered ..."


In [25]:
user_id = 'zeroblade'  # El 'user_id' del usuario a revisar
user_items = data_items[data_items['user_id'] == user_id]['items']

for items_list in user_items:
    for item in items_list:
        item_id = item['item_id']
        item_name = item['item_name']
        playtime_forever = item['playtime_forever']
        playtime_2weeks = item.get('playtime_2weeks', 'N/A')  

        print("Item ID:", item_id)
        print("Item Name:", item_name)
        print("Playtime Forever:", playtime_forever)
        print("Playtime in the Last 2 Weeks:", playtime_2weeks)
        print('-----------------------')
    print('************************************************************************')



Item ID: 18110
Item Name: Shattered Horizon
Playtime Forever: 149
Playtime in the Last 2 Weeks: 0
-----------------------
Item ID: 2820
Item Name: X3: Terran Conflict
Playtime Forever: 0
Playtime in the Last 2 Weeks: 0
-----------------------
Item ID: 13200
Item Name: Unreal II: The Awakening
Playtime Forever: 0
Playtime in the Last 2 Weeks: 0
-----------------------
Item ID: 13210
Item Name: Unreal Tournament 3: Black Edition
Playtime Forever: 8
Playtime in the Last 2 Weeks: 0
-----------------------
Item ID: 13230
Item Name: Unreal Tournament 2004
Playtime Forever: 1414
Playtime in the Last 2 Weeks: 0
-----------------------
Item ID: 13240
Item Name: Unreal Tournament: Game of the Year Edition
Playtime Forever: 9
Playtime in the Last 2 Weeks: 0
-----------------------
Item ID: 13250
Item Name: Unreal Gold
Playtime Forever: 35
Playtime in the Last 2 Weeks: 0
-----------------------
Item ID: 21300
Item Name: Gravitron 2
Playtime Forever: 0
Playtime in the Last 2 Weeks: 0
--------------

Durante nuestro análisis, hemos observado la presencia de datos faltantes en el conjunto de datos. Sin embargo, debido a la estructura compleja de los diccionarios en la variable 'items', la identificación y gestión de estos datos faltantes se ha vuelto un desafío. Por lo tanto, hemos decidido abordar este problema en primera instancia llevando a cabo un proceso de normalización en la columna 'items'. La normalización implica descomponer el diccionario en columnas separadas, donde cada columna representa una clave en el diccionario. Esto nos permitirá obtener una visión más clara y estructurada de los datos, al tiempo que preservamos las columnas 'steam_id', 'items_count', 'user_id' y 'user_url' para mantener información relevante."

# Transformación de la Columna 'items' y Verificación de Datos Duplicados

In [26]:
# Define las columnas que deseas mantener
columns = ['user_id', 'items_count', 'steam_id', 'user_url']

# Se normaliza la columna 'items'
data_items2 = pd.json_normalize(data_list, record_path=['items'], meta=columns)

# Define el nuevo orden de las columnas
data_items = data_items2[['user_id', 'items_count', 'steam_id', 'user_url', 'item_id', 'item_name', 'playtime_forever', 'playtime_2weeks']]



In [27]:
data_items

Unnamed: 0,user_id,items_count,steam_id,user_url,item_id,item_name,playtime_forever,playtime_2weeks
0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...,10,Counter-Strike,6,0
1,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...,20,Team Fortress Classic,0,0
2,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...,30,Day of Defeat,7,0
3,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...,40,Deathmatch Classic,0,0
4,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...,50,Half-Life: Opposing Force,0,0
...,...,...,...,...,...,...,...,...
5153204,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...,346330,BrainBread 2,0,0
5153205,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...,373330,All Is Dust,0,0
5153206,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...,388490,One Way To Die: Steam Edition,3,3
5153207,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...,521570,You Have 10 Seconds 2,4,4


In [28]:
# Encuentra y agrupa los registros duplicados por 'user_id'
duplicated = data_items.loc[data_items.duplicated()]

if not duplicated.empty:
    # Ordena el DataFrame por 'user_id' para que los duplicados estén juntos
    duplicated = duplicated.sort_values(by='user_id')
    print("Registros duplicados:")
else:
    print("No se encontraron registros duplicados en id. Total: 0")
    
duplicated

Registros duplicados:


Unnamed: 0,user_id,items_count,steam_id,user_url,item_id,item_name,playtime_forever,playtime_2weeks
2712175,05041129,35,76561198167088451,http://steamcommunity.com/id/05041129,339280,Strife,93,0
2712165,05041129,35,76561198167088451,http://steamcommunity.com/id/05041129,294160,Galcon 2,0,0
2712166,05041129,35,76561198167088451,http://steamcommunity.com/id/05041129,298240,Red Crucible: Firestorm,7,0
2712167,05041129,35,76561198167088451,http://steamcommunity.com/id/05041129,301520,Robocraft,16,0
2712168,05041129,35,76561198167088451,http://steamcommunity.com/id/05041129,304930,Unturned,53,0
...,...,...,...,...,...,...,...,...
2928630,zeroblade,306,76561197970272666,http://steamcommunity.com/id/zeroblade,80,Counter-Strike: Condition Zero,0,0
2928631,zeroblade,306,76561197970272666,http://steamcommunity.com/id/zeroblade,100,Counter-Strike: Condition Zero Deleted Scenes,0,0
2928632,zeroblade,306,76561197970272666,http://steamcommunity.com/id/zeroblade,130,Half-Life: Blue Shift,0,0
2928658,zeroblade,306,76561197970272666,http://steamcommunity.com/id/zeroblade,2310,Quake,1,0


Se identificaron un total de 59,104 registros duplicados en el conjunto de datos. Con el objetivo de mantener la integridad y consistencia de la información, se ha tomado la decisión de eliminar estos duplicados

In [29]:
data_items = data_items.drop_duplicates(keep='first')

In [30]:
data_items

Unnamed: 0,user_id,items_count,steam_id,user_url,item_id,item_name,playtime_forever,playtime_2weeks
0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...,10,Counter-Strike,6,0
1,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...,20,Team Fortress Classic,0,0
2,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...,30,Day of Defeat,7,0
3,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...,40,Deathmatch Classic,0,0
4,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...,50,Half-Life: Opposing Force,0,0
...,...,...,...,...,...,...,...,...
5153204,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...,346330,BrainBread 2,0,0
5153205,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...,373330,All Is Dust,0,0
5153206,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...,388490,One Way To Die: Steam Edition,3,3
5153207,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...,521570,You Have 10 Seconds 2,4,4


Después de la depuración y optimización mediante la eliminación de registros duplicados, nuestro conjunto de datos 'data_items' consta de un total de 5,094,105 filas y 8 columnas.

# Carga del Conjunto de Datos Transformado

En esta etapa, cargaremos el conjunto de datos transformado y depurado, el cual hemos nombrado `"data_items_cleaned.csv"`. Este archivo refleja nuestro conjunto de datos preparado y optimizado para análisis y modelado de datos

In [31]:
# Especifica el nombre del archivo
nombre_del_archivo = 'data_items_cleaned.csv'

# Guarda el DataFrame en el archivo CSV
data_items.to_csv(nombre_del_archivo, index=False, encoding='utf-8')
print(f'Se ha guardado el archivo {nombre_del_archivo} en la misma carpeta.')


Se ha guardado el archivo data_items_cleaned.csv en la misma carpeta.
