In [1]:
# Importamos los módulos necesarios
import ast  
import pandas as pd 

rows = []  # Inicializa una lista vacía para almacenar cada fila de datos
with open('DataSet/australian_users_items.json', 'r', encoding='utf-8') as f:  # Abre el archivo JSON en modo de lectura
    for line in f.readlines():  # Itera sobre cada línea del archivo
        rows.append(ast.literal_eval(line))  # Convierte la cadena de texto de cada línea a una estructura de datos Python y la agrega a la lista

df_ui = pd.DataFrame(rows)  # Crea un DataFrame de pandas a partir de la lista de filas


In [2]:
df_ui 

Unnamed: 0,user_id,items_count,steam_id,user_url,items
0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
1,js41637,888,76561198035864385,http://steamcommunity.com/id/js41637,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
2,evcentric,137,76561198007712555,http://steamcommunity.com/id/evcentric,"[{'item_id': '1200', 'item_name': 'Red Orchest..."
3,Riot-Punch,328,76561197963445855,http://steamcommunity.com/id/Riot-Punch,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
4,doctr,541,76561198002099482,http://steamcommunity.com/id/doctr,"[{'item_id': '300', 'item_name': 'Day of Defea..."
...,...,...,...,...,...
88305,76561198323066619,22,76561198323066619,http://steamcommunity.com/profiles/76561198323...,"[{'item_id': '413850', 'item_name': 'CS:GO Pla..."
88306,76561198326700687,177,76561198326700687,http://steamcommunity.com/profiles/76561198326...,"[{'item_id': '11020', 'item_name': 'TrackMania..."
88307,XxLaughingJackClown77xX,0,76561198328759259,http://steamcommunity.com/id/XxLaughingJackClo...,[]
88308,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...,"[{'item_id': '304930', 'item_name': 'Unturned'..."


In [3]:
df_ui.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 88310 entries, 0 to 88309
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   user_id      88310 non-null  object
 1   items_count  88310 non-null  int64 
 2   steam_id     88310 non-null  object
 3   user_url     88310 non-null  object
 4   items        88310 non-null  object
dtypes: int64(1), object(4)
memory usage: 3.4+ MB


In [4]:
# Expande la columna 'items', tratando cada elemento de las listas como una fila separada. Se reinicia el índice
df_ui = df_ui.explode('items').reset_index()  
# Elimina la columna 'index' 
df_ui = df_ui.drop(columns='index')  
# Concatena el DataFrame df_ui con una versión normalizada de la columna 'items'
df_ui = pd.concat([df_ui, pd.json_normalize(df_ui['items'])], axis=1)  



In [5]:
# Elimina la columna 'items' del DataFrame df_ui, modificando el DataFrame original (inplace=True)
df_ui.drop('items', axis=1, inplace=True) 

In [6]:
# Sumar nulos del DataFrame df_ui
suma_nulos = df_ui.isna().sum()
suma_nulos

user_id                 0
items_count             0
steam_id                0
user_url                0
item_id             16806
item_name           16806
playtime_forever    16806
playtime_2weeks     16806
dtype: int64

In [7]:
# Eliminar filas que tienen nulos simultaneamente en las columnas específicadas
df_ui = df_ui.dropna(subset=['item_id', 'item_name', 'playtime_forever', 'playtime_2weeks'], how='all')



In [8]:
# Reiniciar el índide
df_ui = df_ui.reset_index(drop=True)

## Columna user_id

In [9]:
# Imprimir la columna 'user_id'
print(df_ui['user_id'])

0          76561197970982479
1          76561197970982479
2          76561197970982479
3          76561197970982479
4          76561197970982479
                 ...        
5153204    76561198329548331
5153205    76561198329548331
5153206    76561198329548331
5153207    76561198329548331
5153208    76561198329548331
Name: user_id, Length: 5153209, dtype: object


In [10]:
# Valores únicos de la columna "user_id"
unique_user_count = df_ui['user_id'].nunique()
print("Cantidad de usuarios únicos:", unique_user_count)

Cantidad de usuarios únicos: 70912


## Columna items_count

In [11]:
# Imprimir la columna 'items_count'
print(df_ui['items_count'])

0          277
1          277
2          277
3          277
4          277
          ... 
5153204      7
5153205      7
5153206      7
5153207      7
5153208      7
Name: items_count, Length: 5153209, dtype: int64


In [12]:
# Convertir la columna a tipo int
df_ui['items_count'] = df_ui['items_count'].astype(int)

## Columna steam_id

In [13]:
# Imprimir la columna 'steam_id'
print(df_ui['steam_id'])

0          76561197970982479
1          76561197970982479
2          76561197970982479
3          76561197970982479
4          76561197970982479
                 ...        
5153204    76561198329548331
5153205    76561198329548331
5153206    76561198329548331
5153207    76561198329548331
5153208    76561198329548331
Name: steam_id, Length: 5153209, dtype: object


In [14]:
# Calcula el número de valores únicos en la columna 'steam_id'
unique_steam_count = df_ui['steam_id'].nunique()  
print("Cantidad de usuarios únicos:", unique_steam_count)  


Cantidad de usuarios únicos: 70912


In [15]:
# Convertir la columna "steam_id" a tipo numerico
df_ui['steam_id'] = pd.to_numeric(df_ui['steam_id'], errors='coerce', downcast='integer')

## Columna user_url

In [16]:
# Imprimir la columna 'user_url'
print(df_ui['user_url'])

0          http://steamcommunity.com/profiles/76561197970...
1          http://steamcommunity.com/profiles/76561197970...
2          http://steamcommunity.com/profiles/76561197970...
3          http://steamcommunity.com/profiles/76561197970...
4          http://steamcommunity.com/profiles/76561197970...
                                 ...                        
5153204    http://steamcommunity.com/profiles/76561198329...
5153205    http://steamcommunity.com/profiles/76561198329...
5153206    http://steamcommunity.com/profiles/76561198329...
5153207    http://steamcommunity.com/profiles/76561198329...
5153208    http://steamcommunity.com/profiles/76561198329...
Name: user_url, Length: 5153209, dtype: object


Esta información no es relevante para el proyecto, por lo que decidimos eliminar esta columna.

In [17]:
# Eliminar columna "user_url"
df_ui = df_ui.drop('user_url', axis=1)

## Columna item_id

In [18]:
# Imprimir la columna 'item_id'
print(df_ui['item_id'])

0              10
1              20
2              30
3              40
4              50
            ...  
5153204    346330
5153205    373330
5153206    388490
5153207    521570
5153208    519140
Name: item_id, Length: 5153209, dtype: object


In [19]:
# Valores únicos en la columna 'item_id'
unique_item_count = df_ui['item_id'].nunique()
print("Cantidad de item_id únicos:", unique_item_count)

Cantidad de item_id únicos: 10978


In [20]:
# Convertir la columna 'item_id' en tipo numerico
df_ui['item_id'] = pd.to_numeric(df_ui['item_id'], errors='coerce').astype('Int64')

## Columna item_name

In [21]:
# Imprimir la columna 'item_name'
print(df_ui['item_name'])

0                         Counter-Strike
1                  Team Fortress Classic
2                          Day of Defeat
3                     Deathmatch Classic
4              Half-Life: Opposing Force
                       ...              
5153204                     BrainBread 2
5153205                      All Is Dust
5153206    One Way To Die: Steam Edition
5153207            You Have 10 Seconds 2
5153208                       Minds Eyes
Name: item_name, Length: 5153209, dtype: object


In [22]:
# Valores únicos en la columna 'item_name'
unique_itemn_count = df_ui['item_name'].nunique()
print("Cantidad de item_name únicos:", unique_itemn_count)

Cantidad de item_name únicos: 10947


## Columna playtime_forever

In [23]:
# Imprimir la columna 'playtime_forever'
print(df_ui['playtime_forever'])

0          6.0
1          0.0
2          7.0
3          0.0
4          0.0
          ... 
5153204    0.0
5153205    0.0
5153206    3.0
5153207    4.0
5153208    3.0
Name: playtime_forever, Length: 5153209, dtype: float64


Con el siguiente código queremos ver la naturaleza de los datos de la columna y comprender si hablamos de minutos u horas.

In [24]:
# Valor más alto
max_playtime = df_ui['playtime_forever'].max()
print("Valor más alto en playtime_forever:", max_playtime)

# Valor más bajo
min_playtime = df_ui['playtime_forever'].min()
print("Valor más bajo en playtime_forever:", min_playtime)

Valor más alto en playtime_forever: 642773.0
Valor más bajo en playtime_forever: 0.0


Claramente, al revisar los resultados, podemos advertir que la columna presenta la información en forma de minutos; de lo contrario, si fueran horas, no tendría sentido.

In [25]:
# Eliminar las filas donde playtime_forever sea igual a cero
df_ui = df_ui[df_ui['playtime_forever'] != 0.0]

# Verificar el resultado
print("Número de filas después de eliminar ceros en playtime_forever:", len(df_ui))

Número de filas después de eliminar ceros en playtime_forever: 3285246


## Columna playtime_2weeks

In [26]:
# Imprimir columna "playtime-2weeks"
print(df_ui['playtime_2weeks'])

0            0.0
2            0.0
8            0.0
9            0.0
10           0.0
           ...  
5153202    677.0
5153203     43.0
5153206      3.0
5153207      4.0
5153208      3.0
Name: playtime_2weeks, Length: 3285246, dtype: float64


Esta columna nos entrega la información del tiempo jugado en las últimas dos semanas. Esta información no es relevante para nuestro proyecto, por lo que decidimos eliminarla.

In [27]:
# Eliminar columna
df_ui.drop(columns=['playtime_2weeks'], inplace=True)

Reiniciamos el índice y revisamos información general del DataFrame.

In [28]:
# Reset al índice
df_ui_reset = df_ui.reset_index(drop=True)


In [29]:
df_ui

Unnamed: 0,user_id,items_count,steam_id,item_id,item_name,playtime_forever
0,76561197970982479,277,76561197970982479,10,Counter-Strike,6.0
2,76561197970982479,277,76561197970982479,30,Day of Defeat,7.0
8,76561197970982479,277,76561197970982479,300,Day of Defeat: Source,4733.0
9,76561197970982479,277,76561197970982479,240,Counter-Strike: Source,1853.0
10,76561197970982479,277,76561197970982479,3830,Psychonauts,333.0
...,...,...,...,...,...,...
5153202,76561198329548331,7,76561198329548331,304930,Unturned,677.0
5153203,76561198329548331,7,76561198329548331,227940,Heroes & Generals,43.0
5153206,76561198329548331,7,76561198329548331,388490,One Way To Die: Steam Edition,3.0
5153207,76561198329548331,7,76561198329548331,521570,You Have 10 Seconds 2,4.0


In [30]:
df_ui.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3285246 entries, 0 to 5153208
Data columns (total 6 columns):
 #   Column            Dtype  
---  ------            -----  
 0   user_id           object 
 1   items_count       int32  
 2   steam_id          int64  
 3   item_id           Int64  
 4   item_name         object 
 5   playtime_forever  float64
dtypes: Int64(1), float64(1), int32(1), int64(1), object(2)
memory usage: 166.1+ MB


In [31]:
# Revisa nulos
df_ui.isnull().sum()

user_id             0
items_count         0
steam_id            0
item_id             0
item_name           0
playtime_forever    0
dtype: int64

In [32]:
import pandas as pd

# Ruta del archivo CSV
# csv_path = 'DataSet/clean_df_ui.csv'

# Ruta del archivo Parquet
parquet_path = 'DataSet/clean_df_ui.parquet'

# Guardar el DataFrame como un archivo CSV
# df_ui.to_csv(csv_path, index=False)

# Guardar el DataFrame como un archivo Parquet
df_ui.to_parquet(parquet_path, index=False)

# Verificar la creación de ambos archivos
# print(f'El archivo CSV {csv_path} ha sido creado.')
print(f'El archivo Parquet {parquet_path} ha sido creado.')


El archivo CSV DataSet/clean_df_ui.csv ha sido creado.
El archivo Parquet DataSet/clean_df_ui.parquet ha sido creado.
