# Proceso de Extracción, Transformación y Carga (ETL)
En esta fase inicial de nuestro proyecto, nos centraremos en procesar los datos procedentes de archivos en formato JSON hacia archivos en formato Parquet. Este proceso involucra la detección de codificaciones específicas y la transformación efectiva de los datos para su posterior uso y análisis. Aquí presentamos cada paso de este proceso:

## 1. Extracción de Datos
Comenzamos extrayendo los datos de los archivos JSON disponibles. Estos archivos pueden contener una amplia gama de información relevante para nuestro proyecto.

## 2. Transformación de Datos
Una vez que hemos extraído los datos, es esencial transformarlos de manera que sean apropiados para nuestro análisis. Esto puede incluir la limpieza de datos, la conversión de tipos de datos y la reestructuración de los datos según sea necesario.

## 3. Carga de Datos
Finalmente, cargamos los datos transformados en un formato conveniente para su almacenamiento y uso futuro. En este caso, optamos por guardar los datos en archivos Parquet, que ofrecen un rendimiento superior y un menor consumo de espacio en disco en comparación con otros formatos como CSV.

Este proceso de ETL nos permite preparar nuestros datos para su análisis y uso efectivo en nuestro proyecto. Es un paso crucial para garantizar que trabajemos con datos de alta calidad y coherencia en todo momento. Además, al elegir el formato Parquet, aseguramos una gestión eficiente del almacenamiento, lo que es especialmente importante cuando lidiamos con conjuntos de datos grandes y pesados como el archivo **'australian_users_items.json'**.

In [1]:
import pandas as pd
import numpy as np 
import json

In [2]:
# SE CARGAN LOS ARCHIVOS ORIGINALES
# Nombre del archivo JSON
nombre_archivo = "C:\\Users\\Gary Alexander Bean\\Desktop\\australian_users_items.json"

# Se abre el archivo en modo lectura ('r') con codificación utf-8
with open(nombre_archivo, 'r', encoding='utf-8') as archivo:
    # Se lee todas las líneas del archivo y almacenarlas en la lista 'datos'
    datos = archivo.readlines()

# Se convierte las líneas en registros utilizando eval y eliminando los espacios alrededor
registros = [eval(line.strip()) for line in datos]

# Se crea un DataFrame de pandas a partir de los registros
df_UserItems = pd.DataFrame(registros)


In [3]:
# SE EXPLORAN Y ENTIENDEN LOS DATOS
df_UserItems

Unnamed: 0,user_id,items_count,steam_id,user_url,items
0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
1,js41637,888,76561198035864385,http://steamcommunity.com/id/js41637,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
2,evcentric,137,76561198007712555,http://steamcommunity.com/id/evcentric,"[{'item_id': '1200', 'item_name': 'Red Orchest..."
3,Riot-Punch,328,76561197963445855,http://steamcommunity.com/id/Riot-Punch,"[{'item_id': '10', 'item_name': 'Counter-Strik..."
4,doctr,541,76561198002099482,http://steamcommunity.com/id/doctr,"[{'item_id': '300', 'item_name': 'Day of Defea..."
...,...,...,...,...,...
88305,76561198323066619,22,76561198323066619,http://steamcommunity.com/profiles/76561198323...,"[{'item_id': '413850', 'item_name': 'CS:GO Pla..."
88306,76561198326700687,177,76561198326700687,http://steamcommunity.com/profiles/76561198326...,"[{'item_id': '11020', 'item_name': 'TrackMania..."
88307,XxLaughingJackClown77xX,0,76561198328759259,http://steamcommunity.com/id/XxLaughingJackClo...,[]
88308,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...,"[{'item_id': '304930', 'item_name': 'Unturned'..."


In [4]:
# Vemos la informacion general del dataframe, indica que no hay valores nulos. 
df_UserItems.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 88310 entries, 0 to 88309
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   user_id      88310 non-null  object
 1   items_count  88310 non-null  int64 
 2   steam_id     88310 non-null  object
 3   user_url     88310 non-null  object
 4   items        88310 non-null  object
dtypes: int64(1), object(4)
memory usage: 3.4+ MB


Es importante resaltar que no se encontraron valores nulos en ninguna de las columnas, lo que indica que todos los usuarios tienen información completa en esos campos. Para profundizar en estos datos, revisaremos algunos registros específicos para comprender mejor la naturaleza de los elementos. Como la columna 'items' es una lista, exploraremos su estructura para comprender mejor su contenido. Esta exploración nos permitirá tener una visión más clara de los datos y cómo están organizados antes de continuar con el análisis y procesamiento adicionales.

In [5]:
#SE LIMPIAN Y PREPROCESAN LOS DATOS
# Vemos que la columna 'items' esta anidada
df_UserItems['items'][0]

[{'item_id': '10',
  'item_name': 'Counter-Strike',
  'playtime_forever': 6,
  'playtime_2weeks': 0},
 {'item_id': '20',
  'item_name': 'Team Fortress Classic',
  'playtime_forever': 0,
  'playtime_2weeks': 0},
 {'item_id': '30',
  'item_name': 'Day of Defeat',
  'playtime_forever': 7,
  'playtime_2weeks': 0},
 {'item_id': '40',
  'item_name': 'Deathmatch Classic',
  'playtime_forever': 0,
  'playtime_2weeks': 0},
 {'item_id': '50',
  'item_name': 'Half-Life: Opposing Force',
  'playtime_forever': 0,
  'playtime_2weeks': 0},
 {'item_id': '60',
  'item_name': 'Ricochet',
  'playtime_forever': 0,
  'playtime_2weeks': 0},
 {'item_id': '70',
  'item_name': 'Half-Life',
  'playtime_forever': 0,
  'playtime_2weeks': 0},
 {'item_id': '130',
  'item_name': 'Half-Life: Blue Shift',
  'playtime_forever': 0,
  'playtime_2weeks': 0},
 {'item_id': '300',
  'item_name': 'Day of Defeat: Source',
  'playtime_forever': 4733,
  'playtime_2weeks': 0},
 {'item_id': '240',
  'item_name': 'Counter-Strike: S

Claro, en el DataFrame, la columna 'items' contiene datos anidados, lo que significa que es una lista de diccionarios. Para manejar estos datos de manera más efectiva, vamos a desglosar cada diccionario en la lista y crear una nueva columna para cada clave del diccionario. Esencialmente, esto significa que tendremos una columna separada para cada tipo de información contenida en los diccionarios, como 'steam_id', 'items_count', 'user_id' y 'user_url'. Sin embargo, durante este proceso, aseguraremos que podamos rastrear la información original para cada registro mediante el mantenimiento de las columnas originales. Esto nos permitirá tener una visión más detallada y estructurada de los datos para un análisis más profundo y eficiente en el futuro.

In [6]:
# Normalizar la columna 'items'
df_UserItems = pd.json_normalize(registros, record_path=['items'], meta=['steam_id','items_count','user_id','user_url'] )

In [7]:
# Observamos como queda el dataframe
df_UserItems

Unnamed: 0,item_id,item_name,playtime_forever,playtime_2weeks,steam_id,items_count,user_id,user_url
0,10,Counter-Strike,6,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
1,20,Team Fortress Classic,0,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
2,30,Day of Defeat,7,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
3,40,Deathmatch Classic,0,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
4,50,Half-Life: Opposing Force,0,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
...,...,...,...,...,...,...,...,...
5153204,346330,BrainBread 2,0,0,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...
5153205,373330,All Is Dust,0,0,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...
5153206,388490,One Way To Die: Steam Edition,3,3,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...
5153207,521570,You Have 10 Seconds 2,4,4,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...


In [8]:
# Encuentra los registros duplicados
duplicados = df_UserItems[df_UserItems.duplicated(subset=['steam_id','item_id','playtime_forever'])]
duplicados.shape

(59117, 8)

In [9]:
#Borramos dulplicados
df_UserItems = df_UserItems.drop_duplicates(keep='first')

In [10]:
# Se convierte la columna 'playtime_forever' de minutos a horas
df_UserItems.loc[df_UserItems['playtime_forever'].notnull(), 'playtime_forever'] /= 60

df_UserItems

  df_UserItems.loc[df_UserItems['playtime_forever'].notnull(), 'playtime_forever'] /= 60


Unnamed: 0,item_id,item_name,playtime_forever,playtime_2weeks,steam_id,items_count,user_id,user_url
0,10,Counter-Strike,0.100000,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
1,20,Team Fortress Classic,0.000000,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
2,30,Day of Defeat,0.116667,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
3,40,Deathmatch Classic,0.000000,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
4,50,Half-Life: Opposing Force,0.000000,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
...,...,...,...,...,...,...,...,...
5153204,346330,BrainBread 2,0.000000,0,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...
5153205,373330,All Is Dust,0.000000,0,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...
5153206,388490,One Way To Die: Steam Edition,0.050000,3,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...
5153207,521570,You Have 10 Seconds 2,0.066667,4,76561198329548331,7,76561198329548331,http://steamcommunity.com/profiles/76561198329...


In [11]:
# Se redondean los valores a dos decimales
df_UserItems.loc[:, 'playtime_forever'] = df_UserItems['playtime_forever'].round(2)
df_UserItems.head()

Unnamed: 0,item_id,item_name,playtime_forever,playtime_2weeks,steam_id,items_count,user_id,user_url
0,10,Counter-Strike,0.1,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
1,20,Team Fortress Classic,0.0,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
2,30,Day of Defeat,0.12,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
3,40,Deathmatch Classic,0.0,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...
4,50,Half-Life: Opposing Force,0.0,0,76561197970982479,277,76561197970982479,http://steamcommunity.com/profiles/76561197970...


In [None]:
# Obtener los 5 valores máximos
top_5_max = df_UserItems.nlargest(5, 'hours_game')

# Obtener los 5 valores mínimos
top_5_min = df_UserItems.nsmallest(5, 'hours_game')

# Mostrar los resultados
print("Top 5 valores máximos:")
print(top_5_max[['hours_game']])

print("\nTop 5 valores mínimos:")
print(top_5_min[['hours_game']])

In [None]:
# Contar las filas con valor 0 en la columna 'hours_game'
filas_con_cero = (df_UserItems['hours_game'] == 0).sum()

# Imprimir el resultado
print(f"Existen {filas_con_cero} filas con valor 0 en la columna 'hours_game'.")

In [None]:
# Eliminar las filas con valor 0 en la columna 'hours_game'
df_UserItems = df_UserItems[df_UserItems['hours_game'] != 0]

Se ha detectado que hay 1,847,730 registros en los que la columna 'hours_game' tiene un valor de 0. Dado que el análisis de las horas jugadas es crucial para nuestro estudio, hemos decidido eliminar todos los registros que tengan este valor nulo en la columna 'hours_game'. Esto nos permitirá centrarnos en los datos relevantes y garantizar que nuestro análisis sea preciso y completo.

In [14]:
#Eliminamos columna no relevantes
df_UserItems = df_UserItems.drop(['user_url'], axis=1)


In [15]:
df_UserItems = df_UserItems.drop(['items_count'], axis=1)

In [16]:
df_UserItems.head()

Unnamed: 0,item_id,item_name,playtime_forever,playtime_2weeks,steam_id,user_id
0,10,Counter-Strike,0.1,0,76561197970982479,76561197970982479
1,20,Team Fortress Classic,0.0,0,76561197970982479,76561197970982479
2,30,Day of Defeat,0.12,0,76561197970982479,76561197970982479
3,40,Deathmatch Classic,0.0,0,76561197970982479,76561197970982479
4,50,Half-Life: Opposing Force,0.0,0,76561197970982479,76561197970982479


In [17]:
df_UserItems.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5094105 entries, 0 to 5153208
Data columns (total 6 columns):
 #   Column            Dtype  
---  ------            -----  
 0   item_id           object 
 1   item_name         object 
 2   playtime_forever  float64
 3   playtime_2weeks   int64  
 4   steam_id          object 
 5   user_id           object 
dtypes: float64(1), int64(1), object(4)
memory usage: 272.1+ MB


In [18]:
df_UserReviews = pd.read_parquet("C:\\Users\\Gary Alexander Bean\\Desktop\\Proyecto-Individual-1-MLOps\\Datasets\\ArchivosPARQUET\\user_reviews_limpio.parquet")

df_UserItems['item_id'] = df_UserItems['item_id'].astype('int64')

# Fusionar los DataFrames utilizando 'item_id' como clave
merged_df = df_UserItems.merge(df_UserReviews[['item_id', 'year']], how='left', on='item_id')

# Asignar el valor de la columna 'year' al DataFrame df_UserItems
df_UserItems['year'] = merged_df['year']

## 4. Guardar el conjunto de datos limpio
Después de completar el proceso de limpieza de datos, es fundamental guardar el conjunto de datos limpio en un nuevo archivo para poder acceder a él fácilmente en el futuro y reutilizarlo en diferentes análisis o aplicaciones. Podemos guardar el conjunto de datos limpio en varios formatos, como CSV, JSON o PARQUET, según nuestras necesidades y preferencias. Este paso nos ayudará a mantener una copia segura de nuestros datos limpios y listos para su uso posterior.

In [None]:
df_UserItems.to_parquet('user_items_limpio.parquet', index=False)