In [1]:

import pandas as pd
from datetime import datetime


# Transformación de Datos

## Transformar y desanidar datos para optimizar y minimizar tablas

### Archivo user_reviews.parquet

In [2]:
# Direccion del archivo comprimido y reconvertido
user_reviews_content = '_data/01_user_reviews.parquet'

# Cargar directamente el archivo JSON comprimido en un DataFrame
user_reviews_dataset = pd.read_parquet(user_reviews_content)

Constatamos tipos de datos y forma de la tabla

In [3]:
print(user_reviews_dataset.dtypes)

user_id     object
user_url    object
reviews     object
dtype: object


In [4]:
print(f"El DataFrame tiene {user_reviews_dataset.shape[0]} filas y {user_reviews_dataset.shape[1]} columnas.")

El DataFrame tiene 25799 filas y 3 columnas.


In [5]:
user_reviews_dataset.head(3)

Unnamed: 0,user_id,user_url,reviews
0,76561197970982479,http://steamcommunity.com/profiles/76561197970...,"[{'funny': '', 'helpful': 'No ratings yet', 'i..."
1,js41637,http://steamcommunity.com/id/js41637,"[{'funny': '', 'helpful': '15 of 20 people (75..."
2,evcentric,http://steamcommunity.com/id/evcentric,"[{'funny': '', 'helpful': 'No ratings yet', 'i..."


In [6]:
tipo_dato_rev = type(user_reviews_dataset.loc[0, 'reviews'])
print(f"El tipo de dato en la celda es: {tipo_dato_rev}")

El tipo de dato en la celda es: <class 'numpy.ndarray'>


### Desanidado de la columna 'reviews'

Claramente se puede ver que la columna reviews se puede expandir, lo que generará una nueva fuente de información.

In [7]:
# Creamos una lista para almacenar los datos desanidados
dataset_desanidado = []

# Iterar sobre cada fila del DataFrame original
for index, row in user_reviews_dataset.iterrows():
    user_id = row['user_id']
    user_url = row['user_url']

    # Iterar sobre cada elemento en la lista 'items' de la fila actual
    for review in row['reviews']:
        new_row = {
            'user_id': user_id,
            'user_url': user_url,
            'funny': review['funny'],
            'posted': review['posted'],
            'last_edited': review['last_edited'],
            'item_id': review['item_id'],
            'helpful': review['helpful'],
            'recommend': review['recommend'],
            'review': review['review']
        }

        dataset_desanidado.append(new_row)

# Crear un nuevo DataFrame a partir de la lista desanidada
user_reviews_dataset_desanidada = pd.DataFrame(dataset_desanidado)

In [8]:
print(f"El DataFrame tiene {user_reviews_dataset_desanidada.shape[0]} filas y {user_reviews_dataset_desanidada.shape[1]} columnas.")

El DataFrame tiene 59305 filas y 9 columnas.


In [9]:
user_reviews_dataset_desanidada.head(3)

Unnamed: 0,user_id,user_url,funny,posted,last_edited,item_id,helpful,recommend,review
0,76561197970982479,http://steamcommunity.com/profiles/76561197970...,,"Posted November 5, 2011.",,1250,No ratings yet,True,Simple yet with great replayability. In my opi...
1,76561197970982479,http://steamcommunity.com/profiles/76561197970...,,"Posted July 15, 2011.",,22200,No ratings yet,True,It's unique and worth a playthrough.
2,76561197970982479,http://steamcommunity.com/profiles/76561197970...,,"Posted April 21, 2011.",,43110,No ratings yet,True,Great atmosphere. The gunplay can be a bit chu...


### Reduccion y organiazcion del dataframe

De lo visto anteriormente, sale a relucir que las columnas funny y last_edited podrían estar vacias y la columna helpful daria poca informacion relevante.

#### Columna 'funny'

A continuación verificamos que la columna esté realmente vacía o contenga datos nulos.

In [10]:
# Verificar si hay valores nulos en la columna 'funny'
valores_nulos = user_reviews_dataset_desanidada['funny'].isnull().any()

# Verificar si hay valores vacíos que no sean nulos en la columna 'funny'
valores_vacios = (user_reviews_dataset_desanidada['funny'] == '').any()

if valores_nulos:
    print("La columna 'funny' tiene valores nulos.")
else:
    print("La columna 'funny' no tiene valores nulos.")

if valores_vacios:
    print("La columna 'funny' tiene valores vacíos (distintos de NaN).")
else:
    print("La columna 'funny' no tiene valores vacíos (distintos de NaN).")


La columna 'funny' no tiene valores nulos.
La columna 'funny' tiene valores vacíos (distintos de NaN).


In [11]:
# Mostrar los valores únicos y su cantidad en la columna 'funny'
conteo_valores_funny = user_reviews_dataset_desanidada['funny'].value_counts()

print("Valores únicos en la columna 'funny' y su cantidad:")
print(conteo_valores_funny)

Valores únicos en la columna 'funny' y su cantidad:
funny
                                        51154
1 person found this review funny         5180
2 people found this review funny         1232
3 people found this review funny          491
4 people found this review funny          267
                                        ...  
58 people found this review funny           1
405 people found this review funny          1
105 people found this review funny          1
1,130 people found this review funny        1
825 people found this review funny          1
Name: count, Length: 186, dtype: int64


A partir de lo visto anteriormente se puede ver que la columna no está vacía pero no aporta valor al análisis que se realizará mas adelante, por lo que podemos proceder a eliminarla.

In [12]:
# Eliminamos columna 'funny'
try:
    user_reviews_dataset_desanidada = user_reviews_dataset_desanidada.drop('funny', axis=1)
except:
    print("La columna ya fue eliminada o no existe")

#### Columna 'last_edited'

A continuación verificamos que la columna esté realmente vacía o contenga datos nulos.

In [13]:
# Verificar si hay valores nulos en la columna 'last_edited'
valores_nulos = user_reviews_dataset_desanidada['last_edited'].isnull().any()

# Verificar si hay valores vacíos que no sean nulos en la columna 'last_edited'
valores_vacios = (user_reviews_dataset_desanidada['last_edited'] == '').any()

if valores_nulos:
    print("La columna 'last_edited' tiene valores nulos.")
else:
    print("La columna 'last_edited' no tiene valores nulos.")

if valores_vacios:
    print("La columna 'last_edited' tiene valores vacíos (distintos de NaN).")
else:
    print("La columna 'last_edited' no tiene valores vacíos (distintos de NaN).")


La columna 'last_edited' no tiene valores nulos.
La columna 'last_edited' tiene valores vacíos (distintos de NaN).


In [14]:
# Mostrar los valores únicos y su cantidad en la columna 'last_edited'
conteo_valores_funny = user_reviews_dataset_desanidada['last_edited'].value_counts()

print("Valores únicos en la columna 'last_edited' y su cantidad:")
print(conteo_valores_funny)

Valores únicos en la columna 'last_edited' y su cantidad:
last_edited
                                  53165
Last edited November 25, 2013.       99
Last edited October 17, 2015.        19
Last edited June 6, 2015.            18
Last edited January 3.               17
                                  ...  
Last edited May 30, 2015.             1
Last edited May 21, 2015.             1
Last edited February 11, 2014.        1
Last edited May 8, 2014.              1
Last edited August 15, 2014.          1
Name: count, Length: 1015, dtype: int64


A partir de lo visto anteriormente se puede ver que la columna no está vacía y podría aportar información importante, por lo que haremos mas trabajos para determinarlo.
Como vemos que la columna posee fechas, constatamos que estas sean relevantes. Es decir que todas posean dia, mes y año, para utilizarla mas adelante en el pedido de las funciones API o complementen la columna posted.

In [15]:
# Función para verificar si un valor tiene el formato "Mes DD AAAA."
def tiene_formato_valido(fecha):
    try:
        datetime.strptime(fecha, 'Last edited %B %d, %Y.')
        return True
    except ValueError:
        return False

# Contar la cantidad de elementos con el formato válido
cantidad_con_formato_valido = sum(user_reviews_dataset_desanidada['last_edited'].apply(tiene_formato_valido))

# Calcular el porcentaje
total_elementos = len(user_reviews_dataset_desanidada['last_edited'])
porcentaje = (cantidad_con_formato_valido / total_elementos) * 100

print(f"Porcentaje de elementos con formato 'Mes DD, AAAA.': {porcentaje:.2f}%")


Porcentaje de elementos con formato 'Mes DD, AAAA.': 7.21%


De aqui vemos que es poco util la cantidad de datos que poseen toda la informacion necesaria para realizar el analisis posterior de las funciones API, por lo que podemos borrar la columna.

In [16]:
# Eliminamos columna 'last_edited'
try:
    user_reviews_dataset_desanidada = user_reviews_dataset_desanidada.drop('last_edited', axis=1)
except:
    print("La columna ya fue eliminada o no existe")

#### Columna 'helpful'

Ahora procedemos a revisar la columna helpful.

In [17]:
valores_unicos_helpful = user_reviews_dataset_desanidada['helpful'].value_counts()
print("Valores únicos en la columna 'helpful':")
print(valores_unicos_helpful)

Valores únicos en la columna 'helpful':
helpful
No ratings yet                                     30168
1 of 1 people (100%) found this review helpful      6730
0 of 1 people (0%) found this review helpful        4024
1 of 2 people (50%) found this review helpful       2493
2 of 2 people (100%) found this review helpful      1872
                                                   ...  
73 of 96 people (76%) found this review helpful        1
12 of 31 people (39%) found this review helpful        1
12 of 53 people (23%) found this review helpful        1
17 of 37 people (46%) found this review helpful        1
24 of 34 people (71%) found this review helpful        1
Name: count, Length: 1344, dtype: int64


Según lo visto en el resultado anterior, los datos no son utiles ni necesarios para posterior análisis y tampoco aportarían valor conservándolos. Por lo tanto la eliminamos.

In [18]:
# Eliminamos columna 'helpful'
try:
    user_reviews_dataset_desanidada = user_reviews_dataset_desanidada.drop('helpful', axis=1)
except:
    print("La columna ya fue eliminada o no existe")

#### Columna 'user_url'

Tambien como se vio en el tratamiento del archivo stem_games, se puede hacer la eliminación de las url ya que no serán utilizadas en ningún momento del proceso de análisis

In [19]:
# Eliminamos columna 'user_url'
try:
    user_reviews_dataset_desanidada = user_reviews_dataset_desanidada.drop('user_url', axis=1)
except:
    print("La columna ya fue eliminada o no existe")

#### Columna 'posted'

Al igual que en la columna 'last_edited' verificaremos la columna para ver si contiene informacion relevante.

In [20]:
# Verificar si hay valores nulos en la columna 'posted'
valores_nulos = user_reviews_dataset_desanidada['posted'].isnull().any()

# Verificar si hay valores vacíos que no sean nulos en la columna 'posted'
valores_vacios = (user_reviews_dataset_desanidada['posted'] == '').any()

if valores_nulos:
    print("La columna 'posted' tiene valores nulos.")
else:
    print("La columna 'posted' no tiene valores nulos.")

if valores_vacios:
    print("La columna 'posted' tiene valores vacíos (distintos de NaN).")
else:
    print("La columna 'posted' no tiene valores vacíos (distintos de NaN).")


La columna 'posted' no tiene valores nulos.
La columna 'posted' no tiene valores vacíos (distintos de NaN).


In [21]:
# Mostrar los valores únicos y su cantidad en la columna 'posted'
conteo_valores_funny = user_reviews_dataset_desanidada['posted'].value_counts()

print("Valores únicos en la columna 'posted' y su cantidad:")
print(conteo_valores_funny)

Valores únicos en la columna 'posted' y su cantidad:
posted
Posted June 21, 2014.        225
Posted June 20, 2014.        193
Posted June 23, 2014.        174
Posted June 27, 2014.        172
Posted December 26, 2013.    171
                            ... 
Posted August 6, 2011.         1
Posted October 9, 2012.        1
Posted May 20, 2011.           1
Posted April 22, 2012.         1
Posted November 3, 2012.       1
Name: count, Length: 1906, dtype: int64


A partir de lo relevado, se puede ver que la columna podría aportar información importante, por lo que haremos mas trabajos para determinarlo.
Sabiendo que contiene fechas, constatamos que tengan la informacion de dia, mes y año, para utilizarla mas adelante en el pedido de las funciones API.

In [22]:
# Función para verificar si un valor tiene el formato "Mes DD AAAA."
def tiene_formato_valido(fecha):
    try:
        datetime.strptime(fecha, 'Posted %B %d, %Y.')
        return True
    except ValueError:
        return False

# Contar la cantidad de elementos con el formato válido
cantidad_con_formato_valido = sum(user_reviews_dataset_desanidada['posted'].apply(tiene_formato_valido))

# Calcular el porcentaje
total_elementos = len(user_reviews_dataset_desanidada['posted'])
porcentaje = (cantidad_con_formato_valido / total_elementos) * 100

print(f"Porcentaje de elementos con formato 'Mes DD, AAAA.': {porcentaje:.2f}%")


Porcentaje de elementos con formato 'Mes DD, AAAA.': 82.94%


De aqui vemos que posee gran cantidad de valores deseados y por el momento no la eliminaremos. Al momento de hacer la EDA y NLP veremos si se conserva para subir a render.

#### Columna 'item_id'

Sabiendo que el id es numerico revisaremos que esto sea así, de lo contrario lo pasamos a int.

In [23]:
print(user_reviews_dataset_desanidada.dtypes)

user_id      object
posted       object
item_id      object
recommend      bool
review       object
dtype: object


Aqui podemos ver que la columna item_id se puede convertir a int para mejor uso de los datos.

In [24]:
try:
    user_reviews_dataset_desanidada['item_id'] = user_reviews_dataset_desanidada['item_id'].astype(int)
except Exception as e:
    print(f'Error de Conversion {e}')

#### Columna 'user_id'

Aqui podemos corroborar si los datos de 'user_id' son solo numeros o no, para convertitrlos a int y trabajarlos como tal mas adelante.

In [25]:
# Filtrar las filas donde 'user_id' es una cadena de texto
filas_no_numericas = user_reviews_dataset_desanidada[user_reviews_dataset_desanidada['user_id'].apply(lambda x: not x.isnumeric())]

# Mostrar la información de las filas donde 'user_id' es una cadena de texto
print("Filas donde 'user_id' no es numérica:")
print(filas_no_numericas['user_id'])

Filas donde 'user_id' no es numérica:
3               js41637
4               js41637
5               js41637
6             evcentric
7             evcentric
              ...      
59294    JustMielThings
59296          Ghoustik
59302       LydiaMorley
59303       LydiaMorley
59304       LydiaMorley
Name: user_id, Length: 35170, dtype: object


Claramente no son solo numeros, por lo que no hay necesidad de hacer nada mas con la columna.

### Reordenamiento y revision final del dataframe

In [26]:
# Reordenamiento de la posición de las colummnas para mejor uso
reordenamiento_columnas = ['user_id', 'item_id','posted','recommend', 'review']
user_reviews_dataset_final = user_reviews_dataset_desanidada[reordenamiento_columnas]


In [27]:
# Verificar si hay columnas faltantes o adicionales
columnas_df = set(user_reviews_dataset_desanidada.columns)
columnas_reordenadas = set(reordenamiento_columnas)

columnas_faltantes = columnas_df - columnas_reordenadas
columnas_adicionales = columnas_reordenadas - columnas_df

if columnas_faltantes:
    print(f'Columnas faltantes: {columnas_faltantes}')
elif columnas_adicionales:
    print(f'Columnas adicionales: {columnas_adicionales}')
else:
    print('Se están utilizando todas las columnas correctamente.')

Se están utilizando todas las columnas correctamente.


In [28]:
print(user_reviews_dataset_final.dtypes)

user_id      object
item_id       int64
posted       object
recommend      bool
review       object
dtype: object


In [29]:
print(f"El DataFrame tiene {user_reviews_dataset_final.shape[0]} filas y {user_reviews_dataset_final.shape[1]} columnas.")

El DataFrame tiene 59305 filas y 5 columnas.


In [30]:
user_reviews_dataset_final.head(3)

Unnamed: 0,user_id,item_id,posted,recommend,review
0,76561197970982479,1250,"Posted November 5, 2011.",True,Simple yet with great replayability. In my opi...
1,76561197970982479,22200,"Posted July 15, 2011.",True,It's unique and worth a playthrough.
2,76561197970982479,43110,"Posted April 21, 2011.",True,Great atmosphere. The gunplay can be a bit chu...


In [31]:
# Guardar DataFrame en un archivo Parquet
user_reviews_dataset_final.to_parquet('_data/02_user_reviews_final.parquet', index=False)

Luego al hacer el analisis de sentimientos, se puede cambiar reviews por sentiment analisis, que implicaria menor tamaño en el df y ademas se adecua al pedido de endpoints. Tambien se podría reconvertir la columna recommend a valores binarios para mejor interpretación del endpoint que se pide para la API.