In [1]:

import pandas as pd

# Transformación de Datos

## Transformar y desanidar datos para optimizar y minimizar tablas

### Archivo steam_games.csv

In [2]:
# Direccion del archivo comprimido y reconvertido
steam_games_content= '_data/01_steam_games.parquet'

# Cargar directamente el archivo JSON comprimido en un DataFrame
steam_games_dataset = pd.read_parquet(steam_games_content)


#### Constatamos tipos de datos y forma de la tabla

In [3]:
print(steam_games_dataset.dtypes)

publisher        object
genres           object
app_name         object
title            object
url              object
release_date     object
tags             object
reviews_url      object
specs            object
price            object
early_access    float64
id              float64
developer        object
dtype: object


In [4]:
print(f"El DataFrame tiene {steam_games_dataset.shape[0]} filas y {steam_games_dataset.shape[1]} columnas.")

El DataFrame tiene 22530 filas y 13 columnas.


In [5]:
steam_games_dataset.head(3)

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
0,Kotoshiro,"[Action, Casual, Indie, Simulation, Strategy]",Lost Summoner Kitty,Lost Summoner Kitty,http://store.steampowered.com/app/761140/Lost_...,2018-01-04,"[Strategy, Action, Indie, Casual, Simulation]",http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,0.0,761140.0,Kotoshiro
1,"Making Fun, Inc.","[Free to Play, Indie, RPG, Strategy]",Ironbound,Ironbound,http://store.steampowered.com/app/643980/Ironb...,2018-01-04,"[Free to Play, Strategy, Indie, RPG, Card Game...",http://steamcommunity.com/app/643980/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",Free To Play,0.0,643980.0,Secret Level SRL
2,Poolians.com,"[Casual, Free to Play, Indie, Simulation, Sports]",Real Pool 3D - Poolians,Real Pool 3D - Poolians,http://store.steampowered.com/app/670290/Real_...,2017-07-24,"[Free to Play, Simulation, Sports, Casual, Ind...",http://steamcommunity.com/app/670290/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",Free to Play,0.0,670290.0,Poolians.com


### Reduccion y organiazcion del dataframe

#### Columna 'tags'

Analizando las primeras filas de la tabla podemos ver que la columna tags posee mucha informacion que se encuentra en las otras columnas de la tabla, por lo que solo sirve para otro tipo de búsquedas diferentes a las que realizaremos en este trabajo, de manera que podemos proceder a borrarla.

In [6]:
# Eliminacion de columna
try:
    steam_games_dataset_elim = steam_games_dataset.drop('tags', axis=1)
except:
    print("La columna ya fue eliminada o no existe")

#### Columna 'early_access'

La columna early_access no proporciona nada que sea de utilidad para nuestro trabajo, por lo que puede ser eliminada.
Tampoco se puede ver que haya necesidad de desanidar columnas.

In [7]:
# Eliminacion de columna
try:
    steam_games_dataset_elim = steam_games_dataset.drop('early_access', axis=1)
except:
    print("La columna ya fue eliminada o no existe")

In [8]:
print(f"El DataFrame tiene {steam_games_dataset_elim.shape[0]} filas y {steam_games_dataset_elim.shape[1]} columnas.")

El DataFrame tiene 22530 filas y 12 columnas.


In [9]:
steam_games_dataset_elim.head(3)

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,id,developer
0,Kotoshiro,"[Action, Casual, Indie, Simulation, Strategy]",Lost Summoner Kitty,Lost Summoner Kitty,http://store.steampowered.com/app/761140/Lost_...,2018-01-04,"[Strategy, Action, Indie, Casual, Simulation]",http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,761140.0,Kotoshiro
1,"Making Fun, Inc.","[Free to Play, Indie, RPG, Strategy]",Ironbound,Ironbound,http://store.steampowered.com/app/643980/Ironb...,2018-01-04,"[Free to Play, Strategy, Indie, RPG, Card Game...",http://steamcommunity.com/app/643980/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",Free To Play,643980.0,Secret Level SRL
2,Poolians.com,"[Casual, Free to Play, Indie, Simulation, Sports]",Real Pool 3D - Poolians,Real Pool 3D - Poolians,http://store.steampowered.com/app/670290/Real_...,2017-07-24,"[Free to Play, Simulation, Sports, Casual, Ind...",http://steamcommunity.com/app/670290/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",Free to Play,670290.0,Poolians.com


####  Columnas app_name y title. 

Como a simple vista las columnas app_name y title parecen iguales, a continuación veremos si lo son y representan un valor significativo para el dataframe.

In [10]:
# Sumatoria de diferencias entre las columnas
diferencias = (steam_games_dataset_elim['app_name'] != steam_games_dataset_elim['title']).sum()
print(f"El número de diferencias entre las columnas es: {diferencias}")

# Máscara booleana (True-False) para las filas con diferencias
mask_diferencias = steam_games_dataset_elim['app_name'] != steam_games_dataset_elim['title']

# Filtra el DataFrame original para obtener las filas con diferencias
diferencias_filas = steam_games_dataset_elim[mask_diferencias]

# Crea un nuevo DataFrame con las columnas con diferencias
nuevo_df_diferencias = pd.DataFrame({
    'app_name': diferencias_filas['app_name'],
    'title': diferencias_filas['title']
})

El número de diferencias entre las columnas es: 351


In [11]:
# Imprimimos el nuevo DataFrame con las diferencias para constatar variaciones entre columnas
print("Nuevo DataFrame con diferencias:")
nuevo_df_diferencias.head()

Nuevo DataFrame con diferencias:


Unnamed: 0,app_name,title
54,Sam & Max 101: Culture Shock,Sam &amp; Max 101: Culture Shock
56,Sam & Max 102: Situation: Comedy,Sam &amp; Max 102: Situation: Comedy
80,Command & Conquer: Red Alert 3,Command &amp; Conquer: Red Alert 3
149,Heroes of Might & Magic V: Hammers of Fate,Heroes of Might &amp; Magic V: Hammers of Fate
151,Heroes of Might & Magic V: Tribes of the East,Heroes of Might &amp; Magic V: Tribes of the East


De los ultimos dos análisis podemos ver que las columnas son iguales y que las diferencias surgen de algún tipo de codificación en la columna title y que esta se puede eliminar.

In [12]:
# Eliminacion de columna
try:
    steam_games_dataset_elim = steam_games_dataset_elim.drop('title', axis=1)
except:
    print("La columna ya fue eliminada o no existe")

#### Ultimas eliminaciones y reduccion de la tabla

#### Eliminacion de las columnas url y reviews_url

Tambien para el análisis que debemos realizar para nuestro trabajo, se puede ver que las url son irrelevantes, por lo que se procederá a eliminarlas, además ayudará al manejo de los df y además los hará mas livianos y manejables.

In [13]:
# Eliminacion de columna
try:
    steam_games_dataset_elim = steam_games_dataset_elim.drop('url', axis=1)
except:
    print("La columna ya fue eliminada o no existe")

In [14]:
# Eliminacion de columna
try:
    steam_games_dataset_elim = steam_games_dataset_elim.drop('reviews_url', axis=1)
except:
    print("La columna ya fue eliminada o no existe")

#### Revision columna id 

Tambien del análisis dtype se puede ver que el id de los juegos es float y por lo tanto tiene un punto decimal, lo que no debe ser correcto, entonces procedemos a verificar si .0 es constante para todos los id. Si la verificación muestra que la columna no debería ser float, convertiremos toda la columna en int para mejor provecho en trabajos posteriores.

In [15]:
# Verifica si el '.0' es constante en los números flotantes de la columna 'columna_float'
constante = steam_games_dataset_elim['id'].apply(lambda x: str(x).endswith('.0')).nunique() == 1

if constante:
    print("El '.0' es constante en todos los números flotantes de la columna.")
else:
    print("El '.0' no es constante en todos los números flotantes de la columna.")

El '.0' es constante en todos los números flotantes de la columna.


A continuacion convertimos la columna id a int para mejor uso de los datos.

In [16]:
# Conversion de dato a tipo int
try:
    steam_games_dataset_elim['id'] = steam_games_dataset_elim['id'].astype(int)
except Exception as e:
    print(f'Error de Conversion {e}')

#### Revision columna 'price' 

Ahora resta revisar que la columna price contenga solo valores numéricos para finalmente si es necesario hacer otro analisis mas adelante.

In [17]:
# Filtrar las filas donde 'price' no es un número
filas_no_numericas = steam_games_dataset_elim[steam_games_dataset_elim['price'].apply(lambda x: not x.isnumeric())]

print("Filas donde 'price' no es numérica:")
print(filas_no_numericas['price'])

Filas donde 'price' no es numérica:
0                4.99
1        Free To Play
2        Free to Play
3                0.99
4                3.99
             ...     
22525            1.99
22526            1.99
22527            4.99
22528            1.99
22529            4.99
Name: price, Length: 22530, dtype: object


In [18]:
# Filtrar las filas donde 'price' no es un número
filas_no_numericas = steam_games_dataset_elim[~steam_games_dataset_elim['price'].apply(lambda x: isinstance(x, (int, float)))]

print("Filas donde 'price' no es numérica:")
print(filas_no_numericas['price'])

Filas donde 'price' no es numérica:
0                4.99
1        Free To Play
2        Free to Play
3                0.99
4                3.99
             ...     
22525            1.99
22526            1.99
22527            4.99
22528            1.99
22529            4.99
Name: price, Length: 22530, dtype: object


In [19]:
# Filtrar los valores en 'price' que no contienen ni '.' ni '0'
valores_sin_punto_ni_cero = steam_games_dataset_elim[
    ~steam_games_dataset_elim['price'].astype(str).str.contains('[.|0]')]

# Crear una lista con los valores de 'price' que cumplen la condición
lista_valores = valores_sin_punto_ni_cero['price'].tolist()

print("Lista de valores en 'price' que no contienen '.' ni '0':")
print(lista_valores)

Lista de valores en 'price' que no contienen '.' ni '0':
['Free To Play', 'Free to Play', 'Free', 'Free', 'Free', 'Free to Play', 'Free', 'Free', 'Free', 'Free to Play', 'Free to Play', 'Free to Play', 'Free', 'Free to Play', 'Free to Play', 'Free to Play', 'Free to Play', 'Free to Play', 'Free to Play', 'Free Demo', 'Free Demo', 'Play for Free!', 'Free to Play', 'Play for Free!', 'Free to Play', 'Free to Play', 'Free', 'Free', 'Free to Play', 'Free to Play', 'Free to Play', 'Free to Play', 'Free To Play', 'Free', 'Free to Play', 'Free', 'Free To Play', 'Free', 'Free', 'Free to Play', 'Free to Play', 'Free to Play', 'Free to Play', 'Install Now', 'Free To Play', 'Free', 'Free to Play', 'Free', 'Free', 'Free To Play', 'Free to Play', 'Free to Play', 'Free', 'Free', 'Free to Play', 'Play WARMACHINE: Tactics Demo', 'Free', 'Free to Play', 'Free to Play', 'Free', 'Free', 'Free to Play', 'Free', 'Free', 'Free To Play', 'Free to Play', 'Free to Play', 'Free to Play', 'Free Mod', 'Free to Pla

cambiamos datos por 0

In [20]:
steam_games_dataset_elim['price'] = steam_games_dataset_elim['price'].replace(lista_valores, 0)

In [21]:
# Forzar cambio de tipo de dato float
try:
    steam_games_dataset_elim['price'] = steam_games_dataset_elim['price'].astype(float)
except Exception as e:
    print(f"Ocurrió un error, 'price' no posee unicamente valores numericos o no existe.")
print(steam_games_dataset.dtypes)

publisher        object
genres           object
app_name         object
title            object
url              object
release_date     object
tags             object
reviews_url      object
specs            object
price            object
early_access    float64
id              float64
developer        object
dtype: object


In [22]:
# Filtrar las filas donde 'price' no es un número
filas_no_numericas = steam_games_dataset_elim[~steam_games_dataset_elim['price'].apply(lambda x: isinstance(x, (int, float)))]

print("Filas donde 'price' no es numérica:")
print(filas_no_numericas['price'])

Filas donde 'price' no es numérica:
Series([], Name: price, dtype: float64)


In [23]:
# Buscar NaN en la columna 'price'
valores_nulos_price = steam_games_dataset_elim[steam_games_dataset_elim['price'].isna()]

# Mostrar las filas donde 'price' es NaN
valores_nulos_price.head()

Unnamed: 0,publisher,genres,app_name,release_date,tags,specs,price,id,developer


#### Reordenamiento y revision final del dataframe

In [24]:
# Reordenamiento de la posición de las colummnas para mejor uso
reordenamiento_columnas = ['app_name', 'id','release_date', 'genres', 'specs','price','publisher','developer']
steam_games_dataset_elim = steam_games_dataset_elim[reordenamiento_columnas]


In [25]:
# Verificar si hay columnas faltantes o adicionales
columnas_df = set(steam_games_dataset_elim.columns)
columnas_reordenadas = set(reordenamiento_columnas)

columnas_faltantes = columnas_df - columnas_reordenadas
columnas_adicionales = columnas_reordenadas - columnas_df

if columnas_faltantes:
    print(f'Columnas faltantes: {columnas_faltantes}')
elif columnas_adicionales:
    print(f'Columnas adicionales: {columnas_adicionales}')
else:
    print('Se están utilizando todas las columnas correctamente.')

Se están utilizando todas las columnas correctamente.


In [26]:
print(steam_games_dataset_elim.dtypes)

app_name         object
id                int64
release_date     object
genres           object
specs            object
price           float64
publisher        object
developer        object
dtype: object


In [27]:
steam_games_dataset_elim.head(3)

Unnamed: 0,app_name,id,release_date,genres,specs,price,publisher,developer
0,Lost Summoner Kitty,761140,2018-01-04,"[Action, Casual, Indie, Simulation, Strategy]",[Single-player],4.99,Kotoshiro,Kotoshiro
1,Ironbound,643980,2018-01-04,"[Free to Play, Indie, RPG, Strategy]","[Single-player, Multi-player, Online Multi-Pla...",0.0,"Making Fun, Inc.",Secret Level SRL
2,Real Pool 3D - Poolians,670290,2017-07-24,"[Casual, Free to Play, Indie, Simulation, Sports]","[Single-player, Multi-player, Online Multi-Pla...",0.0,Poolians.com,Poolians.com


In [28]:
print(f"El DataFrame tiene {steam_games_dataset_elim.shape[0]} filas y {steam_games_dataset_elim.shape[1]} columnas.")

El DataFrame tiene 22530 filas y 8 columnas.


Guardado de la tabla para su posterior utilización

In [29]:
# Guardar el df en un archivo parquet
steam_games_dataset_elim.to_parquet('_data/02_steam_games_final.parquet', index=False)

Probablemente specs, price, publisher y developer no sean de mucha importancia para el análisis que pide el trabajo, por lo que a continuación generamos otro archivo sin dichas columnas y desanidando la columna 'genres' para trabajar mas adelante. Cabe aclarar que para otros análisis dichas columnas pueden ser datos valiosos.

### Preparado del dataframe para usar con FastAPI

### Eliminacion de las columnas 'specs', 'price', 'publisher' y 'developer'

In [30]:
columnas_a_borrar = ['specs', 'price', 'publisher', 'developer']
steam_games_dataset_elim.drop(columns=columnas_a_borrar, inplace=True)


###  Desanidado de 'genres'

In [31]:
steam_games_dataset_elim['genres'] = steam_games_dataset_elim['genres'].astype(str)

In [32]:
# Eliminar los corchetes y comillas simples y dividir la cadena por comas para obtener la lista de géneros
steam_games_dataset_elim['genres'] = steam_games_dataset_elim['genres'].str.replace("[", "").str.replace("]", "").str.replace("'", "").str.split(', ')

# Desanidar la lista de géneros y colocar cada género en una fila separada
steam_games_desanidado = steam_games_dataset_elim.explode('genres')

# Restablecer los índices
steam_games_desanidado.reset_index(drop=True, inplace=True)

In [33]:
steam_games_desanidado.head(10)

Unnamed: 0,app_name,id,release_date,genres
0,Lost Summoner Kitty,761140,2018-01-04,Action Casual Indie Simulation Strategy
1,Ironbound,643980,2018-01-04,Free to Play Indie RPG Strategy
2,Real Pool 3D - Poolians,670290,2017-07-24,Casual Free to Play Indie Simulation Sports
3,弹炸人2222,767400,2017-12-07,Action Adventure Casual
4,Battle Royale Trainer,772540,2018-01-04,Action Adventure Simulation
5,SNOW - All Access Pro Pass,774277,2018-01-04,Free to Play Indie Simulation Sports
6,SNOW - All Access Legend Pass,774278,2018-01-04,Free to Play Indie Simulation Sports
7,Army of Tentacles: (Not) A Cthulhu Dating Sim:...,770380,2018-01-04,Action Adventure Casual Indie RPG
8,Beach Rules,768880,2018-01-04,Casual Indie
9,Planetarium 2 - Zen Odyssey,765320,2018-01-03,Casual Indie Simulation


In [34]:
print(f"El DataFrame tiene {steam_games_desanidado.shape[0]} filas y {steam_games_desanidado.shape[1]} columnas.")

El DataFrame tiene 22530 filas y 4 columnas.


In [35]:
multiple_genres = steam_games_desanidado[steam_games_desanidado['genres'].str.count(',') >= 1]['genres']

print("Celdas con dos o más valores separados por comas en la columna 'genre':")
print(multiple_genres)

Celdas con dos o más valores separados por comas en la columna 'genre':
Series([], Name: genres, dtype: object)


In [36]:
# Extraer solo el año, independientemente del formato
steam_games_desanidado['release_year'] = steam_games_desanidado['release_date'].str.extract(r'(\d{4})')

In [37]:
multiple_genres = steam_games_desanidado[steam_games_desanidado['genres'].str.count(',') >= 1]['genres']

print("Celdas con dos o más valores separados por comas en la columna 'genre':")
print(multiple_genres)

Celdas con dos o más valores separados por comas en la columna 'genre':
Series([], Name: genres, dtype: object)


In [38]:
# Buscar NaN en la columna 'release_year'
valores_nulos_year = steam_games_desanidado[steam_games_desanidado['release_year'].isna()]

# Mostrar las filas
valores_nulos_year.head(10)

Unnamed: 0,app_name,id,release_date,genres,release_year
9103,Franky the Bumwalker,761310,SOON,Adventure Casual Indie,
22439,DUSK,519860,SOON™,Action Indie,


In [39]:
# Verificar cantidad de valores nulos en 'release_year'
null_count = steam_games_desanidado['release_year'].isna().sum()

print(f"La cantidad de valores nulos en 'release_year' es: {null_count}")

La cantidad de valores nulos en 'release_year' es: 2


In [40]:
# Borramos las filas donde 'release_year' es NaN
steam_games_desanidado.dropna(subset=['release_year'], inplace=True)

In [41]:
steam_games_desanidado.drop(columns='release_date', inplace=True)

In [42]:
# Buscar NaN en la columna 'price'
valores_nulos_year = steam_games_desanidado[steam_games_desanidado['release_year'].isna()]

# Mostrar las filas donde 'price' es NaN
valores_nulos_year.head(10)

Unnamed: 0,app_name,id,genres,release_year


In [43]:
steam_games_desanidado.head()

Unnamed: 0,app_name,id,genres,release_year
0,Lost Summoner Kitty,761140,Action Casual Indie Simulation Strategy,2018
1,Ironbound,643980,Free to Play Indie RPG Strategy,2018
2,Real Pool 3D - Poolians,670290,Casual Free to Play Indie Simulation Sports,2017
3,弹炸人2222,767400,Action Adventure Casual,2017
4,Battle Royale Trainer,772540,Action Adventure Simulation,2018


In [44]:
steam_games_desanidado.info()

<class 'pandas.core.frame.DataFrame'>
Index: 22528 entries, 0 to 22529
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   app_name      22528 non-null  object
 1   id            22528 non-null  int64 
 2   genres        22528 non-null  object
 3   release_year  22528 non-null  object
dtypes: int64(1), object(3)
memory usage: 880.0+ KB


In [45]:
print(f"El DataFrame tiene {steam_games_desanidado.shape[0]} filas y {steam_games_desanidado.shape[1]} columnas.")

El DataFrame tiene 22528 filas y 4 columnas.


In [46]:
steam_games_desanidado.to_parquet('_data/02_steam_games_FastAPI.parquet', index=False)