### Procesamiento **ETL** al archivo **`output_steam_games.json`**

In [268]:
# Importamos las librerias necesarias para el procesamiento de los datos
import pandas as pd
import numpy as np
import json
import ast

In [269]:
# Leer el archivo JSON y convertirlo en un DataFrame
df_steam_games = pd.read_json('data/output_steam_games.json', lines=True)

### Entendiendo los datos como estan conformados y sus caracteristicas 

Para entender los datos empezamos observando las columnas y los valores de cada columna se puede apreciar que las primeras filas existen muchos valores nulos `NaN`

> Eliminamos todos estos datos **`NaN`**

---
Empezamos obteniendo un poco de información básica del dataframe esta conformado por ``13`` columnas `publisher`, `genres`, `app_name`, `title`, `url`, `release_date`, ``tags``, ``reviews_url``, `speces`, `price`, `early_access`, `id`, ``developer`` tipos de datos: `float64(2)`, `object(11)`

- Usando la función ``.shape`` observamos el número de filas y columnas que tiene nuestro dataframe **``(120445, 13)``**

- Usando la función **``isnull().sum()``** sumamos la cantidad de valores `NaN` de cada columna, obteniendo una gran cantidad de valores `NaN` el primer paso para tratar estos valores sera eliminar todos las columnas que tienen completamente valores `NaN` y posteriormente estaremos tomando decisiones de como seguir tratando estos valores.

In [270]:
df_steam_games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120445 entries, 0 to 120444
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   publisher     24083 non-null  object 
 1   genres        28852 non-null  object 
 2   app_name      32133 non-null  object 
 3   title         30085 non-null  object 
 4   url           32135 non-null  object 
 5   release_date  30068 non-null  object 
 6   tags          31972 non-null  object 
 7   reviews_url   32133 non-null  object 
 8   specs         31465 non-null  object 
 9   price         30758 non-null  object 
 10  early_access  32135 non-null  float64
 11  id            32133 non-null  float64
 12  developer     28836 non-null  object 
dtypes: float64(2), object(11)
memory usage: 11.9+ MB


In [271]:
df_steam_games.shape 

(120445, 13)

In [272]:
df_steam_games.isnull().sum()

publisher       96362
genres          91593
app_name        88312
title           90360
url             88310
release_date    90377
tags            88473
reviews_url     88312
specs           88980
price           89687
early_access    88310
id              88312
developer       91609
dtype: int64

> Teniendo esta comprensión básica de los datos como primer paso empezamos eliminando los valores nulos `NaN`

In [273]:
# Muestra las primeras filas del DataFrame
df_steam_games.head(3)

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
0,,,,,,,,,,,,,
1,,,,,,,,,,,,,
2,,,,,,,,,,,,,


In [None]:
# buscar en stem_games el desarrollador Lost Summoner Kitty
df_steam_games[df_steam_games['developer'] == '']

In [274]:
# Con el método dropna eliminamos las filas que contienen valores nulos
df_steam_games = df_steam_games.dropna(how='all').reset_index(drop=True)

In [275]:
# Observamos los cambios
df_steam_games.info()
df_steam_games.shape

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32135 entries, 0 to 32134
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   publisher     24083 non-null  object 
 1   genres        28852 non-null  object 
 2   app_name      32133 non-null  object 
 3   title         30085 non-null  object 
 4   url           32135 non-null  object 
 5   release_date  30068 non-null  object 
 6   tags          31972 non-null  object 
 7   reviews_url   32133 non-null  object 
 8   specs         31465 non-null  object 
 9   price         30758 non-null  object 
 10  early_access  32135 non-null  float64
 11  id            32133 non-null  float64
 12  developer     28836 non-null  object 
dtypes: float64(2), object(11)
memory usage: 3.2+ MB


(32135, 13)

In [276]:
df_steam_games.isnull().sum()

publisher       8052
genres          3283
app_name           2
title           2050
url                0
release_date    2067
tags             163
reviews_url        2
specs            670
price           1377
early_access       0
id                 2
developer       3299
dtype: int64

> Apreciamos que de tener **``(120445, 13)``** la cantidad de filas  cambia a **``(32135, 13)``** al mismo tiempo bajan las cifras de valores `NaN` por columnas 

Tabla para comparar los valores `NaN` por columnas

***Antes***
| Columnas      |   `NaN`  |
|---------------|----------|
| publisher     | 96362    |
| genres        | 91593    |
| app_name      | 88312    |
| title         | 90360    |
| url           | 88310    |
| release_date  | 90377    |
| tags          | 88473    |
| reviews_url   | 88312    |
| specs         | 88980    |
| price         | 89687    |
| early_access  | 88310    |
| id            | 88312    |
| developer     | 91609    |

***Actualizado***
| Columnas      |   `NaN`  |
|---------------|----------|
| publisher     | 8052     |
| genres        | 3283     |
| app_name      | 2        |
| title         | 2050     |
| url           | 0        |
| release_date  | 2067     |
| tags          | 163      |
| reviews_url   | 2        |
| specs         | 670      |
| price         | 1377     |
| early_access  | 0        |
| id            | 2        |
| developer     | 3299     |

In [277]:
df_steam_games.head(3)

Unnamed: 0,publisher,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
0,Kotoshiro,"[Action, Casual, Indie, Simulation, Strategy]",Lost Summoner Kitty,Lost Summoner Kitty,http://store.steampowered.com/app/761140/Lost_...,2018-01-04,"[Strategy, Action, Indie, Casual, Simulation]",http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,0.0,761140.0,Kotoshiro
1,"Making Fun, Inc.","[Free to Play, Indie, RPG, Strategy]",Ironbound,Ironbound,http://store.steampowered.com/app/643980/Ironb...,2018-01-04,"[Free to Play, Strategy, Indie, RPG, Card Game...",http://steamcommunity.com/app/643980/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",Free To Play,0.0,643980.0,Secret Level SRL
2,Poolians.com,"[Casual, Free to Play, Indie, Simulation, Sports]",Real Pool 3D - Poolians,Real Pool 3D - Poolians,http://store.steampowered.com/app/670290/Real_...,2017-07-24,"[Free to Play, Simulation, Sports, Casual, Ind...",http://steamcommunity.com/app/670290/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",Free to Play,0.0,670290.0,Poolians.com


### El siguiente paso será seleccionar las columnas que usaremos para los **``edpoints``** de la API y todo el sistema que se desea crear.

> Para este paso se creo el siguiente reporte informativo de las columnas o variables ***inputs*** que necesita cada función y el sistema de recomendación, en este caso nos enfocaremos en las columnas que se encuentran en este analisis **ETL** del archivo **``steam_games``**.

---
 ###  Variables de entrada **`input`** que necesita cada función:

* ``función 1``: def **desarrollador**( **`desarrollador`**: **str** ) : Cantidad de items y porcentajede contenido Free por año según empresa desarrolladora. **variables**: **`developer`**, **`release_date`**, **`price`**

* ``función 2``: def **userdata**( **`User_id`**: **str** ) : Debe devolver `cantidad` de dinero gastado por el usuario, el `porcentaje` de recomendación en base a reviews.recommend y `cantidad de items`. **variables**: **`price`**, **`recommend `**, **`item_id`**.

* ``función 3``: def **UserForGenre**( **`genero`**: **str** ) : Debe devolver el usuario que acumula más horas jugadas para el género dado y una lista de la acumulación de horas jugadas por año de lanzamiento. **variables**: **`genres`**, **`user_id`**, **`playtime_forever`**, **`release_date`**.

* ``función 4``: def **best_developer_year**(**`año`**: **int** ) : Devuelve el top 3 de desarrolladores con juegos MÁS recomendados por usuarios para el año dado. (reviews.recommend = Verdadero y comentarios positivos). **variables**. **`release_date`**, **`reviews.recommend (sentiment_analysis)`**

* ``función 5``: def **desarrollador_reviews_analysis**( **`desarrolladora`**: **str**) : Según el desarrollador, se devuelve un diccionario con el nombre del desarrollador como llave y una lista con la cantidad total de registros de reseñas de usuarios que se encuentran categorizados con un análisis de sentimiento como valor positivo o negativo. **`developer`**, **`sentiment_analysis`**

### Sistemas de recomendación elegir uno o los dos:

**Sistema de recomendación de juegos** si es por ***item-item***:
def **recomendacion_juego**(**`id de producto`**): Ingresando el id de producto, deberíamos recibir una lista con 5 juegos recomendados similares al ingresado. **variables**: **``item_id``**, **``recommend``**, **``sentiment_analysis``**, **`item_name`**.

Si es por ***user-item***:
def **recomendacion_usuario**(**`id de usuario`**): Ingresando el id de un usuario, deberíamos recibir una lista con 5 juegos recomendados para dicho usuario. **variables**: **``user_id``**, **``recommend``**, **``sentiment_analysis``**, **`item_name`**.

---

***usado***: def **get_recommendation**(**`item_id`**: int): Devuelve los indices similares. **variables**: **`item_id`**, **`user_id`**, **`recommend`**, **`item_name`** 


### Limpieza  de la columna **``price``**

Caracteristicas de la columna `price`:

- El tipo de dato es ``object`` contiene valores de tipo genérico. 

- observamos los valores unicos que conforman la columna ``price`` entre esos tipos de datos genéricos encontramos valores de precios en decimales ``float`` y etiquetas que referencian un valor `string`.

- Se encontraron 18 etiquetas diferentes para referirse al precio y otras sin un contexto claro. Para manejar estos valores, se tomaron las siguientes decisiones:

- **`Free` y variantes exactas:** Las etiquetas como 'Free', 'Free Demo', 'Play for Free!', 'Free Mod', 'Free Movie', 'Free to Use', entre otras, parecen indicar claramente que el contenido es gratuito. Se decidió tratar estas etiquetas directamente como juegos gratuitos **`(0.0)`**.

- **`Free To Play` y variantes:** 'Free To Play' y 'Free to Play' también son indicadores claros de que un juego es gratuito. Se consideran estas variantes como juegos gratuitos también.

- **Otras etiquetas ambiguas:** Algunas etiquetas como 'Play Now', 'Install Now', 'Third-party' se reemplazaron por un valor gratuito y las que mencionan precios ('Starting at...') no son claras sobre si el contenido es gratuito o no, pero se tomó la decisión de reemplazar su valor a los precios que indicaban ($ 449.00) y ($499.00).

- **`Free to Try`:** Esta etiqueta indica que el juego es gratuito para probar, pero podría tener limitaciones o restricciones después de un cierto período de tiempo. Por la falta de contexto Se decidió considerar estos juegos como gratuitos también.

> Para fines practicos

- Para los valores **Nulos** **`(NaN o None)`** se decidio imputar estos valores específicos con la mediana de los datos. 

- Por ultimo cambiamos el tipo de dato `object` al tipo de dato `float` para poder operar cálculos numéricos.

> Con esta limpieza y transformación de datos la columna `price` queda sin valores `NaN` y lista para ser usada.

In [278]:
# Obtener los valores únicos de la columna 'price'
precios_unicos = df_steam_games['price'].unique()

print(precios_unicos)

[4.99 'Free To Play' 'Free to Play' 0.99 2.99 3.99 9.99 18.99 29.99 None
 'Free' 10.99 1.5899999999999999 14.99 1.99 59.99 8.99 6.99 7.99 39.99
 19.99 7.49 12.99 5.99 2.49 15.99 1.25 24.99 17.99 61.99 3.49 11.99 13.99
 'Free Demo' 'Play for Free!' 34.99 74.76 1.49 32.99 99.99 14.95 69.99
 16.99 79.99 49.99 5.0 44.99 13.98 29.96 119.99 109.99 149.99 771.71
 'Install Now' 21.99 89.99 'Play WARMACHINE: Tactics Demo' 0.98 139.92
 4.29 64.99 'Free Mod' 54.99 74.99 'Install Theme' 0.89 'Third-party' 0.5
 'Play Now' 299.99 1.29 3.0 15.0 5.49 23.99 49.0 20.99 10.93
 1.3900000000000001 'Free HITMAN™ Holiday Pack' 36.99 4.49 2.0 4.0 9.0
 234.99 1.9500000000000002 1.5 199.0 189.0 6.66 27.99 10.49 129.99 179.0
 26.99 399.99 31.99 399.0 20.0 40.0 3.33 199.99 22.99 320.0 38.85 71.7
 59.95 995.0 27.49 3.39 6.0 19.95 499.99 16.06 4.68 131.4 44.98 202.76 1.0
 2.3 0.9500000000000001 172.24 249.99 2.9699999999999998 10.96 10.0 30.0
 2.66 6.48 19.29 11.15 18.9 2.89 'Play the Demo' 99.0 87.94 599.0 8.98
 9

In [279]:
# Reemplazar etiquetas por 0.0
etiquetas_gratuitas = ['Free To Play', 'Free to Play', 'Free', 'Free Demo', 'Play for Free!', 'Install Now', 'Play WARMACHINE: Tactics Demo', 'Free Mod', 'Install Theme', 'Third-party', 'Play Now', 'Free HITMAN™ Holiday Pack', 'Play the Demo', 'Free to Try', 'Free Movie', 'Free to Use']
df_steam_games['price'].replace(etiquetas_gratuitas, 0.0, inplace=True)

In [280]:
# Reemplazar 'Starting at $499.00' por '499.00'
df_steam_games['price'] = df_steam_games['price'].replace('Starting at $499.00', '499.00')

In [281]:
# Reemplazar 'Starting at $499.00' por '499.00'
df_steam_games['price'] = df_steam_games['price'].replace('Starting at $449.00', '449.00')

In [282]:
# Calcular la mediana
mediana = df_steam_games['price'].median()

# Imputar los valores nulos con la mediana
df_steam_games['price'].fillna(mediana, inplace=True)

In [283]:
# Convertir la columna 'price' a float
df_steam_games['price'] = df_steam_games['price'].astype(float)

### Limpieza de la columna **``developer``**

Caracteristicas de la columna `developer`: 

- El tipo de dato es ``object`` contiene valores de tipo genérico. 
- Contiene **``3299``** valores `NaN`  
- Cantidad de desarrolladores unicos **``10992``** 
- Se tomo la decision de que los valores nulos `NaN` primero se reemplazaran por los valores que contenia la columna ``publisher`` que es igual  a ``developer`` inicialmente teniamos en la columna developer `3299` valores nulos haciendo este cambio bajo el número a `3234`
- Eliminamos la columna **``publisher``**
- Reemplazamos los valores nulos restante en ``developer ``con el valor ``Dev-desconocidos`` para categorizar esta lista de desarrolladores y conservar los datos para las consultas
- Eliminando todo los valores `NaN` a `0`
- Se cambio al tipo de dato ``string``


In [284]:
# contar con numeros la cantidad de desarrolladores unicos
desarrolladores_unicos = df_steam_games['developer'].nunique()
desarrolladores_unicos

10992

In [285]:
# Reemplazar los valores nulos en 'developer' con los valores correspondientes de 'publisher'
df_steam_games['developer'].fillna(df_steam_games['publisher'], inplace=True)

In [286]:
df_steam_games.isnull().sum()

publisher       8052
genres          3283
app_name           2
title           2050
url                0
release_date    2067
tags             163
reviews_url        2
specs            670
price              0
early_access       0
id                 2
developer       3234
dtype: int64

In [287]:
# Eliminar la columna publisher y resetear el indice
df_steam_games.drop(columns=['publisher'], inplace=True)

In [288]:
# Reemplazar cualquier valor nulo restante en 'developer' con un valor predeterminado
df_steam_games['developer'].fillna('Dev-desconocidos', inplace=True)

In [289]:
df_steam_games.isnull().sum()

genres          3283
app_name           2
title           2050
url                0
release_date    2067
tags             163
reviews_url        2
specs            670
price              0
early_access       0
id                 2
developer          0
dtype: int64

In [290]:
df_steam_games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32135 entries, 0 to 32134
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   genres        28852 non-null  object 
 1   app_name      32133 non-null  object 
 2   title         30085 non-null  object 
 3   url           32135 non-null  object 
 4   release_date  30068 non-null  object 
 5   tags          31972 non-null  object 
 6   reviews_url   32133 non-null  object 
 7   specs         31465 non-null  object 
 8   price         32135 non-null  float64
 9   early_access  32135 non-null  float64
 10  id            32133 non-null  float64
 11  developer     32135 non-null  object 
dtypes: float64(3), object(9)
memory usage: 2.9+ MB


### Limpieza de la columna **``release_date``**

Caracteristicas de la columna `release_date`: 

- El tipo de dato es ``object`` contiene valores de tipo genérico. 
- Contiene **``2067``** valores `NaN`  
- Los tipos de valores unicos de la columna **``release_date``** estaban con valores mal estructurados ejemplo: YYYY-MM-DD (2018-01-04), `NaN`, soon.., Beta测试已开启, Jun 2009, etc. 
- Se tomo la decision de extraer solo los valores que seguían este formato ``YYYY`` es decir los años 
- El resto de valores que solo contenian caracteres los convertimos en **``0``** que representa valores desconocidos de igual forma se aplico lo mismo para  los `NaN`
- Se cambio al tipo de dato ``int``

---
Después de aplicar los pasos anteriores obtemos los siguientes valores de los años únicos registrados en la base de datos ``users_items``:

Donde **``0``** representa los valores desconocidos, tenemos registros desde **``1970``** hasta el **``2021``** notamos que un año esta fuera de contexto el año **``5275``** así que lo convertimos a un año ***desconocido***. Entendiendo que la extracción se tomo de este valor 预热群**5275**6441

| Años Únicos |
|:-----------:|
| 5275        |
| 2021        |
| 2019        |
| 2018        |
| 2017        |
| 2016        |
| 2015        |
| 2014        |
| 2013        |
| 2012        |
| 2011        |
| 2010        |
| 2009        |
| 2008        |
| 2007        |
| 2006        |
| 2005        |
| 2004        |
| 2003        |
| 2002        |
| 2001        |
| 2000        |
| 1999        |
| 1998        |
| 1997        |
| 1996        |
| 1995        |
| 1994        |
| 1993        |
| 1992        |
| 1991        |
| 1990        |
| 1989        |
| 1988        |
| 1987        |
| 1986        |
| 1985        |
| 1984        |
| 1983        |
| 1982        |
| 1981        |
| 1980        |
| 1975        |
| 1970        |
| 0           |



In [291]:
# Extraer el año de la columna 'release_date'
df_steam_games['release_date'] = df_steam_games['release_date'].str.extract(r'(\d{4})')

In [292]:
#  Rellenamos los nulos con 0 y convertimos la columna release_date a int usando la siguiente función
def transform_release_date(df_steam_games):
    df_steam_games['release_date'] = df_steam_games['release_date'].fillna('0').astype(int)
    return df_steam_games

df_steam_games = transform_release_date(df_steam_games)

In [293]:
# Resetear el indice
df_steam_games.reset_index(drop=True, inplace=True)

In [294]:
# valores unicos de la columna release_date en una lista
unique_dates = df_steam_games['release_date'].unique()
unique_dates.sort()
unique_dates = list(unique_dates[::-1])
print(unique_dates)

[5275, 2021, 2019, 2018, 2017, 2016, 2015, 2014, 2013, 2012, 2011, 2010, 2009, 2008, 2007, 2006, 2005, 2004, 2003, 2002, 2001, 2000, 1999, 1998, 1997, 1996, 1995, 1994, 1993, 1992, 1991, 1990, 1989, 1988, 1987, 1986, 1985, 1984, 1983, 1982, 1981, 1980, 1975, 1970, 0]


In [295]:
# buscar el 'año' 5275
df_steam_games[df_steam_games['release_date'] == 5275]

Unnamed: 0,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,id,developer
13428,"[Casual, Indie, Early Access]",Puzzle Sisters Foer,Puzzle Sisters Foer,http://store.steampowered.com/app/710190/Puzzl...,5275,"[Early Access, Casual, Indie]",http://steamcommunity.com/app/710190/reviews/?...,"[Single-player, Steam Achievements, Steam Trad...",4.99,1.0,710190.0,一次元创作组


In [296]:
# Cambiar el 'año' 5275 y reemplazarlo por 0
df_steam_games['release_date'] = df_steam_games['release_date'].replace(5275, 0)


In [297]:
# mostrar la frecuencia de los valores en la columna 'release_date'
frecuencia = df_steam_games['release_date'].value_counts()
frecuencia

release_date
2017    9595
2016    6943
2015    4952
2014    2844
0       2169
2013    1552
2012    1193
2011     590
2010     442
2009     341
2008     213
2007     167
2018     159
2006     155
2005     102
2003      84
2004      79
2001      69
1998      61
1999      55
2002      50
1997      42
2000      40
1996      39
1994      36
1993      34
1995      33
1991      16
1992      15
1990      12
1989      10
1987       9
1988       7
1984       4
1983       4
2019       4
1985       3
1982       3
1981       3
1970       2
1986       1
2021       1
1975       1
1980       1
Name: count, dtype: int64

In [298]:
# mostrar números de valores total del dataframe
df_steam_games.shape


(32135, 12)

In [299]:
# contar los valores nulos del dataframe
df_steam_games.isnull().sum()

genres          3283
app_name           2
title           2050
url                0
release_date       0
tags             163
reviews_url        2
specs            670
price              0
early_access       0
id                 2
developer          0
dtype: int64

### Liempieza de la columna **``id``** y **``app_name``**
### **``id``**
- El tipo de dato es ``object`` contiene valores de tipo genérico. 
- En la columna **``id``** y **``app_name``** encontramos dos valores nulos en cada columna. ``app_name: 2``, ``id: 2``.
- En la columna id reemplazamos un valor **``NaN``** por **``0``** que sería un id no identifado y en el segundo valor **``NaN``** observamos que pertenecia al id **``200260 ``** así que lo reemplazamos por ese valor. 
- Renombramos la columna **``id``** a **``item_id``**
- Convertir la columna ``item_id`` a ``int``

### **``app_name``**
- Renombramos la columna **``app_name``** a **``item_name``**
- En el valor **`` NaN ``** encontrado del indice ``2580`` de nuestro dataframe para fines practico entre a la url donde me llevo a la pagina del juego **Duet** asi que simplemente lo reemplace por ese nombre ya que solo teniamos dos valores nulos, el otro valor fue remplazado a ***SinNombre***.
- 

In [300]:
# Renombramos la columna 'id' a 'item_id'
df_steam_games = df_steam_games.rename(columns={'id': 'item_id'})

In [301]:
# Buscar los valores nulos en la columna 'item_id'
item_id_null = df_steam_games[df_steam_games['item_id'].isnull()]

# Imprimir los valores nulos
item_id_null

Unnamed: 0,genres,app_name,title,url,release_date,tags,reviews_url,specs,price,early_access,item_id,developer
74,,,,http://store.steampowered.com/,0,,,,19.99,0.0,,Dev-desconocidos
30961,"[Action, Adventure]",Batman: Arkham City - Game of the Year Edition,Batman: Arkham City - Game of the Year Edition,http://store.steampowered.com/app/200260,2012,"[Action, Open World, Batman, Adventure, Stealt...",,"[Single-player, Steam Achievements, Steam Trad...",19.99,0.0,,"Rocksteady Studios,Feral Interactive (Mac)"


In [302]:
# Cambiar el valor de la columna 'item_id' en la fila con índice 30961 a 200260
df_steam_games.loc[30961, 'item_id'] = 200260

In [303]:
# Cambiar el valor de la columna 'item_id' en la fila con índice 30961 a 200260
df_steam_games.loc[74, 'item_id'] = 0

In [304]:
# buscar valores nulos de la columna item_id
df_steam_games['item_id'].isnull().sum()

0

In [305]:
# Convertir la columna 'item_id' a int
df_steam_games['item_id'] = df_steam_games['item_id'].astype(int)

In [306]:
# Cambiar el valor de la columna 'app_name' en la fila con índice 2580 a 'Duet'
df_steam_games.loc[2580, 'app_name'] = 'Duet'

In [307]:
# Cambiar el valor de la columna 'app_name' en la fila con índice 74 a 'SinNombre'
df_steam_games.loc[74, 'app_name'] = 'SinNombre'

In [308]:
# Renombrar la columna 'app_name' a 'item_name'
df_steam_games = df_steam_games.rename(columns={'app_name': 'item_name'})

In [309]:
# contar los valores nulos del dataframe
df_steam_games.isnull().sum()

genres          3283
item_name          0
title           2050
url                0
release_date       0
tags             163
reviews_url        2
specs            670
price              0
early_access       0
item_id            0
developer          0
dtype: int64

In [310]:
# cantidad de filas por columna
df_steam_games.count() 

genres          28852
item_name       32135
title           30085
url             32135
release_date    32135
tags            31972
reviews_url     32133
specs           31465
price           32135
early_access    32135
item_id         32135
developer       32135
dtype: int64

### Columnas para **eliminar**
1. early_acces
2. title
3. publisher
4. reviews_url
5. url
6. tags
7. specs
---
### Se **usaran**
1. genres
2. item_name 
3. release_date 
4. price 
5. item_id 
6. developer

### Limpieza de la columna **``genres``**

Caracteristicas de la columna `genres`: 
- Tipo de dato `object`
- Necesitamos descomponer la columna **``genres``**, que está compuesta por una estructura similar a una lista **`(lista-like)`**, para separar cada elemento presente en una fila y generar una nueva fila para cada uno de estos elementosm para eso usaremos el método **`.explode`**
- 

In [311]:
df_steam_games = df_steam_games.explode('genres')

In [312]:
# Rellenar los valores faltantes con una lista vacía y asegurarse de que los géneros estén en formato de lista
df_steam_games = df_steam_games.assign(
    genres=df_steam_games['genres'].apply(lambda x: ', '.join(x if isinstance(x, list) else [x] if pd.notnull(x) else []))
)

# Crear variables ficticias para los géneros
dummy_genres = df_steam_games['genres'].str.get_dummies(', ')

# Concatenar las variables ficticias con el DataFrame original
df_steam_games = pd.concat([df_steam_games, dummy_genres], axis=1)

transformamos la columna **`tags`** para que sus valores estén en un formato diferente, específicamente convirtiendo las listas en cadenas separadas por comas, para eso usaremos la función **`convert_tags`**

In [313]:
def convert_tags(tags):
    if isinstance(tags, list):
        return ', '.join(tags)
    elif isinstance(tags, str):
        try:
            tags_list = ast.literal_eval(tags)
            return ', '.join(tags_list)
        except (SyntaxError, ValueError):
            return tags
    return tags

# Aplica la función al DataFrame
df_steam_games['tags'] = df_steam_games['tags'].map(convert_tags)

La función **`update_genres `** busca rellenar los valores nulos en la columna **`genres`** del DataFrame. Si la columna tiene la representación **`[, ]`** o es nula, extrae las etiquetas de la columna **`tags`**, encuentra los géneros únicos y los une en una cadena separada por comas para rellenar los nulos en **`genres`**. Si la columna **`genres`** ya contiene datos o no es nula, mantiene el valor existente en esa columna. La función se aplica a cada fila del DataFrame.

In [314]:
# Obtener los géneros únicos
unique_genres = df_steam_games['genres'].dropna().unique()

# Función para rellenar nulos en 'genres'
def update_genres(row):
    if pd.isna(row['genres']):
        # Divide la cadena de tags en una lista de tags
        tags = row['tags'].split(', ') if pd.notna(row['tags']) else []
        # Encuentra la intersección de tags y unique_genres
        genres_in_tags = list(set(tags) & set(unique_genres))
        # Si se encuentran géneros en tags, únelos en una cadena
        return ', '.join(genres_in_tags) if genres_in_tags else row['genres']
    else:
        return row['genres']

# Aplica la función
df_steam_games['genres'] = df_steam_games.apply(update_genres, axis=1)

In [315]:
# mostrar generos unicos 
df_steam_games['genres'].unique()

array(['Action', 'Casual', 'Indie', 'Simulation', 'Strategy',
       'Free to Play', 'RPG', 'Sports', 'Adventure', '', 'Racing',
       'Early Access', 'Massively Multiplayer',
       'Animation &amp; Modeling', 'Video Production', 'Utilities',
       'Web Publishing', 'Education', 'Software Training',
       'Design &amp; Illustration', 'Audio Production', 'Photo Editing',
       'Accounting'], dtype=object)

In [316]:
df_steam_games['tags'] = df_steam_games['tags'].str.replace(',', '') #Eliminamos las comas de los elementos de la columna tags

In [317]:
df_steam_games['genres'] = df_steam_games['genres'].apply(lambda x: '[]' if pd.isna(x) or x == '' else x) #Reemplazamos los valores nulos y las cadenas vacías por [] en la columna genres

In [318]:
def convert_genres_to_string(df):
    df['genres'] = df['genres'].astype('string')
    return df

df_steam_games = convert_genres_to_string(df_steam_games)
df_steam_games.head()

Unnamed: 0,genres,item_name,title,url,release_date,tags,reviews_url,specs,price,early_access,...,Photo Editing,RPG,Racing,Simulation,Software Training,Sports,Strategy,Utilities,Video Production,Web Publishing
0,Action,Lost Summoner Kitty,Lost Summoner Kitty,http://store.steampowered.com/app/761140/Lost_...,2018,Strategy Action Indie Casual Simulation,http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,0.0,...,0,0,0,0,0,0,0,0,0,0
0,Casual,Lost Summoner Kitty,Lost Summoner Kitty,http://store.steampowered.com/app/761140/Lost_...,2018,Strategy Action Indie Casual Simulation,http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,0.0,...,0,0,0,0,0,0,0,0,0,0
0,Indie,Lost Summoner Kitty,Lost Summoner Kitty,http://store.steampowered.com/app/761140/Lost_...,2018,Strategy Action Indie Casual Simulation,http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,0.0,...,0,0,0,0,0,0,0,0,0,0
0,Simulation,Lost Summoner Kitty,Lost Summoner Kitty,http://store.steampowered.com/app/761140/Lost_...,2018,Strategy Action Indie Casual Simulation,http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,0.0,...,0,0,0,1,0,0,0,0,0,0
0,Strategy,Lost Summoner Kitty,Lost Summoner Kitty,http://store.steampowered.com/app/761140/Lost_...,2018,Strategy Action Indie Casual Simulation,http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,0.0,...,0,0,0,0,0,0,1,0,0,0


In [319]:
df_steam_games.head(0)

Unnamed: 0,genres,item_name,title,url,release_date,tags,reviews_url,specs,price,early_access,...,Photo Editing,RPG,Racing,Simulation,Software Training,Sports,Strategy,Utilities,Video Production,Web Publishing


In [320]:
def drop_unnecessary_columns(df):
    columns_to_drop = ['tags', 'Accounting', 'Action', 'Adventure', 'Animation &amp; Modeling', 'Audio Production', 'Casual', 'Design &amp; Illustration', 'Early Access', 'Education', 'Free to Play', 'Indie', 'Massively Multiplayer', 'Photo Editing', 'RPG', 'Racing', 'Simulation', 'Software Training', 'Sports', 'Strategy', 'Utilities', 'Video Production', 'Web Publishing']
    df = df.drop(columns=columns_to_drop)
    return df

df_steam_games = drop_unnecessary_columns(df_steam_games)

In [321]:
df_steam_games = df_steam_games.reset_index(drop=True)

In [322]:
df_steam_games.head(4)

Unnamed: 0,genres,item_name,title,url,release_date,reviews_url,specs,price,early_access,item_id,developer
0,Action,Lost Summoner Kitty,Lost Summoner Kitty,http://store.steampowered.com/app/761140/Lost_...,2018,http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,0.0,761140,Kotoshiro
1,Casual,Lost Summoner Kitty,Lost Summoner Kitty,http://store.steampowered.com/app/761140/Lost_...,2018,http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,0.0,761140,Kotoshiro
2,Indie,Lost Summoner Kitty,Lost Summoner Kitty,http://store.steampowered.com/app/761140/Lost_...,2018,http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,0.0,761140,Kotoshiro
3,Simulation,Lost Summoner Kitty,Lost Summoner Kitty,http://store.steampowered.com/app/761140/Lost_...,2018,http://steamcommunity.com/app/761140/reviews/?...,[Single-player],4.99,0.0,761140,Kotoshiro


In [323]:
# mostrar valores unicos de la columna genres en una lista

df_steam_games['genres'].unique()

<StringArray>
[                   'Action',                    'Casual',
                     'Indie',                'Simulation',
                  'Strategy',              'Free to Play',
                       'RPG',                    'Sports',
                 'Adventure',                        '[]',
                    'Racing',              'Early Access',
     'Massively Multiplayer',  'Animation &amp; Modeling',
          'Video Production',                 'Utilities',
            'Web Publishing',                 'Education',
         'Software Training', 'Design &amp; Illustration',
          'Audio Production',             'Photo Editing',
                'Accounting']
Length: 23, dtype: string

In [324]:
# Cambiar los valores de la columna 'genres' 'Free to Play' y 'Early Access' por la etiqueta 'Desconocido'
df_steam_games['genres'] = df_steam_games['genres'].replace(['Free to Play', 'Early Access', '[]'], 'Desconocido')

In [325]:
# buscar el valor Early Access en la columna genres
df_steam_games[df_steam_games['genres'].str.contains('Desconocido')] 

Unnamed: 0,genres,item_name,title,url,release_date,reviews_url,specs,price,early_access,item_id,developer
5,Desconocido,Ironbound,Ironbound,http://store.steampowered.com/app/643980/Ironb...,2018,http://steamcommunity.com/app/643980/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",0.00,0.0,643980,Secret Level SRL
10,Desconocido,Real Pool 3D - Poolians,Real Pool 3D - Poolians,http://store.steampowered.com/app/670290/Real_...,2017,http://steamcommunity.com/app/670290/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",0.00,0.0,670290,Poolians.com
17,Desconocido,Log Challenge,,http://store.steampowered.com/app/773570/Log_C...,0,http://steamcommunity.com/app/773570/reviews/?...,"[Single-player, Full controller support, HTC V...",2.99,0.0,773570,Dev-desconocidos
21,Desconocido,SNOW - All Access Basic Pass,SNOW - All Access Basic Pass,http://store.steampowered.com/app/774276/SNOW_...,2018,http://steamcommunity.com/app/774276/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",9.99,0.0,774276,Poppermost Productions
25,Desconocido,SNOW - All Access Pro Pass,SNOW - All Access Pro Pass,http://store.steampowered.com/app/774277/SNOW_...,2018,http://steamcommunity.com/app/774277/reviews/?...,"[Single-player, Multi-player, Online Multi-Pla...",18.99,0.0,774277,Poppermost Productions
...,...,...,...,...,...,...,...,...,...,...,...
74800,Desconocido,Robotpencil Presents: Creative Composition,Robotpencil Presents: Creative Composition,http://store.steampowered.com/app/777930/Robot...,2018,http://steamcommunity.com/app/777930/reviews/?...,,3.99,0.0,777930,Dev-desconocidos
74801,Desconocido,The Gamble House,The Gamble House,http://store.steampowered.com/app/775370/The_G...,2016,http://steamcommunity.com/app/775370/reviews/?...,[Captions available],4.99,0.0,775370,Dev-desconocidos
74802,Desconocido,Kalen Chock Presents: 2017 Free Tutorial,Kalen Chock Presents: 2017 Free Tutorial,http://store.steampowered.com/app/777950/Kalen...,2018,http://steamcommunity.com/app/777950/reviews/?...,,0.00,0.0,777950,Dev-desconocidos
74808,Desconocido,Cricket Club,Cricket Club,http://store.steampowered.com/app/772180/Crick...,2018,http://steamcommunity.com/app/772180/reviews/?...,[Single-player],4.99,1.0,772180,VersoVR


In [326]:
df_steam_games.shape

(74837, 11)

In [327]:
# mostrar valores null en el dataframe
df_steam_games.isnull().sum()

genres             0
item_name          0
title           2051
url                0
release_date       0
reviews_url        3
specs            941
price              0
early_access       0
item_id            0
developer          0
dtype: int64

In [328]:
# ver frecuencia de valores en la columna genres
df_steam_games['genres'].value_counts()

genres
Indie                        15858
Action                       11321
Casual                        8282
Adventure                     8243
Strategy                      6957
Desconocido                   6776
Simulation                    6699
RPG                           5479
Sports                        1257
Massively Multiplayer         1108
Racing                        1083
Design &amp; Illustration      460
Utilities                      340
Web Publishing                 268
Animation &amp; Modeling       183
Education                      125
Video Production               116
Software Training              105
Audio Production                93
Photo Editing                   77
Accounting                       7
Name: count, dtype: Int64

Eliminamos las columnas que no usaremos
1. early_acces
2. title
3. publisher
4. reviews_url
5. url
6. tags
7. specs

### Se **usaran**
1. genres
2. item_name 
3. release_date 
4. price 
5. item_id 
6. developer

- cambiar tipos de datos 

In [329]:
# Eliminamos ls columnas que no usaremos
df_steam_games = df_steam_games.drop(columns=['early_access', 'reviews_url', 'url', 'title','specs'])

In [330]:
df_steam_games.head(0)

Unnamed: 0,genres,item_name,release_date,price,item_id,developer


In [331]:
df_steam_games.shape

(74837, 6)

In [332]:
# Cambiar el tipo de dato de las columnas 'item_name' y 'developer' a string
df_steam_games['item_name'] = df_steam_games['item_name'].astype(str)
df_steam_games['developer'] = df_steam_games['developer'].astype(str)

In [333]:
df_steam_games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 74837 entries, 0 to 74836
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   genres        74837 non-null  string 
 1   item_name     74837 non-null  object 
 2   release_date  74837 non-null  int32  
 3   price         74837 non-null  float64
 4   item_id       74837 non-null  int32  
 5   developer     74837 non-null  object 
dtypes: float64(1), int32(2), object(2), string(1)
memory usage: 2.9+ MB


In [334]:
# cantidad de filas por columna
df_steam_games.count() 

genres          74837
item_name       74837
release_date    74837
price           74837
item_id         74837
developer       74837
dtype: int64

In [335]:
df_steam_games

Unnamed: 0,genres,item_name,release_date,price,item_id,developer
0,Action,Lost Summoner Kitty,2018,4.99,761140,Kotoshiro
1,Casual,Lost Summoner Kitty,2018,4.99,761140,Kotoshiro
2,Indie,Lost Summoner Kitty,2018,4.99,761140,Kotoshiro
3,Simulation,Lost Summoner Kitty,2018,4.99,761140,Kotoshiro
4,Strategy,Lost Summoner Kitty,2018,4.99,761140,Kotoshiro
...,...,...,...,...,...,...
74832,Racing,Russian Roads,2018,1.99,610660,Laush Dmitriy Sergeevich
74833,Simulation,Russian Roads,2018,1.99,610660,Laush Dmitriy Sergeevich
74834,Casual,EXIT 2 - Directions,2017,4.99,658870,"xropi,stev3ns"
74835,Indie,EXIT 2 - Directions,2017,4.99,658870,"xropi,stev3ns"


In [337]:
# mostrar valores null en el dataframe
df_steam_games.isnull().sum()

genres          0
item_name       0
release_date    0
price           0
item_id         0
developer       0
dtype: int64

Convertimos el **`DataFrame`** **`df_steam_games`** a un archivo **`Parquet`** utilizando el método **`to_parquet()`**

In [336]:
# convertir el dataframe a parquet
df_steam_games.to_parquet('games.parquet', index=False)