
Llevaremos a cabo el EDA en cada conjunto de datos que ya transformamos. El objetivo es tener una vision de como se comportan los datos para luego poder hacer un modelo de recomendacion, el cual se ajuste lo mas posible a lo que buscamos.
Este enfoque sistematico garantiza una comprension detallada de los conjuntos de datos, permitiendo asi una correcta seleccion de los datos mas relevantes para nuestro modelo. 

In [None]:
import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns 
import pyarrow as pa 
import pyarrow.parquet as pq 
import warnings
warnings.filterwarnings('ignore')

In [None]:
df_steam_games = pd.read_parquet('dataset_limpio/steam_games.parquet')
df_steam_games.head()

In [None]:
df_steam_games.info() #obtenemos informacion de las columnas y sus tipos de datos.

In [None]:
#vemos la cantidad de nulos por columna
df_steam_games.isnull().sum()

### Variables categóricas

* **app_name**: nombre de la aplicación
* **item_id**: identificador único del juego
* **developer**: desarrollador del juego
* **release_year**: año de lanzamiento del juego
* **genres** : género del juego




id

In [None]:
games_unique = len(df_steam_games['item_id'].unique()) #con esto obtenemos la cantidad de juegos unicos
games_unique

developer

In [None]:
developer_counts = df_steam_games['developer'].value_counts() #obtenemos la cantidad de jeugos por desarrollador
developer_counts

Procedemos a hacer un grafico de barras para el top 10 de desarrolladores 

In [None]:
sns.set(style="whitegrid")

plt.figure(figsize=(12, 6))  # Tamaño de la figura

developer_data = developer_counts[:10]
sns.barplot(x=developer_data.values, y=developer_data.index, palette="Blues_r")

plt.xlabel('Cantidad de Juegos')
plt.ylabel('Desarrollador')
plt.title('Top 10 Desarrolladores Steam')

# Añadir los valores en las barras
for i, v in enumerate(developer_data.values):
    plt.text(v + 0.1, i, str(v), color='black', va='center', fontsize=10)

plt.show()

**Observación**
- Como podemos ver, 'Ubisoft - San Francisco' es el mayor desarrollador de juegos con 1259.

### `release_year`

In [None]:
#En primera instancia, veremos cuantos juegos hay por su año de lanzamiento
games_per_year = df_steam_games['release_year'].value_counts()
games_per_year

Procedemos a crear un grafico de barras para ver la cantidad de juegos por año de lanzamiento

In [None]:
#creamos un grafico de barras para ver la info 
sns.set(style="whitegrid")

plt.figure(figsize=(13, 8))

ax = sns.barplot(x=games_per_year.index, y=games_per_year.values, palette="Blues")

for p in ax.patches:
    ax.annotate(f'{int(p.get_height())}', (p.get_x() + p.get_width() / 2., p.get_height()),
                ha='center', va='center', xytext=(0, 10), textcoords='offset points', fontsize=10)

ax.set(xlabel='Año de lanzamiento', ylabel='Cantidad de juegos',
       title='Cantidad de juegos por su año de lanzamiento')
ax.set_xticklabels(ax.get_xticklabels(), rotation=45, ha='right')

plt.grid(True, axis='y', linestyle='--', alpha=0.7)

plt.tight_layout()
plt.show()

**Observación**
- como podemos observar en el grafico anterior, se puede apreciar que a partir del año 2003 en adelante, el lanzamiento de juegos empieza a crecer de forma significativa, esto se debe en parte a que steam se introduce como plataforma en ese año, aunque no fue hasta el año 2007 que amplio su modelo de negocio para agregar softwares de terceros en su plataforma. Luego de este suceso podemos apreciar el aumento exponencial de titulos dentro de la plataforma, alcanzando asi su maximo en el año 2017 con un total de 9200 juegos.


### `genres`

In [None]:
genres_quantity = df_steam_games['genres'].value_counts() #contamos la cantidad de juegos por genero
genres_quantity


Procedemos a hacer un grafico countplot para ver mejor la cantidad de juegos por genero

In [None]:
sns.set(style="whitegrid")

plt.figure(figsize=(10, 8))
ax = sns.countplot(data=df_steam_games, y='genres', orient='h', palette='Blues_r')

ax.set_title('Distribución de Juegos por Género en Steam', fontsize=16)
ax.set_xlabel('Cantidad de Juegos', fontsize=14)
ax.set_ylabel('Género', fontsize=14)

for p in ax.patches:
    ax.annotate(f'{int(p.get_width())}', (p.get_width() + 0.1, p.get_y() + 0.5), fontsize=10)

plt.show()

**Observación**

Los generos con mayor cantidad de juegos son:
* **Action** con 11246
* **Casual** con 4338
* **Adventure** con 4312
* **Indie** con 3299

EDA del dataframe 'user_reviews'

In [None]:
df_user_reviews = pd.read_parquet('dataset_limpio/user_reviews.parquet')
df_user_reviews.head()

In [None]:
df_user_reviews.info() #vemos la informacion de las columnas del dataframe

In [None]:
df_user_reviews.isnull().sum() # vemos la cantidad de nulos 

### Variables categóricas

* **user_id** : id del usuario 
* **recommend** : valor booleano que indica si se ha realizado review
* **sentiment_analysis** : clasificación de las reviews en:
    * positivo = 2 
    * negativo = 0 
    * neutral = 1

### `user_id`

In [None]:
#Vemos la cantidad de usuarios de juegos de steam en la plataforma
user_quantity = len(df_user_reviews['user_id'].unique())
user_quantity

**Observación**
- Contamos con 25467 usuarios únicos en el dataframe

### `recommend`

In [None]:
#vemos la cantidad de recomendaciones hechas
recommend_quantity = df_user_reviews['recommend'].value_counts()
recommend_quantity

**Observación**
- Contabilizamos con 52350 recomendaciones de parte de los usuarios.

### `sentiment_analysis`

In [None]:
#vemos el conteo del analisis de sentimiento para cada caso
sentiment_analysis_quantity = df_user_reviews['sentiment_analysis'].value_counts()
sentiment_analysis_quantity

**Observación**
- Las reviews con sentimientos positivos fueron 32181
- Las reviews con sentimientos neutrales fueron 22000
- Las reviews con sentimientos negativos fueron 4980

### Variables numéricas

* **posted_year** : fecha en que se realiza la review

In [None]:
date = df_user_reviews['posted_year'].describe()
date

Procedemos a realizar un countplot de las reviews por fecha

In [None]:
sns.set(style="whitegrid")

plt.figure(figsize=(13, 5))

ax = sns.countplot(data=df_user_reviews, x=df_user_reviews["posted_year"], palette="Blues") 

ax.set_title('Distribución de reviews por Año', fontsize=16)
ax.set_xlabel('Año', fontsize=14)
ax.set_ylabel('Cantidad de reviews', fontsize=14)

ax.set_xticklabels(ax.get_xticklabels(), rotation=45, ha='right')

for p in ax.patches:
    ax.annotate(f'{int(p.get_height())}', (p.get_x() + p.get_width() / 2., p.get_height()),
                ha='center', va='baseline', fontsize=10, color='black')

sns.despine()
plt.show()

**Observación**
- La cantidad total de posteos es de 59161.
- El año con más posteos fue 2014 con 23892 
- El año con menos posteos fue 2010 con 473

EDA de users_items.parquet

In [None]:
df_users_items = pd.read_parquet('dataset_limpio/items_normalized.parquet')
df_users_items.head()

In [None]:
df_users_items.info()

In [None]:
#vemos los nulos del dataframe
df_users_items.isnull().sum()

### Variables categóricas

* **item_name** : titulo del juego Steam

### `item_name`

In [None]:
#vemos la cantidad de juegos en el dataframe
games_quantity = len(df_users_items['item_name'].unique())
games_quantity

In [None]:
#vemos la cantidad de juegos por nombre
games = df_users_items['item_name'].value_counts()
games

**Observación**
- Steam cuenta con la cantidad de 10024 juegos únicos (software) en su catálogo.
- El software mas consumido es "Counter-Strike: Global Offensive" con 42842 registros

### Variables numéricas

* **items_count** : cantidad de juegos Steam que consume un usuario
* **playtime_hours** : cantidad de horas que juega un usuario

### `items_count`

In [None]:
items_count = df_users_items.groupby('user_id')['items_count'].unique().explode() # obtenemos la cantidad de juegos por usuario
items_count= pd.DataFrame(items_count) # convertimos a dataframe
items_count_user = items_count.sort_values('items_count', ascending=False) # ordenamos de mayor a menor
items_count_user

Procedemos a hacer dos graficos:
- Grafico de distribución de cantidad de items por usuario 
- Grafico de caja de cantidad de items por usuario

In [None]:
sns.set(style="whitegrid", palette="plasma")

plt.figure(figsize=(13, 6))
sns.stripplot(data=items_count_user, x='items_count', color="orange", jitter=0.2, alpha=0.7)
plt.xlabel('Cantidad de Items')
plt.ylabel('Frecuencia')
plt.title('Distribución de Cantidad de Items por Usuario')
plt.show()

In [None]:
sns.set(style="whitegrid", palette="plasma")

plt.figure(figsize=(13, 6))
sns.boxplot(data=items_count_user, x='items_count', palette="plasma")
plt.xlabel('Cantidad de Items')
plt.ylabel('Frecuencia')
plt.title('Boxplot de Cantidad de Items por Usuario')
plt.show()

In [None]:
items_count_user.describe()

In [None]:
items_count_user['items_count'].max()

In [None]:
items_count_user.sort_values(by='items_count', ascending=False).head(5)

**Observación**
- La cantidad total artículos consumidos es de 68403. 
- El `user_id` con más cantidad de artículos consumidos es `phrostb` con 7762

### `playtime_hours`

In [None]:
time_count = df_users_items.groupby('user_id')['playtime_hours'].unique().explode()  # Obtenemos el tiempo de juego por usuario
time_count = pd.DataFrame(time_count)  # Convertimos a DataFrame
time_count['playtime_hours'] = time_count['playtime_hours']
time_count_user = time_count.sort_values('playtime_hours', ascending=False)  # Ordenamos de mayor a menor
time_count_user

Procedemos a hacer dos graficos:
- Grafico de distribución de tiempo de juego por usuario 
- Grafico de caja de tiempo de juego por usuario

In [None]:
sns.set(style="whitegrid", palette="plasma")

plt.figure(figsize=(13, 6))
sns.stripplot(data=time_count_user, x='playtime_hours', color="orange", jitter=0.2, alpha=0.7)
plt.xlabel('Tiempo de Juego en horas')
plt.ylabel('Frecuencia')
plt.title('Distribución de Tiempo de Juego por Usuario')
plt.show()

In [None]:
sns.set(style="whitegrid", palette="plasma")

plt.figure(figsize=(13, 6))
sns.boxplot(data=time_count_user, x='playtime_hours', palette="plasma")
plt.xlabel('Tiempo de Juego en horas')
plt.ylabel('Frecuencia')
plt.title('Boxplot de Tiempo de Juego por Usuario')
plt.show()

**Observación**
- El `user_id` con más cantidad de tiempo consumido en juegos Steam es `wolop` con 10713 horas

### Procedemos a crear los datasets finales para las funciones de los endpoints y el modelo de recomendacion

En cuestion a las dos primeras funciones ('PlayTimeGenre' y 'UserForGenre') emplearemos los archivos 'steam_games.parquet' y 'users_items.parquet'. En un principio pensamos que era conveniente juntar ambos datasets utilizando la columna 'item_id'. Sin embargo, dado el tamaño de 'users_items.parquet', se opto por trabajar con ambos archivos de manera independiente

En cuanto a las 3 funciones restantes ('UsersRecommend', 'UsersWorstDeveloper' y 'sentiment_analysis') emplearemos los datasets 'steam_games.parquet' y 'user_reviews.parquet'.
El metodo empleado sera un merge entre ambos archivos y para evitar posibles errores, filtraremos entre los años 2010 y 2015, ya que ambos archivos comparten dicha informacion.

In [None]:
# filtramos los juegos lanzados entre 2010 y 2015
df_steam_games = df_steam_games[df_steam_games['release_year'].between(2010, 2015, inclusive='both')]
df_steam_games.head()

In [None]:
# filtramos los reviews realizados entre 2010 y 2015
df_user_reviews = df_user_reviews[df_user_reviews['posted_year'].between(2010, 2015, inclusive='both')]
df_user_reviews.head()

In [None]:
#unimos 'df_steam_games' con 'df_user_reviews'
df_steamgames_and_reviews = pd.merge(df_steam_games, df_user_reviews, left_on='item_id', right_on='item_id')

In [None]:
df_steamgames_and_reviews.head()

In [None]:
#vemos como quedo conformado el df fusionado
df_steamgames_and_reviews.info()

Pasamos el df a formato CSV

In [None]:
df_steamgames_and_reviews.to_csv('dataset_funciones/steamgames_and_reviews.csv', index=False, encoding='utf-8')

In [None]:
#Leemos el archivo csv
df_games_and_reviews = pd.read_csv("dataset_funciones/steamgames_and_reviews.csv")

tabla = pa.Table.from_pandas(df_games_and_reviews) # convertimos el dataframe en una tabla
pq.write_table(tabla,"dataset_funciones/steamgames_and_reviews.parquet") # guardamos la tabla en un archivo parquet

### Dataset para el modelo de Recomendación

In [None]:
modelo_item = pd.read_parquet('dataset_limpio/steam_games.parquet')
modelo_item

Creamos un dataframe solo con las columnas que necesitamos ('item_id', 'app_name' y 'genres')

In [None]:
modelo_item = modelo_item[['item_id', 'app_name', 'genres']]
modelo_item

In [None]:
#vemos la informacion de este nuevo df
modelo_item.info()

procedemos a guardar dicho df en formato CSV


In [None]:
modelo_item.to_csv('dataset_limpio/modelo_item.csv', index=False, encoding='utf-8')

In [None]:
modelo_item = pd.read_csv("dataset_limpio/modelo_item.csv") # leemos el archivo csv

tabla = pa.Table.from_pandas(modelo_item) # convertimos el dataframe en una tabla de pyarrow
pq.write_table(tabla,"dataset_limpio/modelo_item.parquet") # exportamos la tabla a parquet