# **Análisis de distribución de precios**

In [None]:
# Módulos
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from pathlib import Path

# Carga de datos a DataFrame

Versión no generalizada (Poner tu identificador del dataset), las salidas e interpretaciones tienen que ser cambiadas cuando trabajemos con el dataset entero

In [None]:
base_dir_path =  Path().resolve().parents[1]
df = pd.read_parquet(base_dir_path / "data/processed/games_info.parquet")
df.head(5)

<!-- Ahora, vamos a agrupar los juegos por rangos de precio para trabajar más fácilmente con las gráficas -->

# Gráficos + Conclusiones

#### Pie Chart de rango de precios

In [None]:
plt.figure(figsize=(9,9))
plt.pie(x=df['price_range'].value_counts(),  autopct='%1.1f%%')
plt.legend(df['price_range'].value_counts().index, title='Precios', loc='best')
plt.show()

#### Histograma de precios con transformación logarítmica

In [None]:
bins_range = np.arange(df['price_overview'].min(), df['price_overview'].max() + 5, 5) # Bins van de 5 en 5 

plt.figure(figsize=(15,15))
plt.hist(x=df['price_overview'], log=True, bins= bins_range)
plt.xticks(np.arange(0, df['price_overview'].max() + 5, 50))
plt.show()

Se puede observar que  mayoría de juegos son tienen un precio menor de 20€, seguido por los juegos gratuitos, juegos con precio menor de 40€ y por último juegos con precio mayor a 40€.

Esto se debe principalmente a que la mayoría de juegos de Steam son públicados bajo desarrolladores Indie, los cuales suelen ser juegos con precio menor de 20€.

Se observa que hay juegos con precio mayor de 100€ e incluso alguno con precio mayor de 500€

- - - 

#### Pie Chart de la distribución de los géneros de cada rango de precios.

In [None]:
df['price_range'].unique()

In [None]:
# Por cada genero del array de 'genres', crea una fila por cada miembro del array
df_exploded = df.explode('genres')
df_exploded

# Agrupamos en una tabla los juegos por precio y género
price_genre_counts = df_exploded.groupby(['price_range', 'genres']).size().unstack(fill_value=0)

price_order = df['price_range'].unique()

for price_range in price_order:
    plt.figure(figsize=(8,8))
    genre_counts = price_genre_counts.loc[price_range]
    genre_counts = genre_counts[genre_counts > 0]
    
    plt.pie(
        genre_counts.values,
        labels=genre_counts.index,
        autopct='%1.1f%%',
    )
    plt.title(f'Géneros en rango de precio: {price_range}')

    plt.show()

#### Bar plot de los precios y los géneros

In [None]:
# Agrupamos los juegos en una tabla por género y precio
genre_price_counts = df_exploded.groupby(['genres', 'price_range']).size().unstack(fill_value=0)

genre_price_counts.plot(kind='barh', figsize=(12,8))

plt.xlabel('Número de juegos')
plt.ylabel('Género')
plt.title('Distribución de precio por género')
plt.legend(title='Precio')
plt.tight_layout()
plt.show()


- - -

Conclusión general: Se observa una distribución de cola larga con alta concentración en los juegos menores de 20 € y estas distribuciones se mantienen en cada género.