# ![Steam](https://www.vortez.net/contentteller.php?ct=news&action=file&id=18653)

## Steam games analysis

Este proyecto tiene como objetivo realizar un análisis exhaustivo de un conjunto de datos de juegos de la plataforma Steam.

El proceso comienza con la limpieza y transformación de los datos para asegurar su calidad y consistencia, abordando aspectos como la eliminación de datos faltantes y la corrección de errores.

Posteriormente, se llevará a cabo una serie de análisis y filtrados para extraer información relevante sobre los juegos, como sus precios, valoraciones y descuentos.

El objetivo final es obtener conclusiones útiles que puedan proporcionar una visión detallada del mercado de juegos en Steam y apoyar decisiones informadas sobre tendencias y preferencias de los usuarios.

---
#### 1. Carga y exploración inicial
---

In [30]:
import pandas as pd

filepath = './data/steam_store_data_2024.csv'

df = pd.read_csv(filepath)

In [31]:
# Obtenemos un resumen del DataFrame con las primeas 5 filas

df.head()

Unnamed: 0,title,description,price,salePercentage,recentReviews,allReviews
0,Ori and the Will of the Wisps,Play the critically acclaimed masterpiece. Emb...,$9.89,-67%,Overwhelmingly Positive,Overwhelmingly Positive
1,"Flashing Lights - Police, Firefighting, Emerge...",Play solo or in up to 10-player multiplayer co...,$8.49,-66%,Very Positive,Very Positive
2,Thronefall,A minimalist game about building and defending...,$5.24,-25%,Overwhelmingly Positive,Overwhelmingly Positive
3,DRAGON QUEST® XI S: Echoes of an Elusive Age™ ...,The Definitive Edition includes the critically...,$23.99,-40%,Very Positive,Very Positive
4,UNDYING,"As Anling’s zombie infection sets in, her days...",$13.99,-30%,Mostly Positive,Mostly Positive


In [32]:
# Obtenemos información básica sobre el DataFrame

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 86 entries, 0 to 85
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   title           86 non-null     object
 1   description     82 non-null     object
 2   price           61 non-null     object
 3   salePercentage  59 non-null     object
 4   recentReviews   57 non-null     object
 5   allReviews      57 non-null     object
dtypes: object(6)
memory usage: 4.2+ KB


In [33]:
# Obtenemos el nombre de todas las columnas

df.columns

Index(['title', 'description', 'price', 'salePercentage', 'recentReviews',
       'allReviews'],
      dtype='object')

In [34]:
# Obtenemos el tipo de dato de cada columna

df.dtypes

title             object
description       object
price             object
salePercentage    object
recentReviews     object
allReviews        object
dtype: object

In [35]:
# Obtenemos un resumen estadístico del DataFrame

df.describe()

Unnamed: 0,title,description,price,salePercentage,recentReviews,allReviews
count,86,82,61,59,57,57
unique,75,71,34,17,5,5
top,Ori and the Will of the Wisps,Play the critically acclaimed masterpiece. Emb...,$23.99,-40%,Very Positive,Very Positive
freq,2,2,6,10,40,40


In [36]:
# Obtenemos la cantidad de filas y columnas que tiene el DataFrame

df.shape

(86, 6)

---
#### 2. Limpieza de datos y exportación a un nuevo CSV
---

##### Comprueba si existem registros con datos nulos y modificalos con la mejor opción

In [37]:
df.isnull().sum()

title              0
description        4
price             25
salePercentage    27
recentReviews     29
allReviews        29
dtype: int64

Modificamos los nulos de __'description'__:

In [38]:
# Cambiamos los datos nulos de 'description' por un string

df['description'] = df['description'].fillna('Desconocida')

df[df['description'] == 'Desconocida'] 

Unnamed: 0,title,description,price,salePercentage,recentReviews,allReviews
13,Poppy Playtime - Chapter 3,Desconocida,$9.89,-34%,Very Positive,Very Positive
20,HELLDIVERS™ 2 - Upgrade to Super Citizen Edition,Desconocida,$59.99,,,
68,Halo Infinite (Campaign),Desconocida,$23.99,-60%,Mixed,Mixed
76,Destiny 2: Lightfall + Annual Pass,Desconocida,$33.00,-67%,Mostly Negative,Mostly Negative


Modificamos los nulos de __'price'__:

In [39]:
# Eliminamos el símbolo "$"
df['price'] = df['price'].str.replace("$", "")

# Cambiamos el tipo de dato a tipo 'float'
df["price"] = df["price"].astype(float)

# Calculamos el valor medio de la columna
valor_medio_de_precios = df['price'].median()

# Asignamos el valor medio a los registros con el valor nulo
df['price'] = df['price'].fillna(valor_medio_de_precios)

Modificamos los nulos de __'salesPercentage'__:

In [40]:
# Eliminamos el símbolo '%'
df["salePercentage"] = df["salePercentage"].str.replace("%", "")

# Cambiamos el tipo de dato a tipo 'int'ArithmeticError
df['salePercentage'] = df['salePercentage'].astype(float)

# Calculamos el valor moda de la columna
valor_moda_de_salePercentage = df['salePercentage'].mode()[0]

# Asignamos el valor moda a los registros con el valor nulo
df["salePercentage"] = df["salePercentage"].fillna(valor_moda_de_salePercentage)

Modificamos los nulos de __'recentReviews'__ y __'allReviews'__:

In [41]:
df["recentReviews"] = df["recentReviews"].fillna("Desconocida")

df[df["recentReviews"] == "Desconocida"]

Unnamed: 0,title,description,price,salePercentage,recentReviews,allReviews
20,HELLDIVERS™ 2 - Upgrade to Super Citizen Edition,Desconocida,59.99,-40.0,Desconocida,
21,Arms Trade Tycoon: Tanks,Arms Trade Tycoon: Tanks is a unique combinati...,17.15,-40.0,Desconocida,
22,Vampire: The Masquerade - Justice,Become a vampire. Strike from the darkness and...,17.15,-40.0,Desconocida,
24,CLeM,CLeM is a narrative-driven puzzle adventure ga...,17.15,-40.0,Desconocida,
25,Shanghai Summer,Shanghai Summer is an adventure game set in th...,17.15,-40.0,Desconocida,
26,Touhou Danmaku Kagura Phantasia Lost,A rhythm game in which players can play popula...,17.15,-40.0,Desconocida,
27,KONOSUBA - God's Blessing on this Wonderful Wo...,It's time for a Visual Novel Quest with a twis...,17.15,-40.0,Desconocida,
28,WitchHand,"You're a witch, leading your coven into new, u...",17.15,-40.0,Desconocida,
29,SpellRogue,"SpellRogue is a turn-based, deckbuilding rogue...",17.15,-40.0,Desconocida,
30,100 Ninja Cats,100 Ninja Cats - Join the cutest adventure in ...,17.15,-40.0,Desconocida,


In [42]:
df["allReviews"] = df["allReviews"].fillna("Desconocida")

df[df["allReviews"] == "Desconocida"]

Unnamed: 0,title,description,price,salePercentage,recentReviews,allReviews
20,HELLDIVERS™ 2 - Upgrade to Super Citizen Edition,Desconocida,59.99,-40.0,Desconocida,Desconocida
21,Arms Trade Tycoon: Tanks,Arms Trade Tycoon: Tanks is a unique combinati...,17.15,-40.0,Desconocida,Desconocida
22,Vampire: The Masquerade - Justice,Become a vampire. Strike from the darkness and...,17.15,-40.0,Desconocida,Desconocida
24,CLeM,CLeM is a narrative-driven puzzle adventure ga...,17.15,-40.0,Desconocida,Desconocida
25,Shanghai Summer,Shanghai Summer is an adventure game set in th...,17.15,-40.0,Desconocida,Desconocida
26,Touhou Danmaku Kagura Phantasia Lost,A rhythm game in which players can play popula...,17.15,-40.0,Desconocida,Desconocida
27,KONOSUBA - God's Blessing on this Wonderful Wo...,It's time for a Visual Novel Quest with a twis...,17.15,-40.0,Desconocida,Desconocida
28,WitchHand,"You're a witch, leading your coven into new, u...",17.15,-40.0,Desconocida,Desconocida
29,SpellRogue,"SpellRogue is a turn-based, deckbuilding rogue...",17.15,-40.0,Desconocida,Desconocida
30,100 Ninja Cats,100 Ninja Cats - Join the cutest adventure in ...,17.15,-40.0,Desconocida,Desconocida


Resultado final del manejo de datos nulos:

In [43]:
df.isnull().sum()

title             0
description       0
price             0
salePercentage    0
recentReviews     0
allReviews        0
dtype: int64

##### Comprueba si existen registros duplicados, y si existen eliminalos

In [44]:
# Detectamos todos los registros duplicados por el nombre del juego

duplicados = df[df.duplicated(subset=["title"], keep=False)]

nombres_duplicados = duplicados["title"].unique()

print(nombres_duplicados)

['Ori and the Will of the Wisps'
 'Flashing Lights - Police, Firefighting, Emergency Services (EMS) Simulator'
 'Thronefall'
 'DRAGON QUEST® XI S: Echoes of an Elusive Age™ - Definitive Edition'
 'Bendy and the Dark Revival' 'CARRION' 'Thymesia' 'Ready or Not'
 'FINAL FANTASY VII REMAKE INTERGRADE' 'Hogwarts Legacy'
 'Dead by Daylight']


In [45]:
# Eliminamos los registros duplicados

df = df.drop_duplicates()

##### Exportamos el DataFrame limpio a un fichero externo

In [46]:
df.to_csv('./data/cleaned_steam_data.csv')

---
#### 3. Analisis de datos
---

##### Carga del nuevo CSV

In [47]:
clean_df = pd.read_csv('./data/cleaned_steam_data.csv')

##### Identifica el juego más caro

In [48]:
precio_mas_alto = clean_df["price"].max()

clean_df[clean_df["price"] == precio_mas_alto][['title', 'price']]

Unnamed: 0,title,price
20,HELLDIVERS™ 2 - Upgrade to Super Citizen Edition,59.99


##### Identifica el juego más barato

In [49]:
precio_mas_bajo = clean_df["price"].min()

clean_df[clean_df["price"] == precio_mas_bajo][["title", "price"]]

Unnamed: 0,title,price
67,"Star Wars: Battlefront 2 (Classic, 2005)",3.49


##### Identifica el juego con el mayor porcentaje de descuento.

In [50]:
# Obtenemos el valor más bajo de la columna 'salesPercentage'
descuento_maximo = clean_df["salePercentage"].min()

# Mostramos el regitro que tenga el campo 'salesPercetage' igual al valor de 'max_discount'
clean_df[clean_df["salePercentage"] == descuento_maximo][['title', 'salePercentage']]

Unnamed: 0,title,salePercentage
6,Bendy and the Dark Revival,-80.0


##### Identifica el juego con el precio más alto y el más bajo, luego calcula la diferencia en el porcentaje de descuento entre ellos

In [51]:
# Obtenemos el precio del juego más caro y más barato

precio_mas_caro = clean_df["price"].max()

precio_mas_barato = clean_df["price"].min()

# En base a los precios, obtenemos los datos del juego más caro y el juego más barato, importante eliminar el index con 'reset_index' para que solo obtengamos el dato

juego_mas_caro = clean_df[clean_df["price"] == precio_mas_caro].reset_index(drop=True)

juego_mas_barato = clean_df[clean_df["price"] == precio_mas_barato].reset_index(
    drop=True
)

# Al tener todos los datos de ambos juegos podemos obtener la diferencia de ambos con respecto al precio

diferencia_entre_juegos = juego_mas_caro["price"] - juego_mas_barato["price"]

diferencia_entre_juegos

0    56.5
Name: price, dtype: float64

##### Identifica el total de juegos con valoraciones positivas

In [52]:
# Valoraciones positivas incluye: Overwhelmingly Positive, Very Positive, Mostly Positive

lista = ['Overwhelmingly Positive', 'Very Positive', 'Mostly Positive']

juegos_con_reviews_positivas = df[df["recentReviews"].isin(lista)]['title'].count()

print(f"Existen un total de {juegos_con_reviews_positivas} juegos con valoraciones positivas")

Existen un total de 44 juegos con valoraciones positivas


##### Crea una nueva columna llamada discountedPrice y usa la siguiente formula: __discountedPrice=price×(1−salePercentage/100)__

In [53]:
clean_df["discountPrice"] = clean_df["price"] * (1 - clean_df["salePercentage"] / 100)

clean_df.head()

Unnamed: 0.1,Unnamed: 0,title,description,price,salePercentage,recentReviews,allReviews,discountPrice
0,0,Ori and the Will of the Wisps,Play the critically acclaimed masterpiece. Emb...,9.89,-67.0,Overwhelmingly Positive,Overwhelmingly Positive,16.5163
1,1,"Flashing Lights - Police, Firefighting, Emerge...",Play solo or in up to 10-player multiplayer co...,8.49,-66.0,Very Positive,Very Positive,14.0934
2,2,Thronefall,A minimalist game about building and defending...,5.24,-25.0,Overwhelmingly Positive,Overwhelmingly Positive,6.55
3,3,DRAGON QUEST® XI S: Echoes of an Elusive Age™ ...,The Definitive Edition includes the critically...,23.99,-40.0,Very Positive,Very Positive,33.586
4,4,UNDYING,"As Anling’s zombie infection sets in, her days...",13.99,-30.0,Mostly Positive,Mostly Positive,18.187


##### Agrupa los datos por recentReviews y calcula el precio promedio (price) y el precio promedio después del descuento (discountedPrice).

In [54]:
df_agrupado = clean_df.groupby("recentReviews").agg(
    {"price": "mean", "discountPrice": "mean"}
)

df_agrupado

Unnamed: 0_level_0,price,discountPrice
recentReviews,Unnamed: 1_level_1,Unnamed: 2_level_1
Desconocida,20.283103,27.884483
Mixed,23.99,38.384
Mostly Negative,33.0,55.11
Mostly Positive,21.084286,30.436643
Overwhelmingly Positive,10.42,16.16346
Very Positive,20.105625,28.695119


##### Ordena los juegos por precio de mayor a menor, muestras los 3 más caros y los 3 más baratos y despues unificalos

In [55]:
# Ordenamos el DataFrame

df_ordenado_por_precio = clean_df.sort_values(by='price', ascending=False)

In [56]:
# Seleccionamos los 3 más caros

juegos_mas_caros = df_ordenado_por_precio.head(3)

juegos_mas_caros

Unnamed: 0.1,Unnamed: 0,title,description,price,salePercentage,recentReviews,allReviews,discountPrice
20,20,HELLDIVERS™ 2 - Upgrade to Super Citizen Edition,Desconocida,59.99,-40.0,Desconocida,Desconocida,83.986
42,42,Banishers: Ghosts of New Eden,Hunt ghosts as two memorable characters in a s...,49.99,-40.0,Desconocida,Desconocida,69.986
19,19,Hell Let Loose,Join the ever expanding experience of Hell Let...,42.24,-35.0,Very Positive,Very Positive,57.024


In [57]:
# Seleccionamos los 3 más baratos

juegos_mas_baratos = df_ordenado_por_precio.tail(3)

juegos_mas_baratos

Unnamed: 0.1,Unnamed: 0,title,description,price,salePercentage,recentReviews,allReviews,discountPrice
2,2,Thronefall,A minimalist game about building and defending...,5.24,-25.0,Overwhelmingly Positive,Overwhelmingly Positive,6.55
71,80,LEGO® Star Wars™ - The Complete Saga,Kick Some Brick in I through VI! Play through ...,4.99,-75.0,Overwhelmingly Positive,Overwhelmingly Positive,8.7325
67,75,"Star Wars: Battlefront 2 (Classic, 2005)",Join the rise of Darth Vader’s elite 501st Leg...,3.49,-65.0,Very Positive,Very Positive,5.7585


In [58]:
# Unificamos los 3 juegos más caros y más baratos en un DataFrame

lista_definitiva = pd.concat([juegos_mas_caros, juegos_mas_baratos], axis=0)

lista_definitiva

Unnamed: 0.1,Unnamed: 0,title,description,price,salePercentage,recentReviews,allReviews,discountPrice
20,20,HELLDIVERS™ 2 - Upgrade to Super Citizen Edition,Desconocida,59.99,-40.0,Desconocida,Desconocida,83.986
42,42,Banishers: Ghosts of New Eden,Hunt ghosts as two memorable characters in a s...,49.99,-40.0,Desconocida,Desconocida,69.986
19,19,Hell Let Loose,Join the ever expanding experience of Hell Let...,42.24,-35.0,Very Positive,Very Positive,57.024
2,2,Thronefall,A minimalist game about building and defending...,5.24,-25.0,Overwhelmingly Positive,Overwhelmingly Positive,6.55
71,80,LEGO® Star Wars™ - The Complete Saga,Kick Some Brick in I through VI! Play through ...,4.99,-75.0,Overwhelmingly Positive,Overwhelmingly Positive,8.7325
67,75,"Star Wars: Battlefront 2 (Classic, 2005)",Join the rise of Darth Vader’s elite 501st Leg...,3.49,-65.0,Very Positive,Very Positive,5.7585
