## Proyecto CRISP-DM: Fases Business Understanding, EDA & Data Wrangling
 

A partir del siguiente Dataset se realiza el proceso de investigación y consecución de objetivos de Negocio/Tarea de Investigación.

> **Dataset:** https://www.kaggle.com/datasets/nikdavis/steam-store-games

A partir de estos datos, se pretenden alcanzar los siguientes objetivos de Negocio/Investigación:

- Objetivo 1: categorías con más jugadores
- Objetivo 2: generos de videojuegos más caros
- Objetivo 3: generos de videojuegos con más engagement



In [108]:
# Paso 0:  Dataset

### Parte 0: Business Understanding 🤔

Estos datos provienen de Kaggle y pertenecen a Steam. A partir de estos datos obtendremos diferentes KPIs para visualizar que categorías tienen más jugadores, que generos de videojuegos son más caros o que generos de videojuegos generan más engagement.



### Parte 1.1: Exploración de Datos

En este dataset encontraremos, generalmente, tipos string, float, integer e incluso boolean. Obtenemos un total de 27075 filas × 18 columnas

A continuación, se expone el diccionario de datos:
* appid: Integer. Representa el id del videojuego.
* name: String. El nombre del videojuego.
* release_date: String. Fecha de salida.
* english: Boolean. Si el juego está disponible en Inglés.
* developer: String. El nombre de la desarrolladora.
* publisher: String. El nombre de la editora.
* platforms: String. Contiene las plataformas soportadas.
* required_age: Integer. Edad recomendada por el sistema PEGI de UK.
* categories: String. Categorías del videojuego.
* genres: String. Generos del videojuego.
* steamspy_tags: String. Etiquetas del videojuego.
* achievements: Integer. Número de logros del videojuego.
* positive_ratings: Integer. Número de puntuaciones positivas.
* negative_ratings: Integer. Número de puntuaciones negativas.
* average_playtime: Integer. Tiempo medio de juego.
* median_playtime: Integer. Mediana del tiempo medio de juego.
* owners: String. Rango de usuarios que tienen el videojuego.
* price: Float. Precio en GBP.





### Parte 1.2: Pandas

In [109]:
# Carga de datos
import pandas as pd
import numpy as np

steamGames = pd.read_csv('steam.csv', sep = ',')
# head()
steamGames.head()

Unnamed: 0,appid,name,release_date,english,developer,publisher,platforms,required_age,categories,genres,steamspy_tags,achievements,positive_ratings,negative_ratings,average_playtime,median_playtime,owners,price
0,10,Counter-Strike,2000-11-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,0,124534,3339,17612,317,10000000-20000000,7.19
1,20,Team Fortress Classic,1999-04-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,0,3318,633,277,62,5000000-10000000,3.99
2,30,Day of Defeat,2003-05-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Valve Anti-Cheat enabled,Action,FPS;World War II;Multiplayer,0,3416,398,187,34,5000000-10000000,3.99
3,40,Deathmatch Classic,2001-06-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,0,1273,267,258,184,5000000-10000000,3.99
4,50,Half-Life: Opposing Force,1999-11-01,1,Gearbox Software,Valve,windows;mac;linux,0,Single-player;Multi-player;Valve Anti-Cheat en...,Action,FPS;Action;Sci-fi,0,5250,288,624,415,5000000-10000000,3.99


In [110]:
# info()
steamGames.info()
# % Completitud
#Obtenemos un 100% de completitud de los datos, ya que no hay filas con ningun valor nulo

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27075 entries, 0 to 27074
Data columns (total 18 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   appid             27075 non-null  int64  
 1   name              27075 non-null  object 
 2   release_date      27075 non-null  object 
 3   english           27075 non-null  int64  
 4   developer         27075 non-null  object 
 5   publisher         27075 non-null  object 
 6   platforms         27075 non-null  object 
 7   required_age      27075 non-null  int64  
 8   categories        27075 non-null  object 
 9   genres            27075 non-null  object 
 10  steamspy_tags     27075 non-null  object 
 11  achievements      27075 non-null  int64  
 12  positive_ratings  27075 non-null  int64  
 13  negative_ratings  27075 non-null  int64  
 14  average_playtime  27075 non-null  int64  
 15  median_playtime   27075 non-null  int64  
 16  owners            27075 non-null  object

In [111]:
# NA ?
steamGames.isnull().sum() #No hay nulos


appid               0
name                0
release_date        0
english             0
developer           0
publisher           0
platforms           0
required_age        0
categories          0
genres              0
steamspy_tags       0
achievements        0
positive_ratings    0
negative_ratings    0
average_playtime    0
median_playtime     0
owners              0
price               0
dtype: int64

In [112]:
steamGames.notnull().sum() #El resultado no varía con el numero total

appid               27075
name                27075
release_date        27075
english             27075
developer           27075
publisher           27075
platforms           27075
required_age        27075
categories          27075
genres              27075
steamspy_tags       27075
achievements        27075
positive_ratings    27075
negative_ratings    27075
average_playtime    27075
median_playtime     27075
owners              27075
price               27075
dtype: int64

### Parte 2: Data Wrangling

In [113]:
# ¿NA son eliminables?
#En este caso no hace falta eliminar los nulos, porque no hay. En caso de que hubiese, dependería de que columna tiene nulos, 
#pero en general no se deberían de eliminar.

In [115]:
# renombrar columnas...
# iloc/ filtro de los datos que nos interesan
# Crear columnas
steamGames = steamGames.rename(columns={"categories": "categorias", "positive_ratings": "puntuacion_positiva", "negative_ratings": "puntuacion_negativa", "owners": "jugadores_aprox"})

#steamGames['categorias'] = steamGames['categorias'].str.split(";")

total = steamGames['puntuacion_positiva'].astype(int) + steamGames['puntuacion_negativa'].astype(int)

steamGames['puntuacion_positiva'] = round((steamGames['puntuacion_positiva'].astype(int) / total) * 100,2) #Transformado en un porcentaje
steamGames['puntuacion_negativa'] = round((steamGames['puntuacion_negativa'].astype(int) / total) * 100,2) #Transformado en un porcentaje

steamGames['jugadores_aprox'] = steamGames['jugadores_aprox'].str.split("-")
valor1 = float(steamGames['jugadores_aprox'][0][0])
valor2 = float(steamGames['jugadores_aprox'][0][1])

steamGames['jugadores_aprox'] = round((valor1 + valor2)/2,2)



dfBueno = steamGames[['categorias','puntuacion_positiva','puntuacion_negativa', 'jugadores_aprox']]


#steamGames[["categorias", "puntuacion positiva", "puntuacion negativa"]]

In [116]:
dfBueno['total'] = dfBueno['categorias'].str.count(';') + 1
dfBueno

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dfBueno['total'] = dfBueno['categorias'].str.count(';') + 1


Unnamed: 0,categorias,puntuacion_positiva,puntuacion_negativa,jugadores_aprox,total
0,Multi-player;Online Multi-Player;Local Multi-P...,97.39,2.61,15000000.0,4
1,Multi-player;Online Multi-Player;Local Multi-P...,83.98,16.02,15000000.0,4
2,Multi-player;Valve Anti-Cheat enabled,89.56,10.44,15000000.0,2
3,Multi-player;Online Multi-Player;Local Multi-P...,82.66,17.34,15000000.0,4
4,Single-player;Multi-player;Valve Anti-Cheat en...,94.80,5.20,15000000.0,3
...,...,...,...,...,...
27070,Single-player;Steam Achievements,100.00,0.00,15000000.0,2
27071,Single-player,88.89,11.11,15000000.0,1
27072,Single-player;Multi-player;Co-op;Shared/Split ...,0.00,100.00,15000000.0,7
27073,Single-player;Steam Cloud,100.00,0.00,15000000.0,2




### El dataset que nos interesa para los objetivos

In [None]:

# Operar sobre ellas
# Transformar

### Objetivos

In [None]:
# Ir a por los objetivos

## Visualización de datos


In [None]:
# Plots

### Conclusiones 
- En relación al objetivo 1...
- Objetivo 2:
- ...

En resumen, blablabla