# Proyecto individual de DA: Gaming

## Objetivo de negocio:
Grupo inversor está dispuesto a invertir en el desarrollo de nuevos productos, para ello, nos solicitar lo siguietne:
* Analizar el mercado de videojuegos.
* Identificar posibles nichos para desarrollar nuevos productos.
* Encontrar los insights y presentarlos.

### Preguntas a considerar y responder

* ¿Qué análisis podemos hacer del mercado actual?
* ¿Qué lineamientos generales deberá tener en cuenta el grupo inversor a la hora de determinar el primer juego de la empresa, para lograr aprovechar al máximo las tendencias del mercado, y así lograr el objetivo planteado?
* ¿Qué diferencias encontramos entre las distintas plataformas?
* ¿Qué relación podemos considerar en cuanto a la población e ingresos per cápita de los países? 
* ¿En qué regiones conviene enfocarse?
* ¿Podemos determinar algo con respecto a los rangos etarios u otras características demográficas?
* ¿Podemos estimar las ventas de los juegos actuales o al menos de una categoría? Shooters por ejemplo.

### Dataset a utilizar
| Archivos:
| ------ 
| Indicadores_del_desarrollo_humano_mundial Banco Mundial Indicadores de desarrollo humano. 
| Console_sales Reporte de ventas anuales de consolas. por marca y modelo. 
| Juegos en steam. Reporte con estadísticas de uso de juegos en Steam. Incluye recomendaciones  tiempo de uso, etc. 
| Video Games Sales Reporte de ventas por Video Juego y Plataforma. Incluye ranking y apertura por mercados (NA, EU, Japón y Global). 

## Fases de trabajo
1. Análisis exploratorio de datos para determinar las transformaciones de variables apropiadas, identificar patrones, y conclusiones.
2. Construir KPIs que se integren con el dashboard:
   1.  *Aumentar en un 10% las ventas por sector para el próximo trimestre.*
   2.  *Aumentar en un 10% la plataforma Steam.*
3. Construir un dashboard interactivo, funcional utilizando filtros adecuados.
4. Generar un readme.md que describa el desarrollo del proyecto y sus correspondientes conclusiones.
5. Narrar un storytelling en 10'.

> ## 1. Análisis exploratorio de los datos

#### Procesos a realizar:
1. Búsqueda de valores faltantes
2. Valores atípicos u outliers
3. Análisis univariado y bivariado
4. Registros duplicados
5. Conclusiones

#### 1.1. Importar Librería

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from plotly.subplots import make_subplots
import plotly.graph_objects as go
from math import ceil

from scipy import stats

%matplotlib inline
plt.style.use('ggplot')

import warnings
warnings.filterwarnings('ignore')

#### 1.3. Creación del DataFrame 2_Console_sales

In [None]:
df_2 = pd.read_excel('dataset/2_Console_sales.xlsx', sheet_name='Ventas anual')

In [None]:
df_2

In [None]:
df_2.columns

In [None]:
df_2.info()

#### 1.4. Creación del DataFrame 3_Juegos_steam

In [None]:
df_3 = pd.read_csv('dataset/3_Juegos_steam.csv')

In [None]:
df_3

In [None]:
df_3.columns

In [None]:
df_3.info()

In [None]:
df_3 = df_3.dropna()

In [None]:
df_3.info()

Dado que todos los demas dataframe están en mayuscula al principio, se opta por hacer este dataframe tambien de la misma forma

In [None]:
df_3.columns = df_3.columns.str.replace('_', ' ').str.title().str.replace(' ', '_')
df_3.columns

#### 1.5. Creación del DataFrame 4_Video_games_sales

In [None]:
df_4 = pd.read_csv('dataset/4_Video_games_sales.csv')

In [None]:
df_4    

In [None]:
df_4.columns

In [None]:
df_4.info()

In [None]:
df_4['Critic_Score']

Se observa que existen columnas con casi la mitad de filas, por lo cual, no se considerarán. 
* Critic_Score
* Critic_Count
* User_Count
* User_Score
* Rating
* Developer

In [None]:
df_4.columns

In [None]:
df_4 = df_4.drop(columns=['Critic_Score', 'Critic_Count', 'User_Count', 'User_Score', 'Rating', 'Developer'])

In [None]:
df_4 = df_4.dropna()

In [None]:
df_4.info()

#### 1.6. Observaciones

* Los tamaños de los DataFrame son pequeños y probablemente no existan problemas al trabarlos en un tablero de control.
* Se han eliminado algunas columnas por datos faltantes. Pero se resolverá en análisis posteriores si se eliminan más por irrelevancia.
* Se observa que el dataframe df_1_1 tiene una estructura rara. Se resolverá más adelante si se normaliza o se deja como está.
* Se ha observado cambiar los nombres de las columnas del df_3 para que queden todos iguales.

#### 2.1. Análisis de nulos

In [None]:
df_2.isnull().sum()

In [None]:
df_3.isnull().sum()

In [None]:
df_4.isnull().sum()

#### 2.2. Normalizacion de valores

#### 2.3. Observaciones:
* No se observan nulos.

#### 3. Búsqueda de valores atípicos o outliers

Para ello, se procederá a graficar valores en histogramas y boxplots.

**Consideraciones**: existe la problemática de la línea del tiempo en el dataframe df_1_1. 

##### 3.1. Distribución de los valores en columnas numéricas

##### 3.1.2. df_2

In [None]:
# Mostrar todo el DataFrame df_2
pd.set_option('display.max_rows', None)  # Mostrar todas las filas

df_2


In [None]:
# Crear el histograma solo para 'Sales'
plt.figure(figsize=(14, 8))
plt.hist(df_2['Sales'], bins=50, color='#474559', edgecolor='white')
plt.title('Histograma de Sales')
plt.xlabel('Sales')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Crear el boxplot para 'Sales' en vertical
plt.figure(figsize=(14, 2))
plt.boxplot(df_2['Sales'], vert=False, patch_artist=True, boxprops=dict(facecolor='#474559', color='white'))
plt.title('Boxplot de Sales')
plt.ylabel('Sales')
plt.show()

Observaciones: 
* se observa que los valores negativos en la columna Sales corresponden a valores Out_of_use, y se eliminan por considerarse atípicos y que no aportan a un análisis de inversiones.

In [None]:
df_2 = df_2[df_2['Sales'] >= 0]

In [None]:
# Crear el histograma solo para 'Sales'
plt.figure(figsize=(10, 5))
plt.hist(df_2['Sales'], bins=10, color='#474559', edgecolor='white')
plt.title('Histograma de Sales')
plt.xlabel('Sales')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Crear el boxplot para 'Sales' en vertical
plt.figure(figsize=(14, 2))
plt.boxplot(df_2['Sales'], vert=False, patch_artist=True, boxprops=dict(facecolor='#474559', color='white'))
plt.title('Boxplot de Sales')
plt.ylabel('Sales')
plt.show()

Observaciones: se observa que la mediana de Sales es de 7 millones usd. Hasta 15 millones usd parece probable. Son pocos los casos donde se superan los 20 millones usd.

##### 3.1.3. df_3

In [None]:
df_3.head()

In [None]:
df_3.columns

In [None]:
# Crear el histograma solo para 'English'
plt.figure(figsize=(10, 5))
plt.hist(df_3['English'], bins=10, color='#474559', edgecolor='white')
plt.title('Histograma de English')
plt.xlabel('English')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Crear el histograma solo para 'Required_Age'
plt.figure(figsize=(10, 5))
plt.hist(df_3['Required_Age'], bins=10, color='#474559', edgecolor='white')
plt.title('Histograma de Required_Age')
plt.xlabel('Required_Age')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Crear el boxplot para 'Achievements' en horizontal
plt.figure(figsize=(14, 2))
plt.boxplot(df_3['Achievements'], vert=False, patch_artist=True, boxprops=dict(facecolor='#474559', color='white'))
plt.title('Boxplot de Achievements')
plt.ylabel('Achievments')
plt.show()

In [None]:
# Crear el boxplot para 'Positive_Ratings' en horizontal
plt.figure(figsize=(14, 2))
plt.boxplot(df_3['Positive_Ratings'], vert=False, patch_artist=True, boxprops=dict(facecolor='#474559', color='white'))
plt.title('Boxplot de Positive_Ratings')
plt.ylabel('Positive_Ratings')
plt.show()

In [None]:
# Crear el boxplot para 'Negative_Ratings' en horizontal
plt.figure(figsize=(14, 2))
plt.boxplot(df_3['Negative_Ratings'], vert=False, patch_artist=True, boxprops=dict(facecolor='#474559', color='white'))
plt.title('Boxplot de Negative_Ratings')
plt.ylabel('Negative_Ratings')
plt.show()

In [None]:
# Crear el boxplot para 'Average_Playtime' en horizontal
plt.figure(figsize=(14, 2))
plt.boxplot(df_3['Average_Playtime'], vert=False, patch_artist=True, boxprops=dict(facecolor='#474559', color='white'))
plt.title('Boxplot de Average_Playtime')
plt.ylabel('Average_Playtime')
plt.show()

In [None]:
# Crear el boxplot para 'Median_Playtime' en horizontal
plt.figure(figsize=(14, 2))
plt.boxplot(df_3['Median_Playtime'], vert=False, patch_artist=True, boxprops=dict(facecolor='#474559', color='white'))
plt.title('Boxplot de Median_Playtime')
plt.ylabel('Median_Playtime')
plt.show()

In [None]:
# Crear el histograma solo para 'Owners'
plt.figure(figsize=(20, 10))
plt.hist(df_3['Owners'], bins=10, color='#474559', edgecolor='white')
plt.title('Histograma de Owners')
plt.xlabel('Owners')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Crear el boxplot para 'Price' en horizontal
plt.figure(figsize=(14, 2))
plt.boxplot(df_3['Price'], vert=False, patch_artist=True, boxprops=dict(facecolor='#474559', color='white'))
plt.title('Boxplot de Price')
plt.ylabel('Price')
plt.show()

Observaciones:
* Se utilizó boxplot cuando el histograma no aporta información al respecto.
* La columna achievements parece no entregar información y por lo cual se la eliminará.
* Si bien se observan valores outliers en "Price", "Owner", "Median_Platyime", "Average_Playtime", "Positive_Ratings", "Negative_Ratings"; se deben a su distribución sesgada hacia la derecha. Y por el lado de "Required_Age" se observa que la edad general es 0 y po el lado del "English" se observa que practicamente todos los juegos están en inglés.

##### 3.1.4. df_4

In [None]:
df_4.head()

In [None]:
# Crear el boxplot para 'Year_of_Release' en horizontal
plt.figure(figsize=(14, 2))
plt.boxplot(df_4['Year_of_Release'], vert=False, patch_artist=True, boxprops=dict(facecolor='#474559', color='white'))
plt.title('Boxplot de Year_of_Release')
plt.ylabel('Year_of_Release')
plt.show()

In [None]:
# Crear el boxplot para 'NA_Sales' en horizontal
plt.figure(figsize=(14, 2))
plt.boxplot(df_4['NA_Sales'], vert=False, patch_artist=True, boxprops=dict(facecolor='#474559', color='white'))
plt.title('Boxplot de NA_Sales')
plt.ylabel('NA_Sales')
plt.show()

In [None]:
# Crear el boxplot para 'EU_Sales' en horizontal
plt.figure(figsize=(14, 2))
plt.boxplot(df_4['EU_Sales'], vert=False, patch_artist=True, boxprops=dict(facecolor='#474559', color='white'))
plt.title('Boxplot de EU_Sales')
plt.ylabel('EU_Sales')
plt.show()

In [None]:
# Crear el boxplot para 'JP_Sales' en horizontal
plt.figure(figsize=(14, 2))
plt.boxplot(df_4['JP_Sales'], vert=False, patch_artist=True, boxprops=dict(facecolor='#474559', color='white'))
plt.title('Boxplot de JP_Sales')
plt.ylabel('JP_Sales')
plt.show()

In [None]:
# Crear el boxplot para 'Other_Sales' en horizontal
plt.figure(figsize=(14, 2))
plt.boxplot(df_4['Other_Sales'], vert=False, patch_artist=True, boxprops=dict(facecolor='#474559', color='white'))
plt.title('Boxplot de Other_Sales')
plt.ylabel('Other_Sales')
plt.show()

In [None]:
# Crear el boxplot para 'Global_Sales' en horizontal
plt.figure(figsize=(14, 2))
plt.boxplot(df_4['Global_Sales'], vert=False, patch_artist=True, boxprops=dict(facecolor='#474559', color='white'))
plt.title('Boxplot de Global_Sales')
plt.ylabel('Global_Sales')
plt.show()

Observaciones:
* Se observan valores outliers pero dentro de la distribución desgada.
* Year_of_Release tiene distribucación sesgada hacia la izquierda lo que quiere decir que la producción de juegos ha ido en aumento.
* Las restantes columnas de Sales tienen distribución sesgada hacia la derecha, lo que quiere decir que la mediana de ventas es de valor entre 0 y 1, pero hay muchos valores dispersos, y cuanto más te alejas menos valores encuentras. Es decir, es dificil lograr grandes ventas en un juego.

#### 4. Análisis de tendencia

**Consideraciones**: se seguirá el modelo del análisis de outliers pero analizando por tiempo.

#### Análisis de correlación entre variables

df_3

In [None]:
df_3.columns

In [None]:
# Función para calcular la media de un rango
def calcular_media(rango):
    valores = list(map(int, rango.split('-')))
    return np.mean(valores)

# Calcular la media para la columna 'Owner'
df_3['Owner_Media'] = df_3['Owners'].apply(calcular_media)

# Calcular la matriz de correlación incluyendo la columna   
df_3_corr = df_3[['Owner_Media', 'Achievements', 'Positive_Ratings', 'Negative_Ratings', 'Average_Playtime', 'Median_Playtime', 'Price']].corr()

# Visualizar la matriz de correlación
sns.heatmap(df_3_corr, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlación')
plt.show()

Observaciones:
* No se realiza un análisis con datos categóricos porque son muchos en cada columna y hay que hacer encoding y sería demasiado complejo, y trasciende los límites de este proyecto.
* Se observa que existe mucha correlación entre la Average_Playtime y Median_Playtime, por lo tanto, se puede hacer una media entre las dos y quitar ambas columnas para eliminar multicolinealidad.

In [None]:
# Calcular el promedio con pesos iguales
df_3['Equal_Weighted_Playtime'] = (df_3['Median_Playtime'] + df_3['Average_Playtime']) / 2

In [None]:
# Calcular la matriz de correlación incluyendo la columna 'Owner_Media'
df_3_corr = df_3[['Owner_Media', 'Achievements', 'Positive_Ratings', 'Negative_Ratings', 'Equal_Weighted_Playtime', 'Price']].corr()

# Visualizar la matriz de correlación
sns.heatmap(df_3_corr, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlación')
plt.show()

Observaciones:
* Se observa ahora que no existe multicolinealidad, no existe prácticamente valores negativos, es decir, aspectos que estén descorrelacionados, pero además la mayoria son cercanos a 0.
* Se nota también que a medida que aumentan el número de Oweners, también aumetnan los Postive_Ratings, y también los Negative_Ratings

In [None]:
df_4.columns

In [None]:
# Calcular la matriz de correlación incluyendo la columna   
df_4_corr = df_4[['NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales']].corr()

# Visualizar la matriz de correlación
sns.heatmap(df_4_corr, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlación')
plt.show()

Observaciones:
* Se observan correlaciones positivas pero no existe multicolinealidad 

#### Análisis de duplicados

#### Exportación de los DataFrames

#### Conclusiones