# EDA de Dataset de Ventas de Videojuegos

## Instalación de dependencias


Se necesitan las librerías de numpy para la manipulación de matrices, pandas para la manipulación de datos y seaborn para las gráficas

In [None]:
%pip install numpy pandas seaborn

## Uso del dataset


Se importa pandas para empezar con las operaciones sobre el conjunto de datos

In [None]:
import pandas as pd

Se extrae el dataset de ventas de videojuegos

> Nota: el dataset está disponible en kaggle en el siguiente enlace: [link]( https://www.kaggle.com/datasets/gregorut/videogamesales)

In [None]:
df = pd.read_csv("./vgsales.csv")
df.head()

Aquí se muestran los tipos de dato de la columnas

In [None]:
df.info()

Aquí se puede ver el tamaño del dataset, el cual cuenta con un total de 16598 datos.

In [None]:
rows, cols = df.shape
print(f"El dataset tiene unas dimensiones de: Filas(datos): {rows}, Columnas(variables): {cols}")

Breve descripción de los valores estadísticos de las columnas

In [None]:
df.describe()

## Limpieza de Datos

Se hace un análisis de los datos presentes en el dataset para hacer limpieza de los mismos y normalizarlos para su posterior utilización.

Se revisan las columnas en busca de valores nulos en las mismas

In [None]:
df.isna().sum()

Se revisa si hay datos duplicados en el dataset

In [None]:
df.duplicated().sum()

Se realiza una copia del dataset para normalizarlo

In [None]:
normalized_df = df.copy()

Se rellenan los datos nulos. En este caso, los publicadores nulos se les asigna el valor de 
publicador "Desconocido" y a los años se les asigna la media de los años presentes en el dataset

In [None]:
normalized_df["Publisher"].fillna("Unknown", inplace=True)

year_mean = normalized_df["Year"].mean()
normalized_df["Year"].fillna(year_mean.__trunc__(), inplace=True)

Ahora el dataset se encuentra libre de valores nulos y repetidos

In [None]:
normalized_df.isna().sum()

Se elimina la columna "Rank" ya que no es necesaria para las operaciones posteriores

In [None]:
normalized_df.drop(labels=["Rank"], axis=1, inplace=True)
normalized_df.head()

### Datos Estadísticos de las Ventas en Norteámerica

In [None]:
na_sales_mean = normalized_df["NA_Sales"].mean()
na_sales_mode = normalized_df["NA_Sales"].mode()[0]
na_sales_median = normalized_df["NA_Sales"].median()
na_sales_std = normalized_df["NA_Sales"].std()
na_sales_max = normalized_df["NA_Sales"].max()
na_sales_min = normalized_df["NA_Sales"].min()

print(f"Máximo: {na_sales_max} Millones, Mínimo: {na_sales_min} Millones")
print(f"Desviación estándar: {na_sales_std} Millones")
print(f"Media: {na_sales_mean} Millones, Moda: {na_sales_mode} Millones, Mediana: {na_sales_median} Millones")

### Datos Estadísticos de las Ventas en Europa

In [None]:
eu_sales_mean = normalized_df["EU_Sales"].mean()
eu_sales_mode = normalized_df["EU_Sales"].mode()[0]
eu_sales_median = normalized_df["EU_Sales"].median()
eu_sales_std = normalized_df["EU_Sales"].std()
eu_sales_max = normalized_df["EU_Sales"].max()
eu_sales_min = normalized_df["EU_Sales"].min()
print(f"Máximo: {eu_sales_max} Millones, Mínimo: {eu_sales_min} Millones")
print(f"Desviación estándar: {eu_sales_std} Millones")
print(f"Media: {eu_sales_mean} Millones, Moda: {eu_sales_mode} Millones, Mediana: {eu_sales_median} Millones")

### Datos Estadísticos de las Ventas en Japón

In [None]:
jp_sales_mean = normalized_df["JP_Sales"].mean()
jp_sales_mode = normalized_df["JP_Sales"].mode()[0]
jp_sales_median = normalized_df["JP_Sales"].median()
jp_sales_std = normalized_df["JP_Sales"].std()
jp_sales_max = normalized_df["JP_Sales"].max()
jp_sales_min = normalized_df["JP_Sales"].min()

print(f"Máximo: {jp_sales_max} Millones, Mínimo: {jp_sales_min} Millones")
print(f"Desviación estándar: {jp_sales_std} Millones")
print(f"Media: {jp_sales_mean} Millones, Moda: {jp_sales_mode} Millones, Mediana: {jp_sales_median} Millones")

### Datos Estadísticos de las Ventas en Otros Países

In [None]:
other_sales_mean = normalized_df["Other_Sales"].mean()
other_sales_mode = normalized_df["Other_Sales"].mode()[0]
other_sales_median = normalized_df["Other_Sales"].median()
other_sales_std = normalized_df["Other_Sales"].std()
other_sales_max = normalized_df["Other_Sales"].max()
other_sales_min = normalized_df["Other_Sales"].min()

print(f"Máximo: {other_sales_max} Millones, Mínimo: {other_sales_min} Millones")
print(f"Desviación estándar: {other_sales_std} Millones")
print(f"Media: {other_sales_mean} Millones, Moda: {other_sales_mode} Millones, Mediana: {other_sales_median} Millones")

### Datos Estadísticos de las Ventas Globales

In [None]:
sales_mean = normalized_df["Global_Sales"].mean()
sales_mode = normalized_df["Global_Sales"].mode()[0]
sales_median = normalized_df["Global_Sales"].median()
sales_std = normalized_df["Global_Sales"].std()
sales_max = normalized_df["Global_Sales"].max()
sales_min = normalized_df["Global_Sales"].min()

print(f"Máximo: {sales_max} Millones, Mínimo: {sales_min} Millones")
print(f"Desviación estándar: {sales_std} Millones")
print(f"Media: {sales_mean} Millones, Moda: {sales_mode} Millones, Mediana: {sales_median} Millones")

### Datos Estadísticos de los Años de Salida de los Juegos

In [None]:
year_mean = normalized_df["Year"].mean()
year_mode = normalized_df["Year"].mode()[0]
year_median = normalized_df["Year"].median()
year_std = normalized_df["Year"].std()
year_max = normalized_df["Year"].max()
year_min = normalized_df["Year"].min()

print(f"Máximo: {year_max} Años, Mínimo: {year_min} Años")
print(f"Desviación estándar: {year_std} Años")
print(f"Media: {year_mean}, Moda: {year_mode}, Mediana: {year_median}")

## Visualización de los datos


Al realizar las operaciones de normalización y limpieza de datos, se pueden ver graficamente
el comportamiento de los datos

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

### Matriz de Correlación


Se extraen las columnas con variables numéricas para realizar la matriz de correlación

In [None]:
sliced_df = normalized_df[["Year","NA_Sales", "EU_Sales", "JP_Sales", "Other_Sales", "Global_Sales"]]

In [None]:
correlation_matrix = sliced_df.corr()
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, fmt=".2f", cmap="coolwarm", square=True, cbar_kws={"shrink": .8})
plt.title("Matriz de Correlación")
plt.show()

Podemos ver que las variables de ventas de Norteamérica, Europa, Japón tienen una correlación medianamente alta
con respecto, esto se debe a que las variables contribuyen de manera directamente a las ventas globales,
en el caso de las ventas de Norteamérica tienen un muy alto índice de correlación, esto puede decir que es la
variable que más contribuye al total de las ventas globales.

### Diagrama de Dispersión

Para ver más a detalle esta correlación podemos hacer un diagrama de dispersión para 
evaluar su comportamiento 

In [None]:

plt.figure(figsize=(10, 6))
sns.scatterplot(data=sliced_df, x="NA_Sales", y="Global_Sales", alpha=0.7)
plt.title("Diagrama de dispersión de las ventas en Norteamérica vs ventas globales")
plt.xlabel("NA Sales (in millions)")
plt.ylabel("Global Sales (in millions)")
plt.show()

Podemos observar que los datos se encuentran muy agrupados, y que los mismos se adaptan a una función
cercana a x = y, lo cual confirma que su correlación es muy alta

### Top 10 Juegos más Vendidos

In [None]:
top_selling_games = normalized_df.nlargest(10, "Global_Sales")

plt.figure(figsize=(12, 6))
sns.barplot(data=top_selling_games, x="Global_Sales", y="Name", palette="viridis")
plt.title("Top 10 Juegos más Vendidos")
plt.xlabel("Ventas Globales (en millones)")
plt.ylabel("Título del Juego")
plt.show()

### Top 10 Juegos más Vendidos en Japón

In [None]:
top_selling_games = normalized_df.nlargest(10, "JP_Sales")

plt.figure(figsize=(12, 6))
sns.barplot(data=top_selling_games, x="Global_Sales", y="Name", palette="viridis")
plt.title("Top 10 Juegos más Vendidos en Japon")
plt.xlabel("Ventas Globales (in millions)")
plt.ylabel("Título del Juego")
plt.show()

### Top Ventas Globales

In [None]:
yearly_sales = normalized_df.groupby("Year")["Global_Sales"].sum()

plt.figure(figsize=(12, 6))
sns.lineplot(x=yearly_sales.index, y=yearly_sales.values, marker="o")
plt.title("Total de Ventas Globales")
plt.xlabel("Año")
plt.ylabel("Ventas Globales (en millones)")
plt.xticks(rotation=45)
plt.grid(True)
plt.show()

### Juegos más vendidos 

In [None]:
# Group by Genre and sum Global_Sales
genre_sales = normalized_df.groupby("Genre")["Global_Sales"].sum().sort_values(ascending=False)

# Plot the data
plt.figure(figsize=(12, 6))
sns.barplot(x=genre_sales.values, y=genre_sales.index, palette="viridis")
plt.title("Juegos Más Vendidos por Género Globalmente")
plt.xlabel("Ventas Globales (en millones)")
plt.ylabel("Género del juego")
plt.show()

### Ganancias Totales de Cada Consola

In [None]:
# Group by Platform and sum Global_Sales
platform_sales = normalized_df.groupby("Platform")["Global_Sales"].sum().sort_values(ascending=False)

# Plot the data
plt.figure(figsize=(12, 6))
sns.barplot(x=platform_sales.values, y=platform_sales.index, palette="viridis")
plt.title("Ganancias Totales por Consola")
plt.xlabel("Ventas Globales (en millones)")
plt.ylabel("Consola")
plt.show()

### Top 10 Publicadores por ventas 

In [None]:
# Group by Publisher and sum Global_Sales
publisher_sales = normalized_df.groupby("Publisher")["Global_Sales"].sum().sort_values(ascending=False).head(10)

# Plot the data
plt.figure(figsize=(12, 6))
sns.barplot(x=publisher_sales.values, y=publisher_sales.index, palette="viridis")
plt.title("Top 10 Publicadores por Ventas")
plt.xlabel("Ventas Globales (en millones)")
plt.ylabel("Publicadores")
plt.show()