### Abstract

Este proyecto tiene como objetivo explorar y analizar un conjunto de datos que reúne información sobre los videojuegos más vendidos en la historia, abarcando títulos desde la década de los 80 hasta la actualidad. El dataset incluye variables como el nombre del videojuego, plataforma de lanzamiento, género, desarrolladora, editora, fechas de salida, ventas por región (Norteamérica, Europa, Japón, otros), ventas globales, puntuaciones de críticos y usuarios, y clasificación ESRB.

La industria de los videojuegos se ha consolidado como uno de los sectores más relevantes del entretenimiento a nivel global, y este análisis busca detectar patrones y tendencias que ayuden a entender qué factores influyen en el éxito comercial de un videojuego. A partir de este conjunto de datos, se plantea una serie de preguntas de interés: ¿Qué géneros dominan en términos de ventas globales? ¿Qué plataformas han sido las más exitosas a lo largo del tiempo? ¿Existe alguna relación entre la puntuación crítica o de los usuarios y las ventas totales? ¿Las preferencias del público varían significativamente entre regiones?

Para abordar estas preguntas se utilizarán herramientas del ecosistema Python como `pandas`, `matplotlib`, `seaborn` y `numpy`, a fin de realizar un análisis exploratorio de los datos, generando visualizaciones que permitan interpretar mejor la información disponible. Se crearán gráficos univariados, bivariados y multivariados que involucren al menos tres variables clave para comprender la dinámica entre género, plataforma y ventas. A su vez, se analizarán los valores faltantes presentes en el dataset y se evaluará su impacto potencial en el análisis posterior.

Este primer entregable incluye el planteo del problema, la formulación de hipótesis iniciales, un diagnóstico preliminar de los datos y la generación de visualizaciones acompañadas de interpretaciones, como parte del proceso para responder a las preguntas de interés del proyecto.


### Preguntas e Hipótesis

1. ¿Qué géneros tienen mayor volumen de ventas globales?
2. ¿Qué plataformas concentran más títulos exitosos?
3. ¿Existe una relación positiva entre la puntuación de los críticos y las ventas globales?
4. ¿Las preferencias regionales (NA, EU, JP) cambian según el género del juego?
5. ¿Qué tan significativa es la presencia de valores perdidos en el dataset?

Estas preguntas guiarán las visualizaciones y el análisis numérico inicial.


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Cargar el CSV directamente desde GitHub
url = "https://raw.githubusercontent.com/MarcosRomano13/proyecto-ciencia-datos-videojuegos/main/Dataset_final.csv"
df = pd.read_csv(url)

# Limpiar nombres de columnas
df.columns = df.columns.str.strip().str.replace(" ", "_")
df.head()


In [None]:
# Revisión de valores nulos
missing = df.isnull().sum()
missing_percent = (missing / len(df)) * 100
missing_df = pd.DataFrame({'Valores_Nulos': missing, 'Porcentaje': missing_percent})
missing_df[missing_df.Valores_Nulos > 0]


### Visualización 1: Ventas globales por género y plataforma

In [None]:
# Visualización multivariada: Promedio de ventas por género y plataforma (top 5 plataformas)
top_platforms = df['Platform'].value_counts().head(5).index.tolist()
filtered_df = df[df['Platform'].isin(top_platforms)]

pivot_df = filtered_df.groupby(['Genre', 'Platform'])['Global_Sales'].mean().reset_index()

plt.figure(figsize=(10, 6))
heatmap_data = pivot_df.pivot(index='Genre', columns='Platform', values='Global_Sales')
sns.heatmap(heatmap_data, annot=True, fmt=".2f", cmap="YlGnBu")
plt.title('Promedio de Ventas Globales por Género y Plataforma')
plt.tight_layout()
plt.show()


### Visualización 2: Crítica vs ventas

In [None]:
# Relación entre crítica y ventas globales
df_scores = df.dropna(subset=['Critic_Score', 'Global_Sales'])

plt.figure(figsize=(8, 6))
sns.scatterplot(data=df_scores, x='Critic_Score', y='Global_Sales', hue='Genre', alpha=0.7)
plt.title('Relación entre Puntuación de Críticos y Ventas Globales')
plt.tight_layout()
plt.show()


### Visualización 3: Ventas NA por género

In [None]:
# Distribución de ventas en NA por género
plt.figure(figsize=(10, 6))
sns.boxplot(data=df, x='Genre', y='NA_Sales')
plt.xticks(rotation=45)
plt.title('Distribución de Ventas en Norteamérica por Género')
plt.tight_layout()
plt.show()
