# EDA - Dataset de Videojuegos

Este notebook realiza un flujo básico de EDA: carga, exploración, limpieza y visualizaciones.

In [None]:
# Imports
import pandas as pd
import matplotlib.pyplot as plt

# configuración para mostrar gráficos en el notebook
%matplotlib inline


In [None]:
# Cargar dataset
df = pd.read_csv('../data/videogames_dataset.csv')
df.shape, df.head()

In [None]:
# Información básica
df.info()
df.describe(include='all')

In [None]:
# Nulls y duplicados
print('Valores nulos por columna:\n', df.isnull().sum())
print('\nDuplicados totales:', df.duplicated().sum())

## Limpieza y normalización
- Asegurar tipos correctos.
- Tratar valores nulos si existen.
- Normalizar formatos (ej. nombres de plataformas).

In [None]:
# Conversión de tipos si es necesario
# Aseguramos Year como entero, Sales_Global como float, Rating como entero
df['Year'] = df['Year'].astype(int)
df['Sales_Global'] = df['Sales_Global'].astype(float)
df['Rating'] = df['Rating'].astype(int)

# Normalizamos Platform a categorías estándar (ej: Multi -> Multiple)
df['Platform'] = df['Platform'].replace({'Multi': 'Multiple'})
df['Platform'] = df['Platform'].astype('category')
df['Genre'] = df['Genre'].astype('category')
df['Publisher'] = df['Publisher'].astype('category')

df.head()

## Visualizaciones

1) Histograma de `Sales_Global` (ventas globales estimadas en millones)

In [None]:
# Histograma de Sales_Global
plt.figure(figsize=(8,5))
plt.hist(df['Sales_Global'].dropna(), bins=8)
plt.title('Distribución de Sales_Global (millones)')
plt.xlabel('Sales_Global (millones)')
plt.ylabel('Frecuencia')
plt.grid(True)
plt.show()

2) Gráfica de barras: publishers con más ventas totales

In [None]:
# Ventas totales por publisher (ordenadas)
sales_by_publisher = df.groupby('Publisher', as_index=False)['Sales_Global'].sum().sort_values('Sales_Global', ascending=False)
sales_by_publisher

plt.figure(figsize=(8,5))
plt.bar(sales_by_publisher['Publisher'], sales_by_publisher['Sales_Global'])
plt.title('Ventas totales por Publisher (millones)')
plt.xlabel('Publisher')
plt.ylabel('Ventas Globales (millones)')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

3) Boxplot: Distribución de `Rating` por `Genre`

In [None]:
# Boxplot Rating por Genre
plt.figure(figsize=(8,5))
# preparar datos para boxplot: lista de series por género
genres = df['Genre'].cat.categories.tolist()
data_to_plot = [df.loc[df['Genre']==g, 'Rating'] for g in genres]
plt.boxplot(data_to_plot, labels=genres, showfliers=True)
plt.title('Rating por Género')
plt.xlabel('Género')
plt.ylabel('Rating')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

4) Línea temporal: ventas por año (si aplica)

In [None]:
# Ventas por año
sales_by_year = df.groupby('Year', as_index=False)['Sales_Global'].sum().sort_values('Year')
sales_by_year

plt.figure(figsize=(8,4))
plt.plot(sales_by_year['Year'], sales_by_year['Sales_Global'], marker='o')
plt.title('Ventas totales por Año')
plt.xlabel('Año')
plt.ylabel('Ventas Globales (millones)')
plt.grid(True)
plt.show()

## Conclusiones exploratorias

- Resumen de las principales características detectadas en el dataset.
- Principales hallazgos y limpieza aplicada.

(Completa con tus observaciones personales al entregar el ejercicio.)