**PROYECTO FINAL 
ANÁLISIS DE VENTAS DE VIDEOJUEGOS**

Objetivo del proyecto:

Analizar datos de ventas de videojuegos para identificar patrones de ventas, géneros más populares y tendencias por consola y año, permitiendo tomar decisiones informadas sobre estrategias de desarrollo y comercialización.

In [None]:
#Librerías 
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore", category=RuntimeWarning)

#Configuración de los gráficos
plt.style.use("ggplot")
sns.set(style="whitegrid")

#Mostrar más columnas
pd.set_option("display.max_columns", 20)

In [None]:
#Ruta del archivo CSV
ruta_csv = "/kaggle/input/video-game-sales-and-ratings/Video_Games.csv"


#Cargar
df = pd.read_csv(ruta_csv)

#Mostrar las primeras filas
df.head()

In [None]:
#Tamaño del dataframe
print("Shape del DataFrame:", df.shape)

#Nombres de las columnas
print("\nColumnas:")
print(df.columns)

#Tipos de datos
print("\nTipos de datos:")
print(df.dtypes)

#Información general
print("\nInfo del DataFrame:")
df.info()

**LIMPIEZA Y PREPARACION DE DATOS**

Año de lanzamiento

Género (Genre)

Plataforma (Platform)

Ventas globales (Global_Sales) y por región

Eliminar columnas innecesarias

Eliminar filas sin datos clave, año, género, plataforma o ventas

Convertir el año a entero

In [None]:
#Eliminar columna index si existe
if 'index' in df.columns:
    df = df.drop(columns=['index'])

#Eliminar filas con valores nulos en columnas clave
columnas_clave = ["Year_of_Release", "Genre", "Platform", "Global_Sales"]
df = df.dropna(subset=columnas_clave)

#Convertir el año a entero
df["Year_of_Release"] = df["Year_of_Release"].astype(int)

#Comprobar el resultado
print("Shape después de limpiar:", df.shape)
df[["Name", "Platform", "Year_of_Release", "Genre", "Global_Sales"]].head()

In [None]:
#Número total de juegos
total_juegos = len(df)

#Ventas totales globales
ventas_globales_totales = df["Global_Sales"].sum()

#Ventas promedio por juego
ventas_promedio_juego = df["Global_Sales"].mean()

print(f"Cantidad de juegos en el dataset: {total_juegos}")
print(f"Ventas globales totales: {ventas_globales_totales:.2f} millones de copias")
print(f"Ventas promedio por juego: {ventas_promedio_juego:.2f} millones de copias")

**REGIONES CON MAS VENTAS DE JUEGOS**

In [None]:
columnas_regiones = ["NA_Sales", "EU_Sales", "JP_Sales", "Other_Sales", "Global_Sales"]
suma_regiones = df[columnas_regiones].sum()
porcentaje_regiones = (suma_regiones / suma_regiones["Global_Sales"]) * 100

print("Ventas totales por región (en millones):")
print(suma_regiones)

print("\nPorcentaje de ventas por región:")
print(porcentaje_regiones.round(1))


df_regiones = pd.DataFrame({
    "Region": ["NA", "EU", "JP", "Others"],
    "Ventas": [
        suma_regiones["NA_Sales"],
        suma_regiones["EU_Sales"],
        suma_regiones["JP_Sales"],
        suma_regiones["Other_Sales"]
    ]
})

plt.figure(figsize=(8,5))
sns.barplot(
    data=df_regiones,
    x="Region",
    y="Ventas",
    palette="viridis"
)

plt.title("Ventas totales por región (en millones)", fontsize=14)
plt.ylabel("Millones de copias", fontsize=12)
plt.xlabel("Región", fontsize=12)
plt.show()

**ANÁLISIS POR GENERO**

Qué géneros venden más en total

Cuántos juegos hay por género

Cuánto vende un juego promedio de cada género

In [None]:
ventas_por_genero = df.groupby("Genre")["Global_Sales"].agg(["sum", "count", "mean"])
ventas_por_genero = ventas_por_genero.sort_values("sum", ascending=False)

ventas_por_genero

In [None]:
plt.figure(figsize=(10,6))
sns.barplot(
    x=ventas_por_genero.index,
    y=ventas_por_genero["sum"]
)
plt.xticks(rotation=45)
plt.title("Ventas globales totales por género")
plt.ylabel("Ventas globales (millones)")
plt.xlabel("Género")
plt.tight_layout()
plt.show()

**ANÁLISIS POR CONSOLA**


Qué consolas han vendido más juegos en total

Cuántos juegos hay por consola

Ventas promedio por juego en cada plataforma

In [None]:
ventas_por_plataforma = df.groupby("Platform")["Global_Sales"].agg(["sum","count","mean"])
ventas_por_plataforma = ventas_por_plataforma.sort_values("sum", ascending=False)

# Mostrar las 10 plataformas más fuertes
ventas_por_plataforma.head(10)

In [None]:
top_n = 10
plt.figure(figsize=(10,6))
sns.barplot(
    x=ventas_por_plataforma.head(top_n).index,
    y=ventas_por_plataforma.head(top_n)["sum"]
)
plt.xticks(rotation=45)
plt.title(f"Top {top_n} plataformas por ventas globales")
plt.ylabel("Ventas globales (millones)")
plt.xlabel("Plataforma")
plt.tight_layout()
plt.show()

**TOP 20 DE LOS JUEGOS MAS VENDIDOS**

In [None]:
top_20 = df[["Name", "Platform", "Year_of_Release", "Genre", "Global_Sales"]]

top_20 = top_20.sort_values("Global_Sales", ascending=False).head(20)

#Reiniciar el índice y empezar desde 1
top_20 = top_20.reset_index(drop=True)
top_20.index = top_20.index + 1

top_20

In [None]:
#Gráfico del Top 20 de videojuegos más vendidos

plt.figure(figsize=(12,10))

sns.barplot(
    data=top_20.sort_values("Global_Sales", ascending=True),
    x="Global_Sales",
    y="Name",
    hue="Platform",
    dodge=False,
    palette="viridis"
)

plt.title("Top 20 Videojuegos Más Vendidos (Ventas Globales)", fontsize=17)
plt.xlabel("Ventas Globales (millones de copias)")
plt.ylabel("Nombre del videojuego")
plt.legend(title="Plataforma", bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()
plt.show()

**CONCLUCIONES** 

El dataset contiene 16.653 juegos con información histórica de ventas globales

Se observan picos de ventas alrededor de los años 2006–2010, que coincide con la generación de consolas como Wii, Xbox 360 y PS3

Los géneros con mayores ventas globales son Action, Sports, Shooter y Role-Playing, aunque algunos géneros como Platform tienen ventas promedio muy altas por juego

Las plataformas con más ventas totales son PS2, Xbox 360, PS3, Wii y DS, lo que muestra la importancia de estas consolas en la historia del mercado

El análisis por región muestra que Norteamérica y Europa concentran la mayor parte del consumo, con Japón también siendo un mercado fuerte para ciertos géneros como RPG

In [221]:
#juegos en ciertos años
anios = [1995, 2010]

for anio in anios:
    juegos = df[df["Year_of_Release"] == anio]
    
    if juegos.empty:
        print(f"No hay juegos en {anio}.")
    else:
        print(f"Juegos del {anio}:")
        for i, fila in juegos.head(2).iterrows():
            print("-", fila["Name"])

#ventas por género
ventas = df.groupby("Genre")["Global_Sales"].sum()

for genero, total in ventas.items():
    if total > 50:
        print(f"{genero}: Ventas altas")
    else:
        print(f"{genero}: Ventas bajas")

#juegos por plataforma
plataforma = "PS4"
datos = df[df["Platform"] == plataforma]

if datos.empty:
    print("No hay datos de esa plataforma.")
else:
    print(f"\nTop 10 juegos de {plataforma}:")
    print(datos.head(10)[["Name", "Global_Sales"]])

Juegos del 1995:
- Donkey Kong Country 2: Diddy's Kong Quest
- Warcraft II: Tides of Darkness
Juegos del 2010:
- Kinect Adventures!
- Pokemon Black/Pokemon White
Action: Ventas altas
Adventure: Ventas altas
Fighting: Ventas altas
Misc: Ventas altas
Platform: Ventas altas
Puzzle: Ventas altas
Racing: Ventas altas
Role-Playing: Ventas altas
Shooter: Ventas altas
Simulation: Ventas altas
Sports: Ventas altas
Strategy: Ventas altas

Top 10 juegos de PS4:
                               Name  Global_Sales
31        Call of Duty: Black Ops 3         14.63
42               Grand Theft Auto V         12.61
77                          FIFA 16          8.57
87     Star Wars Battlefront (2015)          7.98
92   Call of Duty: Advanced Warfare          7.66
94                          FIFA 17          7.59
105                       Fallout 4          7.16
143                         FIFA 15          6.08
154                         Destiny          5.64
171      Uncharted 4: A Thief's End          