# Proyecto Final ‚Äì Ciencia de Datos

### Predicci√≥n de Ventas Globales de Videojuegos

Este proyecto tiene como objetivo predecir las ventas globales (`Global_Sales`) de videojuegos utilizando t√©cnicas de ciencia de datos. El an√°lisis se basa en un dataset hist√≥rico con informaci√≥n sobre t√≠tulos, plataformas, g√©neros, puntuaciones de cr√≠ticos y usuarios, entre otras variables. 

A lo largo del proyecto se aplicar√°n los siguientes pasos:
1. Limpieza y preprocesamiento de los datos
2. Selecci√≥n de caracter√≠sticas (feature selection)
3. Entrenamiento de un modelo de regresi√≥n
4. Evaluaci√≥n del modelo mediante m√©tricas apropiadas
5. Conclusiones basadas en los resultados obtenidos


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_selection import SelectKBest, f_regression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score


In [None]:
url = "https://raw.githubusercontent.com/MarcosRomano13/proyecto-ciencia-datos-videojuegos/main/Dataset_final.csv"
df = pd.read_csv(url)

df.columns = df.columns.str.strip().str.replace(" ", "_")

df["Release_Date"] = pd.to_datetime(df["Release_Date"], errors="coerce")
df["Year_of_Release"] = df["Release_Date"].dt.year

df = df.dropna(subset=[
    "Global_Sales", "Critic_Score", "User_Score",
    "Genre", "Platform", "Year_of_Release"
])

df.loc[:, "User_Score"] = pd.to_numeric(df["User_Score"], errors="coerce")
df = df.dropna(subset=["User_Score"])

le_genre = LabelEncoder()
le_platform = LabelEncoder()
df["Genre"] = le_genre.fit_transform(df["Genre"])
df["Platform"] = le_platform.fit_transform(df["Platform"])


In [None]:
X = df[["Critic_Score", "User_Score", "Genre", "Platform", "Year_of_Release"]]
y = df["Global_Sales"]

selector = SelectKBest(score_func=f_regression, k=5)
X_new = selector.fit_transform(X, y)

selected_features = X.columns[selector.get_support()]
print("Variables seleccionadas:", list(selected_features))


In [None]:
X_selected = df[selected_features]
y = df["Global_Sales"]

X_train, X_test, y_train, y_test = train_test_split(X_selected, y, test_size=0.2, random_state=42)

model = RandomForestRegressor(random_state=42)
model.fit(X_train, y_train)


In [None]:
y_pred = model.predict(X_test)

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Error cuadr√°tico medio (MSE): {mse:.2f}")
print(f"Coeficiente de determinaci√≥n (R2): {r2:.2f}")


### Importancia de las variables en el modelo

In [None]:
importances = pd.Series(model.feature_importances_, index=selected_features)
importances.sort_values().plot(kind='barh')
plt.title("Importancia de las variables en el modelo")
plt.xlabel("Importancia")
plt.ylabel("Variable")
plt.tight_layout()
plt.show()


### Comparaci√≥n de ventas reales vs. predichas

In [None]:
plt.figure(figsize=(8, 6))
sns.scatterplot(x=y_test, y=y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--')
plt.xlabel("Ventas reales")
plt.ylabel("Ventas predichas")
plt.title("Ventas reales vs. predichas")
plt.tight_layout()
plt.show()


### Distribuci√≥n de ventas globales

In [None]:
sns.histplot(df["Global_Sales"], bins=50, kde=True)
plt.title("Distribuci√≥n de ventas globales")
plt.xlabel("Millones de unidades")
plt.tight_layout()
plt.show()


### Conclusiones

Este proyecto permiti√≥ aplicar todo el flujo de trabajo t√≠pico en un problema real de ciencia de datos: desde la limpieza del dataset hasta el entrenamiento y validaci√≥n de un modelo predictivo. Se utiliz√≥ un modelo de regresi√≥n basado en Random Forest para estimar las ventas globales de videojuegos a partir de variables num√©ricas y categ√≥ricas procesadas.

Las variables m√°s influyentes seleccionadas por `SelectKBest` fueron:
- Puntuaci√≥n de cr√≠ticos (`Critic_Score`)
- Puntuaci√≥n de usuarios (`User_Score`)
- G√©nero (`Genre`)
- Plataforma (`Platform`)
- A√±o de lanzamiento (`Year_of_Release`)

Estos resultados no solo coinciden con la intuici√≥n (es razonable pensar que las buenas cr√≠ticas y los g√©neros populares impactan en las ventas), sino que tambi√©n nos permiten validar, con datos, que existen patrones aprovechables para estimar el rendimiento comercial de un juego.

El modelo logr√≥ capturar una parte significativa de la variabilidad, aunque no toda. Esto se refleja en un **R¬≤** aceptable, pero no perfecto. Esto tiene sentido, ya que las ventas de un videojuego dependen de muchos factores no incluidos en el dataset, como:
- Publicidad y marketing
- Popularidad de la franquicia o personajes
- Fechas de lanzamiento (competencia, √©poca del a√±o)
- Exclusividad en plataformas
- Reputaci√≥n del estudio desarrollador

A pesar de estas limitaciones, el modelo mostr√≥ un buen desempe√±o general, siendo f√°cil de implementar, r√°pido de entrenar y explicable. Esto lo convierte en un punto de partida √∫til para estudios de mercado en la industria del gaming.

### üîÆ Pr√≥ximos pasos

- Aplicar validaci√≥n cruzada para mejorar la robustez de los resultados.
- Comparar este modelo con otros como `XGBoost`, `GradientBoosting`, o redes neuronales.
- Incorporar m√°s datos: campa√±as de marketing, valoraciones sociales, secuelas o precuelas, etc.
- Hacer tuning de hiperpar√°metros con GridSearch o RandomSearch para optimizar el rendimiento.

En resumen, este trabajo no solo cumple con los objetivos de implementaci√≥n t√©cnica, sino que tambi√©n ofrece una mirada concreta sobre el potencial del an√°lisis de datos en una industria tan din√°mica como la de los videojuegos.
