# 🎮 Predicción de abandono y evaluación de engagement en videojuegos online.
Este proyecto esta elaborado con un dataset de Kaggle llamado "Predict Online Gaming Behavior Dataset" [[Dataset](https://www.kaggle.com/datasets/rabieelkharoua/predict-online-gaming-behavior-dataset/code)]

## Objetivo
desarrollar un sistema que prediga el abandono de jugadores (churn) y evalúe el potencial de engagement de un videojuego en etapas de diseño. Incluye un modelo de machine learning, un análisis de factores clave, un dashboard interactivo con un sistema de recomendaciones prácticas y una aplicación donde los usuarios puedan cargar sus propios datos para probar el modelo.

## Features

### Datos demográficos:
- PlayerID: Identificador único del jugador.
- Age: Edad del jugador.
- Gender: Género del jugador.
- Location: Ubicación geográfica del jugador.

### Datos del juego:
- GameGenre: Género del juego en el que el jugador está involucrado (e.g., RPG, Strategy, Action).
- GameDifficulty: Dificultad del juego, categorizada como Fácil, Media o Difícil.
- PlayerLevel: Nivel actual del jugador en el juego.
- AchievementsUnlocked: Número de logros desbloqueados por el jugador.

### Métricas de engagement:
- PlayTimeHours: Promedio de horas jugadas por sesión.
- InGamePurchases: Indica si el jugador realiza compras dentro del juego (0 = No, 1 = Sí).
- SessionsPerWeek: Número de sesiones de juego por semana.
- AvgSessionDurationMinutes: Duración promedio de cada sesión de juego en minutos.

### Variable objetivo:
- EngagementLevel: La variable objetivo categoriza el nivel de engagement del jugador en tres categorías: Bajo, Medio y Alto.

### Dataset:
- [Predict Online Gaming Behavior Dataset](https://www.kaggle.com/datasets/rabieelkharoua/predict-online-gaming-behavior-dataset/code)
- Este dataset contiene 40,034 player entries y 13 features.
- Features es un mix de datos numericos y categoricos.
- No presenta valores nulos.

## Objetivo de este notebook
- Explorar los datos y entender la distribución de las variables.
- Identificar patrones y relaciones entre las variables.
- Preparar los datos para el modelado.
- Desarrollar un modelo de machine learning para predecir el abandono de jugadores.
- Proporcionar insights para diseñadores de juegos.
- Optimizar Engagement Strategies.


In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
import plotly.subplots as sp
import plotly.io as pio
import plotly.colors as colors
import plotly.figure_factory as ff
import plotly.graph_objects as go



In [5]:
# Cargar el dataset
df = pd.read_csv('online_gaming_behavior_dataset.csv')

# Mostrar las primeras filas del dataset
df.head()


Unnamed: 0,PlayerID,Age,Gender,Location,GameGenre,PlayTimeHours,InGamePurchases,GameDifficulty,SessionsPerWeek,AvgSessionDurationMinutes,PlayerLevel,AchievementsUnlocked,EngagementLevel
0,9000,43,Male,Other,Strategy,16.271119,0,Medium,6,108,79,25,Medium
1,9001,29,Female,USA,Strategy,5.525961,0,Medium,5,144,11,10,Medium
2,9002,22,Female,USA,Sports,8.223755,0,Easy,16,142,35,41,High
3,9003,35,Male,USA,Action,5.265351,1,Easy,9,85,57,47,Medium
4,9004,33,Male,Europe,Action,15.531945,0,Medium,2,131,95,37,Medium


In [6]:
# Información general del dataset
df.info()

# Descripción estadística del dataset
df.describe()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40034 entries, 0 to 40033
Data columns (total 13 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   PlayerID                   40034 non-null  int64  
 1   Age                        40034 non-null  int64  
 2   Gender                     40034 non-null  object 
 3   Location                   40034 non-null  object 
 4   GameGenre                  40034 non-null  object 
 5   PlayTimeHours              40034 non-null  float64
 6   InGamePurchases            40034 non-null  int64  
 7   GameDifficulty             40034 non-null  object 
 8   SessionsPerWeek            40034 non-null  int64  
 9   AvgSessionDurationMinutes  40034 non-null  int64  
 10  PlayerLevel                40034 non-null  int64  
 11  AchievementsUnlocked       40034 non-null  int64  
 12  EngagementLevel            40034 non-null  object 
dtypes: float64(1), int64(7), object(5)
memory usag

Unnamed: 0,PlayerID,Age,PlayTimeHours,InGamePurchases,SessionsPerWeek,AvgSessionDurationMinutes,PlayerLevel,AchievementsUnlocked
count,40034.0,40034.0,40034.0,40034.0,40034.0,40034.0,40034.0,40034.0
mean,29016.5,31.992531,12.024365,0.200854,9.471774,94.792252,49.655568,24.526477
std,11556.964675,10.043227,6.914638,0.400644,5.763667,49.011375,28.588379,14.430726
min,9000.0,15.0,0.000115,0.0,0.0,10.0,1.0,0.0
25%,19008.25,23.0,6.067501,0.0,4.0,52.0,25.0,12.0
50%,29016.5,32.0,12.008002,0.0,9.0,95.0,49.0,25.0
75%,39024.75,41.0,17.963831,0.0,14.0,137.0,74.0,37.0
max,49033.0,49.0,23.999592,1.0,19.0,179.0,99.0,49.0


In [None]:
# Distribución de las variables categóricas
categorical_features = ['Gender', 'GameGenre', 'GameDifficulty', 'InGamePurchases', 'EngagementLevel']
for feature in categorical_features:
    plt.figure(figsize=(10, 5))
    sns.countplot(data=df, x=feature)
    plt.title(f'Distribución de {feature}')
    plt.show()


In [None]:
# Distribución de las variables numéricas
numerical_features = ['Age', 'PlayerLevel', 'AchievementsUnlocked', 'PlayTimeHours', 'SessionsPerWeek', 'AvgSessionDurationMinutes']
df[numerical_features].hist(bins=30, figsize=(15, 10))
plt.suptitle('Distribución de variables numéricas')
plt.show()


In [None]:
# Matriz de correlación
plt.figure(figsize=(12, 8))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Matriz de correlación')
plt.show()
