# TP 1 Machine Learning

## Predict Online Gaming Behavior Dataset

El dataset proporcionado contiene información sobre el comportamiento de jugadores en línea. Cada fila representa un jugador y está compuesta por varias características. A continuación, se explica el contenido de cada variable y se define su uso como variable de entrada, salida o no utilizada.

### Descripción de Variables

1. **PlayerID**: Un identificador único para cada jugador.  
   - **Uso**: No utilizada. No aporta información relevante para la predicción.

<br>

2. **Age**: Edad del jugador.  
   - **Uso**: Variable de entrada. Puede influir en el nivel de engagement.

<br>

3. **Gender**: Género del jugador (Male/Female).  
   - **Uso**: Variable de entrada. Puede influir en el nivel de engagement.

<br>

4. **Location**: Región geográfica del jugador.  
   - **Uso**: Variable de entrada. Las diferencias culturales y regionales podrían influir en el engagement.

<br>

5. **GameGenre**: Género del juego preferido por el jugador (Strategy, Sports, Action, etc.).  
   - **Uso**: Variable de entrada. Puede influir en los patrones de engagement.

<br>

6. **PlayTimeHours**: Cantidad total de horas jugadas.  
   - **Uso**: Variable de entrada. El tiempo de juego podría estar relacionado con el engagement.

<br>

7. **InGamePurchases**: Número de compras realizadas dentro del juego.  
   - **Uso**: Variable de entrada. Las compras dentro del juego pueden ser indicativas de engagement.

<br>

8. **GameDifficulty**: Nivel de dificultad del juego (Easy, Medium, Hard).  
   - **Uso**: Variable de entrada. La dificultad del juego puede afectar el nivel de engagement del jugador.

<br>

9. **SessionsPerWeek**: Número de sesiones de juego por semana.  
   - **Uso**: Variable de entrada. La frecuencia de juego puede estar correlacionada con el engagement.

<br>

10. **AvgSessionDurationMinutes**: Duración promedio de cada sesión de juego en minutos.  
    - **Uso**: Variable de entrada. La duración de las sesiones puede ser un indicador del nivel de engagement.

<br>

11. **PlayerLevel**: Nivel del jugador dentro del juego.  
    - **Uso**: Variable de entrada. El nivel del jugador podría reflejar su experiencia y engagement.

<br>

12. **AchievementsUnlocked**: Número de logros desbloqueados por el jugador.  
    - **Uso**: Variable de entrada. Los logros desbloqueados pueden ser un buen predictor del engagement.

<br>

13. **EngagementLevel**: Nivel de engagement del jugador (Low, Medium, High).  
    - **Uso**: Variable de salida. Los valores posibles son "Low", "Medium", y "High".

<br>


In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar el dataset
df = pd.read_csv('online_gaming_behavior_dataset.csv')

# Visualizar las primeras filas del dataframe
df.head()

In [None]:
#Eliminamos la columna PlayerID que no sera utilizada
df.drop('PlayerID', axis=1, inplace=True)

df.head()

## Análisis detallado de un conjunto de variables
2.1 Distribución de la Variable de Salida: EngagementLevel

Primero, vamos a analizar y graficar la distribución de la variable de salida EngagementLevel para entender cómo se distribuyen los datos.

In [None]:
contar_level = (df['EngagementLevel'].value_counts()).sort_index()
print(contar_level)

In [None]:
# Distribución de la variable de salida
plt.figure(figsize=(8, 6))
sns.countplot(x='EngagementLevel', data=df)
plt.title('Distribución de la Variable de Salida: EngagementLevel')
plt.xlabel('Engagement Level')
plt.ylabel('Conteo')
plt.show()

La gráfica nos muestra cómo se distribuyen los niveles de engagement (Low, Medium, High) entre los jugadores. Es importante revisar si hay un desbalance en las clases, ya que podría afectar el rendimiento de los modelos predictivos.

Posibles Consecuencias o Consideraciones:

Si la distribución está desbalanceada (por ejemplo, muchos más datos en la categoría 'Medium'), se podrían considerar técnicas como el sobremuestreo o el submuestreo para equilibrar las clases y mejorar la precisión del modelo.
Un desbalance podría indicar la necesidad de utilizar métricas como F1-score en lugar de solo precisión para evaluar el rendimiento del modelo.


2.2 Análisis Individual de Cada Variable de Entrada

Ahora, realizamos un análisis para cada variable de entrada seleccionada.

2.2.1 Edad (Age)

In [None]:
plt.figure(figsize=(8, 6))
sns.histplot(df['Age'], kde=True, bins=35)
plt.title('Distribución de la Edad')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()


Relación con EngagementLevel:


In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(x='EngagementLevel', y='Age', data=df)
plt.title('Relación entre Edad y EngagementLevel')
plt.xlabel('Engagement Level')
plt.ylabel('Edad')
plt.show()

### Conclusion:
Respecto al analisis individual con la linea de densidad estimada podemos ver que que las edades dentro del dataframe estan bastante bien balanceadas.

En cuanto a la relacion con los datos de salida podemos ver que esta bastante bien distribuido entre edades y su EngagementLevel, es decir, que no tienen una relacion directa. Pero analizando, podemos decir que la edad media en los tres niveles es de aproximadamente 32 anios. El 50% de los usuarios esta entre 23/24 anios y 41 anios.

In [None]:
# Contar cuántos usuarios hay de cada edad
conteo_edades = (df['Age'].value_counts()).sort_index()

# Edad máxima
edad_maxima = df['Age'].max()

# Edad mínima
edad_minima = df['Age'].min()

# Mostrar los resultados
print(f"Edad máxima: {edad_maxima}")
print(f"Edad mínima: {edad_minima}")

# Mostrar el conteo
print(conteo_edades)

2.2.2 Género (Gender)

Distribución:

In [None]:
plt.figure(figsize=(8, 6))
sns.countplot(x='Gender', data=df)
plt.title('Distribución de Género')
plt.xlabel('Género')
plt.ylabel('Conteo')
plt.show()

conteo_genero = df['Gender'].value_counts()
print(conteo_genero)

Relación con EngagementLevel:



In [None]:
plt.figure(figsize=(8, 6))
sns.countplot(x='Gender', hue='EngagementLevel', data=df)
plt.title('Relación entre Género y EngagementLevel')
plt.xlabel('Género')
plt.ylabel('Conteo')
plt.show()


### Conclusion:
Respecto al analisis individual podemos ver que la mayoria de los usuarios son hombres respecto a las mujeres, con una diferencia de 7884 usuarios.

En cuanto a la relacion con los datos de salida, podemos visualizar que respecto a la distribucion de EngagementLevel dependiendo el genero esta muy bien distribuida las cantidades. Donde Low y High en los dos generos poseen casi la misma cantidad de usuarios, y en cuando al Medium posee el doble en los dos casos.

2.2.3 Región (Location)

Distribución:

In [None]:
plt.figure(figsize=(8, 6))
sns.countplot(x='Location', data=df)
plt.title('Distribución de la Ubicación Geográfica')
plt.xlabel('Ubicación')
plt.ylabel('Conteo')
plt.show()


Relación con EngagementLevel:



In [None]:
plt.figure(figsize=(10, 6))
sns.countplot(x='Location', hue='EngagementLevel', data=df)
plt.title('Relación entre Ubicación y EngagementLevel')
plt.xlabel('Ubicación')
plt.ylabel('Conteo')
plt.show()


### Conclusion:
Respecto al analisis individual, la cantidad de usuarios de este DataFrame esta mayoritariamente obtenido de jugadores de USA, luego otro gran porcentaje de Europa y luego Asia y otros. La cantidad de usuarios de Asia mas otros, es casi igual que la cantidad de usuarios en Europa. Y la cantidad de usuarios de Europa mas otros es casi igual a la cantidad de usuarios de USA.

Respecto a la relacion con los datos de salida podemos visualizar que en todas las ubicaciones predominan los usuarios Medium. Tambien, centrandonos por ubicacion, la cantidad de usuarios Medium es casi la suma de los usuarios High y Low.

2.2.4 Género de Juego (GameGenre)


Distribución:

In [None]:
plt.figure(figsize=(8, 6))
sns.countplot(x='GameGenre', data=df)
plt.title('Distribución del Género del Juego')
plt.xlabel('Género del Juego')
plt.ylabel('Conteo')
plt.xticks(rotation=45)
plt.show()


Relación con EngagementLevel:



In [None]:
plt.figure(figsize=(10, 6))
sns.countplot(x='GameGenre', hue='EngagementLevel', data=df)
plt.title('Relación entre Género del Juego y EngagementLevel')
plt.xlabel('Género del Juego')
plt.ylabel('Conteo')
plt.xticks(rotation=45)
plt.show()


### Conclusion:
Respecto al analisis individual, esta muy balanceado la cantidad de usuarios por genero de juego. Esto lo hace un dato bastante util para utilizar en temas de aprendizaje.

En cuanto a la relacion con los datos de salida nuevamente, por genero de juego, los usuarios High y Low poseen casi la misma cantidad de jugadores. Y su suma, da parecido a los usuarios Medium. Otra cosa a tener en cuenta, que en todos los EngagementLevel de cada genero de juego, poseen casi la misma cantidad de usuarios Medium.

2.2.5 Tiempo de Juego (PlayTimeHours)


Distribución:

In [None]:
plt.figure(figsize=(8, 6))
sns.histplot(df['PlayTimeHours'], kde=True)
plt.title('Distribución del Tiempo de Juego')
plt.xlabel('Horas de Juego')
plt.ylabel('Frecuencia')
plt.show()


Relación con EngagementLevel:



In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(x='EngagementLevel', y='PlayTimeHours', data=df)
plt.title('Relación entre Tiempo de Juego y EngagementLevel')
plt.xlabel('Engagement Level')
plt.ylabel('Horas de Juego')
plt.show()


### Conclusion:
Respecto al analisis indivual no se muestra una tendencia de la cantidad de horas jugadas. Solamente se puede ver en las puntas que nadie juega o muy poco o demasiado(24hrs).

En cuanto a la relacion en con los datos de salida el EngagementLevel no tiene un efecto muy directo respecto a la relacion con las horas de juego, lo que hace que las distribuciones sean bastante similares. Podriamos decir, sin importar su EngagementLevel la media de horas es de 12/13 horas, y el 50% de los usuarios de cada uno juega entre 6 horas y 18 horas.

2.2.6 Compras en el Juego (InGamePurchases)


Distribución:

In [None]:
counts = df['InGamePurchases'].value_counts()

plt.figure(figsize=(8, 6))
sns.barplot(x=counts.index, y=counts.values, palette="viridis")
plt.title('Distribución de Compras en el Juego')
plt.xlabel('Compras en el Juego (0: No, 1: Sí)')
plt.ylabel('Frecuencia')
plt.show()

cantidad_pagos=df['InGamePurchases'].value_counts()
print(cantidad_pagos)

Relación con EngagementLevel:

In [None]:
plt.figure(figsize=(8, 6))
sns.countplot(x='EngagementLevel', hue='InGamePurchases', data=df, palette="viridis")

# Personalizar el gráfico
plt.title('Relación entre Compras en el Juego y EngagementLevel')
plt.xlabel('Engagement Level')
plt.ylabel('Frecuencia')

plt.legend(title='Compras en el Juego', labels=['No', 'Sí'])

plt.show()

### Conclusion:
Respecto al analisis individual podemos ver notoriamente que aproximadamente 8000 usuarios solamente compran cosas dentro de los juegos, siendo un 20% del total. Esto podria afectar a alguna salida.

Si comparamos con los datos de salida, podemos ver que esta bien distribuido el tema del 20% de usuarios que compran dentro del juego segun su EngagementLevel. Vemos que sea lo que sea que compren dentro del juego no altera demasiado el EngagementLevel con el que se los clasifico. Puede ser una variante que ayude, pero no se ve que influya tan directamente.

2.2.7 Dificultad del Juego (GameDifficulty)

Distribución:

In [None]:
plt.figure(figsize=(8, 6))
sns.countplot(x='GameDifficulty', data=df)
plt.title('Distribución de la Dificultad del Juego')
plt.xlabel('Dificultad del Juego')
plt.ylabel('Conteo')
plt.show()


Relación con EngagementLevel:



In [None]:
plt.figure(figsize=(8, 6))
sns.countplot(x='GameDifficulty', hue='EngagementLevel', data=df)
plt.title('Relación entre Dificultad del Juego y EngagementLevel')
plt.xlabel('Dificultad del Juego')
plt.ylabel('Conteo')
plt.show()


### Conclusion:
Analizando los datos individualmente, vemos que la mayoria de los usuarios juega en dificultad facil siendo casi el 50% de los mismos, entonces podemos decir que no esta distribuido equitativamente entre las dificultades. Podriamos tener en cuenta de que este se veria reflejado en la salida.

Ahora, si los comparamos con los datos de salida vemos que casi el 50% de usuarios en EngagementLevel Medium juega en dificultad facil siendo un factor que afecta directamente a la clasificacion. Por otro lado en las tres dificultades la suma de los EngagementLevel Low y High da el valor de Medium.

2.2.8 Sesiones por Semana (SessionsPerWeek)

Distribución:

In [None]:
plt.figure(figsize=(8, 6))
sns.histplot(df['SessionsPerWeek'], kde=True, bins=20)
plt.title('Distribución de Sesiones por Semana')
plt.xlabel('Sesiones por Semana')
plt.ylabel('Frecuencia')
plt.xticks(range(0, 21, 2))
plt.show()

#ayuda para ver bien las cantidades
sesiones = (df['SessionsPerWeek'].value_counts()).sort_index()
print(sesiones)

Relación con EngagementLevel:

In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(x='EngagementLevel', y='SessionsPerWeek', data=df)
plt.title('Relación entre Sesiones por Semana y EngagementLevel')
plt.xlabel('Engagement Level')
plt.ylabel('Sesiones por Semana')
plt.show()


### Conclusion:
En cuanto al analisis individual podemos decir que posee una distribucion bastante balanceada entre los jugadores y las sesiones por semana. Existe un pico entre las 7 y 8 sesiones donde varia la minima.

Respecto a la comparacion con los datos de salida, vemos que influye directamente la cantidad de sesiones por semana respecto al EngagementLevel asignado. Corroboramos que los asignados como High poseen una media de sesiones por semana mayor(15 sesiones) a los demas, teniendo casi su 50% de usuarios sobre los demas EngagementLevel(Low y Medium). Podemos afirmar que las sesiones por semana van a definir que EngagementLevel se te asigne. Mas sesiones, mejor asignacion.

2.2.9 Duración Promedio de Sesión (AvgSessionDurationMinutes)

Distribución:

In [None]:
plt.figure(figsize=(8, 6))
sns.histplot(df['AvgSessionDurationMinutes'], kde=True)
plt.title('Distribución de la Duración Promedio de Sesión')
plt.xlabel('Duración Promedio de Sesión (Minutos)')
plt.ylabel('Frecuencia')
plt.show()


Relación con EngagementLevel:



In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(x='EngagementLevel', y='AvgSessionDurationMinutes', data=df)
plt.title('Relación entre Duración Promedio de Sesión y EngagementLevel')
plt.xlabel('Engagement Level')
plt.ylabel('Duración Promedio de Sesión (Minutos)')
plt.show()


### Conclusion:
Respecto al analisis individual de los datos podemos visualizar que esta bastante bien distribuido el promedio de minutos en sesion. Existen algunos picos bajos en cinco ocaciones, que a criterio nuestro puede ser dado a que son el tiempo suficiente o normal de algunas partidas de algunos juegos. Estos picos se ven en los 30 min, 60 min, 90 min, 120 min y 150 min. Siendo, el promedio de 30 min la demora de una partida de X juego. Teniendo en cuenta que juegue la partida(1, 2, 3, 4, o 5 partidas) y se salga.

Si lo analizamos comparando con los datos de salida nuevamente podemos ver que afecta directamente al EngagementLevel asignado el promedio de minutos por sesion. Mientras mas dure la sesion, mas posibilidades de que tu EngagementLevel sea el mas alto.

2.2.10 Nivel del Jugador (PlayerLevel)

Distribución:

In [None]:
plt.figure(figsize=(14, 6))
sns.histplot(df['PlayerLevel'], kde=True, bins=99)
plt.title('Distribución del Nivel del Jugador')
plt.xlabel('Nivel del Jugador')
plt.ylabel('Frecuencia')
plt.xticks(range(0, 100, 2))
plt.show

playerLevel = (df['PlayerLevel'].value_counts()).sort_index()
playerLevel= playerLevel.loc[49:49]
print(playerLevel)

Relación con EngagementLevel:



In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(x='EngagementLevel', y='PlayerLevel', data=df)
plt.title('Relación entre Nivel del Jugador y EngagementLevel')
plt.xlabel('Engagement Level')
plt.ylabel('Nivel del Jugador')
plt.show()


### Conclusion:
Analizando los datos individualmente podemos ver que la distribucion es balanceada en cuanto al nivel de jugador aunque se visualizan algunos picos inferiores en algunos determinados niveles. No se puede sacar muchas concluciones solo con el dato del nivel del jugador.

Respecto a la comparativa de los datos de salida los jugadores con EngagementLevel High y Medium poseen una distribucion muy parecida en cuanto al nivel. Respecto a los denominados Low afirmamos que poseen un nivel de jugador menor.

2.2.11 Logros Desbloqueados (AchievementsUnlocked)

Distribución:

In [None]:
plt.figure(figsize=(8, 6))
sns.histplot(df['AchievementsUnlocked'], kde=True, bins=50)
plt.title('Distribución de Logros Desbloqueados')
plt.xlabel('Logros Desbloqueados')
plt.ylabel('Frecuencia')
plt.show()


Relación con EngagementLevel:



In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(x='EngagementLevel', y='AchievementsUnlocked', data=df)
plt.title('Relación entre Logros Desbloqueados y EngagementLevel')
plt.xlabel('Engagement Level')
plt.ylabel('Logros Desbloqueados')
plt.show()


### Conclusion:
Analizando los datos individualmente visualizamos que la distribucion esta bastante balanceada en la cantidad de logros que tiene cada usuario. No es un dato muy observable para determinar algo.

Si lo analizamos con respecto a los datos de salida, podemos decir que los EngagementLevel Hight y Medium poseen un promedio de logros mayor que uno de nivel Low.

### Transformacion de valores 

Transformamos valores de tipo objeto a valores numericos 

In [None]:
from sklearn.preprocessing import LabelEncoder
import pandas as pd

# Identificar las columnas de tipo 'object' o 'string'
categorical_columns = df.select_dtypes(include=['object']).columns

# Exploración inicial de las variables categóricas
print(f"Columnas categóricas: {categorical_columns}")

# Creación de una copia del dataframe para trabajar en las transformaciones
df_encoded = df.copy()

# Transformación de variables categóricas a valores numéricos
for column in categorical_columns:
    # Verificar la cantidad de categorías en la variable
    unique_values = df_encoded[column].nunique()

    if unique_values <= 10:
        # Aplicar One-Hot Encoding si la variable tiene pocas categorías
        df_encoded = pd.get_dummies(df_encoded, columns=[column], drop_first=False)
    else:
        # Aplicar Label Encoding si la variable tiene muchas categorías
        label_encoder = LabelEncoder()
        df_encoded[column] = label_encoder.fit_transform(df_encoded[column])

# Transformar columnas booleanas a 0 y 1
for column in df_encoded.select_dtypes(include=['bool']).columns:
    df_encoded[column] = df_encoded[column].astype(int)

# Verificar la transformación
df_encoded.head()


In [None]:
df_encoded.info()

2.3 Análisis de Valores Nulos y Extremos

Vamos a verificar si las variables de entrada seleccionadas presentan valores nulos o extremos.

In [None]:
# Verificación de valores nulos en todo el DataFrame
missing_values = df_encoded.isnull().sum()
print("Valores nulos por columna:")
print(missing_values[missing_values > 0])

In [None]:
# Identificación de columnas numéricas continuas
numeric_columns = df_encoded.select_dtypes(include=['float64', 'int64']).columns

# Exclusión de columnas booleanas
numeric_columns = [col for col in numeric_columns if df_encoded[col].nunique() > 2]

# Verificación de valores extremos (outliers) utilizando el método IQR
Q1 = df_encoded[numeric_columns].quantile(0.25)
Q3 = df_encoded[numeric_columns].quantile(0.75)
IQR = Q3 - Q1
outliers = ((df_encoded[numeric_columns] < (Q1 - 1.5 * IQR)) | 
            (df_encoded[numeric_columns] > (Q3 + 1.5 * IQR))).sum()

print("Valores extremos por columna numérica:")
print(outliers[outliers > 0])

Tal como podemos ver no existen valores nulos dentro del codigo ni variables que presenten extremos 

2.4 Análisis de Correlación Lineal entre Variables

Verificamos si existen variables altamente correlacionadas linealmente.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Calcular la matriz de correlación usando el método de Pearson
correlation_matrix = df_encoded.corr(method='pearson')

# Visualización de la matriz de correlación
plt.figure(figsize=(16, 12))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Matriz de Correlación')
plt.show()


2.5 Preguntas para el Encargado de Proveer los Datos

1) Definición del Engagement Level: ¿Cómo se define y calcula el nivel de engagement? ¿Es una clasificación hecha manualmente o se basa en algún algoritmo?

2) Origen de los Datos: ¿Los datos fueron recolectados de una única plataforma de juegos o provienen de múltiples fuentes?

3) Frecuencia de Actualización: ¿Cada cuánto tiempo se actualiza este dataset? ¿Los datos reflejan el comportamiento actual de los jugadores?

4) Propósito del Dataset: ¿Cuál es el objetivo principal al analizar este dataset? ¿Se espera construir un modelo predictivo, realizar análisis descriptivo, o algo más?

## Hipótesis Formulada:

### Hipótesis: "Los jugadores que pasan más tiempo en partidas tienen un mayor nivel de engagement."

La idea es que cuanto más tiempo invierte un jugador en las partidas, más comprometido (engaged) estará con el juego. Por lo tanto, esperaríamos que los jugadores con tiempos de juego altos tiendan a tener un nivel de engagement más alto (High).

1) Análisis para Validar la Hipótesis:
Primero, debemos analizar la relación entre el tiempo que pasan los jugadores en las partidas y su nivel de engagement.

In [None]:
# Revisión de las primeras filas del DataFrame
df.head()

2) Análisis exploratorio de las variables de interés:

* EngagementLevel: Variable objetivo con valores categóricos (Low, Medium, High).
* AvgSessionDurationMinutes: Variable relacionada con el tiempo total que un jugador pasa en el juego por sesion.

In [None]:
# Distribución de la variable 'EngagementLevel'
df['EngagementLevel'].value_counts()

# Descripción estadística de 'TotalTimeSpent'
df['AvgSessionDurationMinutes'].describe()

# Análisis de la relación entre 'TotalTimeSpent' y 'EngagementLevel'
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
sns.boxplot(x='EngagementLevel', y='AvgSessionDurationMinutes', data=df)
plt.title('Relación entre EngagementLevel y AvgSessionDurationMinutes')
plt.show()


### Conclusión sobre la Hipótesis
La hipótesis de que "los jugadores que pasan más tiempo en partidas tienen un mayor nivel de engagement" parece estar parcialmente validada:

Validación Parcial: Los jugadores con un nivel de engagement alto (High) tienden a tener sesiones más largas en promedio comparado con aquellos con engagement medio o bajo.

Consideraciones: Sin embargo, la relación no es completamente lineal, ya que algunos jugadores con engagement alto tienen tiempos de sesión comparables a los de engagement bajo. Esto podría indicar que otros factores además del tiempo de juego están influyendo en el nivel de engagement.

Este análisis sugiere que el tiempo de sesión promedio es un factor importante pero no el único determinante del nivel de engagement de un jugador. Se podría profundizar en otros factores adicionales que podrían estar influyendo en el engagement.

## Hallazgos
Podemos ver otras relaciones donde la variable de salida EngagementLevel tiene alta relacion con las Sesiones por semana que influye bastante, tambien las variables de Nivel de jugador y Logros desbloqueados.


Respecto a las Sesiones por semana podemos ver que afecta a la distribucion de que mayor cantidad de Sesiones por semana, mayor va a ser el EngagementLevel.


In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(x='EngagementLevel', y='SessionsPerWeek', data=df)
plt.title('Relación entre Sesiones por Semana y EngagementLevel')
plt.xlabel('Engagement Level')
plt.ylabel('Sesiones por Semana')
plt.show()

En cuanto el Nivel de jugador y Logros desbloqueados, tambien ayudan a la clasificacion del EngagementLevel del usuario.

### Nivel del jugador

In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(x='EngagementLevel', y='PlayerLevel', data=df)
plt.title('Relación entre Nivel del Jugador y EngagementLevel')
plt.xlabel('Engagement Level')
plt.ylabel('Nivel del Jugador')
plt.show()

### Logros Desbloqueados

In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(x='EngagementLevel', y='AchievementsUnlocked', data=df)
plt.title('Relación entre Logros Desbloqueados y EngagementLevel')
plt.xlabel('Engagement Level')
plt.ylabel('Logros Desbloqueados')
plt.show()

## Variables que se podrian crear a partir de los datos existentes

Feature engineering, puede ser muy beneficiosa en problemas de modelado predictivo. Esto es útil cuando queremos capturar relaciones o patrones que no son directamente evidentes en las variables originales.

#### Posibles Nuevas Variables para Crear:
1) Relación entre PlayTimeHours y AvgSessionDurationMinutes:

Descripción: Crear una variable que mida cuántas horas juega en promedio el usuario por sesión.

Cómo calcularlo: AvgPlayTimePerSession = PlayTimeHours / (AvgSessionDurationMinutes / 60)

Beneficio: Esto capturaría si los jugadores que juegan por periodos más cortos, pero más frecuentemente, tienen un nivel de engagement diferente.

2) Nivel de Logro Relativo:

Descripción: Crear una variable que relacione el número de logros desbloqueados con el nivel del jugador.

Cómo calcularlo: AchievementRatio = AchievementsUnlocked / PlayerLevel

Beneficio: Esto podría revelar si los jugadores que desbloquean logros más rápido tienen un nivel de engagement mayor.

3) Edad Ajustada por Nivel de Juego:

Descripción: Crear una variable que compare la edad del jugador con su nivel de juego.

Cómo calcularlo: AgeAdjustedLevel = Age / PlayerLevel

Beneficio: Esto podría indicar si los jugadores más jóvenes o mayores tienen una progresión diferente en el juego y si eso afecta su engagement.

## Modelado

#### Transformers y Pipeline

Transformamos las variables aplicando transformadores y modelos usando un PipeLine

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, FunctionTransformer, StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [None]:
# Separar variables de entrada y salida
X = df.drop(columns=['EngagementLevel'])
y = df['EngagementLevel']

In [None]:
# Identificar las columnas categóricas, booleanas y numéricas
categorical_columns = X.select_dtypes(include=['object']).columns
numeric_columns = X.select_dtypes(include=['int64', 'float64']).columns

print(categorical_columns)
print(numeric_columns)

In [None]:
from sklearn_pandas import DataFrameMapper

mapper = DataFrameMapper([
    (['Age'],[StandardScaler()]),
    (['PlayTimeHours'],[StandardScaler()]),
    (['InGamePurchases'],[StandardScaler()]),
    (['SessionsPerWeek'],[StandardScaler()]),
    (['AvgSessionDurationMinutes'],[StandardScaler()]),
    (['PlayerLevel'],[StandardScaler()]),
    (['AchievementsUnlocked'],[StandardScaler()]),
    (['Gender'],[OneHotEncoder(drop='first')]),
    (['Location'],[OneHotEncoder(drop='first')]),
    (['GameGenre'],[OneHotEncoder(drop='first')]),
    (['GameDifficulty'],[OneHotEncoder(drop='first')])
]
,df_out=True)

In [None]:
# Ajustar y transformar los datos
mapper.fit(X)
transformed_df = mapper.transform(X)
print(transformed_df.head())

In [None]:
# Dividir el dataset en train, validation y test (60% train, 20% val, 20% test)
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

#### Regresion Logistica

In [None]:
# Crear el Pipeline
pipeline_rl = Pipeline(steps=[
    ('mapper', mapper),
    ('classifier', LogisticRegression())
])

In [None]:
# Entrenar el modelo
pipeline_rl.fit(X_train, y_train)

### KNN

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighborsClassifier

In [None]:
knn_clf = KNeighborsClassifier(n_neighbors=1)
parameters = {'n_neighbors': [1, 3, 5, 10, 15, 20, 50, 100]}

clf = GridSearchCV(knn_clf, parameters, refit=True, verbose=1)

pipeline_knn = Pipeline([
    ('mapper', mapper),
    ('classifier', clf)
])

pipeline_knn.fit(X_train, y_train)

clf.best_score_, clf.best_params_

### Random Forest

In [None]:
import graphviz  # pip install graphviz
from sklearn.tree import export_graphviz

def graph_tree(tree, col_names):
    graph_data = export_graphviz(
        tree,
        out_file=None,
        feature_names=col_names,
        class_names=['low', 'medium', 'high'],
        filled=True,
        rounded=True,
        special_characters=True,
    )
    graph = graphviz.Source(graph_data)
    return graph

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Crear el clasificador de Random Forest
rf_clf = RandomForestClassifier(n_estimators=100, max_depth=10, max_features=8, random_state=42)

# Crear el Pipeline
pipeline_rf = Pipeline([
    ('mapper', mapper),
    ('classifier', rf_clf)
])

# Entrenar el pipeline
pipeline_rf.fit(X_train, y_train)

In [None]:
graph_tree(rf_clf.estimators_[0], col_names=mapper.transformed_names_)

#### Random Forest con GridSearch

In [None]:
# Definir el modelo Random Forest
rf_clf_gs = RandomForestClassifier(random_state=42)

# Definir los hiperparámetros que queremos probar
param_grid = {
    'n_estimators': [100, 200, 500],          # Probar diferentes números de árboles
    'max_depth': [10, 20, 30, None],          # Profundidad de los árboles
    'min_samples_split': [2, 5, 10],          # Muestras mínimas para dividir un nodo
    'min_samples_leaf': [1, 2, 4],            # Muestras mínimas por hoja
    'bootstrap': [True, False]                # Uso de bootstrap en el muestreo
}

# Configurar el GridSearch
grid_search_cv = GridSearchCV(
    estimator=rf_clf_gs, 
    param_grid=param_grid, 
    
    cv=5,                    # Validación cruzada 
    scoring='accuracy',       # Métrica de evaluación 
    n_jobs=-1,                # Usar todos los núcleos disponibles
    verbose=2                 # Nivel de detalle de la salida en la consola
)

pipeline_rf_cv = Pipeline([
    ('mapper', mapper),
    ('classifier', grid_search_cv)
])

pipeline_rf_cv.fit(X_train, y_train)

## Evaluacion de modelos

#### Justificación de la elección de Accuracy como métrica de evaluación

En el presente trabajo, el objetivo es desarrollar un modelo de clasificación que permita categorizar a los jugadores en tres niveles de engagement (Bajo, Medio y Alto) para optimizar su experiencia en el juego mediante la oferta de información y promociones personalizadas. Para evaluar el rendimiento de dicho modelo, se ha optado por utilizar accuracy como la métrica principal. 

En el contexto de clasificación multiclase, como es el caso de este problema con tres niveles de engagement, la accuracy se calcula como el número total de predicciones correctas dividido por el número total de instancias evaluadas.

El dataset en cuestión clasifica a los jugadores en tres categorías de engagement: Bajo, Medio y Alto. Tras un análisis preliminar, se determinó que la distribución de las clases es relativamente balanceada, es decir, las tres categorías tienen proporciones similares de instancias. En este tipo de escenario, la métrica accuracy resulta apropiada, ya que proporciona una evaluación directa de la proporción de predicciones correctas realizadas por el modelo, reflejando su capacidad para clasificar a los jugadores correctamente en cualquiera de las tres clases.

Si bien existen métricas alternativas como el F1-Score, Precision o Recall, estas son más útiles en problemas donde las clases están desbalanceadas o cuando hay una clase específica que es crítica para el problema, lo cual no es el caso en este trabajo. En este contexto, todas las clases son igualmente relevantes para la toma de decisiones en cuanto a las ofertas y experiencias personalizadas que se proporcionarán a los jugadores.

Finalmente, el uso de accuracy permite una comparabilidad adecuada con otros modelos de clasificación que podrían ser evaluados en este contexto. Al ser una métrica estándar, facilita la comparación entre diferentes algoritmos de machine learning (como árboles de decisión, random forests, redes neuronales, entre otros), permitiendo seleccionar el modelo más adecuado en función de su rendimiento global.



In [None]:
from sklearn import metrics

def evaluate_model(model, X_train, y_train, X_val, y_val, title='', show_cm=False, average='weighted'):
    """
    Evalúa un modelo en conjuntos de entrenamiento y validación para problemas multiclase.

    Parameters:
    - model: El modelo a evaluar.
    - X_train, y_train: Conjunto de entrenamiento.
    - X_val, y_val: Conjunto de validación.
    - title: Título opcional para mostrar en la salida.
    - show_cm: Booleano para decidir si mostrar la matriz de confusión.
    - average: Tipo de promedio para las métricas ('micro', 'macro', 'weighted', None).

    Returns:
    - DataFrame con métricas de rendimiento (Accuracy, Precision, Recall, F1).
    """
    if title:
        display(title)

    final_metrics = {
        'Accuracy': [],
        'Precision': [],
        'Recall': [],
        'F1': [],
    }

    # Diccionario para iterar sobre los conjuntos
    datasets = {
        'train': (X_train, y_train),
        'validation': (X_val, y_val),
    }

    for set_name, (X, y) in datasets.items():
        y_pred = model.predict(X)
        final_metrics['Accuracy'].append(metrics.accuracy_score(y, y_pred))
        final_metrics['Precision'].append(metrics.precision_score(y, y_pred, average=average))
        final_metrics['Recall'].append(metrics.recall_score(y, y_pred, average=average))
        final_metrics['F1'].append(metrics.f1_score(y, y_pred, average=average))

        if show_cm:
            cm = metrics.confusion_matrix(y, y_pred)
            cm_plot = metrics.ConfusionMatrixDisplay(confusion_matrix=cm,
                                                     display_labels=model.classes_)
            cm_plot.plot(cmap="Blues")
            cm_plot.ax_.set_title(f'Confusion Matrix - {set_name}')

    # Mostrar las métricas en un DataFrame
    metrics_df = pd.DataFrame(final_metrics, index=['train', 'validation'])
    display(metrics_df)

#### Evaluacion Regresion Logistica

In [None]:
evaluate_model(pipeline_rl, X_train, y_train, X_val, y_val, title='Evaluation Results', show_cm=True)

### Evaluacion KNN

In [None]:
evaluate_model(pipeline_knn, X_train, y_train, X_val, y_val, title='Evaluation Results', show_cm=True)

### Evaluacion Random Forest

In [None]:
evaluate_model(pipeline_rf, X_train, y_train, X_val, y_val, title='Evaluation Results', show_cm=True)

In [None]:
evaluate_model(pipeline_rf_cv, X_train, y_train, X_val, y_val, title='Evaluation Results', show_cm=True)

#### Conclusiones Parciales

Teniendo en cuenta que nuestra metrica de evaluacion fue Accuracy, vemos hasta el momento que el modelo Random Forest que planteamos con parametros propios(n_estimators=100, max_depth=10, max_features=8, random_state=42) es el que mejor Accuracy devuelve para el set de datos con un resultado del 0.913% en validation. Ademas, en todas las otras metricas muestra mejores resultados que sus oponentes.

## Aplicamos Feature Engineering

Primero intentamos creando una nueva feature llama "TotalWeeklyPlaytime" que funciona como una combinacion de "SessionsPerWeek" y "AvgSessionDurationMinutes"

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar el dataset
df = pd.read_csv('online_gaming_behavior_dataset.csv')

# Visualizar las primeras filas del dataframe
df.head()

df.drop('PlayerID', axis=1, inplace=True)

In [None]:
df['TotalWeeklyPlaytime'] = df['SessionsPerWeek'] * df['AvgSessionDurationMinutes']

Luego dividimos "AgeGroup" y "ExperienceLevel" en grupos en base a la data

In [None]:
# Binning Age and PlayerLevel
df['AgeGroup'] = pd.cut(df['Age'], bins=[0, 18, 25, 35, 50, 100], labels=['Teen', '20s', '30s', '40s', '50+'])
df.drop('Age', axis=1, inplace=True)

df['ExperienceLevel'] = pd.cut(df['PlayerLevel'], bins=[0, 20, 50, 100], labels=['Beginner', 'Intermediate', 'Expert'])
df.drop('PlayerLevel', axis=1, inplace=True)

In [None]:
df.head()

Dividimos el nuevo set de datos

In [None]:
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.impute import SimpleImputer
from sklearn.metrics import classification_report

X_fe = df.drop(columns=['EngagementLevel'])  # Assuming EngagementLevel is the target
y_fe = df['EngagementLevel']

# Dividir el dataset en train, validation y test (60% train, 20% val, 20% test)
X_train_fe, X_temp_fe, y_train_fe, y_temp_fe = train_test_split(X_fe, y_fe, test_size=0.4, random_state=42)
X_val_fe, X_test_fe, y_val_fe, y_test_fe = train_test_split(X_temp_fe, y_temp_fe, test_size=0.5, random_state=42)

Separamos los datos en categoricos y numericos

In [None]:
categorical_cols = ['Gender', 'Location', 'GameGenre', 'GameDifficulty', 'AgeGroup', 'ExperienceLevel']
numerical_cols = ['PlayTimeHours', 'SessionsPerWeek', 'AvgSessionDurationMinutes', 'TotalWeeklyPlaytime']

In [None]:
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numerical_cols),
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_cols)
    ])


### Modelos con Feature Engineering

#### Regresion Logistica con Feature Engineering

In [None]:
logreg = LogisticRegression()

pipeline_logistica = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', logreg)
])

In [None]:
pipeline_logistica.fit(X_train_fe, y_train_fe)

#### KNN con Feature Engineering

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighborsClassifier

In [None]:
knn_clf = KNeighborsClassifier(n_neighbors=1)
parameters = {'n_neighbors': [1, 3, 5, 10, 15, 20, 50, 100]}

clf = GridSearchCV(knn_clf, parameters, refit=True, verbose=1)

pipeline_knn_fe = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', clf)
])

pipeline_knn_fe.fit(X_train_fe, y_train_fe)

clf.best_score_, clf.best_params_

#### Random Forest con Feature Engineering

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Crear el clasificador de Random Forest
rf_clf = RandomForestClassifier(n_estimators=100, max_depth=10, max_features=8, random_state=42)

# Crear el Pipeline
pipeline_rf_fe = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', rf_clf)
])

# Entrenar el pipeline
pipeline_rf_fe.fit(X_train_fe, y_train_fe)

In [None]:
# Definir el modelo Random Forest
rf_clf_gs = RandomForestClassifier(random_state=42)

# Definir los hiperparámetros que queremos probar
param_grid = {
    'n_estimators': [100, 200, 500],          # Probar diferentes números de árboles
    'max_depth': [10, 20, 30, None],          # Profundidad de los árboles
    'min_samples_split': [2, 5, 10],          # Muestras mínimas para dividir un nodo
    'min_samples_leaf': [1, 2, 4],            # Muestras mínimas por hoja
    'bootstrap': [True, False]                # Uso de bootstrap en el muestreo
}

# Configurar el GridSearch
grid_search_cv = GridSearchCV(
    estimator=rf_clf_gs, 
    param_grid=param_grid, 
    
    cv=5,                    # Validación cruzada 
    scoring='accuracy',       # Métrica de evaluación
    n_jobs=-1,                # Usar todos los núcleos disponibles
    verbose=2                 # Nivel de detalle de la salida en la consola
)

pipeline_rf_cv_fe = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', grid_search_cv)
])

pipeline_rf_cv_fe.fit(X_train_fe, y_train_fe)

### Evaluacion de modelos con Feature Engineering

#### Evaluacion Regresion Logistica

In [None]:
evaluate_model(pipeline_logistica, X_train_fe, y_train_fe, X_val_fe, y_val_fe, title='Evaluation Results', show_cm=True)

#### Evaluacion KNN

In [None]:
evaluate_model(pipeline_knn_fe, X_train_fe, y_train_fe, X_val_fe, y_val_fe, title='Evaluation Results', show_cm=True)

#### Evaluacion de modelo con Random Forest

In [None]:
evaluate_model(pipeline_rf_fe, X_train_fe, y_train_fe, X_val_fe, y_val_fe, title='Evaluation Results', show_cm=True)

#### Evaluacion de Random Forest con GridSearchCV y Feature Engineering

In [None]:
evaluate_model(pipeline_rf_cv_fe, X_train_fe, y_train_fe, X_val_fe, y_val_fe, title='Evaluation Results', show_cm=True)

#### Conclusiones parciales

Tras evaluar el Accuracy de los modelos testeados utilizando Feature Engineering vemos una mejora notable en Regresion Logistica y KNN en comparacion a cuando no los habiamos aplicado. Sin embargo, vemos una caida en el rendimiento del conjunto de validacion para Random Forest. 
A pesar de la mejora de KNN y Regresion Logistica, seguimos alejados del 91.3% que conseguimos con Random Forest sin aplicar Feature Engineering. 

## Aplicacion de PCA

In [None]:
from sklearn.decomposition import PCA
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, FunctionTransformer, StandardScaler
from sklearn.model_selection import train_test_split
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score

In [None]:
# Cargar los datos
df = pd.read_csv('online_gaming_behavior_dataset.csv')

In [None]:
# Separar variables de entrada y salida
X = df.drop(columns=['EngagementLevel'])
y = df['EngagementLevel']

In [None]:
# Identificar las columnas categóricas, booleanas y numéricas
categorical_columns = X.select_dtypes(include=['object']).columns
numeric_columns = X.select_dtypes(include=['int64', 'float64']).columns

print(categorical_columns)
print(numeric_columns)

In [None]:
from sklearn_pandas import DataFrameMapper

mapper = DataFrameMapper([
    (['Age'],[StandardScaler()]),
    (['PlayTimeHours'],[StandardScaler()]),
    (['InGamePurchases'],[StandardScaler()]),
    (['SessionsPerWeek'],[StandardScaler()]),
    (['AvgSessionDurationMinutes'],[StandardScaler()]),
    (['PlayerLevel'],[StandardScaler()]),
    (['AchievementsUnlocked'],[StandardScaler()]),
    (['Gender'],[OneHotEncoder(drop='first')]),
    (['Location'],[OneHotEncoder(drop='first')]),
    (['GameGenre'],[OneHotEncoder(drop='first')]),
    (['GameDifficulty'],[OneHotEncoder(drop='first')])
]
,df_out=True)

In [None]:
# Ajustar y transformar los datos
mapper.fit(X)
transformed_df = mapper.transform(X)
print(transformed_df.head())

In [None]:
# Aplicar PCA: se pueden elegir la cantidad de componentes
pca = PCA(n_components=5)
X_pca = pca.fit_transform(transformed_df)

In [None]:
# Crear un nuevo DataFrame con las componentes principales
pca_df = pd.DataFrame(X_pca, columns=[f'PC{i+1}' for i in range(X_pca.shape[1])])

# Ver las primeras filas del DataFrame
print(pca_df.head())

### Evaluacion de modelos usando PCA 

In [None]:
from sklearn.model_selection import train_test_split

# Dividir el dataset en train, validation y test (60% train, 20% val, 20% test)
X_train, X_temp, y_train, y_temp = train_test_split(pca_df, y, test_size=0.4, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

In [None]:
print(X_train.head())

#### KNN

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighborsClassifier

In [None]:
knn_clf = KNeighborsClassifier(n_neighbors=1)
parameters = {'n_neighbors': [1, 3, 5, 10, 15, 20, 50, 100]}

pca_knn = GridSearchCV(knn_clf, parameters, refit=True, verbose=1)

pca_knn.fit(X_train, y_train)

pca_knn.best_score_, pca_knn.best_params_

#### Regresion Logistica

In [None]:
from sklearn.linear_model import LogisticRegression

# Entrenar el modelo
pca_lr = LogisticRegression().fit(X_train, y_train)

#### Random Forest

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Crear el clasificador de Random Forest
pca_rf = RandomForestClassifier(n_estimators=100, max_depth=10, max_features=8, random_state=42)

# Entrenar el pipeline
pca_rf.fit(X_train, y_train)

#### Random Forest con PCA y GridSearch

In [None]:
# Definir el modelo Random Forest
pca_rf_gs = RandomForestClassifier(random_state=42)

# Definir los hiperparámetros que queremos probar
param_grid = {
    'n_estimators': [100, 200, 500],          # Probar diferentes números de árboles
    'max_depth': [10, 20, 30, None],          # Profundidad de los árboles
    'min_samples_split': [2, 5, 10],          # Muestras mínimas para dividir un nodo
    'min_samples_leaf': [1, 2, 4],            # Muestras mínimas por hoja
    'bootstrap': [True, False]                # Uso de bootstrap en el muestreo
}

# Configurar el GridSearch
grid_search_cv = GridSearchCV(
    estimator=rf_clf_gs, 
    param_grid=param_grid, 
    
    cv=5,                    # Validación cruzada
    scoring='accuracy',       # Métrica de evaluación
    n_jobs=-1,                # Usar todos los núcleos disponibles
    verbose=2                 # Nivel de detalle de la salida en la consola
)

pca_rf_gs.fit(X_train, y_train)

### Evaluacion de Modelos con PCA

#### Evaluacion Regresion Logistica

In [None]:
evaluate_model(pca_lr, X_train, y_train, X_val, y_val, title='Evaluation Results', show_cm=True)

#### Evaluacion KNN

In [None]:
evaluate_model(pca_knn, X_train, y_train, X_val, y_val, title='Evaluation Results', show_cm=True)

#### Evaluacion Random Forest

In [None]:
evaluate_model(pca_rf, X_train, y_train, X_val, y_val, title='Evaluation Results', show_cm=True)

#### Evaluacion Random Forest con PCA y GridSearch

In [None]:
evaluate_model(pca_rf_gs, X_train, y_train, X_val, y_val, title='Evaluation Results', show_cm=True)

#### Conclusiones Parciales

Al entrenar el modelo usando PCA y reduciendo el conjunto a 5 componentes vemos que los resultados de los modelos caen notoriamente logrando, en el mejor de los casos evidenciados, un 76% de validation en Random Forest con GridSearch. Asi todo, este 76% tiene una notoria presencia de overfitting. 
Se podria intentar aumentando la dimensionalidad para buscar una mejora de resultados

## Evaluacion de modelos para presentar al negocio

Tras realizar varias pruebas con modelos desde el dataset con datos normalizados, aplicando feature engineering y reduciendo caracteristicas con PCA llegamos a la conlclusion de que hay dos modelos candidatos para testear en el conjunto de Test que pueden ser la solucion ideal:
    1) Random Forest: El primer modelo de Random Forest que testeamos (n_estimators=100, max_depth=10, max_features=8, random_state=42) logro un Accuracy del 0.913076 presentando muy bajo overfitting respecto al conjunto de train (0.929059) lo que nos lleva a inclinarnos como candidato
    2) Regresion Logistica con Feature Engineering: La regresion logistica tras aplicarle Feature Engineering nos llego a dar un buen resultado de 0.864119 para el conjunto de validacion contra un 0.861199 de accuracy en el conjunto de train presentando un overfiting casi nulo.

Procedemos ahora a evaluar su desempeño respecto al conjunto de test

#### Evaluacion de Random Forest en test

In [None]:
evaluate_model(pipeline_rf, X_train, y_train, X_test, y_test, title='Evaluation Results', show_cm=True)

#### Evaluacion de Regresion Logistica con Feature Engineering en test

In [None]:
evaluate_model(pipeline_logistica, X_train_fe, y_train_fe, X_test_fe, y_test_fe, title='Evaluation Results', show_cm=True)

## Conclusion

Tras evaluar los dos modelos candidatos (Random Forest y Regresión Logística con Feature Engineering), se ha decidido seleccionar Random Forest como el modelo más adecuado para resolver este problema de clasificación multiclase. La decisión se fundamenta en varios aspectos clave que incluyen no solo el rendimiento de la métrica principal (accuracy), sino también factores como interpretabilidad, tiempos de entrenamiento y capacidad de generalización. A continuación, se expone la justificación detallada.

1. Rendimiento del Modelo
Ambos modelos han mostrado un rendimiento sólido en términos de accuracy, pero el modelo de Random Forest ha logrado un valor de 0.913326 en el conjunto de test, superando al modelo de Regresión Logística, que alcanzó un accuracy de 0.864494. Este valor de accuracy más alto sugiere que el modelo de Random Forest tiene una mayor capacidad para clasificar correctamente a los jugadores en las categorías de engagement (Bajo, Medio, Alto).

Además, el modelo de Random Forest presenta un overfitting muy bajo, con una diferencia mínima entre el accuracy en el conjunto de entrenamiento y el de test, lo que indica que generaliza bien a datos no vistos. Aunque la regresión logística también muestra bajo overfitting, su performance en términos absolutos es inferior.

2. Capacidad de Generalización
Una característica importante de Random Forest es su capacidad para generalizar bien en problemas complejos como este, donde hay múltiples variables y relaciones no lineales. Al ser un modelo de ensamble basado en múltiples árboles de decisión, puede capturar interacciones entre las características que no serían detectadas por un modelo más simple como la Regresión Logística. 

3. Tiempos de Entrenamiento
Si bien Random Forest es un modelo más complejo y consume más recursos computacionales, en este caso, los tiempos de entrenamiento son manejables. El hecho de que se haya utilizado un número razonable de estimadores (n_estimators=100) y una profundidad máxima controlada (max_depth=10) permite que el entrenamiento no sea excesivamente costoso en términos de tiempo y recursos, logrando un equilibrio entre precisión y eficiencia.

Por otro lado, la Regresión Logística ofrece tiempos de entrenamiento considerablemente más rápidos, lo que podría ser una ventaja en ciertos escenarios. Sin embargo, dado que se busca maximizar el rendimiento del modelo, en este caso particular, se ha priorizado la mayor precisión y capacidad de generalización del modelo de Random Forest, que sigue siendo eficiente a nivel computacional.

4. Interpretabilidad
En términos de interpretabilidad, la Regresión Logística es más fácil de explicar y comunicar a audiencias no técnicas debido a su naturaleza lineal. Cada coeficiente asociado a las variables del modelo tiene una interpretación directa sobre cómo afecta la probabilidad de clasificación en cada categoría.

Sin embargo, si bien Random Forest es un modelo más complejo y menos interpretable a nivel tecnico (debido a que combina múltiples árboles de decisión), ofrece técnicas como la importancia de características que pueden ser útiles para explicar qué variables están teniendo un mayor peso en las predicciones. Estas técnicas permiten alinear la interpretación del modelo con las necesidades del cliente, proporcionando información valiosa sobre los factores que más influyen en el engagement del jugador. Ademas, tenemos la posiblidad de graficar el arbol de decision, que mejor se ajusta, lo que hace que se vuelva muy grafico e interpretable para el usuario clave. 

5. Valor Final de la Métrica
Dado el rendimiento observado en el modelo, se espera que el modelo de Random Forest logre un accuracy final cercano a 0.91 en el conjunto de test. Este valor es suficientemente alto como para ofrecer un modelo confiable en la clasificación de engagement de los jugadores, optimizando así la oferta de información y promociones personalizadas, objetivo central de este trabajo.

Conclusión Final
El modelo de Random Forest ha sido elegido como el modelo ganador debido a su mayor capacidad de clasificación, bajo overfitting, y habilidad para capturar relaciones complejas entre las variables, sin sacrificar tiempos de entrenamiento de manera significativa. Aunque la Regresión Logística tiene la ventaja de una mayor interpretabilidad, la superioridad de Random Forest en rendimiento y generalización lo convierte en la mejor opción para resolver el problema planteado. El valor final de accuracy estimado para ser informado a un cliente sería aproximadamente 0.91.

### Graficos de dispersion para Random Forest

In [None]:
# Realizar predicciones en el conjunto de test
y_pred = pipeline_rf.predict(X_test)

# Crear un DataFrame con las predicciones y los valores reales
result_df = X_test.copy()
result_df['Actual'] = y_test
result_df['Predicted'] = y_pred

# Columna que indica si fue acierto o error
result_df['Correct'] = result_df['Actual'] == result_df['Predicted']


In [None]:
# Graficar pares de variables
def plot_scatter(variable_x, variable_y, df):
    plt.figure(figsize=(10, 6))
    sns.scatterplot(x=df[variable_x], y=df[variable_y], hue=df['Correct'], palette={True: 'green', False: 'red'}, alpha=0.6)
    plt.title(f'Diagrama de dispersión: {variable_x} vs {variable_y}')
    plt.xlabel(variable_x)
    plt.ylabel(variable_y)
    plt.legend(title='Acierto', loc='upper right')
    plt.show()

plot_scatter('Age', 'PlayerLevel', result_df)

# Puedes probar otros pares de variables
plot_scatter('PlayTimeHours', 'Location', result_df)

plot_scatter('GameDifficulty', 'SessionsPerWeek', result_df)

plot_scatter('Age', 'SessionsPerWeek', result_df)

plot_scatter('PlayTimeHours', 'SessionsPerWeek', result_df)

plot_scatter('PlayTimeHours', 'GameGenre', result_df)

### Evaluacion de importancia en las variables de Random Forest

In [None]:
# Obtener la importancia de las variables en el modelo Random Forest
importances = pipeline_rf.named_steps['classifier'].feature_importances_
feature_names = mapper.transformed_names_

# Crear un DataFrame para visualizar las importancias
importance_df = pd.DataFrame({
    'Feature': feature_names,
    'Importance': importances
}).sort_values(by='Importance', ascending=False)

# Graficar la importancia de las variables
plt.figure(figsize=(12, 8))
sns.barplot(x='Importance', y='Feature', data=importance_df, palette='viridis')
plt.title('Importancia de las variables en el Random Forest')
plt.show()


A partir del gráfico de **importancia de variables** en el modelo de **Random Forest**, podemos observar algunas conclusiones clave:

#### 1. **Variables más importantes**:
   - **SessionsPerWeek**: Esta variable tiene la mayor importancia, lo que sugiere que la cantidad de sesiones por semana de un jugador es el factor más relevante para el modelo a la hora de hacer predicciones. Esto indica que los jugadores que juegan más frecuentemente tienden a seguir ciertos patrones que son clave para predecir su comportamiento.
   - **AvgSessionDurationMinutes**: La duración promedio de cada sesión también es muy importante. Esto puede sugerir que el tiempo que los jugadores dedican en cada sesión influye en la predicción, quizás relacionado con su compromiso o nivel de dedicación al jugo.#

### 2. **Variables de menor importancia**:
   - **GameGenre, Location, Gender**: Estas variables parecen tener una importancia significativamente menor en el modelo. Esto indica que el tipo de juego que prefieren, la ubicación geográfica, y el género del jugador no son factores tan determinantes en comparación con la frecuencia o duración de las sesiones.
   - **InGamePurchases** y **GameDifficulty**: También tienen un peso menor, lo que sugiere que, en este modelo, las compras dentro del juego y la dificultad percibida no son tan útiles para predecir el comportamiento o clasificaciones de los jugador#es.

### 3. **Conclusión general**:
   - El modelo de Random Forest asigna mayor importancia a las variables relacionadas con el **comportamiento y hábitos de juego** (número de sesiones por semana y duración de las sesiones), mientras que factores **demográficos** y **preferencias** (género, ubicación, género de juego) tienen un impacto mucho menor en las predicciones. Esto podría significar que el comportamiento activo y la dedicación al juego son más relevantes que las características individuales o preferencias de los jugadores.

Este análisis podría sugerir que futuras mejoras o estudios del comportamiento de los jugadores deberían centrarse más en analizar patrones de uso y menos en características demográficas, ya que estas últimas parecen tener menos influencia en el rendimiento del modelo.