# **Resumen del Notebook**

Este notebook se centra en el análisis y procesamiento de datos relacionados con videojuegos. 
Se han realizado diversas etapas para explorar, limpiar y visualizar la información con el objetivo de extraer patrones y tendencias útiles.

## **1. Análisis Exploratorio de Datos (EDA)**
- Se realizó una inspección inicial de los datos, identificando variables categóricas y numéricas.
- Se aplicaron pruebas de normalidad (`Shapiro-Wilk`, `Kolmogorov-Smirnov`, `Anderson-Darling`) para evaluar la distribución de variables clave como `rating`, `metacritic` y `playtime`, concluyendo que **ninguna sigue una distribución normal**.
- Se generaron gráficos de dispersión (`scatterplot`), diagramas de caja (`boxplot`) y diagramas de densidad (`kdeplot`) para comprender mejor la distribución y relaciones entre variables.

## **2. Detección de Outliers**
- Se usó el **Rango Intercuartil (IQR)** para identificar valores atípicos en las variables numéricas.
- Se encontraron valores extremos en varias variables, lo que sugiere la necesidad de un tratamiento especial en futuras etapas del análisis.

## **3. Correlación entre Variables**
- Se generó una **matriz de correlación agrupada** (`clustermap`) para visualizar relaciones entre variables numéricas.
- Se identificaron patrones de correlación entre `rating`, `playtime`, `metacritic` y otras características del dataset.

## **4. Visualización de Variables Categóricas**
- Se analizaron las distribuciones de `main_genre` y `metacritic_category` mediante gráficos de barras (`countplot`).
- Se observaron diferencias en la popularidad y calificaciones de distintos géneros de videojuegos.

## **5. Relación Entre Ratings y Variables**
- Se exploró la relación entre `ratings_count` y `rating` mediante gráficos de dispersión (`scatterplot`), encontrando que los juegos con más calificaciones tienden a tener ratings más estables.
- Se utilizó un gráfico de línea para analizar la evolución de los ratings promedio a lo largo de los años (`release_year`), mostrando tendencias en la percepción de los videojuegos.

## **Conclusión**
- Se ha obtenido una **visión clara de la distribución y relaciones entre las variables** en el dataset.
- **Los datos no siguen una distribución normal**, lo que sugiere el uso de técnicas estadísticas no paramétricas.
- Se han identificado **outliers** en varias variables que pueden afectar el análisis si no se manejan adecuadamente.
- Existen **diferencias notables en los ratings según el género y la cantidad de calificaciones**, lo que indica que ciertos juegos son más populares o mejor valorados que otros.
- Se detectaron **tendencias a lo largo del tiempo**, lo que sugiere cambios en la percepción de los videojuegos por parte de los usuarios.




## Features a considerar

1. Features Temporales
- ✅ release_decade → Crear una variable categórica indicando la década del lanzamiento del juego.
- ✅ release_season → Convertir la fecha de lanzamiento en estaciones (verano, invierno, etc.) para ver si hay patrones estacionales en los ratings.
- ✅ age_of_game → Calcular la antigüedad del juego (año_actual - release_year).

2. Features Categóricas Transformadas
- ✅ is_highly_rated → Variable binaria (1 si rating > umbral, 0 si no).
- ✅ genre_encoded → Codificación numérica o one-hot encoding de main_genre.
- ✅ metacritic_category_encoded → Convertir metacritic_category en una variable numérica ordenada (0 para "Malo", 1 para "Regular", etc.).