## Análisis preliminar ##

Este notebook forma parte de un proyecto de análisis de datos donde se trabaja con un archivo `JSON` extraído desde la API de RAWG.

El objetivo de este script es preparar los datos para su posterior análisis. Se utiliza la biblioteca `pandas` para limpiar y estructurar la información, filtrando solo los videojuegos que cuentan con:

- Fecha de lanzamiento válida (`released`)
- Puntuación (`rating`)
- Al menos un género asignado (`genres`)
- Fechas comprendidas entre 1995 y 2024

El resultado es un DataFrame limpio y útil, que incluye columnas como el nombre del juego, la fecha de lanzamiento, la puntuación media y los géneros asociados preparado para un análisis exploratorio o visualizaciones posteriores.

In [None]:
import pandas as pd

# 1. Cargar el JSON descargado previamente
df = pd.read_json('../../data/raw/juegos_rawg.json')

# 2. Filtrar registros válidos (con fecha, rating y géneros)
df = df[df['released'].notna() & df['rating'].notna() & df['genres'].notna()]

# 3. Convertir la fecha a tipo datetime y filtrar por rango 1995–2024
df['fecha_lanzamiento'] = pd.to_datetime(df['released'], errors='coerce')
df = df[(df['fecha_lanzamiento'].dt.year >= 1995) & (df['fecha_lanzamiento'].dt.year <= 2024)]

# 4. Seleccionar columnas y transformar los géneros a texto
df_final = pd.DataFrame({
    'nombre': df['name'],
    'fecha_lanzamiento': df['fecha_lanzamiento'],
    'puntuacion_media': df['rating'],
    'generos': df['genres'].apply(lambda lista: ', '.join([g['slug'] for g in lista]))
})

# 5. Vista previa
print(df_final.head())