## Análisis preliminar (revisar)

Este notebook forma parte de un proyecto de análisis de datos donde se trabaja con un archivo `JSON` extraído desde la API de RAWG.

El objetivo de este script es preparar los datos para su posterior análisis. Se utiliza la biblioteca `pandas` para limpiar y estructurar la información, filtrando solo los videojuegos que cuentan con:

- Fecha de lanzamiento válida (`released`)
- Puntuación (`rating`)
- Al menos un género asignado (`genres`)
- Fechas comprendidas entre 1995 y 2024

El resultado es un DataFrame limpio y útil, que incluye columnas como el nombre del juego, la fecha de lanzamiento, la puntuación media y los géneros asociados preparado para un análisis exploratorio o visualizaciones posteriores.

In [None]:
import pandas as pd

In [1]:
df = pd.read_json('../../data/raw/juegos_rawg.json')


NameError: name 'pd' is not defined

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2000 entries, 0 to 1999
Data columns (total 41 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   slug                     2000 non-null   object 
 1   name                     2000 non-null   object 
 2   playtime                 2000 non-null   int64  
 3   platforms                2000 non-null   object 
 4   stores                   1989 non-null   object 
 5   released                 2000 non-null   object 
 6   tba                      2000 non-null   bool   
 7   background_image         1999 non-null   object 
 8   rating                   2000 non-null   float64
 9   rating_top               2000 non-null   int64  
 10  ratings                  2000 non-null   object 
 11  ratings_count            2000 non-null   int64  
 12  reviews_text_count       2000 non-null   int64  
 13  added                    2000 non-null   int64  
 14  metacritic               1056

# Tratamiento de NaN

Aunque en el analisis exploratorio, las columnas que vamos a utilizar para trabajar con los datosn no vemos presentes ningun `NaN`hemos creado una celda de filtrado para si en posteriores cargas de datos si existiesen, tener preparado el notebook para tal caso.

In [None]:
# 2. Filtrar registros válidos (con fecha, rating y géneros)
df = df[df['released'].notna() & df['rating'].notna() & df['genres'].notna()]
df

##Convertir y filtrar fechas##

- Convierte la columna released a tipo datetime, manejando errores con errors='coerce' (lo convierte en NaT si falla).

- Filtra el DataFrame para que solo queden los juegos con fecha entre 2015 y 2024.

- Muestra el DataFrame (df).

In [None]:
 df['fecha_lanzamiento'] = pd.to_datetime(df['released'], errors='coerce')
 df = df[(df['fecha_lanzamiento'].dt.year >= 2015) & (df['fecha_lanzamiento'].dt.year <= 2024)]
 df

##Selección y transformación##

- Crea un nuevo DataFrame llamado df_final con columnas renombradas y transformadas:

- nombre: nombre del videojuego

- fecha_lanzamiento: fecha limpia

- puntuacion_media: rating

- generos: convierte la lista de diccionarios (genres) a un texto plano tipo 'action, rpg'.

In [None]:
 df_final = pd.DataFrame({
     'nombre': df['name'],
     'fecha_lanzamiento': df['fecha_lanzamiento'],
     'puntuacion_media': df['rating'],
     'generos': df['genres'].apply(lambda lista: ', '.join([g['slug'] for g in lista]))
 })

##Visualización del resultado##

- Muestra las primeras 5 filas del DataFrame df_final, que debe contener los datos ya transformados.

In [None]:
print(df_final.head())

##Exporta el DataFrame df a un archivo JSON en formato:##

- "records" → lista de diccionarios (uno por fila).

- lines=True → cada registro va en una línea (

In [None]:
df.to_json("../data/processed/juegos_rawg_generos1.json", orient="records", lines=True)