### Librerias

In [None]:
import numpy as np
import pandas as pd
import warnings

warnings.filterwarnings('ignore')
pd.set_option('display.max_rows', None)    # Muestra todas las filas (para muchas columnas)
pd.set_option('display.max_columns', None) # Muestra todas las columnas
pd.set_option('display.width', None)       # Ajusta el ancho
pd.set_option('display.max_colwidth', None)# Muestra todo el contenido de cada celda

In [None]:
dataset = pd.read_csv('dataset_metacritic_scraper_2025-02-15.csv')

In [None]:
dataset.info()

In [None]:
dataset.sample(5)

In [None]:
#dataset.info()
#dataset.describe()
#dataset.isnull().sum()
dataset.dtypes
#dataset.tail()
#dataset.head()

In [None]:
for i, genre in enumerate(dataset['releaseDate'].unique(), 1): # Codigo para mostrar los datos únicos en una columna
    print(f"{i}: {genre}")

In [None]:
for i in dataset.columns: # Recorre las columnas y las describe
    print(i)
    print(dataset[i].describe())
    print('---------------------------------') 

## Reemplazo de valores nulos

In [None]:
dataset.isnull().sum()

In [None]:
dataset.dtypes

In [None]:
# Cambios de formatos
dataset['releaseDate'] = pd.to_datetime(dataset['releaseDate'], format='%Y-%m-%d', errors='coerce') #Cambio de formato de fecha
dataset['releaseDate'] = dataset['releaseDate'].fillna(dataset['releaseDate'].mean())
dataset['metascore'] = pd.to_numeric(dataset['metascore'], errors='coerce').fillna(0).astype(int) #Cambio de formato de metascore

# Reemplazos con valores específicos
dataset['publisherName'] = dataset['publisherName'].fillna('Unknown Publisher')
dataset['summary'] = dataset['summary'].fillna('No summary available')

# Reemplazos con 0 
cols_with_zeros = [
    'userReviewsSummary/negative',
    'userReviewsSummary/neutral',
    'userReviewsSummary/positive',
    'userReviewsSummary/reviewCount'
]

dataset[cols_with_zeros] = dataset[cols_with_zeros].fillna(0)

# Columnas de tipo float64
float_cols = dataset.select_dtypes(include='float64')
dataset[float_cols.columns] = float_cols.fillna(0.0) # Rellenar los valores nulos con 0 en esas columnas

# Columnas de tipo object
object_cols = dataset.select_dtypes(include='object')
dataset[object_cols.columns] = object_cols.fillna('Unknown') # Rellenar los valores nulos con 'Unknown' en esas columnas

# Columna de userscore con 'tbd'
dataset['userscore'] = dataset['userscore'].replace('tbd', np.nan) # Reemplazar 'tbd' por NaN
dataset['userscore'] = pd.to_numeric(dataset['userscore'], errors='coerce').fillna(0.0) # Cambiar el tipo de datos a numérico y rellenar los nulos con 0

#### Borrado de columnas con nulos mayores al 75% de los entries. (opcional)

In [None]:
umbral75 = 0.75 * len(dataset) #Umbral para eliminar columnas con más del 75% de valores nulos
dataset = dataset.dropna(axis=1, thresh=len(dataset) - umbral75) #Eliminar columnas con más del 75% de valores nulos

## Carga de datos limpios a un csv nuevo

In [None]:
dataset.to_csv('data_limpia.csv', index=False) #Guardar el dataset limpio en un nuevo archivo CSV

In [1]:
import numpy as np
import pandas as pd
import warnings

warnings.filterwarnings('ignore')
pd.set_option('display.max_rows', None)    # Muestra todas las filas (para muchas columnas)
pd.set_option('display.max_columns', None) # Muestra todas las columnas
pd.set_option('display.width', None)       # Ajusta el ancho
pd.set_option('display.max_colwidth', None)# Muestra todo el contenido de cada celda

In [2]:
data_limpia = pd.read_csv('data_limpia.csv') #Leer el nuevo archivo CSV
data_limpia['releaseDate'] = pd.to_datetime(data_limpia['releaseDate'], format='%Y-%m-%d', errors='coerce') #Cambio de formato de fecha
data_limpia['releaseDate'] = data_limpia['releaseDate'].fillna(data_limpia['releaseDate'].mean()) #Rellenar los valores nulos con la media

In [None]:
data_limpia.head(30) #Verificar la información del nuevo dataset

In [None]:
data_limpia[["title", "metascore"]] #Verificar la información del nuevo dataset

In [None]:
data_limpia.info()

In [None]:
data_limpia[['title', 'summary']].head(30)

In [None]:
data_limpia.isnull().sum() #Verificar si hay valores nulos en el nuevo dataset

In [None]:
for i in data_limpia.columns: # Recorre las columnas y las describe
    print(i)
    print(data_limpia[i].describe())
    print('---------------------------------') 

In [3]:
data_limpia = data_limpia.drop('summary', axis=1) #Eliminar la columna 'summary' del nuevo dataset

In [4]:
data_limpia.to_csv("archivo_limpio.csv", index=False)
