### Librerías necesarias para el notebook

In [1]:
import pandas as pd

### Funciones para la limpieza de datos

#### Primera limpieza: eliminar columnas, duplicados y valores nulos

In [None]:
def primera_limpieza(df):
    """
    Description.
    Parameters
    ----------
    carpeta : pandas.DataFrame
        Description.
    Returns
    -------
    pandas.DataFrame
        Description.
    """
    # Quitamos las columnas que no nos interesan
    df = df.drop(['type','fullgame','header_image','screenshots','movies','background', 'platforms'], axis=1)
    # Eliminamos los duplicados
    df = df.drop_duplicates()
    # Eliminamos las 149 filas que están llenas de valores nulos, exceptuando las columnas "name" y "steam_appid"
    no_nan = ["name", "steam_appid"] # columnas que sí que tendrán valores
    cols = df.columns.difference(no_nan) # selección de todas las columnas menos las que tendrán valores
    mask = df[cols].isna().all(axis=1) # de todo el dataframe, se filtraran las líneas con las condiciones estipuladas en el markdown anterior
    result = df[mask]
    df_clean1 = df.loc[~df.index.isin(result.index)]
    return df_clean1

#### Segunda limpieza: cambios de tipos de las columnas (casos sencillos)

In [None]:
def segunda_limpieza(df):
    """
    Description.
    Parameters
    ----------
    carpeta : pandas.DataFrame
        Description.
    Returns
    -------
    pandas.DataFrame
        Description.
    """
    df_clean2 = df.copy()
    # Columnas que pueden ser strings 
    df_clean2[['name', 'detailed_description','about_the_game','short_description','website','legal_notice',
               'drm_notice','ext_user_account_notice']] =  df_clean2[
                   ['name','detailed_description','about_the_game','short_description','website',
                     'legal_notice','drm_notice','ext_user_account_notice']].astype("string")
    # Columnas que pueden ser booleanos
    df_clean2['is_free'] = df_clean2["is_free"].astype("bool")
    
    return df_clean2

In [3]:
df_applist = pd.read_csv("../data/app_list.csv")
df_steam = pd.read_csv("../data/steam_app_data.csv")

In [None]:
df_clean1 = primera_limpieza(df_steam)
print(f"El nuevo dataframe tiene {df_clean1.shape[0]} filas.")

El nuevo dataframe tiene 29079 filas.


In [26]:
df_clean2 = segunda_limpieza(df_clean1)
df_clean2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 29079 entries, 0 to 29234
Data columns (total 32 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   name                     29078 non-null  string 
 1   steam_appid              29079 non-null  int64  
 2   required_age             29079 non-null  float64
 3   is_free                  29079 non-null  bool   
 4   controller_support       5998 non-null   object 
 5   dlc                      4975 non-null   object 
 6   detailed_description     29053 non-null  string 
 7   about_the_game           29053 non-null  string 
 8   short_description        29053 non-null  string 
 9   supported_languages      29065 non-null  object 
 10  website                  19249 non-null  string 
 11  pc_requirements          29079 non-null  object 
 12  mac_requirements         29079 non-null  object 
 13  linux_requirements       29079 non-null  object 
 14  legal_notice             10