In [1]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
def describe_df(df:pd.DataFrame, umbral_categoria:int, umbral_continua:float):
    '''
    Esta función resume las principales características de cada variable de un dataframe dado, tales como tipo, valores nulos y cardinalidad. 
    Además, sugiere el tipo categórico de la variable en función del número máximo de categorías a considerar y del porcentaje de cardinalidad
    dado como umbral para considerar una variable numérica como continua.

    \nArgumentos:
    \ndf: (DataFrame): DataFrame que se pretende analizar
    \numbral_categoria (int): Número máximo de categorías a considerar por variable
    \numbral_continua (float): Porcentaje de cardinalidad a partir del cuál se considerará una variable como continua

    \nRetorna:
    \nDataFrame: Retorna un DataFrame cuyo índice son las variables del DataFrame a analizar, y las columnas los parámetros analizados.
    
    \nPor cada variable, devuelve:
    \nDATA_TYPE (str): Tipo de dato.
    \nMISSINGS(%) (float): Porcentaje de valores nulos.
    \nUNIQUE_VALUES (int): Número de valores únicos.
    \nCARDIN(%) (float): Porcentaje de cardinalidad.
    \nTIPO_SUGERIDO (str): Sugerencia sobre el tipo de variable a analizar: 'Binaria', 'Categórica', 'Numérica discreta', 'Numérica continua'. 
    '''
    
    df_var = pd.DataFrame({'DATA_TYPE':df.dtypes})

    for variable in df.columns:
        df_var.loc[df_var.index == variable, 'MISSINGS (%)']  = round(df[variable].isnull().sum()/len(df[variable]), 2)
        
        cardinalidad = df[variable].nunique()
        porc_card = round(df[variable].nunique()/len(df)*100, 2)
        
        if cardinalidad == 2:
            clase = 'Binaria'
        elif cardinalidad < umbral_categoria:
            clase = 'Categórica'
        elif cardinalidad >= umbral_categoria:
            if porc_card < umbral_continua:
                clase = 'Numérica discreta'
            else:
                clase = 'Numérica continua'
                
        df_var.loc[df_var.index == variable, 'UNIQUE_VALUES'] = cardinalidad
        df_var.loc[df_var.index == variable, 'CARDIN (%)']    = porc_card
        df_var.loc[df_var.index == variable, 'TIPO_SUGERIDO'] = clase

    return df_var

In [4]:
sns.get_dataset_names()

['anagrams',
 'anscombe',
 'attention',
 'brain_networks',
 'car_crashes',
 'diamonds',
 'dots',
 'dowjones',
 'exercise',
 'flights',
 'fmri',
 'geyser',
 'glue',
 'healthexp',
 'iris',
 'mpg',
 'penguins',
 'planets',
 'seaice',
 'taxis',
 'tips',
 'titanic']

In [None]:
# Descargamos dataset de ejemplo de seaborn y probamos a función

df_penguins = sns.load_dataset('penguins')
describe_df(df_penguins, 6, 30)

Unnamed: 0,DATA_TYPE,MISSINGS (%),UNIQUE_VALUES,CARDIN (%),TIPO_SUGERIDO
species,object,0.0,3.0,0.87,Categórica
island,object,0.0,3.0,0.87,Categórica
bill_length_mm,float64,0.01,164.0,47.67,Numérica continua
bill_depth_mm,float64,0.01,80.0,23.26,Numérica discreta
flipper_length_mm,float64,0.01,55.0,15.99,Numérica discreta
body_mass_g,float64,0.01,94.0,27.33,Numérica discreta
sex,object,0.03,2.0,0.58,Binaria
