In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

In [2]:
df_ad = pd.read_csv("./data/advertising_ml.csv")

In [1]:
def cardinalidad(df_in, umbral_categoria, umbral_countinua):
    '''
    Esta función obtiene la cardinalidad de cada una de las variables y en función de dicha cardinalidad sugiere un tipo de variable.
    Los tipos posibles son: binaria, categórica, numérica discreta y numérica continua.
    Nota: los tipos mostrados en el DataFrame que retorna la función son solo una sugerencia, es mejor guardar el DataFrame en una variable y modificar los tipos si es necesario.

    
    Argumentos:
    
    df_in (pd.DataFrame): dataset en formato DataFrame para clasificar sus variables.

    umbral_categoría (int): número máximo de valores únicos para clasificar una variable como categórica.

    umbral_continua (int): porcentaje mínimo de valores únicos que debe tener una variable para clasificarla como numérica continua.

    
    Retorna:

    pd.DataFrame: DataFrame con 4 columnas: nombre de la variable, cardinalidad, porcentaje de valores únicos y tipo sugerido
    '''


    cardinalidad = [df_in[col].nunique() for col in df_in.columns]
    cardinalidad_por = [df_in[col].nunique()/len(df_in[col]) for col in df_in.columns]
    dict_df = {"nombre_variable": df_in.columns, "valores_unicos": cardinalidad, "cardinalidad": cardinalidad_por}
    nuevo_df = pd.DataFrame(dict_df)
    nuevo_df["tipo_sugerido"] = "Categórica"
    nuevo_df.loc[nuevo_df["valores_unicos"] == 2, "tipo_sugerido"] = "Binaria"
    nuevo_df.loc[nuevo_df["valores_unicos"] >= umbral_categoria, "tipo_sugerido"] = "Numerica Discreta"
    nuevo_df.loc[nuevo_df["cardinalidad"] >= umbral_countinua, "tipo_sugerido"] = "Numerica Continua"
    return nuevo_df

In [8]:
cardinalidad(df_ad, 10, 0.3)

Unnamed: 0,nombre_variable,valores_unicos,cardinalidad,tipo_sugerido
0,Daily Time Spent on Site,900,0.9,Numerica Continua
1,Age,83,0.083,Numerica Discreta
2,Area Income,1000,1.0,Numerica Continua
3,Daily Internet Usage,966,0.966,Numerica Continua
4,Ad Topic Line,1000,1.0,Numerica Continua
5,City,969,0.969,Numerica Continua
6,Male,2,0.002,Binaria
7,Country,237,0.237,Numerica Discreta
8,Timestamp,1000,1.0,Numerica Continua
9,Clicked on Ad,2,0.002,Binaria


In [2]:
def describe_df(df_in):

    '''
    Esta función obtiene para las variables de un dataset el tipo de datos que contienen, su porcentaje de nulos, sus valores únicos y su cardinalidad.

    
    Argumentos:
    
    df_in (pd.DataFrame): dataset en formato DataFrame para obtener los datos mencionados.

    
    Retorna:

    pd.DataFrame: un DataFrame cuyas columnas son las mismas que las del DataFrame que se pasa como argumento y cuyas filas son los datos que se proporciona sobre las variables, a saber: tipo de datos que contienen, porcentaje de nulos, valores únicos y cardinalidad.
    '''

    data_type = [df_in[col].dtype for col in df_in.columns]
    missings = [df_in[col].isna().value_counts(normalize = True)[True] if True in df_in[col].isna().value_counts().index else 0.0 for col in df_in.columns ]
    cardinalidad = [df_in[col].nunique() for col in df_in.columns]
    cardinalidad_por = [df_in[col].nunique()/len(df_in[col]) for col in df_in.columns]
    dict_df = {"DATA_TYPE": data_type, "MISSINGS (%)": missings, "UNIQUE_VALUES": cardinalidad, "CARDIN (%)": cardinalidad_por}
    nuevo_df = pd.DataFrame(dict_df, df_in.columns)
    return nuevo_df.T

In [15]:
describe_df(df_in=df_ad)

Unnamed: 0,Daily Time Spent on Site,Age,Area Income,Daily Internet Usage,Ad Topic Line,City,Male,Country,Timestamp,Clicked on Ad
DATA_TYPE,float64,object,float64,float64,object,object,int64,object,object,int64
MISSINGS (%),0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
UNIQUE_VALUES,900,83,1000,966,1000,969,2,237,1000,2
CARDIN (%),0.9,0.083,1.0,0.966,1.0,0.969,0.002,0.237,1.0,0.002
