### Funcion: tipifica_variables

Esta función debe recibir como argumento un dataframe, un entero (`umbral_categoria`) y un float (`umbral_continua`). La función debe devolver un dataframe con dos columnas "nombre_variable", "tipo_sugerido" que tendrá tantas filas como columnas el dataframe. En cada fila irá el nombre de una de las columnas y una sugerencia del tipo de variable. Esta sugerencia se hará siguiendo las siguientes pautas:
+ Si la cardinalidad es 2, asignara "Binaria"
+ Si la cardinalidad es menor que `umbral_categoria` asignara "Categórica"
+ Si la cardinalidad es mayor o igual que `umbral_categoria`, entonces entra en juego el tercer argumento:
    * Si además el porcentaje de cardinalidad es superior o igual a `umbral_continua`, asigna "Numerica Continua"
    * En caso contrario, asigna "Numerica Discreta"


In [1]:
import pandas as pd

df_titanic = pd.read_csv("../data/titanic.csv")

In [2]:
df_titanic.head()

Unnamed: 0,sex,age,sibsp,parch,fare,class,who,adult_male,embark_town,alive,alone
0,male,22.0,1,0,7.25,Third,man,True,Southampton,no,False
1,female,38.0,1,0,71.2833,First,woman,False,Cherbourg,yes,False
2,female,26.0,0,0,7.925,Third,woman,False,Southampton,yes,True
3,female,35.0,1,0,53.1,First,woman,False,Southampton,yes,False
4,male,35.0,0,0,8.05,Third,man,True,Southampton,no,True


In [3]:
import pandas as pd

def tipifica_variables(df, umbral_categoria, umbral_continua):
    """
    Clasifica las variables de un DataFrame según su cardinalidad y el porcentaje
    de cardinalidad, devolviendo una sugerencia del tipo de cada variable.

    Argumentos:
    df (pd.DataFrame): DataFrame que contiene las variables a analizar.
    umbral_categoria (int): Umbral de cardinalidad para considerar una variable como categórica.
    umbral_continua (float): Umbral (entre 0 y 1) del porcentaje de cardinalidad para
                             considerar una variable como numérica continua.

    Retorna:
    pd.DataFrame: DataFrame con dos columnas:
                  - nombre_variable: nombre de la variable analizada
                  - tipo_sugerido: tipo de variable sugerido
    """

    # Comprobamos que el argumento df es un DataFrame
    if not isinstance(df, pd.DataFrame):
        raise TypeError("df debe ser un DataFrame de pandas")

    # Comprobamos que el DataFrame no esté vacío
    if df.empty:
        raise ValueError("El DataFrame está vacío")

    # Comprobamos que umbral_categoria sea un entero
    if not isinstance(umbral_categoria, int):
        raise TypeError("umbral_categoria debe ser un entero")

    # Comprobamos que umbral_continua sea un float
    if not isinstance(umbral_continua, float):
        raise TypeError("umbral_continua debe ser un float")

    # Comprobamos que umbral_continua esté en el rango (0, 1]
    if not 0 < umbral_continua <= 1:
        raise ValueError("umbral_continua debe estar entre 0 y 1")

    # Lista donde se almacenarán los resultados
    resultado = []

    # Número total de filas del DataFrame
    n_filas = len(df)

    # Recorremos cada columna del DataFrame
    for columna in df.columns:

        # Calculamos la cardinalidad de la columna (ignorando valores nulos)
        cardinalidad = df[columna].nunique(dropna=True)

        # Calculamos el porcentaje de cardinalidad
        porcentaje_cardinalidad = cardinalidad / n_filas

        # Aplicamos las reglas de tipificación
        if cardinalidad == 2:
            tipo = "Binaria"

        elif cardinalidad < umbral_categoria:
            tipo = "Categórica"

        else:
            if porcentaje_cardinalidad >= umbral_continua:
                tipo = "Numerica Continua"
            else:
                tipo = "Numerica Discreta"

        # Añadimos el resultado para la columna actual
        resultado.append({
            "nombre_variable": columna,
            "tipo_sugerido": tipo
        })

    # Convertimos la lista de resultados en un DataFrame y lo devolvemos
    return pd.DataFrame(resultado)


In [6]:
# Se aplica la función de tipificación de variables utilizando umbrales heurísticos
# definidos para diferenciar variables categóricas, numéricas discretas y continuas


tipifica_variables(df_titanic, umbral_categoria=10, umbral_continua=0.3)



Unnamed: 0,nombre_variable,tipo_sugerido
0,sex,Binaria
1,age,Numerica Discreta
2,sibsp,Categórica
3,parch,Categórica
4,fare,Numerica Discreta
5,class,Categórica
6,who,Categórica
7,adult_male,Binaria
8,embark_town,Categórica
9,alive,Binaria
