In [3]:
import pandas as pd
import seaborn as sns
from scipy.stats import pearsonr,chi2_contingency

# Funcion: get_features_cat_regression
Esta función recibe como argumentos un dataframe, el nombre de una de las columnas del mismo (argumento 'target_col'), que debería ser el target de un hipotético modelo de regresión, es decir debe ser una variable numérica continua o discreta pero con alta cardinalidad y una variable float "pvalue" cuyo valor por defecto será 0.05.

La función debe devolver una lista con las columnas categóricas del dataframe cuyo test de relación con la columna designada por 'target_col' supere en confianza estadística el test de relación que sea necesario hacer (es decir la función debe poder escoger cuál de los dos test que hemos aprendido tiene que hacer).

La función debe hacer todas las comprobaciones necesarias para no dar error como consecuecia de los valores de entrada. Es decir hará un check de los valores asignados a los argumentos de entrada y si estos no son adecuados debe retornar None y printar por pantalla la razón de este comportamiento. Ojo entre las comprobaciones debe estar que "target_col" hace referencia a una variable numérica continua del dataframe.

In [2]:
def get_features_cat_regression(df,target_col,pvalue=0.05):
    """
    Descripción:
        La función identifica las variables categóricas de un dataframe que se consideran features de una variable target en función de su correlación.

    Argumentos:
        df (Pandas Dataframe) : El DataFrame sobre el que trabajar.
        target_col: varible objetivo (numérica continua o discreta) del df.
        pvalue: valor que restado a 1 nos indica el intervalo de confianza para la identificación de features (cómo correlan con la vasriable target) 

    Returns:
        cat_features: lista de las variables categóricas que han sido identificadas como features.
    """
    umbral_card=0.5
    if target_col not in df.columns:
        print(f"Error: la columna {target_col} no existe.")
        return None
    if (target_col.dtype() not in [int,float]) or (df.nunique()/len(df)*100<umbral_card):
        print(f"Error: la columna {target_col} no es numérica y/o su cardinalidad es inferior a {umbral_card}.")
        return None
    if pvalue.dtype() != float:
        print(f"Error: la variable {pvalue} no es float.")
        return None
    categorical_cols = df.select_dtypes(include='object').columns.tolist()
    cat_features = []
    for col in categorical_cols: # Calcular la correlación y p-values para cada columna numérica con 'target_col'
        contingency_table = pd.crosstab(df[col], df[target_col])
        _, p_value, _, _ = chi2_contingency(contingency_table)
        if p_value < pvalue:
            cat_features.append(col)
    return(cat_features)

# Funcion: plot_features_cat_regression
Esta función recibe un dataframe, una argumento "target_col" con valor por defecto "", una lista de strings ("columns") cuyo valor por defecto es la lista vacía, un argumento ("pvalue") con valor 0.05 por defecto y un argumento "with_individual_plot" a False.

Si la lista no está vacía, la función pintará los histogramas agrupados de la variable "target_col" para cada uno de los valores de las variables categóricas incluidas en columns que cumplan que su test de relación con "target_col" es significatio para el nivel 1-pvalue de significación estadística. La función devolverá los valores de "columns" que cumplan con las condiciones anteriores.

Si la lista está vacía, entonces la función igualará "columns" a las variables numéricas del dataframe y se comportará como se describe en el párrafo anterior.

De igual manera que en la función descrita anteriormente deberá hacer un check de los valores de entrada y comportarse como se describe en el último párrafo de la función get_features_cat_regression.

In [None]:
def plot_features_cat_regression(df,target_col="",columns=[],pvalue=0.05,with_indivudual_plot=False):
    """
    Descripción:
        La función dibuja los histogramas de la variable objetivo para cada una de las features.

    Argumentos:
        df: El DataFrame sobre el que trabajar.
        target_col: varible objetivo (numérica continua o discreta) del df.
        columns: listado de variables categóricas. Por defecto está vacío.
        pvalue: valor que restado a 1 nos indica el intervalo de confianza para la identificación de features (cómo correlan con la variable target). Por defecto 0.05.
        with_individual_plot: argumento para dibujar el histograma individual o agrupado (por defecto).

    Returns:
        figure: histogramas
    """
    # Comprobación de los valores de entrada:
    # variable objetivo incluída en el df (columna)
    if target_col not in df.columns:
        print(f"Error: la columna {target_col} no existe.")
        return None
    # variable objetivo numérica y con alta cardinalidad (superior al umbral deseado)
    if (target_col.dtype() not in [int,float]) or (df.nunique()/len(df)*100<umbral_card):
        print(f"Error: la columna {target_col} no es numérica y/o su cardinalidad es inferior a {umbral_card}.")
        return None
    # argumento pvalue decimal
    if pvalue.dtype() != float:
        print(f"Error: la variable {pvalue} no es float.")
        return None
    
    # Una vez comprobados los valores de entrada, revisamos el listado de columnas:
    # Si es una lista vacía (por defecto), se cogen las features numéricas del df y se dibujan los histogamas para la variable objetivo y cada feature numérica.
    if columns==[]:
        columns=selected_features
        for feature in selected_features:
            plt.figure(figsize=(10, 6))
            sns.histplot(data=df, x=target_col, hue=feature, bins=20, multiple="stack")
            plt.xlabel(target_col)
            plt.ylabel('Frecuencia')
            plt.title(f'Histogramas agrupados de {target_col} para features en {feature}')
            plt.show()
     # Si la lista viene informada, se comprueba que sean features categóricas del df y se dibujan los histogamas para la variable objetivo y cada feature categórica.
    else:
        cat_features_hist=[]
        for col in columns:
            if col in cat_features
                cat_features_hist.append(col)
        for feature in cat_features_hist:
            plt.figure(figsize=(10, 6))
            sns.countplot(data=df, x=feature, hue=target_col)
            plt.xlabel(feature)
            plt.ylabel('Conteo')
            plt.title(f'Gráfico de barras agrupado para {target_col} en función de {feature}')
            plt.legend(title=target_col)
            plt.show()


        
