## get_features_cat_regression

Esta función recibe como argumentos un dataframe, el nombre de una de las columnas del mismo (argumento 'target_col'), que debería ser el target de un hipotético modelo de regresión, es decir debe ser una variable numérica continua o discreta pero con alta cardinalidad y una variable float "pvalue" cuyo valor por defecto será 0.05.

La función debe devolver una lista con las columnas categóricas del dataframe cuyo test de relación con la columna designada por 'target_col' supere en confianza estadística el test de relación que sea necesario hacer (es decir la función debe poder escoger cuál de los dos test que hemos aprendido tiene que hacer).

La función debe hacer todas las comprobaciones necesarias para no dar error como consecuecia de los valores de entrada. Es decir hará un check de los valores asignados a los argumentos de entrada y si estos no son adecuados debe retornar None y printar por pantalla la razón de este comportamiento. Ojo entre las comprobaciones debe estar que "target_col" hace referencia a una variable numérica continua del dataframe.

In [None]:
def get_features_cat_regression(df, target_col, pvalue=0.05):
    """
    Devuelve una lista de columnas categóricas que presentan relación
    con una variable objetivo numérica en un problema de regresión,
    utilizando One-Hot Encoding y correlación.
    
    Argumentos:
    df (pandas.DataFrame): DataFrame que contiene los datos.
    target_col (str): Nombre de la columna numérica que es el target.
    pvalue (float): Umbral mínimo de correlación para considerar una variable relevante.
    
    Retorna:
    list: Los nombres de las columnas categóricas que son relevantes.
          Devuelve None si los argumentos no son válidos.
    """

    if not isinstance(df, pd.DataFrame):
        print("Error: df tiene que ser un DataFrame.")
        return None

    if target_col not in df.columns:
        print("Error: La columna 'target_col' no existe en el DataFrame.")
        return None

    if not np.issubdtype(df[target_col].dtype, np.number):
        print("Error: La columna 'target_col' tiene que ser una variable numérica.")
        return None

    if not isinstance(pvalue, float) or pvalue <= 0 or pvalue >= 1:
        print("Error: pvalue debe ser un float entre 0 y 1.")
        return None

    cat_cols = df.select_dtypes(include=["object", "category"]).columns.tolist()

    if len(cat_cols) == 0:
        print("No hay columnas categóricas en el DataFrame.")
        return None

    columnas_categoricas = []

    for col in cat_cols:
        temp_df = df[[col, target_col]].dropna()

        if temp_df[col].nunique() < 2:
            continue

        dummies = pd.get_dummies(temp_df[col], drop_first=True)

        for dummy_col in dummies.columns:
            corr = np.corrcoef(dummies[dummy_col], temp_df[target_col])[0, 1]

            if abs(corr) >= pvalue:
                columnas_categoricas.append(col)
                break

    return columnas_categoricas