In [1]:
import numpy as np
import pandas as pd
from scipy.stats import pearsonr
import scipy.stats as stats

In [2]:
df_housing = pd.read_csv("./data/ejemplo_housing.csv")

In [79]:
def get_features_num_regression(df, target_col, umbral_corr, pvalue=None):
    """
    Obtiene columnas numéricas del DataFrame cuya correlación con la columna objetivo 
    supera un umbral especificado. Además, permite filtrar las columnas en función 
    de la significancia estadística de la correlación mediante un valor p.

    Parámetros:

    df (pd.DataFrame): DataFrame que contiene los datos a analizar.

    target_col (str): Nombre de la columna objetivo que se desea predecir; debe ser 
                      una variable numérica continua o discreta con alta cardinalidad.

    umbral_corr (float): Umbral de correlación absoluto para considerar una relación 
                         significativa entre las columnas (debe estar entre 0 y 1).

    pvalue (float, opcional): Valor p que determina el nivel de significancia para 
                              filtrar las columnas. Si se proporciona, solo se incluirán 
                              las columnas cuya correlación supere el umbral y cuyo 
                              valor p sea mayor o igual a 1 - pvalue. Debe estar entre 0 y 1.

    Retorna:

    lista_num: Lista de nombres de columnas numéricas que cumplen con los criterios establecidos.
               Si no hay columnas que cumplan los requisitos, se devuelve una lista vacía.

    Excepciones:

    Imprime mensajes de error si alguno de los argumentos no es válido o si hay problemas
    con los tipos de datos.
    """


    if not isinstance(df, pd.DataFrame):
        print(f"{df} no es un argumento válido. Chequea que sea un DataFrame.")

    
    if target_col not in df.columns:
        print(f"{target_col} no es una columna del DataFrame.")

    if umbral_corr > 1 or umbral_corr < 0 or not isinstance(umbral_corr, (int,float)):
        print(f"{umbral_corr} no es un valor válido para 'umbral_corr', debe de estar comprendido entre 0 y 1.")

    if pvalue != None and  (pvalue > 1 or pvalue < 0 or not isinstance(umbral_corr, (int,float))):
        print(f"{pvalue} no es un valor válido para 'pvalue', debe deestar comprendido entre 0 y 1.")


    lista_num = []
    for columna in df.columns:
        if pd.api.types.is_numeric_dtype(df[columna]):
            resultado_test = pearsonr(df[columna], df[target_col], alternative= "less")
            if pvalue == None:
                if abs(resultado_test[0]) > umbral_corr:
                    lista_num.append(columna)
            else:
               if abs(resultado_test[0]) > umbral_corr:
                   if resultado_test[1] >= 1-pvalue:
                       lista_num.append(columna)
                    
    lista_num.remove(target_col)
    
    return lista_num


In [80]:
get_features_num_regression(df_housing, "median_house_value", umbral_corr = 0.07, pvalue = 0.40)

['housing_median_age', 'total_rooms', 'median_income']