## Funcion: get_features_num_regression
Esta función recibe como argumentos un dataframe, el nombre de una de las columnas del mismo (argumento 'target_col'), que debería ser el target de un hipotético modelo de regresión, es decir debe ser una variable numérica continua o discreta pero con alta cardinalidad, además de un argumento 'umbral_corr', de tipo float que debe estar entre 0 y 1 y una variable float "pvalue" cuyo valor debe ser por defecto "None".

La función debe devolver una lista con las columnas numéricas del dataframe cuya correlación con la columna designada por "target_col" sea superior en valor absoluto al valor dado por "umbral_corr". Además si la variable "pvalue" es distinta de None, sólo devolvera las columnas numéricas cuya correlación supere el valor indicado y además supere el test de hipótesis con significación mayor o igual a 1-pvalue.

La función debe hacer todas las comprobaciones necesarias para no dar error como consecuecia de los valores de entrada. Es decir hará un check de los valores asignados a los argumentos de entrada y si estos no son adecuados debe retornar None y printar por pantalla la razón de este comportamiento. Ojo entre las comprobaciones debe estar que "target_col" hace referencia a una variable numérica continua del dataframe.

In [1]:
import pandas as pd
import numpy as np
from scipy.stats import pearsonr

In [18]:
import pandas as pd
import numpy as np
from scipy.stats import pearsonr

def columnas_correlacionadas(df, target_col, umbral_corr, pvalue=None):
    """
    DEVUELVA UNA LISTA DE COLUMNAS NUMERICAS CUYA CORRELACION CON TARGET SUPERAEL UMBRAL DE CORRELACION.
    SI ESPECIFICA `PVALUE`, TAMBIEN VERIFICA QUE LA CORRELACION SEA SIGNIFICATIVA.
    
    Args:
        df (pd.DataFrame): DataFrame a introducir.
        target_col (str): Nombre de la columna objetivo (debe ser numérica y con alta cardinalidad).
        umbral_corr (float): Umbral de correlación (entre 0 y 1).
        pvalue (float, optional): Nivel de significancia deseado (por ejemplo 0.05). Por defecto None.
    
    Returns:
        list or None: Lista de nombres de columnas que cumplen los criterios. Imprime errores si no es válido.
    """
    
    if not isinstance(df, pd.DataFrame):
        print("Error: el primer argumento debe ser un DataFrame.")
        return None

    if target_col not in df.columns:
        print(f"Error: la columna '{target_col}' no existe en el DataFrame.")
        return None

    if not np.issubdtype(df[target_col].dtype, np.number):
        print(f"Error: la columna '{target_col}' no es numérica.")
        return None

    if df[target_col].nunique() < 10:
        print(f"Error: '{target_col}' no parece ser una variable continua (baja cardinalidad).")
        return None

    if not (0 <= umbral_corr <= 1):
        print("Error: 'umbral_corr' debe estar entre 0 y 1.")
        return None

    if pvalue is not None:
        if not isinstance(pvalue, (float, int)) or not (0 < pvalue < 1):
            print("Error: 'pvalue' debe ser un número entre 0 y 1 o None.")
            return None

    columnas_validas = []

    num_cols = df.select_dtypes(include=[np.number]).columns.drop(target_col)

    for col in num_cols:
        series = df[[target_col, col]].dropna()
        corr, pval = pearsonr(series[target_col], series[col])

        if abs(corr) >= umbral_corr:
            if pvalue is None or pval <= (1 - pvalue):
                columnas_validas.append(col)

    return columnas_validas


In [19]:
df = pd.read_csv("C:/Users/david/Repo_Prueba/ONLINE_DS_THEBRIDGE_Deivid-Jimenez/Sprint.09_Estadística Inferencial/Unidad_02_Introduccion_a_Machine_Learning/data/ejemplo_housing.csv")
df = pd.DataFrame(df)

df.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20433 entries, 0 to 20432
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20433 non-null  float64
 1   latitude            20433 non-null  float64
 2   housing_median_age  20433 non-null  float64
 3   total_rooms         20433 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20433 non-null  float64
 6   households          20433 non-null  float64
 7   median_income       20433 non-null  float64
 8   median_house_value  20433 non-null  float64
 9   ocean_proximity     20433 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB


In [32]:
columnas_correlacionadas(df, target_col='median_house_value', umbral_corr=0.1, pvalue=0.05)	

['latitude', 'housing_median_age', 'total_rooms', 'median_income']