In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from scipy.stats import pearsonr
%matplotlib inline


### Funcion: get_features_num_regression

Esta función recibe como argumentos un dataframe, el nombre de una de las columnas del mismo (argumento 'target_col'), que debería ser el target de un hipotético modelo de regresión, es decir debe ser una variable numérica continua o discreta pero con alta cardinalidad, además de un argumento 'umbral_corr', de tipo float que debe estar entre 0 y 1 y una variable float "pvalue" cuyo valor debe ser por defecto "None".

La función debe devolver una lista con las columnas numéricas del dataframe cuya correlación con la columna designada por "target_col" sea superior en valor absoluto al valor dado por "umbral_corr". Además si la variable "pvalue" es distinta de None, sólo devolvera las columnas numéricas cuya correlación supere el valor indicado y además supere el test de hipótesis con significación mayor o igual a 1-pvalue.

La función debe hacer todas las comprobaciones necesarias para no dar error como consecuecia de los valores de entrada. Es decir hará un check de los valores asignados a los argumentos de entrada y si estos no son adecuados debe retornar None y printar por pantalla la razón de este comportamiento. Ojo entre las comprobaciones debe estar que "target_col" hace referencia a una variable numérica continua del dataframe.

In [8]:
def get_features_num_reggresion(df,target_col, umbral_corr,pvalue=None):
    if target_col not in df.columns:
        print(f"Error: la columna¨{target_col} no existe.") #comprobar que target col no existe
        return None
    
    if not np.issubdtype(df[target_col].dtype, np.number):
        print(f"Error: La columna '{target_col}' no es una variable numérica continua.") # Comprobar que target_col es una variable numérica continua
        return None
    

    if not (0 <= umbral_corr <=1): #comprueba que el umbral de correlación está entre 0 y 1
        print(f"Error: umbral_corr debe estar entre 0 y 1")
        return None 
    
    if pvalue is not None and not (0 <= pvalue <= 1):
        print("Error: pvalue debe ser None o un número entre 0 y 1.")
        return None
    
    numeric_cols = df.select_dtypes(include=np.number).columns.tolist()#obtener columnas numéricas del df

    Correlations = []
    for col in numeric_cols: # Calcular la correlación y p-values para cada columna numérica con 'target_col'
        if col != target_col:
            correlation, pvalue = pearsonr(df[col], df[target_col])
            correlations.append((col, correlation, p_value))

    Selected_features = [] # Filtrar las columnas basadas en el umbral de correlación y p-value (si proporcionado)
    for col, correlation, p_value in correlations:
        if abs(correlation) > umbral_corr and(pvalue is None | p_vlue <= (1- pvalue)):
         Selected_features.append(col)
    return(selected_features)



In [None]:
# uso:
# features = get_features_num_regression(df, 'target_column', 0.5, pvalue=0.05)
# print