In [1]:
import pandas as pd
from scipy.stats import pearsonr

In [None]:
def get_features_num_regression(df, target_col, umbral_corr, pvalue=None):
    
        # Comprobaciones de los argumentos de entrada
    if not isinstance(df, pd.DataFrame):
        print("El primer argumento debe ser un DataFrame.") # comprueba que el primer argumento sea un DataFrame
        return None
    if target_col not in df.columns:
        print(f"La columna '{target_col}' no existe en el DataFrame.") # comprueba que la columna target exista en el DataFrame
        return None
    if not pd.api.types.is_numeric_dtype(df[target_col]):
        print(f"La columna '{target_col}' no es numérica.") # comprueba que la columna target sea numérica
        return None
    if not (0 <= umbral_corr <= 1):
        print("El umbral de correlación debe estar entre 0 y 1.") # comprueba que el umbral de correlación esté entre 0 y 1
        return None
    if pvalue is not None and not (0 <= pvalue <= 1):
        print("El valor de pvalue debe estar entre 0 y 1.") # comprueba que el valor de pvalue esté entre 0 y 1
        return None
    
        # Calcular la correlación
    corr = df.corr()[target_col].abs() # 'abs' calcula el valor absoluto de las correlaciones.
    features = corr[corr > umbral_corr].index.tolist()
    features.remove(target_col)  # Eliminar la variable target de la lista de features, porque su valor de correlación es 1.

        # Filtrar por pvalue si es necesario
    if pvalue is not None:
        significant_features = []
        for feature in features:
            _, p_val = pearsonr(df[feature], df[target_col]) # colocamos el guión bajo '_,' para indicar que no nos interesa el primer valor
            if p_val < (1 - pvalue):
                significant_features.append(feature)
        features = significant_features

    return features

# Cargar el dataset
df = pd.read_csv(r'C:\DATA_SCIENCE\Team Challenge\Lost in ML - Programa para Machine Learning\student_performance_data.csv')

# Obtener las columnas numéricas
features = get_features_num_regression(df, 'GPA', 0.5, pvalue=0.05)
features
    

['Absences', 'GradeClass']

In [None]:
'''
Razones para elegir 'GPA' como columna objetivo:

1. Relevancia: El GPA es una medida importante del rendimiento académico 
y puede ser interesante analizar qué factores están más correlacionados con él.

2. Variable continua: El GPA es una variable numérica continua, 
lo que la hace adecuada para el análisis de regresión y correlación.

3. Ejemplo: Usar el GPA como ejemplo ayuda a ilustrar cómo la función puede identificar 
características que están fuertemente correlacionadas con una métrica de rendimiento escolar

'''
