In [7]:
import pandas as pd
from scipy.stats import pearsonr

In [11]:
def get_features_num_regression(df, target_col, umbral_corr, pvalue=None):
    """
    Función para seleccionar características basadas en la correlación con la variable objetivo.

    Params:
        df: DataFrame de pandas.
        target_col: Nombre de la columna objetivo en el DataFrame.
        umbral_corr: Valor flotante que define el umbral de la correlación para seleccionar características.
        pvalue: Valor flotante opcional que define el umbral de significancia para filtrar características basadas en el valor p.

    Returns:
        Lista de características que cumplen con los criterios de selección.
    """
    # Comprobaciones de los argumentos de entrada
    if not isinstance(df, pd.DataFrame):
        # comprueba que el primer argumento sea un DataFrame
        print("El primer argumento debe ser un DataFrame.")
        return None
    if target_col not in df.columns:
        # comprueba que la columna target exista en el DataFrame
        print(f"La columna '{target_col}' no existe en el DataFrame.")
        return None
    if not pd.api.types.is_numeric_dtype(df[target_col]):
        # comprueba que la columna target sea numérica
        print(f"La columna '{target_col}' no es numérica.")
        return None
    if not (0 <= umbral_corr <= 1):
        # comprueba que el umbral de correlación esté entre 0 y 1
        print("El umbral de correlación debe estar entre 0 y 1.")
        return None
    if pvalue is not None and not (0 <= pvalue <= 1):
        # comprueba que el valor de pvalue esté entre 0 y 1
        print("El valor de pvalue debe estar entre 0 y 1.")
        return None

        # Calcular la correlación
    # 'abs' calcula el valor absoluto de las correlaciones.
    corr = df.corr()[target_col].abs()
    features = corr[corr > umbral_corr].index.tolist()
    # Eliminar la variable target de la lista de features, porque su valor de correlación es 1.
    features.remove(target_col)

    # Filtrar por pvalue si es necesario
    if pvalue is not None:
        significant_features = []
        for feature in features:
            # colocamos el guión bajo '_,' para indicar que no nos interesa el primer valor
            _, p_val = pearsonr(df[feature], df[target_col])
            if p_val < pvalue:
                significant_features.append(feature)
        features = significant_features

    return features

In [12]:
# Cargar el dataset
df = pd.read_csv('../data/student_performance_data.csv')
df

Unnamed: 0,StudentID,Age,Gender,Ethnicity,ParentalEducation,StudyTimeWeekly,Absences,Tutoring,ParentalSupport,Extracurricular,Sports,Music,Volunteering,GPA,GradeClass
0,1001,17,1,0,2,19.833723,7,1,2,0,0,1,0,2.929196,2.0
1,1002,18,0,0,1,15.408756,0,0,1,0,0,0,0,3.042915,1.0
2,1003,15,0,2,3,4.210570,26,0,2,0,0,0,0,0.112602,4.0
3,1004,17,1,0,3,10.028829,14,0,3,1,0,0,0,2.054218,3.0
4,1005,17,1,0,2,4.672495,17,1,3,0,0,0,0,1.288061,4.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2387,3388,18,1,0,3,10.680555,2,0,4,1,0,0,0,3.455509,0.0
2388,3389,17,0,0,1,7.583217,4,1,4,0,1,0,0,3.279150,4.0
2389,3390,16,1,0,2,6.805500,20,0,2,0,0,0,1,1.142333,2.0
2390,3391,16,1,1,0,12.416653,17,0,2,0,1,1,0,1.803297,1.0


In [13]:
# Cargar el dataset
df = pd.read_csv('../data/student_performance_data.csv')

# Obtener las columnas numéricas
features = get_features_num_regression(df, 'GPA', 0.5, pvalue=0.05)
features
    

['Absences', 'GradeClass']

In [None]:
'''
Razones para elegir 'GPA' como columna objetivo:

1. Relevancia: El GPA es una medida importante del rendimiento académico 
y puede ser interesante analizar qué factores están más correlacionados con él.

2. Variable continua: El GPA es una variable numérica continua, 
lo que la hace adecuada para el análisis de regresión y correlación.

3. Ejemplo: Usar el GPA como ejemplo ayuda a ilustrar cómo la función puede identificar 
características que están fuertemente correlacionadas con una métrica de rendimiento escolar

'''
