In [14]:
import pandas as pd
from scipy import stats

In [29]:
def get_features_cat_regression(df, target_col, pvalue=0.05): 
    """
    Función para obtener las características categóricas significativas en un modelo de regresión lineal.
    
    Params:
		df: dataframe de pandas
		target_col: columna objetivo del dataframe
		pvalue: p-valor para el test de significancia
    
    Returns:
		Lista con las características categóricas significativas
	"""

    # Verificamos si el dataframe es válido
    if not isinstance(df, pd.DataFrame):
        print("El argumento 'df' no es un dataframe válido.")
        return None
    
    # Verificamos si 'target_col' es una columna válida en el dataframe
    if target_col not in df.columns:
        print(f"La columna '{target_col}' no está en el dataframe.")
        return None
    
    # Verificamos si la columna 'target_col' es numérica
    if not pd.api.types.is_numeric_dtype(df[target_col]):
        print(f"La columna '{target_col}' no es una columna numérica.")
        return None
    
    # Identificar las columnas categóricas del dataframe
    cat_columns = df.select_dtypes(include=['object', 'category']).columns.tolist()
    
    if not cat_columns:
        print("No se encontraron características categóricas en el dataframe.")
        return None

    # Lista para almacenar las columnas categóricas que superan el pvalor
    significant_cat_features = []

    for cat_col in cat_columns:
        # Si la columna categórica tiene más de un nivel (para que sea válida para el test)
        if df[cat_col].nunique() > 1:
            # Si la columna categórica tiene dos niveles, realizar test t de Student
            if df[cat_col].nunique() == 2:
                group1 = df[target_col][df[cat_col] == df[cat_col].unique()[0]]
                group2 = df[target_col][df[cat_col] == df[cat_col].unique()[1]]
                t_stat, p_val = stats.ttest_ind(group1, group2)
            else:
                # Realizar test ANOVA si hay más de dos niveles
                f_val, p_val = stats.f_oneway(*[df[target_col][df[cat_col] == level] for level in df[cat_col].unique()])
            
            # Comprobamos si el p-valor es menor que el p-valor especificado
            if p_val < pvalue:
                significant_cat_features.append(cat_col)
    
    # Si encontramos columnas significativas, las devolvemos
    if significant_cat_features:
        return significant_cat_features
    else:
        print("No se encontraron características categóricas significativas.")
        return None

In [9]:
df = pd.read_csv('../data/student_performance_data.csv')

In [10]:
df.sample(5)

Unnamed: 0,StudentID,Age,Gender,Ethnicity,ParentalEducation,StudyTimeWeekly,Absences,Tutoring,ParentalSupport,Extracurricular,Sports,Music,Volunteering,GPA,GradeClass
655,1656,15,1,0,3,8.269315,29,1,2,0,0,1,0,0.73078,4.0
104,1105,16,1,1,0,11.40625,29,0,3,1,0,0,0,0.648274,4.0
1346,2347,17,0,2,1,3.135259,21,1,3,0,1,0,1,1.643374,4.0
1501,2502,16,0,0,2,14.198661,23,1,1,0,0,0,0,0.893986,4.0
2154,3155,18,1,0,2,13.913553,6,0,3,1,0,0,0,2.986892,2.0


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2392 entries, 0 to 2391
Data columns (total 15 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   StudentID          2392 non-null   int64  
 1   Age                2392 non-null   int64  
 2   Gender             2392 non-null   int64  
 3   Ethnicity          2392 non-null   int64  
 4   ParentalEducation  2392 non-null   int64  
 5   StudyTimeWeekly    2392 non-null   float64
 6   Absences           2392 non-null   int64  
 7   Tutoring           2392 non-null   int64  
 8   ParentalSupport    2392 non-null   int64  
 9   Extracurricular    2392 non-null   int64  
 10  Sports             2392 non-null   int64  
 11  Music              2392 non-null   int64  
 12  Volunteering       2392 non-null   int64  
 13  GPA                2392 non-null   float64
 14  GradeClass         2392 non-null   float64
dtypes: float64(3), int64(12)
memory usage: 280.4 KB


In [32]:
get_features_cat_regression(df, target_col='GPA')

No se encontraron características categóricas en el dataframe.
