Paso 1: Entendiendo el problema


Nuestro objetivo es predecir si un estudiante obtendrá un rendimiento alto (nota final ≥ 14),
a partir de sus características personales, sociales y académicas. Esto puede ayudar a identificar
perfiles con riesgo de bajo rendimiento y enfocar los recursos educativos.

El enfoque será de clasificación binaria, usando técnicas de Machine Learning tradicional.


Paso 2: Carga del dataset de muestra

In [16]:
import pandas as pd

# Cargar el dataset (ajusta el path si es necesario)
df = pd.read_csv("../data_sample/student-merged-sample.csv")

# Buscar la columna G3 (nota final)
g3_column = None
for col in df.columns:
    if col.startswith("G3"):
        g3_column = col
        break

if g3_column:
    print(f"Columna de nota final detectada: {g3_column}")
    
    # Crear variable objetivo binaria (nota ≥ 14 se considera alto rendimiento)
    df['high_performance'] = df[g3_column].apply(lambda x: 1 if x >= 14 else 0)

    # Eliminar las columnas G1, G2, G3 relacionadas (si existen)
    cols_to_drop = [col for col in df.columns if col.startswith("G") and col[1:].isdigit()]
    df = df.drop(columns=cols_to_drop, errors='ignore')

    # Codificar variables categóricas
    df_encoded = pd.get_dummies(df, drop_first=True)

    # Separar en X (features) e y (target)
    X = df_encoded.drop("high_performance", axis=1)
    y = df_encoded["high_performance"]

    print("Preprocesamiento completado. Dataset listo para entrenamiento.")
else:
    print("No se encontró una columna de nota final (G3).")


Columna de nota final detectada: G3_mat
Preprocesamiento completado. Dataset listo para entrenamiento.


In [12]:
print(df.columns.tolist())

['school', 'sex', 'age', 'address', 'famsize', 'Pstatus', 'Medu', 'Fedu', 'Mjob', 'Fjob', 'reason', 'guardian_mat', 'traveltime_mat', 'studytime_mat', 'failures_mat', 'schoolsup_mat', 'famsup_mat', 'paid_mat', 'activities_mat', 'nursery', 'higher_mat', 'internet', 'romantic_mat', 'famrel_mat', 'freetime_mat', 'goout_mat', 'Dalc_mat', 'Walc_mat', 'health_mat', 'absences_mat', 'guardian_por', 'traveltime_por', 'studytime_por', 'failures_por', 'schoolsup_por', 'famsup_por', 'paid_por', 'activities_por', 'higher_por', 'romantic_por', 'famrel_por', 'freetime_por', 'goout_por', 'Dalc_por', 'Walc_por', 'health_por', 'absences_por', 'high_performance']


In [14]:
df = pd.read_csv("../data_sample/student-por.csv")  # O cambia el path si usas otro CSV
print(df.columns.tolist())

['school;sex;age;address;famsize;Pstatus;Medu;Fedu;Mjob;Fjob;reason;guardian;traveltime;studytime;failures;schoolsup;famsup;paid;activities;nursery;higher;internet;romantic;famrel;freetime;goout;Dalc;Walc;health;absences;G1;G2;G3']


Paso 3: Preprocesado

In [10]:
# Verificamos si la columna 'G3_por' existe
if 'G3_por' in df.columns:
	# Creamos variable objetivo binaria
	df['high_performance'] = df['G3_por'].apply(lambda x: 1 if x >= 14 else 0)

	# Eliminamos variables irrelevantes
	df = df.drop(['G1_por', 'G2_por', 'G3_por'], axis=1)

	# Convertimos categóricas a dummies
	df_encoded = pd.get_dummies(df, drop_first=True)

	# División en features y target
	X = df_encoded.drop('high_performance', axis=1)
	y = df_encoded['high_performance']
else:
	print("Error: La columna 'G3_por' no existe en el dataframe.")

Error: La columna 'G3_por' no existe en el dataframe.


🔹 Entrenamiento y Evaluación de Modelos

In [17]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix

# Dividir los datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Definir los modelos
modelos = {
    "Regresión Logística": LogisticRegression(max_iter=1000),
    "Random Forest": RandomForestClassifier(n_estimators=100),
    "SVM": SVC()
}

# Entrenar y evaluar
resultados = {}

for nombre, modelo in modelos.items():
    print(f"\n🔸 Entrenando modelo: {nombre}")
    modelo.fit(X_train, y_train)
    y_pred = modelo.predict(X_test)

    acc = accuracy_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    cm = confusion_matrix(y_test, y_pred)

    resultados[nombre] = {"Accuracy": acc, "F1-score": f1}

    print(f"✅ Accuracy: {acc:.3f}")
    print(f"✅ F1 Score: {f1:.3f}")
    print("📊 Matriz de Confusión:")
    print(cm)



🔸 Entrenando modelo: Regresión Logística
✅ Accuracy: 0.950
✅ F1 Score: 0.889
📊 Matriz de Confusión:
[[15  0]
 [ 1  4]]

🔸 Entrenando modelo: Random Forest
✅ Accuracy: 0.950
✅ F1 Score: 0.889
📊 Matriz de Confusión:
[[15  0]
 [ 1  4]]

🔸 Entrenando modelo: SVM
✅ Accuracy: 0.950
✅ F1 Score: 0.889
📊 Matriz de Confusión:
[[15  0]
 [ 1  4]]
