# Evaluación del Modelo de Clasificación

Este notebook evalúa el desempeño de un modelo de clasificación entrenado para predecir la reprobación de estudiantes en Biología. Se comparan los resultados entre los conjuntos de entrenamiento y prueba utilizando métricas clave como Accuracy, Matriz de Confusión, Reporte de Clasificación, y AUC-ROC.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix, roc_auc_score, roc_curve
import matplotlib.pyplot as plt
import seaborn as sns

# Cargar los datos
df = pd.read_csv("1DATABASE1.csv", sep=';')

# Preprocesamiento básico
df['Nota 1'] = df['Nota 1'].astype(str).str.replace(',', '.').astype(float)
df['Nota 2'] = df['Nota 2'].astype(str).str.replace(',', '.').astype(float)
df['APROBADO/REPROBADO'] = df['APROBADO/REPROBADO'].map({'APROBADO': 1, 'REPROBADO': 0})

X = df[['Nota 1', 'Nota 2', 'Asistencia Clases (%)', 'Asistencia Laboratorio (%)']]
y = df['APROBADO/REPROBADO']

# Dividir en entrenamiento y testeo
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Entrenar modelo
modelo = LogisticRegression()
modelo.fit(X_train, y_train)


In [None]:
# Predicciones
y_train_pred = modelo.predict(X_train)
y_test_pred = modelo.predict(X_test)

# Accuracy
print("Accuracy (entrenamiento):", accuracy_score(y_train, y_train_pred))
print("Accuracy (test):", accuracy_score(y_test, y_test_pred))

# Reportes
print("\nReporte entrenamiento:\n", classification_report(y_train, y_train_pred))
print("\nReporte testeo:\n", classification_report(y_test, y_test_pred))

# Matriz de confusión
conf_matrix = confusion_matrix(y_test, y_test_pred)
sns.heatmap(conf_matrix, annot=True, fmt="d", cmap="Blues", xticklabels=['Reprobado', 'Aprobado'], yticklabels=['Reprobado', 'Aprobado'])
plt.title("Matriz de Confusión (Test)")
plt.xlabel("Predicción")
plt.ylabel("Real")
plt.show()


In [None]:
# Curva ROC y AUC
y_test_probs = modelo.predict_proba(X_test)[:, 1]
fpr, tpr, _ = roc_curve(y_test, y_test_probs)
auc_score = roc_auc_score(y_test, y_test_probs)

plt.plot(fpr, tpr, label=f"AUC = {auc_score:.2f}")
plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel("Tasa de Falsos Positivos")
plt.ylabel("Tasa de Verdaderos Positivos")
plt.title("Curva ROC")
plt.legend(loc="lower right")
plt.show()
