In [3]:
import pandas as pd
import matplotlib.pyplot as plt
import openpyxl
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, roc_auc_score


df = pd.read_excel("data.xlsx")
df.head()



Unnamed: 0,estudiante_id,semestre,promedio_notas,materias_perdidas,asistencia_pct,retrasos,edad,estrato,trabaja,horas_trabajo_sem,...,tendencia_notas,uso_plataforma_horas,participacion_clase_1a5,citas_psicologia,beca,deuda_pension,cambio_programa,repitencias_previas,satisfaccion_programa_1a5,deserto
0,1001,3,3.8,0,92,1,19,3,no,0,...,0.1,25,4,0,si,0,no,0,4,0
1,1002,2,2.6,3,58,7,22,2,si,30,...,-0.35,5,2,1,no,450000,no,1,2,1
2,1003,5,4.1,0,95,0,21,4,no,0,...,0.05,30,5,0,si,0,no,0,5,0
3,1004,1,2.9,2,65,5,24,1,si,36,...,-0.2,8,2,2,no,600000,no,2,1,1
4,1005,4,3.5,1,80,2,20,3,no,0,...,-0.05,18,4,0,si,0,no,0,4,0


In [4]:
# ===============================
# 1. Cargar datos
# ===============================
def cargar_datos(ruta):
    try:
        df = pd.read_excel(ruta)
        if df.empty:
            raise ValueError("El archivo est√° vac√≠o.")
        return df
    except FileNotFoundError:
        raise FileNotFoundError("Error: No se encontr√≥ el archivo data.xlsx.")
    except Exception as e:
        raise Exception(f"Error al leer el archivo: {e}")


# ===============================
# 2. Validar estructura
# ===============================
def validar_columnas(df):
    columnas_requeridas = [
        'inasistencias',
        'promedio',
        'participacion',
        'apoyo_familiar',
        'deserto'
    ]

    for col in columnas_requeridas:
        if col not in df.columns:
            raise ValueError(f"Error: Falta la columna requerida '{col}'.")


# ===============================
# 3. Validar tipos de datos
# ===============================
def validar_tipos(df):
    columnas_numericas = [
        'inasistencias',
        'promedio',
        'participacion',
        'apoyo_familiar'
    ]

    for col in columnas_numericas:
        if not pd.api.types.is_numeric_dtype(df[col]):
            raise ValueError(f"Error: La columna '{col}' debe ser num√©rica.")

    if df[columnas_numericas].isnull().any().any():
        raise ValueError("Error: Existen valores nulos en variables num√©ricas.")


# ===============================
# 4. Definir X e y
# ===============================
def definir_variables(df):
    if 'deserto' not in df.columns:
        raise ValueError("Error: No existe la variable objetivo 'deserto'.")

    if df['deserto'].nunique() < 2:
        raise ValueError("Error: La variable objetivo no tiene suficientes clases.")

    X = df.drop(columns=['deserto'])
    y = df['deserto']

    return X, y


# ===============================
# 5. Dividir datos
# ===============================
def dividir_datos(X, y):
    if len(X) < 10:
        raise ValueError("Error: Muy pocos datos para dividir en train y test.")

    return train_test_split(X, y, test_size=0.3, random_state=42)


# ===============================
# 6. Entrenar modelo
# ===============================
def entrenar_modelo(X_train, y_train):
    try:
        modelo = RandomForestClassifier()
        modelo.fit(X_train, y_train)
        return modelo
    except ValueError:
        raise ValueError("Error: El modelo no pudo entrenarse por datos inv√°lidos.")


# ===============================
# 7. Predecir
# ===============================
def predecir(modelo, X_test):
    try:
        y_prob = modelo.predict_proba(X_test)[:, 1]
        return y_prob
    except Exception:
        raise Exception("Error: No se pudo generar la predicci√≥n.")


# ===============================
# 8. Flujo principal (control total)
# ===============================
def main():
    try:
        print("üîπ Cargando datos...")
        df = cargar_datos("data.xlsx")

        print("üîπ Validando estructura...")
        validar_columnas(df)

        print("üîπ Validando tipos de datos...")
        validar_tipos(df)

        print("üîπ Definiendo variables...")
        X, y = definir_variables(df)

        print("üîπ Dividiendo datos...")
        X_train, X_test, y_train, y_test = dividir_datos(X, y)

        print("üîπ Entrenando modelo...")
        modelo = entrenar_modelo(X_train, y_train)

        print("üîπ Generando predicciones...")
        y_prob = predecir(modelo, X_test)

        print("‚úÖ Proceso completado correctamente.")

    except Exception as e:
        print(f"\n‚ùå {e}")


if __name__ == "__main__":
    main()


üîπ Cargando datos...
üîπ Validando estructura...

‚ùå Error: Falta la columna requerida 'inasistencias'.
