In [1]:
import pandas as pd
import numpy as np
import joblib
import warnings
warnings.filterwarnings('ignore')

In [2]:
print("="*80)
print("üîÆ SCRIPT DE INFERENCIA - PREDICCI√ìN PARA 2025-2S")
print("="*80)

üîÆ SCRIPT DE INFERENCIA - PREDICCI√ìN PARA 2025-2S


In [3]:
# Cargar modelos y encoders
print("\nüìÇ Cargando modelos y configuraci√≥n...")
label_encoders = joblib.load('models/label_encoders.pkl')
feature_info = joblib.load('models/feature_info.pkl')


üìÇ Cargando modelos y configuraci√≥n...


In [4]:
# Modelos disponibles
modelos_disponibles = {
    '1': ('Random Forest', 'models/random_forest_model.pkl'),
    # '2': ('SVM', 'models/svm_model.pkl'),
    '3': ('Regresi√≥n Log√≠stica', 'models/logistic_regression_model.pkl'),
    '4': ('XGBoost', 'models/xgboost_model.pkl')
}

print("\nü§ñ Modelos disponibles:")
for key, (nombre, _) in modelos_disponibles.items():
    print(f"  {key}. {nombre}")


ü§ñ Modelos disponibles:
  1. Random Forest
  3. Regresi√≥n Log√≠stica
  4. XGBoost


In [5]:
# Seleccionar modelo
modelo_seleccionado = input("\nüëâ Selecciona el modelo a usar (1-4): ").strip()

if modelo_seleccionado not in modelos_disponibles:
    print("‚ùå Opci√≥n inv√°lida. Usando Random Forest por defecto.")
    modelo_seleccionado = '1'

nombre_modelo, ruta_modelo = modelos_disponibles[modelo_seleccionado]
print(f"\n‚úÖ Modelo seleccionado: {nombre_modelo}")


‚úÖ Modelo seleccionado: Random Forest


In [6]:
anio_objetivo = 2025
termino_objetivo = "2S"

In [7]:
# Cargar modelo
modelo = joblib.load(ruta_modelo)
print(f"‚úì Modelo cargado desde '{ruta_modelo}'")

# Cargar datos de inferencia
print("\nüìä Cargando datos de inferencia...")
try:
    df_inferencia = pd.read_csv(f'models/datos_inferencia_{anio_objetivo}_{termino_objetivo}.csv')
    print(f"‚úì Datos cargados: {len(df_inferencia)} registros")
except FileNotFoundError:
    print(f"‚ùå No se encontr√≥ el archivo 'models/datos_inferencia_{anio_objetivo}_{termino_objetivo}.csv'")
    print("   Aseg√∫rate de haber ejecutado el script de entrenamiento primero.")
    exit()

‚úì Modelo cargado desde 'models/random_forest_model.pkl'

üìä Cargando datos de inferencia...
‚úì Datos cargados: 30324 registros


In [None]:
# Verificar que tengamos los datos correctos
if len(df_inferencia) == 0:
    print("‚ùå No hay datos disponibles para inferencia.")
    exit()

# Extraer features
X_columns = feature_info['X_columns']
X_inferencia = df_inferencia[X_columns]

print(f"\nüîÆ Realizando predicciones...")
# Predicciones
predicciones = modelo.predict(X_inferencia)
probabilidades = modelo.predict_proba(X_inferencia)[:, 1]  # Probabilidad de aprobar

# Agregar predicciones al dataframe
df_inferencia['PREDICCION'] = predicciones
df_inferencia['PROB_APROBAR'] = probabilidades
df_inferencia['PREDICCION_TEXTO'] = df_inferencia['PREDICCION'].apply(
    lambda x: 'APROBAR√Å' if x == 1 else 'REPROBAR√Å'
)

# Resultados
print(f"\n{'='*80}")
print(f"üìä RESULTADOS DE INFERENCIA")
print(f"{'='*80}")

print(f"\nüìà Distribuci√≥n de predicciones:")
print(df_inferencia['PREDICCION_TEXTO'].value_counts())
print(f"\n  ‚Ä¢ Porcentaje predicho de aprobaci√≥n: {(predicciones == 1).mean()*100:.2f}%")
print(f"  ‚Ä¢ Porcentaje predicho de reprobaci√≥n: {(predicciones == 0).mean()*100:.2f}%")

print(f"\nüìä Estad√≠sticas de probabilidades:")
print(f"  ‚Ä¢ Probabilidad promedio de aprobar: {probabilidades.mean():.4f}")
print(f"  ‚Ä¢ Probabilidad m√≠nima: {probabilidades.min():.4f}")
print(f"  ‚Ä¢ Probabilidad m√°xima: {probabilidades.max():.4f}")
print(f"  ‚Ä¢ Desviaci√≥n est√°ndar: {probabilidades.std():.4f}")

# Estudiantes en riesgo (probabilidad > 0.5)
estudiantes_riesgo = df_inferencia[df_inferencia['PROB_APROBAR'] > 0.5]
print(f"\n Estudiantes en ALTA PROBABILIDAD de aprobar (prob > 0.5): {len(estudiantes_riesgo)}")

# Estudiantes en riesgo moderado (0.3 < prob <= 0.5)
estudiantes_riesgo_moderado = df_inferencia[
    (df_inferencia['PROB_APROBAR'] > 0.3) & (df_inferencia['PROB_APROBAR'] <= 0.5)
]
print(f"‚ö†Ô∏è Estudiantes en PROBABILIDAD MODERADA (0.3 < prob <= 0.5): {len(estudiantes_riesgo_moderado)}")

# Guardar resultados
output_file = f'models/predicciones_2025_2S_{nombre_modelo.replace(" ", "_").lower()}.csv'
df_inferencia.to_csv(output_file, index=False)
print(f"\nüíæ Predicciones guardadas en '{output_file}'")

# Mostrar algunos ejemplos
print(f"\nüìã EJEMPLOS DE PREDICCIONES (primeros 10 registros):")
print("="*80)
columnas_mostrar = ['COD_ESTUDIANTE', 'COD_MATERIA_ACAD_MO', 'PREDICCION_TEXTO', 'PROB_APROBAR']
if 'COD_ESTUDIANTE' in df_inferencia.columns:
    print(df_inferencia[columnas_mostrar].head(10).to_string(index=False))
else:
    print(df_inferencia[['PREDICCION_TEXTO', 'PROB_APROBAR']].head(10).to_string(index=False))


print(f"\n{'='*80}")
print(f"‚úÖ INFERENCIA COMPLETADA")
print(f"{'='*80}")


üîÆ Realizando predicciones...

üìä RESULTADOS DE INFERENCIA

üìà Distribuci√≥n de predicciones:
PREDICCION_TEXTO
APROBAR√Å     22410
REPROBAR√Å     7914
Name: count, dtype: int64

  ‚Ä¢ Porcentaje predicho de aprobaci√≥n: 73.90%
  ‚Ä¢ Porcentaje predicho de reprobaci√≥n: 26.10%

üìä Estad√≠sticas de probabilidades:
  ‚Ä¢ Probabilidad promedio de aprobar: 0.6920
  ‚Ä¢ Probabilidad m√≠nima: 0.0703
  ‚Ä¢ Probabilidad m√°xima: 0.9999
  ‚Ä¢ Desviaci√≥n est√°ndar: 0.2602

 Estudiantes en ALTA PROBABILIDAD de aprobar (prob > 0.5): 22410
‚ö†Ô∏è Estudiantes en PROBABILIDAD MODERADA (0.3 < prob <= 0.5): 4396

üíæ Predicciones guardadas en 'models/predicciones_2025_2S_random_forest.csv'

üìã EJEMPLOS DE PREDICCIONES (primeros 10 registros):
PREDICCION_TEXTO  PROB_APROBAR
        APROBAR√Å      0.963844
        APROBAR√Å      0.851829
        APROBAR√Å      0.948531
        APROBAR√Å      0.991909
        APROBAR√Å      0.831589
        APROBAR√Å      0.935227
        APROBAR√Å      0.9677