In [1]:
import os
import time
from datetime import datetime, timedelta

In [2]:
os.add_dll_directory('C:\\Program Files\\IBM\\SQLLIB\\BIN')
# conectar a la base de datos IBM Db2
import ibm_db

In [3]:
from queries import get_academic_history, get_socioeconomico, tasa_reprobacion, dificultad_materia
import pandas as pd
from dotenv import load_dotenv
load_dotenv()

True

In [4]:
def format_time(seconds):
    """Convierte segundos a formato HH:MM:SS"""
    return str(timedelta(seconds=int(seconds)))

def print_progress_bar(current, total, bar_length=30):
    """Imprime una barra de progreso"""
    percent = float(current) * 100 / total
    filled_length = int(bar_length * current // total)
    bar = '‚ñà' * filled_length + '-' * (bar_length - filled_length)
    return f'[{bar}] {percent:.1f}% ({current}/{total})'

In [5]:
print("="*80)
print("INICIO DE DESCARGA DE DATOS ACAD√âMICOS")
print("="*80)
print(f"Fecha y hora de inicio: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

INICIO DE DESCARGA DE DATOS ACAD√âMICOS
Fecha y hora de inicio: 2025-10-08 08:18:40


In [6]:
# Tiempo de inicio total
start_time_total = time.time()

print("\nüì° Conectando con la base de datos...")
start_time_conn = time.time()


üì° Conectando con la base de datos...


In [7]:
conn_str = (
    'DATABASE=' + os.getenv('DATABASE') + 
    ';HOSTNAME=' + os.getenv('HOSTNAME') + 
    ';PORT=' + os.getenv('PORT') + 
    ';PROTOCOL=TCPIP;UID=' + os.getenv('USERNAME_DB') + 
    ';PWD=' + os.getenv('PASSWORD_DB') + ';'
)

print(repr(conn_str))
conn = ibm_db.connect(conn_str, '', '')

'DATABASE=SAAC;HOSTNAME=192.168.254.53;PORT=50000;PROTOCOL=TCPIP;UID=espol;PWD=espol123;'


In [8]:
end_time_conn = time.time()
connection_time = end_time_conn - start_time_conn

if conn:
    print(f"‚úÖ Conexi√≥n exitosa - Tiempo: {connection_time:.2f} segundos")
else:
    print("‚ùå Error al conectar")
    exit(1)

‚úÖ Conexi√≥n exitosa - Tiempo: 33.90 segundos


In [9]:
# Cargar datos de materias
print("\nüìÅ Cargando lista de materias...")
start_time_load = time.time()
df_materias = pd.read_csv("./data/materias/dificultad_materia.csv")
end_time_load = time.time()
load_time = end_time_load - start_time_load

print(f"‚úÖ Materias cargadas - Tiempo: {load_time:.2f} segundos")
print(f"üìä Total de materias en archivo: {len(df_materias)}")


üìÅ Cargando lista de materias...
‚úÖ Materias cargadas - Tiempo: 0.00 segundos
üìä Total de materias en archivo: 1926


In [10]:
# # Filtrar materias a procesar
# list_not_grades = ["PORTAFOLIO"]
# materias_to_process = []

# for i in df_materias.iterrows():
#     if i[1]["MATERIA_x"] in list_not_grades or "MATERIA INTEGRADORA" in i[1]["MATERIA_x"]:
#         continue
#     materias_to_process.append(i[1])
materias_to_process = df_materias[df_materias["CLASIFMATERIA"] == "G"]

In [11]:
total_materias = len(materias_to_process)
print(f"üéØ Materias a procesar: {total_materias}")

# Par√°metros de configuraci√≥n
year = "2021"
semester = "2S"
print(f"üìÖ Per√≠odo: {year} - {semester}")

üéØ Materias a procesar: 1892
üìÖ Per√≠odo: 2021 - 2S


In [12]:
print("\n" + "="*80)
print("INICIANDO PROCESAMIENTO DE MATERIAS")
print("="*80)

# Variables para estad√≠sticas
total_students_processed = 0
failed_materias = []
processing_times = []
df_complete = pd.DataFrame()


INICIANDO PROCESAMIENTO DE MATERIAS


In [13]:
# Procesar cada materia
# for counter, materia_data in enumerate(materias_to_process, 1):
for counter, materia_data in materias_to_process.iterrows():
    counter += 1
    print(counter, materia_data)
    print(f"\n{'='*60}")
    print(f"PROCESANDO MATERIA {counter}/{total_materias}")
    print(f"{'='*60}")
    
    cod_materia = materia_data["CODIGOMATERIA"].strip()
    # materia_name = materia_data["MATERIA_x"]
    materia_name = materia_data["MATERIA"].strip()
    
    print(f"üìö C√≥digo: {cod_materia}")
    print(f"üìñ Nombre: {materia_name}")
    print(f"‚è±Ô∏è  {print_progress_bar(counter-1, total_materias)}")
    
    # Tiempo de inicio para esta materia
    start_time_materia = time.time()
    
    try:
        # Query 1: Historial acad√©mico
        print(f"\nüîç Ejecutando query de historial acad√©mico...")
        start_time_query1 = time.time()
        
        query = get_academic_history(cod_materia, year, semester)
        stmt_select = ibm_db.exec_immediate(conn, query)
        
        data_list = []
        result = ibm_db.fetch_assoc(stmt_select)
        while result:
            result["COD_MATERIA_ACAD_MO"] = result["COD_MATERIA_ACAD_MO"].strip()
            result["CODIGOMATERIA"] = cod_materia
            result["MATERIA"] = materia_name
            data_list.append(result)
            result = ibm_db.fetch_assoc(stmt_select)
        
        df = pd.DataFrame(data_list)
        end_time_query1 = time.time()
        query1_time = end_time_query1 - start_time_query1
        
        num_students = len(df)
        print(f"‚úÖ Query 1 completada - Estudiantes encontrados: {num_students} - Tiempo: {query1_time:.2f}s")
        
        if num_students == 0:
            print(f"‚ö†Ô∏è  No hay estudiantes para esta materia, saltando...")
            continue
        
        # # Query 2: Datos socioecon√≥micos
        # print(f"üîç Ejecutando query socioecon√≥mico...")
        # start_time_query2 = time.time()

        # query = get_socioeconomico(df["COD_ESTUDIANTE"].to_list())
        # stmt_select = ibm_db.exec_immediate(conn, query)

        # data_list = []
        # result = ibm_db.fetch_assoc(stmt_select)
        # while result:
        #     data_list.append(result)
        #     result = ibm_db.fetch_assoc(stmt_select)

        # df_socio = pd.DataFrame(data_list)
        # end_time_query2 = time.time()
        # query2_time = end_time_query2 - start_time_query2

        # socio_records = len(df_socio)
        socio_records = len(df)
        # print(f"‚úÖ Query 2 completada - Registros socioecon√≥micos: {socio_records} - Tiempo: {query2_time:.2f}s")

        # if df_socio.empty:
        #     print(f"‚ö†Ô∏è No se encontraron datos socioecon√≥micos de {len(df["COD_ESTUDIANTE"])} estudiante/s. Se crear√°n columnas vac√≠as.")
        #     df_socio = pd.DataFrame(columns=['CODESTUDIANTE']) # Asegura que la columna exista.


        # # Merge y guardado
        # print(f"üîó Realizando merge y guardando archivo...")
        # start_time_merge = time.time()

        # df["COD_ESTUDIANTE"] = df["COD_ESTUDIANTE"].astype(str).str.strip()
        # df_socio["CODESTUDIANTE"] = df_socio["CODESTUDIANTE"].astype(str).str.strip()

        # df_merge = pd.merge(df, df_socio, left_on='COD_ESTUDIANTE', right_on="CODESTUDIANTE", how='left')

        # if "CODESTUDIANTE" in df_merge.columns:
        #     df_merge.drop("CODESTUDIANTE", axis=1, inplace=True)
            
        # df_complete = pd.concat([df_complete, df_merge], ignore_index=True)
        df_complete = pd.concat([df_complete, df], ignore_index=True)

        end_time_merge = time.time()
        # merge_time = end_time_merge - start_time_merge

        # Tiempo total para esta materia
        end_time_materia = time.time()
        materia_time = end_time_materia - start_time_materia
        processing_times.append(materia_time)
        
        
        # print(f"üíæ Merge y guardado - Tiempo: {merge_time:.2f}s")
        # print(f"üìä Registros finales: {len(df_merge)}")
        
        # Estad√≠sticas de la materia
        total_students_processed += num_students
        coverage = (socio_records / num_students * 100) if num_students > 0 else 0
        
        print(f"\nüìà RESUMEN MATERIA:")
        print(f"   ‚Ä¢ Estudiantes acad√©micos: {num_students}")
        # print(f"   ‚Ä¢ Registros socioecon√≥micos: {socio_records}")
        print(f"   ‚Ä¢ Cobertura socioecon√≥mica: {coverage:.1f}%")
        print(f"   ‚Ä¢ Query 1: {query1_time:.2f}s")
        # print(f"   ‚Ä¢ Query 2: {query2_time:.2f}s")
        # print(f"   ‚Ä¢ Merge/Guardado: {merge_time:.2f}s")
        print(f"   ‚Ä¢ Tiempo total materia: {format_time(materia_time)}")
        
        # Estimaci√≥n de tiempo restante
        if len(processing_times) >= 3:  # Solo despu√©s de procesar al menos 3 materias
            avg_time_per_materia = sum(processing_times) / len(processing_times)
            remaining_materias = total_materias - counter
            estimated_remaining_time = avg_time_per_materia * remaining_materias
            
            print(f"‚è∞ Tiempo promedio por materia: {format_time(avg_time_per_materia)}")
            print(f"‚è≥ Tiempo estimado restante: {format_time(estimated_remaining_time)}")
            
            estimated_finish = datetime.now() + timedelta(seconds=estimated_remaining_time)
            print(f"üèÅ Finalizaci√≥n estimada: {estimated_finish.strftime('%H:%M:%S')}")
        
        # if counter == 2:
        #     break
    except Exception as e:
        print(f"‚ùå ERROR procesando {cod_materia}: {str(e)}")
        failed_materias.append({
            'codigo': cod_materia,
            # 'nombre': materia_name,
            'error': str(e)
        })

1 CODIGOMATERIA                  ACUG1035
CLASIFMATERIA                         G
MATERIA          ACUICULTURA ORNAMENTAL
ANIO                               2020
TERMINO                              0S
DIFICULTAD                         8,52
Name: 0, dtype: object

PROCESANDO MATERIA 1/1892
üìö C√≥digo: ACUG1035
üìñ Nombre: ACUICULTURA ORNAMENTAL
‚è±Ô∏è  [------------------------------] 0.0% (0/1892)

üîç Ejecutando query de historial acad√©mico...
‚úÖ Query 1 completada - Estudiantes encontrados: 8 - Tiempo: 18.69s

üìà RESUMEN MATERIA:
   ‚Ä¢ Estudiantes acad√©micos: 8
   ‚Ä¢ Cobertura socioecon√≥mica: 100.0%
   ‚Ä¢ Query 1: 18.69s
   ‚Ä¢ Tiempo total materia: 0:00:18
2 CODIGOMATERIA                       ACUG1036
CLASIFMATERIA                              G
MATERIA          AN√ÅLISIS DE DATOS ACU√çCOLAS
ANIO                                    2020
TERMINO                                   0S
DIFICULTAD                              7,72
Name: 1, dtype: object

PROCESANDO MATERIA 

In [14]:
df_complete.shape

(31286, 27)

In [15]:
filename = f"./data/materias/all_{year}_{semester}.csv"
df_complete.to_csv(filename, index=False)
print(f"‚úÖ Archivo guardado: {filename}")

‚úÖ Archivo guardado: ./data/materias/all_2021_2S.csv


In [16]:
# Cerrar conexi√≥n
print(f"\nüîå Cerrando conexi√≥n a la base de datos...")
ibm_db.close(conn)

# Tiempo total
end_time_total = time.time()
total_time = end_time_total - start_time_total



üîå Cerrando conexi√≥n a la base de datos...


In [17]:
print("\n" + "="*80)
print("RESUMEN FINAL DEL PROCESAMIENTO")
print("="*80)
print(f"üèÅ Fecha y hora de finalizaci√≥n: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print(f"‚è±Ô∏è  Tiempo total de ejecuci√≥n: {format_time(total_time)}")
print(f"üìä Materias procesadas exitosamente: {total_materias - len(failed_materias)}/{total_materias}")
print(f"üë• Total estudiantes procesados: {total_students_processed:,}")



RESUMEN FINAL DEL PROCESAMIENTO
üèÅ Fecha y hora de finalizaci√≥n: 2025-10-08 18:02:27
‚è±Ô∏è  Tiempo total de ejecuci√≥n: 9:43:46
üìä Materias procesadas exitosamente: 1892/1892
üë• Total estudiantes procesados: 31,286


In [18]:
if processing_times:
    avg_time = sum(processing_times) / len(processing_times)
    min_time = min(processing_times)
    max_time = max(processing_times)
    
    print(f"\nüìà ESTAD√çSTICAS DE TIEMPO:")
    print(f"   ‚Ä¢ Tiempo promedio por materia: {format_time(avg_time)}")
    print(f"   ‚Ä¢ Tiempo m√≠nimo: {format_time(min_time)}")
    print(f"   ‚Ä¢ Tiempo m√°ximo: {format_time(max_time)}")
    print(f"   ‚Ä¢ Velocidad promedio: {total_students_processed/total_time:.1f} estudiantes/segundo")


üìà ESTAD√çSTICAS DE TIEMPO:
   ‚Ä¢ Tiempo promedio por materia: 0:00:31
   ‚Ä¢ Tiempo m√≠nimo: 0:00:18
   ‚Ä¢ Tiempo m√°ximo: 0:00:57
   ‚Ä¢ Velocidad promedio: 0.9 estudiantes/segundo


In [19]:
if failed_materias:
    print(f"\n‚ùå MATERIAS CON ERRORES ({len(failed_materias)}):")
    for failed in failed_materias:
        print(f"   ‚Ä¢ {failed['codigo']} - {failed['nombre'][:50]}")
        print(f"     Error: {failed['error']}")

‚ùå MATERIAS CON ERRORES (15):
   ‚Ä¢ ACUG1045 - PRODUCCI√ìN ACU√çCOLA II
     Error: 'CODESTUDIANTE'
   ‚Ä¢ ALIG1033 - DISE√ëO DE PLANTAS ALIMENTARIAS
     Error: 'CODESTUDIANTE'
   ‚Ä¢ CCPG1058 - SISTEMAS DE INFORMACI√ìN APLICADOS A LOG√çSTICA
     Error: 'CODESTUDIANTE'
   ‚Ä¢ ESTG1056 - DATOS NO ESTRUCTURADOS
     Error: 'CODESTUDIANTE'
   ‚Ä¢ GEOG1027 - DISE√ëO DE CAMPO GEOL√ìGICO
     Error: 'CODESTUDIANTE'
   ‚Ä¢ GEOG1037 - INGENIER√çA GEOL√ìGICA
     Error: 'CODESTUDIANTE'
   ‚Ä¢ INDG1061 - HSEQ EN LA INDUSTRIA HIDROCARBUR√çFERA
     Error: 'CODESTUDIANTE'
   ‚Ä¢ MING1031 - PLANEAMIENTO Y DISE√ëO MINERO
     Error: 'CODESTUDIANTE'
   ‚Ä¢ MTRG1027 - DISE√ëO DE MATERIALES COMPUESTOS
     Error: 'CODESTUDIANTE'
   ‚Ä¢ MTRG1041 - NANOTECNOLOG√çA Y NANOMATERIALES
     Error: 'CODESTUDIANTE'
   ‚Ä¢ PETG1022 - INGENIER√çA DE PRODUCCI√ìN II
     Error: 'CODESTUDIANTE'
   ‚Ä¢ PETG1023 - INGENIER√çA DE YACIMIENTOS I
     Error: 'CODESTUDIANTE'
   ‚Ä¢ PETG1024 - INGENIER√çA DE YACIMIENTOS II
     Error: 'CODESTUDIANTE'
   ‚Ä¢ PETG1028 - SIMULACI√ìN DE RESERVORIOS
     Error: 'CODESTUDIANTE'
   ‚Ä¢ PETG1034 - EVALUACI√ìN DE FORMACIONES II
     Error: 'CODESTUDIANTE'

In [20]:

print(f"\n‚úÖ Procesamiento completado!")
print("="*80)


‚úÖ Procesamiento completado!
