In [2]:
import pandas as pd

# CONFIGURACI√ìN
archivo_excel = '../data/raw/base_anuario.xlsx'
nombre_hoja = 'Base de datos'

# 1. CARGA Y LIMPIEZA
print(f"üìÇ Cargando archivo: {archivo_excel} [{nombre_hoja}]...")
try:
    df = pd.read_excel(archivo_excel, sheet_name=nombre_hoja)
except FileNotFoundError:
    print("‚ùå Error: No se encuentra el archivo.")
    exit()

# Aseguramos que las columnas num√©ricas sean n√∫meros
cols_num = ['Matr√≠cula Total', 'Egresados Total']
for col in cols_num:
    df[col] = pd.to_numeric(df[col], errors='coerce').fillna(0)

# 2. MAPEO DE NIVELES
mapa_niveles = {
    'T√âCNICO SUPERIOR': 'T√©cnico Superior',
    'LICENCIATURA EN EDUCACI√ìN NORMAL': 'Licenciatura',
    'LICENCIATURA UNIVERSITARIA Y TECNOL√ìGICA': 'Licenciatura',
    'ESPECIALIDAD': 'Licenciatura',
    'MAESTR√çA': 'Maestr√≠a',
    'DOCTORADO': 'Doctorado'
}

df['NIVEL'] = df['NIVEL'].str.upper().str.strip()
df['Nivel_Agrupado'] = df['NIVEL'].map(mapa_niveles)

# --- C√ÅLCULOS BASE ---

# Paso A: Agrupar por Entidad, Nivel y Campo para obtener totales absolutos
df_campos = df.groupby(['ENTIDAD', 'Nivel_Agrupado', 'CAMPO AMPLIO'])[cols_num].sum().reset_index()

# Paso B: Calcular los totales por Nivel para sacar porcentajes
df_totales_nivel = df_campos.groupby(['ENTIDAD', 'Nivel_Agrupado'])[cols_num].sum().reset_index()
df_totales_nivel = df_totales_nivel.rename(columns={
    'Matr√≠cula Total': 'Total_Mat_Nivel', 
    'Egresados Total': 'Total_Egr_Nivel'
})

# Unimos los totales al dataframe de campos
df_campos = df_campos.merge(df_totales_nivel, on=['ENTIDAD', 'Nivel_Agrupado'])

# Calculamos porcentajes de participaci√≥n
df_campos['Part_Matricula'] = (df_campos['Matr√≠cula Total'] / df_campos['Total_Mat_Nivel']) * 100
df_campos['Part_Egresados'] = (df_campos['Egresados Total'] / df_campos['Total_Egr_Nivel']) * 100


# --- GENERACI√ìN DE LOS DOS TOP 3 ---

# 1. TOP 3 POR MATR√çCULA
df_top3_matricula = df_campos.sort_values(['ENTIDAD', 'Nivel_Agrupado', 'Matr√≠cula Total'], ascending=[True, True, False])
df_top3_matricula = df_top3_matricula.groupby(['ENTIDAD', 'Nivel_Agrupado']).head(3)
# Seleccionamos solo columnas relevantes
df_top3_matricula = df_top3_matricula[['ENTIDAD', 'Nivel_Agrupado', 'CAMPO AMPLIO', 'Matr√≠cula Total', 'Part_Matricula']]

# 2. TOP 3 POR EGRESADOS
df_top3_egresados = df_campos.sort_values(['ENTIDAD', 'Nivel_Agrupado', 'Egresados Total'], ascending=[True, True, False])
df_top3_egresados = df_top3_egresados.groupby(['ENTIDAD', 'Nivel_Agrupado']).head(3)
# Seleccionamos solo columnas relevantes
df_top3_egresados = df_top3_egresados[['ENTIDAD', 'Nivel_Agrupado', 'CAMPO AMPLIO', 'Egresados Total', 'Part_Egresados']]


# --- VISUALIZACI√ìN DE RESULTADOS ---

print("\n--- RESUMEN 1: TOP 3 POR MATR√çCULA (Ejemplo: AGUASCALIENTES - Licenciatura) ---")
filtro_mat = (df_top3_matricula['ENTIDAD'] == 'AGUASCALIENTES') & (df_top3_matricula['Nivel_Agrupado'] == 'Licenciatura')
print(df_top3_matricula[filtro_mat])

print("\n--- RESUMEN 2: TOP 3 POR EGRESADOS (Ejemplo: AGUASCALIENTES - Licenciatura) ---")
filtro_egr = (df_top3_egresados['ENTIDAD'] == 'AGUASCALIENTES') & (df_top3_egresados['Nivel_Agrupado'] == 'Licenciatura')
print(df_top3_egresados[filtro_egr])

# Opcional: Exportar a Excel en hojas separadas
# with pd.ExcelWriter("Reporte_Educacion_Top3_Separado.xlsx") as writer:
#     df_top3_matricula.to_excel(writer, sheet_name="Top Matricula", index=False)
#     df_top3_egresados.to_excel(writer, sheet_name="Top Egresados", index=False)

üìÇ Cargando archivo: ../data/raw/base_anuario.xlsx [Base de datos]...

--- RESUMEN 1: TOP 3 POR MATR√çCULA (Ejemplo: AGUASCALIENTES - Licenciatura) ---
           ENTIDAD Nivel_Agrupado                            CAMPO AMPLIO  \
9   AGUASCALIENTES   Licenciatura               ADMINISTRACI√ìN Y NEGOCIOS   
16  AGUASCALIENTES   Licenciatura  INGENIER√çA, MANUFACTURA Y CONSTRUCCI√ìN   
12  AGUASCALIENTES   Licenciatura                    CIENCIAS DE LA SALUD   

    Matr√≠cula Total  Part_Matricula  
9             13381       22.716624  
16            12647       21.470528  
12             8664       14.708679  

--- RESUMEN 2: TOP 3 POR EGRESADOS (Ejemplo: AGUASCALIENTES - Licenciatura) ---
           ENTIDAD Nivel_Agrupado                            CAMPO AMPLIO  \
9   AGUASCALIENTES   Licenciatura               ADMINISTRACI√ìN Y NEGOCIOS   
16  AGUASCALIENTES   Licenciatura  INGENIER√çA, MANUFACTURA Y CONSTRUCCI√ìN   
14  AGUASCALIENTES   Licenciatura             CIENCIAS SOCIALES Y 