In [10]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
import base64
import time

# ==================================================
# 1Ô∏è‚É£ Funci√≥n auxiliar para decodificar textos ocultos
# ==================================================
def decode_text(tag):
    """Devuelve texto visible o decodifica si est√° en data-auth (Base64)"""
    if tag is None:
        return ""
    if tag.has_attr("data-auth"):
        try:
            return base64.b64decode(tag["data-auth"]).decode("utf-8")
        except Exception:
            return tag.get_text(strip=True)
    return tag.get_text(strip=True)

# ==================================================
# 2Ô∏è‚É£ Obtener lista de carreras (desde la p√°gina principal)
# ==================================================
base = "https://admision.unmsm.edu.pe/Website20261/A/"
index_url = base + "A.html"

resp = requests.get(index_url)
soup = BeautifulSoup(resp.text, "html.parser")

escuelas = []
for a in soup.select("a[href$='results.html']"):
    nombre = a.text.strip()
    link = base + a["href"]
    escuelas.append((nombre, link))

print(f"üìö Carreras encontradas: {len(escuelas)}\n")

# ==================================================
# 3Ô∏è‚É£ Recorrer todas las carreras y extraer resultados
# ==================================================
todos = []

for nombre, link in escuelas:
    print(f"‚è≥ Procesando: {nombre}")
    try:
        r = requests.get(link, timeout=10)
        s = BeautifulSoup(r.text, "html.parser")
        tabla = s.find("table", {"id": "tablaPostulantes"})
        if not tabla:
            print(f"‚ö† No se encontr√≥ tabla en {nombre}")
            continue

        filas = []
        for tr in tabla.find_all("tr"):
            cols = tr.find_all("td")
            if not cols:
                continue
            codigo = cols[0].get_text(strip=True)
            apellidos_nombres = decode_text(cols[1].find("span"))
            escuela = decode_text(cols[2].find("span"))
            puntaje = cols[3].get("data-score") or cols[3].get_text(strip=True)
            merito = cols[4].get("data-merit") or cols[4].get_text(strip=True)
            observ = cols[5].get_text(strip=True)
            filas.append([codigo, apellidos_nombres, escuela, puntaje, merito, observ])

        df = pd.DataFrame(
            filas,
            columns=["C√≥digo","Apellidos_y_Nombres","Escuela","Puntaje","M√©rito_E.P","Observaci√≥n"]
        )
        df["Fuente"] = link
        todos.append(df)
        print(f"‚úî {nombre}: {len(df)} registros")
        time.sleep(0.5)
    except Exception as e:
        print(f"‚ùå Error en {nombre}: {e}")

# ==================================================
# 4Ô∏è‚É£ Combinar y exportar todo
# ==================================================
if todos:
    final = pd.concat(todos, ignore_index=True)
    final = final.fillna("")
    final.to_csv("Resultados_UNMSM_2026I_TODAS.csv", index=False, encoding="utf-8-sig")
    print(f"\n‚úÖ CSV final generado con {len(final)} registros totales.")
else:
    print("‚ùå No se pudo obtener informaci√≥n.")


üìö Carreras encontradas: 95

‚è≥ Procesando: ADMINISTRACI√É¬ìN - HUARAL
‚úî ADMINISTRACI√É¬ìN - HUARAL: 11 registros
‚è≥ Procesando: ADMINISTRACI√É¬ìN - LIMA
‚úî ADMINISTRACI√É¬ìN - LIMA: 531 registros
‚è≥ Procesando: ADMINISTRACI√É¬ìN - S.J.L
‚úî ADMINISTRACI√É¬ìN - S.J.L: 36 registros
‚è≥ Procesando: ADMINISTRACI√É¬ìN DE LA GASTRONOM√É¬çA
‚úî ADMINISTRACI√É¬ìN DE LA GASTRONOM√É¬çA: 130 registros
‚è≥ Procesando: ADMINISTRACI√É¬ìN DE NEGOCIOS INTERNACIONALES - HUARAL
‚úî ADMINISTRACI√É¬ìN DE NEGOCIOS INTERNACIONALES - HUARAL: 31 registros
‚è≥ Procesando: ADMINISTRACI√É¬ìN DE NEGOCIOS INTERNACIONALES - LIMA
‚úî ADMINISTRACI√É¬ìN DE NEGOCIOS INTERNACIONALES - LIMA: 929 registros
‚è≥ Procesando: ADMINISTRACI√É¬ìN DE NEGOCIOS INTERNACIONALES - S.J.L
‚úî ADMINISTRACI√É¬ìN DE NEGOCIOS INTERNACIONALES - S.J.L: 60 registros
‚è≥ Procesando: ADMINISTRACI√É¬ìN DE TURISMO - HUARAL
‚úî ADMINISTRACI√É¬ìN DE TURISMO - HUARAL: 18 registros
‚è≥ Procesando: ADMINISTRACI√É¬ìN DE TURISMO - LIMA
‚úî ADMI

In [11]:
# =========================================================
# DESCARGA COMPLETA RESULTADOS UNMSM 2025-II
# =========================================================
import os
import pandas as pd
from bs4 import BeautifulSoup

# =============================
# CONFIGURACI√ìN
# =============================
INDEX_PATH = r"C:\Users\alejo\OneDrive - Universidad Nacional Mayor de San Marcos\Resultafos\2025-II\ADMISION 2025-II\ADMISION 2025-II\admision.unmsm.edu.pe\Website20252General\index.html"
BASE_DIR = os.path.dirname(INDEX_PATH)
ROOT_DIR = os.getcwd()

# =============================
# FUNCIONES
# =============================
def leer_html(path):
    """Abre un archivo HTML local y devuelve el objeto BeautifulSoup."""
    try:
        with open(path, "r", encoding="utf-8") as f:
            return BeautifulSoup(f, "html.parser")
    except Exception as e:
        print(f"‚ö†Ô∏è No se pudo leer {path}: {e}")
        return None

def extraer_tabla(path):
    """Extrae la tabla principal de una p√°gina HTML si existe."""
    soup = leer_html(path)
    if not soup:
        return pd.DataFrame()
    table = soup.find("table")
    if table:
        try:
            df = pd.read_html(str(table))[0]
            # Filtrar filas que contienen ‚ÄúVolver al √≠ndice‚Äù
            df = df[~df.astype(str).apply(lambda x: x.str.contains("Volver", case=False)).any(axis=1)]
            return df
        except Exception as e:
            print(f"‚ö†Ô∏è Error al leer tabla de {path}: {e}")
    return pd.DataFrame()

# =============================
# PROCESAR MODALIDADES Y ESCUELAS
# =============================
print(f"üìÇ Leyendo √≠ndice desde: {INDEX_PATH}")
soup_index = leer_html(INDEX_PATH)
if not soup_index:
    raise SystemExit("‚ùå No se encontr√≥ el archivo del √≠ndice principal.")

modalidades = soup_index.select("table a")
resultados = []

for mod in modalidades:
    mod_nombre = mod.text.strip()
    mod_href = mod.get("href")
    mod_path = os.path.join(BASE_DIR, mod_href)
    print(f"\n‚û° Modalidad: {mod_nombre}")

    soup_mod = leer_html(mod_path)
    if not soup_mod:
        continue

    escuelas = soup_mod.select("table a")
    for esc in escuelas:
        esc_nombre = esc.text.strip()
        esc_href = esc.get("href")
        esc_path = os.path.join(BASE_DIR, esc_href.replace("./", "").replace("/", os.sep))

        if not os.path.exists(esc_path):
            print(f"   ‚ö†Ô∏è Archivo no encontrado: {esc_path}")
            continue

        df = extraer_tabla(esc_path)
        if not df.empty:
            df["Modalidad"] = mod_nombre
            df["Escuela"] = esc_nombre
            resultados.append(df)
            print(f"   ‚úî {esc_nombre}: {len(df)} registros extra√≠dos")
        else:
            print(f"   ‚ö†Ô∏è Sin datos en {esc_nombre}")

# =============================
# EXPORTAR CSV EN LA CARPETA DEL SCRIPT
# =============================
if resultados:
    final = pd.concat(resultados, ignore_index=True)
    # Normalizar nombres de columnas si existen
    final.columns = [c.replace(" ", "_").replace(".", "").strip() for c in final.columns]
    output_file = os.path.join(ROOT_DIR, "Resultados_Admision_2025II.csv")
    final.to_csv(output_file, index=False, encoding="utf-8-sig")
    print(f"\n‚úÖ Extracci√≥n completada: {len(final)} registros totales")
    print(f"üìÅ Archivo generado en: {output_file}")
else:
    print("‚ùå No se extrajeron resultados.")


üìÇ Leyendo √≠ndice desde: C:\Users\alejo\OneDrive - Universidad Nacional Mayor de San Marcos\Resultafos\2025-II\ADMISION 2025-II\ADMISION 2025-II\admision.unmsm.edu.pe\Website20252General\index.html

‚û° Modalidad: EDUCACI√ìN B√ÅSICA REGULAR (EBR) Y EDUCACI√ìN B√ÅSICA ALTERNATIVA (EBA)
   ‚úî Volver al √≠ndice: 6 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî DERECHO: 2171 registros extra√≠dos
   ‚úî DERECHO - VILLA RICA: 46 registros extra√≠dos
   ‚úî CIENCIA POL√çTICA: 326 registros extra√≠dos
   ‚úî LITERATURA: 108 registros extra√≠dos
   ‚úî LENGUAS, TRADUCCI√ìN E INTERPRETACI√ìN: 255 registros extra√≠dos
   ‚úî FILOSOF√çA: 39 registros extra√≠dos
   ‚úî LINGU√çSTICA: 65 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî COMUNICACI√ìN SOCIAL: 374 registros extra√≠dos
   ‚úî ARTE: 57 registros extra√≠dos
   ‚úî BIBLIOTECOLOG√çA Y CIENCIAS DE LA INFORMACI√ìN: 36 registros extra√≠dos
   ‚úî DANZA: 6 registros extra√≠dos
   ‚úî CONSERVACI√ìN Y RESTAURACI√ìN: 41 registros extra√≠dos
   ‚úî EDUCACI√ìN INICIAL: 150 registros extra√≠dos
   ‚úî EDUCACI√ìN PRIMARIA: 130 registros extra√≠dos
   ‚úî EDUCACI√ìN SECUNDARIA: 349 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî EDUCACI√ìN F√çSICA: 169 registros extra√≠dos
   ‚úî EDUCACI√ìN F√çSICA - OY√ìN: 5 registros extra√≠dos
   ‚úî QU√çMICA: 77 registros extra√≠dos
   ‚úî INGENIER√çA QU√çMICA: 197 registros extra√≠dos
   ‚úî INGENIER√çA AGROINDUSTRIAL: 144 registros extra√≠dos
   ‚úî INGENIERIA DEL AGUA Y TECNOLOGIAS DE TRATAMIENTO: 17 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî ADMINISTRACI√ìN - LIMA: 599 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN - S.J.L: 69 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN - HUARAL: 25 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN - CHILCA: 21 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN - VILLA RICA: 17 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE TURISMO - LIMA: 223 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE TURISMO - S.J.L: 53 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE TURISMO - HUARAL: 5 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî ADMINISTRACI√ìN DE NEGOCIOS INTERNACIONALES - LIMA: 829 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE NEGOCIOS INTERNACIONALES - S.J.L: 124 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE NEGOCIOS INTERNACIONALES - HUARAL: 73 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE LA GASTRONOM√çA: 107 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN MAR√çTIMA Y PORTUARIA: 118 registros extra√≠dos
   ‚úî ADMINISTRACION MARITIMA Y PORTUARIA - CHANCAY: 25 registros extra√≠dos
   ‚úî MARKETING: 216 registros extra√≠dos
   ‚úî CIENCIAS BIOL√ìGICAS: 176 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî GEN√âTICA Y BIOTECNOLOG√çA: 171 registros extra√≠dos
   ‚úî MICROBIOLOG√çA Y PARASITOLOG√çA: 61 registros extra√≠dos
   ‚úî CONTABILIDAD - LIMA: 508 registros extra√≠dos
   ‚úî CONTABILIDAD - S.J.L: 108 registros extra√≠dos
   ‚úî CONTABILIDAD - HUARAL: 9 registros extra√≠dos
   ‚úî CONTABILIDAD - OY√ìN: 19 registros extra√≠dos
   ‚úî CONTABILIDAD - CHILCA: 23 registros extra√≠dos
   ‚úî CONTABILIDAD - VILLA RICA: 6 registros extra√≠dos
   ‚úî GESTI√ìN TRIBUTARIA - LIMA: 69 registros extra√≠dos
   ‚úî GESTI√ìN TRIBUTARIA - S.J.L: 46 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî AUDITOR√çA EMPRESARIAL Y DEL SECTOR P√öBLICO - LIMA: 117 registros extra√≠dos
   ‚úî AUDITOR√çA EMPRESARIAL Y DEL SECTOR P√öBLICO - S.J.L: 66 registros extra√≠dos
   ‚úî PRESUPUESTO Y FINANZAS P√öBLICAS - LIMA: 81 registros extra√≠dos
   ‚úî PRESUPUESTO Y FINANZAS P√öBLICAS - S.J.L: 57 registros extra√≠dos
   ‚úî CRIMINAL√çSTICA FINANCIERA FORENSE: 369 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî ECONOM√çA: 607 registros extra√≠dos
   ‚úî ECONOM√çA P√öBLICA: 246 registros extra√≠dos
   ‚úî ECONOM√çA INTERNACIONAL: 273 registros extra√≠dos
   ‚úî F√çSICA: 50 registros extra√≠dos
   ‚úî INGENIER√çA MEC√ÅNICA DE FLUIDOS: 119 registros extra√≠dos
   ‚úî MATEM√ÅTICA: 41 registros extra√≠dos
   ‚úî MATEM√ÅTICA - CHILCA: 2 registros extra√≠dos
   ‚úî ESTAD√çSTICA: 82 registros extra√≠dos
   ‚úî ESTAD√çSTICA - CHILCA: 4 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî INVESTIGACI√ìN OPERATIVA: 41 registros extra√≠dos
   ‚úî INVESTIGACI√ìN OPERATIVA - CHILCA: 4 registros extra√≠dos
   ‚úî COMPUTACI√ìN CIENT√çFICA: 66 registros extra√≠dos
   ‚úî COMPUTACI√ìN CIENT√çFICA - CHILCA: 6 registros extra√≠dos
   ‚úî HISTORIA: 93 registros extra√≠dos
   ‚úî SOCIOLOG√çA: 70 registros extra√≠dos
   ‚úî ANTROPOLOG√çA: 62 registros extra√≠dos
   ‚úî ARQUEOLOG√çA: 51 registros extra√≠dos
   ‚úî TRABAJO SOCIAL: 201 registros extra√≠dos
   ‚úî GEOGRAF√çA: 39 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî INGENIER√çA GEOL√ìGICA: 178 registros extra√≠dos
   ‚úî INGENIER√çA GEOL√ìGICA - OY√ìN: 5 registros extra√≠dos
   ‚úî INGENIER√çA GEOGR√ÅFICA: 77 registros extra√≠dos
   ‚úî INGENIER√çA DE MINAS: 267 registros extra√≠dos
   ‚úî INGENIER√çA DE MINAS - OY√ìN: 33 registros extra√≠dos
   ‚úî INGENIER√çA METAL√öRGICA: 76 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî INGENIER√çA CIVIL: 781 registros extra√≠dos
   ‚úî INGENIER√çA AMBIENTAL: 184 registros extra√≠dos
   ‚úî ARQUITECTURA Y URBANISMO: 598 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî INGENIER√çA INDUSTRIAL: 1111 registros extra√≠dos
   ‚úî INGENIER√çA TEXTIL Y CONFECCIONES: 159 registros extra√≠dos
   ‚úî INGENIER√çA DE SEGURIDAD Y SALUD EN EL TRABAJO: 86 registros extra√≠dos
   ‚úî INGENIER√çA ELECTR√ìNICA: 301 registros extra√≠dos
   ‚úî INGENIER√çA EL√âCTRICA: 188 registros extra√≠dos
   ‚úî INGENIER√çA EL√âCTRICA - CHILCA: 33 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî INGENIER√çA DE TELECOMUNICACIONES: 178 registros extra√≠dos
   ‚úî INGENIER√çA BIOM√âDICA: 291 registros extra√≠dos
   ‚úî INGENIERIA NUCLEAR: 46 registros extra√≠dos
   ‚úî INGENIERIA MECATRONICA: 159 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî INGENIER√çA DE SISTEMAS: 1279 registros extra√≠dos
   ‚úî INGENIER√çA DE SOFTWARE: 409 registros extra√≠dos
   ‚úî CIENCIA DE LA COMPUTACI√ìN: 146 registros extra√≠dos

‚û° Modalidad: PRIMEROS PUESTOS DE EDUCACI√ìN SECUNDARIA
   ‚úî Volver al √≠ndice: 6 registros extra√≠dos
   ‚úî DERECHO: 50 registros extra√≠dos
   ‚úî DERECHO - VILLA RICA: 1 registros extra√≠dos
   ‚úî CIENCIA POL√çTICA: 8 registros extra√≠dos
   ‚úî LENGUAS, TRADUCCI√ìN E INTERPRETACI√ìN: 13 registros extra√≠dos
   ‚úî FILOSOF√çA: 1 registros extra√≠dos
   ‚úî LINGU√çSTICA: 1 registros extra√≠dos
   ‚úî COMUNICACI√ìN SOCIAL: 7 registros extra√≠dos
   ‚úî ARTE: 1 registros extra√≠dos
   ‚úî CONSERVACI√ìN Y RESTAURACI√ìN: 1 registros extra√≠dos
   ‚úî EDUCACI√ìN INICIAL: 4 registros extra√≠dos
   ‚úî EDUCACI√ìN PRIMARIA: 3 registros extra√≠dos
   ‚úî EDUCACI√ìN SECUNDARIA: 10 registros extra√≠dos
   ‚úî INGENIER√çA QU√çMICA: 8 registros extra√≠dos
   ‚úî INGENIER√çA AGROINDUSTRIAL: 4 registros extra√≠dos
   ‚úî

  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(

   ‚úî ADMINISTRACI√ìN - S.J.L: 2 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE TURISMO - LIMA: 2 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE NEGOCIOS INTERNACIONALES - LIMA: 22 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE NEGOCIOS INTERNACIONALES - S.J.L: 3 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN MAR√çTIMA Y PORTUARIA: 2 registros extra√≠dos
   ‚úî MARKETING: 2 registros extra√≠dos
   ‚úî CIENCIAS BIOL√ìGICAS: 2 registros extra√≠dos
   ‚úî GEN√âTICA Y BIOTECNOLOG√çA: 5 registros extra√≠dos
   ‚úî CONTABILIDAD - LIMA: 9 registros extra√≠dos
   ‚úî CONTABILIDAD - S.J.L: 1 registros extra√≠dos
   ‚úî GESTI√ìN TRIBUTARIA - LIMA: 1 registros extra√≠dos
   ‚úî AUDITOR√çA EMPRESARIAL Y DEL SECTOR P√öBLICO - LIMA: 5 registros extra√≠dos
   ‚úî PRESUPUESTO Y FINANZAS P√öBLICAS - S.J.L: 1 registros extra√≠dos
   ‚úî ECONOM√çA: 19 registros extra√≠dos
   ‚úî ECONOM√çA P√öBLICA: 6 registros extra√≠dos
   ‚úî ECONOM√çA INTERNACIONAL: 13 registros extra√≠dos
   ‚úî INGENIER√çA MEC√ÅNICA D

  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(

   ‚úî INGENIER√çA DE SISTEMAS: 33 registros extra√≠dos
   ‚úî INGENIER√çA DE SOFTWARE: 23 registros extra√≠dos
   ‚úî CIENCIA DE LA COMPUTACI√ìN: 6 registros extra√≠dos

‚û° Modalidad: VICTIMAS DEL TERRORISMO
   ‚úî Volver al √≠ndice: 6 registros extra√≠dos
   ‚úî DERECHO: 1 registros extra√≠dos
   ‚úî INGENIER√çA AGROINDUSTRIAL: 1 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN - LIMA: 1 registros extra√≠dos
   ‚úî ECONOM√çA: 1 registros extra√≠dos
   ‚úî INGENIER√çA DE SISTEMAS: 2 registros extra√≠dos

‚û° Modalidad: COMUNIDADES NATIVAS
   ‚úî Volver al √≠ndice: 6 registros extra√≠dos
   ‚úî DERECHO: 12 registros extra√≠dos
   ‚úî LENGUAS, TRADUCCI√ìN E INTERPRETACI√ìN: 7 registros extra√≠dos
   ‚úî EDUCACI√ìN INICIAL: 3 registros extra√≠dos
   ‚úî EDUCACI√ìN SECUNDARIA: 1 registros extra√≠dos
   ‚úî EDUCACI√ìN F√çSICA: 1 registros extra√≠dos
   ‚úî INGENIER√çA QU√çMICA: 1 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN - LIMA: 5 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN MAR√çTIMA Y PORTU

  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(

   ‚úî ADMINISTRACI√ìN DE NEGOCIOS INTERNACIONALES - LIMA: 2 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE LA GASTRONOM√çA: 2 registros extra√≠dos
   ‚úî MARKETING: 2 registros extra√≠dos
   ‚úî CONTABILIDAD - LIMA: 1 registros extra√≠dos
   ‚úî CRIMINAL√çSTICA FINANCIERA FORENSE: 2 registros extra√≠dos
   ‚úî ECONOM√çA: 3 registros extra√≠dos
   ‚úî ECONOM√çA P√öBLICA: 1 registros extra√≠dos
   ‚úî MATEM√ÅTICA: 1 registros extra√≠dos
   ‚úî HISTORIA: 1 registros extra√≠dos
   ‚úî SOCIOLOG√çA: 1 registros extra√≠dos
   ‚úî TRABAJO SOCIAL: 1 registros extra√≠dos
   ‚úî INGENIER√çA AMBIENTAL: 1 registros extra√≠dos
   ‚úî ARQUITECTURA Y URBANISMO: 5 registros extra√≠dos
   ‚úî INGENIER√çA INDUSTRIAL: 2 registros extra√≠dos
   ‚úî INGENIER√çA TEXTIL Y CONFECCIONES: 1 registros extra√≠dos
   ‚úî INGENIER√çA EL√âCTRICA - CHILCA: 1 registros extra√≠dos
   ‚úî INGENIER√çA DE TELECOMUNICACIONES: 1 registros extra√≠dos
   ‚úî INGENIER√çA BIOM√âDICA: 3 registros extra√≠dos
   ‚úî INGENIER√çA DE

  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


In [None]:
import os, time, re, pandas as pd
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# =============================
# CONFIGURACI√ìN DEL DRIVER
# =============================
CHROMEDRIVER_PATH = "C:/chromedriver-win64/chromedriver.exe"

options = Options()
options.add_argument("--headless=new")  # ejecuta sin abrir ventana
options.add_argument("--disable-dev-shm-usage")
options.add_argument("--no-sandbox")
options.add_argument("--window-size=1920,1080")

service = Service(CHROMEDRIVER_PATH)
driver = webdriver.Chrome(service=service, options=options)

# =============================
# URL BASE
# =============================
BASE_ROOT = "https://admision.unmsm.edu.pe/Website20251"
INDEX_URL = f"{BASE_ROOT}/A.html"
MODALIDAD = "EDUCACI√ìN B√ÅSICA REGULAR Y ALTERNATIVA (EBR-EBA)"

# =============================
# FUNCI√ìN: EXTRAER TABLA COMPLETA DE UNA CARRERA
# =============================
def extraer_tabla_completa(driver, url, carrera):
    driver.get(url)

    # esperar la tabla
    WebDriverWait(driver, 15).until(
        EC.presence_of_element_located((By.ID, "tablaPostulantes"))
    )
    time.sleep(1)

    # mostrar 100 registros por p√°gina
    try:
        select = driver.find_element(By.NAME, "tablaPostulantes_length")
        select.send_keys("100")
        time.sleep(1.5)
    except:
        pass

    # obtener total esperado
    total_txt = driver.find_element(By.ID, "tablaPostulantes_info").text
    total = int(re.search(r"de un total de (\d[\d,\.]*)", total_txt).group(1).replace(",", "").replace(".", ""))
    print(f"‚Üí {carrera}: {total} registros esperados")

    registros = []
    pagina = 1

    while True:
        # esperar que cargue tabla
        WebDriverWait(driver, 15).until(
            EC.presence_of_all_elements_located((By.CSS_SELECTOR, "#tablaPostulantes tbody tr"))
        )

        # parsear
        soup = BeautifulSoup(driver.page_source, "html.parser")
        tabla = soup.find("table", id="tablaPostulantes")
        for tr in tabla.select("tbody tr"):
            celdas = [td.get_text(strip=True) for td in tr.find_all("td")]
            if celdas:
                registros.append(celdas)

        print(f"   P√°gina {pagina}: {len(registros)} acumulados")

        # ir a siguiente
        try:
            next_btn = driver.find_element(By.ID, "tablaPostulantes_next")
            if "disabled" in next_btn.get_attribute("class"):
                break
            driver.execute_script("arguments[0].scrollIntoView({block:'center'});", next_btn)
            driver.execute_script("arguments[0].click();", next_btn)
            pagina += 1
            time.sleep(1.3)
        except Exception as e:
            print(f"   ‚ö† Error al pasar p√°gina: {e}")
            break

        if len(registros) >= total:
            break

    # construir DataFrame
    if registros:
        cols = ["C√≥digo", "Apellidos_y_Nombres", "Escuela", "Puntaje", "M√©rito_E.P", "Observaci√≥n"]
        df = pd.DataFrame(registros, columns=cols)
        df["Carrera"] = carrera
        df["Modalidad"] = MODALIDAD
        df["Periodo"] = "2025-I"
        df["Fuente"] = url
        print(f"   ‚úî {carrera}: {len(df)} registros totales extra√≠dos.\n")
        return df
    else:
        print(f"   ‚ö† Sin datos para {carrera}")
        return pd.DataFrame()

# =============================
# RECORRER TODAS LAS CARRERAS
# =============================
driver.get(INDEX_URL)
time.sleep(2)
soup = BeautifulSoup(driver.page_source, "html.parser")

escuelas = [
    (a.text.strip(), f"{BASE_ROOT}/{a['href'].replace('./','')}")
    for a in soup.select("a[href$='0.html']")
]

print(f"\nüß≠ Modalidad A: {len(escuelas)} carreras encontradas\n")

dfs = []
for nombre, link in escuelas:
    try:
        df = extraer_tabla_completa(driver, link, nombre)
        if not df.empty:
            dfs.append(df)
    except Exception as e:
        print(f"   ‚ùå Error en {nombre}: {e}")
    time.sleep(0.5)

driver.quit()

# =============================
# GUARDAR CSV FINAL
# =============================
os.makedirs("Resultados_2025I", exist_ok=True)
if dfs:
    final = pd.concat(dfs, ignore_index=True)
    salida = os.path.join("Resultados_2025I", "Resultados_UNMSM_2025I_A.csv")
    final.to_csv(salida, index=False, encoding="utf-8-sig")
    print(f"\n‚úÖ Archivo guardado: {salida} ({len(final)} registros)")
else:
    print("‚ùå No se obtuvieron datos.")




üß≠ Modalidad A: 91 carreras encontradas

‚Üí MEDICINA HUMANA: 5065 registros esperados
   P√°gina 1: 100 acumulados
   P√°gina 2: 200 acumulados
   P√°gina 3: 300 acumulados
   P√°gina 4: 400 acumulados
   P√°gina 5: 500 acumulados
   P√°gina 6: 600 acumulados
   P√°gina 7: 700 acumulados
   P√°gina 8: 800 acumulados
   P√°gina 9: 900 acumulados
   P√°gina 10: 1000 acumulados
   P√°gina 11: 1100 acumulados
   P√°gina 12: 1200 acumulados
   P√°gina 13: 1300 acumulados
   P√°gina 14: 1400 acumulados
   P√°gina 15: 1500 acumulados
   P√°gina 16: 1600 acumulados
   P√°gina 17: 1700 acumulados
   P√°gina 18: 1800 acumulados
   P√°gina 19: 1900 acumulados
   P√°gina 20: 2000 acumulados
   P√°gina 21: 2100 acumulados
   P√°gina 22: 2200 acumulados
   P√°gina 23: 2300 acumulados
   P√°gina 24: 2400 acumulados
   P√°gina 25: 2500 acumulados
   P√°gina 26: 2600 acumulados
   P√°gina 27: 2700 acumulados
   P√°gina 28: 2800 acumulados
   P√°gina 29: 2900 acumulados
   P√°gina 30: 3000 acumulado

In [None]:
import os
import time
import pandas as pd
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options

# =============================
# CONFIGURACI√ìN DEL DRIVER
# =============================
CHROMEDRIVER_PATH = r"C:\chromedriver-win64\chromedriver.exe"
BASE_URL = "https://admision.unmsm.edu.pe/Website20242/"
INDEX_URL = BASE_URL + "index.html"

options = Options()
# ‚ö†Ô∏è Quita el modo headless para evitar errores de carga
# options.add_argument("--headless=new")
options.add_argument("--start-maximized")
options.add_argument("--no-sandbox")
options.add_argument("--disable-dev-shm-usage")
options.add_argument("--disable-gpu")

service = Service(CHROMEDRIVER_PATH)
driver = webdriver.Chrome(service=service, options=options)

# =============================
# FUNCI√ìN PARA EXTRAER TABLAS
# =============================
def extraer_tabla(url):
    """Extrae tabla de resultados de una carrera."""
    try:
        driver.get(url)
        time.sleep(2)
        soup = BeautifulSoup(driver.page_source, "html.parser")
        table = soup.find("table")
        if not table:
            return pd.DataFrame()
        df = pd.read_html(str(table))[0]
        return df
    except Exception as e:
        print(f"‚ö†Ô∏è Error al procesar {url}: {e}")
        return pd.DataFrame()

# =============================
# NAVEGAR POR MODALIDADES
# =============================
print(f"üîç Cargando modalidades desde: {INDEX_URL}")
driver.set_page_load_timeout(60)  # Tiempo extra de espera
driver.get(INDEX_URL)
time.sleep(3)

soup = BeautifulSoup(driver.page_source, "html.parser")
modalidades = soup.select("table a")

if not modalidades:
    print("‚ùå No se encontraron modalidades. Verifica la URL.")
    driver.quit()
    exit()

resultados = []

for mod in modalidades:
    mod_nombre = mod.text.strip()
    mod_href = mod.get("href")
    if not mod_href:
        continue

    mod_url = BASE_URL + mod_href
    print(f"\n‚û° Procesando modalidad: {mod_nombre}")
    driver.get(mod_url)
    time.sleep(2)

    soup_mod = BeautifulSoup(driver.page_source, "html.parser")
    escuelas = soup_mod.select("table a")

    for esc in escuelas:
        esc_nombre = esc.text.strip()
        esc_href = esc.get("href")
        if not esc_href:
            continue

        esc_url = BASE_URL + esc_href.replace("./", "")
        print(f"   ‚Üí Extrayendo {esc_nombre}")

        df = extraer_tabla(esc_url)
        if not df.empty:
            df["Modalidad"] = mod_nombre
            df["Escuela"] = esc_nombre
            resultados.append(df)
            print(f"      ‚úî {len(df)} registros extra√≠dos")
        else:
            print(f"      ‚ö†Ô∏è Sin datos en {esc_nombre}")
        time.sleep(1.5)

# =============================
# EXPORTAR CSV FINAL
# =============================
driver.quit()
if resultados:
    final_df = pd.concat(resultados, ignore_index=True)
    output_file = os.path.join(os.getcwd(), "Resultados_Admision_2024II.csv")
    final_df.to_csv(output_file, index=False, encoding="utf-8-sig")
    print(f"\n‚úÖ Extracci√≥n completa: {len(final_df)} registros totales")
    print(f"üìÅ Archivo guardado en: {output_file}")
else:
    print("‚ùå No se extrajeron resultados.")


üìÇ Leyendo √≠ndice desde: C:\Users\alejo\OneDrive - Universidad Nacional Mayor de San Marcos\Resultafos\2024-II\ADMISION 2024-II\ADMISION 2024-II\admision.unmsm.edu.pe\Website20242\index.html

‚û° Modalidad: EDUCACI√ìN B√ÅSICA REGULAR (EBR) Y EDUCACI√ìN B√ÅSICA ALTERNATIVA (EBA)
   ‚úî Volver al √≠ndice: 12 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî MEDICINA HUMANA: 3823 registros extra√≠dos
   ‚úî OBSTETRICIA: 307 registros extra√≠dos
   ‚úî ENFERMER√çA: 452 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî TEC. MED. LAB. CL√çNICO Y ANATOM√çA PATOL√ìGICA: 126 registros extra√≠dos
   ‚úî TEC. MED. TERAPIA F√çSICA Y REHABILITACI√ìN: 115 registros extra√≠dos
   ‚úî TEC. MED. RADIOLOG√çA: 77 registros extra√≠dos
   ‚úî TEC. MED. TERAPIA OCUPACIONAL: 37 registros extra√≠dos
   ‚úî NUTRICION - LIMA: 187 registros extra√≠dos
   ‚úî NUTRICION - VILLA RICA: 7 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî DERECHO - LIMA: 2217 registros extra√≠dos
   ‚úî DERECHO - VILLA RICA: 30 registros extra√≠dos
   ‚úî CIENCIA POL√çTICA: 253 registros extra√≠dos
   ‚úî LITERATURA: 83 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî LENGUAS, TRADUCCI√ìN E INTERPRETACI√ìN: 271 registros extra√≠dos
   ‚úî FILOSOF√çA: 30 registros extra√≠dos
   ‚úî LINGU√çSTICA: 22 registros extra√≠dos
   ‚úî COMUNICACI√ìN SOCIAL: 409 registros extra√≠dos
   ‚úî ARTE: 45 registros extra√≠dos
   ‚úî BIBLIOTECOLOG√çA Y CIENCIAS DE LA INFORMACI√ìN: 17 registros extra√≠dos
   ‚úî DANZA: 7 registros extra√≠dos
   ‚úî CONSERVACI√ìN Y RESTAURACI√ìN: 13 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî FARMACIA Y BIOQU√çMICA: 215 registros extra√≠dos
   ‚úî CIENCIAS DE LOS ALIMENTOS: 15 registros extra√≠dos
   ‚úî TOXICOLOG√çA: 23 registros extra√≠dos
   ‚úî ODONTOLOG√çA: 343 registros extra√≠dos
   ‚úî EDUCACI√ìN INICIAL: 118 registros extra√≠dos
   ‚úî EDUCACI√ìN PRIMARIA: 98 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî EDUCACI√ìN SECUNDARIA: 236 registros extra√≠dos
   ‚úî EDUCACI√ìN F√çSICA - LIMA: 154 registros extra√≠dos
   ‚úî QU√çMICA: 25 registros extra√≠dos
   ‚úî INGENIER√çA QU√çMICA: 147 registros extra√≠dos
   ‚úî INGENIER√çA AGROINDUSTRIAL - LIMA: 38 registros extra√≠dos
   ‚úî INGENIER√çA AGROINDUSTRIAL - CHILCA: 1 registros extra√≠dos
   ‚úî INGENIER√çA AGROINDUSTRIAL - VILLA RICA: 7 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî MEDICINA VETERINARIA: 424 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN - LIMA: 661 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN - S.J.L: 26 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN - HUARAL: 8 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE TURISMO - LIMA: 161 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî ADMINISTRACI√ìN DE TURISMO - S.J.L: 6 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE NEGOCIOS INTERNACIONALES - LIMA: 687 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE NEGOCIOS INTERNACIONALES - S.J.L: 48 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE NEGOCIOS INTERNACIONALES - HUARAL: 13 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî ADMINISTRACI√ìN DE LA GASTRONOM√çA: 101 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN MAR√çTIMA Y PORTUARIA: 122 registros extra√≠dos
   ‚úî MARKETING: 159 registros extra√≠dos
   ‚úî CIENCIAS BIOL√ìGICAS - LIMA: 132 registros extra√≠dos
   ‚úî GEN√âTICA Y BIOTECNOLOG√çA: 139 registros extra√≠dos
   ‚úî MICROBIOLOG√çA Y PARASITOLOG√çA: 28 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî CONTABILIDAD - LIMA: 629 registros extra√≠dos
   ‚úî CONTABILIDAD - S.J.L: 15 registros extra√≠dos
   ‚úî GESTI√ìN TRIBUTARIA - LIMA: 49 registros extra√≠dos
   ‚úî GESTI√ìN TRIBUTARIA - S.J.L: 1 registros extra√≠dos
   ‚úî AUDITOR√çA EMPRESARIAL Y DEL SECTOR P√öBLICO - LIMA: 81 registros extra√≠dos
   ‚úî PRESUPUESTO Y FINANZAS P√öBLICAS - LIMA: 73 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî ECONOM√çA: 727 registros extra√≠dos
   ‚úî ECONOM√çA P√öBLICA: 165 registros extra√≠dos
   ‚úî ECONOM√çA INTERNACIONAL: 330 registros extra√≠dos
   ‚úî F√çSICA: 45 registros extra√≠dos
   ‚úî INGENIER√çA MEC√ÅNICA DE FLUIDOS: 38 registros extra√≠dos
   ‚úî MATEM√ÅTICA: 40 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî ESTAD√çSTICA: 60 registros extra√≠dos
   ‚úî INVESTIGACI√ìN OPERATIVA: 12 registros extra√≠dos
   ‚úî COMPUTACI√ìN CIENT√çFICA: 20 registros extra√≠dos
   ‚úî HISTORIA: 68 registros extra√≠dos
   ‚úî SOCIOLOG√çA: 85 registros extra√≠dos
   ‚úî ANTROPOLOG√çA: 38 registros extra√≠dos
   ‚úî ARQUEOLOG√çA: 52 registros extra√≠dos
   ‚úî TRABAJO SOCIAL: 188 registros extra√≠dos
   ‚úî GEOGRAF√çA: 22 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî INGENIER√çA GEOL√ìGICA - LIMA: 169 registros extra√≠dos
   ‚úî INGENIER√çA GEOL√ìGICA - OY√ìN: 6 registros extra√≠dos
   ‚úî INGENIER√çA GEOGR√ÅFICA: 35 registros extra√≠dos
   ‚úî INGENIER√çA DE MINAS - LIMA: 241 registros extra√≠dos
   ‚úî INGENIER√çA DE MINAS - OY√ìN: 11 registros extra√≠dos
   ‚úî INGENIER√çA METAL√öRGICA: 51 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî INGENIER√çA CIVIL: 747 registros extra√≠dos
   ‚úî INGENIER√çA AMBIENTAL: 173 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî INGENIER√çA INDUSTRIAL: 1016 registros extra√≠dos
   ‚úî INGENIER√çA TEXTIL Y CONFECCIONES: 20 registros extra√≠dos
   ‚úî INGENIER√çA DE SEGURIDAD Y SALUD EN EL TRABAJO: 59 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî PSICOLOG√çA - LIMA: 1183 registros extra√≠dos
   ‚úî PSICOLOG√çA - CHILCA: 11 registros extra√≠dos
   ‚úî PSICOLOG√çA - VILLA RICA: 17 registros extra√≠dos
   ‚úî PSICOLOG√çA - HUARMEY: 5 registros extra√≠dos
   ‚úî PSICOLOG√çA ORGANIZACIONAL Y DE LA GESTI√ìN HUMANA: 187 registros extra√≠dos
   ‚úî INGENIER√çA ELECTR√ìNICA: 292 registros extra√≠dos
   ‚úî INGENIER√çA EL√âCTRICA - LIMA: 147 registros extra√≠dos
   ‚úî INGENIER√çA EL√âCTRICA - CHILCA: 4 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî INGENIER√çA DE TELECOMUNICACIONES: 164 registros extra√≠dos
   ‚úî INGENIER√çA BIOM√âDICA: 258 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî INGENIER√çA DE SISTEMAS: 1194 registros extra√≠dos
   ‚úî INGENIER√çA DE SOFTWARE: 583 registros extra√≠dos
   ‚úî CIENCIAS DE LA COMPUTACI√ìN: 103 registros extra√≠dos

‚û° Modalidad: PRIMEROS PUESTOS DE EDUCACI√ìN SECUNDARIA
   ‚úî Volver al √≠ndice: 12 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî MEDICINA HUMANA: 176 registros extra√≠dos
   ‚úî OBSTETRICIA: 10 registros extra√≠dos
   ‚úî ENFERMER√çA: 10 registros extra√≠dos
   ‚úî TEC. MED. LAB. CL√çNICO Y ANATOM√çA PATOL√ìGICA: 2 registros extra√≠dos
   ‚úî TEC. MED. TERAPIA F√çSICA Y REHABILITACI√ìN: 3 registros extra√≠dos
   ‚úî TEC. MED. RADIOLOG√çA: 2 registros extra√≠dos
   ‚úî TEC. MED. TERAPIA OCUPACIONAL: 1 registros extra√≠dos
   ‚úî NUTRICION - LIMA: 3 registros extra√≠dos
   ‚úî DERECHO - LIMA: 64 registros extra√≠dos
   ‚úî CIENCIA POL√çTICA: 6 registros extra√≠dos
   ‚úî LITERATURA: 2 registros extra√≠dos
   ‚úî LENGUAS, TRADUCCI√ìN E INTERPRETACI√ìN: 4 registros extra√≠dos
   ‚úî FILOSOF√çA: 1 registros extra√≠dos
   ‚úî COMUNICACI√ìN SOCIAL: 12 registros extra√≠dos
   ‚úî ARTE: 1 registros extra√≠dos
   ‚úî BIBLIOTECOLOG√çA Y CIENCIAS DE LA INFORMACI√ìN: 1 registros extra√≠dos
   ‚úî FARMACIA Y BIOQU√çMICA: 2 registros extra√≠dos
   ‚úî CIENCIAS DE LOS ALIMENTOS: 1 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(

   ‚úî ODONTOLOG√çA: 9 registros extra√≠dos
   ‚úî EDUCACI√ìN INICIAL: 1 registros extra√≠dos
   ‚úî EDUCACI√ìN PRIMARIA: 2 registros extra√≠dos
   ‚úî EDUCACI√ìN SECUNDARIA: 5 registros extra√≠dos
   ‚úî EDUCACI√ìN F√çSICA - LIMA: 1 registros extra√≠dos
   ‚úî QU√çMICA: 2 registros extra√≠dos
   ‚úî INGENIER√çA QU√çMICA: 4 registros extra√≠dos
   ‚úî INGENIER√çA AGROINDUSTRIAL - LIMA: 3 registros extra√≠dos
   ‚úî MEDICINA VETERINARIA: 6 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN - LIMA: 7 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE TURISMO - LIMA: 2 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE NEGOCIOS INTERNACIONALES - LIMA: 24 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE LA GASTRONOM√çA: 2 registros extra√≠dos
   ‚úî MARKETING: 5 registros extra√≠dos
   ‚úî GEN√âTICA Y BIOTECNOLOG√çA: 3 registros extra√≠dos
   ‚úî CONTABILIDAD - LIMA: 12 registros extra√≠dos
   ‚úî GESTI√ìN TRIBUTARIA - LIMA: 2 registros extra√≠dos
   ‚úî AUDITOR√çA EMPRESARIAL Y DEL SECTOR P√öBLICO - LIMA:

  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(

   ‚úî INGENIER√çA CIVIL: 13 registros extra√≠dos
   ‚úî INGENIER√çA AMBIENTAL: 3 registros extra√≠dos
   ‚úî INGENIER√çA INDUSTRIAL: 37 registros extra√≠dos
   ‚úî PSICOLOG√çA - LIMA: 24 registros extra√≠dos
   ‚úî PSICOLOG√çA ORGANIZACIONAL Y DE LA GESTI√ìN HUMANA: 4 registros extra√≠dos
   ‚úî INGENIER√çA ELECTR√ìNICA: 6 registros extra√≠dos
   ‚úî INGENIER√çA EL√âCTRICA - LIMA: 2 registros extra√≠dos
   ‚úî INGENIER√çA DE TELECOMUNICACIONES: 9 registros extra√≠dos
   ‚úî INGENIER√çA BIOM√âDICA: 17 registros extra√≠dos
   ‚úî INGENIER√çA DE SISTEMAS: 28 registros extra√≠dos
   ‚úî INGENIER√çA DE SOFTWARE: 14 registros extra√≠dos
   ‚úî CIENCIAS DE LA COMPUTACI√ìN: 2 registros extra√≠dos

‚û° Modalidad: TRASLADO INTERNO
   ‚úî Volver al √≠ndice: 12 registros extra√≠dos
   ‚úî MEDICINA HUMANA: 67 registros extra√≠dos
   ‚úî ENFERMER√çA: 1 registros extra√≠dos
   ‚úî NUTRICION - LIMA: 2 registros extra√≠dos
   ‚úî DERECHO - LIMA: 30 registros extra√≠dos
   ‚úî CIENCIA POL√çTICA: 4 regi

  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(

   ‚úî F√çSICA: 1 registros extra√≠dos
   ‚úî ESTAD√çSTICA: 3 registros extra√≠dos
   ‚úî HISTORIA: 1 registros extra√≠dos
   ‚úî ANTROPOLOG√çA: 3 registros extra√≠dos
   ‚úî TRABAJO SOCIAL: 2 registros extra√≠dos
   ‚úî INGENIER√çA GEOL√ìGICA - LIMA: 6 registros extra√≠dos
   ‚úî INGENIER√çA GEOGR√ÅFICA: 1 registros extra√≠dos
   ‚úî INGENIER√çA DE MINAS - LIMA: 2 registros extra√≠dos
   ‚úî INGENIER√çA AMBIENTAL: 2 registros extra√≠dos
   ‚úî INGENIER√çA INDUSTRIAL: 16 registros extra√≠dos
   ‚úî PSICOLOG√çA - LIMA: 7 registros extra√≠dos
   ‚úî INGENIER√çA EL√âCTRICA - LIMA: 1 registros extra√≠dos
   ‚úî INGENIER√çA DE TELECOMUNICACIONES: 1 registros extra√≠dos
   ‚úî INGENIER√çA BIOM√âDICA: 4 registros extra√≠dos
   ‚úî INGENIER√çA DE SISTEMAS: 8 registros extra√≠dos
   ‚úî INGENIER√çA DE SOFTWARE: 2 registros extra√≠dos

‚û° Modalidad: GRADUADOS O TITULADOS
   ‚úî Volver al √≠ndice: 12 registros extra√≠dos
   ‚úî MEDICINA HUMANA: 19 registros extra√≠dos
   ‚úî TEC. MED. TERAPIA OC

  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(

   ‚úî TRABAJO SOCIAL: 1 registros extra√≠dos
   ‚úî INGENIER√çA GEOL√ìGICA - LIMA: 1 registros extra√≠dos
   ‚úî INGENIER√çA INDUSTRIAL: 3 registros extra√≠dos
   ‚úî INGENIER√çA TEXTIL Y CONFECCIONES: 1 registros extra√≠dos
   ‚úî PSICOLOG√çA - LIMA: 7 registros extra√≠dos
   ‚úî PSICOLOG√çA ORGANIZACIONAL Y DE LA GESTI√ìN HUMANA: 1 registros extra√≠dos
   ‚úî INGENIER√çA BIOM√âDICA: 1 registros extra√≠dos
   ‚úî INGENIER√çA DE SISTEMAS: 2 registros extra√≠dos

‚û° Modalidad: TRASLADO EXTERNO NACIONAL
   ‚úî Volver al √≠ndice: 12 registros extra√≠dos
   ‚úî MEDICINA HUMANA: 35 registros extra√≠dos
   ‚úî OBSTETRICIA: 1 registros extra√≠dos
   ‚úî ENFERMER√çA: 3 registros extra√≠dos
   ‚úî DERECHO - LIMA: 12 registros extra√≠dos
   ‚úî CIENCIA POL√çTICA: 1 registros extra√≠dos
   ‚úî LITERATURA: 1 registros extra√≠dos
   ‚úî COMUNICACI√ìN SOCIAL: 5 registros extra√≠dos
   ‚úî FARMACIA Y BIOQU√çMICA: 2 registros extra√≠dos
   ‚úî ODONTOLOG√çA: 3 registros extra√≠dos
   ‚úî EDUCACI√ìN I

  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(

   ‚úî EDUCACI√ìN F√çSICA - LIMA: 3 registros extra√≠dos
   ‚úî INGENIER√çA AGROINDUSTRIAL - LIMA: 1 registros extra√≠dos
   ‚úî INGENIER√çA MEC√ÅNICA DE FLUIDOS: 1 registros extra√≠dos
   ‚úî INGENIER√çA BIOM√âDICA: 1 registros extra√≠dos
   ‚úî INGENIER√çA DE SISTEMAS: 2 registros extra√≠dos
   ‚úî INGENIER√çA DE SOFTWARE: 1 registros extra√≠dos

‚û° Modalidad: DEPORTISTAS CALIFICADOS DE ALTO NIVEL
   ‚úî Volver al √≠ndice: 12 registros extra√≠dos
   ‚úî MEDICINA HUMANA: 1 registros extra√≠dos
   ‚úî TEC. MED. TERAPIA F√çSICA Y REHABILITACI√ìN: 1 registros extra√≠dos
   ‚úî NUTRICION - LIMA: 1 registros extra√≠dos
   ‚úî EDUCACI√ìN F√çSICA - LIMA: 1 registros extra√≠dos
   ‚úî INGENIER√çA AGROINDUSTRIAL - LIMA: 1 registros extra√≠dos
   ‚úî INGENIER√çA DE TELECOMUNICACIONES: 1 registros extra√≠dos

‚û° Modalidad: VICTIMAS DEL TERRORISMO
   ‚úî Volver al √≠ndice: 12 registros extra√≠dos
   ‚úî MEDICINA HUMANA: 3 registros extra√≠dos
   ‚úî ENFERMER√çA: 1 registros extra√≠dos
   ‚úî NU

  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(

   ‚úî MEDICINA HUMANA: 26 registros extra√≠dos
   ‚úî TEC. MED. TERAPIA F√çSICA Y REHABILITACI√ìN: 1 registros extra√≠dos
   ‚úî TEC. MED. RADIOLOG√çA: 2 registros extra√≠dos
   ‚úî DERECHO - LIMA: 12 registros extra√≠dos
   ‚úî LENGUAS, TRADUCCI√ìN E INTERPRETACI√ìN: 3 registros extra√≠dos
   ‚úî FILOSOF√çA: 1 registros extra√≠dos
   ‚úî COMUNICACI√ìN SOCIAL: 1 registros extra√≠dos
   ‚úî ARTE: 1 registros extra√≠dos
   ‚úî FARMACIA Y BIOQU√çMICA: 1 registros extra√≠dos
   ‚úî TOXICOLOG√çA: 1 registros extra√≠dos
   ‚úî ODONTOLOG√çA: 2 registros extra√≠dos
   ‚úî EDUCACI√ìN INICIAL: 1 registros extra√≠dos
   ‚úî EDUCACI√ìN F√çSICA - LIMA: 1 registros extra√≠dos
   ‚úî INGENIER√çA QU√çMICA: 1 registros extra√≠dos
   ‚úî MEDICINA VETERINARIA: 2 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE LA GASTRONOM√çA: 1 registros extra√≠dos
   ‚úî MARKETING: 1 registros extra√≠dos
   ‚úî CONTABILIDAD - LIMA: 1 registros extra√≠dos
   ‚úî ECONOM√çA: 3 registros extra√≠dos
   ‚úî COMPUTACI√ìN CIENT

  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî ADMINISTRACI√ìN - LIMA: 9 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE TURISMO - LIMA: 2 registros extra√≠dos
   ‚úî MICROBIOLOG√çA Y PARASITOLOG√çA: 4 registros extra√≠dos
   ‚úî INGENIER√çA MEC√ÅNICA DE FLUIDOS: 1 registros extra√≠dos
   ‚úî MATEM√ÅTICA: 2 registros extra√≠dos
   ‚úî COMPUTACI√ìN CIENT√çFICA: 1 registros extra√≠dos
   ‚úî HISTORIA: 2 registros extra√≠dos
   ‚úî ANTROPOLOG√çA: 1 registros extra√≠dos
   ‚úî ARQUEOLOG√çA: 1 registros extra√≠dos
   ‚úî TRABAJO SOCIAL: 9 registros extra√≠dos
   ‚úî INGENIER√çA GEOL√ìGICA - LIMA: 3 registros extra√≠dos
   ‚úî INGENIER√çA DE SEGURIDAD Y SALUD EN EL TRABAJO: 2 registros extra√≠dos
   ‚úî PSICOLOG√çA - LIMA: 13 registros extra√≠dos
   ‚úî PSICOLOG√çA ORGANIZACIONAL Y DE LA GESTI√ìN HUMANA: 2 registros extra√≠dos
   ‚úî INGENIER√çA ELECTR√ìNICA: 3 registros extra√≠dos
   ‚úî INGENIER√çA EL√âCTRICA - LIMA: 2 registros extra√≠dos
   ‚úî INGENIER√çA BIOM√âDICA: 10 registros extra√≠dos
   ‚úî INGENIER√çA DE SISTEMAS: 6 re

In [8]:
import os
import pandas as pd
from bs4 import BeautifulSoup

# =============================
# CONFIGURACI√ìN
# =============================
INDEX_PATH = r"C:\Users\alejo\OneDrive - Universidad Nacional Mayor de San Marcos\Resultafos\2024-I\ADMISION 2024-I\ADMISION 2024-I\admision.unmsm.edu.pe\Website20241\index.html"
BASE_DIR = os.path.dirname(INDEX_PATH)

# Carpeta ra√≠z = ubicaci√≥n del script actual
ROOT_DIR = os.getcwd()

# =============================
# FUNCIONES
# =============================
def leer_html(path):
    try:
        with open(path, "r", encoding="utf-8") as f:
            return BeautifulSoup(f, "html.parser")
    except Exception as e:
        print(f"‚ö†Ô∏è No se pudo leer {path}: {e}")
        return None

def extraer_tabla(path):
    soup = leer_html(path)
    if not soup:
        return pd.DataFrame()
    table = soup.find("table")
    if table:
        try:
            df = pd.read_html(str(table))[0]
            return df
        except Exception as e:
            print(f"‚ö†Ô∏è Error al leer tabla de {path}: {e}")
    return pd.DataFrame()

# =============================
# PROCESAR MODALIDADES Y ESCUELAS
# =============================
print(f"üìÇ Leyendo √≠ndice desde: {INDEX_PATH}")
soup_index = leer_html(INDEX_PATH)
if not soup_index:
    raise SystemExit("‚ùå No se encontr√≥ el archivo del √≠ndice principal.")

modalidades = soup_index.select("table a")
resultados = []

for mod in modalidades:
    mod_nombre = mod.text.strip()
    mod_href = mod.get("href")
    mod_path = os.path.join(BASE_DIR, mod_href)
    print(f"\n‚û° Modalidad: {mod_nombre}")

    soup_mod = leer_html(mod_path)
    if not soup_mod:
        continue

    escuelas = soup_mod.select("table a")
    for esc in escuelas:
        esc_nombre = esc.text.strip()
        esc_href = esc.get("href")
        esc_path = os.path.join(BASE_DIR, esc_href.replace("./", "").replace("/", os.sep))

        if not os.path.exists(esc_path):
            print(f"   ‚ö†Ô∏è Archivo no encontrado: {esc_path}")
            continue

        df = extraer_tabla(esc_path)
        if not df.empty:
            df["Modalidad"] = mod_nombre
            df["Escuela"] = esc_nombre
            resultados.append(df)
            print(f"   ‚úî {esc_nombre}: {len(df)} registros extra√≠dos")
        else:
            print(f"   ‚ö†Ô∏è Sin datos en {esc_nombre}")

# =============================
# EXPORTAR CSV EN LA CARPETA DEL SCRIPT
# =============================
if resultados:
    final = pd.concat(resultados, ignore_index=True)
    output_file = os.path.join(ROOT_DIR, "Resultados_Admision_2024I.csv")
    final.to_csv(output_file, index=False, encoding="utf-8-sig")
    print(f"\n‚úÖ Extracci√≥n completada: {len(final)} registros totales")
    print(f"üìÅ Archivo generado en: {output_file}")
else:
    print("‚ùå No se extrajeron resultados.")


üìÇ Leyendo √≠ndice desde: C:\Users\alejo\OneDrive - Universidad Nacional Mayor de San Marcos\Resultafos\2024-I\ADMISION 2024-I\ADMISION 2024-I\admision.unmsm.edu.pe\Website20241\index.html

‚û° Modalidad: EDUCACI√ìN B√ÅSICA REGULAR (EBR) Y EDUCACI√ìN B√ÅSICA ALTERNATIVA (EBA)
   ‚úî Volver al √≠ndice: 1 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî MEDICINA HUMANA: 5383 registros extra√≠dos
   ‚úî OBSTETRICIA: 414 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî ENFERMER√çA: 548 registros extra√≠dos
   ‚úî TEC. MED. LAB. CL√çNICO Y ANATOM√çA PATOL√ìGICA: 140 registros extra√≠dos
   ‚úî TEC. MED. TERAPIA F√çSICA Y REHABILITACI√ìN: 152 registros extra√≠dos
   ‚úî TEC. MED. RADIOLOG√çA: 98 registros extra√≠dos
   ‚úî TEC. MED. TERAPIA OCUPACIONAL: 63 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî NUTRICION: 253 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî DERECHO: 2913 registros extra√≠dos
   ‚úî CIENCIA POL√çTICA: 272 registros extra√≠dos
   ‚úî LITERATURA: 134 registros extra√≠dos
   ‚úî FILOSOF√çA: 38 registros extra√≠dos
   ‚úî LINGU√çSTICA: 64 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî COMUNICACI√ìN SOCIAL: 675 registros extra√≠dos
   ‚úî ARTE: 58 registros extra√≠dos
   ‚úî BIBLIOTECOLOG√çA Y CIENCIAS DE LA INFORMACI√ìN: 31 registros extra√≠dos
   ‚úî DANZA: 5 registros extra√≠dos
   ‚úî CONSERVACI√ìN Y RESTAURACI√ìN: 26 registros extra√≠dos
   ‚úî FARMACIA Y BIOQU√çMICA: 270 registros extra√≠dos
   ‚úî CIENCIAS DE LOS ALIMENTOS: 29 registros extra√≠dos
   ‚úî TOXICOLOG√çA: 39 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî ODONTOLOG√çA: 458 registros extra√≠dos
   ‚úî EDUCACI√ìN INICIAL: 141 registros extra√≠dos
   ‚úî EDUCACI√ìN PRIMARIA: 111 registros extra√≠dos
   ‚úî EDUCACI√ìN SECUNDARIA: 266 registros extra√≠dos
   ‚úî EDUCACI√ìN F√çSICA: 106 registros extra√≠dos
   ‚úî QU√çMICA: 48 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî INGENIER√çA QU√çMICA: 188 registros extra√≠dos
   ‚úî INGENIER√çA AGROINDUSTRIAL: 69 registros extra√≠dos
   ‚úî MEDICINA VETERINARIA: 642 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî ADMINISTRACI√ìN - LIMA: 915 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN - S.J.L: 34 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN - HUARAL: 11 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE TURISMO - LIMA: 205 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE TURISMO - S.J.L: 3 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE TURISMO - HUARAL: 2 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî ADMINISTRACI√ìN DE NEGOCIOS INTERNACIONALES - LIMA: 995 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE NEGOCIOS INTERNACIONALES - S.J.L: 39 registros extra√≠dos
   ‚úî ADMINISTRACI√ìN DE NEGOCIOS INTERNACIONALES - HUARAL: 22 registros extra√≠dos
   ‚úî CIENCIAS BIOL√ìGICAS: 191 registros extra√≠dos
   ‚úî GEN√âTICA Y BIOTECNOLOG√çA: 189 registros extra√≠dos
   ‚úî MICROBIOLOG√çA Y PARASITOLOG√çA: 48 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî CONTABILIDAD - LIMA: 782 registros extra√≠dos
   ‚úî CONTABILIDAD - S.J.L: 20 registros extra√≠dos
   ‚úî GESTI√ìN TRIBUTARIA - LIMA: 94 registros extra√≠dos
   ‚úî GESTI√ìN TRIBUTARIA - S.J.L: 2 registros extra√≠dos
   ‚úî AUDITOR√çA EMPRESARIAL Y DEL SECTOR P√öBLICO - LIMA: 99 registros extra√≠dos
   ‚úî AUDITOR√çA EMPRESARIAL Y DEL SECTOR P√öBLICO - S.J.L: 5 registros extra√≠dos
   ‚úî PRESUPUESTO Y FINANZAS P√öBLICAS - LIMA: 140 registros extra√≠dos
   ‚úî PRESUPUESTO Y FINANZAS P√öBLICAS - S.J.L: 5 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî ECONOM√çA: 1012 registros extra√≠dos
   ‚úî ECONOM√çA P√öBLICA: 124 registros extra√≠dos
   ‚úî ECONOM√çA INTERNACIONAL: 269 registros extra√≠dos
   ‚úî F√çSICA: 62 registros extra√≠dos
   ‚úî INGENIER√çA MEC√ÅNICA DE FLUIDOS: 92 registros extra√≠dos
   ‚úî MATEM√ÅTICA: 85 registros extra√≠dos
   ‚úî ESTAD√çSTICA: 128 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî INVESTIGACI√ìN OPERATIVA: 45 registros extra√≠dos
   ‚úî COMPUTACI√ìN CIENT√çFICA: 54 registros extra√≠dos
   ‚úî HISTORIA: 92 registros extra√≠dos
   ‚úî SOCIOLOG√çA: 88 registros extra√≠dos
   ‚úî ANTROPOLOG√çA: 49 registros extra√≠dos
   ‚úî ARQUEOLOG√çA: 67 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî TRABAJO SOCIAL: 231 registros extra√≠dos
   ‚úî GEOGRAF√çA: 38 registros extra√≠dos
   ‚úî INGENIER√çA GEOL√ìGICA: 185 registros extra√≠dos
   ‚úî INGENIER√çA GEOGR√ÅFICA: 60 registros extra√≠dos
   ‚úî INGENIER√çA DE MINAS: 328 registros extra√≠dos
   ‚úî INGENIER√çA METAL√öRGICA: 67 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî INGENIER√çA CIVIL: 1078 registros extra√≠dos
   ‚úî INGENIER√çA AMBIENTAL: 259 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî INGENIER√çA INDUSTRIAL: 1302 registros extra√≠dos
   ‚úî INGENIER√çA TEXTIL Y CONFECCIONES: 42 registros extra√≠dos
   ‚úî INGENIER√çA DE SEGURIDAD Y SALUD EN EL TRABAJO: 67 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî PSICOLOG√çA: 1690 registros extra√≠dos
   ‚úî PSICOLOG√çA ORGANIZACIONAL Y DE LA GESTI√ìN HUMANA: 199 registros extra√≠dos
   ‚úî INGENIER√çA ELECTR√ìNICA: 365 registros extra√≠dos
   ‚úî INGENIER√çA EL√âCTRICA: 173 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî INGENIER√çA DE TELECOMUNICACIONES: 205 registros extra√≠dos
   ‚úî INGENIER√çA BIOM√âDICA: 303 registros extra√≠dos


  df = pd.read_html(str(table))[0]
  df = pd.read_html(str(table))[0]


   ‚úî INGENIER√çA DE SISTEMAS: 1776 registros extra√≠dos
   ‚úî INGENIER√çA DE SOFTWARE: 832 registros extra√≠dos
   ‚úî CIENCIAS DE LA COMPUTACI√ìN: 60 registros extra√≠dos

‚úÖ Extracci√≥n completada: 28863 registros totales
üìÅ Archivo generado en: c:\Users\alejo\Documents\GitHub\PrediccionIngresoUNMSM\Resultados_Admision_2024I.csv


  df = pd.read_html(str(table))[0]
