In [1]:
#############################
# üîπ Librer√≠as
#############################
import os
import json
import nest_asyncio
import asyncio
from flask import Flask, request, jsonify
from playwright.async_api import async_playwright
from bs4 import BeautifulSoup
import re

#############################
# üîπ Configuraci√≥n inicial
#############################
nest_asyncio.apply()
app = Flask(__name__)
CMP_URL = "https://aplicaciones.cmp.org.pe/conoce_a_tu_medico/index.php"

#############################
# üîπ Funci√≥n principal
#############################
async def run_cmp(cmp_number):
    """Automatiza la b√∫squeda y extracci√≥n de datos del CMP (versi√≥n Cloud Run estable)."""
    print(f"\n========== INICIO B√öSQUEDA CMP {cmp_number} ==========")

    async with async_playwright() as p:
        # ‚úÖ HEADLESS + OPCIONES "STEALTH" para entornos sin interfaz
        browser = await p.chromium.launch(
            headless=True,
            args=[
                "--no-sandbox",
                "--disable-setuid-sandbox",
                "--disable-dev-shm-usage",
                "--disable-blink-features=AutomationControlled",
                "--disable-infobars",
                "--disable-extensions",
                "--disable-gpu",
                "--single-process",
                "--no-zygote"
            ]
        )

        context = await browser.new_context(
            user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
                       "AppleWebKit/537.36 (KHTML, like Gecko) "
                       "Chrome/120.0.0.0 Safari/537.36"
        )

        page = await context.new_page()

        try:
            # 1Ô∏è‚É£ Cargar p√°gina principal
            print("[INFO] Cargando p√°gina principal...")
            await page.goto(CMP_URL, wait_until="domcontentloaded", timeout=60000)

            # Espera adicional para asegurar carga completa
            await page.wait_for_timeout(1500)

            # 2Ô∏è‚É£ Esperar campo CMP visible
            print("[INFO] Esperando campo CMP...")
            await page.wait_for_selector('input[name="cmp"]', timeout=30000)

            # 3Ô∏è‚É£ Ingresar CMP
            print(f"[INFO] Ingresando CMP: {cmp_number}")
            await page.fill('input[name="cmp"]', str(cmp_number))

            # 4Ô∏è‚É£ Presionar bot√≥n ‚ÄúBuscar‚Äù
            print("[INFO] Presionando bot√≥n Buscar...")
            await page.click('input.btn.btn-sub[type="submit"]')

            # Esperar carga de la siguiente p√°gina
            await page.wait_for_load_state("networkidle", timeout=90000)
            print("[INFO] P√°gina de resultados cargada correctamente")

            # 5Ô∏è‚É£ Click en ‚ÄúDetalle‚Äù
            print("[INFO] Buscando enlace de detalle...")
            await page.wait_for_selector('a[href*="datos-colegiado-detallado"]', timeout=20000)
            await page.click('a[href*="datos-colegiado-detallado"]')

            print("[INFO] Entrando a la p√°gina de detalle...")
            await page.wait_for_load_state("load", timeout=30000)

            # 6Ô∏è‚É£ Obtener HTML de la p√°gina final
            html = await page.content()
            await browser.close()
            print("[INFO] HTML del detalle obtenido correctamente")

            # 7Ô∏è‚É£ Analizar con BeautifulSoup
            soup = BeautifulSoup(html, "html.parser")

            # Datos principales
            cmp_row = soup.find("tr", class_="cabecera_tr2")
            if cmp_row:
                cols = cmp_row.find_all("td")
                cmp_number_val = cols[0].get_text(strip=True) if len(cols) >= 1 else "No existe dato"
                apellidos = cols[1].get_text(strip=True) if len(cols) >= 2 else "No existe dato"
                nombres = cols[2].get_text(strip=True) if len(cols) >= 3 else "No existe dato"
            else:
                cmp_number_val, apellidos, nombres = "No existe dato", "No existe dato", "No existe dato"

            # Habilitaci√≥n
            habil = soup.find("td", string=lambda x: x and any(s in x for s in ["H√ÅBIL", "NO H√ÅBIL", "FALLECIDO"]))
            habilitacion_del_medico = habil.get_text(strip=True) if habil else "No existe dato"

            # Consejo Regional
            consejo = soup.find("td", string=lambda x: x and "CONSEJO REGIONAL" in x)
            consejo_regional = consejo.get_text(strip=True) if consejo else "No existe dato"

            # Especialidades
            especialidades = []
            tabla_esp = soup.find_all("tr", class_="cabecera_tr2")
            for fila in tabla_esp:
                cols = [c.get_text(strip=True) for c in fila.find_all("td")]
                if len(cols) == 4 and all(cols):
                    especialidades.append({
                        "registro": cols[0],
                        "tipo": cols[1],
                        "codigo": cols[2],
                        "fecha": cols[3],
                    })

            # üî∏ Estructura final
            data = {
                "cmp_number": cmp_number_val,
                "apellidos": apellidos,
                "nombres": nombres,
                "habilitacion_del_medico": habilitacion_del_medico,
                "especialidades": especialidades,
                "consejo_regional": consejo_regional
            }

            print("[INFO] ‚úÖ Extracci√≥n completada con √©xito")
            print(json.dumps(data, indent=2, ensure_ascii=False))
            return data

        except Exception as e:
            print(f"[ERROR] ‚ùå Error durante scraping: {e}")
            await browser.close()
            return {"error": str(e)}

#############################
# üîπ Endpoint Flask
#############################
@app.route("/api/get_cmp_info", methods=["POST"])
def get_cmp_info():
    data = request.get_json()
    cmp_number = data.get("cmp")
    if not cmp_number:
        return jsonify({"error": "Debe enviar el n√∫mero de colegiatura 'cmp'"}), 400

    print(f"[FLASK] Solicitud recibida CMP: {cmp_number}")
    try:
        result = asyncio.run(run_cmp(cmp_number))
        return jsonify(result), 200
    except Exception as e:
        print(f"[FLASK ERROR] {str(e)}")
        return jsonify({"error": str(e)}), 500

#############################
# üîπ Ejecuci√≥n
#############################
if __name__ == "__main__":
    app.run(host="0.0.0.0", port=int(os.getenv("PORT", 8080)))



 * Serving Flask app '__main__'
 * Debug mode: off


 * Running on all addresses (0.0.0.0)
 * Running on http://127.0.0.1:8080
 * Running on http://192.168.0.101:8080
Press CTRL+C to quit


[FLASK] Solicitud recibida CMP: 087632

[INFO] Cargando p√°gina principal...
[INFO] Esperando campo CMP...
[INFO] Ingresando CMP: 087632
[INFO] Presionando bot√≥n Buscar...
[INFO] P√°gina de resultados cargada correctamente
[INFO] Buscando enlace de detalle...


127.0.0.1 - - [24/Oct/2025 13:36:45] "POST /api/get_cmp_info HTTP/1.1" 200 -


[INFO] Entrando a la p√°gina de detalle...
[INFO] HTML del detalle obtenido correctamente
[INFO] ‚úÖ Extracci√≥n completada con √©xito
{
  "cmp_number": "087632",
  "apellidos": "ROMERO NAVEA",
  "nombres": "EMILY CHRISTINE",
  "habilitacion_del_medico": "NO H√ÅBIL",
  "especialidades": [],
  "consejo_regional": "CONSEJO REGIONAL I  LA LIBERTAD"
}
