In [5]:
import requests
from datetime import datetime
import os
import urllib3
import re

urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

CARPETA_SALIDA = "Federal"
os.makedirs(CARPETA_SALIDA, exist_ok=True)

HEADERS = {
    "User-Agent": (
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
        "AppleWebKit/537.36 (KHTML, like Gecko) "
        "Chrome/120.0.0.0 Safari/537.36"
    ),
    "Accept": "application/pdf,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
    "Referer": "https://www.dof.gob.mx/",
}


def _es_pdf(contenido: bytes) -> bool:
    """Verifica si el binario tiene pinta de PDF."""
    return contenido[:4] == b"%PDF"


def descargar_dof_hoy(edicion="MAT"):
    hoy = datetime.now()
    fecha_str = hoy.strftime("%d/%m/%Y")      # para el URL
    fecha_archivo = hoy.strftime("%Y%m%d")    # para el nombre del archivo

    url_nota = (
        "https://www.dof.gob.mx/nota_to_pdf.php"
        f"?fecha={fecha_str}&edicion={edicion}"
    )

    print(f"üìÑ Descargando DOF {edicion} del {fecha_str}")
    print(f"üîó Paso 1: {url_nota}")

    # Paso 1: llamar a nota_to_pdf.php
    resp = requests.get(
        url_nota,
        headers=HEADERS,
        timeout=60,
        verify=False
    )

    print("‚ÑπÔ∏è Paso 1 - Status code:", resp.status_code)
    print("‚ÑπÔ∏è Paso 1 - Content-Type:", resp.headers.get("Content-Type", ""))

    if resp.status_code != 200:
        print(f"‚ùå No se pudo acceder a nota_to_pdf.php (status {resp.status_code})")
        return None

    # Si milagrosamente ya fuera un PDF, lo guardamos directo
    if _es_pdf(resp.content):
        nombre_archivo = f"DOF_{fecha_archivo}_{edicion}.pdf"
        ruta = os.path.join(CARPETA_SALIDA, nombre_archivo)
        with open(ruta, "wb") as f:
            f.write(resp.content)
        print(f"‚úÖ DOF descargado directamente desde nota_to_pdf.php: {ruta}")
        return ruta

    # Si no es PDF, asumimos que es HTML con el script de redirecci√≥n a abrirPDF.php
    html = resp.content.decode("latin-1", errors="ignore")

    # Buscar la URL de abrirPDF.php dentro del JS
    match = re.search(r"abrirPDF\.php\?([^']+)", html)
    if not match:
        print("‚ùå No se encontr√≥ redirecci√≥n a abrirPDF.php en la respuesta HTML.")
        print("üîç Fragmento de HTML recibido:")
        print(html[:400])
        return None

    query = match.group(0)  # por ejemplo: "abrirPDF.php?archivo=27012026-MAT.pdf&anio=2026&repo="
    url_pdf = "https://www.dof.gob.mx/" + query

    print(f"üîó Paso 2: intentando descargar PDF desde {url_pdf}")

    # Paso 2: llamar a abrirPDF.php (aqu√≠ s√≠ debe venir el PDF)
    resp_pdf = requests.get(
        url_pdf,
        headers=HEADERS,
        timeout=60,
        verify=False
    )

    print("‚ÑπÔ∏è Paso 2 - Status code:", resp_pdf.status_code)
    print("‚ÑπÔ∏è Paso 2 - Content-Type:", resp_pdf.headers.get("Content-Type", ""))

    if resp_pdf.status_code == 200 and _es_pdf(resp_pdf.content):
        nombre_archivo = f"DOF_{fecha_archivo}_{edicion}.pdf"
        ruta = os.path.join(CARPETA_SALIDA, nombre_archivo)
        with open(ruta, "wb") as f:
            f.write(resp_pdf.content)
        print(f"‚úÖ DOF descargado correctamente: {ruta}")
        return ruta
    else:
        print("‚ùå La respuesta de abrirPDF.php no parece un PDF v√°lido.")
        preview = resp_pdf.content[:300].decode("latin-1", errors="ignore")
        print("üîç Fragmento de respuesta:")
        print(preview)
        return None


if __name__ == "__main__":
    descargar_dof_hoy("MAT")


üìÑ Descargando DOF MAT del 27/01/2026
üîó Paso 1: https://www.dof.gob.mx/nota_to_pdf.php?fecha=27/01/2026&edicion=MAT
‚ÑπÔ∏è Paso 1 - Status code: 200
‚ÑπÔ∏è Paso 1 - Content-Type: text/html; charset=UTF-8
üîó Paso 2: intentando descargar PDF desde https://www.dof.gob.mx/abrirPDF.php?archivo=27012026-MAT.pdf&anio=2026&repo=
‚ÑπÔ∏è Paso 2 - Status code: 200
‚ÑπÔ∏è Paso 2 - Content-Type: application/pdf
‚úÖ DOF descargado correctamente: dof_reciente\DOF_20260127_MAT.pdf


In [6]:
import os
import re
from datetime import datetime

import requests
from bs4 import BeautifulSoup
import urllib3

urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

# === CONFIGURACI√ìN ===
# ‚ö†Ô∏è Pega aqu√≠ la URL de la p√°gina donde ves la Gaceta con el "Click en imagen para Descargar"
LISTING_URL = "https://data.consejeria.cdmx.gob.mx/index.php/gaceta"  # <--- AJ√öSTALA T√ö

BASE_URL = "https://data.consejeria.cdmx.gob.mx"
CARPETA_SALIDA = "cdmx"
os.makedirs(CARPETA_SALIDA, exist_ok=True)

HEADERS = {
    "User-Agent": (
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
        "AppleWebKit/537.36 (KHTML, like Gecko) "
        "Chrome/120.0.0.0 Safari/537.36"
    ),
    "Referer": BASE_URL,
}


def descargar_gaceta_reciente():
    print(f"üìÑ Consultando listado de Gacetas en: {LISTING_URL}")

    resp = requests.get(
        LISTING_URL,
        headers=HEADERS,
        timeout=60,
        verify=False   # si hay broncas de certificado como con el DOF
    )

    if resp.status_code != 200:
        print(f"‚ùå No se pudo acceder al listado (status {resp.status_code})")
        return None

    soup = BeautifulSoup(resp.content, "html.parser")

    # Buscar el primer <a> que apunte a /portal_old/uploads/gacetas/*.pdf
    link = soup.find(
        "a",
        href=re.compile(r"^/portal_old/uploads/gacetas/.*\.pdf$")
    )

    if not link or not link.get("href"):
        print("‚ùå No se encontr√≥ ning√∫n enlace a PDF de Gaceta en la p√°gina.")
        return None

    href = link["href"]
    if href.startswith("/"):
        pdf_url = BASE_URL + href
    else:
        pdf_url = BASE_URL + "/" + href

    print(f"üîó PDF detectado: {pdf_url}")

    # Intentar deducir una fecha o usar la fecha de hoy en el nombre del archivo
    hoy = datetime.now()
    fecha_archivo = hoy.strftime("%Y%m%d")
    nombre_archivo = f"GACETA_CDMX_{fecha_archivo}.pdf"
    ruta_archivo = os.path.join(CARPETA_SALIDA, nombre_archivo)

    resp_pdf = requests.get(
        pdf_url,
        headers=HEADERS,
        timeout=60,
        verify=False
    )

    if resp_pdf.status_code == 200:
        # Checamos que tenga pinta de PDF
        if resp_pdf.content[:4] == b"%PDF":
            with open(ruta_archivo, "wb") as f:
                f.write(resp_pdf.content)
            print(f"‚úÖ Gaceta descargada: {ruta_archivo}")
            return ruta_archivo
        else:
            print("‚ùå La respuesta no parece un PDF (no empieza con %PDF).")
            print("üîç Primeros caracteres:", resp_pdf.content[:50])
            return None
    else:
        print(f"‚ùå Error al descargar el PDF (status {resp_pdf.status_code})")
        return None


if __name__ == "__main__":
    descargar_gaceta_reciente()

üìÑ Consultando listado de Gacetas en: https://data.consejeria.cdmx.gob.mx/index.php/gaceta
üîó PDF detectado: https://data.consejeria.cdmx.gob.mx/portal_old/uploads/gacetas/54b19eafe05742ba5b20bf5eaf52b685.pdf
‚úÖ Gaceta descargada: cdmx\GACETA_CDMX_20260127.pdf


In [9]:
import os
import re
import json
import requests
import urllib3

urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

BASE_URL = "https://data.consejeria.cdmx.gob.mx"
BUSQUEDA_URL = BASE_URL + "/BusquedaGaceta/"
ZKAU_URL = BASE_URL + "/BusquedaGaceta/zkau"

CARPETA_SALIDA = "gaceta_cdmx_reciente"
os.makedirs(CARPETA_SALIDA, exist_ok=True)

HEADERS = {
    "User-Agent": (
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
        "AppleWebKit/537.36 (KHTML, like Gecko) "
        "Chrome/120.0.0.0 Safari/537.36"
    ),
}


def extraer_dtid(html: str) -> str | None:
    """
    En el HTML de ZK suele venir algo tipo: zkdt('z_11O', ...
    Lo usamos para sacar el dtid actual de la sesi√≥n.
    """
    m = re.search(r"zkdt\('([^']+)'", html)
    if m:
        return m.group(1)
    return None


def obtener_url_pdf_mas_reciente() -> str | None:
    with requests.Session() as s:
        # 1Ô∏è‚É£ Abrir la p√°gina principal para iniciar sesi√≥n y obtener el HTML
        print(f"üìÑ Abriendo p√°gina de b√∫squeda: {BUSQUEDA_URL}")
        resp = s.get(BUSQUEDA_URL, headers=HEADERS, timeout=60, verify=False)

        if resp.status_code != 200:
            print(f"‚ùå No se pudo acceder a BusquedaGaceta (status {resp.status_code})")
            return None

        html = resp.text
        dtid = extraer_dtid(html)

        if not dtid:
            print("‚ùå No se pudo extraer dtid del HTML (no se encontr√≥ zkdt('...')).")
            return None

        print(f"‚ÑπÔ∏è dtid detectado: {dtid}")

        # 2Ô∏è‚É£ Simular el click en la imagen con id/uuid e29Pr
        #    (el que dispara la descarga de la Gaceta)
        data = {
            "dtid": dtid,
            "cmd_0": "onClick",
            "uuid_0": "e29Pr",  # ID del <img> que viste en DevTools
            "data_0": "{}",
        }

        headers_zkau = HEADERS.copy()
        headers_zkau.update({
            "Content-Type": "application/x-www-form-urlencoded;charset=UTF-8",
            "Referer": BUSQUEDA_URL,
            "X-Requested-With": "XMLHttpRequest",
        })

        print(f"üîó Llamando a zkau: {ZKAU_URL}")
        resp_zkau = s.post(ZKAU_URL, headers=headers_zkau, data=data,
                           timeout=60, verify=False)

        print("‚ÑπÔ∏è Status zkau:", resp_zkau.status_code)

        if resp_zkau.status_code != 200:
            print("‚ùå Error en zkau")
            print("üîç Respuesta:", resp_zkau.text[:300])
            return None

        texto = resp_zkau.text.strip()
        print("‚ÑπÔ∏è Respuesta zkau (primeros 200 caracteres):")
        print(texto[:200])

        # La respuesta es JSON del tipo:
        # {"rs":[["redirect",["http:\/\/data.consejeria.cdmx.gob.mx\/portal_old\/uploads\/gacetas\/HASH.pdf","_blank"]]],"rid":14}
        try:
            data_json = json.loads(texto)
        except json.JSONDecodeError:
            print("‚ùå No se pudo parsear JSON de zkau.")
            return None

        try:
            redirect_cmd = data_json["rs"][0]      # ["redirect", [ "url", "_blank" ]]
            url_pdf = redirect_cmd[1][0]          # "http:\/\/data.consejeria..."
        except (KeyError, IndexError, TypeError):
            print("‚ùå Formato inesperado en JSON de zkau.")
            return None

        # Limpiar barras
        url_pdf = url_pdf.replace("\\/", "/")
        if url_pdf.startswith("http://"):
            url_pdf = "https://" + url_pdf[len("http://"):]

        print(f"‚úÖ URL de la Gaceta detectada: {url_pdf}")
        return url_pdf


def descargar_pdf(url_pdf: str) -> str | None:
    nombre_archivo = os.path.basename(url_pdf)
    ruta_archivo = os.path.join(CARPETA_SALIDA, nombre_archivo)

    print(f"üì• Descargando PDF desde: {url_pdf}")
    resp = requests.get(url_pdf, headers=HEADERS, timeout=60, verify=False)

    if resp.status_code == 200 and resp.content[:4] == b"%PDF":
        with open(ruta_archivo, "wb") as f:
            f.write(resp.content)
        print(f"‚úÖ Gaceta descargada: {ruta_archivo}")
        return ruta_archivo

    print(f"‚ùå Error al descargar PDF (status {resp.status_code})")
    print("üîç Fragmento de respuesta:", resp.content[:200])
    return None


if __name__ == "__main__":
    url = obtener_url_pdf_mas_reciente()
    if url:
        descargar_pdf(url)


üìÑ Abriendo p√°gina de b√∫squeda: https://data.consejeria.cdmx.gob.mx/BusquedaGaceta/
‚ùå No se pudo extraer dtid del HTML (no se encontr√≥ zkdt('...')).
