In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import Select, WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options
import time
import os

# Configuración del navegador y directorio de descargas
download_dir = "descargas_pdfs"
if not os.path.exists(download_dir):
    os.makedirs(download_dir)

chrome_options = Options()
chrome_options.add_experimental_option("prefs", {
    "download.default_directory": os.path.abspath(download_dir),
    "download.prompt_for_download": False,
    "download.directory_upgrade": True,
    "plugins.always_open_pdf_externally": True
})
driver = webdriver.Chrome(options=chrome_options)

# URL del sitio web
url = "https://epidemiologia.salud.gob.mx/anuario/html/morbilidad_grupo.html"
driver.get(url)

# Pausa para cargar la página
wait = WebDriverWait(driver, 10)

# Años y géneros disponibles
years = range(1998, 2013)
genders = ["General", "Femenino", "Masculino"]  # Desde 2003

# Opciones válidas para el segundo filtro
valid_filters = [
    "veinte_principales_causas_enfermedad_grupo_edad",
    "veinte_principales_causas_enfermedad_nacional_grupo_edad"
]

# Función para construir el valor del primer filtro
def get_filter_value(year, gender):
    if gender == "General":
        return f"{year}"
    else:  # Femenino y Masculino entre 2003 y 2012
        offset = 400 if year == 2003 else (year - 2000) * 100
        return f"{offset + (0 if gender == 'Femenino' else 1)}"

# Función para realizar el proceso completo
def download_pdfs():
    for year in years:
        current_genders = ["General"] if year <= 2002 else genders  # Sin géneros para 1998-2002
        for gender in current_genders:
            try:
                print(f"Procesando: {year} {gender}")

                # Paso 1: Seleccionar año/género en el primer filtro
                wait.until(EC.visibility_of_element_located((By.NAME, "anio")))
                select_year = Select(driver.find_element(By.NAME, "anio"))
                select_value = get_filter_value(year, gender)
                select_year.select_by_value(select_value)
                wait.until(EC.element_to_be_clickable((By.NAME, "BotonAceptar"))).click()
                time.sleep(3)

                # Paso 2: Activar el formulario correspondiente
                form_name = f"form_{select_value}"
                form = driver.find_element(By.NAME, form_name)
                driver.execute_script("arguments[0].style.visibility = 'visible';", form)

                # Paso 3: Seleccionar el filtro válido en "Nacional"
                select_filter = Select(form.find_element(By.NAME, "Nacional"))
                available_filters = [option.get_attribute("value") for option in select_filter.options]
                filter_value = next((f for f in valid_filters if f in available_filters), None)

                if not filter_value:
                    print(f"Advertencia: No se encontró un filtro válido para {year} {gender}")
                    continue

                select_filter.select_by_value(filter_value)
                form.find_element(By.NAME, "BotonAceptar").click()
                time.sleep(5)

                # Descargar el PDF desde la nueva pestaña
                driver.switch_to.window(driver.window_handles[1])  # Cambiar a la nueva pestaña
                time.sleep(3)
                driver.close()  # Cerrar la pestaña del PDF
                driver.switch_to.window(driver.window_handles[0])  # Volver a la pestaña principal

                # Refrescar la página original
                driver.refresh()
                time.sleep(5)

            except Exception as e:
                print(f"Error al procesar {year} {gender}: {e}")
                driver.refresh()  # Refrescar la página en caso de error
                time.sleep(5)

# Llamar a la función para comenzar
try:
    download_pdfs()
finally:
    driver.quit()


Procesando: 1998 General
Error al procesar 1998 General: list index out of range
Procesando: 1999 General
Error al procesar 1999 General: list index out of range
Procesando: 2000 General
Error al procesar 2000 General: list index out of range
Procesando: 2001 General
Error al procesar 2001 General: list index out of range
Procesando: 2002 General
Error al procesar 2002 General: list index out of range
Procesando: 2003 General
Error al procesar 2003 General: list index out of range
Procesando: 2003 Femenino
Error al procesar 2003 Femenino: Message: Cannot locate option with value: 400; For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#no-such-element-exception

Procesando: 2003 Masculino
Error al procesar 2003 Masculino: Message: Cannot locate option with value: 401; For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#no-such-element-exception

Procesan

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import Select, WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options
import time
import os

# Configuración del navegador y directorio de descargas
download_dir = "descargas_pdfs"
if not os.path.exists(download_dir):
    os.makedirs(download_dir)

chrome_options = Options()
chrome_options.add_experimental_option("prefs", {
    "download.default_directory": os.path.abspath(download_dir),
    "download.prompt_for_download": False,
    "download.directory_upgrade": True,
    "plugins.always_open_pdf_externally": True
})
driver = webdriver.Chrome(options=chrome_options)

# URL del sitio web
url = "https://epidemiologia.salud.gob.mx/anuario/html/morbilidad_grupo.html"
driver.get(url)

# Pausa para cargar la página
wait = WebDriverWait(driver, 10)

# Años y géneros disponibles
years = range(2003, 2010)
genders = ["General", "Femenino", "Masculino"]

# Opciones válidas para el segundo filtro
valid_filters = [
    "veinte_principales_causas_enfermedad_grupo_edad",
    "veinte_principales_causas_enfermedad_nacional_grupo_edad"
]

def get_filter_value(year, gender):
    if gender == "General":
        return f"{year}"
    elif year == 2003:  # Caso especial para 2003
        return f"5000" if gender == "Femenino" else f"5001"
    elif year == 2004:  # Caso especial para 2003
        return f"6000" if gender == "Femenino" else f"6001"
    elif year == 2005:  # Caso especial para 2003
        return f"7000" if gender == "Femenino" else f"7001"
    elif year == 2006:  # Caso especial para 2003
        return f"8000" if gender == "Femenino" else f"8001"
    elif year == 2007:  # Caso especial para 2003
        return f"9000" if gender == "Femenino" else f"9001"
    elif year == 2008:  # Caso especial para 2003
        return f"1000" if gender == "Femenino" else f"1001"
    elif year == 2009:  # Caso especial para 2003
        return f"1100" if gender == "Femenino" else f"1101"
    elif year >= 2010:  # Años ≥ 2010
        offset = (year - 2000) * 100
    else:  # Años 2004-2009
        offset = (year - 2000) * 100
    return f"{offset + (0 if gender == 'Femenino' else 1)}"

# Función para realizar el proceso completo
def download_pdfs():
    for year in years:
        current_genders = ["General"] if year <= 2002 else genders  # Sin géneros para 1998-2002
        for gender in current_genders:
            try:
                print(f"Procesando: {year} {gender}")

                # Paso 1: Seleccionar año/género en el primer filtro
                wait.until(EC.visibility_of_element_located((By.NAME, "anio")))
                select_year = Select(driver.find_element(By.NAME, "anio"))
                select_value = get_filter_value(year, gender)
                select_year.select_by_value(select_value)
                wait.until(EC.element_to_be_clickable((By.NAME, "BotonAceptar"))).click()
                time.sleep(3)

                # Paso 2: Activar el formulario correspondiente
                form_name = f"form_{select_value}"
                form = driver.find_element(By.NAME, form_name)
                driver.execute_script("arguments[0].style.visibility = 'visible';", form)

                # Paso 3: Seleccionar el filtro válido en "Nacional"
                select_filter = Select(form.find_element(By.NAME, "Nacional"))
                available_filters = [option.get_attribute("value") for option in select_filter.options]
                filter_value = next((f for f in valid_filters if f in available_filters), None)

                if not filter_value:
                    print(f"Advertencia: No se encontró un filtro válido para {year} {gender}")
                    continue

                select_filter.select_by_value(filter_value)
                form.find_element(By.NAME, "BotonAceptar").click()
                time.sleep(5)

                # Descargar el PDF desde la nueva pestaña
                driver.switch_to.window(driver.window_handles[1])  # Cambiar a la nueva pestaña
                time.sleep(3)
                driver.close()  # Cerrar la pestaña del PDF
                driver.switch_to.window(driver.window_handles[0])  # Volver a la pestaña principal

                # Refrescar la página original
                driver.refresh()
                time.sleep(5)

            except Exception as e:
                print(f"Error al procesar {year} {gender}: {e}")
                driver.refresh()  # Refrescar la página en caso de error
                time.sleep(5)

# Llamar a la función para comenzar
try:
    download_pdfs()
finally:
    driver.quit()



Procesando: 2003 General
Error al procesar 2003 General: list index out of range
Procesando: 2003 Femenino
Error al procesar 2003 Femenino: list index out of range
Procesando: 2003 Masculino
Error al procesar 2003 Masculino: list index out of range
Procesando: 2004 General
Error al procesar 2004 General: list index out of range
Procesando: 2004 Femenino
Error al procesar 2004 Femenino: list index out of range
Procesando: 2004 Masculino
Error al procesar 2004 Masculino: list index out of range
Procesando: 2005 General
Error al procesar 2005 General: list index out of range
Procesando: 2005 Femenino
Error al procesar 2005 Femenino: list index out of range
Procesando: 2005 Masculino
Error al procesar 2005 Masculino: list index out of range
Procesando: 2006 General
Error al procesar 2006 General: list index out of range
Procesando: 2006 Femenino
Error al procesar 2006 Femenino: list index out of range
Procesando: 2006 Masculino
Error al procesar 2006 Masculino: list index out of range
Proc