In [1]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
import time
import os
import glob
import pandas as pd

tiempo_inicio_script = time.time() - 2

# ==========================================
# 1. CONFIGURACI√ìN DEL NAVEGADOR Y RUTAS
# ==========================================
opciones = webdriver.ChromeOptions()

# Definimos las rutas de trabajo
raw_dir = r"C:\Users\Edward\Desktop\Bancomext\Estatales\data\raw"
intermediate_dir = r"C:\Users\Edward\Desktop\Bancomext\Estatales\data\intermediate"

# Aseguramos que la carpeta intermediate exista
os.makedirs(intermediate_dir, exist_ok=True)

prefs = {"download.default_directory" : raw_dir}
opciones.add_experimental_option("prefs", prefs)

# Forzamos el idioma a espa√±ol
opciones.add_argument("--lang=es-MX") 

driver = webdriver.Chrome(options=opciones)
# Entramos al mismo enlace (nos dejar√° en la pesta√±a por defecto)
driver.get("https://public.tableau.com/app/profile/imss.cpe/viz/Histrico_4/Empleo_h?publish=yes")

wait = WebDriverWait(driver, 20)

# ==========================================
# 2. PREPARACI√ìN DEL DASHBOARD
# ==========================================
# A. Manejar el banner de cookies
try:
    print("Buscando banner de cookies...")
    btn_cookies = wait.until(EC.element_to_be_clickable((By.ID, "onetrust-accept-btn-handler")))
    btn_cookies.click()
    print("‚úÖ Cookies aceptadas.")
    time.sleep(1) 
except TimeoutException:
    print("‚ÑπÔ∏è No apareci√≥ el aviso de cookies.")

# B. Entrar al iFrame
print("Buscando el iFrame del dashboard...")
iframe = wait.until(EC.presence_of_element_located((By.TAG_NAME, "iframe")))
driver.switch_to.frame(iframe)

print("Esperando a que carguen los datos iniciales...")
time.sleep(5) # Pausa para asegurar que la tabla por defecto renderice bien

# ==========================================
# 3. EXTRACCI√ìN DIRECTA
# ==========================================
try:
    print("Iniciando secuencia de descarga...")
    xpath_btn_descarga = "//button[@data-tb-test-id='viz-viewer-toolbar-button-download']"
    btn_descarga = wait.until(EC.presence_of_element_located((By.XPATH, xpath_btn_descarga)))
    driver.execute_script("arguments[0].click();", btn_descarga)
    time.sleep(1) 

    xpath_crosstab = "//div[@data-tb-test-id='download-flyout-download-crosstab-MenuItem']"
    btn_crosstab = wait.until(EC.presence_of_element_located((By.XPATH, xpath_crosstab)))
    driver.execute_script("arguments[0].click();", btn_crosstab)
    time.sleep(2)
    
    # Nota: Si Tableau pide seleccionar qu√© hoja descargar antes de elegir CSV, 
    # tendremos que agregar un clic extra aqu√≠. Por ahora, asumimos flujo directo.

    print("Seleccionando formato CSV...")
    xpath_csv_label = "//label[@data-tb-test-id='crosstab-options-dialog-radio-csv-Label']"
    btn_csv = wait.until(EC.presence_of_element_located((By.XPATH, xpath_csv_label)))
    driver.execute_script("arguments[0].click();", btn_csv)
    time.sleep(1) 

    xpath_descarga_final = "//button[@data-tb-test-id='export-crosstab-export-Button']"
    btn_descarga_final = wait.until(EC.presence_of_element_located((By.XPATH, xpath_descarga_final)))
    driver.execute_script("arguments[0].click();", btn_descarga_final)

    print("üì• Descargando archivo maestro...")
    time.sleep(5) 
    print("‚úÖ Descarga completada.")

except Exception as e:
    print(f"‚ùå Error durante la descarga: {e}")

# ==========================================
# 4. PROCESAMIENTO Y LIMPIEZA CON PANDAS
# ==========================================
print("üîÑ Procesando y limpiando el archivo descargado...")
# 1. B√∫squeda quir√∫rgica del archivo descargado
prefijo_descarga = "Nacional" 

patron_busqueda = os.path.join(raw_dir, f"{prefijo_descarga}*.csv")
archivos_candidatos = glob.glob(patron_busqueda)

# Filtrar SOLO los creados/modificados DESPU√âS de que inici√≥ el script
archivos_validos = [f for f in archivos_candidatos if os.path.getmtime(f) >= tiempo_inicio_script]

if archivos_validos:
    archivo_reciente = max(archivos_validos, key=os.path.getmtime)
    
    # Leer el archivo (Tableau usa utf-16 y tabulaciones), saltando la fila 1
    df = pd.read_csv(
        archivo_reciente, 
        skiprows=1, 
        encoding='utf-16', 
        sep='\t'
    )
    
    # Renombrar las dos primeras columnas din√°micamente (√≠ndices 0 y 1)
    nuevos_nombres = {
        df.columns[0]: 'A√±o',
        df.columns[1]: 'Mes'
    }
    df.rename(columns=nuevos_nombres, inplace=True)
    
    # Eliminar el archivo temporal raw
    try:
        os.remove(archivo_reciente)
        print("üóëÔ∏è Archivo temporal eliminado de la carpeta raw.")
    except Exception as e:
        print(f"‚ö†Ô∏è No se pudo eliminar el archivo temporal: {e}")
        
    # Guardar en intermediate
    print("\nüíæ Guardando el consolidado en la carpeta intermediate...")
    # Le cambi√© el nombre a imss_empleo_nacional.csv para diferenciarlo del de salarios
    ruta_salida = os.path.join(intermediate_dir, "puestos_imss.csv") 
    
    df.to_csv(ruta_salida, index=False, encoding='utf-8-sig')
    print(f"‚úÖ ¬°√âxito! Archivo maestro guardado en:\n{ruta_salida}")

else:
    print("‚ö†Ô∏è No se detect√≥ ning√∫n archivo CSV descargado. Revisa el flujo de Selenium.")

# Cerrar el navegador
print("\nCerrando el navegador...")
driver.quit()

Buscando banner de cookies...
‚úÖ Cookies aceptadas.
Buscando el iFrame del dashboard...
Esperando a que carguen los datos iniciales...
Iniciando secuencia de descarga...
Seleccionando formato CSV...
üì• Descargando archivo maestro...
‚úÖ Descarga completada.
üîÑ Procesando y limpiando el archivo descargado...
üóëÔ∏è Archivo temporal eliminado de la carpeta raw.

üíæ Guardando el consolidado en la carpeta intermediate...
‚úÖ ¬°√âxito! Archivo maestro guardado en:
C:\Users\Edward\Desktop\Bancomext\Estatales\data\intermediate\puestos_imss.csv

Cerrando el navegador...
