In [None]:
import os
import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver.support.ui import Select, WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from datetime import datetime

# Carpeta con formato DD-MM-YYYY
fecha_carpeta = datetime.now().strftime("%d-%m-%Y")
save_dir = os.path.join(os.getcwd(), f"SBS-RETASAS-{fecha_carpeta}")
os.makedirs(save_dir, exist_ok=True)

chrome_options = webdriver.ChromeOptions()
# chrome_options.add_argument("--headless")  # Opcional
driver = webdriver.Chrome(options=chrome_options)
wait = WebDriverWait(driver, 20)

base_url = "https://www.sbs.gob.pe/app/retasas/paginas/retasasInicio.aspx?p=D"
driver.get(base_url)

def get_options_text(id_select):
    select = Select(wait.until(EC.presence_of_element_located((By.ID, id_select))))
    opciones = [o.text.strip() for o in select.options if o.get_attribute("value").strip() != ""]
    print(f"Opciones de {id_select}: {opciones}")
    return opciones

def select_option(id_select, texto):
    select = Select(wait.until(EC.element_to_be_clickable((By.ID, id_select))))
    opciones = [o.text.strip() for o in select.options if o.get_attribute("value").strip() != ""]
    coincidencias = [opcion for opcion in opciones if texto.lower() in opcion.lower()]
    if not coincidencias:
        print(f"Opción '{texto}' no encontrada en {id_select}. Opciones disponibles: {opciones}")
        raise Exception(f"Opción '{texto}' no está en el select {id_select}")
    print(f"Seleccionando {coincidencias[0]} en {id_select}")
    select.select_by_visible_text(coincidencias[0])
    time.sleep(2)

def extraer_tabla_manual(driver):
    print("Extrayendo tabla...")
    table = wait.until(EC.presence_of_element_located((By.ID, "myTable")))
    thead = table.find_element(By.TAG_NAME, "thead")
    encabezados = [th.text.strip() for th in thead.find_elements(By.TAG_NAME, "th")]
    tbody = table.find_element(By.TAG_NAME, "tbody")
    filas = tbody.find_elements(By.TAG_NAME, "tr")
    datos = []
    for fila in filas:
        celdas = fila.find_elements(By.TAG_NAME, "td")
        fila_texto = [celda.text.strip().replace('%','').strip() for celda in celdas]
        datos.append(fila_texto)
    df = pd.DataFrame(datos, columns=encabezados)
    print(f"Tabla extraída con {len(df)} filas y {len(df.columns)} columnas")
    return df

def ajustar_anchos(worksheet, df):
    worksheet.set_column(0, 0, 20)
    worksheet.set_column(1, 1, 50)
    for i, col in enumerate(df.columns):
        max_len = max(df[col].astype(str).map(len).max(), len(col)) + 2
        worksheet.set_column(i, i, max_len)

# Inicio del recorrido
regiones = get_options_text("ddlDepartamento")

for region in regiones:
    select_option("ddlDepartamento", region)
    tipos_operacion = get_options_text("ddlTipoProducto")

    for tipo in tipos_operacion:
        select_option("ddlTipoProducto", tipo)
        productos = get_options_text("ddlProducto")

        for producto in productos:
            select_option("ddlProducto", producto)

            # Esperar a que ddlCondicion se actualice
            WebDriverWait(driver, 10).until(
                lambda d: len(get_options_text("ddlCondicion")) > 0
            )

            condiciones = get_options_text("ddlCondicion")

            if not condiciones:
                print(f"No hay condiciones para: {region} - {tipo} - {producto}, se omite.")
                continue

            for condicion in condiciones:
                try:
                    select_option("ddlCondicion", condicion)
                except Exception as e:
                    print(f"Salteando condición no encontrada: {condicion} | {e}")
                    continue

                btn_consultar = wait.until(EC.element_to_be_clickable((By.ID, "btnConsultar")))
                btn_consultar.click()
                print(f"Consultando: {region} - {tipo} - {producto} - {condicion}")
                time.sleep(4)

                wait.until(EC.frame_to_be_available_and_switch_to_it((By.ID, "ifrmContendedor")))

                try:
                    df = extraer_tabla_manual(driver)
                except Exception as e:
                    print(f"Error extrayendo tabla: {e}")
                    driver.switch_to.default_content()
                    driver.get(base_url)
                    # Re-seleccionar opciones después de recargar
                    wait.until(EC.presence_of_element_located((By.ID, "ddlDepartamento")))
                    wait.until(EC.presence_of_element_located((By.ID, "ddlTipoProducto")))
                    wait.until(EC.presence_of_element_located((By.ID, "ddlProducto")))
                    # Volver a seleccionar la región, tipo y producto actual
                    select_option("ddlDepartamento", region)
                    select_option("ddlTipoProducto", tipo)
                    select_option("ddlProducto", producto)
                    continue

                driver.switch_to.default_content()

                if df.empty:
                    print(f"Tabla vacía para {region}, {tipo}, {producto}, {condicion}, se omite guardar.")
                    driver.get(base_url)
                    # Re-seleccionar opciones después de recargar
                    wait.until(EC.presence_of_element_located((By.ID, "ddlDepartamento")))
                    wait.until(EC.presence_of_element_located((By.ID, "ddlTipoProducto")))
                    wait.until(EC.presence_of_element_located((By.ID, "ddlProducto")))
                    # Volver a seleccionar la región, tipo y producto actual
                    select_option("ddlDepartamento", region)
                    select_option("ddlTipoProducto", tipo)
                    select_option("ddlProducto", producto)
                    continue

                fecha_str = datetime.now().strftime("%d-%m-%Y")
                nombre_archivo = f"{fecha_str}-{region}-{tipo}-{producto}-{condicion}"
                for ch in [' ', '$', '.', ',', '|', '/']:
                    nombre_archivo = nombre_archivo.replace(ch, "-")
                if not nombre_archivo.lower().endswith(".xlsx"):
                    nombre_archivo += ".xlsx"

                ruta_guardado = os.path.join(save_dir, nombre_archivo)

                try:
                    with pd.ExcelWriter(ruta_guardado, engine='xlsxwriter') as writer:
                        workbook  = writer.book
                        worksheet = workbook.add_worksheet('Datos')
                        writer.sheets['Datos'] = worksheet

                        encabezados_personalizados = [
                            ['DEPARTAMENTO:', region],
                            ['TIPO DE PRODUCTO:', tipo],
                            ['PRODUCTO:', producto],
                            ['CONDICION:', condicion],
                            ['FECHA:', fecha_str]
                        ]
                        for i, row in enumerate(encabezados_personalizados):
                            worksheet.write(i, 0, row[0])
                            worksheet.write(i, 1, row[1])

                        df.to_excel(writer, sheet_name='Datos', startrow=6, index=False)
                        ajustar_anchos(worksheet, df)

                    print(f"Guardado archivo con encabezado y anchos ajustados: {ruta_guardado}")
                except Exception as e:
                    print(f"Error guardando Excel: {e}")

                driver.get(base_url)
                # Re-seleccionar opciones después de recargar
                wait.until(EC.presence_of_element_located((By.ID, "ddlDepartamento")))
                wait.until(EC.presence_of_element_located((By.ID, "ddlTipoProducto")))
                wait.until(EC.presence_of_element_located((By.ID, "ddlProducto")))
                # Volver a seleccionar la región, tipo y producto actual
                select_option("ddlDepartamento", region)
                select_option("ddlTipoProducto", tipo)
                select_option("ddlProducto", producto)

driver.quit()

