## Extracci√≥n: Montos Programaci√≥n del monto de inversi√≥n (S/) del PMI

In [None]:
import pandas as pd
import time
import os
from selenium import webdriver
from selenium.webdriver import Chrome
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait as Wait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from webdriver_manager.chrome import ChromeDriverManager

# ================================================================
# CONFIGURACI√ìN OPTIMIZADA
# ================================================================
RUTA_ENTRADA = r"C:\Users\user\Downloads\mef1.xlsx"
RUTA_SALIDA = r"C:\Users\user\Downloads\CUI DATOS PMI Y OPMI.xlsx"
MAX_REINTENTOS = 2
MODO_VISIBLE = True
GUARDAR_CADA = 5

TIMEOUT_PAGINA = 20
TIMEOUT_ELEMENTO = 10

# ================================================================
# FUNCIONES DE CHECKPOINT
# ================================================================
def cargar_progreso():
    """Carga progreso previo si existe"""
    if os.path.exists(RUTA_SALIDA):
        try:
            df = pd.read_excel(RUTA_SALIDA)
            print(f"üì• Progreso encontrado: {len(df)} CUIs ya procesados")
            return df.to_dict('records')
        except:
            pass
    return []

def obtener_pendientes(completa, procesados):
    """Calcula SOLO CUIs nunca procesados (NO reintentar NO DISPONIBLE)"""
    if not procesados:
        print(f"üìã Todos los CUIs pendientes: {len(completa)}")
        return completa, []
    
    procesados_dict = {str(r['CUI']): r for r in procesados}
    cuis_nuevos = [cui for cui in completa if str(cui) not in procesados_dict]
    
    if cuis_nuevos:
        print(f"üìã CUIs pendientes: {len(cuis_nuevos)}")
    
    return cuis_nuevos, procesados_dict

def guardar(resultados):
    """Guarda progreso"""
    try:
        pd.DataFrame(resultados).to_excel(RUTA_SALIDA, index=False)
    except Exception as e:
        print(f"‚ö†Ô∏è Error guardando: {e}")

# ================================================================
# LEER CUIs
# ================================================================
print("üìÇ Cargando CUIs...")
df_cui = pd.read_excel(RUTA_ENTRADA)
lista_completa = df_cui['CUI'].astype(str).tolist()

resultados_previos = cargar_progreso()
lista_cuis, procesados_dict = obtener_pendientes(lista_completa, resultados_previos)

if not lista_cuis:
    print("üéâ ¬°Todos los CUIs ya fueron procesados!")
    exit()

resultados = resultados_previos.copy()

# ================================================================
# CONFIGURAR NAVEGADOR OPTIMIZADO
# ================================================================
def crear_driver():
    service = Service(ChromeDriverManager().install())
    options = webdriver.ChromeOptions()

    if not MODO_VISIBLE:
        options.add_argument("--headless=new")
    else:
        options.add_argument("--start-maximized")

    options.add_argument("--disable-gpu")
    options.add_argument("--no-sandbox")
    options.add_argument("--disable-dev-shm-usage")
    options.add_argument("--disable-extensions")
    options.add_argument("--disable-blink-features=AutomationControlled")
    options.add_argument("--disable-logging")
    options.add_argument("--log-level=3")
    options.add_argument("--silent")

    prefs = {
        "profile.managed_default_content_settings.images": 2,
        "profile.default_content_setting_values.notifications": 2,
        "profile.default_content_setting_values.media_stream": 2,
        "profile.default_content_setting_values.geolocation": 2,
    }
    options.add_experimental_option("prefs", prefs)
    options.add_experimental_option('excludeSwitches', ['enable-logging'])
    options.page_load_strategy = 'normal'

    driver = Chrome(service=service, options=options)
    driver.set_page_load_timeout(TIMEOUT_PAGINA)
    driver.set_script_timeout(15)
    return driver

driver = crear_driver()
print(f"‚ö° Procesando {len(lista_cuis)} CUIs pendientes\n")

# ================================================================
# VERIFICAR SI CUI EXISTE EN PMI
# ================================================================
def cui_existe_en_pmi(driver):
    """Verifica si la p√°gina muestra un CUI v√°lido o un error"""
    try:
        page_text = driver.find_element(By.TAG_NAME, "body").text.lower()
        
        errores = [
            "no se encontr√≥",
            "no existe",
            "no hay informaci√≥n",
            "sin registros",
            "c√≥digo √∫nico de inversi√≥n no v√°lido",
            "cui no v√°lido"
        ]
        
        for error in errores:
            if error in page_text:
                return False
        
        if len(page_text.strip()) < 100:
            return False
        
        try:
            # Verificar que exista la tabla #tblResultado con datos
            tabla = driver.find_element(By.ID, "tblResultado")
            tbody = tabla.find_element(By.TAG_NAME, "tbody")
            filas = tbody.find_elements(By.TAG_NAME, "tr")
            
            if len(filas) == 0:
                return False
                
        except:
            return False
        
        return True
        
    except Exception as e:
        return False

# ================================================================
# EXTRACCI√ìN DE DATOS PMI - BASADO EN HTML REAL
# ================================================================
def extraer_datos_pmi(driver):
    """
    Extrae datos de la tabla #tblResultado seg√∫n estructura HTML:
    Columna 4 (√≠ndice 3): OPMI
    Columna 13 (√≠ndice 12): Monto a√±o 2026
    Columna 14 (√≠ndice 13): Monto a√±o 2027
    Columna 15 (√≠ndice 14): Monto a√±o 2028
    Columna 16 (√≠ndice 15): Monto a√±o 2029
    """
    try:
        # Esperar a que la tabla cargue completamente
        time.sleep(2)
        
        # Obtener la tabla
        tabla = driver.find_element(By.ID, "tblResultado")
        tbody = tabla.find_element(By.TAG_NAME, "tbody")
        fila = tbody.find_element(By.TAG_NAME, "tr")
        celdas = fila.find_elements(By.TAG_NAME, "td")
        
        # Validar que tenga suficientes columnas
        if len(celdas) < 16:
            print(f"‚ö†Ô∏è Solo {len(celdas)} columnas (se esperaban 16+)", end=" ")
            return None
        
        # Extraer datos por √≠ndice de columna
        datos = {
            'opmi': celdas[3].text.strip() if celdas[3].text.strip() else 'NO DISPONIBLE',
            'monto_2026': celdas[12].text.strip() if celdas[12].text.strip() else 'NO DISPONIBLE',
            'monto_2027': celdas[13].text.strip() if celdas[13].text.strip() else 'NO DISPONIBLE',
            'monto_2028': celdas[14].text.strip() if celdas[14].text.strip() else 'NO DISPONIBLE',
            'monto_2029': celdas[15].text.strip() if celdas[15].text.strip() else 'NO DISPONIBLE'
        }
        
        # Verificar que al menos se obtuvo OPMI
        if datos['opmi'] == 'NO DISPONIBLE':
            print(f"‚ö†Ô∏è OPMI vac√≠o", end=" ")
            return None
        
        # Validar que tenga al menos un monto v√°lido
        montos_validos = sum(1 for k, v in datos.items() if k.startswith('monto') and v != 'NO DISPONIBLE' and v != '0.0')
        
        if montos_validos == 0:
            print(f"‚ö†Ô∏è Sin montos v√°lidos", end=" ")
            # A√∫n as√≠ retornamos los datos con OPMI
        
        return datos

    except Exception as e:
        print(f"‚ö†Ô∏è Error extracci√≥n: {str(e)[:40]}", end=" ")
        return None

# ================================================================
# PROCESAR CUI
# ================================================================
def procesar_cui(cui, intento=1):
    try:
        url = f"https://ofi5.mef.gob.pe/invierte/pmi/consultapmi?cui={cui}"
        driver.get(url)
        
        Wait(driver, TIMEOUT_ELEMENTO).until(
            EC.presence_of_element_located((By.TAG_NAME, "body"))
        )
        time.sleep(1.5)
        
        # PRIMERO: Verificar si el CUI existe
        if not cui_existe_en_pmi(driver):
            return None, "CUI_NO_EXISTE"

        # SEGUNDO: Intentar extraer datos
        datos = extraer_datos_pmi(driver)
        
        if not datos:
            if intento < MAX_REINTENTOS:
                print(f"üîÑ{intento+1}...", end=" ")
                time.sleep(1)
                return procesar_cui(cui, intento + 1)
            else:
                return None, "ERROR_EXTRACCION"
        
        return datos, "EXITO"

    except Exception as e:
        if intento < MAX_REINTENTOS:
            print(f"üîÑ{intento+1}...", end=" ")
            time.sleep(1)
            return procesar_cui(cui, intento + 1)
        else:
            return None, "ERROR_CONEXION"

# ================================================================
# ACTUALIZAR O AGREGAR RESULTADO
# ================================================================
def actualizar_resultado(cui, datos):
    """Actualiza un CUI existente o agrega uno nuevo"""
    for i, r in enumerate(resultados):
        if str(r['CUI']) == str(cui):
            resultados[i] = {
                "CUI": cui,
                "OPMI": datos['opmi'],
                "Monto a√±o 2026": datos['monto_2026'],
                "Monto a√±o 2027": datos['monto_2027'],
                "Monto a√±o 2028": datos['monto_2028'],
                "Monto a√±o 2029": datos['monto_2029']
            }
            return
    
    resultados.append({
        "CUI": cui,
        "OPMI": datos['opmi'],
        "Monto a√±o 2026": datos['monto_2026'],
        "Monto a√±o 2027": datos['monto_2027'],
        "Monto a√±o 2028": datos['monto_2028'],
        "Monto a√±o 2029": datos['monto_2029']
    })

def agregar_fallo(cui):
    """Agrega un CUI como fallido"""
    for r in resultados:
        if str(r['CUI']) == str(cui):
            return
    
    resultados.append({
        "CUI": cui,
        "OPMI": "NO DISPONIBLE",
        "Monto a√±o 2026": "NO DISPONIBLE",
        "Monto a√±o 2027": "NO DISPONIBLE",
        "Monto a√±o 2028": "NO DISPONIBLE",
        "Monto a√±o 2029": "NO DISPONIBLE"
    })

# ================================================================
# LOOP PRINCIPAL
# ================================================================
tiempo_inicio = time.time()
exitosos = 0
fallos_no_existe = 0
fallos_otros = 0

print(f"{'='*60}")
print(f"Inicio: {time.strftime('%H:%M:%S')}")
print(f"{'='*60}\n")

try:
    for idx, cui in enumerate(lista_cuis, 1):
        t_inicio = time.time()
        
        print(f"üÜï [{idx}/{len(lista_cuis)}] {cui}:", end=" ")
        
        try:
            datos, estado = procesar_cui(cui)
            
            if estado == "EXITO":
                actualizar_resultado(cui, datos)
                exitosos += 1
                # Mostrar resumen del dato extra√≠do
                opmi_corto = datos['opmi'][:30] + "..." if len(datos['opmi']) > 30 else datos['opmi']
                print(f"‚úÖ {opmi_corto} ({time.time()-t_inicio:.1f}s)")
                
            elif estado == "CUI_NO_EXISTE":
                agregar_fallo(cui)
                fallos_no_existe += 1
                print(f"‚ö™ No existe en PMI ({time.time()-t_inicio:.1f}s)")
                
            else:
                agregar_fallo(cui)
                fallos_otros += 1
                print(f"‚ùå {estado} ({time.time()-t_inicio:.1f}s)")
            
        except Exception as e:
            agregar_fallo(cui)
            fallos_otros += 1
            print(f"‚ùå Error: {str(e)[:30]} ({time.time()-t_inicio:.1f}s)")

        # GUARDAR CADA N CUIs
        if (idx % GUARDAR_CADA == 0) or (idx == len(lista_cuis)):
            guardar(resultados)
            if idx % GUARDAR_CADA == 0:
                print(f"   üíæ Guardado")

        # Progreso cada 10 CUIs
        if idx % 10 == 0:
            t = time.time() - tiempo_inicio
            prom = t / idx
            eta = (len(lista_cuis) - idx) * prom
            total_fallos = fallos_no_existe + fallos_otros
            print(f"\n   üìä ‚úÖ{exitosos} ‚ö™{fallos_no_existe} ‚ùå{fallos_otros} | {t:.0f}s | ETA:{eta:.0f}s\n")

except KeyboardInterrupt:
    print("\n\n‚ö†Ô∏è INTERRUMPIDO")
    guardar(resultados)
    driver.quit()
    print(f"üíæ Progreso guardado. Ejecuta nuevamente para continuar.")
    exit()

# ================================================================
# FINALIZAR
# ================================================================
driver.quit()
guardar(resultados)

tiempo_total = time.time() - tiempo_inicio

print(f"\n{'='*60}")
print("üèÅ COMPLETADO")
print(f"{'='*60}")
print(f"üìä Total procesados en sesi√≥n: {len(lista_cuis)}")
print(f"‚úÖ Exitosos: {exitosos}")
print(f"‚ö™ CUI no existe en PMI: {fallos_no_existe}")
print(f"‚ùå Otros errores: {fallos_otros}")
print(f"‚è±Ô∏è Tiempo: {tiempo_total:.1f}s ({tiempo_total/60:.1f} min)")
print(f"üíæ Archivo: {RUTA_SALIDA}")

# Estad√≠sticas finales del archivo completo
df_final = pd.DataFrame(resultados)
total_exitosos = len(df_final[df_final['OPMI'] != 'NO DISPONIBLE'])
total_fallidos = len(df_final[df_final['OPMI'] == 'NO DISPONIBLE'])

print(f"\nüìä ESTAD√çSTICAS TOTALES DEL ARCHIVO:")
print(f"   Total CUIs: {len(df_final)}")
print(f"   ‚úÖ Con datos: {total_exitosos} ({total_exitosos/len(df_final)*100:.1f}%)")
print(f"   ‚ö™ Sin datos (no existen): {total_fallidos} ({total_fallidos/len(df_final)*100:.1f}%)")

# An√°lisis de montos
if total_exitosos > 0:
    print(f"\nüìä AN√ÅLISIS DE MONTOS:")
    for anio in ['2026', '2027', '2028', '2029']:
        col = f'Monto a√±o {anio}'
        con_monto = len(df_final[(df_final[col] != 'NO DISPONIBLE') & (df_final[col] != '0.0')])
        print(f"   ‚Ä¢ {anio}: {con_monto} CUIs con monto ({con_monto/total_exitosos*100:.1f}%)")

print(f"{'='*60}")