# Proyecto NLP - Diario El Peruano
## Extracción de Entidades y Análisis Temporal

**Autor:** [Nombre]  
**Curso:** Procesamiento de Lenguaje Natural  
**Fecha:** Noviembre 2025

---

## Contenido del Notebook

1. **Instalación de dependencias**
2. **Scraping de boletines**
3. **Extracción de texto**
4. **NER (Named Entity Recognition)**
5. **Análisis temporal**
6. **Visualizaciones**
7. **Conclusiones**

## PASO 1: Instalación de Dependencias

Ejecuta esta celda solo la primera vez:

In [1]:
# Instalar dependencias (ejecutar solo una vez)
!pip install requests beautifulsoup4 pandas pdfplumber spacy tqdm matplotlib seaborn
!python -m spacy download es_core_news_md




[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


Collecting es-core-news-md==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_md-3.8.0/es_core_news_md-3.8.0-py3-none-any.whl (42.3 MB)
     ---------------------------------------- 0.0/42.3 MB ? eta -:--:--
     - -------------------------------------- 1.8/42.3 MB 13.2 MB/s eta 0:00:04
     --- ------------------------------------ 3.4/42.3 MB 9.9 MB/s eta 0:00:04
     ---- ----------------------------------- 4.7/42.3 MB 8.3 MB/s eta 0:00:05
     ----- ---------------------------------- 5.5/42.3 MB 7.0 MB/s eta 0:00:06
     ------ --------------------------------- 6.6/42.3 MB 6.6 MB/s eta 0:00:06
     ------ --------------------------------- 7.3/42.3 MB 6.2 MB/s eta 0:00:06
     ------- -------------------------------- 8.4/42.3 MB 6.0 MB/s eta 0:00:06
     -------- ------------------------------- 9.2/42.3 MB 5.7 MB/s eta 0:00:06
     --------- ------------------------------ 9.7/42.3 MB 5.4 MB/s eta 0:00:07
     --------- ----------------------


[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


## PASO 2: Importar Librerías

In [2]:
import requests
from bs4 import BeautifulSoup
from pathlib import Path
from datetime import datetime, timedelta
import time
import pandas as pd
import pdfplumber
import json
import re
from collections import Counter
import spacy
import matplotlib.pyplot as plt
import seaborn as sns
from tqdm.notebook import tqdm
import warnings
warnings.filterwarnings('ignore')

# Configurar estilo de gráficos
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("husl")

print(" Librerías importadas correctamente")

 Librerías importadas correctamente


## PASO 3: Configuración

**IMPORTANTE**: Ajusta estas fechas según tus necesidades:

In [3]:
"""
# =========================
# CONFIGURACIÓN DEL PROYECTO  -  EN PAUSA
# =========================

# Fechas para descargar (MODIFICAR SEGÚN NECESITES)
# IMPORTANTE: Los fines de semana y feriados NO tienen publicación

# Opción 1: Últimos 7 días (PRUEBA)
#FECHA_FIN = datetime.now()
#FECHA_INICIO = FECHA_FIN - timedelta(days=7)

# Opción 2: Último mes (DESCOMENTAR SI QUIERES)
# FECHA_FIN = datetime.now()
# FECHA_INICIO = FECHA_FIN - timedelta(days=30)

# Opción 3: Fechas específicas (DESCOMENTAR SI QUIERES)
FECHA_INICIO = datetime(2025, 10, 1)
FECHA_FIN = datetime(2025, 10, 5)

# Carpetas
CARPETA_BOLETINES = Path("boletines")
CARPETA_TEXTOS = Path("textos")
CARPETA_GRAFICOS = Path("graficos")

# Crear carpetas
CARPETA_BOLETINES.mkdir(exist_ok=True)
CARPETA_TEXTOS.mkdir(exist_ok=True)
CARPETA_GRAFICOS.mkdir(exist_ok=True)

print(f" Período: {FECHA_INICIO.date()} a {FECHA_FIN.date()}")
print(f" Carpetas creadas: {CARPETA_BOLETINES}, {CARPETA_TEXTOS}, {CARPETA_GRAFICOS}")
"""



## PASO 4: Descargar Boletines del Diario El Peru
**NOTA:** La URL puede necesitar ajustes. Verifica en https://www.elperuano.pe/

In [4]:
# =========================================================================
# SCRAPER MULTI-MES - DIARIO EL PERUANO
# Descarga boletines según solicitud de meses
# =========================================================================

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import Select
import time
from pathlib import Path
import requests
import re
import logging
from tqdm import tqdm
import random

# =========================================================================
# CONFIGURACIÓN
# =========================================================================

logging.basicConfig(
    filename='scraper_multimes.log',
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s'
)

console = logging.StreamHandler()
console.setLevel(logging.INFO)
logging.getLogger('').addHandler(console)


# =========================================================================
# FUNCIÓN DE DESCARGA MEJORADA
# =========================================================================

def descargar_pdf_mejorado(url, nombre_archivo, max_reintentos=3):
    """
    Descarga PDF con:
    - Verificación más permisiva
    - Headers completos
    - Timeouts más largos
    - Pausa aleatoria entre reintentos
    """
    
    for intento in range(1, max_reintentos + 1):
        try:
            # Headers COMPLETOS para parecer navegador real
            headers = {
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
                'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
                'Accept-Language': 'es-ES,es;q=0.9,en;q=0.8',
                'Accept-Encoding': 'gzip, deflate, br',
                'Connection': 'keep-alive',
                'Upgrade-Insecure-Requests': '1',
                'Referer': 'https://diariooficial.elperuano.pe/BoletinOficial',
            }
            
            # Timeout MÁS LARGO
            response = requests.get(
                url,
                timeout=120,  # 2 minutos
                headers=headers,
                stream=True,
                allow_redirects=True
            )
            
            if response.status_code == 200:
                # VERIFICACIÓN MÁS PERMISIVA
                content_type = response.headers.get('content-type', '').lower()
                
                # Aceptar tanto application/pdf COMO application/octet-stream
                es_pdf = (
                    'pdf' in content_type or
                    'octet-stream' in content_type or
                    'application/download' in content_type
                )
                
                if not es_pdf:
                    # Verificar por contenido (primeros bytes)
                    primeros_bytes = response.content[:4]
                    es_pdf_por_bytes = primeros_bytes == b'%PDF'
                    
                    if not es_pdf_por_bytes:
                        return {
                            'exito': False,
                            'tamaño_mb': 0,
                            'error': f'No es PDF (content-type: {content_type}, bytes: {primeros_bytes})'
                        }
                
                # Guardar
                with open(nombre_archivo, 'wb') as f:
                    for chunk in response.iter_content(chunk_size=8192):
                        if chunk:
                            f.write(chunk)
                
                tamaño_mb = nombre_archivo.stat().st_size / (1024 * 1024)
                
                # Verificar tamaño
                if tamaño_mb < 0.05:  # Más permisivo: 50 KB mínimo
                    nombre_archivo.unlink()
                    return {
                        'exito': False,
                        'tamaño_mb': tamaño_mb,
                        'error': f'Archivo muy pequeño ({tamaño_mb:.2f} MB)'
                    }
                
                # Verificar que sea PDF válido leyendo
                try:
                    with open(nombre_archivo, 'rb') as f:
                        primeros = f.read(4)
                        if primeros != b'%PDF':
                            nombre_archivo.unlink()
                            return {
                                'exito': False,
                                'tamaño_mb': tamaño_mb,
                                'error': f'Archivo corrupto (no empieza con %PDF)'
                            }
                except:
                    pass  # Si no se puede leer, asumir que está bien
                
                logging.info(f" Descargado: {nombre_archivo.name} ({tamaño_mb:.2f} MB)")
                
                return {
                    'exito': True,
                    'tamaño_mb': tamaño_mb,
                    'error': None
                }
            
            else:
                error_msg = f'HTTP {response.status_code}'
                
                if intento < max_reintentos:
                    # Pausa ALEATORIA (más humano)
                    espera = random.uniform(3, 7)  # Entre 3 y 7 segundos
                    logging.warning(f" {error_msg}, reintento {intento}/{max_reintentos} en {espera:.1f}s...")
                    time.sleep(espera)
                else:
                    return {'exito': False, 'tamaño_mb': 0, 'error': error_msg}
        
        except requests.exceptions.Timeout:
            error_msg = 'Timeout (120s)'
            
            if intento < max_reintentos:
                espera = random.uniform(5, 10)
                logging.warning(f" {error_msg}, reintento {intento}/{max_reintentos} en {espera:.1f}s...")
                time.sleep(espera)
            else:
                return {'exito': False, 'tamaño_mb': 0, 'error': error_msg}
        
        except Exception as e:
            error_msg = f'{type(e).__name__}: {str(e)[:40]}'
            
            if intento < max_reintentos:
                espera = random.uniform(3, 7)
                logging.warning(f" {error_msg}, reintento {intento}/{max_reintentos} en {espera:.1f}s...")
                time.sleep(espera)
            else:
                return {'exito': False, 'tamaño_mb': 0, 'error': error_msg}
    
    return {'exito': False, 'tamaño_mb': 0, 'error': 'Error desconocido'}


# =========================================================================
# SCRAPER PRINCIPAL
# =========================================================================

def scraper_ultra_robusto(año=2025, mes=4, max_descargas=30):
    """
    Scraper con pausas más largas y comportamiento más humano
    """
    
    logging.info(f"\n{'='*70}")
    logging.info(f" SCRAPER ULTRA-ROBUSTO - {mes}/{año}")
    logging.info(f"{'='*70}\n")
    
    carpeta_final = Path("boletinesmeses")
    carpeta_final.mkdir(exist_ok=True)
    
    # Chrome
    options = Options()
    options.add_argument("--headless")
    options.add_argument("--no-sandbox")
    options.add_argument("--disable-dev-shm-usage")
    
    # User agent más reciente
    options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36")
    
    driver = None
    
    try:
        driver = webdriver.Chrome(options=options)
        
        url = "https://diariooficial.elperuano.pe/BoletinOficial"
        logging.info(f" Navegando a: {url}")
        driver.get(url)
        time.sleep(5)
        
        # Seleccionar año
        logging.info(f" Seleccionando año: {año}...")
        select_año_element = driver.find_element(By.ID, "ddwANO")
        select_año = Select(select_año_element)
        select_año.select_by_value(str(año))
        driver.execute_script("""
            arguments[0].dispatchEvent(new Event('change', { bubbles: true }));
        """, select_año_element)
        time.sleep(2)
        
        # Seleccionar mes
        mes_value = f"{mes:02d}"
        logging.info(f" Seleccionando mes: {mes_value}...")
        select_mes_element = driver.find_element(By.ID, "ddwMES")
        select_mes = Select(select_mes_element)
        select_mes.select_by_value(mes_value)
        driver.execute_script("""
            arguments[0].dispatchEvent(new Event('change', { bubbles: true }));
        """, select_mes_element)
        time.sleep(2)
        
        # Buscar botón
        try:
            boton = driver.find_element(By.XPATH, "//button[contains(text(), 'Buscar')]")
            driver.execute_script("arguments[0].click();", boton)
            logging.info(f" Click en Buscar")
        except:
            logging.warning(f" No se encontró botón Buscar")
        
        time.sleep(10)
        
        # Buscar botones
        botones = driver.find_elements(By.XPATH, "//a[contains(text(),'Descarga')]")
        logging.info(f" Encontrados {len(botones)} botones\n")
        
        if len(botones) == 0:
            driver.quit()
            return {'exitosos': 0, 'fallidos': 0, 'total': 0, 'errores': ['No se encontraron botones']}
        
        # Verificar fecha
        primer_boton = botones[0]
        onclick = primer_boton.get_attribute('onclick')
        if onclick:
            fecha_match = re.search(r"(\d{1,2})/(\d{1,2})/(\d{4})", onclick)
            if fecha_match:
                dia, mes_encontrado, año_encontrado = fecha_match.groups()
                logging.info(f" Primer boletín: {dia}/{mes_encontrado}/{año_encontrado}")
                
                if int(año_encontrado) != año or int(mes_encontrado) != mes:
                    logging.error(f" Fecha incorrecta!")
                    driver.quit()
                    return {'exitosos': 0, 'fallidos': 0, 'total': 0, 'errores': ['Fecha incorrecta']}
                else:
                    logging.info(f" Fecha correcta\n")
        
        # Extraer enlaces
        enlaces = []
        for i, boton in enumerate(botones, 1):
            try:
                href = boton.get_attribute('href')
                if href:
                    onclick = boton.get_attribute('onclick')
                    fecha = None
                    if onclick:
                        fecha_match = re.search(r"(\d{1,2})/(\d{1,2})/(\d{4})", onclick)
                        if fecha_match:
                            dia, mes_num, año_num = fecha_match.groups()
                            fecha = f"{año_num}{mes_num.zfill(2)}{dia.zfill(2)}"
                    
                    enlaces.append({'url': href, 'fecha': fecha, 'numero': i})
            except:
                pass
        
        logging.info(f" Enlaces extraídos: {len(enlaces)}\n")
        driver.quit()
        driver = None
        
        # Descargar
        logging.info(f" Descargando {min(len(enlaces), max_descargas)} boletines")
        logging.info(f" Con pausas largas para evitar bloqueos...\n")
        
        exitosos = 0
        errores = []
        
        for enlace in tqdm(enlaces[:max_descargas], desc="Descargando"):
            url_pdf = enlace['url']
            fecha = enlace.get('fecha')
            numero = enlace['numero']
            
            if fecha:
                nombre = carpeta_final / f"boletin_{fecha}.pdf"
            else:
                nombre = carpeta_final / f"boletin_{año}{mes:02d}{numero:02d}.pdf"
            
            if nombre.exists():
                exitosos += 1
                continue
            
            resultado = descargar_pdf_mejorado(url_pdf, nombre, max_reintentos=3)
            
            if resultado['exito']:
                tqdm.write(f" [{numero}] {nombre.name} ({resultado['tamaño_mb']:.2f} MB)")
                exitosos += 1
            else:
                tqdm.write(f" [{numero}] {nombre.name}: {resultado['error']}")
                errores.append({'archivo': nombre.name, 'error': resultado['error']})
            
            # PAUSA MÁS LARGA Y ALEATORIA (más humano)
            pausa = random.uniform(3, 6)  # Entre 3 y 6 segundos
            time.sleep(pausa)
        
        return {
            'exitosos': exitosos,
            'fallidos': len(errores),
            'total': min(len(enlaces), max_descargas),
            'errores': errores
        }
    
    except Exception as e:
        logging.error(f" Error: {e}")
        return {'exitosos': 0, 'fallidos': 0, 'total': 0, 'errores': [str(e)]}
    
    finally:
        if driver:
            try:
                driver.quit()
            except:
                pass


# =========================================================================
# LOOP MULTI-MES
# =========================================================================

def scraper_multiples_meses(año=2025, mes_inicio=4, mes_fin=11, max_descargas_por_mes=30):
    """
    Ejecuta el scraper para múltiples meses consecutivos
    """
    
    meses_nombres = {
        1: 'Enero', 2: 'Febrero', 3: 'Marzo', 4: 'Abril',
        5: 'Mayo', 6: 'Junio', 7: 'Julio', 8: 'Agosto',
        9: 'Septiembre', 10: 'Octubre', 11: 'Noviembre', 12: 'Diciembre'
    }
    
    print("\n" + "="*70)
    print(" SCRAPER MULTI-MES - DIARIO EL PERUANO")
    print("="*70)
    print(f"\n  Año: {año}")
    print(f" Meses: {mes_inicio} ({meses_nombres[mes_inicio]}) a {mes_fin} ({meses_nombres[mes_fin]})")
    print(f" Max descargas por mes: {max_descargas_por_mes}")
    print("\n" + "="*70 + "\n")
    
    # Diccionario para guardar resultados
    resultados_totales = {
        'exitosos_total': 0,
        'fallidos_total': 0,
        'por_mes': {}
    }
    
    # Loop por cada mes
    for mes in range(mes_inicio, mes_fin + 1):
        
        print(f"\n{'='*70}")
        print(f" PROCESANDO: {meses_nombres[mes]} {año} (Mes {mes})")
        print("="*70 + "\n")
        
        try:
            # Ejecutar scraper para este mes
            resultado = scraper_ultra_robusto(
                año=año, 
                mes=mes, 
                max_descargas=max_descargas_por_mes
            )
            
            # Guardar resultados
            resultados_totales['por_mes'][mes] = {
                'nombre': meses_nombres[mes],
                'exitosos': resultado['exitosos'],
                'fallidos': resultado['fallidos'],
                'total': resultado['total'],
                'errores': resultado.get('errores', [])
            }
            
            resultados_totales['exitosos_total'] += resultado['exitosos']
            resultados_totales['fallidos_total'] += resultado['fallidos']
            
            print(f"\n{'─'*70}")
            print(f" {meses_nombres[mes]}: {resultado['exitosos']}/{resultado['total']} exitosos, {resultado['fallidos']} fallidos")
            print(f"{'─'*70}")
            
            # Pausa entre meses para no saturar el servidor
            if mes < mes_fin:
                print(f"\n Pausando 15 segundos antes del siguiente mes...")
                time.sleep(15)
                
        except Exception as e:
            print(f"\n ERROR en {meses_nombres[mes]}: {e}")
            resultados_totales['por_mes'][mes] = {
                'nombre': meses_nombres[mes],
                'exitosos': 0,
                'fallidos': 0,
                'total': 0,
                'error': str(e)
            }
    
    # RESUMEN FINAL
    print("\n\n" + "="*70)
    print(" RESUMEN FINAL - TODOS LOS MESES")
    print("="*70 + "\n")
    
    for mes, datos in resultados_totales['por_mes'].items():
        if 'error' in datos:
            print(f" {datos['nombre']:12} - ERROR: {datos['error']}")
        else:
            porcentaje = (datos['exitosos'] / datos['total'] * 100) if datos['total'] > 0 else 0
            print(f" {datos['nombre']:12} - {datos['exitosos']:2}/{datos['total']:2} exitosos ({porcentaje:.1f}%) | {datos['fallidos']:2} fallidos")
    
    print("\n" + "─"*70)
    print(f" TOTAL EXITOSOS:  {resultados_totales['exitosos_total']}")
    print(f" TOTAL FALLIDOS:  {resultados_totales['fallidos_total']}")
    print(f" TOTAL DESCARGAS: {resultados_totales['exitosos_total'] + resultados_totales['fallidos_total']}")
    
    if resultados_totales['exitosos_total'] + resultados_totales['fallidos_total'] > 0:
        tasa_exito = resultados_totales['exitosos_total'] / (resultados_totales['exitosos_total'] + resultados_totales['fallidos_total']) * 100
        print(f" TASA DE ÉXITO GLOBAL: {tasa_exito:.1f}%")
    
    print("="*70 + "\n")
    
    return resultados_totales


# =========================================================================
# EJECUTAR
# =========================================================================

if __name__ == "__main__":
    # CONFIGURACIÓN
    AÑO = 2025
    MES_INICIO = 4   # Abril
    MES_FIN = 11     # Noviembre
    MAX_DESCARGAS_POR_MES = 31
    
    # EJECUTAR SCRAPER MULTI-MES
    resultado_final = scraper_multiples_meses(
        año=AÑO,
        mes_inicio=MES_INICIO,
        mes_fin=MES_FIN,
        max_descargas_por_mes=MAX_DESCARGAS_POR_MES
    )
    
    print(f"\n Proceso completado!")
    print(f" Archivos guardados en: boletinesmeses/")


 SCRAPER ULTRA-ROBUSTO - 4/2025




 SCRAPER MULTI-MES - DIARIO EL PERUANO

  Año: 2025
 Meses: 4 (Abril) a 11 (Noviembre)
 Max descargas por mes: 31



 PROCESANDO: Abril 2025 (Mes 4)



 Navegando a: https://diariooficial.elperuano.pe/BoletinOficial
 Seleccionando año: 2025...
 Seleccionando mes: 04...
 Click en Buscar
 Encontrados 30 botones

 Primer boletín: 30/04/2025
 Fecha correcta

 Enlaces extraídos: 30

 Descargando 30 boletines
 Con pausas largas para evitar bloqueos...

 Descargado: boletin_20250430.pdf (20.23 MB) ?it/s]
Descargando:   0%|          | 0/30 [00:01<?, ?it/s]

 [1] boletin_20250430.pdf (20.23 MB)


 Descargado: boletin_20250429.pdf (8.13 MB)2:21,  4.89s/it]
Descargando:   3%|▎         | 1/30 [00:06<02:21,  4.89s/it]

 [2] boletin_20250429.pdf (8.13 MB)


 Descargado: boletin_20250428.pdf (29.49 MB):12,  4.73s/it]
Descargando:   7%|▋         | 2/30 [00:11<02:12,  4.73s/it]

 [3] boletin_20250428.pdf (29.49 MB)


 Descargado: boletin_20250427.pdf (12.49 MB):10,  4.84s/it]
Descargando:  10%|█         | 3/30 [00:30<02:10,  4.84s/it]

 [4] boletin_20250427.pdf (12.49 MB)


 Descargado: boletin_20250426.pdf (18.17 MB):00, 11.55s/it]
Descargando:  13%|█▎        | 4/30 [00:52<05:00, 11.55s/it]

 [5] boletin_20250426.pdf (18.17 MB)


 Descargado: boletin_20250425.pdf (22.16 MB):16, 15.07s/it]
Descargando:  17%|█▋        | 5/30 [00:59<06:16, 15.07s/it]

 [6] boletin_20250425.pdf (22.16 MB)


 Timeout (120s), reintento 1/3 en 5.9s...<04:47, 12.00s/it]
 Timeout (120s), reintento 2/3 en 8.5s...
 Descargado: boletin_20250424.pdf (33.17 MB)
Descargando:  20%|██        | 6/30 [02:03<04:47, 12.00s/it]

 [7] boletin_20250424.pdf (33.17 MB)


 Descargado: boletin_20250423.pdf (24.02 MB):05, 28.95s/it]
Descargando:  23%|██▎       | 7/30 [02:09<11:05, 28.95s/it]

 [8] boletin_20250423.pdf (24.02 MB)


 Descargado: boletin_20250422.pdf (16.44 MB):48, 21.27s/it]
Descargando:  27%|██▋       | 8/30 [02:30<07:48, 21.27s/it]

 [9] boletin_20250422.pdf (16.44 MB)


 Descargado: boletin_20250421.pdf (18.99 MB):33, 21.61s/it]
Descargando:  30%|███       | 9/30 [02:51<07:33, 21.61s/it]

 [10] boletin_20250421.pdf (18.99 MB)


 Descargado: boletin_20250420.pdf (6.08 MB)07:20, 22.01s/it]
Descargando:  33%|███▎      | 10/30 [02:58<07:20, 22.01s/it]

 [11] boletin_20250420.pdf (6.08 MB)


 Descargado: boletin_20250419.pdf (14.48 MB)5:27, 17.24s/it]
Descargando:  37%|███▋      | 11/30 [03:05<05:27, 17.24s/it]

 [12] boletin_20250419.pdf (14.48 MB)


 Descargado: boletin_20250418.pdf (3.99 MB)04:08, 13.82s/it]
Descargando:  40%|████      | 12/30 [03:10<04:08, 13.82s/it]

 [13] boletin_20250418.pdf (3.99 MB)


 Descargado: boletin_20250417.pdf (15.80 MB)3:17, 11.61s/it]
Descargando:  43%|████▎     | 13/30 [03:18<03:17, 11.61s/it]

 [14] boletin_20250417.pdf (15.80 MB)


 Descargado: boletin_20250416.pdf (28.22 MB)2:33,  9.61s/it]
Descargando:  47%|████▋     | 14/30 [03:24<02:33,  9.61s/it]

 [15] boletin_20250416.pdf (28.22 MB)


 Descargado: boletin_20250415.pdf (13.49 MB)2:13,  8.92s/it]
Descargando:  50%|█████     | 15/30 [03:30<02:13,  8.92s/it]

 [16] boletin_20250415.pdf (13.49 MB)


 Descargado: boletin_20250414.pdf (12.38 MB)1:54,  8.19s/it]
Descargando:  53%|█████▎    | 16/30 [03:37<01:54,  8.19s/it]

 [17] boletin_20250414.pdf (12.38 MB)


 Descargado: boletin_20250413.pdf (6.28 MB)01:37,  7.52s/it]
Descargando:  57%|█████▋    | 17/30 [03:57<01:37,  7.52s/it]

 [18] boletin_20250413.pdf (6.28 MB)


 Descargado: boletin_20250412.pdf (15.25 MB)2:11, 11.00s/it]
Descargando:  60%|██████    | 18/30 [04:02<02:11, 11.00s/it]

 [19] boletin_20250412.pdf (15.25 MB)


 Timeout (120s), reintento 1/3 en 7.9s...7<01:46,  9.69s/it]
 Descargado: boletin_20250411.pdf (19.18 MB)
Descargando:  63%|██████▎   | 19/30 [04:53<01:46,  9.69s/it]

 [20] boletin_20250411.pdf (19.18 MB)


 Descargado: boletin_20250410.pdf (15.12 MB)3:37, 21.79s/it]
Descargando:  67%|██████▋   | 20/30 [04:58<03:37, 21.79s/it]

 [21] boletin_20250410.pdf (15.12 MB)


 Descargado: boletin_20250409.pdf (15.60 MB)2:31, 16.86s/it]
Descargando:  70%|███████   | 21/30 [05:03<02:31, 16.86s/it]

 [22] boletin_20250409.pdf (15.60 MB)


 Timeout (120s), reintento 1/3 en 8.0s...7<01:46, 13.26s/it]
 Descargado: boletin_20250408.pdf (10.53 MB)
Descargando:  73%|███████▎  | 22/30 [05:37<01:46, 13.26s/it]

 [23] boletin_20250408.pdf (10.53 MB)


 Timeout (120s), reintento 1/3 en 8.9s...2<02:19, 19.98s/it]
 Descargado: boletin_20250407.pdf (25.20 MB)
Descargando:  77%|███████▋  | 23/30 [06:14<02:19, 19.98s/it]

 [24] boletin_20250407.pdf (25.20 MB)


 Timeout (120s), reintento 1/3 en 6.2s...8<02:27, 24.51s/it]
 Descargado: boletin_20250406.pdf (8.98 MB)
Descargando:  80%|████████  | 24/30 [07:02<02:27, 24.51s/it]

 [25] boletin_20250406.pdf (8.98 MB)


 Descargado: boletin_20250405.pdf (15.56 MB)2:40, 32.18s/it]
Descargando:  83%|████████▎ | 25/30 [07:09<02:40, 32.18s/it]

 [26] boletin_20250405.pdf (15.56 MB)


 Descargado: boletin_20250404.pdf (26.86 MB)1:35, 23.97s/it]
Descargando:  87%|████████▋ | 26/30 [07:15<01:35, 23.97s/it]

 [27] boletin_20250404.pdf (26.86 MB)


 Descargado: boletin_20250403.pdf (23.14 MB)0:56, 18.68s/it]
Descargando:  90%|█████████ | 27/30 [07:20<00:56, 18.68s/it]

 [28] boletin_20250403.pdf (23.14 MB)


 Descargado: boletin_20250402.pdf (18.22 MB)0:30, 15.36s/it]
Descargando:  93%|█████████▎| 28/30 [07:43<00:30, 15.36s/it]

 [29] boletin_20250402.pdf (18.22 MB)


 Descargado: boletin_20250401.pdf (8.53 MB)00:17, 17.09s/it]
Descargando:  97%|█████████▋| 29/30 [07:49<00:17, 17.09s/it]

 [30] boletin_20250401.pdf (8.53 MB)


Descargando: 100%|██████████| 30/30 [07:53<00:00, 15.78s/it]



──────────────────────────────────────────────────────────────────────
 Abril: 30/30 exitosos, 0 fallidos
──────────────────────────────────────────────────────────────────────

 Pausando 15 segundos antes del siguiente mes...



 SCRAPER ULTRA-ROBUSTO - 5/2025




 PROCESANDO: Mayo 2025 (Mes 5)



 Navegando a: https://diariooficial.elperuano.pe/BoletinOficial
 Seleccionando año: 2025...
 Seleccionando mes: 05...
 Click en Buscar
 Encontrados 31 botones

 Primer boletín: 31/05/2025
 Fecha correcta

 Enlaces extraídos: 31

 Descargando 31 boletines
 Con pausas largas para evitar bloqueos...

 Timeout (120s), reintento 1/3 en 6.3s...<?, ?it/s]
 Descargado: boletin_20250531.pdf (6.70 MB)
Descargando:   0%|          | 0/31 [00:28<?, ?it/s]

 [1] boletin_20250531.pdf (6.70 MB)


 Descargado: boletin_20250530.pdf (24.42 MB):52, 33.77s/it]
Descargando:   3%|▎         | 1/31 [00:36<16:52, 33.77s/it]

 [2] boletin_20250530.pdf (24.42 MB)


 Descargado: boletin_20250529.pdf (20.54 MB):53, 18.41s/it]
Descargando:   6%|▋         | 2/31 [00:43<08:53, 18.41s/it]

 [3] boletin_20250529.pdf (20.54 MB)


 Descargado: boletin_20250528.pdf (11.41 MB):49, 12.50s/it]
Descargando:  10%|▉         | 3/31 [00:47<05:49, 12.50s/it]

 [4] boletin_20250528.pdf (11.41 MB)


 Timeout (120s), reintento 1/3 en 7.8s...<04:35, 10.19s/it]
 Descargado: boletin_20250527.pdf (7.89 MB)
Descargando:  13%|█▎        | 4/31 [01:23<04:35, 10.19s/it]

 [5] boletin_20250527.pdf (7.89 MB)


 Descargado: boletin_20250526.pdf (24.96 MB):12, 18.93s/it]
Descargando:  16%|█▌        | 5/31 [01:45<08:12, 18.93s/it]

 [6] boletin_20250526.pdf (24.96 MB)


 Descargado: boletin_20250525.pdf (14.15 MB):20, 20.00s/it]
Descargando:  19%|█▉        | 6/31 [01:51<08:20, 20.00s/it]

 [7] boletin_20250525.pdf (14.15 MB)


 Descargado: boletin_20250524.pdf (17.00 MB):18, 15.78s/it]
Descargando:  23%|██▎       | 7/31 [01:58<06:18, 15.78s/it]

 [8] boletin_20250524.pdf (17.00 MB)


 Descargado: boletin_20250523.pdf (21.13 MB):59, 13.04s/it]
Descargando:  26%|██▌       | 8/31 [02:21<04:59, 13.04s/it]

 [9] boletin_20250523.pdf (21.13 MB)


 Descargado: boletin_20250522.pdf (27.66 MB):41, 15.53s/it]
Descargando:  29%|██▉       | 9/31 [02:27<05:41, 15.53s/it]

 [10] boletin_20250522.pdf (27.66 MB)


 Descargado: boletin_20250521.pdf (15.00 MB)4:36, 13.18s/it]
Descargando:  32%|███▏      | 10/31 [02:51<04:36, 13.18s/it]

 [11] boletin_20250521.pdf (15.00 MB)


 Descargado: boletin_20250520.pdf (10.66 MB)5:17, 15.88s/it]
Descargando:  35%|███▌      | 11/31 [02:56<05:17, 15.88s/it]

 [12] boletin_20250520.pdf (10.66 MB)


 Descargado: boletin_20250519.pdf (12.68 MB)3:55, 12.41s/it]
Descargando:  39%|███▊      | 12/31 [03:00<03:55, 12.41s/it]

 [13] boletin_20250519.pdf (12.68 MB)


 Descargado: boletin_20250518.pdf (7.13 MB)03:14, 10.80s/it]
Descargando:  42%|████▏     | 13/31 [03:07<03:14, 10.80s/it]

 [14] boletin_20250518.pdf (7.13 MB)


 Timeout (120s), reintento 1/3 en 5.6s...3<02:42,  9.54s/it]
 Descargado: boletin_20250517.pdf (12.77 MB)
Descargando:  45%|████▌     | 14/31 [03:41<02:42,  9.54s/it]

 [15] boletin_20250517.pdf (12.77 MB)


 Descargado: boletin_20250516.pdf (14.76 MB)4:28, 16.78s/it]
Descargando:  48%|████▊     | 15/31 [03:48<04:28, 16.78s/it]

 [16] boletin_20250516.pdf (14.76 MB)


 Descargado: boletin_20250515.pdf (16.11 MB)3:20, 13.34s/it]
Descargando:  52%|█████▏    | 16/31 [03:54<03:20, 13.34s/it]

 [17] boletin_20250515.pdf (16.11 MB)


 Descargado: boletin_20250514.pdf (13.53 MB)2:39, 11.41s/it]
Descargando:  55%|█████▍    | 17/31 [04:00<02:39, 11.41s/it]

 [18] boletin_20250514.pdf (13.53 MB)


 Descargado: boletin_20250513.pdf (8.20 MB)02:09, 10.00s/it]
Descargando:  58%|█████▊    | 18/31 [04:22<02:09, 10.00s/it]

 [19] boletin_20250513.pdf (8.20 MB)


 Descargado: boletin_20250512.pdf (24.36 MB)2:33, 12.80s/it]
Descargando:  61%|██████▏   | 19/31 [04:27<02:33, 12.80s/it]

 [20] boletin_20250512.pdf (24.36 MB)


 Descargado: boletin_20250511.pdf (10.28 MB)2:01, 11.05s/it]
Descargando:  65%|██████▍   | 20/31 [04:33<02:01, 11.05s/it]

 [21] boletin_20250511.pdf (10.28 MB)


 Descargado: boletin_20250510.pdf (8.95 MB)01:36,  9.61s/it]
Descargando:  68%|██████▊   | 21/31 [04:39<01:36,  9.61s/it]

 [22] boletin_20250510.pdf (8.95 MB)


 Descargado: boletin_20250509.pdf (20.87 MB)1:18,  8.75s/it]
Descargando:  71%|███████   | 22/31 [04:47<01:18,  8.75s/it]

 [23] boletin_20250509.pdf (20.87 MB)


 Descargado: boletin_20250508.pdf (14.24 MB)1:01,  7.73s/it]
Descargando:  74%|███████▍  | 23/31 [04:51<01:01,  7.73s/it]

 [24] boletin_20250508.pdf (14.24 MB)


 Descargado: boletin_20250507.pdf (15.03 MB)0:50,  7.22s/it]
Descargando:  77%|███████▋  | 24/31 [04:58<00:50,  7.22s/it]

 [25] boletin_20250507.pdf (15.03 MB)


 Descargado: boletin_20250506.pdf (12.31 MB)0:40,  6.79s/it]
Descargando:  81%|████████  | 25/31 [05:03<00:40,  6.79s/it]

 [26] boletin_20250506.pdf (12.31 MB)


 Descargado: boletin_20250505.pdf (9.24 MB)00:32,  6.56s/it]
Descargando:  84%|████████▍ | 26/31 [05:09<00:32,  6.56s/it]

 [27] boletin_20250505.pdf (9.24 MB)


 Descargado: boletin_20250504.pdf (6.73 MB)00:26,  6.52s/it]
Descargando:  87%|████████▋ | 27/31 [05:30<00:26,  6.52s/it]

 [28] boletin_20250504.pdf (6.73 MB)


 Descargado: boletin_20250503.pdf (4.78 MB)00:33, 11.05s/it]
Descargando:  90%|█████████ | 28/31 [05:37<00:33, 11.05s/it]

 [29] boletin_20250503.pdf (4.78 MB)


 Descargado: boletin_20250502.pdf (15.58 MB)0:19,  9.62s/it]
Descargando:  94%|█████████▎| 29/31 [05:44<00:19,  9.62s/it]

 [30] boletin_20250502.pdf (15.58 MB)


 Descargado: boletin_20250501.pdf (11.72 MB)0:08,  8.23s/it]
Descargando:  97%|█████████▋| 30/31 [05:48<00:08,  8.23s/it]

 [31] boletin_20250501.pdf (11.72 MB)


Descargando: 100%|██████████| 31/31 [05:53<00:00, 11.41s/it]



──────────────────────────────────────────────────────────────────────
 Mayo: 31/31 exitosos, 0 fallidos
──────────────────────────────────────────────────────────────────────

 Pausando 15 segundos antes del siguiente mes...



 SCRAPER ULTRA-ROBUSTO - 6/2025




 PROCESANDO: Junio 2025 (Mes 6)



 Navegando a: https://diariooficial.elperuano.pe/BoletinOficial
 Seleccionando año: 2025...
 Seleccionando mes: 06...
 Click en Buscar
 Encontrados 30 botones

 Primer boletín: 30/06/2025
 Fecha correcta

 Enlaces extraídos: 30

 Descargando 30 boletines
 Con pausas largas para evitar bloqueos...

 Descargado: boletin_20250630.pdf (19.38 MB) ?it/s]
Descargando:   0%|          | 0/30 [00:02<?, ?it/s]

 [1] boletin_20250630.pdf (19.38 MB)


 Descargado: boletin_20250629.pdf (8.01 MB)3:10,  6.58s/it]
Descargando:   3%|▎         | 1/30 [00:22<03:10,  6.58s/it]

 [2] boletin_20250629.pdf (8.01 MB)


 Descargado: boletin_20250628.pdf (4.92 MB)6:49, 14.61s/it]
Descargando:   7%|▋         | 2/30 [00:27<06:49, 14.61s/it]

 [3] boletin_20250628.pdf (4.92 MB)


 Descargado: boletin_20250627.pdf (15.71 MB):29, 10.00s/it]
Descargando:  10%|█         | 3/30 [00:32<04:29, 10.00s/it]

 [4] boletin_20250627.pdf (15.71 MB)


 Descargado: boletin_20250626.pdf (21.46 MB):26,  7.95s/it]
Descargando:  13%|█▎        | 4/30 [00:38<03:26,  7.95s/it]

 [5] boletin_20250626.pdf (21.46 MB)


 Descargado: boletin_20250625.pdf (17.68 MB):53,  6.95s/it]
Descargando:  17%|█▋        | 5/30 [00:42<02:53,  6.95s/it]

 [6] boletin_20250625.pdf (17.68 MB)


 Descargado: boletin_20250624.pdf (12.28 MB):44,  6.87s/it]
Descargando:  20%|██        | 6/30 [00:49<02:44,  6.87s/it]

 [7] boletin_20250624.pdf (12.28 MB)


 Descargado: boletin_20250623.pdf (16.98 MB):27,  6.41s/it]
Descargando:  23%|██▎       | 7/30 [00:54<02:27,  6.41s/it]

 [8] boletin_20250623.pdf (16.98 MB)


 Descargado: boletin_20250622.pdf (9.22 MB)2:08,  5.86s/it]
Descargando:  27%|██▋       | 8/30 [00:59<02:08,  5.86s/it]

 [9] boletin_20250622.pdf (9.22 MB)


 Descargado: boletin_20250621.pdf (9.80 MB)2:09,  6.17s/it]
Descargando:  30%|███       | 9/30 [01:06<02:09,  6.17s/it]

 [10] boletin_20250621.pdf (9.80 MB)


 Descargado: boletin_20250620.pdf (7.82 MB)02:13,  6.68s/it]
Descargando:  33%|███▎      | 10/30 [01:14<02:13,  6.68s/it]

 [11] boletin_20250620.pdf (7.82 MB)


 Descargado: boletin_20250619.pdf (17.99 MB)1:56,  6.12s/it]
Descargando:  37%|███▋      | 11/30 [01:19<01:56,  6.12s/it]

 [12] boletin_20250619.pdf (17.99 MB)


 Descargado: boletin_20250618.pdf (17.06 MB)1:50,  6.17s/it]
Descargando:  40%|████      | 12/30 [01:25<01:50,  6.17s/it]

 [13] boletin_20250618.pdf (17.06 MB)


 Descargado: boletin_20250617.pdf (5.55 MB)01:43,  6.11s/it]
Descargando:  43%|████▎     | 13/30 [01:30<01:43,  6.11s/it]

 [14] boletin_20250617.pdf (5.55 MB)


 Descargado: boletin_20250616.pdf (14.05 MB)1:33,  5.83s/it]
Descargando:  47%|████▋     | 14/30 [01:36<01:33,  5.83s/it]

 [15] boletin_20250616.pdf (14.05 MB)


 Descargado: boletin_20250615.pdf (7.03 MB)01:27,  5.86s/it]
Descargando:  50%|█████     | 15/30 [01:42<01:27,  5.86s/it]

 [16] boletin_20250615.pdf (7.03 MB)


 Descargado: boletin_20250614.pdf (11.83 MB)1:16,  5.47s/it]
Descargando:  53%|█████▎    | 16/30 [01:46<01:16,  5.47s/it]

 [17] boletin_20250614.pdf (11.83 MB)


 Descargado: boletin_20250613.pdf (15.68 MB)1:11,  5.53s/it]
Descargando:  57%|█████▋    | 17/30 [01:52<01:11,  5.53s/it]

 [18] boletin_20250613.pdf (15.68 MB)


 Descargado: boletin_20250612.pdf (16.85 MB)1:02,  5.24s/it]
Descargando:  60%|██████    | 18/30 [01:57<01:02,  5.24s/it]

 [19] boletin_20250612.pdf (16.85 MB)


 Descargado: boletin_20250611.pdf (16.50 MB)1:03,  5.81s/it]
Descargando:  63%|██████▎   | 19/30 [02:04<01:03,  5.81s/it]

 [20] boletin_20250611.pdf (16.50 MB)


 Descargado: boletin_20250610.pdf (13.34 MB)1:01,  6.15s/it]
Descargando:  67%|██████▋   | 20/30 [02:11<01:01,  6.15s/it]

 [21] boletin_20250610.pdf (13.34 MB)


 Descargado: boletin_20250609.pdf (19.13 MB)0:56,  6.29s/it]
Descargando:  70%|███████   | 21/30 [02:19<00:56,  6.29s/it]

 [22] boletin_20250609.pdf (19.13 MB)


 Descargado: boletin_20250608.pdf (13.81 MB)0:54,  6.84s/it]
Descargando:  73%|███████▎  | 22/30 [02:26<00:54,  6.84s/it]

 [23] boletin_20250608.pdf (13.81 MB)


 Descargado: boletin_20250607.pdf (16.03 MB)0:44,  6.42s/it]
Descargando:  77%|███████▋  | 23/30 [02:32<00:44,  6.42s/it]

 [24] boletin_20250607.pdf (16.03 MB)


 Descargado: boletin_20250606.pdf (15.81 MB)0:40,  6.82s/it]
Descargando:  80%|████████  | 24/30 [02:39<00:40,  6.82s/it]

 [25] boletin_20250606.pdf (15.81 MB)


 Descargado: boletin_20250605.pdf (18.08 MB)0:30,  6.15s/it]
Descargando:  83%|████████▎ | 25/30 [02:43<00:30,  6.15s/it]

 [26] boletin_20250605.pdf (18.08 MB)


 Descargado: boletin_20250604.pdf (22.03 MB)0:23,  5.93s/it]
Descargando:  87%|████████▋ | 26/30 [02:49<00:23,  5.93s/it]

 [27] boletin_20250604.pdf (22.03 MB)


 Descargado: boletin_20250603.pdf (9.77 MB)00:18,  6.04s/it]
Descargando:  90%|█████████ | 27/30 [02:55<00:18,  6.04s/it]

 [28] boletin_20250603.pdf (9.77 MB)


 Descargado: boletin_20250602.pdf (9.28 MB)00:11,  5.66s/it]
Descargando:  93%|█████████▎| 28/30 [03:00<00:11,  5.66s/it]

 [29] boletin_20250602.pdf (9.28 MB)


 Descargado: boletin_20250601.pdf (4.60 MB)00:05,  5.81s/it]
Descargando:  97%|█████████▋| 29/30 [03:21<00:05,  5.81s/it]

 [30] boletin_20250601.pdf (4.60 MB)


Descargando: 100%|██████████| 30/30 [03:24<00:00,  6.82s/it]



──────────────────────────────────────────────────────────────────────
 Junio: 30/30 exitosos, 0 fallidos
──────────────────────────────────────────────────────────────────────

 Pausando 15 segundos antes del siguiente mes...



 SCRAPER ULTRA-ROBUSTO - 7/2025




 PROCESANDO: Julio 2025 (Mes 7)



 Navegando a: https://diariooficial.elperuano.pe/BoletinOficial
 Seleccionando año: 2025...
 Seleccionando mes: 07...
 Click en Buscar
 Encontrados 31 botones

 Primer boletín: 31/07/2025
 Fecha correcta

 Enlaces extraídos: 31

 Descargando 31 boletines
 Con pausas largas para evitar bloqueos...

 Descargado: boletin_20250731.pdf (12.44 MB) ?it/s]
Descargando:   0%|          | 0/31 [00:01<?, ?it/s]

 [1] boletin_20250731.pdf (12.44 MB)


 Timeout (120s), reintento 1/3 en 6.8s...<03:37,  7.26s/it]
 Descargado: boletin_20250730.pdf (14.62 MB)
Descargando:   3%|▎         | 1/31 [00:36<03:37,  7.26s/it]

 [2] boletin_20250730.pdf (14.62 MB)


 Descargado: boletin_20250729.pdf (2.09 MB)1:02, 22.84s/it]
Descargando:   6%|▋         | 2/31 [00:41<11:02, 22.84s/it]

 [3] boletin_20250729.pdf (2.09 MB)


 Descargado: boletin_20250728.pdf (5.16 MB)6:59, 14.96s/it]
Descargando:  10%|▉         | 3/31 [00:47<06:59, 14.96s/it]

 [4] boletin_20250728.pdf (5.16 MB)


 Timeout (120s), reintento 1/3 en 9.1s...<04:47, 10.66s/it]
 Descargado: boletin_20250727.pdf (8.17 MB)
Descargando:  13%|█▎        | 4/31 [01:22<04:47, 10.66s/it]

 [5] boletin_20250727.pdf (8.17 MB)


 Descargado: boletin_20250726.pdf (13.00 MB):33, 19.74s/it]
Descargando:  16%|█▌        | 5/31 [01:28<08:33, 19.74s/it]

 [6] boletin_20250726.pdf (13.00 MB)


 Descargado: boletin_20250725.pdf (22.60 MB):18, 15.13s/it]
Descargando:  19%|█▉        | 6/31 [01:35<06:18, 15.13s/it]

 [7] boletin_20250725.pdf (22.60 MB)


 Descargado: boletin_20250724.pdf (23.02 MB):08, 12.84s/it]
Descargando:  23%|██▎       | 7/31 [01:43<05:08, 12.84s/it]

 [8] boletin_20250724.pdf (23.02 MB)


 Timeout (120s), reintento 1/3 en 9.8s...<04:13, 11.03s/it]
 Descargado: boletin_20250723.pdf (16.18 MB)
Descargando:  26%|██▌       | 8/31 [02:20<04:13, 11.03s/it]

 [9] boletin_20250723.pdf (16.18 MB)


 Descargado: boletin_20250722.pdf (14.64 MB):05, 19.36s/it]
Descargando:  29%|██▉       | 9/31 [02:27<07:05, 19.36s/it]

 [10] boletin_20250722.pdf (14.64 MB)


 Descargado: boletin_20250721.pdf (27.68 MB)5:16, 15.07s/it]
Descargando:  32%|███▏      | 10/31 [02:33<05:16, 15.07s/it]

 [11] boletin_20250721.pdf (27.68 MB)


 Descargado: boletin_20250720.pdf (8.70 MB)04:03, 12.19s/it]
Descargando:  35%|███▌      | 11/31 [02:38<04:03, 12.19s/it]

 [12] boletin_20250720.pdf (8.70 MB)


 Descargado: boletin_20250719.pdf (14.80 MB)3:21, 10.58s/it]
Descargando:  39%|███▊      | 12/31 [02:45<03:21, 10.58s/it]

 [13] boletin_20250719.pdf (14.80 MB)


 Descargado: boletin_20250718.pdf (30.57 MB)2:49,  9.40s/it]
Descargando:  42%|████▏     | 13/31 [02:53<02:49,  9.40s/it]

 [14] boletin_20250718.pdf (30.57 MB)


 Timeout (120s), reintento 1/3 en 9.5s...7<02:30,  8.85s/it]
 Timeout (120s), reintento 2/3 en 8.3s...
 Descargado: boletin_20250717.pdf (21.79 MB)
Descargando:  45%|████▌     | 14/31 [03:59<02:30,  8.85s/it]

 [15] boletin_20250717.pdf (21.79 MB)


 Timeout (120s), reintento 1/3 en 6.7s...3<06:52, 25.80s/it]
 Descargado: boletin_20250716.pdf (18.42 MB)
Descargando:  48%|████▊     | 15/31 [04:32<06:52, 25.80s/it]

 [16] boletin_20250716.pdf (18.42 MB)


 Descargado: boletin_20250715.pdf (17.02 MB)7:10, 28.68s/it]
Descargando:  52%|█████▏    | 16/31 [04:40<07:10, 28.68s/it]

 [17] boletin_20250715.pdf (17.02 MB)


 Descargado: boletin_20250714.pdf (18.28 MB)5:03, 21.71s/it]
Descargando:  55%|█████▍    | 17/31 [04:45<05:03, 21.71s/it]

 [18] boletin_20250714.pdf (18.28 MB)


 Descargado: boletin_20250713.pdf (5.97 MB)03:45, 17.34s/it]
Descargando:  58%|█████▊    | 18/31 [04:51<03:45, 17.34s/it]

 [19] boletin_20250713.pdf (5.97 MB)


 Descargado: boletin_20250712.pdf (8.21 MB)02:45, 13.75s/it]
Descargando:  61%|██████▏   | 19/31 [04:58<02:45, 13.75s/it]

 [20] boletin_20250712.pdf (8.21 MB)


 Descargado: boletin_20250711.pdf (18.95 MB)2:06, 11.53s/it]
Descargando:  65%|██████▍   | 20/31 [05:04<02:06, 11.53s/it]

 [21] boletin_20250711.pdf (18.95 MB)


 Descargado: boletin_20250710.pdf (16.89 MB)1:37,  9.71s/it]
Descargando:  68%|██████▊   | 21/31 [05:09<01:37,  9.71s/it]

 [22] boletin_20250710.pdf (16.89 MB)


 Descargado: boletin_20250709.pdf (15.16 MB)1:18,  8.73s/it]
Descargando:  71%|███████   | 22/31 [05:15<01:18,  8.73s/it]

 [23] boletin_20250709.pdf (15.16 MB)


 Descargado: boletin_20250708.pdf (10.83 MB)1:04,  8.07s/it]
Descargando:  74%|███████▍  | 23/31 [05:22<01:04,  8.07s/it]

 [24] boletin_20250708.pdf (10.83 MB)


 Descargado: boletin_20250707.pdf (12.77 MB)0:54,  7.74s/it]
Descargando:  77%|███████▋  | 24/31 [05:29<00:54,  7.74s/it]

 [25] boletin_20250707.pdf (12.77 MB)


 Descargado: boletin_20250706.pdf (4.45 MB)00:41,  6.88s/it]
Descargando:  81%|████████  | 25/31 [05:33<00:41,  6.88s/it]

 [26] boletin_20250706.pdf (4.45 MB)


 Descargado: boletin_20250705.pdf (16.95 MB)0:32,  6.51s/it]
Descargando:  84%|████████▍ | 26/31 [05:40<00:32,  6.51s/it]

 [27] boletin_20250705.pdf (16.95 MB)


 Descargado: boletin_20250704.pdf (37.31 MB)0:24,  6.19s/it]
Descargando:  87%|████████▋ | 27/31 [05:48<00:24,  6.19s/it]

 [28] boletin_20250704.pdf (37.31 MB)


 Descargado: boletin_20250703.pdf (16.91 MB)0:20,  6.75s/it]
Descargando:  90%|█████████ | 28/31 [05:53<00:20,  6.75s/it]

 [29] boletin_20250703.pdf (16.91 MB)


 Descargado: boletin_20250702.pdf (20.44 MB)0:12,  6.39s/it]
Descargando:  94%|█████████▎| 29/31 [05:59<00:12,  6.39s/it]

 [30] boletin_20250702.pdf (20.44 MB)


 Descargado: boletin_20250701.pdf (21.00 MB)0:06,  6.60s/it]
Descargando:  97%|█████████▋| 30/31 [06:06<00:06,  6.60s/it]

 [31] boletin_20250701.pdf (21.00 MB)


Descargando: 100%|██████████| 31/31 [06:10<00:00, 11.95s/it]



──────────────────────────────────────────────────────────────────────
 Julio: 31/31 exitosos, 0 fallidos
──────────────────────────────────────────────────────────────────────

 Pausando 15 segundos antes del siguiente mes...



 SCRAPER ULTRA-ROBUSTO - 8/2025




 PROCESANDO: Agosto 2025 (Mes 8)



 Navegando a: https://diariooficial.elperuano.pe/BoletinOficial
 Seleccionando año: 2025...
 Seleccionando mes: 08...
 Click en Buscar
 Encontrados 31 botones

 Primer boletín: 31/08/2025
 Fecha correcta

 Enlaces extraídos: 31

 Descargando 31 boletines
 Con pausas largas para evitar bloqueos...

 Descargado: boletin_20250831.pdf (4.12 MB), ?it/s]
Descargando:   0%|          | 0/31 [00:00<?, ?it/s]

 [1] boletin_20250831.pdf (4.12 MB)


 Timeout (120s), reintento 1/3 en 8.7s...<02:59,  5.97s/it]
 Descargado: boletin_20250830.pdf (12.49 MB)
Descargando:   3%|▎         | 1/31 [00:36<02:59,  5.97s/it]

 [2] boletin_20250830.pdf (12.49 MB)


 Descargado: boletin_20250829.pdf (18.69 MB):18, 23.40s/it]
Descargando:   6%|▋         | 2/31 [00:43<11:18, 23.40s/it]

 [3] boletin_20250829.pdf (18.69 MB)


 Descargado: boletin_20250828.pdf (16.27 MB):29, 16.05s/it]
Descargando:  10%|▉         | 3/31 [00:50<07:29, 16.05s/it]

 [4] boletin_20250828.pdf (16.27 MB)


 Descargado: boletin_20250827.pdf (26.15 MB):39, 12.56s/it]
Descargando:  13%|█▎        | 4/31 [00:58<05:39, 12.56s/it]

 [5] boletin_20250827.pdf (26.15 MB)


 Descargado: boletin_20250826.pdf (10.04 MB):37, 10.67s/it]
Descargando:  16%|█▌        | 5/31 [01:04<04:37, 10.67s/it]

 [6] boletin_20250826.pdf (10.04 MB)


 Descargado: boletin_20250825.pdf (20.92 MB):38,  8.75s/it]
Descargando:  19%|█▉        | 6/31 [01:10<03:38,  8.75s/it]

 [7] boletin_20250825.pdf (20.92 MB)


 Descargado: boletin_20250824.pdf (9.92 MB)3:02,  7.62s/it]
Descargando:  23%|██▎       | 7/31 [01:16<03:02,  7.62s/it]

 [8] boletin_20250824.pdf (9.92 MB)


 Descargado: boletin_20250823.pdf (17.50 MB):45,  7.19s/it]
Descargando:  26%|██▌       | 8/31 [01:22<02:45,  7.19s/it]

 [9] boletin_20250823.pdf (17.50 MB)


 Descargado: boletin_20250822.pdf (19.79 MB):35,  7.07s/it]
Descargando:  29%|██▉       | 9/31 [01:29<02:35,  7.07s/it]

 [10] boletin_20250822.pdf (19.79 MB)


 Descargado: boletin_20250821.pdf (25.28 MB)2:31,  7.20s/it]
Descargando:  32%|███▏      | 10/31 [01:36<02:31,  7.20s/it]

 [11] boletin_20250821.pdf (25.28 MB)


 Descargado: boletin_20250820.pdf (18.55 MB)2:21,  7.10s/it]
Descargando:  35%|███▌      | 11/31 [01:43<02:21,  7.10s/it]

 [12] boletin_20250820.pdf (18.55 MB)


 Descargado: boletin_20250819.pdf (13.50 MB)2:05,  6.62s/it]
Descargando:  39%|███▊      | 12/31 [01:48<02:05,  6.62s/it]

 [13] boletin_20250819.pdf (13.50 MB)


 Timeout (120s), reintento 1/3 en 9.6s...3<02:01,  6.72s/it]
 Descargado: boletin_20250818.pdf (22.64 MB)
Descargando:  42%|████▏     | 13/31 [02:26<02:01,  6.72s/it]

 [14] boletin_20250818.pdf (22.64 MB)


 Descargado: boletin_20250817.pdf (9.10 MB)04:28, 15.82s/it]
Descargando:  45%|████▌     | 14/31 [02:32<04:28, 15.82s/it]

 [15] boletin_20250817.pdf (9.10 MB)


 Descargado: boletin_20250816.pdf (8.26 MB)03:31, 13.20s/it]
Descargando:  48%|████▊     | 15/31 [02:39<03:31, 13.20s/it]

 [16] boletin_20250816.pdf (8.26 MB)


 Descargado: boletin_20250815.pdf (18.72 MB)2:41, 10.76s/it]
Descargando:  52%|█████▏    | 16/31 [02:59<02:41, 10.76s/it]

 [17] boletin_20250815.pdf (18.72 MB)


 Descargado: boletin_20250814.pdf (59.69 MB)3:18, 14.20s/it]
Descargando:  55%|█████▍    | 17/31 [03:10<03:18, 14.20s/it]

 [18] boletin_20250814.pdf (59.69 MB)


 Descargado: boletin_20250813.pdf (17.12 MB)2:46, 12.80s/it]
Descargando:  58%|█████▊    | 18/31 [03:16<02:46, 12.80s/it]

 [19] boletin_20250813.pdf (17.12 MB)


 Descargado: boletin_20250812.pdf (14.00 MB)2:08, 10.69s/it]
Descargando:  61%|██████▏   | 19/31 [03:21<02:08, 10.69s/it]

 [20] boletin_20250812.pdf (14.00 MB)


 Descargado: boletin_20250811.pdf (15.33 MB)1:44,  9.52s/it]
Descargando:  65%|██████▍   | 20/31 [03:28<01:44,  9.52s/it]

 [21] boletin_20250811.pdf (15.33 MB)


 Timeout (120s), reintento 1/3 en 7.4s...1<01:20,  8.00s/it]
 Descargado: boletin_20250810.pdf (9.21 MB)
Descargando:  68%|██████▊   | 21/31 [04:01<01:20,  8.00s/it]

 [22] boletin_20250810.pdf (9.21 MB)


 Descargado: boletin_20250809.pdf (13.66 MB)2:22, 15.81s/it]
Descargando:  71%|███████   | 22/31 [04:07<02:22, 15.81s/it]

 [23] boletin_20250809.pdf (13.66 MB)


 Descargado: boletin_20250808.pdf (9.32 MB)01:41, 12.72s/it]
Descargando:  74%|███████▍  | 23/31 [04:12<01:41, 12.72s/it]

 [24] boletin_20250808.pdf (9.32 MB)


 Descargado: boletin_20250807.pdf (15.74 MB)1:16, 10.86s/it]
Descargando:  77%|███████▋  | 24/31 [04:19<01:16, 10.86s/it]

 [25] boletin_20250807.pdf (15.74 MB)


 Timeout (120s), reintento 1/3 en 9.9s...2<00:54,  9.12s/it]
 Descargado: boletin_20250806.pdf (12.69 MB)
Descargando:  81%|████████  | 25/31 [04:54<00:54,  9.12s/it]

 [26] boletin_20250806.pdf (12.69 MB)


 Timeout (120s), reintento 1/3 en 6.6s...0<01:28, 17.70s/it]
 Descargado: boletin_20250805.pdf (10.84 MB)
Descargando:  84%|████████▍ | 26/31 [05:29<01:28, 17.70s/it]

 [27] boletin_20250805.pdf (10.84 MB)


 Descargado: boletin_20250804.pdf (17.01 MB)1:29, 22.38s/it]
Descargando:  87%|████████▋ | 27/31 [05:50<01:29, 22.38s/it]

 [28] boletin_20250804.pdf (17.01 MB)


 Descargado: boletin_20250803.pdf (5.85 MB)01:06, 22.09s/it]
Descargando:  90%|█████████ | 28/31 [05:56<01:06, 22.09s/it]

 [29] boletin_20250803.pdf (5.85 MB)


 Timeout (120s), reintento 1/3 en 6.4s...9<00:33, 16.72s/it]
 Timeout (120s), reintento 2/3 en 8.4s...
Descargando:  94%|█████████▎| 29/31 [07:17<00:33, 16.72s/it]

 [30] boletin_20250802.pdf: Timeout (120s)


 Descargado: boletin_20250801.pdf (13.15 MB)0:36, 36.46s/it]
Descargando:  97%|█████████▋| 30/31 [07:23<00:36, 36.46s/it]

 [31] boletin_20250801.pdf (13.15 MB)


Descargando: 100%|██████████| 31/31 [07:27<00:00, 14.44s/it]



──────────────────────────────────────────────────────────────────────
 Agosto: 30/31 exitosos, 1 fallidos
──────────────────────────────────────────────────────────────────────

 Pausando 15 segundos antes del siguiente mes...



 SCRAPER ULTRA-ROBUSTO - 9/2025




 PROCESANDO: Septiembre 2025 (Mes 9)



 Navegando a: https://diariooficial.elperuano.pe/BoletinOficial
 Seleccionando año: 2025...
 Seleccionando mes: 09...
 Click en Buscar
 Encontrados 30 botones

 Primer boletín: 30/09/2025
 Fecha correcta

 Enlaces extraídos: 30

 Descargando 30 boletines
 Con pausas largas para evitar bloqueos...

 Timeout (120s), reintento 1/3 en 5.2s...<?, ?it/s]
 Descargado: boletin_20250930.pdf (21.46 MB)
Descargando:   0%|          | 0/30 [00:28<?, ?it/s]

 [1] boletin_20250930.pdf (21.46 MB)


 Descargado: boletin_20250929.pdf (17.61 MB):04, 33.26s/it]
Descargando:   3%|▎         | 1/30 [00:35<16:04, 33.26s/it]

 [2] boletin_20250929.pdf (17.61 MB)


 Descargado: boletin_20250928.pdf (6.41 MB)8:35, 18.41s/it]
Descargando:   7%|▋         | 2/30 [00:57<08:35, 18.41s/it]

 [3] boletin_20250928.pdf (6.41 MB)


 Descargado: boletin_20250927.pdf (13.61 MB):49, 19.60s/it]
Descargando:  10%|█         | 3/30 [01:18<08:49, 19.60s/it]

 [4] boletin_20250927.pdf (13.61 MB)


 Descargado: boletin_20250926.pdf (17.11 MB):44, 20.18s/it]
Descargando:  13%|█▎        | 4/30 [01:25<08:44, 20.18s/it]

 [5] boletin_20250926.pdf (17.11 MB)


 Descargado: boletin_20250925.pdf (13.79 MB):21, 15.25s/it]
Descargando:  17%|█▋        | 5/30 [01:31<06:21, 15.25s/it]

 [6] boletin_20250925.pdf (13.79 MB)


 Descargado: boletin_20250924.pdf (26.19 MB):51, 12.14s/it]
Descargando:  20%|██        | 6/30 [01:38<04:51, 12.14s/it]

 [7] boletin_20250924.pdf (26.19 MB)


 Descargado: boletin_20250923.pdf (21.27 MB):08, 10.79s/it]
Descargando:  23%|██▎       | 7/30 [01:46<04:08, 10.79s/it]

 [8] boletin_20250923.pdf (21.27 MB)


 Descargado: boletin_20250922.pdf (19.29 MB):34,  9.77s/it]
Descargando:  27%|██▋       | 8/30 [01:53<03:34,  9.77s/it]

 [9] boletin_20250922.pdf (19.29 MB)


 Timeout (120s), reintento 1/3 en 9.7s...<02:58,  8.52s/it]
 Descargado: boletin_20250921.pdf (20.93 MB)
Descargando:  30%|███       | 9/30 [02:30<02:58,  8.52s/it]

 [10] boletin_20250921.pdf (20.93 MB)


 Descargado: boletin_20250920.pdf (16.19 MB)5:40, 17.03s/it]
Descargando:  33%|███▎      | 10/30 [02:35<05:40, 17.03s/it]

 [11] boletin_20250920.pdf (16.19 MB)


 Descargado: boletin_20250919.pdf (25.71 MB)4:17, 13.55s/it]
Descargando:  37%|███▋      | 11/30 [02:41<04:17, 13.55s/it]

 [12] boletin_20250919.pdf (25.71 MB)


 Descargado: boletin_20250918.pdf (27.32 MB)3:35, 11.96s/it]
Descargando:  40%|████      | 12/30 [02:49<03:35, 11.96s/it]

 [13] boletin_20250918.pdf (27.32 MB)


 Descargado: boletin_20250917.pdf (19.60 MB)2:56, 10.36s/it]
Descargando:  43%|████▎     | 13/30 [02:55<02:56, 10.36s/it]

 [14] boletin_20250917.pdf (19.60 MB)


 Descargado: boletin_20250916.pdf (10.21 MB)2:30,  9.41s/it]
Descargando:  47%|████▋     | 14/30 [03:02<02:30,  9.41s/it]

 [15] boletin_20250916.pdf (10.21 MB)


 Descargado: boletin_20250915.pdf (20.16 MB)1:59,  7.94s/it]
Descargando:  50%|█████     | 15/30 [03:07<01:59,  7.94s/it]

 [16] boletin_20250915.pdf (20.16 MB)


 Descargado: boletin_20250914.pdf (7.21 MB)01:44,  7.44s/it]
Descargando:  53%|█████▎    | 16/30 [03:13<01:44,  7.44s/it]

 [17] boletin_20250914.pdf (7.21 MB)


 Descargado: boletin_20250913.pdf (12.36 MB)1:35,  7.32s/it]
Descargando:  57%|█████▋    | 17/30 [03:20<01:35,  7.32s/it]

 [18] boletin_20250913.pdf (12.36 MB)


 Descargado: boletin_20250912.pdf (23.02 MB)1:28,  7.35s/it]
Descargando:  60%|██████    | 18/30 [03:44<01:28,  7.35s/it]

 [19] boletin_20250912.pdf (23.02 MB)


 Descargado: boletin_20250911.pdf (18.48 MB)2:14, 12.27s/it]
Descargando:  63%|██████▎   | 19/30 [03:52<02:14, 12.27s/it]

 [20] boletin_20250911.pdf (18.48 MB)


 Descargado: boletin_20250910.pdf (17.63 MB)1:45, 10.59s/it]
Descargando:  67%|██████▋   | 20/30 [03:58<01:45, 10.59s/it]

 [21] boletin_20250910.pdf (17.63 MB)


 Descargado: boletin_20250909.pdf (28.84 MB)1:24,  9.43s/it]
Descargando:  70%|███████   | 21/30 [04:06<01:24,  9.43s/it]

 [22] boletin_20250909.pdf (28.84 MB)


 Descargado: boletin_20250908.pdf (19.15 MB)1:07,  8.47s/it]
Descargando:  73%|███████▎  | 22/30 [04:12<01:07,  8.47s/it]

 [23] boletin_20250908.pdf (19.15 MB)


 Descargado: boletin_20250907.pdf (4.07 MB)00:53,  7.59s/it]
Descargando:  77%|███████▋  | 23/30 [04:16<00:53,  7.59s/it]

 [24] boletin_20250907.pdf (4.07 MB)


 Timeout (120s), reintento 1/3 en 8.2s...0<00:41,  6.88s/it]
 Descargado: boletin_20250906.pdf (7.74 MB)
Descargando:  80%|████████  | 24/30 [04:51<00:41,  6.88s/it]

 [25] boletin_20250906.pdf (7.74 MB)


 Descargado: boletin_20250905.pdf (22.23 MB)1:16, 15.36s/it]
Descargando:  83%|████████▎ | 25/30 [04:58<01:16, 15.36s/it]

 [26] boletin_20250905.pdf (22.23 MB)


 Descargado: boletin_20250904.pdf (14.47 MB)0:51, 12.80s/it]
Descargando:  87%|████████▋ | 26/30 [05:04<00:51, 12.80s/it]

 [27] boletin_20250904.pdf (14.47 MB)


 Descargado: boletin_20250903.pdf (20.84 MB)0:31, 10.45s/it]
Descargando:  90%|█████████ | 27/30 [05:09<00:31, 10.45s/it]

 [28] boletin_20250903.pdf (20.84 MB)


 Descargado: boletin_20250902.pdf (10.29 MB)0:19,  9.73s/it]
Descargando:  93%|█████████▎| 28/30 [05:17<00:19,  9.73s/it]

 [29] boletin_20250902.pdf (10.29 MB)


 Timeout (120s), reintento 1/3 en 9.5s...0<00:08,  8.31s/it]
 Descargado: boletin_20250901.pdf (20.66 MB)
Descargando:  97%|█████████▋| 29/30 [06:08<00:08,  8.31s/it]

 [30] boletin_20250901.pdf (20.66 MB)


Descargando: 100%|██████████| 30/30 [06:12<00:00, 12.41s/it]



──────────────────────────────────────────────────────────────────────
 Septiembre: 30/30 exitosos, 0 fallidos
──────────────────────────────────────────────────────────────────────

 Pausando 15 segundos antes del siguiente mes...



 SCRAPER ULTRA-ROBUSTO - 10/2025




 PROCESANDO: Octubre 2025 (Mes 10)



 Navegando a: https://diariooficial.elperuano.pe/BoletinOficial
 Seleccionando año: 2025...
 Seleccionando mes: 10...
 Click en Buscar
 Encontrados 31 botones

 Primer boletín: 31/10/2025
 Fecha correcta

 Enlaces extraídos: 31

 Descargando 31 boletines
 Con pausas largas para evitar bloqueos...

 Descargado: boletin_20251031.pdf (21.95 MB) ?it/s]
Descargando:   0%|          | 0/31 [00:02<?, ?it/s]

 [1] boletin_20251031.pdf (21.95 MB)


 Descargado: boletin_20251030.pdf (16.88 MB):36,  7.22s/it]
Descargando:   3%|▎         | 1/31 [00:08<03:36,  7.22s/it]

 [2] boletin_20251030.pdf (16.88 MB)


 Descargado: boletin_20251029.pdf (18.25 MB):00,  6.21s/it]
Descargando:   6%|▋         | 2/31 [00:29<03:00,  6.21s/it]

 [3] boletin_20251029.pdf (18.25 MB)


 Descargado: boletin_20251028.pdf (10.76 MB):54, 12.65s/it]
Descargando:  10%|▉         | 3/31 [00:34<05:54, 12.65s/it]

 [4] boletin_20251028.pdf (10.76 MB)


 Descargado: boletin_20251027.pdf (8.83 MB)4:34, 10.17s/it]
Descargando:  13%|█▎        | 4/31 [00:40<04:34, 10.17s/it]

 [5] boletin_20251027.pdf (8.83 MB)


 Descargado: boletin_20251026.pdf (17.44 MB):29,  8.06s/it]
Descargando:  16%|█▌        | 5/31 [00:45<03:29,  8.06s/it]

 [6] boletin_20251026.pdf (17.44 MB)


 Descargado: boletin_20251025.pdf (26.17 MB):12,  7.69s/it]
Descargando:  19%|█▉        | 6/31 [00:53<03:12,  7.69s/it]

 [7] boletin_20251025.pdf (26.17 MB)


 Descargado: boletin_20251024.pdf (31.08 MB):51,  7.14s/it]
Descargando:  23%|██▎       | 7/31 [00:59<02:51,  7.14s/it]

 [8] boletin_20251024.pdf (31.08 MB)


 Descargado: boletin_20251023.pdf (25.39 MB):40,  6.98s/it]
Descargando:  26%|██▌       | 8/31 [01:05<02:40,  6.98s/it]

 [9] boletin_20251023.pdf (25.39 MB)


 Descargado: boletin_20251022.pdf (28.80 MB):36,  7.12s/it]
Descargando:  29%|██▉       | 9/31 [01:13<02:36,  7.12s/it]

 [10] boletin_20251022.pdf (28.80 MB)


 Descargado: boletin_20251021.pdf (17.72 MB)2:18,  6.61s/it]
Descargando:  32%|███▏      | 10/31 [01:17<02:18,  6.61s/it]

 [11] boletin_20251021.pdf (17.72 MB)


 Descargado: boletin_20251020.pdf (16.46 MB)2:10,  6.53s/it]
Descargando:  35%|███▌      | 11/31 [01:39<02:10,  6.53s/it]

 [12] boletin_20251020.pdf (16.46 MB)


 Descargado: boletin_20251019.pdf (4.17 MB)03:34, 11.30s/it]
Descargando:  39%|███▊      | 12/31 [01:45<03:34, 11.30s/it]

 [13] boletin_20251019.pdf (4.17 MB)


 Descargado: boletin_20251018.pdf (10.33 MB)2:41,  8.97s/it]
Descargando:  42%|████▏     | 13/31 [01:49<02:41,  8.97s/it]

 [14] boletin_20251018.pdf (10.33 MB)


 Descargado: boletin_20251017.pdf (23.82 MB)2:07,  7.47s/it]
Descargando:  45%|████▌     | 14/31 [01:54<02:07,  7.47s/it]

 [15] boletin_20251017.pdf (23.82 MB)


 Descargado: boletin_20251016.pdf (18.48 MB)1:54,  7.13s/it]
Descargando:  48%|████▊     | 15/31 [02:00<01:54,  7.13s/it]

 [16] boletin_20251016.pdf (18.48 MB)


 Timeout (120s), reintento 1/3 en 5.5s...3<01:37,  6.50s/it]
 Timeout (120s), reintento 2/3 en 9.1s...
 Descargado: boletin_20251015.pdf (20.77 MB)
Descargando:  52%|█████▏    | 16/31 [03:02<01:37,  6.50s/it]

 [17] boletin_20251015.pdf (20.77 MB)


 Descargado: boletin_20251014.pdf (13.47 MB)5:28, 23.49s/it]
Descargando:  55%|█████▍    | 17/31 [03:08<05:28, 23.49s/it]

 [18] boletin_20251014.pdf (13.47 MB)


 Descargado: boletin_20251013.pdf (25.31 MB)3:59, 18.40s/it]
Descargando:  58%|█████▊    | 18/31 [03:15<03:59, 18.40s/it]

 [19] boletin_20251013.pdf (25.31 MB)


 Timeout (120s), reintento 1/3 en 5.5s...0<02:59, 14.94s/it]
 Descargado: boletin_20251012.pdf (4.68 MB)
Descargando:  61%|██████▏   | 19/31 [03:47<02:59, 14.94s/it]

 [20] boletin_20251012.pdf (4.68 MB)


 Descargado: boletin_20251011.pdf (16.85 MB)3:36, 19.64s/it]
Descargando:  65%|██████▍   | 20/31 [04:07<03:36, 19.64s/it]

 [21] boletin_20251011.pdf (16.85 MB)


 Descargado: boletin_20251010.pdf (18.33 MB)3:16, 19.66s/it]
Descargando:  68%|██████▊   | 21/31 [04:12<03:16, 19.66s/it]

 [22] boletin_20251010.pdf (18.33 MB)


 Descargado: boletin_20251009.pdf (16.83 MB)2:16, 15.20s/it]
Descargando:  71%|███████   | 22/31 [04:19<02:16, 15.20s/it]

 [23] boletin_20251009.pdf (16.83 MB)


 Descargado: boletin_20251008.pdf (8.73 MB)01:43, 12.98s/it]
Descargando:  74%|███████▍  | 23/31 [04:24<01:43, 12.98s/it]

 [24] boletin_20251008.pdf (8.73 MB)


 Descargado: boletin_20251007.pdf (16.43 MB)1:16, 10.93s/it]
Descargando:  77%|███████▋  | 24/31 [04:30<01:16, 10.93s/it]

 [25] boletin_20251007.pdf (16.43 MB)


 Timeout (120s), reintento 1/3 en 8.7s...4<00:55,  9.22s/it]
 Timeout (120s), reintento 2/3 en 8.3s...
 Descargado: boletin_20251006.pdf (10.90 MB)
Descargando:  81%|████████  | 25/31 [05:34<00:55,  9.22s/it]

 [26] boletin_20251006.pdf (10.90 MB)


 Descargado: boletin_20251005.pdf (13.59 MB)2:07, 25.53s/it]
Descargando:  84%|████████▍ | 26/31 [05:39<02:07, 25.53s/it]

 [27] boletin_20251005.pdf (13.59 MB)


 Descargado: boletin_20251004.pdf (8.86 MB)01:17, 19.39s/it]
Descargando:  87%|████████▋ | 27/31 [05:44<01:17, 19.39s/it]

 [28] boletin_20251004.pdf (8.86 MB)


 Descargado: boletin_20251003.pdf (22.71 MB)0:46, 15.62s/it]
Descargando:  90%|█████████ | 28/31 [05:52<00:46, 15.62s/it]

 [29] boletin_20251003.pdf (22.71 MB)


 Descargado: boletin_20251002.pdf (17.71 MB)0:26, 13.25s/it]
Descargando:  94%|█████████▎| 29/31 [05:59<00:26, 13.25s/it]

 [30] boletin_20251002.pdf (17.71 MB)


 Descargado: boletin_20251001.pdf (13.42 MB)0:11, 11.39s/it]
Descargando:  97%|█████████▋| 30/31 [06:06<00:11, 11.39s/it]

 [31] boletin_20251001.pdf (13.42 MB)


Descargando: 100%|██████████| 31/31 [06:11<00:00, 11.99s/it]



──────────────────────────────────────────────────────────────────────
 Octubre: 31/31 exitosos, 0 fallidos
──────────────────────────────────────────────────────────────────────

 Pausando 15 segundos antes del siguiente mes...



 SCRAPER ULTRA-ROBUSTO - 11/2025




 PROCESANDO: Noviembre 2025 (Mes 11)



 Navegando a: https://diariooficial.elperuano.pe/BoletinOficial
 Seleccionando año: 2025...
 Seleccionando mes: 11...
 Click en Buscar
 Encontrados 30 botones

 Primer boletín: 30/11/2025
 Fecha correcta

 Enlaces extraídos: 30

 Descargando 30 boletines
 Con pausas largas para evitar bloqueos...

 Timeout (120s), reintento 1/3 en 9.9s...<?, ?it/s]
 Descargado: boletin_20251130.pdf (15.39 MB)
Descargando:   0%|          | 0/30 [00:47<?, ?it/s]

 [1] boletin_20251130.pdf (15.39 MB)


 Descargado: boletin_20251129.pdf (10.84 MB):40, 53.11s/it]
Descargando:   3%|▎         | 1/30 [01:09<25:40, 53.11s/it]

 [2] boletin_20251129.pdf (10.84 MB)


 Descargado: boletin_20251128.pdf (21.40 MB):58, 34.22s/it]
Descargando:   7%|▋         | 2/30 [01:16<15:58, 34.22s/it]

 [3] boletin_20251128.pdf (21.40 MB)


 Descargado: boletin_20251127.pdf (18.82 MB):29, 21.10s/it]
Descargando:  10%|█         | 3/30 [01:21<09:29, 21.10s/it]

 [4] boletin_20251127.pdf (18.82 MB)


 Descargado: boletin_20251126.pdf (18.95 MB):31, 15.07s/it]
Descargando:  13%|█▎        | 4/30 [01:27<06:31, 15.07s/it]

 [5] boletin_20251126.pdf (18.95 MB)


 Descargado: boletin_20251125.pdf (18.44 MB):50, 11.60s/it]
Descargando:  17%|█▋        | 5/30 [01:32<04:50, 11.60s/it]

 [6] boletin_20251125.pdf (18.44 MB)


 Timeout (120s), reintento 1/3 en 9.7s...<03:51,  9.65s/it]
 Descargado: boletin_20251124.pdf (20.46 MB)
Descargando:  20%|██        | 6/30 [02:09<03:51,  9.65s/it]

 [7] boletin_20251124.pdf (20.46 MB)


 Descargado: boletin_20251123.pdf (11.95 MB):10, 18.72s/it]
Descargando:  23%|██▎       | 7/30 [02:15<07:10, 18.72s/it]

 [8] boletin_20251123.pdf (11.95 MB)


 Descargado: boletin_20251122.pdf (18.12 MB):16, 14.41s/it]
Descargando:  27%|██▋       | 8/30 [02:36<05:16, 14.41s/it]

 [9] boletin_20251122.pdf (18.12 MB)


 Descargado: boletin_20251121.pdf (33.59 MB):44, 16.38s/it]
Descargando:  30%|███       | 9/30 [02:43<05:44, 16.38s/it]

 [10] boletin_20251121.pdf (33.59 MB)


 Descargado: boletin_20251120.pdf (25.83 MB)4:40, 14.01s/it]
Descargando:  33%|███▎      | 10/30 [02:53<04:40, 14.01s/it]

 [11] boletin_20251120.pdf (25.83 MB)


 Descargado: boletin_20251119.pdf (17.31 MB)3:49, 12.07s/it]
Descargando:  37%|███▋      | 11/30 [02:58<03:49, 12.07s/it]

 [12] boletin_20251119.pdf (17.31 MB)


 Descargado: boletin_20251118.pdf (13.73 MB)3:04, 10.27s/it]
Descargando:  40%|████      | 12/30 [03:04<03:04, 10.27s/it]

 [13] boletin_20251118.pdf (13.73 MB)


 Descargado: boletin_20251117.pdf (13.64 MB)2:30,  8.85s/it]
Descargando:  43%|████▎     | 13/30 [03:09<02:30,  8.85s/it]

 [14] boletin_20251117.pdf (13.64 MB)


 Descargado: boletin_20251116.pdf (7.23 MB)02:06,  7.92s/it]
Descargando:  47%|████▋     | 14/30 [03:14<02:06,  7.92s/it]

 [15] boletin_20251116.pdf (7.23 MB)


 Timeout (120s), reintento 1/3 en 5.2s...8<01:45,  7.04s/it]
 Descargado: boletin_20251115.pdf (23.16 MB)
Descargando:  50%|█████     | 15/30 [04:02<01:45,  7.04s/it]

 [16] boletin_20251115.pdf (23.16 MB)


 Descargado: boletin_20251114.pdf (21.06 MB)4:27, 19.14s/it]
Descargando:  53%|█████▎    | 16/30 [04:08<04:27, 19.14s/it]

 [17] boletin_20251114.pdf (21.06 MB)


 Descargado: boletin_20251113.pdf (25.41 MB)3:23, 15.66s/it]
Descargando:  57%|█████▋    | 17/30 [04:16<03:23, 15.66s/it]

 [18] boletin_20251113.pdf (25.41 MB)


 Descargado: boletin_20251112.pdf (14.95 MB)2:34, 12.85s/it]
Descargando:  60%|██████    | 18/30 [04:22<02:34, 12.85s/it]

 [19] boletin_20251112.pdf (14.95 MB)


 Descargado: boletin_20251111.pdf (11.67 MB)1:56, 10.57s/it]
Descargando:  63%|██████▎   | 19/30 [04:26<01:56, 10.57s/it]

 [20] boletin_20251111.pdf (11.67 MB)


 Descargado: boletin_20251110.pdf (17.73 MB)1:29,  8.97s/it]
Descargando:  67%|██████▋   | 20/30 [04:32<01:29,  8.97s/it]

 [21] boletin_20251110.pdf (17.73 MB)


 Descargado: boletin_20251109.pdf (18.25 MB)1:10,  7.83s/it]
Descargando:  70%|███████   | 21/30 [04:37<01:10,  7.83s/it]

 [22] boletin_20251109.pdf (18.25 MB)


 Descargado: boletin_20251108.pdf (13.60 MB)1:00,  7.56s/it]
Descargando:  73%|███████▎  | 22/30 [04:44<01:00,  7.56s/it]

 [23] boletin_20251108.pdf (13.60 MB)


 Descargado: boletin_20251107.pdf (23.06 MB)0:47,  6.79s/it]
Descargando:  77%|███████▋  | 23/30 [04:50<00:47,  6.79s/it]

 [24] boletin_20251107.pdf (23.06 MB)


 Descargado: boletin_20251106.pdf (12.99 MB)0:41,  6.85s/it]
Descargando:  80%|████████  | 24/30 [04:55<00:41,  6.85s/it]

 [25] boletin_20251106.pdf (12.99 MB)


 Timeout (120s), reintento 1/3 en 6.5s...0<00:33,  6.70s/it]
 Descargado: boletin_20251105.pdf (13.93 MB)
Descargando:  83%|████████▎ | 25/30 [05:30<00:33,  6.70s/it]

 [26] boletin_20251105.pdf (13.93 MB)


 Descargado: boletin_20251104.pdf (9.07 MB)00:59, 14.91s/it]
Descargando:  87%|████████▋ | 26/30 [05:36<00:59, 14.91s/it]

 [27] boletin_20251104.pdf (9.07 MB)


 Descargado: boletin_20251103.pdf (19.43 MB)0:37, 12.55s/it]
Descargando:  90%|█████████ | 27/30 [05:43<00:37, 12.55s/it]

 [28] boletin_20251103.pdf (19.43 MB)


 Descargado: boletin_20251102.pdf (7.02 MB)00:21, 10.86s/it]
Descargando:  93%|█████████▎| 28/30 [06:05<00:21, 10.86s/it]

 [29] boletin_20251102.pdf (7.02 MB)


 Descargado: boletin_20251101.pdf (7.17 MB)00:13, 13.61s/it]
Descargando:  97%|█████████▋| 29/30 [06:25<00:13, 13.61s/it]

 [30] boletin_20251101.pdf (7.17 MB)


Descargando: 100%|██████████| 30/30 [06:28<00:00, 12.94s/it]


──────────────────────────────────────────────────────────────────────
 Noviembre: 30/30 exitosos, 0 fallidos
──────────────────────────────────────────────────────────────────────


 RESUMEN FINAL - TODOS LOS MESES

 Abril        - 30/30 exitosos (100.0%) |  0 fallidos
 Mayo         - 31/31 exitosos (100.0%) |  0 fallidos
 Junio        - 30/30 exitosos (100.0%) |  0 fallidos
 Julio        - 31/31 exitosos (100.0%) |  0 fallidos
 Agosto       - 30/31 exitosos (96.8%) |  1 fallidos
 Septiembre   - 30/30 exitosos (100.0%) |  0 fallidos
 Octubre      - 31/31 exitosos (100.0%) |  0 fallidos
 Noviembre    - 30/30 exitosos (100.0%) |  0 fallidos

──────────────────────────────────────────────────────────────────────
 TOTAL EXITOSOS:  243
 TOTAL FALLIDOS:  1
 TOTAL DESCARGAS: 244
 TASA DE ÉXITO GLOBAL: 99.6%


 Proceso completado!
 Archivos guardados en: boletinesmeses/





## 📄 PASO 5: Extraer Texto de los PDFs

In [5]:
# =========================================================================
# EXTRACCIÓN DE TEXTO DE PDFs - PIPELINE COMPLETO
# =========================================================================

import pdfplumber
from pathlib import Path
import json
import re
from datetime import datetime
from tqdm import tqdm
import pandas as pd

# =========================================================================
# CONFIGURACIÓN
# =========================================================================

# Carpetas
CARPETA_PDFS = Path("boletinesmeses")  # ← Ajusta según tu carpeta
CARPETA_TEXTOS = Path("textos")
CARPETA_DATOS = Path("datos")

# Crear carpetasc
CARPETA_TEXTOS.mkdir(exist_ok=True)
CARPETA_DATOS.mkdir(exist_ok=True)

print(f"\n{'='*70}")
print(f" EXTRACCIÓN DE TEXTO DE PDFs")
print(f"{'='*70}\n")
print(f" Carpeta PDFs: {CARPETA_PDFS}")
print(f" Carpeta textos: {CARPETA_TEXTOS}")
print(f" Carpeta datos: {CARPETA_DATOS}\n")


# =========================================================================
# FUNCIÓN: EXTRAER TEXTO DE UN PDF
# =========================================================================

def extraer_texto_pdf(ruta_pdf):
    """
    Extrae texto de un PDF usando pdfplumber
    
    Returns:
        dict: {
            'texto': str,
            'paginas': int,
            'caracteres': int,
            'palabras': int,
            'error': str o None
        }
    """
    
    try:
        texto_completo = []
        
        with pdfplumber.open(ruta_pdf) as pdf:
            num_paginas = len(pdf.pages)
            
            for pagina in pdf.pages:
                texto_pagina = pagina.extract_text()
                
                if texto_pagina:
                    texto_completo.append(texto_pagina)
        
        # Unir todo el texto
        texto = "\n\n".join(texto_completo)
        
        # Estadísticas básicas
        num_caracteres = len(texto)
        num_palabras = len(texto.split())
        
        return {
            'texto': texto,
            'paginas': num_paginas,
            'caracteres': num_caracteres,
            'palabras': num_palabras,
            'error': None
        }
    
    except Exception as e:
        return {
            'texto': '',
            'paginas': 0,
            'caracteres': 0,
            'palabras': 0,
            'error': str(e)
        }


# =========================================================================
# FUNCIÓN: LIMPIAR TEXTO (BÁSICO)
# =========================================================================

def limpiar_texto(texto):
    """
    Limpieza básica de texto
    - Normalizar espacios
    - Quitar líneas vacías excesivas
    - Mantener estructura (importante para NER)
    """
    
    # Normalizar espacios
    texto = re.sub(r'[ \t]+', ' ', texto)
    
    # Normalizar saltos de línea (máximo 2 consecutivos)
    texto = re.sub(r'\n{3,}', '\n\n', texto)
    
    # Quitar espacios al inicio/fin de cada línea
    lineas = [linea.strip() for linea in texto.split('\n')]
    texto = '\n'.join(lineas)
    
    return texto.strip()


# =========================================================================
# FUNCIÓN: EXTRAER METADATA DEL NOMBRE
# =========================================================================

def extraer_metadata_nombre(nombre_archivo):
    """
    Extrae fecha del nombre: boletin_20250831.pdf → 2025-08-31
    """
    
    # Buscar patrón: YYYYMMDD
    match = re.search(r'(\d{4})(\d{2})(\d{2})', nombre_archivo)
    
    if match:
        año, mes, dia = match.groups()
        return {
            'fecha': f"{año}-{mes}-{dia}",
            'año': int(año),
            'mes': int(mes),
            'dia': int(dia)
        }
    
    return {
        'fecha': None,
        'año': None,
        'mes': None,
        'dia': None
    }


# =========================================================================
# PROCESO PRINCIPAL
# =========================================================================

print(" Buscando archivos PDF...")
pdfs = list(CARPETA_PDFS.glob("*.pdf"))
print(f" Encontrados: {len(pdfs)} PDFs\n")

if len(pdfs) == 0:
    print(" No se encontraron PDFs en la carpeta")
    print(f"   Verifica que la carpeta sea: {CARPETA_PDFS}\n")
    exit()

# Estructura para guardar todo
corpus = []
estadisticas = {
    'total_pdfs': len(pdfs),
    'exitosos': 0,
    'fallidos': 0,
    'total_paginas': 0,
    'total_palabras': 0,
    'total_caracteres': 0,
    'archivos': []
}

print(f"{'='*70}")
print(f" EXTRAYENDO TEXTO DE {len(pdfs)} PDFs")
print(f"{'='*70}\n")

# Procesar cada PDF
for pdf_path in tqdm(pdfs, desc="Procesando PDFs"):
    
    # Extraer texto
    resultado = extraer_texto_pdf(pdf_path)
    
    if resultado['error']:
        tqdm.write(f" {pdf_path.name}: {resultado['error']}")
        estadisticas['fallidos'] += 1
        continue
    
    # Limpiar texto
    texto_limpio = limpiar_texto(resultado['texto'])
    
    # Metadata
    metadata = extraer_metadata_nombre(pdf_path.name)
    
    # Guardar texto individual
    nombre_txt = pdf_path.stem + ".txt"
    ruta_txt = CARPETA_TEXTOS / nombre_txt
    
    with open(ruta_txt, 'w', encoding='utf-8') as f:
        f.write(texto_limpio)
    
    # Agregar al corpus
    corpus.append({
        'archivo': pdf_path.name,
        'fecha': metadata['fecha'],
        'año': metadata['año'],
        'mes': metadata['mes'],
        'dia': metadata['dia'],
        'paginas': resultado['paginas'],
        'palabras': resultado['palabras'],
        'caracteres': resultado['caracteres'],
        'texto': texto_limpio,
        'ruta_txt': str(ruta_txt)
    })
    
    # Actualizar estadísticas
    estadisticas['exitosos'] += 1
    estadisticas['total_paginas'] += resultado['paginas']
    estadisticas['total_palabras'] += resultado['palabras']
    estadisticas['total_caracteres'] += resultado['caracteres']
    
    estadisticas['archivos'].append({
        'archivo': pdf_path.name,
        'fecha': metadata['fecha'],
        'paginas': resultado['paginas'],
        'palabras': resultado['palabras']
    })
    
    tqdm.write(f" {pdf_path.name}: {resultado['paginas']} págs, {resultado['palabras']:,} palabras")

print(f"\n{'='*70}")
print(f" GUARDANDO DATOS")
print(f"{'='*70}\n")

# =========================================================================
# GUARDAR: JSON con todo (para NER posterior)
# =========================================================================

print(" Guardando JSON completo...", end=" ")
ruta_json = CARPETA_DATOS / "todos_textos.json"

with open(ruta_json, 'w', encoding='utf-8') as f:
    json.dump(corpus, f, ensure_ascii=False, indent=2)

print(f" {ruta_json}")

# =========================================================================
# GUARDAR: Corpus completo (todo el texto junto)
# =========================================================================

print(" Guardando corpus completo...", end=" ")
ruta_corpus = CARPETA_DATOS / "corpus_completo.txt"

with open(ruta_corpus, 'w', encoding='utf-8') as f:
    for doc in corpus:
        f.write(f"\n{'='*70}\n")
        f.write(f"ARCHIVO: {doc['archivo']}\n")
        f.write(f"FECHA: {doc['fecha']}\n")
        f.write(f"{'='*70}\n\n")
        f.write(doc['texto'])
        f.write("\n\n")

print(f" {ruta_corpus}")

# =========================================================================
# GUARDAR: Estadísticas
# =========================================================================

print("📄 Guardando estadísticas...", end=" ")

# Agregar promedios
estadisticas['promedio_paginas'] = estadisticas['total_paginas'] / estadisticas['exitosos'] if estadisticas['exitosos'] > 0 else 0
estadisticas['promedio_palabras'] = estadisticas['total_palabras'] / estadisticas['exitosos'] if estadisticas['exitosos'] > 0 else 0

ruta_stats = CARPETA_DATOS / "estadisticas.json"

with open(ruta_stats, 'w', encoding='utf-8') as f:
    json.dump(estadisticas, f, ensure_ascii=False, indent=2)

print(f" {ruta_stats}")

# =========================================================================
# GUARDAR: CSV con metadata
# =========================================================================

print(" Guardando CSV con metadata...", end=" ")
ruta_csv = CARPETA_DATOS / "metadata_boletines.csv"

df = pd.DataFrame([{
    'archivo': doc['archivo'],
    'fecha': doc['fecha'],
    'año': doc['año'],
    'mes': doc['mes'],
    'dia': doc['dia'],
    'paginas': doc['paginas'],
    'palabras': doc['palabras'],
    'caracteres': doc['caracteres']
} for doc in corpus])

df.to_csv(ruta_csv, index=False, encoding='utf-8')

print(f" {ruta_csv}")

# =========================================================================
# RESUMEN FINAL
# =========================================================================

print(f"\n{'='*70}")
print(f" RESUMEN FINAL")
print(f"{'='*70}\n")

print(f" PDFs procesados: {estadisticas['exitosos']}/{estadisticas['total_pdfs']}")
print(f" PDFs fallidos: {estadisticas['fallidos']}")
print(f"\n Estadísticas del corpus:")
print(f"   Total páginas: {estadisticas['total_paginas']:,}")
print(f"   Total palabras: {estadisticas['total_palabras']:,}")
print(f"   Total caracteres: {estadisticas['total_caracteres']:,}")
print(f"\n Promedios:")
print(f"   Páginas/PDF: {estadisticas['promedio_paginas']:.1f}")
print(f"   Palabras/PDF: {estadisticas['promedio_palabras']:,.0f}")

print(f"\n{'='*70}")
print(f" ARCHIVOS GENERADOS")
print(f"{'='*70}\n")

print(f" {CARPETA_TEXTOS}/")
print(f"   ├── {estadisticas['exitosos']} archivos .txt (uno por PDF)")
print(f"\n {CARPETA_DATOS}/")
print(f"   ├── todos_textos.json (corpus completo + metadata)")
print(f"   ├── corpus_completo.txt (todo el texto unido)")
print(f"   ├── estadisticas.json (stats del corpus)")
print(f"   └── metadata_boletines.csv (tabla de metadatos)")

print(f"\n{'='*70}")
print(f" EXTRACCIÓN COMPLETADA")
print(f"{'='*70}\n")

print(f" Próximo paso: NER (Named Entity Recognition)")
print(f"   Archivos listos en: {CARPETA_DATOS}/todos_textos.json\n")


 EXTRACCIÓN DE TEXTO DE PDFs

 Carpeta PDFs: boletinesmeses
 Carpeta textos: textos
 Carpeta datos: datos

 Buscando archivos PDF...
 Encontrados: 243 PDFs

 EXTRAYENDO TEXTO DE 243 PDFs



Procesando PDFs:   0%|          | 1/243 [00:37<2:30:55, 37.42s/it]

 boletin_20250401.pdf: 20 págs, 75,955 palabras


Procesando PDFs:   1%|          | 2/243 [01:37<3:22:50, 50.50s/it]

 boletin_20250402.pdf: 44 págs, 131,555 palabras


Procesando PDFs:   1%|          | 3/243 [03:44<5:42:46, 85.69s/it]

 boletin_20250403.pdf: 56 págs, 148,061 palabras


Procesando PDFs:   2%|▏         | 4/243 [05:52<6:48:15, 102.49s/it]

 boletin_20250404.pdf: 76 págs, 155,124 palabras


Procesando PDFs:   2%|▏         | 5/243 [06:58<5:54:06, 89.27s/it] 

 boletin_20250405.pdf: 20 págs, 39,546 palabras


Procesando PDFs:   2%|▏         | 6/243 [07:16<4:16:34, 64.95s/it]

 boletin_20250406.pdf: 8 págs, 11,414 palabras


Procesando PDFs:   3%|▎         | 7/243 [09:33<5:48:30, 88.60s/it]

 boletin_20250407.pdf: 44 págs, 143,246 palabras


Procesando PDFs:   3%|▎         | 8/243 [10:20<4:54:28, 75.19s/it]

 boletin_20250408.pdf: 24 págs, 64,687 palabras


Procesando PDFs:   4%|▎         | 9/243 [11:23<4:38:14, 71.34s/it]

 boletin_20250409.pdf: 40 págs, 119,099 palabras


Procesando PDFs:   4%|▍         | 10/243 [12:18<4:17:48, 66.39s/it]

 boletin_20250410.pdf: 40 págs, 127,054 palabras


Procesando PDFs:   5%|▍         | 11/243 [13:41<4:35:58, 71.37s/it]

 boletin_20250411.pdf: 48 págs, 145,591 palabras


Procesando PDFs:   5%|▍         | 12/243 [14:45<4:26:51, 69.31s/it]

 boletin_20250412.pdf: 20 págs, 40,692 palabras


Procesando PDFs:   5%|▌         | 13/243 [15:03<3:25:38, 53.65s/it]

 boletin_20250413.pdf: 12 págs, 26,354 palabras


Procesando PDFs:   6%|▌         | 14/243 [15:51<3:18:04, 51.90s/it]

 boletin_20250414.pdf: 36 págs, 135,783 palabras


Procesando PDFs:   6%|▌         | 15/243 [16:53<3:29:23, 55.10s/it]

 boletin_20250415.pdf: 32 págs, 86,758 palabras


Procesando PDFs:   7%|▋         | 16/243 [18:48<4:36:05, 72.97s/it]

 boletin_20250416.pdf: 60 págs, 148,546 palabras


Procesando PDFs:   7%|▋         | 17/243 [19:46<4:18:26, 68.61s/it]

 boletin_20250417.pdf: 20 págs, 38,554 palabras


Procesando PDFs:   7%|▋         | 18/243 [19:58<3:13:01, 51.48s/it]

 boletin_20250418.pdf: 4 págs, 7,056 palabras


Procesando PDFs:   8%|▊         | 19/243 [20:54<3:17:58, 53.03s/it]

 boletin_20250419.pdf: 16 págs, 20,706 palabras


Procesando PDFs:   8%|▊         | 20/243 [21:19<2:45:37, 44.56s/it]

 boletin_20250420.pdf: 5 págs, 4,463 palabras


Procesando PDFs:   9%|▊         | 21/243 [22:58<3:44:47, 60.76s/it]

 boletin_20250421.pdf: 44 págs, 141,899 palabras


Procesando PDFs:   9%|▉         | 22/243 [24:20<4:07:22, 67.16s/it]

 boletin_20250422.pdf: 28 págs, 73,622 palabras


Procesando PDFs:   9%|▉         | 23/243 [26:17<5:01:01, 82.10s/it]

 boletin_20250423.pdf: 40 págs, 106,320 palabras


Procesando PDFs:  10%|▉         | 24/243 [28:51<6:19:06, 103.87s/it]

 boletin_20250424.pdf: 60 págs, 137,871 palabras


Procesando PDFs:  10%|█         | 25/243 [30:47<6:30:38, 107.52s/it]

 boletin_20250425.pdf: 44 págs, 121,510 palabras


Procesando PDFs:  11%|█         | 26/243 [32:05<5:56:14, 98.50s/it] 

 boletin_20250426.pdf: 24 págs, 39,330 palabras


Procesando PDFs:  11%|█         | 27/243 [32:16<4:20:25, 72.34s/it]

 boletin_20250427.pdf: 8 págs, 9,691 palabras


Procesando PDFs:  12%|█▏        | 28/243 [34:31<5:26:12, 91.04s/it]

 boletin_20250428.pdf: 48 págs, 130,715 palabras


Procesando PDFs:  12%|█▏        | 29/243 [34:59<4:17:07, 72.09s/it]

 boletin_20250429.pdf: 20 págs, 61,412 palabras


Procesando PDFs:  12%|█▏        | 30/243 [36:23<4:28:37, 75.67s/it]

 boletin_20250430.pdf: 44 págs, 137,422 palabras


Procesando PDFs:  13%|█▎        | 31/243 [37:12<3:59:22, 67.75s/it]

 boletin_20250501.pdf: 12 págs, 22,967 palabras


Procesando PDFs:  13%|█▎        | 32/243 [38:27<4:05:37, 69.85s/it]

 boletin_20250502.pdf: 40 págs, 143,198 palabras


Procesando PDFs:  14%|█▎        | 33/243 [38:34<2:59:10, 51.19s/it]

 boletin_20250503.pdf: 8 págs, 11,453 palabras


Procesando PDFs:  14%|█▍        | 34/243 [39:06<2:37:49, 45.31s/it]

 boletin_20250504.pdf: 5 págs, 3,199 palabras


Procesando PDFs:  14%|█▍        | 35/243 [39:51<2:36:36, 45.18s/it]

 boletin_20250505.pdf: 32 págs, 107,075 palabras


Procesando PDFs:  15%|█▍        | 36/243 [40:50<2:50:34, 49.44s/it]

 boletin_20250506.pdf: 24 págs, 57,432 palabras


Procesando PDFs:  15%|█▌        | 37/243 [41:48<2:58:06, 51.88s/it]

 boletin_20250507.pdf: 36 págs, 119,133 palabras


Procesando PDFs:  16%|█▌        | 38/243 [42:54<3:12:08, 56.24s/it]

 boletin_20250508.pdf: 36 págs, 114,032 palabras


Procesando PDFs:  16%|█▌        | 39/243 [44:22<3:43:19, 65.68s/it]

 boletin_20250509.pdf: 60 págs, 147,009 palabras


Procesando PDFs:  16%|█▋        | 40/243 [44:42<2:56:10, 52.07s/it]

 boletin_20250510.pdf: 16 págs, 34,331 palabras


Procesando PDFs:  17%|█▋        | 41/243 [45:27<2:47:26, 49.74s/it]

 boletin_20250511.pdf: 8 págs, 8,106 palabras


Procesando PDFs:  17%|█▋        | 42/243 [47:47<4:17:20, 76.82s/it]

 boletin_20250512.pdf: 32 págs, 99,132 palabras


Procesando PDFs:  18%|█▊        | 43/243 [48:17<3:29:46, 62.93s/it]

 boletin_20250513.pdf: 20 págs, 61,423 palabras


Procesando PDFs:  18%|█▊        | 44/243 [49:19<3:27:45, 62.64s/it]

 boletin_20250514.pdf: 36 págs, 133,341 palabras


Procesando PDFs:  19%|█▊        | 45/243 [50:31<3:36:05, 65.48s/it]

 boletin_20250515.pdf: 44 págs, 123,857 palabras


Procesando PDFs:  19%|█▉        | 46/243 [51:30<3:28:34, 63.52s/it]

 boletin_20250516.pdf: 44 págs, 121,664 palabras


Procesando PDFs:  19%|█▉        | 47/243 [52:15<3:08:55, 57.84s/it]

 boletin_20250517.pdf: 16 págs, 29,308 palabras


Procesando PDFs:  20%|█▉        | 48/243 [52:28<2:24:55, 44.59s/it]

 boletin_20250518.pdf: 8 págs, 7,594 palabras


Procesando PDFs:  20%|██        | 49/243 [53:20<2:30:57, 46.69s/it]

 boletin_20250519.pdf: 32 págs, 125,434 palabras


Procesando PDFs:  21%|██        | 50/243 [54:02<2:25:48, 45.33s/it]

 boletin_20250520.pdf: 24 págs, 76,138 palabras


Procesando PDFs:  21%|██        | 51/243 [54:58<2:35:05, 48.46s/it]

 boletin_20250521.pdf: 36 págs, 126,302 palabras


Procesando PDFs:  21%|██▏       | 52/243 [56:58<3:42:50, 70.00s/it]

 boletin_20250522.pdf: 44 págs, 124,412 palabras


Procesando PDFs:  22%|██▏       | 53/243 [58:23<3:55:25, 74.34s/it]

 boletin_20250523.pdf: 44 págs, 125,601 palabras


Procesando PDFs:  22%|██▏       | 54/243 [59:43<3:59:38, 76.07s/it]

 boletin_20250524.pdf: 16 págs, 31,396 palabras


Procesando PDFs:  23%|██▎       | 55/243 [1:00:40<3:41:08, 70.58s/it]

 boletin_20250525.pdf: 8 págs, 6,686 palabras


Procesando PDFs:  23%|██▎       | 56/243 [1:02:47<4:32:04, 87.30s/it]

 boletin_20250526.pdf: 44 págs, 132,542 palabras


Procesando PDFs:  23%|██▎       | 57/243 [1:03:18<3:38:05, 70.35s/it]

 boletin_20250527.pdf: 20 págs, 62,965 palabras


Procesando PDFs:  24%|██▍       | 58/243 [1:03:56<3:07:29, 60.81s/it]

 boletin_20250528.pdf: 36 págs, 115,848 palabras


Procesando PDFs:  24%|██▍       | 59/243 [1:05:21<3:28:37, 68.03s/it]

 boletin_20250529.pdf: 44 págs, 131,123 palabras


Procesando PDFs:  25%|██▍       | 60/243 [1:07:18<4:12:43, 82.86s/it]

 boletin_20250530.pdf: 48 págs, 143,291 palabras


Procesando PDFs:  25%|██▌       | 61/243 [1:07:35<3:10:46, 62.89s/it]

 boletin_20250531.pdf: 12 págs, 32,092 palabras


Procesando PDFs:  26%|██▌       | 62/243 [1:07:44<2:21:00, 46.74s/it]

 boletin_20250601.pdf: 4 págs, 3,917 palabras


Procesando PDFs:  26%|██▌       | 63/243 [1:08:21<2:11:18, 43.77s/it]

 boletin_20250602.pdf: 36 págs, 110,038 palabras


Procesando PDFs:  26%|██▋       | 64/243 [1:08:54<2:01:36, 40.76s/it]

 boletin_20250603.pdf: 24 págs, 73,072 palabras


Procesando PDFs:  27%|██▋       | 65/243 [1:10:43<3:01:15, 61.10s/it]

 boletin_20250604.pdf: 48 págs, 132,507 palabras


Procesando PDFs:  27%|██▋       | 66/243 [1:12:04<3:17:26, 66.93s/it]

 boletin_20250605.pdf: 40 págs, 116,345 palabras


Procesando PDFs:  28%|██▊       | 67/243 [1:13:09<3:14:46, 66.40s/it]

 boletin_20250606.pdf: 36 págs, 105,530 palabras


Procesando PDFs:  28%|██▊       | 68/243 [1:13:50<2:51:46, 58.90s/it]

 boletin_20250607.pdf: 20 págs, 32,147 palabras


Procesando PDFs:  28%|██▊       | 69/243 [1:15:00<3:00:09, 62.13s/it]

 boletin_20250608.pdf: 9 págs, 6,981 palabras


Procesando PDFs:  29%|██▉       | 70/243 [1:16:36<3:28:53, 72.45s/it]

 boletin_20250609.pdf: 36 págs, 127,921 palabras


Procesando PDFs:  29%|██▉       | 71/243 [1:17:38<3:18:16, 69.17s/it]

 boletin_20250610.pdf: 32 págs, 86,293 palabras


Procesando PDFs:  30%|██▉       | 72/243 [1:18:38<3:09:07, 66.36s/it]

 boletin_20250611.pdf: 52 págs, 128,819 palabras


Procesando PDFs:  30%|███       | 73/243 [1:19:56<3:18:25, 70.03s/it]

 boletin_20250612.pdf: 48 págs, 148,548 palabras


Procesando PDFs:  30%|███       | 74/243 [1:20:45<2:59:37, 63.77s/it]

 boletin_20250613.pdf: 48 págs, 154,645 palabras


Procesando PDFs:  31%|███       | 75/243 [1:21:22<2:36:09, 55.77s/it]

 boletin_20250614.pdf: 16 págs, 28,717 palabras


Procesando PDFs:  31%|███▏      | 76/243 [1:21:35<1:59:23, 42.90s/it]

 boletin_20250615.pdf: 17 págs, 24,212 palabras


Procesando PDFs:  32%|███▏      | 77/243 [1:22:26<2:04:55, 45.15s/it]

 boletin_20250616.pdf: 36 págs, 107,042 palabras


Procesando PDFs:  32%|███▏      | 78/243 [1:22:55<1:50:48, 40.30s/it]

 boletin_20250617.pdf: 24 págs, 83,840 palabras


Procesando PDFs:  33%|███▎      | 79/243 [1:24:00<2:10:17, 47.67s/it]

 boletin_20250618.pdf: 44 págs, 121,412 palabras


Procesando PDFs:  33%|███▎      | 80/243 [1:25:14<2:31:38, 55.82s/it]

 boletin_20250619.pdf: 48 págs, 158,803 palabras


Procesando PDFs:  33%|███▎      | 81/243 [1:25:58<2:20:59, 52.22s/it]

 boletin_20250620.pdf: 48 págs, 150,405 palabras


Procesando PDFs:  34%|███▎      | 82/243 [1:26:22<1:56:53, 43.56s/it]

 boletin_20250621.pdf: 20 págs, 53,980 palabras


Procesando PDFs:  34%|███▍      | 83/243 [1:26:45<1:39:41, 37.38s/it]

 boletin_20250622.pdf: 13 págs, 23,985 palabras


Procesando PDFs:  35%|███▍      | 84/243 [1:27:51<2:01:58, 46.03s/it]

 boletin_20250623.pdf: 44 págs, 149,552 palabras


Procesando PDFs:  35%|███▍      | 85/243 [1:28:40<2:04:07, 47.14s/it]

 boletin_20250624.pdf: 28 págs, 84,411 palabras


Procesando PDFs:  35%|███▌      | 86/243 [1:29:45<2:17:13, 52.44s/it]

 boletin_20250625.pdf: 36 págs, 123,882 palabras


Procesando PDFs:  36%|███▌      | 87/243 [1:31:09<2:40:57, 61.91s/it]

 boletin_20250626.pdf: 36 págs, 120,342 palabras


Procesando PDFs:  36%|███▌      | 88/243 [1:32:07<2:36:31, 60.59s/it]

 boletin_20250627.pdf: 44 págs, 137,467 palabras


Procesando PDFs:  37%|███▋      | 89/243 [1:32:37<2:11:47, 51.35s/it]

 boletin_20250628.pdf: 16 págs, 29,718 palabras


Procesando PDFs:  37%|███▋      | 90/243 [1:33:00<1:49:24, 42.91s/it]

 boletin_20250629.pdf: 9 págs, 9,655 palabras


Procesando PDFs:  37%|███▋      | 91/243 [1:34:23<2:19:03, 54.89s/it]

 boletin_20250630.pdf: 44 págs, 143,554 palabras


Procesando PDFs:  38%|███▊      | 92/243 [1:36:03<2:52:25, 68.51s/it]

 boletin_20250701.pdf: 36 págs, 90,662 palabras


Procesando PDFs:  38%|███▊      | 93/243 [1:37:25<3:01:30, 72.61s/it]

 boletin_20250702.pdf: 36 págs, 117,059 palabras


Procesando PDFs:  39%|███▊      | 94/243 [1:38:43<3:04:24, 74.26s/it]

 boletin_20250703.pdf: 36 págs, 110,885 palabras


Procesando PDFs:  39%|███▉      | 95/243 [1:41:28<4:10:23, 101.51s/it]

 boletin_20250704.pdf: 48 págs, 106,803 palabras


Procesando PDFs:  40%|███▉      | 96/243 [1:42:19<3:31:23, 86.28s/it] 

 boletin_20250705.pdf: 20 págs, 32,188 palabras


Procesando PDFs:  40%|███▉      | 97/243 [1:42:30<2:35:06, 63.74s/it]

 boletin_20250706.pdf: 5 págs, 9,070 palabras


Procesando PDFs:  40%|████      | 98/243 [1:43:28<2:29:57, 62.05s/it]

 boletin_20250707.pdf: 40 págs, 140,286 palabras


Procesando PDFs:  41%|████      | 99/243 [1:44:15<2:18:11, 57.58s/it]

 boletin_20250708.pdf: 28 págs, 82,646 palabras


Procesando PDFs:  41%|████      | 100/243 [1:45:09<2:14:28, 56.42s/it]

 boletin_20250709.pdf: 44 págs, 133,748 palabras


Procesando PDFs:  42%|████▏     | 101/243 [1:46:20<2:24:03, 60.87s/it]

 boletin_20250710.pdf: 44 págs, 137,375 palabras


Procesando PDFs:  42%|████▏     | 102/243 [1:47:47<2:40:50, 68.44s/it]

 boletin_20250711.pdf: 44 págs, 151,996 palabras


Procesando PDFs:  42%|████▏     | 103/243 [1:48:07<2:05:47, 53.91s/it]

 boletin_20250712.pdf: 16 págs, 44,095 palabras


Procesando PDFs:  43%|████▎     | 104/243 [1:48:17<1:34:52, 40.95s/it]

 boletin_20250713.pdf: 9 págs, 14,958 palabras


Procesando PDFs:  43%|████▎     | 105/243 [1:49:56<2:13:52, 58.21s/it]

 boletin_20250714.pdf: 40 págs, 130,052 palabras


Procesando PDFs:  44%|████▎     | 106/243 [1:51:18<2:29:04, 65.29s/it]

 boletin_20250715.pdf: 52 págs, 98,391 palabras


Procesando PDFs:  44%|████▍     | 107/243 [1:52:29<2:32:05, 67.10s/it]

 boletin_20250716.pdf: 48 págs, 143,065 palabras


Procesando PDFs:  44%|████▍     | 108/243 [1:54:03<2:49:15, 75.22s/it]

 boletin_20250717.pdf: 48 págs, 146,339 palabras


Procesando PDFs:  45%|████▍     | 109/243 [1:56:19<3:28:35, 93.40s/it]

 boletin_20250718.pdf: 44 págs, 131,470 palabras


Procesando PDFs:  45%|████▌     | 110/243 [1:57:08<2:57:44, 80.18s/it]

 boletin_20250719.pdf: 20 págs, 48,716 palabras


Procesando PDFs:  46%|████▌     | 111/243 [1:57:29<2:17:24, 62.46s/it]

 boletin_20250720.pdf: 13 págs, 23,775 palabras


Procesando PDFs:  46%|████▌     | 112/243 [1:59:29<2:53:49, 79.62s/it]

 boletin_20250721.pdf: 52 págs, 152,921 palabras


Procesando PDFs:  47%|████▋     | 113/243 [2:00:28<2:39:27, 73.59s/it]

 boletin_20250722.pdf: 32 págs, 104,968 palabras


Procesando PDFs:  47%|████▋     | 114/243 [2:01:08<2:16:27, 63.47s/it]

 boletin_20250723.pdf: 20 págs, 39,027 palabras


Procesando PDFs:  47%|████▋     | 115/243 [2:02:49<2:38:56, 74.51s/it]

 boletin_20250724.pdf: 44 págs, 140,143 palabras


Procesando PDFs:  48%|████▊     | 116/243 [2:04:35<2:57:51, 84.03s/it]

 boletin_20250725.pdf: 36 págs, 99,855 palabras


Procesando PDFs:  48%|████▊     | 117/243 [2:05:06<2:22:56, 68.07s/it]

 boletin_20250726.pdf: 24 págs, 50,487 palabras


Procesando PDFs:  49%|████▊     | 118/243 [2:05:27<1:52:41, 54.09s/it]

 boletin_20250727.pdf: 5 págs, 3,680 palabras


Procesando PDFs:  49%|████▉     | 119/243 [2:05:38<1:25:04, 41.17s/it]

 boletin_20250728.pdf: 8 págs, 14,273 palabras


Procesando PDFs:  49%|████▉     | 120/243 [2:05:42<1:01:39, 30.08s/it]

 boletin_20250729.pdf: 4 págs, 2,313 palabras


Procesando PDFs:  50%|████▉     | 121/243 [2:06:52<1:25:07, 41.87s/it]

 boletin_20250730.pdf: 36 págs, 121,765 palabras


Procesando PDFs:  50%|█████     | 122/243 [2:07:39<1:27:42, 43.49s/it]

 boletin_20250731.pdf: 24 págs, 58,475 palabras


Procesando PDFs:  51%|█████     | 123/243 [2:08:26<1:28:49, 44.42s/it]

 boletin_20250801.pdf: 36 págs, 122,109 palabras


Procesando PDFs:  51%|█████     | 124/243 [2:08:35<1:07:30, 34.03s/it]

 boletin_20250803.pdf: 9 págs, 6,483 palabras


Procesando PDFs:  51%|█████▏    | 125/243 [2:09:48<1:29:56, 45.73s/it]

 boletin_20250804.pdf: 36 págs, 126,035 palabras


Procesando PDFs:  52%|█████▏    | 126/243 [2:10:34<1:29:08, 45.71s/it]

 boletin_20250805.pdf: 28 págs, 81,335 palabras


Procesando PDFs:  52%|█████▏    | 127/243 [2:11:16<1:26:14, 44.61s/it]

 boletin_20250806.pdf: 16 págs, 25,930 palabras


Procesando PDFs:  53%|█████▎    | 128/243 [2:12:36<1:45:59, 55.30s/it]

 boletin_20250807.pdf: 36 págs, 128,411 palabras


Procesando PDFs:  53%|█████▎    | 129/243 [2:13:15<1:35:20, 50.18s/it]

 boletin_20250808.pdf: 28 págs, 88,643 palabras


Procesando PDFs:  53%|█████▎    | 130/243 [2:14:01<1:32:20, 49.03s/it]

 boletin_20250809.pdf: 20 págs, 34,443 palabras


Procesando PDFs:  54%|█████▍    | 131/243 [2:14:32<1:21:23, 43.60s/it]

 boletin_20250810.pdf: 9 págs, 10,818 palabras


Procesando PDFs:  54%|█████▍    | 132/243 [2:15:57<1:43:39, 56.03s/it]

 boletin_20250811.pdf: 36 págs, 117,524 palabras


Procesando PDFs:  55%|█████▍    | 133/243 [2:16:58<1:45:19, 57.45s/it]

 boletin_20250812.pdf: 24 págs, 68,624 palabras


Procesando PDFs:  55%|█████▌    | 134/243 [2:18:19<1:57:15, 64.55s/it]

 boletin_20250813.pdf: 40 págs, 141,931 palabras


Procesando PDFs:  56%|█████▌    | 135/243 [2:23:11<3:59:03, 132.81s/it]

 boletin_20250814.pdf: 56 págs, 124,844 palabras


Procesando PDFs:  56%|█████▌    | 136/243 [2:24:30<3:28:09, 116.73s/it]

 boletin_20250815.pdf: 52 págs, 158,695 palabras


Procesando PDFs:  56%|█████▋    | 137/243 [2:24:49<2:34:21, 87.37s/it] 

 boletin_20250816.pdf: 16 págs, 37,579 palabras


Procesando PDFs:  57%|█████▋    | 138/243 [2:25:17<2:01:45, 69.58s/it]

 boletin_20250817.pdf: 8 págs, 9,426 palabras


Procesando PDFs:  57%|█████▋    | 139/243 [2:27:03<2:19:45, 80.63s/it]

 boletin_20250818.pdf: 52 págs, 139,044 palabras


Procesando PDFs:  58%|█████▊    | 140/243 [2:28:04<2:08:04, 74.61s/it]

 boletin_20250819.pdf: 32 págs, 97,682 palabras


Procesando PDFs:  58%|█████▊    | 141/243 [2:29:13<2:03:52, 72.87s/it]

 boletin_20250820.pdf: 48 págs, 167,410 palabras


Procesando PDFs:  58%|█████▊    | 142/243 [2:31:09<2:24:35, 85.89s/it]

 boletin_20250821.pdf: 44 págs, 128,865 palabras


Procesando PDFs:  59%|█████▉    | 143/243 [2:32:26<2:18:29, 83.09s/it]

 boletin_20250822.pdf: 48 págs, 127,653 palabras


Procesando PDFs:  59%|█████▉    | 144/243 [2:33:37<2:11:21, 79.61s/it]

 boletin_20250823.pdf: 28 págs, 48,560 palabras


Procesando PDFs:  60%|█████▉    | 145/243 [2:33:58<1:41:23, 62.08s/it]

 boletin_20250824.pdf: 9 págs, 13,056 palabras


Procesando PDFs:  60%|██████    | 146/243 [2:35:47<2:03:12, 76.21s/it]

 boletin_20250825.pdf: 44 págs, 147,752 palabras


Procesando PDFs:  60%|██████    | 147/243 [2:36:33<1:47:14, 67.02s/it]

 boletin_20250826.pdf: 24 págs, 92,768 palabras


Procesando PDFs:  61%|██████    | 148/243 [2:38:23<2:06:30, 79.90s/it]

 boletin_20250827.pdf: 44 págs, 123,918 palabras


Procesando PDFs:  61%|██████▏   | 149/243 [2:39:30<1:58:53, 75.89s/it]

 boletin_20250828.pdf: 36 págs, 115,429 palabras


Procesando PDFs:  62%|██████▏   | 150/243 [2:40:44<1:56:53, 75.41s/it]

 boletin_20250829.pdf: 48 págs, 142,181 palabras


Procesando PDFs:  62%|██████▏   | 151/243 [2:41:27<1:41:00, 65.87s/it]

 boletin_20250830.pdf: 16 págs, 28,186 palabras


Procesando PDFs:  63%|██████▎   | 152/243 [2:41:33<1:12:32, 47.83s/it]

 boletin_20250831.pdf: 5 págs, 6,573 palabras


Procesando PDFs:  63%|██████▎   | 153/243 [2:43:01<1:29:33, 59.71s/it]

 boletin_20250901.pdf: 52 págs, 153,399 palabras


Procesando PDFs:  63%|██████▎   | 154/243 [2:43:45<1:21:38, 55.04s/it]

 boletin_20250902.pdf: 24 págs, 71,946 palabras


Procesando PDFs:  64%|██████▍   | 155/243 [2:45:00<1:29:43, 61.18s/it]

 boletin_20250903.pdf: 44 págs, 123,524 palabras


Procesando PDFs:  64%|██████▍   | 156/243 [2:45:56<1:26:27, 59.62s/it]

 boletin_20250904.pdf: 48 págs, 138,829 palabras


Procesando PDFs:  65%|██████▍   | 157/243 [2:47:44<1:46:15, 74.13s/it]

 boletin_20250905.pdf: 48 págs, 144,596 palabras


Procesando PDFs:  65%|██████▌   | 158/243 [2:48:03<1:21:34, 57.58s/it]

 boletin_20250906.pdf: 12 págs, 30,115 palabras


Procesando PDFs:  65%|██████▌   | 159/243 [2:48:11<59:40, 42.62s/it]  

 boletin_20250907.pdf: 5 págs, 4,389 palabras


Procesando PDFs:  66%|██████▌   | 160/243 [2:49:49<1:22:09, 59.39s/it]

 boletin_20250908.pdf: 40 págs, 127,647 palabras


Procesando PDFs:  66%|██████▋   | 161/243 [2:52:00<1:50:27, 80.83s/it]

 boletin_20250909.pdf: 36 págs, 82,674 palabras


Procesando PDFs:  67%|██████▋   | 162/243 [2:53:19<1:48:09, 80.11s/it]

 boletin_20250910.pdf: 48 págs, 157,985 palabras


Procesando PDFs:  67%|██████▋   | 163/243 [2:54:41<1:47:46, 80.84s/it]

 boletin_20250911.pdf: 44 págs, 130,480 palabras


Procesando PDFs:  67%|██████▋   | 164/243 [2:56:15<1:51:21, 84.58s/it]

 boletin_20250912.pdf: 44 págs, 137,561 palabras


Procesando PDFs:  68%|██████▊   | 165/243 [2:56:54<1:32:31, 71.17s/it]

 boletin_20250913.pdf: 16 págs, 31,383 palabras


Procesando PDFs:  68%|██████▊   | 166/243 [2:57:09<1:09:26, 54.11s/it]

 boletin_20250914.pdf: 9 págs, 7,668 palabras


Procesando PDFs:  69%|██████▊   | 167/243 [2:58:59<1:29:54, 70.97s/it]

 boletin_20250915.pdf: 52 págs, 155,717 palabras


Procesando PDFs:  69%|██████▉   | 168/243 [2:59:44<1:18:50, 63.08s/it]

 boletin_20250916.pdf: 24 págs, 82,609 palabras


Procesando PDFs:  70%|██████▉   | 169/243 [3:01:08<1:25:43, 69.51s/it]

 boletin_20250917.pdf: 48 págs, 158,444 palabras


Procesando PDFs:  70%|██████▉   | 170/243 [3:03:13<1:44:34, 85.96s/it]

 boletin_20250918.pdf: 60 págs, 172,028 palabras


Procesando PDFs:  70%|███████   | 171/243 [3:04:59<1:50:37, 92.19s/it]

 boletin_20250919.pdf: 52 págs, 149,480 palabras


Procesando PDFs:  71%|███████   | 172/243 [3:06:02<1:38:45, 83.45s/it]

 boletin_20250920.pdf: 20 págs, 41,617 palabras


Procesando PDFs:  71%|███████   | 173/243 [3:07:11<1:32:13, 79.05s/it]

 boletin_20250921.pdf: 12 págs, 18,084 palabras


Procesando PDFs:  72%|███████▏  | 174/243 [3:08:34<1:32:21, 80.31s/it]

 boletin_20250922.pdf: 48 págs, 165,240 palabras


Procesando PDFs:  72%|███████▏  | 175/243 [3:10:23<1:40:41, 88.85s/it]

 boletin_20250923.pdf: 28 págs, 69,365 palabras


Procesando PDFs:  72%|███████▏  | 176/243 [3:12:18<1:47:51, 96.59s/it]

 boletin_20250924.pdf: 48 págs, 136,975 palabras


Procesando PDFs:  73%|███████▎  | 177/243 [3:13:14<1:33:02, 84.58s/it]

 boletin_20250925.pdf: 52 págs, 160,621 palabras


Procesando PDFs:  73%|███████▎  | 178/243 [3:14:26<1:27:17, 80.58s/it]

 boletin_20250926.pdf: 40 págs, 124,950 palabras


Procesando PDFs:  74%|███████▎  | 179/243 [3:15:06<1:12:59, 68.43s/it]

 boletin_20250927.pdf: 16 págs, 33,393 palabras


Procesando PDFs:  74%|███████▍  | 180/243 [3:15:15<53:16, 50.74s/it]  

 boletin_20250928.pdf: 9 págs, 9,729 palabras


Procesando PDFs:  74%|███████▍  | 181/243 [3:16:33<1:00:43, 58.76s/it]

 boletin_20250929.pdf: 40 págs, 134,088 palabras


Procesando PDFs:  75%|███████▍  | 182/243 [3:18:14<1:12:43, 71.54s/it]

 boletin_20250930.pdf: 32 págs, 80,354 palabras


Procesando PDFs:  75%|███████▌  | 183/243 [3:18:59<1:03:43, 63.72s/it]

 boletin_20251001.pdf: 40 págs, 124,532 palabras


Procesando PDFs:  76%|███████▌  | 184/243 [3:20:22<1:08:16, 69.42s/it]

 boletin_20251002.pdf: 48 págs, 145,917 palabras


Procesando PDFs:  76%|███████▌  | 185/243 [3:22:04<1:16:38, 79.29s/it]

 boletin_20251003.pdf: 44 págs, 127,040 palabras


Procesando PDFs:  77%|███████▋  | 186/243 [3:22:27<59:16, 62.39s/it]  

 boletin_20251004.pdf: 16 págs, 30,263 palabras


Procesando PDFs:  77%|███████▋  | 187/243 [3:23:08<52:14, 55.98s/it]

 boletin_20251005.pdf: 4 págs, 5,398 palabras


Procesando PDFs:  77%|███████▋  | 188/243 [3:23:53<48:11, 52.57s/it]

 boletin_20251006.pdf: 32 págs, 121,026 palabras


Procesando PDFs:  78%|███████▊  | 189/243 [3:25:10<53:54, 59.90s/it]

 boletin_20251007.pdf: 28 págs, 75,110 palabras


Procesando PDFs:  78%|███████▊  | 190/243 [3:25:34<43:14, 48.95s/it]

 boletin_20251008.pdf: 12 págs, 24,328 palabras


Procesando PDFs:  79%|███████▊  | 191/243 [3:26:37<46:08, 53.24s/it]

 boletin_20251009.pdf: 44 págs, 156,296 palabras


Procesando PDFs:  79%|███████▉  | 192/243 [3:27:35<46:28, 54.67s/it]

 boletin_20251010.pdf: 36 págs, 131,120 palabras


Procesando PDFs:  79%|███████▉  | 193/243 [3:29:02<53:41, 64.44s/it]

 boletin_20251011.pdf: 28 págs, 55,412 palabras


Procesando PDFs:  80%|███████▉  | 194/243 [3:29:17<40:35, 49.71s/it]

 boletin_20251012.pdf: 4 págs, 5,136 palabras


Procesando PDFs:  80%|████████  | 195/243 [3:31:15<56:09, 70.21s/it]

 boletin_20251013.pdf: 52 págs, 140,221 palabras


Procesando PDFs:  81%|████████  | 196/243 [3:32:20<53:37, 68.46s/it]

 boletin_20251014.pdf: 32 págs, 77,112 palabras


Procesando PDFs:  81%|████████  | 197/243 [3:33:53<58:09, 75.85s/it]

 boletin_20251015.pdf: 56 págs, 166,629 palabras


Procesando PDFs:  81%|████████▏ | 198/243 [3:35:18<59:01, 78.71s/it]

 boletin_20251016.pdf: 36 págs, 100,868 palabras


Procesando PDFs:  82%|████████▏ | 199/243 [3:37:05<1:03:48, 87.02s/it]

 boletin_20251017.pdf: 52 págs, 147,044 palabras


Procesando PDFs:  82%|████████▏ | 200/243 [3:37:32<49:31, 69.10s/it]  

 boletin_20251018.pdf: 16 págs, 25,449 palabras


Procesando PDFs:  83%|████████▎ | 201/243 [3:37:39<35:23, 50.55s/it]

 boletin_20251019.pdf: 5 págs, 6,426 palabras


Procesando PDFs:  83%|████████▎ | 202/243 [3:38:55<39:48, 58.25s/it]

 boletin_20251020.pdf: 44 págs, 141,909 palabras


Procesando PDFs:  84%|████████▎ | 203/243 [3:40:08<41:46, 62.67s/it]

 boletin_20251021.pdf: 32 págs, 85,716 palabras


Procesando PDFs:  84%|████████▍ | 204/243 [3:42:03<50:51, 78.25s/it]

 boletin_20251022.pdf: 56 págs, 146,707 palabras


Procesando PDFs:  84%|████████▍ | 205/243 [3:43:54<55:52, 88.22s/it]

 boletin_20251023.pdf: 52 págs, 156,199 palabras


Procesando PDFs:  85%|████████▍ | 206/243 [3:46:15<1:04:04, 103.90s/it]

 boletin_20251024.pdf: 56 págs, 149,237 palabras


Procesando PDFs:  85%|████████▌ | 207/243 [3:47:07<53:04, 88.45s/it]   

 boletin_20251025.pdf: 28 págs, 59,635 palabras


Procesando PDFs:  86%|████████▌ | 208/243 [3:47:40<41:54, 71.85s/it]

 boletin_20251026.pdf: 8 págs, 11,231 palabras


Cannot set gray stroke color because /'P1' is an invalid float value
Procesando PDFs:  86%|████████▌ | 209/243 [3:49:54<51:07, 90.21s/it]

 boletin_20251027.pdf: 48 págs, 135,480 palabras


Procesando PDFs:  86%|████████▋ | 210/243 [3:50:41<42:33, 77.37s/it]

 boletin_20251028.pdf: 24 págs, 75,160 palabras


Procesando PDFs:  87%|████████▋ | 211/243 [3:52:04<42:09, 79.05s/it]

 boletin_20251029.pdf: 48 págs, 148,380 palabras


Procesando PDFs:  87%|████████▋ | 212/243 [3:52:59<37:10, 71.94s/it]

 boletin_20251030.pdf: 48 págs, 135,057 palabras


Procesando PDFs:  88%|████████▊ | 213/243 [3:54:38<39:59, 80.00s/it]

 boletin_20251031.pdf: 48 págs, 132,178 palabras


Procesando PDFs:  88%|████████▊ | 214/243 [3:54:53<29:11, 60.41s/it]

 boletin_20251101.pdf: 16 págs, 31,171 palabras


Procesando PDFs:  88%|████████▊ | 215/243 [3:55:07<21:41, 46.50s/it]

 boletin_20251102.pdf: 9 págs, 7,493 palabras


Procesando PDFs:  89%|████████▉ | 216/243 [3:56:32<26:07, 58.04s/it]

 boletin_20251103.pdf: 44 págs, 133,322 palabras


Procesando PDFs:  89%|████████▉ | 217/243 [3:57:09<22:28, 51.85s/it]

 boletin_20251104.pdf: 28 págs, 89,543 palabras


Procesando PDFs:  90%|████████▉ | 218/243 [3:57:53<20:39, 49.59s/it]

 boletin_20251105.pdf: 36 págs, 115,022 palabras


Procesando PDFs:  90%|█████████ | 219/243 [3:58:37<19:03, 47.63s/it]

 boletin_20251106.pdf: 36 págs, 121,719 palabras


Procesando PDFs:  91%|█████████ | 220/243 [3:59:58<22:06, 57.68s/it]

 boletin_20251107.pdf: 44 págs, 115,111 palabras


Procesando PDFs:  91%|█████████ | 221/243 [4:00:48<20:19, 55.43s/it]

 boletin_20251108.pdf: 24 págs, 50,272 palabras


Procesando PDFs:  91%|█████████▏| 222/243 [4:01:29<17:55, 51.19s/it]

 boletin_20251109.pdf: 13 págs, 16,402 palabras


Procesando PDFs:  92%|█████████▏| 223/243 [4:02:52<20:12, 60.60s/it]

 boletin_20251110.pdf: 40 págs, 136,916 palabras


Procesando PDFs:  92%|█████████▏| 224/243 [4:03:37<17:41, 55.88s/it]

 boletin_20251111.pdf: 28 págs, 73,268 palabras


Procesando PDFs:  93%|█████████▎| 225/243 [4:04:26<16:12, 54.05s/it]

 boletin_20251112.pdf: 48 págs, 138,581 palabras


Procesando PDFs:  93%|█████████▎| 226/243 [4:06:14<19:51, 70.08s/it]

 boletin_20251113.pdf: 48 págs, 134,090 palabras


Procesando PDFs:  93%|█████████▎| 227/243 [4:07:30<19:12, 72.01s/it]

 boletin_20251114.pdf: 48 págs, 145,279 palabras


Procesando PDFs:  94%|█████████▍| 228/243 [4:08:55<18:57, 75.85s/it]

 boletin_20251115.pdf: 32 págs, 52,642 palabras


Procesando PDFs:  94%|█████████▍| 229/243 [4:09:14<13:42, 58.74s/it]

 boletin_20251116.pdf: 9 págs, 14,907 palabras


Procesando PDFs:  95%|█████████▍| 230/243 [4:10:10<12:32, 57.87s/it]

 boletin_20251117.pdf: 44 págs, 147,573 palabras


Procesando PDFs:  95%|█████████▌| 231/243 [4:11:07<11:33, 57.75s/it]

 boletin_20251118.pdf: 32 págs, 85,314 palabras


Procesando PDFs:  95%|█████████▌| 232/243 [4:12:27<11:48, 64.43s/it]

 boletin_20251119.pdf: 40 págs, 135,497 palabras


Procesando PDFs:  96%|█████████▌| 233/243 [4:14:15<12:54, 77.46s/it]

 boletin_20251120.pdf: 48 págs, 144,912 palabras


Procesando PDFs:  96%|█████████▋| 234/243 [4:16:18<13:38, 90.93s/it]

 boletin_20251121.pdf: 52 págs, 160,031 palabras


Procesando PDFs:  97%|█████████▋| 235/243 [4:17:19<10:57, 82.14s/it]

 boletin_20251122.pdf: 20 págs, 33,700 palabras


Procesando PDFs:  97%|█████████▋| 236/243 [4:18:05<08:19, 71.39s/it]

 boletin_20251123.pdf: 9 págs, 7,272 palabras


Procesando PDFs:  98%|█████████▊| 237/243 [4:19:32<07:35, 75.98s/it]

 boletin_20251124.pdf: 44 págs, 138,093 palabras


Procesando PDFs:  98%|█████████▊| 238/243 [4:20:57<06:32, 78.50s/it]

 boletin_20251125.pdf: 32 págs, 89,027 palabras


Procesando PDFs:  98%|█████████▊| 239/243 [4:22:11<05:09, 77.37s/it]

 boletin_20251126.pdf: 48 págs, 132,757 palabras


Procesando PDFs:  99%|█████████▉| 240/243 [4:23:27<03:50, 76.99s/it]

 boletin_20251127.pdf: 52 págs, 143,654 palabras


Procesando PDFs:  99%|█████████▉| 241/243 [4:24:48<02:35, 78.00s/it]

 boletin_20251128.pdf: 48 págs, 149,939 palabras


Procesando PDFs: 100%|█████████▉| 242/243 [4:25:16<01:03, 63.02s/it]

 boletin_20251129.pdf: 16 págs, 32,935 palabras


Procesando PDFs: 100%|██████████| 243/243 [4:26:08<00:00, 65.71s/it]


 boletin_20251130.pdf: 13 págs, 17,013 palabras

 GUARDANDO DATOS

 datos\todos_textos.json... 
 datos\corpus_completo.txt... 
📄 Guardando estadísticas...  datos\estadisticas.json
 Guardando CSV con metadata...  datos\metadata_boletines.csv

 RESUMEN FINAL

 PDFs procesados: 243/243
 PDFs fallidos: 0

 Estadísticas del corpus:
   Total páginas: 7,839
   Total palabras: 22,199,814
   Total caracteres: 117,463,952

 Promedios:
   Páginas/PDF: 32.3
   Palabras/PDF: 91,357

 ARCHIVOS GENERADOS

 textos/
   ├── 243 archivos .txt (uno por PDF)

 datos/
   ├── todos_textos.json (corpus completo + metadata)
   ├── corpus_completo.txt (todo el texto unido)
   ├── estadisticas.json (stats del corpus)
   └── metadata_boletines.csv (tabla de metadatos)

 EXTRACCIÓN COMPLETADA

 Próximo paso: NER (Named Entity Recognition)
   Archivos listos en: datos/todos_textos.json



## LIMPIEZA DE CORPUS Y PREPARACION PARA NER

In [None]:

# =========================================================================
# LIMPIEZA DE CORPUS Y PREPARACION PARA NER
# =========================================================================
# Lee datos/todos_textos.json y crea:
#   - datos_limpios/corpus_limpio.json
#   - datos_limpios/estadisticas_limpieza.json
#   - datos_limpios/textos_para_ner.txt
# =========================================================================

import json
from pathlib import Path
from bs4 import BeautifulSoup
import re

print("\n" + "="*70)
print(" LIMPIEZA DE CORPUS")
print("="*70 + "\n")

# =========================================================================
# CONFIGURACION
# =========================================================================

CARPETA_DATOS = Path("datos")
CARPETA_LIMPIO = Path("datos_limpios")
CARPETA_LIMPIO.mkdir(exist_ok=True)

# =========================================================================
# FUNCION: LIMPIAR TEXTO
# =========================================================================

def limpiar_texto(texto):
    """
    Limpia HTML y caracteres especiales del texto
    """
    
    if not texto or len(texto.strip()) == 0:
        return ""
    
    # 1. Eliminar HTML con BeautifulSoup
    try:
        soup = BeautifulSoup(texto, 'html.parser')
        texto = soup.get_text(separator=' ')
    except:
        # Si falla BeautifulSoup, usar regex simple
        texto = re.sub(r'<[^>]+>', '', texto)
    
    # 2. Normalizar espacios en blanco
    texto = re.sub(r'\s+', ' ', texto)
    
    # 3. Eliminar caracteres de control (excepto saltos de linea)
    texto = re.sub(r'[\x00-\x08\x0B-\x0C\x0E-\x1F\x7F]', '', texto)
    
    # 4. Normalizar saltos de linea
    texto = re.sub(r'\n\s*\n\s*\n+', '\n\n', texto)
    
    # 5. Limpiar al inicio y final
    texto = texto.strip()
    
    return texto

# =========================================================================
# CARGAR CORPUS ORIGINAL
# =========================================================================

print(" Cargando corpus original...")
ruta_original = CARPETA_DATOS / "todos_textos.json"

if not ruta_original.exists():
    print(f" ERROR: No se encontro {ruta_original}")
    print("   Ejecuta primero la celda de extraccion de PDFs")
else:
    with open(ruta_original, 'r', encoding='utf-8') as f:
        corpus_original = json.load(f)
    
    print(f" Cargados {len(corpus_original)} documentos\n")
    
    # =====================================================================
    # LIMPIAR CADA DOCUMENTO
    # =====================================================================
    
    print(" Limpiando textos...")
    
    corpus_limpio = []
    textos_concatenados = []
    
    total_caracteres_originales = 0
    total_caracteres_limpios = 0
    total_palabras = 0
    
    for doc in corpus_original:
        # Limpiar texto
        texto_limpio = limpiar_texto(doc['texto'])
        
        # Crear documento limpio
        doc_limpio = {
            'archivo': doc['archivo'],
            'fecha': doc['fecha'],
            'año': doc['año'],
            'mes': doc['mes'],
            'texto_limpio': texto_limpio,
            'palabras': len(texto_limpio.split()),
            'caracteres': len(texto_limpio)
        }
        
        corpus_limpio.append(doc_limpio)
        textos_concatenados.append(texto_limpio)
        
        # Estadisticas
        total_caracteres_originales += doc['caracteres']
        total_caracteres_limpios += len(texto_limpio)
        total_palabras += len(texto_limpio.split())
    
    print(f" {len(corpus_limpio)} documentos limpiados\n")
    
    # =====================================================================
    # GUARDAR ARCHIVOS
    # =====================================================================
    
    print("="*70)
    print(" GUARDANDO ARCHIVOS")
    print("="*70 + "\n")
    
    # 1. corpus_limpio.json
    print(" 1. corpus_limpio.json...", end=" ")
    ruta_limpio = CARPETA_LIMPIO / "corpus_limpio.json"
    
    with open(ruta_limpio, 'w', encoding='utf-8') as f:
        json.dump(corpus_limpio, f, ensure_ascii=False, indent=2)
    
    tamano_mb = ruta_limpio.stat().st_size / (1024*1024)
    print(f"OK ({tamano_mb:.1f} MB)")
    
    # 2. textos_para_ner.txt
    print(" 2. textos_para_ner.txt...", end=" ")
    ruta_ner = CARPETA_LIMPIO / "textos_para_ner.txt"
    
    with open(ruta_ner, 'w', encoding='utf-8') as f:
        f.write("\n\n".join(textos_concatenados))
    
    tamano_kb = ruta_ner.stat().st_size / 1024
    print(f"OK ({tamano_kb:.1f} KB)")
    
    # 3. estadisticas_limpieza.json
    print(" 3. estadisticas_limpieza.json...", end=" ")
    
    estadisticas = {
        'total_documentos': len(corpus_limpio),
        'total_palabras': total_palabras,
        'total_caracteres_originales': total_caracteres_originales,
        'total_caracteres_limpios': total_caracteres_limpios,
        'reduccion_caracteres': total_caracteres_originales - total_caracteres_limpios,
        'porcentaje_reduccion': round((total_caracteres_originales - total_caracteres_limpios) / total_caracteres_originales * 100, 2),
        'promedio_palabras_por_doc': total_palabras // len(corpus_limpio),
        'promedio_caracteres_por_doc': total_caracteres_limpios // len(corpus_limpio)
    }
    
    ruta_stats = CARPETA_LIMPIO / "estadisticas_limpieza.json"
    
    with open(ruta_stats, 'w', encoding='utf-8') as f:
        json.dump(estadisticas, f, ensure_ascii=False, indent=2)
    
    print("OK")
    
    # =====================================================================
    # ESTADISTICAS
    # =====================================================================
    
    print(f"\n{'='*70}")
    print(" ESTADISTICAS DE LIMPIEZA")
    print("="*70 + "\n")
    
    print(f" Documentos procesados: {len(corpus_limpio)}")
    print(f" Total palabras: {total_palabras:,}")
    print(f" Caracteres originales: {total_caracteres_originales:,}")
    print(f" Caracteres limpios: {total_caracteres_limpios:,}")
    print(f" Reduccion: {estadisticas['reduccion_caracteres']:,} caracteres ({estadisticas['porcentaje_reduccion']}%)")
    print(f" Promedio palabras/doc: {estadisticas['promedio_palabras_por_doc']:,}")
    
    # Mostrar muestra
    print(f"\n{'='*70}")
    print(" MUESTRA DE TEXTO LIMPIO")
    print("="*70 + "\n")
    
    muestra = corpus_limpio[0]['texto_limpio'][:250]
    print(f"Documento: {corpus_limpio[0]['archivo']}")
    print(f"Fecha: {corpus_limpio[0]['fecha']}\n")
    print(muestra)
    print("...\n")
    
    print("="*70)
    print(" LIMPIEZA COMPLETADA")
    print("="*70 + "\n")
    
    print(" Archivos generados en datos_limpios/:")
    print("   - corpus_limpio.json")
    print("   - textos_para_ner.txt")
    print("   - estadisticas_limpieza.json")
    print("\n PROXIMO PASO:")
    print("   Ejecutar celda de NER (Named Entity Recognition)")

print("\n" + "="*70 + "\n")

## PASO 6: Extracción de Entidades (NER)

Usaremos spaCy con el modelo en español para detectar entidades.

In [3]:
# =========================================================================
# NER - CON FILTROS Y REGLAS PERSONALIZADAS
# =========================================================================

import spacy
from spacy.matcher import Matcher
from spacy.pipeline import EntityRuler
import json
from pathlib import Path
from tqdm import tqdm
from collections import Counter, defaultdict
import pandas as pd
import re

print("\n" + "="*70)
print(" NER - CON REGLAS PERSONALIZADAS")
print("="*70 + "\n")

# =========================================================================
# CONFIGURACIÓN
# =========================================================================

CARPETA_DATOS = Path("datos_limpios")
CARPETA_NER = Path("entidades_mejorado")
CARPETA_NER.mkdir(exist_ok=True)

# Cargar modelo
print(" Cargando modelo spaCy...")
nlp = spacy.load("es_core_news_md")

# =========================================================================
# LISTAS PERSONALIZADAS - DOMINIO LEGAL PERUANO
# =========================================================================

# Organizaciones conocidas (gubernamentales, etc.)
ORGANIZACIONES_CONOCIDAS = {
    'sunat', 'mef', 'pcm', 'minsa', 'minedu', 'mtc', 'mindef', 'minjus',
    'ministerio de economía', 'ministerio de salud', 'ministerio de educación',
    'congreso de la república', 'tribunal constitucional', 'poder judicial',
    'contraloría general', 'defensoría del pueblo', 'ministerio público',
    'banco central de reserva', 'bcr', 'sbs', 'superintendencia',
    'essalud', 'reniec', 'onpe', 'jne', 'indecopi', 'osinergmin',
    'sunass', 'osiptel', 'sunafil', 'senace', 'sernanp', 'senasa',
    'inia', 'ana', 'serfor', 'dicapi', 'produce', 'midagri', 'minam'
}

# Palabras que NO son entidades (blacklist)
PALABRAS_BLACKLIST = {
    # Verbos comunes en documentos legales
    'siendo', 'considerando', 'teniendo', 'visto', 'estando', 'dado',
    'solicita', 'solicitando', 'dispone', 'aprueba', 'modifica',
    # Preposiciones y conjunciones
    'con', 'sin', 'por', 'para', 'sobre', 'mediante', 'según',
    # Términos legales comunes
    'propiedad', 'dominio', 'calle', 'avenida', 'jirón', 'ubicado',
    'notarial', 'sucesión intestada', 'fallecido', 'estado civil',
    # Referencias
    'art', 'artículo', 'inciso', 'literal', 'numeral', 'decreto',
    'la ley', 'el código', 'el reglamento', 'se ha', 'ha sido',
    # Otros
    'distrito', 'provincia', 'región', 'departamento'  # Estos pueden ser lugares pero no como están
}

# Patrones para identificar (números de resolución, decretos, etc.)
PATRONES_LEGALES = [
    # Decretos Supremos
    (r'DECRETO\s+SUPREMO\s+N[°º]?\s*(\d{3,4}-\d{4}-\w+)', 'DECRETO_SUPREMO'),
    # Resoluciones
    (r'RESOLUCIÓN\s+(?:MINISTERIAL|DIRECTORAL|JEFATURAL)\s+N[°º]?\s*(\d{3,4}-\d{4}-\w+)', 'RESOLUCION'),
    # Leyes
    (r'LEY\s+N[°º]?\s*(\d{4,5})', 'LEY'),
    # RUC
    (r'RUC\s+N[°º]?\s*(\d{11})', 'RUC'),
    # Montos en soles
    (r'S/\.?\s*([\d,]+\.?\d*)', 'MONTO_SOLES'),
    # Montos en dólares
    (r'US\$\s*([\d,]+\.?\d*)', 'MONTO_DOLARES'),
]

# =========================================================================
# AGREGAR ENTITY RULER CON PATRONES
# =========================================================================

print(" Configurando reglas personalizadas...")

# Crear Entity Ruler
ruler = nlp.add_pipe("entity_ruler", before="ner")

# Patrones para organizaciones conocidas
patterns = []

for org in ORGANIZACIONES_CONOCIDAS:
    patterns.append({"label": "ORG", "pattern": org})
    patterns.append({"label": "ORG", "pattern": org.upper()})
    patterns.append({"label": "ORG", "pattern": org.title()})

# Agregar patrones de decretos y resoluciones
patterns.extend([
    {"label": "DECRETO", "pattern": [
        {"TEXT": {"REGEX": "DECRETO"}},
        {"TEXT": {"REGEX": "SUPREMO|LEGISLATIVO|DE URGENCIA"}},
        {"TEXT": {"REGEX": "N[°º]?"}},
        {"TEXT": {"REGEX": r"\d{3,4}-\d{4}-\w+"}}
    ]},
    {"label": "RESOLUCION", "pattern": [
        {"TEXT": {"REGEX": "RESOLUCIÓN"}},
        {"TEXT": {"REGEX": "MINISTERIAL|DIRECTORAL|JEFATURAL"}},
        {"TEXT": {"REGEX": "N[°º]?"}},
        {"TEXT": {"REGEX": r"\d{3,4}-\d{4}-\w+"}}
    ]},
    {"label": "LEY", "pattern": [
        {"TEXT": "Ley"},
        {"TEXT": {"REGEX": "N[°º]?"}},
        {"TEXT": {"REGEX": r"\d{4,5}"}}
    ]},
])

ruler.add_patterns(patterns)

print(f" {len(patterns)} patrones agregados\n")

# =========================================================================
# FUNCIÓN: FILTRAR ENTIDADES INVÁLIDAS
# =========================================================================

def filtrar_entidades(entidades):
    """
    Filtra entidades usando blacklist y reglas de validación
    """
    
    entidades_validas = []
    
    for ent in entidades:
        texto = ent['texto'].strip()
        texto_lower = texto.lower()
        tipo = ent['tipo']
        
        # FILTRO 1: Blacklist
        if texto_lower in PALABRAS_BLACKLIST:
            continue
        
        # FILTRO 2: Muy corto (menos de 3 caracteres)
        if len(texto) < 3:
            continue
        
        # FILTRO 3: Solo números (excepto si es tipo específico)
        if texto.replace(',', '').replace('.', '').isdigit() and tipo not in ['CARDINAL', 'MONEY']:
            continue
        
        # FILTRO 4: Palabras comunes que no son organizaciones
        if tipo == 'ORG':
            # No es organización si es una palabra común
            palabras_comunes_org = {'calle', 'avenida', 'jirón', 'pasaje', 'ubicado', 'propiedad'}
            if texto_lower in palabras_comunes_org:
                continue
            
            # Debe tener al menos 4 caracteres para ser organización válida
            if len(texto) < 4:
                continue
        
        # FILTRO 5: Lugares inválidos
        if tipo == 'LOC':
            lugares_invalidos = {'la ley', 'se ha', 'art', 'fallecido', 'estado civil', 'el código'}
            if texto_lower in lugares_invalidos:
                continue
        
        # FILTRO 6: Personas inválidas
        if tipo == 'PER':
            personas_invalidas = {'distrito', 'sucesión intestada', 'dominio', 'notario público', 'notaría'}
            if texto_lower in personas_invalidas:
                continue
            
            # Probablemente no es persona si está todo en mayúsculas y tiene más de una palabra
            if texto.isupper() and len(texto.split()) > 2:
                continue
        
        # Si pasa todos los filtros, agregar
        entidades_validas.append(ent)
    
    return entidades_validas


# =========================================================================
# FUNCIÓN: NORMALIZAR ORGANIZACIONES
# =========================================================================

def normalizar_organizacion(texto):
    """
    Normaliza nombres de organizaciones a su forma estándar
    """
    
    texto_lower = texto.lower()
    
    normalizaciones = {
        'sunat': 'SUNAT',
        'superintendencia nacional de aduanas': 'SUNAT',
        'mef': 'Ministerio de Economía y Finanzas',
        'ministerio de economía': 'Ministerio de Economía y Finanzas',
        'pcm': 'Presidencia del Consejo de Ministros',
        'minsa': 'Ministerio de Salud',
        'ministerio de salud': 'Ministerio de Salud',
        'minedu': 'Ministerio de Educación',
        'ministerio de educación': 'Ministerio de Educación',
        'congreso': 'Congreso de la República',
        'tribunal constitucional': 'Tribunal Constitucional',
        'tc': 'Tribunal Constitucional',
        'poder judicial': 'Poder Judicial',
        'pj': 'Poder Judicial',
        'contraloría': 'Contraloría General de la República',
        'essalud': 'EsSalud',
        'sbs': 'Superintendencia de Banca, Seguros y AFP',
        'bcr': 'Banco Central de Reserva del Perú',
        'banco central': 'Banco Central de Reserva del Perú',
        'reniec': 'RENIEC',
        'onpe': 'ONPE',
        'jne': 'Jurado Nacional de Elecciones',
        'indecopi': 'INDECOPI',
    }
    
    # Buscar normalización
    for clave, valor in normalizaciones.items():
        if clave in texto_lower:
            return valor
    
    return texto


# =========================================================================
# FUNCIÓN: EXTRAER ENTIDADES CON TODO LO MEJORADO
# =========================================================================

def extraer_entidades_mejorado(texto, nlp):
    """
    Extrae entidades con modelo mejorado + filtros
    """
    
    # Limitar longitud
    max_length = 1000000
    if len(texto) > max_length:
        texto = texto[:max_length]
    
    # Procesar con spaCy (ahora con entity ruler)
    doc = nlp(texto)
    
    # Extraer entidades
    entidades = []
    
    for ent in doc.ents:
        entidades.append({
            'texto': ent.text,
            'tipo': ent.label_,
            'inicio': ent.start_char,
            'fin': ent.end_char
        })
    
    # Filtrar entidades inválidas
    entidades_filtradas = filtrar_entidades(entidades)
    
    # Normalizar organizaciones
    for ent in entidades_filtradas:
        if ent['tipo'] == 'ORG':
            ent['texto_normalizado'] = normalizar_organizacion(ent['texto'])
        else:
            ent['texto_normalizado'] = ent['texto']
    
    # Extraer entidades con regex (decretos, leyes, montos)
    entidades_regex = extraer_con_regex(texto)
    entidades_filtradas.extend(entidades_regex)
    
    return entidades_filtradas


# =========================================================================
# FUNCIÓN: EXTRAER CON REGEX (decretos, leyes, montos)
# =========================================================================

def extraer_con_regex(texto):
    """
    Extrae entidades usando expresiones regulares
    """
    
    entidades = []
    
    for patron, tipo in PATRONES_LEGALES:
        matches = re.finditer(patron, texto, re.IGNORECASE)
        
        for match in matches:
            entidades.append({
                'texto': match.group(0),
                'texto_normalizado': match.group(0),
                'tipo': tipo,
                'inicio': match.start(),
                'fin': match.end()
            })
    
    return entidades


# =========================================================================
# CARGAR Y PROCESAR CORPUS
# =========================================================================

print(" Cargando corpus...")
ruta_corpus = CARPETA_DATOS / "corpus_limpio.json"

with open(ruta_corpus, 'r', encoding='utf-8') as f:
    corpus = json.load(f)

print(f" Cargados {len(corpus)} documentos\n")

print("="*70)
print(" EXTRAYENDO ENTIDADES (versión mejorada)")
print("="*70 + "\n")

# Procesar
todas_entidades = []
contador_tipos = Counter()
contador_entidades = Counter()

for doc in tqdm(corpus, desc="Procesando"):
    
    # Extraer con versión mejorada
    entidades = extraer_entidades_mejorado(doc['texto_limpio'], nlp)
    
    for ent in entidades:
        todas_entidades.append({
            'archivo': doc['archivo'],
            'fecha': doc['fecha'],
            'año': doc['año'],
            'mes': doc['mes'],
            **ent
        })
        
        contador_tipos[ent['tipo']] += 1
        contador_entidades[ent['texto_normalizado']] += 1

print(f"\n Total entidades: {len(todas_entidades):,}\n")

# =========================================================================
# ANÁLISIS Y GUARDADO (igual que antes)
# =========================================================================

# Top por tipo
entidades_por_tipo = defaultdict(list)
for ent in todas_entidades:
    entidades_por_tipo[ent['tipo']].append(ent['texto_normalizado'])

print("="*70)
print(" TOP 10 ENTIDADES POR TIPO")
print("="*70 + "\n")

for tipo in ['ORG', 'PER', 'LOC', 'DECRETO', 'LEY', 'RESOLUCION']:
    if tipo in entidades_por_tipo:
        counter = Counter(entidades_por_tipo[tipo])
        top_10 = counter.most_common(10)
        
        print(f" {tipo} (Total: {len(entidades_por_tipo[tipo]):,}):")
        for i, (ent, freq) in enumerate(top_10, 1):
            print(f"   {i:2d}. {ent[:50]:50s} ({freq:,})")
        print()

# Guardar (mismo código que antes)
print("="*70)
print(" GUARDANDO RESULTADOS")
print("="*70 + "\n")

# JSON
ruta_json = CARPETA_NER / "entidades_mejorado.json"
with open(ruta_json, 'w', encoding='utf-8') as f:
    json.dump(todas_entidades, f, ensure_ascii=False, indent=2)
print(f" JSON guardado ({ruta_json.stat().st_size / (1024*1024):.1f} MB)")

# CSV
ruta_csv = CARPETA_NER / "entidades_mejorado.csv"
df = pd.DataFrame(todas_entidades)
df.to_csv(ruta_csv, index=False, encoding='utf-8')
print(f" CSV guardado\n")

print("="*70)
print(" NER COMPLETADO")
print("="*70 + "\n")


 NER - CON REGLAS PERSONALIZADAS

 Cargando modelo spaCy...
 Configurando reglas personalizadas...
 123 patrones agregados

 Cargando corpus...
 Cargados 243 documentos

 EXTRAYENDO ENTIDADES (versión mejorada)



Procesando: 100%|██████████| 243/243 [57:57<00:00, 14.31s/it] 



 Total entidades: 3,043,025

 TOP 10 ENTIDADES POR TIPO

 ORG (Total: 729,075):
    1. RENIEC                                             (9,031)
    2. SUCESION INTESTADA                                 (7,624)
    3. SUNAT                                              (7,522)
    4. FRENTE                                             (6,555)
    5. COMUNICO                                           (6,443)
    6. CONFORMIDAD                                        (5,236)
    7. LO QUE                                             (4,906)
    8. OFICINA                                            (4,801)
    9. PREDIOS                                            (4,119)
   10. CALIDAD                                            (4,027)

 PER (Total: 180,463):
    1. SUCESIÓN INTESTADA.-                               (3,504)
    2. DOMINIO.-                                          (2,191)
    3. Notario                                            (980)
    4. Jesús María                     

In [5]:
"""
# =========================================================================
# EXTRACTOR ESTRUCTURADO - DIARIO EL PERUANO
# =========================================================================
# Extrae información útil: remates, edictos, licitaciones, JGA, etc.
# =========================================================================

import re
import json
from pathlib import Path
from tqdm import tqdm
from collections import defaultdict
import pandas as pd
from datetime import datetime

print("\n" + "="*70)
print(" EXTRACTOR ESTRUCTURADO - DIARIO EL PERUANO")
print("="*70 + "\n")

# =========================================================================
# CONFIGURACIÓN
# =========================================================================

CARPETA_DATOS = Path("datos_limpios")
CARPETA_EXTRAIDO = Path("informacion_extraida")
CARPETA_EXTRAIDO.mkdir(exist_ok=True)

# =========================================================================
# PATRONES DE EXTRACCIÓN
# =========================================================================

# 1. REMATES PÚBLICOS
PATRON_REMATE = {
    'titulo': r'REMATE|SUBASTA|VENTA JUDICIAL',
    'bien': r'(?:INMUEBLE|VEHICULO|MAQUINARIA|BIEN).*?(?=UBICACIÓN|UBICADO|BASE)',
    'ubicacion': r'UBICACIÓN?:?\s*([^\n]+)',
    'base': r'BASE:?\s*S/\.?\s*([\d,]+\.?\d*)',
    'fecha': r'FECHA:?\s*(\d{1,2}[-/]\d{1,2}[-/]\d{2,4})',
    'hora': r'HORA:?\s*(\d{1,2}:\d{2})',
    'expediente': r'EXPEDIENTE:?\s*N[°º]?\s*([\d-]+)',
}

# 2. EDICTOS
PATRON_EDICTO = {
    'tipo': r'EDICTO\s+(?:JUDICIAL|NOTARIAL|MATRIMONIAL)?',
    'demandante': r'DEMANDANTE:?\s*([^\n]+)',
    'demandado': r'DEMANDADO:?\s*([^\n]+)',
    'expediente': r'EXPEDIENTE:?\s*N[°º]?\s*([\d-]+)',
    'juzgado': r'JUZGADO:?\s*([^\n]+)',
}

# 3. LICITACIONES PÚBLICAS
PATRON_LICITACION = {
    'titulo': r'LICITACIÓN PÚBLICA|CONCURSO PÚBLICO|ADJUDICACIÓN',
    'entidad': r'ENTIDAD:?\s*([^\n]+)',
    'objeto': r'OBJETO:?\s*([^\n]+)',
    'valor': r'VALOR REFERENCIAL:?\s*S/\.?\s*([\d,]+\.?\d*)',
    'fecha_bases': r'VENTA DE BASES:?\s*(\d{1,2}[-/]\d{1,2}[-/]\d{2,4})',
}

# 4. CONVOCATORIA JUNTA GENERAL DE ACCIONISTAS
PATRON_JGA = {
    'empresa': r'(?:CONVOCA|SE CONVOCA).*?JUNTA GENERAL.*?DE\s+([A-ZÁÉÍÓÚ\s\.]+?)(?:\s+S\.?A\.?|\s+SAC)',
    'fecha_junta': r'(?:JUNTA.*?)?(\d{1,2})\s+DE\s+(\w+)\s+(?:DE|DEL)?\s*(\d{4})',
    'hora': r'HORA:?\s*(\d{1,2}:\d{2})',
    'lugar': r'LUGAR:?\s*([^\n]+)',
    'agenda': r'AGENDA:?\s*([^\n]+(?:\n[^\n]+){0,5})',
}

# 5. FUSIÓN DE EMPRESAS
PATRON_FUSION = {
    'titulo': r'FUSIÓN|AVISO.*?FUSIÓN',
    'absorbente': r'(?:EMPRESA\s+)?ABSORBENTE:?\s*([^\n]+)',
    'absorbida': r'(?:EMPRESA\s+)?ABSORBIDA:?\s*([^\n]+)',
    'fecha': r'FECHA.*?FUSIÓN:?\s*(\d{1,2}[-/]\d{1,2}[-/]\d{2,4})',
}

# 6. DISOLUCIÓN Y LIQUIDACIÓN
PATRON_DISOLUCION = {
    'titulo': r'DISOLUCIÓN.*?LIQUIDACIÓN|LIQUIDACIÓN.*?EMPRESA',
    'empresa': r'(?:EMPRESA|RAZÓN SOCIAL):?\s*([^\n]+)',
    'ruc': r'RUC:?\s*N[°º]?\s*(\d{11})',
    'liquidador': r'LIQUIDADOR:?\s*([^\n]+)',
}

# 7. REQUERIMIENTOS SBS
PATRON_SBS = {
    'titulo': r'SUPERINTENDENCIA DE BANCA|SBS|REQUERIMIENTO.*?SBS',
    'entidad': r'(?:ENTIDAD|EMPRESA):?\s*([^\n]+)',
    'tipo': r'(?:TIPO|MATERIA):?\s*([^\n]+)',
    'expediente': r'EXPEDIENTE:?\s*N[°º]?\s*([\d-]+)',
}

# =========================================================================
# FUNCIÓN: DETECTAR SECCIONES DEL BOLETÍN
# =========================================================================

def detectar_secciones(texto):
    """
    Identifica secciones del boletín por títulos
    
    Returns:
        dict: {
            'REMATES': [texto de sección],
            'EDICTOS': [texto de sección],
            ...
        }
    """
    
    secciones = {
        'REMATES': [],
        'EDICTOS': [],
        'LICITACIONES': [],
        'CONVOCATORIAS': [],
        'FUSIONES': [],
        'DISOLUCIONES': [],
        'SBS': [],
        'OTROS': []
    }
    
    # Patrones de títulos de sección (mayúsculas, centrados, etc.)
    titulo_seccion = r'\n\s*([A-ZÁÉÍÓÚ\s]{10,})\s*\n'
    
    matches = list(re.finditer(titulo_seccion, texto))
    
    for i, match in enumerate(matches):
        titulo = match.group(1).strip()
        inicio = match.end()
        fin = matches[i+1].start() if i+1 < len(matches) else len(texto)
        contenido = texto[inicio:fin]
        
        # Clasificar sección
        if 'REMATE' in titulo or 'SUBASTA' in titulo:
            secciones['REMATES'].append(contenido)
        elif 'EDICTO' in titulo:
            secciones['EDICTOS'].append(contenido)
        elif 'LICITACIÓN' in titulo or 'CONCURSO' in titulo:
            secciones['LICITACIONES'].append(contenido)
        elif 'JUNTA' in titulo and 'ACCIONISTA' in titulo:
            secciones['CONVOCATORIAS'].append(contenido)
        elif 'FUSIÓN' in titulo:
            secciones['FUSIONES'].append(contenido)
        elif 'DISOLUCIÓN' in titulo or 'LIQUIDACIÓN' in titulo:
            secciones['DISOLUCIONES'].append(contenido)
        elif 'SUPERINTENDENCIA' in titulo or 'SBS' in titulo:
            secciones['SBS'].append(contenido)
        else:
            secciones['OTROS'].append(contenido)
    
    return secciones


# =========================================================================
# FUNCIÓN: EXTRAER REMATES
# =========================================================================

def extraer_remates(texto):
    """
    Extrae información estructurada de remates
    """
    
    remates = []
    
    # Dividir por avisos individuales (usualmente separados por líneas)
    avisos = re.split(r'\n\s*-{3,}\s*\n', texto)
    
    for aviso in avisos:
        # Verificar que sea un remate
        if not re.search(PATRON_REMATE['titulo'], aviso, re.IGNORECASE):
            continue
        
        # Extraer datos
        remate = {
            'tipo': 'REMATE',
            'bien': None,
            'ubicacion': None,
            'base': None,
            'fecha': None,
            'hora': None,
            'expediente': None,
            'texto_completo': aviso[:500]  # Primeros 500 caracteres
        }
        
        # Ubicación
        match = re.search(PATRON_REMATE['ubicacion'], aviso, re.IGNORECASE)
        if match:
            remate['ubicacion'] = match.group(1).strip()
        
        # Base
        match = re.search(PATRON_REMATE['base'], aviso, re.IGNORECASE)
        if match:
            remate['base'] = match.group(1).replace(',', '')
        
        # Fecha
        match = re.search(PATRON_REMATE['fecha'], aviso)
        if match:
            remate['fecha'] = match.group(1)
        
        # Hora
        match = re.search(PATRON_REMATE['hora'], aviso)
        if match:
            remate['hora'] = match.group(1)
        
        # Expediente
        match = re.search(PATRON_REMATE['expediente'], aviso, re.IGNORECASE)
        if match:
            remate['expediente'] = match.group(1)
        
        # Solo agregar si tiene al menos ubicación o base
        if remate['ubicacion'] or remate['base']:
            remates.append(remate)
    
    return remates


# =========================================================================
# FUNCIÓN: EXTRAER CONVOCATORIAS JGA
# =========================================================================

def extraer_jga(texto):
    """
    Extrae convocatorias de Juntas Generales de Accionistas
    """
    
    convocatorias = []
    
    # Dividir por avisos
    avisos = re.split(r'\n\s*-{3,}\s*\n', texto)
    
    for aviso in avisos:
        # Verificar que sea JGA
        if not re.search(r'JUNTA\s+GENERAL', aviso, re.IGNORECASE):
            continue
        
        jga = {
            'tipo': 'JUNTA_ACCIONISTAS',
            'empresa': None,
            'fecha': None,
            'hora': None,
            'lugar': None,
            'agenda': None,
            'texto_completo': aviso[:500]
        }
        
        # Empresa
        match = re.search(PATRON_JGA['empresa'], aviso, re.IGNORECASE)
        if match:
            jga['empresa'] = match.group(1).strip()
        
        # Fecha
        match = re.search(PATRON_JGA['fecha_junta'], aviso, re.IGNORECASE)
        if match:
            dia, mes, año = match.groups()
            jga['fecha'] = f"{dia}/{mes}/{año}"
        
        # Hora
        match = re.search(PATRON_JGA['hora'], aviso)
        if match:
            jga['hora'] = match.group(1)
        
        # Lugar
        match = re.search(PATRON_JGA['lugar'], aviso, re.IGNORECASE)
        if match:
            jga['lugar'] = match.group(1).strip()
        
        if jga['empresa'] or jga['fecha']:
            convocatorias.append(jga)
    
    return convocatorias


# =========================================================================
# FUNCIÓN: EXTRAER DISOLUCIONES
# =========================================================================

def extraer_disoluciones(texto):
    """
    Extrae avisos de disolución y liquidación
    """
    
    disoluciones = []
    avisos = re.split(r'\n\s*-{3,}\s*\n', texto)
    
    for aviso in avisos:
        if not re.search(PATRON_DISOLUCION['titulo'], aviso, re.IGNORECASE):
            continue
        
        disolucion = {
            'tipo': 'DISOLUCION',
            'empresa': None,
            'ruc': None,
            'liquidador': None,
            'texto_completo': aviso[:500]
        }
        
        # Empresa
        match = re.search(PATRON_DISOLUCION['empresa'], aviso, re.IGNORECASE)
        if match:
            disolucion['empresa'] = match.group(1).strip()
        
        # RUC
        match = re.search(PATRON_DISOLUCION['ruc'], aviso)
        if match:
            disolucion['ruc'] = match.group(1)
        
        # Liquidador
        match = re.search(PATRON_DISOLUCION['liquidador'], aviso, re.IGNORECASE)
        if match:
            disolucion['liquidador'] = match.group(1).strip()
        
        if disolucion['empresa'] or disolucion['ruc']:
            disoluciones.append(disolucion)
    
    return disoluciones


# =========================================================================
# PROCESAR CORPUS
# =========================================================================

print(" Cargando corpus...")
ruta_corpus = CARPETA_DATOS / "corpus_limpio.json"

with open(ruta_corpus, 'r', encoding='utf-8') as f:
    corpus = json.load(f)

print(f" Cargados {len(corpus)} documentos\n")

print("="*70)
print(" EXTRAYENDO INFORMACIÓN ESTRUCTURADA")
print("="*70 + "\n")

# Estructura para guardar todo
base_datos = {
    'remates': [],
    'edictos': [],
    'licitaciones': [],
    'convocatorias_jga': [],
    'fusiones': [],
    'disoluciones': [],
    'requerimientos_sbs': []
}

# Estadísticas
stats = defaultdict(int)

# Procesar cada documento
for doc in tqdm(corpus, desc="Procesando documentos"):
    
    texto = doc['texto_limpio']
    metadata = {
        'archivo': doc['archivo'],
        'fecha_boletin': doc['fecha'],
        'año': doc['año'],
        'mes': doc['mes']
    }
    
    # Detectar secciones
    secciones = detectar_secciones(texto)
    
    # Extraer de cada sección
    
    # 1. REMATES
    for seccion in secciones['REMATES']:
        remates = extraer_remates(seccion)
        for remate in remates:
            remate.update(metadata)
            base_datos['remates'].append(remate)
            stats['remates'] += 1
    
    # 2. CONVOCATORIAS JGA
    for seccion in secciones['CONVOCATORIAS']:
        jgas = extraer_jga(seccion)
        for jga in jgas:
            jga.update(metadata)
            base_datos['convocatorias_jga'].append(jga)
            stats['convocatorias'] += 1
    
    # 3. DISOLUCIONES
    for seccion in secciones['DISOLUCIONES']:
        disoluciones = extraer_disoluciones(seccion)
        for disolucion in disoluciones:
            disolucion.update(metadata)
            base_datos['disoluciones'].append(disolucion)
            stats['disoluciones'] += 1

print(f"\n Extracción completada\n")

# =========================================================================
# GUARDAR BASE DE DATOS
# =========================================================================

print("="*70)
print(" GUARDANDO BASE DE DATOS")
print("="*70 + "\n")

# 1. JSON completo
print("📄 Base de datos completa (JSON)...", end=" ")
ruta_bd_json = CARPETA_EXTRAIDO / "base_datos_peruano.json"

with open(ruta_bd_json, 'w', encoding='utf-8') as f:
    json.dump(base_datos, f, ensure_ascii=False, indent=2)

print(f" ({ruta_bd_json.stat().st_size / (1024*1024):.1f} MB)")

# 2. CSV individuales por tipo
for tipo, datos in base_datos.items():
    if len(datos) > 0:
        print(f"📄 {tipo}.csv...", end=" ")
        ruta_csv = CARPETA_EXTRAIDO / f"{tipo}.csv"
        
        df = pd.DataFrame(datos)
        df.to_csv(ruta_csv, index=False, encoding='utf-8')
        
        print(f" ({len(datos)} registros)")

# 3. Estadísticas
print("\n📄 Estadísticas...", end=" ")
ruta_stats = CARPETA_EXTRAIDO / "estadisticas_extraccion.json"

estadisticas = {
    'total_documentos': len(corpus),
    'extracciones': dict(stats),
    'total_registros': sum(stats.values())
}

with open(ruta_stats, 'w', encoding='utf-8') as f:
    json.dump(estadisticas, f, ensure_ascii=False, indent=2)

print(f" ok ")

# =========================================================================
# RESUMEN
# =========================================================================

print(f"\n{'='*70}")
print(f" RESUMEN DE EXTRACCIÓN")
print(f"{'='*70}\n")

print(f" Documentos procesados: {len(corpus)}")
print(f" Total registros extraídos: {sum(stats.values())}\n")

print(f" Por tipo:")
for tipo, count in stats.items():
    print(f"   {tipo:20s}: {count:4d} registros")

print(f"\n{'='*70}")
print(f" ARCHIVOS GENERADOS")
print(f"{'='*70}\n")

print(f" {CARPETA_EXTRAIDO}/")
print(f"   ├── base_datos_peruano.json (base completa)")

for tipo in base_datos.keys():
    if len(base_datos[tipo]) > 0:
        print(f"   ├── {tipo}.csv")

print(f"   └── estadisticas_extraccion.json")

print(f"\n{'='*70}")
print(f" EXTRACCIÓN COMPLETADA")
print(f"{'='*70}\n")

print(f" Próximos pasos:")
print(f"   1. Revisar CSVs individuales")
print(f"   2. Ajustar patrones de extracción")
print(f"   3. Crear dashboard/visualizaciones")
print(f"   4. Análisis de tendencias\n")
"""


 EXTRACTOR ESTRUCTURADO - DIARIO EL PERUANO

 Cargando corpus...
 Cargados 243 documentos

 EXTRAYENDO INFORMACIÓN ESTRUCTURADA



Procesando documentos: 100%|██████████| 243/243 [00:00<00:00, 5796.99it/s]


 Extracción completada

 GUARDANDO BASE DE DATOS

📄 Base de datos completa (JSON)...  (0.0 MB)

📄 Estadísticas...  ok 

 RESUMEN DE EXTRACCIÓN

 Documentos procesados: 243
 Total registros extraídos: 0

 Por tipo:

 ARCHIVOS GENERADOS

 informacion_extraida/
   ├── base_datos_peruano.json (base completa)
   └── estadisticas_extraccion.json

 EXTRACCIÓN COMPLETADA

 Próximos pasos:
   1. Revisar CSVs individuales
   2. Ajustar patrones de extracción
   3. Crear dashboard/visualizaciones
   4. Análisis de tendencias






In [11]:
# =========================================================================
# EXTRACTOR ESTRUCTURADO SIMPLIFICADO
# =========================================================================
# Busca directamente en el texto SIN depender de deteccion de secciones
# =========================================================================

import re
import json
from pathlib import Path
from tqdm import tqdm
from collections import defaultdict
import pandas as pd

print("\n" + "="*70)
print(" EXTRACTOR ESTRUCTURADO SIMPLIFICADO")
print("="*70 + "\n")

# =========================================================================
# CONFIGURACION
# =========================================================================

CARPETA_DATOS = Path("datos_limpios")
CARPETA_EXTRAIDO = Path("informacion_extraida")
CARPETA_EXTRAIDO.mkdir(exist_ok=True)

# =========================================================================
# FUNCIONES DE EXTRACCION SIMPLIFICADAS
# =========================================================================

def extraer_juntas(texto):
    """Busca juntas de accionistas en todo el texto"""
    
    juntas = []
    
    # Patron: buscar bloques con "JUNTA GENERAL"
    patron_junta = r'JUNTA\s+GENERAL.*?(?=JUNTA\s+GENERAL|$)'
    
    matches = re.finditer(patron_junta, texto, re.IGNORECASE | re.DOTALL)
    
    for match in matches:
        bloque = match.group(0)[:1000]  # Primeros 1000 caracteres
        
        # Extraer empresa
        empresa = None
        match_empresa = re.search(r'(?:DE|EN)\s+([A-ZÁÉÍÓÚÑ\s\.]+?S\.?A\.?C?\.?)', bloque)
        if match_empresa:
            empresa = match_empresa.group(1).strip()
        
        # Extraer fecha
        fecha = None
        match_fecha = re.search(r'(\d{1,2})\s+DE\s+(\w+)\s+(?:DE|DEL)?\s*(\d{4})', bloque, re.IGNORECASE)
        if match_fecha:
            dia, mes, anio = match_fecha.groups()
            fecha = f"{dia}/{mes}/{anio}"
        
        if empresa or fecha or len(bloque) > 100:
            juntas.append({
                'tipo': 'JUNTA_ACCIONISTAS',
                'empresa': empresa,
                'fecha': fecha,
                'texto_completo': bloque[:600]
            })
    
    return juntas


def extraer_disoluciones(texto):
    """Busca disoluciones en todo el texto"""
    
    disoluciones = []
    
    # Patron: buscar bloques con "DISOLUCION"
    patron_disolucion = r'DISOLUCI[OÓ]N.*?(?=DISOLUCI[OÓ]N|JUNTA\s+GENERAL|$)'
    
    matches = re.finditer(patron_disolucion, texto, re.IGNORECASE | re.DOTALL)
    
    for match in matches:
        bloque = match.group(0)[:1000]
        
        # Extraer empresa
        empresa = None
        match_empresa = re.search(r'(?:EMPRESA|SOCIEDAD|RAZÓN SOCIAL)[:\s]+([A-ZÁÉÍÓÚÑ\s\.]+?S\.?A\.?C?\.?)', bloque, re.IGNORECASE)
        if not match_empresa:
            match_empresa = re.search(r'([A-ZÁÉÍÓÚÑ\s\.]+?S\.?A\.?C?\.?)', bloque)
        if match_empresa:
            empresa = match_empresa.group(1).strip()
        
        # Extraer RUC
        ruc = None
        match_ruc = re.search(r'RUC[:\s]*N?[°º]?\s*(\d{11})', bloque, re.IGNORECASE)
        if match_ruc:
            ruc = match_ruc.group(1)
        
        if empresa or ruc or len(bloque) > 100:
            disoluciones.append({
                'tipo': 'DISOLUCION',
                'empresa': empresa,
                'ruc': ruc,
                'texto_completo': bloque[:600]
            })
    
    return disoluciones


def extraer_remates(texto):
    """Busca remates en todo el texto"""
    
    remates = []
    
    # Patron: buscar bloques con "REMATE" o "SUBASTA"
    patron_remate = r'(?:REMATE|SUBASTA).*?(?=REMATE|SUBASTA|JUNTA\s+GENERAL|DISOLUCI[OÓ]N|$)'
    
    matches = re.finditer(patron_remate, texto, re.IGNORECASE | re.DOTALL)
    
    for match in matches:
        bloque = match.group(0)[:1000]
        
        # Extraer ubicacion
        ubicacion = None
        match_ubicacion = re.search(r'UBICACI[OÓ]N[:\s]+([^\n]+)', bloque, re.IGNORECASE)
        if match_ubicacion:
            ubicacion = match_ubicacion.group(1).strip()
        
        # Extraer base
        base = None
        match_base = re.search(r'BASE[:\s]*S/\.?\s*([\d,]+\.?\d*)', bloque, re.IGNORECASE)
        if match_base:
            base = match_base.group(1).replace(',', '')
        
        # Extraer fecha
        fecha = None
        match_fecha = re.search(r'FECHA[:\s]*(\d{1,2}[-/]\d{1,2}[-/]\d{2,4})', bloque, re.IGNORECASE)
        if match_fecha:
            fecha = match_fecha.group(1)
        
        if ubicacion or base or fecha or len(bloque) > 100:
            remates.append({
                'tipo': 'REMATE',
                'ubicacion': ubicacion,
                'base': base,
                'fecha': fecha,
                'texto_completo': bloque[:600]
            })
    
    return remates


# =========================================================================
# CARGAR Y PROCESAR CORPUS
# =========================================================================

print(" Cargando corpus...")
ruta_corpus = CARPETA_DATOS / "corpus_limpio.json"

with open(ruta_corpus, 'r', encoding='utf-8') as f:
    corpus = json.load(f)

print(f" Cargados {len(corpus)} documentos\n")

print("="*70)
print(" EXTRAYENDO AVISOS")
print("="*70 + "\n")

# Estructura para guardar
base_datos = {
    'remates': [],
    'convocatorias_jga': [],
    'disoluciones': []
}

stats = defaultdict(int)

# Procesar cada documento
for doc in tqdm(corpus, desc="Procesando"):
    
    texto = doc['texto_limpio']
    metadata = {
        'archivo': doc['archivo'],
        'fecha': doc['fecha'],
        'año': doc.get('año'),
        'mes': doc.get('mes')
    }
    
    # Extraer juntas
    juntas = extraer_juntas(texto)
    for junta in juntas:
        junta.update(metadata)
        base_datos['convocatorias_jga'].append(junta)
        stats['juntas'] += 1
    
    # Extraer disoluciones
    disoluciones = extraer_disoluciones(texto)
    for disolucion in disoluciones:
        disolucion.update(metadata)
        base_datos['disoluciones'].append(disolucion)
        stats['disoluciones'] += 1
    
    # Extraer remates
    remates = extraer_remates(texto)
    for remate in remates:
        remate.update(metadata)
        base_datos['remates'].append(remate)
        stats['remates'] += 1

print(f"\n Extraccion completada\n")

# =========================================================================
# GUARDAR CSVs
# =========================================================================

print("="*70)
print(" GUARDANDO ARCHIVOS")
print("="*70 + "\n")

for tipo, datos in base_datos.items():
    if len(datos) > 0:
        print(f" {tipo}.csv...", end=" ")
        ruta_csv = CARPETA_EXTRAIDO / f"{tipo}.csv"
        
        df = pd.DataFrame(datos)
        df.to_csv(ruta_csv, index=False, encoding='utf-8')
        
        print(f"OK ({len(datos)} registros)")

# =========================================================================
# RESUMEN
# =========================================================================

print(f"\n{'='*70}")
print(f" RESUMEN")
print(f"{'='*70}\n")

print(f" Documentos procesados: {len(corpus)}")
print(f" Total registros: {sum(stats.values())}\n")

print(f" Por tipo:")
for tipo, count in stats.items():
    print(f"   {tipo:20s}: {count:4d}")

print(f"\n{'='*70}")
print(f" ARCHIVOS EN: {CARPETA_EXTRAIDO}/")
print(f"{'='*70}\n")

for tipo in base_datos.keys():
    if len(base_datos[tipo]) > 0:
        print(f"   {tipo}.csv")

print(f"\n{'='*70}")
print(f" COMPLETADO")
print(f"{'='*70}\n")

print(" PROXIMO PASO:")
print("   Ejecutar celda de CONSOLIDACION")


 EXTRACTOR ESTRUCTURADO SIMPLIFICADO

 Cargando corpus...
 Cargados 243 documentos

 EXTRAYENDO AVISOS



Procesando: 100%|██████████| 243/243 [00:12<00:00, 20.16it/s]



 Extraccion completada

 GUARDANDO ARCHIVOS

OK (9515 registros)
 convocatorias_jga.csv... OK (3804 registros)
 disoluciones.csv... OK (3689 registros)

 RESUMEN

 Documentos procesados: 243
 Total registros: 17008

 Por tipo:
   juntas              : 3804
   disoluciones        : 3689
   remates             : 9515

 ARCHIVOS EN: informacion_extraida/

   remates.csv
   convocatorias_jga.csv
   disoluciones.csv

 COMPLETADO

 PROXIMO PASO:
   Ejecutar celda de CONSOLIDACION


In [12]:
# =========================================================================
# CELDA QUE FALTA: CONSOLIDAR TODO EN base_datos_completa.csv
# =========================================================================
# Esta celda junta remates, juntas, disoluciones en UN SOLO CSV
# EJECUTAR DESPUES de extraer entidades o reestructurar CSVs
# =========================================================================

import pandas as pd
from pathlib import Path

print("\n" + "="*70)
print(" CONSOLIDANDO TODO EN base_datos_completa.csv")
print("="*70 + "\n")

# =========================================================================
# PASO 1: BUSCAR Y CARGAR TODOS LOS CSVs
# =========================================================================

# Buscar en diferentes carpetas
carpetas = [
    Path("informacion_extraida"),
    Path("datos_estructurados"),
    Path("entidades_mejorado"),
]

todos_los_datos = []

for carpeta in carpetas:
    if not carpeta.exists():
        continue
    
    print(f" Buscando en: {carpeta}/\n")
    
    # Buscar CSVs
    csvs = list(carpeta.glob("*.csv"))
    
    for csv_path in csvs:
        try:
            df = pd.read_csv(csv_path, encoding='utf-8')
            
            # Agregar tipo si no existe
            if 'tipo' not in df.columns:
                # Inferir tipo del nombre del archivo
                nombre = csv_path.stem.lower()
                
                if 'junta' in nombre or 'convocatoria' in nombre:
                    df['tipo'] = 'JUNTA_ACCIONISTAS'
                elif 'disolucion' in nombre:
                    df['tipo'] = 'DISOLUCION'
                elif 'remate' in nombre:
                    df['tipo'] = 'REMATE'
                else:
                    df['tipo'] = 'AVISO'
            
            # Agregar archivo si no existe
            if 'archivo' not in df.columns and 'fecha_boletin' in df.columns:
                # Crear nombre de archivo desde fecha
                df['archivo'] = 'boletin_' + df['fecha_boletin'].astype(str).str.replace('-', '') + '.pdf'
            
            # Agregar texto_completo si no existe
            if 'texto_completo' not in df.columns:
                if 'texto' in df.columns:
                    df['texto_completo'] = df['texto']
                else:
                    df['texto_completo'] = ""
            
            # Solo agregar si tiene registros
            if len(df) > 0:
                print(f"    {csv_path.name}: {len(df)} registros ({df['tipo'].iloc[0] if 'tipo' in df.columns else 'AVISO'})")
                todos_los_datos.append(df)
        
        except Exception as e:
            print(f"    Error: {csv_path.name} - {e}")
    
    print()

# =========================================================================
# PASO 2: CONSOLIDAR TODO
# =========================================================================

if len(todos_los_datos) == 0:
    print(" No se encontraron CSVs para consolidar")
else:
    print("="*70)
    print(" CONSOLIDANDO...")
    print("="*70 + "\n")
    
    # Concatenar todos los DataFrames
    df_consolidado = pd.concat(todos_los_datos, ignore_index=True)
    
    print(f" Total registros: {len(df_consolidado)}")
    
    # Verificar columnas esenciales
    columnas_esenciales = ['archivo', 'tipo', 'texto_completo']
    
    for col in columnas_esenciales:
        if col not in df_consolidado.columns:
            print(f"    Falta columna: {col}, agregando vacía")
            df_consolidado[col] = ""
    
    # =====================================================================
    # PASO 3: ESTADISTICAS
    # =====================================================================
    
    print(f"\n ESTADISTICAS POR TIPO:\n")
    
    conteo = df_consolidado['tipo'].value_counts()
    for tipo, count in conteo.items():
        print(f"   {tipo:30} {count:4d} registros")
    
    # =====================================================================
    # PASO 4: GUARDAR
    # =====================================================================
    
    print(f"\n{'='*70}")
    print(" GUARDANDO")
    print("="*70 + "\n")
    
    carpeta_salida = Path("base_datos_final")
    carpeta_salida.mkdir(exist_ok=True)
    
    # CSV
    ruta_csv = carpeta_salida / "base_datos_completa.csv"
    df_consolidado.to_csv(ruta_csv, index=False, encoding='utf-8')
    
    tamano_mb = ruta_csv.stat().st_size / (1024*1024)
    
    print(f" {ruta_csv}")
    print(f"   Registros: {len(df_consolidado):,}")
    print(f"   Columnas: {len(df_consolidado.columns)}")
    print(f"   Tamaño: {tamano_mb:.1f} MB")
    
    # Mostrar columnas
    print(f"\n COLUMNAS:")
    for col in df_consolidado.columns:
        print(f"   • {col}")
    
    print(f"\n{'='*70}")
    print(" CONSOLIDACION COMPLETADA")
    print("="*70 + "\n")
    
    print("PROXIMO PASO:")
    print("   streamlit run dashboard_busqueda_simple4.py")

print("\n" + "="*70 + "\n")


 CONSOLIDANDO TODO EN base_datos_completa.csv

 Buscando en: informacion_extraida/

    convocatorias_jga.csv: 3804 registros (JUNTA_ACCIONISTAS)
    disoluciones.csv: 3689 registros (DISOLUCION)
    remates.csv: 9515 registros (REMATE)

 Buscando en: entidades_mejorado/

    entidades_mejorado.csv: 3043025 registros (MISC)

 CONSOLIDANDO...

 Total registros: 3060033

 ESTADISTICAS POR TIPO:

   MISC                           1284566 registros
   LOC                            796607 registros
   ORG                            729075 registros
   PER                            180463 registros
   MONTO_SOLES                    22685 registros
   LEY                            22087 registros
   REMATE                         9515 registros
   JUNTA_ACCIONISTAS              3804 registros
   DISOLUCION                     3689 registros
   DECRETO_SUPREMO                3111 registros
   MONTO_DOLARES                  1956 registros
   RUC                            1935 registros
   

## LIMPIEZA DE HTML DE LA BASE DE DATOS

In [13]:
# =========================================================================
# LIMPIAR HTML DE LA BASE DE DATOS (VERSIÓN CORREGIDA)
# =========================================================================

import pandas as pd
from pathlib import Path
import re
from bs4 import BeautifulSoup

print("\n" + "="*70)
print(" LIMPIANDO HTML DE LA BASE DE DATOS")
print("="*70 + "\n")

# =========================================================================
# CARGAR BASE DE DATOS
# =========================================================================

ruta = Path("base_datos_final/base_datos_completa.csv")

if not ruta.exists():
    print(" ERROR: El archivo no existe")
    print(f"   Buscado en: {ruta}")
    print("\n  SOLUCIÓN:")
    print("   1. Ejecuta primero la celda 'CREAR base_datos_completa.csv'")
else:
    df = pd.read_csv(ruta, encoding='utf-8')
    print(f" Cargados {len(df)} registros\n")
    
    # Mostrar columnas disponibles
    print(" Columnas disponibles:")
    for col in df.columns:
        print(f"   • {col}")
    
    # =====================================================================
    # FUNCIÓN PARA LIMPIAR HTML
    # =====================================================================
    
    def limpiar_html(texto):
        """
        Elimina todo el HTML y deja solo texto plano
        """
        if pd.isna(texto):
            return ""
        
        texto = str(texto)
        
        # Usar BeautifulSoup para quitar HTML
        try:
            soup = BeautifulSoup(texto, 'html.parser')
            texto_limpio = soup.get_text(separator=' ')
        except:
            # Si falla BeautifulSoup, usar regex simple
            texto_limpio = re.sub(r'<[^>]+>', '', texto)
        
        # Limpiar espacios múltiples
        texto_limpio = re.sub(r'\s+', ' ', texto_limpio)
        
        return texto_limpio.strip()
    
    # =====================================================================
    # IDENTIFICAR COLUMNAS DE TEXTO PARA LIMPIAR
    # =====================================================================
    
    print("\n Identificando columnas con posible HTML...\n")
    
    columnas_limpiar = []
    
    # Buscar columnas que probablemente contengan texto
    posibles_columnas = ['texto', 'texto_completo', 'texto_formateado', 'contenido', 'descripcion']
    
    for col in posibles_columnas:
        if col in df.columns:
            columnas_limpiar.append(col)
            print(f"    Limpiando: {col}")
    
    # Si no encontró columnas conocidas, buscar cualquier columna con 'texto' en el nombre
    if not columnas_limpiar:
        columnas_limpiar = [col for col in df.columns if 'texto' in col.lower()]
        for col in columnas_limpiar:
            print(f"    Limpiando: {col}")
    
    if not columnas_limpiar:
        print("     No se encontraron columnas de texto para limpiar")
        print("   Se usará la primera columna que parezca texto")
        # Usar la primera columna que tenga strings
        for col in df.columns:
            if df[col].dtype == 'object':
                columnas_limpiar = [col]
                print(f"    Usando: {col}")
                break
    
    # =====================================================================
    # LIMPIAR HTML
    # =====================================================================
    
    if columnas_limpiar:
        print(f"\n Limpiando HTML de {len(columnas_limpiar)} columna(s)...\n")
        
        for col in columnas_limpiar:
            print(f"   Procesando: {col}...")
            df[col] = df[col].apply(limpiar_html)
            print(f"    {col} limpiado")
        
        # =====================================================================
        # GUARDAR BASE DE DATOS LIMPIA
        # =====================================================================
        
        print("\n Guardando base de datos limpia...\n")
        
        # CSV
        ruta_csv = Path("base_datos_final/base_datos_completa.csv")
        df.to_csv(ruta_csv, index=False, encoding='utf-8')
        print(f"    CSV guardado: {ruta_csv}")
        print(f"      Tamaño: {ruta_csv.stat().st_size / 1024:.1f} KB")
        
        # JSON
        ruta_json = Path("base_datos_final/base_datos_completa.json")
        df.to_json(ruta_json, orient='records', force_ascii=False, indent=2)
        print(f"    JSON guardado: {ruta_json}")
        
        # =====================================================================
        # RESUMEN
        # =====================================================================
        
        print(f"\n{'='*70}")
        print(" BASE DE DATOS LIMPIADA")
        print("="*70 + "\n")
        
        print(" MUESTRA DE TEXTO LIMPIO:")
        print("-" * 70)
        
        # Mostrar una muestra de la primera columna limpiada
        if columnas_limpiar:
            col_muestra = columnas_limpiar[0]
            if len(df) > 0:
                muestra = str(df.iloc[0][col_muestra])[:300]
                print(muestra)
                if len(muestra) >= 300:
                    print("...")
        
        print("-" * 70 + "\n")
        
        print(" PRÓXIMO PASO:")
        print("   El dashboard ahora cargará datos sin HTML")
        print("   Ejecuta: streamlit run dashboard_busqueda_simple4.py")
        print()

print("="*70 + "\n")


 LIMPIANDO HTML DE LA BASE DE DATOS



  df = pd.read_csv(ruta, encoding='utf-8')


 Cargados 3060033 registros

 Columnas disponibles:
   • tipo
   • empresa
   • fecha
   • texto_completo
   • archivo
   • año
   • mes
   • ruc
   • ubicacion
   • base
   • texto
   • inicio
   • fin
   • texto_normalizado

 Identificando columnas con posible HTML...

    Limpiando: texto
    Limpiando: texto_completo

 Limpiando HTML de 2 columna(s)...

   Procesando: texto...


  soup = BeautifulSoup(texto, 'html.parser')
  soup = BeautifulSoup(texto, 'html.parser')


    texto limpiado
   Procesando: texto_completo...
    texto_completo limpiado

 Guardando base de datos limpia...

    CSV guardado: base_datos_final\base_datos_completa.csv
      Tamaño: 354555.2 KB
    JSON guardado: base_datos_final\base_datos_completa.json

 BASE DE DATOS LIMPIADA

 MUESTRA DE TEXTO LIMPIO:
----------------------------------------------------------------------

----------------------------------------------------------------------

 PRÓXIMO PASO:
   El dashboard ahora cargará datos sin HTML
   Ejecuta: streamlit run dashboard_busqueda_simple4.py




## STREAMLIT

In [14]:
codigo_mejorado_v3 = """import streamlit as st
import pandas as pd
from pathlib import Path
import math

st.set_page_config(page_title="Buscador El Peruano", page_icon="🔍", layout="wide")

st.markdown('''
<style>
    .titulo { font-size: 2rem; font-weight: bold; color: #1f77b4; text-align: center; }
    .card { background: #f8f9fa; padding: 1.5rem; border-radius: 0.5rem; border-left: 4px solid #1f77b4; margin: 1rem 0; }
    .badge { display: inline-block; padding: 0.25rem 0.5rem; border-radius: 0.25rem; font-size: 0.75rem; font-weight: bold; margin-right: 0.5rem; }
    .badge-decreto { background-color: #cfe2ff; color: #084298; }
    .badge-ley { background-color: #e2d9f3; color: #432874; }
    .badge-resolucion { background-color: #f8d7da; color: #721c24; }
    .badge-junta { background-color: #d1ecf1; color: #0c5460; }
    .badge-disolucion { background-color: #f8d7da; color: #721c24; }
    .badge-remate { background-color: #d4edda; color: #155724; }
    .texto-preview { 
        font-family: Arial, sans-serif; 
        font-size: 0.95rem; 
        line-height: 1.6; 
        color: #333;
        white-space: pre-wrap;
        margin-top: 1rem;
        background: white;
        padding: 1rem;
        border-radius: 0.5rem;
    }
</style>
''', unsafe_allow_html=True)

def cortar_texto(texto, max_chars=800):
    if len(texto) <= max_chars:
        return texto, False
    
    texto_corto = texto[:max_chars]
    ultimo_espacio = texto_corto.rfind(' ')
    if ultimo_espacio > max_chars * 0.7:
        return texto[:ultimo_espacio] + '...', True
    
    return texto[:max_chars] + '...', True

# CARGAR DATOS
@st.cache_data(show_spinner="Cargando datos...")
def cargar_datos():
    ruta = Path("base_datos_final/base_datos_completa.csv")
    
    if not ruta.exists():
        return None
    
    df = pd.read_csv(ruta, encoding='utf-8', low_memory=False)
    return df

df = cargar_datos()

if df is None:
    st.error(" No se encontró base_datos_completa.csv")
    st.info("Ejecuta la celda de CONSOLIDACIÓN en tu notebook primero")
    st.stop()

# Filtrar tipos relevantes
TIPOS_RELEVANTES = [
    'DECRETO_SUPREMO', 'RESOLUCION_SUPREMA', 'RESOLUCION_MINISTERIAL',
    'LEY', 'JUNTA_ACCIONISTAS', 'DISOLUCION', 'REMATE', 'AVISO'
]

if 'tipo' in df.columns:
    df = df[df['tipo'].isin(TIPOS_RELEVANTES)]

st.markdown('<h1 class="titulo"> Buscador Diario El Peruano</h1>', unsafe_allow_html=True)
st.markdown(f"<p style='text-align: center; color: gray;'>Base de datos con {len(df)} avisos legales</p>", unsafe_allow_html=True)

# Filtros
st.sidebar.markdown("##  Filtros")
busqueda = st.sidebar.text_input("Buscar en texto", placeholder="Ej: SUNAT, remate...")

tipos_disponibles = ['Todos']
if 'tipo' in df.columns:
    tipos_disponibles += sorted(df['tipo'].unique().tolist())
tipo = st.sidebar.selectbox("Tipo de documento", tipos_disponibles)

empresa = ""
if 'empresa' in df.columns:
    empresa = st.sidebar.text_input("Empresa", placeholder="Ej: TRANSPORTES...")

ruc = ""
if 'ruc' in df.columns:
    ruc = st.sidebar.text_input("RUC", placeholder="20100154057")

orden = st.sidebar.radio("Ordenar por fecha", ["Más recientes", "Más antiguos"])

# Aplicar filtros
df_filtrado = df.copy()

# Filtro por tipo
if tipo != 'Todos' and 'tipo' in df.columns:
    df_filtrado = df_filtrado[df_filtrado['tipo'] == tipo]

# Filtro por empresa
if empresa and 'empresa' in df.columns:
    df_filtrado = df_filtrado[df_filtrado['empresa'].str.contains(empresa, case=False, na=False)]

# Filtro por RUC
if ruc and 'ruc' in df.columns:
    df_filtrado = df_filtrado[df_filtrado['ruc'].astype(str).str.contains(ruc, na=False)]

# Filtro por búsqueda en texto
if busqueda:
    # Buscar en texto_completo o texto
    col_texto = None
    for col in ['texto_completo', 'texto', 'contenido']:
        if col in df_filtrado.columns:
            col_texto = col
            break
    
    if col_texto:
        df_filtrado = df_filtrado[df_filtrado[col_texto].str.contains(busqueda, case=False, na=False)]

# Ordenar por fecha
col_fecha = None
for col in ['fecha_boletin', 'fecha', 'fecha_publicacion']:
    if col in df_filtrado.columns:
        col_fecha = col
        break

if col_fecha:
    if orden == "Más recientes":
        df_filtrado = df_filtrado.sort_values(col_fecha, ascending=False)
    else:
        df_filtrado = df_filtrado.sort_values(col_fecha, ascending=True)

# Métricas
st.markdown("---")
col1, col2, col3, col4 = st.columns(4)
col1.metric(" Resultados", len(df_filtrado))

if 'tipo' in df_filtrado.columns:
    col2.metric(" Juntas", len(df_filtrado[df_filtrado['tipo'] == 'JUNTA_ACCIONISTAS']))
    col3.metric(" Disoluciones", len(df_filtrado[df_filtrado['tipo'] == 'DISOLUCION']))
    col4.metric(" Remates", len(df_filtrado[df_filtrado['tipo'] == 'REMATE']))

st.markdown("---")

# Paginación
RESULTADOS_POR_PAGINA = 10
total_resultados = len(df_filtrado)
total_paginas = math.ceil(total_resultados / RESULTADOS_POR_PAGINA) if total_resultados > 0 else 1

if 'pagina' not in st.session_state:
    st.session_state.pagina = 1

# Reset página si cambian filtros
filtros_actuales = f"{busqueda}_{tipo}_{empresa}_{ruc}_{orden}"
if 'filtros_anteriores' not in st.session_state:
    st.session_state.filtros_anteriores = filtros_actuales
elif st.session_state.filtros_anteriores != filtros_actuales:
    st.session_state.pagina = 1
    st.session_state.filtros_anteriores = filtros_actuales

if total_resultados > 0:
    # Navegación
    col1, col2, col3 = st.columns([1, 2, 1])
    
    with col1:
        if st.session_state.pagina > 1:
            if st.button(" Anterior"):
                st.session_state.pagina -= 1
                st.rerun()
    
    with col2:
        pagina_actual = st.selectbox(
            "Página",
            options=list(range(1, total_paginas + 1)),
            index=st.session_state.pagina - 1,
            key="selector_pagina"
        )
        if pagina_actual != st.session_state.pagina:
            st.session_state.pagina = pagina_actual
            st.rerun()
    
    with col3:
        if st.session_state.pagina < total_paginas:
            if st.button("Siguiente "):
                st.session_state.pagina += 1
                st.rerun()
    
    inicio = (st.session_state.pagina - 1) * RESULTADOS_POR_PAGINA
    fin = min(inicio + RESULTADOS_POR_PAGINA, total_resultados)
    
    st.markdown(f"### Mostrando {inicio + 1} - {fin} de {total_resultados} resultados")
    
    # Mostrar resultados
    for idx, row in df_filtrado.iloc[inicio:fin].iterrows():
        tipo_doc = row['tipo'] if 'tipo' in df_filtrado.columns and pd.notna(row['tipo']) else 'AVISO'
        
        # Badge con color
        badge_map = {
            'DECRETO_SUPREMO': ('DECRETO SUPREMO', 'badge-decreto'),
            'RESOLUCION_SUPREMA': ('RESOLUCIÓN SUPREMA', 'badge-resolucion'),
            'LEY': ('LEY', 'badge-ley'),
            'JUNTA_ACCIONISTAS': ('JUNTA', 'badge-junta'),
            'DISOLUCION': ('DISOLUCIÓN', 'badge-disolucion'),
            'REMATE': ('REMATE', 'badge-remate'),
        }
        
        badge_texto, badge_clase = badge_map.get(tipo_doc, (tipo_doc, 'badge'))
        badge = f'<span class="badge {badge_clase}">{badge_texto}</span>'
        
        # Metadata
        metadata_parts = []
        if col_fecha and pd.notna(row[col_fecha]):
            metadata_parts.append(f" Fecha: {row[col_fecha]}")
        if 'empresa' in df_filtrado.columns and pd.notna(row['empresa']) and str(row['empresa']).strip():
            metadata_parts.append(f" Empresa: {row['empresa']}")
        if 'ruc' in df_filtrado.columns and pd.notna(row['ruc']) and str(row['ruc']).strip():
            metadata_parts.append(f" RUC: {row['ruc']}")
        
        metadata = " | ".join(metadata_parts) if metadata_parts else "Sin metadata"
        
        st.markdown(
            f'<div class="card">{badge}<br><small>{metadata}</small></div>',
            unsafe_allow_html=True
        )
        
        # Mostrar texto
        col_texto = None
        for col in ['texto_completo', 'texto', 'contenido']:
            if col in df_filtrado.columns:
                col_texto = col
                break
        
        if col_texto and pd.notna(row[col_texto]):
            texto = str(row[col_texto])
            
            if len(texto.strip()) > 10:
                texto_preview, necesita_expansion = cortar_texto(texto, max_chars=800)
                st.markdown(f'<div class="texto-preview">{texto_preview}</div>', unsafe_allow_html=True)
                
                if necesita_expansion:
                    with st.expander("📄 Ver texto completo"):
                        st.text(texto)
            else:
                st.info("Sin texto disponible")
        else:
            st.info("Sin texto disponible")
        
        st.markdown("<br>", unsafe_allow_html=True)
    
    st.markdown("---")
    st.markdown(
        f"<p style='text-align: center;'>Página {st.session_state.pagina} de {total_paginas}</p>",
        unsafe_allow_html=True
    )
else:
    st.warning(" No se encontraron resultados con los filtros seleccionados")

# Descarga
if total_resultados > 0:
    st.markdown("---")
    
    if total_resultados <= 5000:
        csv = df_filtrado.to_csv(index=False, encoding='utf-8')
        st.download_button(
            " Descargar resultados (CSV)", 
            csv, 
            "resultados_peruano.csv", 
            "text/csv"
        )
    else:
        st.warning(f" Demasiados resultados ({total_resultados:,}). Usa filtros para reducir a menos de 5,000.")

st.markdown("---")
st.markdown("<p style='text-align: center; color: gray;'> Buscador Diario El Peruano</p>", unsafe_allow_html=True)
"""

with open('dashboard_busqueda_simple4.py', 'w', encoding='utf-8') as f:
    f.write(codigo_mejorado_v3)

print(" Dashboard MEJORADO V3 creado")
print("\n MEJORAS:")
print("    Aumentado a 1500 caracteres (antes 1000)")
print("    Busca puntos en los últimos 200 caracteres")
print("    Busca punto + espacio/salto de línea")
print("    No corta palabras a la mitad")
print("    Algoritmo de corte mejorado")
print("\n Ahora en la terminal:")
print("   Ctrl+C")
print("   streamlit run dashboard_busqueda_simple4.py")

 Dashboard MEJORADO V3 creado

 MEJORAS:
    Aumentado a 1500 caracteres (antes 1000)
    Busca puntos en los últimos 200 caracteres
    Busca punto + espacio/salto de línea
    No corta palabras a la mitad
    Algoritmo de corte mejorado

 Ahora en la terminal:
   Ctrl+C
   streamlit run dashboard_busqueda_simple4.py


In [10]:
# DIAGNOSTICO: Ver contenido de corpus_limpio.json
import json
from pathlib import Path

ruta_corpus = Path("datos_limpios/corpus_limpio.json")

with open(ruta_corpus, 'r', encoding='utf-8') as f:
    corpus = json.load(f)

print(f"Total documentos: {len(corpus)}")
print(f"\nPrimer documento:")
print(f"Archivo: {corpus[0]['archivo']}")
print(f"Fecha: {corpus[0]['fecha']}")
print(f"Texto (primeros 500 chars):")
print(corpus[0]['texto_limpio'][:500])

# Buscar palabras clave en el primer documento
texto = corpus[0]['texto_limpio'].upper()
print(f"\n¿Contiene 'JUNTA GENERAL'? {('JUNTA GENERAL' in texto)}")
print(f"¿Contiene 'DISOLUCION'? {('DISOLUCION' in texto)}")
print(f"¿Contiene 'REMATE'? {('REMATE' in texto)}")

Total documentos: 243

Primer documento:
Archivo: boletin_20250401.pdf
Fecha: 2025-04-01
Texto (primeros 500 chars):
Gerente de Publicaciones Oficiales: MARTES 1 RICARDO MONTERO REYES DE ABRIL DE 2025 “AÑO DE LA RECUPERACIÓN Y CONSOLIDACIÓN DE LA ECONOMÍA PERUANA” FUNDADO EL 22 DE OCTUBRE DE 1825 POR EL LIBERTADOR SIMÓN BOLIVAR BOLETÍN OFICIAL SUMARIO AVISOS DE CURSO LEGAL ADMINISTRACIÓN DE JUSTICIA B. Edictos Clasificados 13 A. Avisos Diversos 1 A. Edictos Judiciales 12 • Inscripción y Rectificación de Partidas • Patrimonio B. Edictos Matrimoniales 11 • Juzgados Especializados • Juzgados de Paz Letrados Famil

¿Contiene 'JUNTA GENERAL'? True
¿Contiene 'DISOLUCION'? True
¿Contiene 'REMATE'? True


## 📊 PASO 7: Análisis Exploratorio de Datos

In [None]:
# Cargar datos
try:
    df = pd.read_csv('entidades_extraidas.csv')
    df['fecha'] = pd.to_datetime(df['fecha'], format='%Y%m%d')
    print(f" Datos cargados: {len(df)} entidades")
except FileNotFoundError:
    print(" Archivo no encontrado. Ejecuta primero la extracción de entidades.")

In [None]:
# Resumen estadístico
print("\n" + "="*70)
print(" RESUMEN GENERAL")
print("="*70 + "\n")

print(f" Período: {df['fecha'].min().date()} a {df['fecha'].max().date()}")
print(f" Total de entidades: {len(df):,}")
print(f" Días con datos: {df['fecha'].nunique()}")
print("\n Entidades por tipo:")
print(df['tipo'].value_counts())

print("\n Top 10 Instituciones:")
if len(df[df['tipo']=='ORG']) > 0:
    print(df[df['tipo']=='ORG']['texto'].value_counts().head(10))
else:
    print("   No se detectaron instituciones")

## 📈 PASO 8: Visualizaciones

In [None]:
# Gráfico 1: Tendencia temporal general
por_fecha = df.groupby('fecha').size().reset_index(name='cantidad')

plt.figure(figsize=(14, 6))
plt.plot(por_fecha['fecha'], por_fecha['cantidad'], marker='o', linewidth=2, markersize=4)
plt.title('Evolución Temporal de Publicaciones - Diario El Peruano', fontsize=16, fontweight='bold')
plt.xlabel('Fecha', fontsize=12)
plt.ylabel('Número de Entidades Detectadas', fontsize=12)
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.savefig(CARPETA_GRAFICOS / 'tendencia_general.png', dpi=300, bbox_inches='tight')
plt.show()

print(" Gráfico guardado: tendencia_general.png")

In [None]:
# Gráfico 2: Top instituciones
if len(df[df['tipo']=='ORG']) > 0:
    orgs = df[df['tipo']=='ORG']
    top_orgs = orgs['texto'].value_counts().head(15)
    
    plt.figure(figsize=(12, 8))
    top_orgs.plot(kind='barh', color='steelblue')
    plt.title('Top 15 Instituciones Más Mencionadas', fontsize=16, fontweight='bold')
    plt.xlabel('Número de Menciones', fontsize=12)
    plt.ylabel('Institución', fontsize=12)
    plt.tight_layout()
    plt.savefig(CARPETA_GRAFICOS / 'top_instituciones.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    print(" Gráfico guardado: top_instituciones.png")
else:
    print(" No hay suficientes instituciones para graficar")

In [None]:
# Gráfico 3: Distribución por tipo de entidad
plt.figure(figsize=(10, 6))
df['tipo'].value_counts().plot(kind='bar', color='coral')
plt.title('Distribución de Entidades por Tipo', fontsize=16, fontweight='bold')
plt.xlabel('Tipo de Entidad', fontsize=12)
plt.ylabel('Cantidad', fontsize=12)
plt.xticks(rotation=45)
plt.tight_layout()
plt.savefig(CARPETA_GRAFICOS / 'distribucion_tipos.png', dpi=300, bbox_inches='tight')
plt.show()

print("✅ Gráfico guardado: distribucion_tipos.png")

## 📝 PASO 9: Conclusiones y Próximos Pasos

### ✅ Lo que logramos:

1. **Descarga automática** de boletines del Diario El Peruano
2. **Extracción de texto** desde PDFs
3. **Identificación de entidades** usando NER (spaCy)
4. **Base de datos estructurada** en CSV
5. **Visualizaciones** de tendencias temporales

### 🎯 Próximos pasos sugeridos:

1. **Mejorar NER**: Entrenar modelo personalizado con más ejemplos
2. **Análisis más profundo**: 
   - Correlaciones entre instituciones
   - Patrones estacionales
   - Análisis geográfico
3. **Clasificación**: Categorizar avisos por tipo (remate, disolución, etc.)
4. **Dashboard interactivo**: Usar Streamlit o Dash
5. **API de consulta**: Crear servicio REST

### 📊 Métricas del proyecto:

- ✅ Boletines procesados: [COMPLETAR]
- ✅ Entidades extraídas: [COMPLETAR]
- ✅ Instituciones identificadas: [COMPLETAR]
- ✅ Período analizado: [COMPLETAR]

## 💾 PASO 10: Exportar Resultados

Exporta todos tus resultados para el informe final:

In [None]:
# Crear resumen para el informe
resumen = {
    'periodo': f"{df['fecha'].min().date()} a {df['fecha'].max().date()}",
    'total_boletines': len(pdfs),
    'total_entidades': len(df),
    'dias_analizados': df['fecha'].nunique(),
    'tipos_entidades': df['tipo'].value_counts().to_dict(),
    'top_10_instituciones': df[df['tipo']=='ORG']['texto'].value_counts().head(10).to_dict() if len(df[df['tipo']=='ORG']) > 0 else {}
}

# Guardar resumen
with open('resumen_proyecto.json', 'w', encoding='utf-8') as f:
    json.dump(resumen, f, ensure_ascii=False, indent=2, default=str)

# Exportar a Excel
with pd.ExcelWriter('datos_finales.xlsx') as writer:
    df.to_excel(writer, sheet_name='Todas_Entidades', index=False)
    if len(df[df['tipo']=='ORG']) > 0:
        df[df['tipo']=='ORG'].to_excel(writer, sheet_name='Instituciones', index=False)
    if len(df[df['tipo']=='LOC']) > 0:
        df[df['tipo']=='LOC'].to_excel(writer, sheet_name='Ubicaciones', index=False)

print("\n✅ EXPORTACIÓN COMPLETADA")
print("\n📁 Archivos generados:")
print("   - entidades_extraidas.csv")
print("   - entidades_extraidas.json")
print("   - datos_finales.xlsx")
print("   - resumen_proyecto.json")
print(f"   - graficos/ (3 archivos PNG)")
print("\n🎉 ¡PROYECTO COMPLETADO!")