---

**üéì Universidad:** Universidad Central de Colombia

**üë®‚Äçüíª Autor:** Efren Bohorquez Vargas

**üìö Curso:** Big Data

**üë®‚Äçüè´ Presentado a:** Luis Fernando Castellanos

**üìÖ Fecha:** Octubre 2025

---

# üéì Taller Big Data: Web Scraping √âtico a ADRES

**ADRES**: Administradora de los Recursos del Sistema General de Seguridad Social en Salud

## üìã Objetivos del Taller

1. Comprender los principios del **web scraping √©tico**
2. Extraer documentos oficiales de ADRES
3. Almacenar datos estructurados en **MongoDB Atlas**
4. Analizar contenido de documentos legales

---

## 1Ô∏è‚É£ Instalaci√≥n de Dependencias

Ejecutar solo si las librer√≠as no est√°n instaladas:

In [None]:
# Descomentar si necesitas instalar las dependencias
# !pip install requests beautifulsoup4 pymongo urllib3 python-dotenv

## 2Ô∏è‚É£ Importar Librer√≠as

In [1]:
import requests
from bs4 import BeautifulSoup
from pymongo import MongoClient
from datetime import datetime
import time
import json
import re
from urllib.parse import urljoin, urlparse

print("‚úÖ Librer√≠as importadas correctamente")

‚úÖ Librer√≠as importadas correctamente


## 3Ô∏è‚É£ Configuraci√≥n √âtica del Scraper

### Principios √âticos:
- ‚úÖ Respetar `robots.txt`
- ‚úÖ Implementar delays entre requests (2+ segundos)
- ‚úÖ User-Agent identificado
- ‚úÖ Solo contenido p√∫blico
- ‚úÖ Prop√≥sito educativo

In [2]:
# Configuraci√≥n √©tica del scraper
CONFIGURACION_ETICA = {
    'delay_entre_requests': 3.0,  # 3 segundos entre peticiones
    'max_reintentos': 3,
    'timeout': 30,
    'user_agent': 'TallerBigData-WebScraping/1.0 (Educativo; Python/requests)',
    'headers': {
        'User-Agent': 'TallerBigData-WebScraping/1.0 (Educativo; Python/requests)',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
        'Accept-Language': 'es-CO,es;q=0.9',
        'Purpose': 'Educational Research - Big Data Workshop'
    }
}

print("‚öôÔ∏è Configuraci√≥n √©tica establecida")
print(f"   ‚Ä¢ Delay: {CONFIGURACION_ETICA['delay_entre_requests']}s")
print(f"   ‚Ä¢ User-Agent: {CONFIGURACION_ETICA['user_agent']}")

‚öôÔ∏è Configuraci√≥n √©tica establecida
   ‚Ä¢ Delay: 3.0s
   ‚Ä¢ User-Agent: TallerBigData-WebScraping/1.0 (Educativo; Python/requests)


## 4Ô∏è‚É£ Verificar robots.txt

Siempre verificar qu√© permite el sitio web:

In [3]:
def verificar_robots_txt(url_base):
    """Verificar y mostrar robots.txt del sitio"""
    robots_url = urljoin(url_base, '/robots.txt')
    
    try:
        response = requests.get(robots_url, timeout=10)
        if response.status_code == 200:
            print("ü§ñ robots.txt encontrado:")
            print("‚îÄ" * 50)
            print(response.text[:500])  # Primeras 500 caracteres
            return True
        else:
            print("‚ö†Ô∏è No se encontr√≥ robots.txt (permitido por defecto)")
            return True
    except Exception as e:
        print(f"‚ö†Ô∏è Error verificando robots.txt: {e}")
        return False

# Verificar robots.txt de ADRES
URL_BASE_ADRES = "https://www.adres.gov.co"
verificar_robots_txt(URL_BASE_ADRES)

‚ö†Ô∏è No se encontr√≥ robots.txt (permitido por defecto)


True

## 5Ô∏è‚É£ Funci√≥n de Scraping √âtico

Implementaci√≥n con delays y manejo de errores:

In [4]:
def scraping_etico(url, config=CONFIGURACION_ETICA):
    """
    Realizar scraping √©tico con delays y reintentos
    
    Args:
        url: URL a scrapear
        config: Configuraci√≥n √©tica
    
    Returns:
        BeautifulSoup object o None si falla
    """
    for intento in range(config['max_reintentos']):
        try:
            # Delay √©tico antes de hacer request
            if intento > 0:
                print(f"   ‚è≥ Reintento {intento + 1}/{config['max_reintentos']}...")
            
            time.sleep(config['delay_entre_requests'])
            
            # Realizar request
            response = requests.get(
                url,
                headers=config['headers'],
                timeout=config['timeout']
            )
            
            response.raise_for_status()
            
            # Parsear HTML
            soup = BeautifulSoup(response.content, 'html.parser')
            
            print(f"‚úÖ Contenido extra√≠do exitosamente de: {url}")
            return soup
            
        except requests.exceptions.RequestException as e:
            print(f"‚ùå Error en intento {intento + 1}: {e}")
            if intento == config['max_reintentos'] - 1:
                print(f"‚ùå Fall√≥ despu√©s de {config['max_reintentos']} intentos")
                return None
    
    return None

print("‚úÖ Funci√≥n de scraping √©tico definida")

‚úÖ Funci√≥n de scraping √©tico definida


## 6Ô∏è‚É£ Extraer Enlaces a Documentos

Buscar enlaces a PDFs y documentos oficiales:

In [5]:
def extraer_enlaces_documentos(soup, url_base):
    """
    Extraer enlaces a documentos (PDFs, resoluciones, etc.)
    
    Args:
        soup: BeautifulSoup object
        url_base: URL base para construir URLs absolutas
    
    Returns:
        Lista de diccionarios con informaci√≥n de documentos
    """
    documentos = []
    
    # Buscar todos los enlaces
    enlaces = soup.find_all('a', href=True)
    
    for enlace in enlaces:
        href = enlace['href']
        texto = enlace.get_text(strip=True)
        
        # Filtrar enlaces a documentos
        if any(ext in href.lower() for ext in ['.pdf', 'resolucion', 'documento']):
            url_completa = urljoin(url_base, href)
            
            documentos.append({
                'url': url_completa,
                'texto': texto,
                'tipo': 'pdf' if '.pdf' in href.lower() else 'documento',
                'fecha_extraccion': datetime.now().isoformat()
            })
    
    print(f"üìÑ Encontrados {len(documentos)} enlaces a documentos")
    return documentos

print("‚úÖ Funci√≥n de extracci√≥n de enlaces definida")

‚úÖ Funci√≥n de extracci√≥n de enlaces definida


## 7Ô∏è‚É£ Analizar Contenido de P√°gina

Extraer informaci√≥n estructurada:

In [6]:
def analizar_contenido(soup, url):
    """
    Analizar y extraer contenido estructurado
    
    Args:
        soup: BeautifulSoup object
        url: URL de origen
    
    Returns:
        Diccionario con an√°lisis del contenido
    """
    # Extraer t√≠tulo
    titulo = soup.find('title')
    titulo_texto = titulo.get_text(strip=True) if titulo else 'Sin t√≠tulo'
    
    # Extraer texto principal
    texto_completo = soup.get_text(separator=' ', strip=True)
    
    # Palabras clave relacionadas con ADRES
    palabras_clave = ['adres', 'salud', 'seguridad social', 'resoluci√≥n', 
                      'administradora', 'recursos', 'eps', 'ips']
    
    palabras_encontradas = {}
    for palabra in palabras_clave:
        cuenta = texto_completo.lower().count(palabra.lower())
        if cuenta > 0:
            palabras_encontradas[palabra] = cuenta
    
    # Extraer n√∫meros de resoluci√≥n (ejemplo: Resoluci√≥n 2876 de 2013)
    resoluciones = re.findall(r'resoluci√≥n\s+(\d+)\s+de\s+(\d{4})', 
                              texto_completo, re.IGNORECASE)
    
    analisis = {
        'url': url,
        'titulo': titulo_texto,
        'longitud_texto': len(texto_completo),
        'palabras_clave': palabras_encontradas,
        'resoluciones_encontradas': resoluciones,
        'fecha_analisis': datetime.now().isoformat(),
        'relevancia_adres': len(palabras_encontradas) > 0
    }
    
    return analisis

print("‚úÖ Funci√≥n de an√°lisis de contenido definida")

‚úÖ Funci√≥n de an√°lisis de contenido definida


## 8Ô∏è‚É£ Conexi√≥n a MongoDB Atlas

**Nota**: Reemplazar la cadena de conexi√≥n con tu propia configuraci√≥n

In [7]:
def conectar_mongodb(connection_string=None):
    """
    Conectar a MongoDB Atlas
    
    Args:
        connection_string: String de conexi√≥n de MongoDB Atlas
    
    Returns:
        Tupla (client, database, collection)
    """
    # IMPORTANTE: Reemplazar con tu propia connection string
    if connection_string is None:
        print("‚ö†Ô∏è Configurar connection_string de MongoDB Atlas")
        print("   Ejemplo: mongodb+srv://usuario:password@cluster.mongodb.net/")
        return None, None, None
    
    try:
        client = MongoClient(connection_string, serverSelectionTimeoutMS=5000)
        
        # Verificar conexi√≥n
        client.admin.command('ping')
        
        db = client['taller_bigdata_adres']
        collection = db['documentos_adres']
        
        print("‚úÖ Conectado a MongoDB Atlas")
        print(f"   üìä Base de datos: {db.name}")
        print(f"   üìÅ Colecci√≥n: {collection.name}")
        
        return client, db, collection
        
    except Exception as e:
        print(f"‚ùå Error conectando a MongoDB: {e}")
        return None, None, None

# Descomentar y configurar tu connection string
# MONGODB_URI = "mongodb+srv://usuario:password@cluster.mongodb.net/"
# client, db, collection = conectar_mongodb(MONGODB_URI)

print("‚úÖ Funci√≥n de conexi√≥n a MongoDB definida")

‚úÖ Funci√≥n de conexi√≥n a MongoDB definida


## 9Ô∏è‚É£ Guardar en MongoDB

Almacenar documentos extra√≠dos:

In [8]:
def guardar_en_mongodb(collection, documento):
    """
    Guardar documento en MongoDB
    
    Args:
        collection: Colecci√≥n de MongoDB
        documento: Diccionario con datos a guardar
    
    Returns:
        ID del documento insertado o None
    """
    if collection is None:
        print("‚ö†Ô∏è Colecci√≥n no configurada")
        return None
    
    try:
        # Verificar si ya existe (evitar duplicados)
        existe = collection.find_one({'url': documento.get('url')})
        
        if existe:
            print(f"‚ÑπÔ∏è Documento ya existe: {documento.get('titulo', 'Sin t√≠tulo')}")
            return existe['_id']
        
        # Insertar nuevo documento
        resultado = collection.insert_one(documento)
        print(f"‚úÖ Documento guardado: {documento.get('titulo', 'Sin t√≠tulo')}")
        
        return resultado.inserted_id
        
    except Exception as e:
        print(f"‚ùå Error guardando documento: {e}")
        return None

print("‚úÖ Funci√≥n de guardado en MongoDB definida")

‚úÖ Funci√≥n de guardado en MongoDB definida


## üîü Proceso Completo de Web Scraping

Integrar todas las funciones en un flujo completo:

In [9]:
def proceso_scraping_completo(url, collection=None):
    """
    Proceso completo de web scraping √©tico
    
    Args:
        url: URL a scrapear
        collection: Colecci√≥n de MongoDB (opcional)
    
    Returns:
        Diccionario con resultados
    """
    print("\n" + "="*60)
    print("üéì TALLER BIG DATA - WEB SCRAPING √âTICO A ADRES")
    print("="*60)
    
    # 1. Scraping √©tico
    print(f"\n1Ô∏è‚É£ Extrayendo contenido de: {url}")
    soup = scraping_etico(url)
    
    if soup is None:
        print("‚ùå No se pudo extraer contenido")
        return None
    
    # 2. Analizar contenido
    print("\n2Ô∏è‚É£ Analizando contenido...")
    analisis = analizar_contenido(soup, url)
    
    print(f"   üìã T√≠tulo: {analisis['titulo'][:80]}...")
    print(f"   üìù Longitud texto: {analisis['longitud_texto']} caracteres")
    print(f"   üîë Palabras clave: {list(analisis['palabras_clave'].keys())}")
    print(f"   üìÑ Resoluciones: {len(analisis['resoluciones_encontradas'])}")
    
    # 3. Extraer enlaces
    print("\n3Ô∏è‚É£ Extrayendo enlaces a documentos...")
    documentos = extraer_enlaces_documentos(soup, url)
    
    # 4. Guardar en MongoDB (si est√° configurado)
    if collection is not None:
        print("\n4Ô∏è‚É£ Guardando en MongoDB...")
        
        # Crear documento completo
        documento_completo = {
            **analisis,
            'documentos_relacionados': documentos,
            'metadata': {
                'fuente': 'ADRES',
                'tipo_extraccion': 'web_scraping_etico',
                'taller': 'Big Data 2025'
            }
        }
        
        doc_id = guardar_en_mongodb(collection, documento_completo)
        
        if doc_id:
            print(f"   üíæ ID MongoDB: {doc_id}")
    else:
        print("\n‚ÑπÔ∏è MongoDB no configurado - datos no guardados")
    
    # 5. Resumen
    print("\n" + "="*60)
    print("‚úÖ PROCESO COMPLETADO")
    print("="*60)
    print(f"üìä Documentos encontrados: {len(documentos)}")
    print(f"üîë Palabras clave ADRES: {len(analisis['palabras_clave'])}")
    print(f"‚úÖ Relevancia ADRES: {'S√ç' if analisis['relevancia_adres'] else 'NO'}")
    
    return {
        'analisis': analisis,
        'documentos': documentos,
        'exito': True
    }

print("‚úÖ Proceso completo definido")

‚úÖ Proceso completo definido


## üöÄ Ejemplo de Uso

Ejecutar web scraping a ADRES:

In [None]:
# Ejemplo: Extraer datos de ADRES
URL_ADRES = "https://www.adres.gov.co/"

# Opci√≥n 1: Sin MongoDB (solo extracci√≥n)
resultados = proceso_scraping_completo(URL_ADRES, collection=None)

# Opci√≥n 2: Con MongoDB (descomentar y configurar)
# MONGODB_URI = "mongodb+srv://usuario:password@cluster.mongodb.net/"
# client, db, collection = conectar_mongodb(MONGODB_URI)
# resultados = proceso_scraping_completo(URL_ADRES, collection)

# Mostrar resultados
if resultados:
    print(f"\n‚úÖ Extracci√≥n completada:")
    print(f"   üìä Documentos encontrados: {len(resultados['documentos'])}")
    print(f"   üîë Palabras clave: {len(resultados['analisis']['palabras_clave'])}")
    print(f"   üìù Caracteres analizados: {resultados['analisis']['longitud_texto']:,}")

## üîç Exploraci√≥n √âtica Multi-p√°gina

Para encontrar m√°s PDFs sin causar da√±os, vamos a explorar m√∫ltiples p√°ginas relevantes de ADRES manteniendo los principios √©ticos.

In [15]:
def extraer_enlaces_internos(soup, url_base):
    """
    Extrae enlaces internos de ADRES para explorar m√°s p√°ginas
    
    Args:
        soup: Objeto BeautifulSoup
        url_base: URL base del sitio
    
    Returns:
        Lista de URLs internas a explorar
    """
    from urllib.parse import urljoin, urlparse
    
    enlaces_internos = set()
    dominio_base = urlparse(url_base).netloc
    
    # Buscar todos los enlaces
    for enlace in soup.find_all('a', href=True):
        url_completa = urljoin(url_base, enlace['href'])
        parsed = urlparse(url_completa)
        
        # Solo enlaces del mismo dominio
        if parsed.netloc == dominio_base:
            # Filtrar URLs relevantes (normograma, gu√≠as, resoluciones)
            if any(palabra in url_completa.lower() for palabra in 
                   ['normograma', 'guia', 'resolucion', 'documento', 'compilacion', 'aprende']):
                enlaces_internos.add(url_completa)
    
    return list(enlaces_internos)

print("‚úÖ Funci√≥n extraer_enlaces_internos() definida")

‚úÖ Funci√≥n extraer_enlaces_internos() definida


In [16]:
def scraping_multipagina_etico(url_inicial, max_paginas=5, delay=5):
    """
    Explora m√∫ltiples p√°ginas de ADRES de forma √©tica buscando PDFs
    
    Args:
        url_inicial: URL de inicio
        max_paginas: M√°ximo de p√°ginas a explorar (default 5 para ser conservador)
        delay: Segundos entre peticiones (m√≠nimo 5 para no sobrecargar)
    
    Returns:
        Diccionario con todos los PDFs encontrados
    """
    import time
    from urllib.parse import urlparse
    
    print("\n" + "="*70)
    print("üîç EXPLORACI√ìN MULTI-P√ÅGINA √âTICA DE ADRES")
    print("="*70)
    print(f"\n‚öôÔ∏è Configuraci√≥n:")
    print(f"   ‚Ä¢ P√°ginas m√°ximas: {max_paginas}")
    print(f"   ‚Ä¢ Delay entre peticiones: {delay} segundos")
    print(f"   ‚Ä¢ Respeto robots.txt: S√ç")
    
    # Verificar robots.txt
    print(f"\n1Ô∏è‚É£ Verificando robots.txt...")
    if not verificar_robots_txt(url_inicial):
        print("‚ùå robots.txt no permite scraping. Deteniendo.")
        return None
    
    todos_los_pdfs = {}
    paginas_exploradas = set()
    paginas_por_explorar = [url_inicial]
    
    print(f"\n2Ô∏è‚É£ Iniciando exploraci√≥n...")
    
    while paginas_por_explorar and len(paginas_exploradas) < max_paginas:
        url_actual = paginas_por_explorar.pop(0)
        
        # Evitar repetir p√°ginas
        if url_actual in paginas_exploradas:
            continue
        
        print(f"\n   üìÑ Explorando: {url_actual}")
        
        # Delay √©tico
        if len(paginas_exploradas) > 0:
            print(f"      ‚è≥ Esperando {delay} segundos...")
            time.sleep(delay)
        
        # Scraping de la p√°gina
        soup = scraping_etico(url_actual, delay=0)  # Ya esperamos arriba
        
        if soup is None:
            print(f"      ‚ö†Ô∏è No se pudo acceder")
            paginas_exploradas.add(url_actual)
            continue
        
        # Extraer PDFs de esta p√°gina
        pdfs_encontrados = extraer_enlaces_documentos(soup, url_actual)
        
        if pdfs_encontrados:
            print(f"      ‚úÖ {len(pdfs_encontrados)} PDF(s) encontrado(s)")
            for pdf in pdfs_encontrados:
                todos_los_pdfs[pdf['url']] = pdf
        else:
            print(f"      ‚ÑπÔ∏è No se encontraron PDFs")
        
        # Extraer enlaces internos para explorar m√°s
        if len(paginas_exploradas) < max_paginas - 1:
            enlaces_internos = extraer_enlaces_internos(soup, url_actual)
            
            # Agregar nuevos enlaces (que no est√©n ya explorados)
            for enlace in enlaces_internos[:3]:  # M√°ximo 3 enlaces por p√°gina
                if enlace not in paginas_exploradas and enlace not in paginas_por_explorar:
                    paginas_por_explorar.append(enlace)
        
        paginas_exploradas.add(url_actual)
    
    # Resumen final
    print("\n" + "="*70)
    print("‚úÖ EXPLORACI√ìN COMPLETADA")
    print("="*70)
    print(f"\nüìä Estad√≠sticas:")
    print(f"   ‚Ä¢ P√°ginas exploradas: {len(paginas_exploradas)}")
    print(f"   ‚Ä¢ PDFs √∫nicos encontrados: {len(todos_los_pdfs)}")
    print(f"   ‚Ä¢ Tiempo total estimado: {len(paginas_exploradas) * delay} segundos")
    
    if todos_los_pdfs:
        print(f"\nüìÑ PDFs encontrados:")
        for i, (url_pdf, info) in enumerate(todos_los_pdfs.items(), 1):
            print(f"   {i}. {info.get('titulo', 'Sin t√≠tulo')[:60]}")
            print(f"      URL: {url_pdf}")
    
    return {
        'pdfs': list(todos_los_pdfs.values()),
        'total_pdfs': len(todos_los_pdfs),
        'paginas_exploradas': list(paginas_exploradas),
        'total_paginas': len(paginas_exploradas)
    }

print("‚úÖ Funci√≥n scraping_multipagina_etico() definida")

‚úÖ Funci√≥n scraping_multipagina_etico() definida


## üöÄ Ejemplo de Uso - Exploraci√≥n Ampliada

Ahora vamos a explorar m√∫ltiples p√°ginas de ADRES para encontrar m√°s PDFs de manera √©tica.

In [17]:
# URLs espec√≠ficas de ADRES con m√°s probabilidad de tener PDFs
URLS_ADRES_DOCUMENTOS = [
    "https://www.adres.gov.co/",  # P√°gina principal
    "https://normograma.adres.gov.co/compilacion/aprende_adres_guias.html",  # Gu√≠as
]

# Ejecutar exploraci√≥n multi-p√°gina (COMENTAR SI NO DESEA EJECUTAR)
# ADVERTENCIA: Esto tomar√° varios minutos debido a los delays √©ticos

print("‚ÑπÔ∏è Exploraci√≥n multi-p√°gina disponible.")
print("üìù Para ejecutar, descomenta las siguientes l√≠neas:")
print()
print("# resultados_multipagina = scraping_multipagina_etico(")
print("#     url_inicial='https://www.adres.gov.co/',")
print("#     max_paginas=5,  # Explorar m√°ximo 5 p√°ginas")
print("#     delay=5         # 5 segundos entre peticiones")
print("# )")
print()
print("üí° Alternativamente, explorar URLs espec√≠ficas:")
print()
print("# for url in URLS_ADRES_DOCUMENTOS:")
print("#     print(f'\\nüîç Analizando: {url}')")
print("#     soup = scraping_etico(url, delay=5)")
print("#     if soup:")
print("#         pdfs = extraer_enlaces_documentos(soup, url)")
print("#         print(f'   üìÑ PDFs encontrados: {len(pdfs)}')")
print("#         for pdf in pdfs:")
print("#             print(f'      ‚Ä¢ {pdf[\"url\"]}')")

‚ÑπÔ∏è Exploraci√≥n multi-p√°gina disponible.
üìù Para ejecutar, descomenta las siguientes l√≠neas:

# resultados_multipagina = scraping_multipagina_etico(
#     url_inicial='https://www.adres.gov.co/',
#     max_paginas=5,  # Explorar m√°ximo 5 p√°ginas
#     delay=5         # 5 segundos entre peticiones
# )

üí° Alternativamente, explorar URLs espec√≠ficas:

# for url in URLS_ADRES_DOCUMENTOS:
#     print(f'\nüîç Analizando: {url}')
#     soup = scraping_etico(url, delay=5)
#     if soup:
#         pdfs = extraer_enlaces_documentos(soup, url)
#         print(f'   üìÑ PDFs encontrados: {len(pdfs)}')
#         for pdf in pdfs:
#             print(f'      ‚Ä¢ {pdf["url"]}')


## ‚úÖ Prueba R√°pida - URLs Espec√≠ficas

Vamos a probar con URLs espec√≠ficas conocidas de ADRES para encontrar m√°s PDFs.

In [None]:
import time

# URLs espec√≠ficas de ADRES con documentos
urls_adres_documentos = [
    "https://www.adres.gov.co/",
    "https://normograma.adres.gov.co/compilacion/aprende_adres_guias.html",
]

print("üîç Explorando URLs espec√≠ficas de ADRES...\n")
print("="*70)

todos_pdfs_encontrados = []

for i, url in enumerate(urls_adres_documentos, 1):
    print(f"\nüìÑ [{i}/{len(urls_adres_documentos)}] Analizando: {url}")
    
    # Delay √©tico adicional entre p√°ginas diferentes
    if i > 1:
        print(f"   ‚è≥ Esperando 3 segundos adicionales entre p√°ginas...")
        time.sleep(3)
    
    # Realizar scraping (la funci√≥n ya tiene delay interno de 3s)
    soup = scraping_etico(url)
    
    if soup:
        # Extraer PDFs
        pdfs = extraer_enlaces_documentos(soup, url)
        
        if pdfs:
            print(f"   ‚úÖ {len(pdfs)} PDF(s) encontrado(s):")
            for pdf in pdfs:
                url_corta = pdf['url'][:70] + '...' if len(pdf['url']) > 70 else pdf['url']
                print(f"      ‚Ä¢ {url_corta}")
                todos_pdfs_encontrados.append(pdf)
        else:
            print(f"   ‚ÑπÔ∏è No se encontraron PDFs en esta p√°gina")
    else:
        print(f"   ‚ùå No se pudo acceder a la p√°gina")

print("\n" + "="*70)
print("‚úÖ EXPLORACI√ìN COMPLETADA")
print("="*70)
print(f"\nüìä Resumen:")
print(f"   ‚Ä¢ URLs exploradas: {len(urls_adres_documentos)}")
print(f"   ‚Ä¢ Total PDFs encontrados: {len(todos_pdfs_encontrados)}")

# Eliminar duplicados por URL
pdfs_unicos = {pdf['url']: pdf for pdf in todos_pdfs_encontrados}
print(f"   ‚Ä¢ PDFs √∫nicos: {len(pdfs_unicos)}")
print(f"   ‚Ä¢ Tiempo total: ~{len(urls_adres_documentos) * 3 + (len(urls_adres_documentos)-1) * 3} segundos")

if pdfs_unicos:
    print(f"\nüìÑ Lista de PDFs √∫nicos encontrados:")
    for i, pdf in enumerate(pdfs_unicos.values(), 1):
        print(f"   {i}. {pdf['url']}")

üîç Explorando URLs espec√≠ficas de ADRES...


üìÑ [1/2] Analizando: https://www.adres.gov.co/
