---

**🎓 Universidad:** Universidad Central de Colombia

**👨‍💻 Autor:** Efren Bohorquez Vargas

**📚 Curso:** Big Data

**👨‍🏫 Presentado a:** Luis Fernando Castellanos

**📅 Fecha:** Octubre 2025

---

# 🎓 Taller Big Data: Web Scraping Ético a ADRES

**ADRES**: Administradora de los Recursos del Sistema General de Seguridad Social en Salud

## 📋 Objetivos del Taller

1. Comprender los principios del **web scraping ético**
2. Extraer documentos oficiales de ADRES
3. Almacenar datos estructurados en **MongoDB Atlas**
4. Analizar contenido de documentos legales

---

## 1️⃣ Instalación de Dependencias

Ejecutar solo si las librerías no están instaladas:

In [None]:
# Descomentar si necesitas instalar las dependencias
# !pip install requests beautifulsoup4 pymongo urllib3 python-dotenv

## 2️⃣ Importar Librerías

In [1]:
import requests
from bs4 import BeautifulSoup
from pymongo import MongoClient
from datetime import datetime
import time
import json
import re
from urllib.parse import urljoin, urlparse

print("✅ Librerías importadas correctamente")

✅ Librerías importadas correctamente


## 3️⃣ Configuración Ética del Scraper

### Principios Éticos:
- ✅ Respetar `robots.txt`
- ✅ Implementar delays entre requests (2+ segundos)
- ✅ User-Agent identificado
- ✅ Solo contenido público
- ✅ Propósito educativo

In [2]:
# Configuración ética del scraper
CONFIGURACION_ETICA = {
    'delay_entre_requests': 3.0,  # 3 segundos entre peticiones
    'max_reintentos': 3,
    'timeout': 30,
    'user_agent': 'TallerBigData-WebScraping/1.0 (Educativo; Python/requests)',
    'headers': {
        'User-Agent': 'TallerBigData-WebScraping/1.0 (Educativo; Python/requests)',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
        'Accept-Language': 'es-CO,es;q=0.9',
        'Purpose': 'Educational Research - Big Data Workshop'
    }
}

print("⚙️ Configuración ética establecida")
print(f"   • Delay: {CONFIGURACION_ETICA['delay_entre_requests']}s")
print(f"   • User-Agent: {CONFIGURACION_ETICA['user_agent']}")

⚙️ Configuración ética establecida
   • Delay: 3.0s
   • User-Agent: TallerBigData-WebScraping/1.0 (Educativo; Python/requests)


## 4️⃣ Verificar robots.txt

Siempre verificar qué permite el sitio web:

In [3]:
def verificar_robots_txt(url_base):
    """Verificar y mostrar robots.txt del sitio"""
    robots_url = urljoin(url_base, '/robots.txt')
    
    try:
        response = requests.get(robots_url, timeout=10)
        if response.status_code == 200:
            print("🤖 robots.txt encontrado:")
            print("─" * 50)
            print(response.text[:500])  # Primeras 500 caracteres
            return True
        else:
            print("⚠️ No se encontró robots.txt (permitido por defecto)")
            return True
    except Exception as e:
        print(f"⚠️ Error verificando robots.txt: {e}")
        return False

# Verificar robots.txt de ADRES
URL_BASE_ADRES = "https://www.adres.gov.co"
verificar_robots_txt(URL_BASE_ADRES)

⚠️ No se encontró robots.txt (permitido por defecto)


True

## 5️⃣ Función de Scraping Ético

Implementación con delays y manejo de errores:

In [4]:
def scraping_etico(url, config=CONFIGURACION_ETICA):
    """
    Realizar scraping ético con delays y reintentos
    
    Args:
        url: URL a scrapear
        config: Configuración ética
    
    Returns:
        BeautifulSoup object o None si falla
    """
    for intento in range(config['max_reintentos']):
        try:
            # Delay ético antes de hacer request
            if intento > 0:
                print(f"   ⏳ Reintento {intento + 1}/{config['max_reintentos']}...")
            
            time.sleep(config['delay_entre_requests'])
            
            # Realizar request
            response = requests.get(
                url,
                headers=config['headers'],
                timeout=config['timeout']
            )
            
            response.raise_for_status()
            
            # Parsear HTML
            soup = BeautifulSoup(response.content, 'html.parser')
            
            print(f"✅ Contenido extraído exitosamente de: {url}")
            return soup
            
        except requests.exceptions.RequestException as e:
            print(f"❌ Error en intento {intento + 1}: {e}")
            if intento == config['max_reintentos'] - 1:
                print(f"❌ Falló después de {config['max_reintentos']} intentos")
                return None
    
    return None

print("✅ Función de scraping ético definida")

✅ Función de scraping ético definida


## 6️⃣ Extraer Enlaces a Documentos

Buscar enlaces a PDFs y documentos oficiales:

In [5]:
def extraer_enlaces_documentos(soup, url_base):
    """
    Extraer enlaces a documentos (PDFs, resoluciones, etc.)
    
    Args:
        soup: BeautifulSoup object
        url_base: URL base para construir URLs absolutas
    
    Returns:
        Lista de diccionarios con información de documentos
    """
    documentos = []
    
    # Buscar todos los enlaces
    enlaces = soup.find_all('a', href=True)
    
    for enlace in enlaces:
        href = enlace['href']
        texto = enlace.get_text(strip=True)
        
        # Filtrar enlaces a documentos
        if any(ext in href.lower() for ext in ['.pdf', 'resolucion', 'documento']):
            url_completa = urljoin(url_base, href)
            
            documentos.append({
                'url': url_completa,
                'texto': texto,
                'tipo': 'pdf' if '.pdf' in href.lower() else 'documento',
                'fecha_extraccion': datetime.now().isoformat()
            })
    
    print(f"📄 Encontrados {len(documentos)} enlaces a documentos")
    return documentos

print("✅ Función de extracción de enlaces definida")

✅ Función de extracción de enlaces definida


## 7️⃣ Analizar Contenido de Página

Extraer información estructurada:

In [6]:
def analizar_contenido(soup, url):
    """
    Analizar y extraer contenido estructurado
    
    Args:
        soup: BeautifulSoup object
        url: URL de origen
    
    Returns:
        Diccionario con análisis del contenido
    """
    # Extraer título
    titulo = soup.find('title')
    titulo_texto = titulo.get_text(strip=True) if titulo else 'Sin título'
    
    # Extraer texto principal
    texto_completo = soup.get_text(separator=' ', strip=True)
    
    # Palabras clave relacionadas con ADRES
    palabras_clave = ['adres', 'salud', 'seguridad social', 'resolución', 
                      'administradora', 'recursos', 'eps', 'ips']
    
    palabras_encontradas = {}
    for palabra in palabras_clave:
        cuenta = texto_completo.lower().count(palabra.lower())
        if cuenta > 0:
            palabras_encontradas[palabra] = cuenta
    
    # Extraer números de resolución (ejemplo: Resolución 2876 de 2013)
    resoluciones = re.findall(r'resolución\s+(\d+)\s+de\s+(\d{4})', 
                              texto_completo, re.IGNORECASE)
    
    analisis = {
        'url': url,
        'titulo': titulo_texto,
        'longitud_texto': len(texto_completo),
        'palabras_clave': palabras_encontradas,
        'resoluciones_encontradas': resoluciones,
        'fecha_analisis': datetime.now().isoformat(),
        'relevancia_adres': len(palabras_encontradas) > 0
    }
    
    return analisis

print("✅ Función de análisis de contenido definida")

✅ Función de análisis de contenido definida


## 8️⃣ Conexión a MongoDB Atlas

**Nota**: Reemplazar la cadena de conexión con tu propia configuración

In [7]:
def conectar_mongodb(connection_string=None):
    """
    Conectar a MongoDB Atlas
    
    Args:
        connection_string: String de conexión de MongoDB Atlas
    
    Returns:
        Tupla (client, database, collection)
    """
    # IMPORTANTE: Reemplazar con tu propia connection string
    if connection_string is None:
        print("⚠️ Configurar connection_string de MongoDB Atlas")
        print("   Ejemplo: mongodb+srv://usuario:password@cluster.mongodb.net/")
        return None, None, None
    
    try:
        client = MongoClient(connection_string, serverSelectionTimeoutMS=5000)
        
        # Verificar conexión
        client.admin.command('ping')
        
        db = client['taller_bigdata_adres']
        collection = db['documentos_adres']
        
        print("✅ Conectado a MongoDB Atlas")
        print(f"   📊 Base de datos: {db.name}")
        print(f"   📁 Colección: {collection.name}")
        
        return client, db, collection
        
    except Exception as e:
        print(f"❌ Error conectando a MongoDB: {e}")
        return None, None, None

# Descomentar y configurar tu connection string
# MONGODB_URI = "mongodb+srv://usuario:password@cluster.mongodb.net/"
# client, db, collection = conectar_mongodb(MONGODB_URI)

print("✅ Función de conexión a MongoDB definida")

✅ Función de conexión a MongoDB definida


## 9️⃣ Guardar en MongoDB

Almacenar documentos extraídos:

In [8]:
def guardar_en_mongodb(collection, documento):
    """
    Guardar documento en MongoDB
    
    Args:
        collection: Colección de MongoDB
        documento: Diccionario con datos a guardar
    
    Returns:
        ID del documento insertado o None
    """
    if collection is None:
        print("⚠️ Colección no configurada")
        return None
    
    try:
        # Verificar si ya existe (evitar duplicados)
        existe = collection.find_one({'url': documento.get('url')})
        
        if existe:
            print(f"ℹ️ Documento ya existe: {documento.get('titulo', 'Sin título')}")
            return existe['_id']
        
        # Insertar nuevo documento
        resultado = collection.insert_one(documento)
        print(f"✅ Documento guardado: {documento.get('titulo', 'Sin título')}")
        
        return resultado.inserted_id
        
    except Exception as e:
        print(f"❌ Error guardando documento: {e}")
        return None

print("✅ Función de guardado en MongoDB definida")

✅ Función de guardado en MongoDB definida


## 🔟 Proceso Completo de Web Scraping

Integrar todas las funciones en un flujo completo:

In [9]:
def proceso_scraping_completo(url, collection=None):
    """
    Proceso completo de web scraping ético
    
    Args:
        url: URL a scrapear
        collection: Colección de MongoDB (opcional)
    
    Returns:
        Diccionario con resultados
    """
    print("\n" + "="*60)
    print("🎓 TALLER BIG DATA - WEB SCRAPING ÉTICO A ADRES")
    print("="*60)
    
    # 1. Scraping ético
    print(f"\n1️⃣ Extrayendo contenido de: {url}")
    soup = scraping_etico(url)
    
    if soup is None:
        print("❌ No se pudo extraer contenido")
        return None
    
    # 2. Analizar contenido
    print("\n2️⃣ Analizando contenido...")
    analisis = analizar_contenido(soup, url)
    
    print(f"   📋 Título: {analisis['titulo'][:80]}...")
    print(f"   📝 Longitud texto: {analisis['longitud_texto']} caracteres")
    print(f"   🔑 Palabras clave: {list(analisis['palabras_clave'].keys())}")
    print(f"   📄 Resoluciones: {len(analisis['resoluciones_encontradas'])}")
    
    # 3. Extraer enlaces
    print("\n3️⃣ Extrayendo enlaces a documentos...")
    documentos = extraer_enlaces_documentos(soup, url)
    
    # 4. Guardar en MongoDB (si está configurado)
    if collection is not None:
        print("\n4️⃣ Guardando en MongoDB...")
        
        # Crear documento completo
        documento_completo = {
            **analisis,
            'documentos_relacionados': documentos,
            'metadata': {
                'fuente': 'ADRES',
                'tipo_extraccion': 'web_scraping_etico',
                'taller': 'Big Data 2025'
            }
        }
        
        doc_id = guardar_en_mongodb(collection, documento_completo)
        
        if doc_id:
            print(f"   💾 ID MongoDB: {doc_id}")
    else:
        print("\nℹ️ MongoDB no configurado - datos no guardados")
    
    # 5. Resumen
    print("\n" + "="*60)
    print("✅ PROCESO COMPLETADO")
    print("="*60)
    print(f"📊 Documentos encontrados: {len(documentos)}")
    print(f"🔑 Palabras clave ADRES: {len(analisis['palabras_clave'])}")
    print(f"✅ Relevancia ADRES: {'SÍ' if analisis['relevancia_adres'] else 'NO'}")
    
    return {
        'analisis': analisis,
        'documentos': documentos,
        'exito': True
    }

print("✅ Proceso completo definido")

✅ Proceso completo definido


## 🚀 Ejemplo de Uso

Ejecutar web scraping a ADRES:

In [None]:
# Ejemplo: Extraer datos de ADRES
URL_ADRES = "https://www.adres.gov.co/"

# Opción 1: Sin MongoDB (solo extracción)
resultados = proceso_scraping_completo(URL_ADRES, collection=None)

# Opción 2: Con MongoDB (descomentar y configurar)
# MONGODB_URI = "mongodb+srv://usuario:password@cluster.mongodb.net/"
# client, db, collection = conectar_mongodb(MONGODB_URI)
# resultados = proceso_scraping_completo(URL_ADRES, collection)

# Mostrar resultados
if resultados:
    print(f"\n✅ Extracción completada:")
    print(f"   📊 Documentos encontrados: {len(resultados['documentos'])}")
    print(f"   🔑 Palabras clave: {len(resultados['analisis']['palabras_clave'])}")
    print(f"   📝 Caracteres analizados: {resultados['analisis']['longitud_texto']:,}")

## 🔍 Exploración Ética Multi-página

Para encontrar más PDFs sin causar daños, vamos a explorar múltiples páginas relevantes de ADRES manteniendo los principios éticos.

In [15]:
def extraer_enlaces_internos(soup, url_base):
    """
    Extrae enlaces internos de ADRES para explorar más páginas
    
    Args:
        soup: Objeto BeautifulSoup
        url_base: URL base del sitio
    
    Returns:
        Lista de URLs internas a explorar
    """
    from urllib.parse import urljoin, urlparse
    
    enlaces_internos = set()
    dominio_base = urlparse(url_base).netloc
    
    # Buscar todos los enlaces
    for enlace in soup.find_all('a', href=True):
        url_completa = urljoin(url_base, enlace['href'])
        parsed = urlparse(url_completa)
        
        # Solo enlaces del mismo dominio
        if parsed.netloc == dominio_base:
            # Filtrar URLs relevantes (normograma, guías, resoluciones)
            if any(palabra in url_completa.lower() for palabra in 
                   ['normograma', 'guia', 'resolucion', 'documento', 'compilacion', 'aprende']):
                enlaces_internos.add(url_completa)
    
    return list(enlaces_internos)

print("✅ Función extraer_enlaces_internos() definida")

✅ Función extraer_enlaces_internos() definida


In [16]:
def scraping_multipagina_etico(url_inicial, max_paginas=5, delay=5):
    """
    Explora múltiples páginas de ADRES de forma ética buscando PDFs
    
    Args:
        url_inicial: URL de inicio
        max_paginas: Máximo de páginas a explorar (default 5 para ser conservador)
        delay: Segundos entre peticiones (mínimo 5 para no sobrecargar)
    
    Returns:
        Diccionario con todos los PDFs encontrados
    """
    import time
    from urllib.parse import urlparse
    
    print("\n" + "="*70)
    print("🔍 EXPLORACIÓN MULTI-PÁGINA ÉTICA DE ADRES")
    print("="*70)
    print(f"\n⚙️ Configuración:")
    print(f"   • Páginas máximas: {max_paginas}")
    print(f"   • Delay entre peticiones: {delay} segundos")
    print(f"   • Respeto robots.txt: SÍ")
    
    # Verificar robots.txt
    print(f"\n1️⃣ Verificando robots.txt...")
    if not verificar_robots_txt(url_inicial):
        print("❌ robots.txt no permite scraping. Deteniendo.")
        return None
    
    todos_los_pdfs = {}
    paginas_exploradas = set()
    paginas_por_explorar = [url_inicial]
    
    print(f"\n2️⃣ Iniciando exploración...")
    
    while paginas_por_explorar and len(paginas_exploradas) < max_paginas:
        url_actual = paginas_por_explorar.pop(0)
        
        # Evitar repetir páginas
        if url_actual in paginas_exploradas:
            continue
        
        print(f"\n   📄 Explorando: {url_actual}")
        
        # Delay ético
        if len(paginas_exploradas) > 0:
            print(f"      ⏳ Esperando {delay} segundos...")
            time.sleep(delay)
        
        # Scraping de la página
        soup = scraping_etico(url_actual, delay=0)  # Ya esperamos arriba
        
        if soup is None:
            print(f"      ⚠️ No se pudo acceder")
            paginas_exploradas.add(url_actual)
            continue
        
        # Extraer PDFs de esta página
        pdfs_encontrados = extraer_enlaces_documentos(soup, url_actual)
        
        if pdfs_encontrados:
            print(f"      ✅ {len(pdfs_encontrados)} PDF(s) encontrado(s)")
            for pdf in pdfs_encontrados:
                todos_los_pdfs[pdf['url']] = pdf
        else:
            print(f"      ℹ️ No se encontraron PDFs")
        
        # Extraer enlaces internos para explorar más
        if len(paginas_exploradas) < max_paginas - 1:
            enlaces_internos = extraer_enlaces_internos(soup, url_actual)
            
            # Agregar nuevos enlaces (que no estén ya explorados)
            for enlace in enlaces_internos[:3]:  # Máximo 3 enlaces por página
                if enlace not in paginas_exploradas and enlace not in paginas_por_explorar:
                    paginas_por_explorar.append(enlace)
        
        paginas_exploradas.add(url_actual)
    
    # Resumen final
    print("\n" + "="*70)
    print("✅ EXPLORACIÓN COMPLETADA")
    print("="*70)
    print(f"\n📊 Estadísticas:")
    print(f"   • Páginas exploradas: {len(paginas_exploradas)}")
    print(f"   • PDFs únicos encontrados: {len(todos_los_pdfs)}")
    print(f"   • Tiempo total estimado: {len(paginas_exploradas) * delay} segundos")
    
    if todos_los_pdfs:
        print(f"\n📄 PDFs encontrados:")
        for i, (url_pdf, info) in enumerate(todos_los_pdfs.items(), 1):
            print(f"   {i}. {info.get('titulo', 'Sin título')[:60]}")
            print(f"      URL: {url_pdf}")
    
    return {
        'pdfs': list(todos_los_pdfs.values()),
        'total_pdfs': len(todos_los_pdfs),
        'paginas_exploradas': list(paginas_exploradas),
        'total_paginas': len(paginas_exploradas)
    }

print("✅ Función scraping_multipagina_etico() definida")

✅ Función scraping_multipagina_etico() definida


## 🚀 Ejemplo de Uso - Exploración Ampliada

Ahora vamos a explorar múltiples páginas de ADRES para encontrar más PDFs de manera ética.

In [17]:
# URLs específicas de ADRES con más probabilidad de tener PDFs
URLS_ADRES_DOCUMENTOS = [
    "https://www.adres.gov.co/",  # Página principal
    "https://normograma.adres.gov.co/compilacion/aprende_adres_guias.html",  # Guías
]

# Ejecutar exploración multi-página (COMENTAR SI NO DESEA EJECUTAR)
# ADVERTENCIA: Esto tomará varios minutos debido a los delays éticos

print("ℹ️ Exploración multi-página disponible.")
print("📝 Para ejecutar, descomenta las siguientes líneas:")
print()
print("# resultados_multipagina = scraping_multipagina_etico(")
print("#     url_inicial='https://www.adres.gov.co/',")
print("#     max_paginas=5,  # Explorar máximo 5 páginas")
print("#     delay=5         # 5 segundos entre peticiones")
print("# )")
print()
print("💡 Alternativamente, explorar URLs específicas:")
print()
print("# for url in URLS_ADRES_DOCUMENTOS:")
print("#     print(f'\\n🔍 Analizando: {url}')")
print("#     soup = scraping_etico(url, delay=5)")
print("#     if soup:")
print("#         pdfs = extraer_enlaces_documentos(soup, url)")
print("#         print(f'   📄 PDFs encontrados: {len(pdfs)}')")
print("#         for pdf in pdfs:")
print("#             print(f'      • {pdf[\"url\"]}')")

ℹ️ Exploración multi-página disponible.
📝 Para ejecutar, descomenta las siguientes líneas:

# resultados_multipagina = scraping_multipagina_etico(
#     url_inicial='https://www.adres.gov.co/',
#     max_paginas=5,  # Explorar máximo 5 páginas
#     delay=5         # 5 segundos entre peticiones
# )

💡 Alternativamente, explorar URLs específicas:

# for url in URLS_ADRES_DOCUMENTOS:
#     print(f'\n🔍 Analizando: {url}')
#     soup = scraping_etico(url, delay=5)
#     if soup:
#         pdfs = extraer_enlaces_documentos(soup, url)
#         print(f'   📄 PDFs encontrados: {len(pdfs)}')
#         for pdf in pdfs:
#             print(f'      • {pdf["url"]}')


## ✅ Prueba Rápida - URLs Específicas

Vamos a probar con URLs específicas conocidas de ADRES para encontrar más PDFs.

In [None]:
import time

# URLs específicas de ADRES con documentos
urls_adres_documentos = [
    "https://www.adres.gov.co/",
    "https://normograma.adres.gov.co/compilacion/aprende_adres_guias.html",
]

print("🔍 Explorando URLs específicas de ADRES...\n")
print("="*70)

todos_pdfs_encontrados = []

for i, url in enumerate(urls_adres_documentos, 1):
    print(f"\n📄 [{i}/{len(urls_adres_documentos)}] Analizando: {url}")
    
    # Delay ético adicional entre páginas diferentes
    if i > 1:
        print(f"   ⏳ Esperando 3 segundos adicionales entre páginas...")
        time.sleep(3)
    
    # Realizar scraping (la función ya tiene delay interno de 3s)
    soup = scraping_etico(url)
    
    if soup:
        # Extraer PDFs
        pdfs = extraer_enlaces_documentos(soup, url)
        
        if pdfs:
            print(f"   ✅ {len(pdfs)} PDF(s) encontrado(s):")
            for pdf in pdfs:
                url_corta = pdf['url'][:70] + '...' if len(pdf['url']) > 70 else pdf['url']
                print(f"      • {url_corta}")
                todos_pdfs_encontrados.append(pdf)
        else:
            print(f"   ℹ️ No se encontraron PDFs en esta página")
    else:
        print(f"   ❌ No se pudo acceder a la página")

print("\n" + "="*70)
print("✅ EXPLORACIÓN COMPLETADA")
print("="*70)
print(f"\n📊 Resumen:")
print(f"   • URLs exploradas: {len(urls_adres_documentos)}")
print(f"   • Total PDFs encontrados: {len(todos_pdfs_encontrados)}")

# Eliminar duplicados por URL
pdfs_unicos = {pdf['url']: pdf for pdf in todos_pdfs_encontrados}
print(f"   • PDFs únicos: {len(pdfs_unicos)}")
print(f"   • Tiempo total: ~{len(urls_adres_documentos) * 3 + (len(urls_adres_documentos)-1) * 3} segundos")

if pdfs_unicos:
    print(f"\n📄 Lista de PDFs únicos encontrados:")
    for i, pdf in enumerate(pdfs_unicos.values(), 1):
        print(f"   {i}. {pdf['url']}")

🔍 Explorando URLs específicas de ADRES...


📄 [1/2] Analizando: https://www.adres.gov.co/
