---

**🎓 Universidad:** Universidad Central de Colombia

**👨‍💻 Autor:** Efren Bohorquez Vargas

**📚 Curso:** Big Data

**👨‍🏫 Presentado a:** Luis Fernando Castellanos

**📅 Fecha:** Octubre 2025

---

# 🎓 Taller Big Data: Web Scraping Ético a ADRES

**ADRES**: Administradora de los Recursos del Sistema General de Seguridad Social en Salud

## 📋 Objetivos del Taller

1. Comprender los principios del **web scraping ético**
2. Extraer documentos oficiales de ADRES
3. Almacenar datos estructurados en **MongoDB Atlas**
4. Analizar contenido de documentos legales

---

## 1️⃣ Instalación de Dependencias

Ejecutar solo si las librerías no están instaladas:

In [None]:
# Descomentar si necesitas instalar las dependencias
# !pip install requests beautifulsoup4 pymongo urllib3 python-dotenv

## 2️⃣ Importar Librerías

In [1]:
import requests
from bs4 import BeautifulSoup
from pymongo import MongoClient
from datetime import datetime
import time
import json
import re
from urllib.parse import urljoin, urlparse

print("✅ Librerías importadas correctamente")

✅ Librerías importadas correctamente


## 3️⃣ Configuración Ética del Scraper

### Principios Éticos:
- ✅ Respetar `robots.txt`
- ✅ Implementar delays entre requests (2+ segundos)
- ✅ User-Agent identificado
- ✅ Solo contenido público
- ✅ Propósito educativo

In [2]:
# Configuración ética del scraper
CONFIGURACION_ETICA = {
    'delay_entre_requests': 3.0,  # 3 segundos entre peticiones
    'max_reintentos': 3,
    'timeout': 30,
    'user_agent': 'TallerBigData-WebScraping/1.0 (Educativo; Python/requests)',
    'headers': {
        'User-Agent': 'TallerBigData-WebScraping/1.0 (Educativo; Python/requests)',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
        'Accept-Language': 'es-CO,es;q=0.9',
        'Purpose': 'Educational Research - Big Data Workshop'
    }
}

print("⚙️ Configuración ética establecida")
print(f"   • Delay: {CONFIGURACION_ETICA['delay_entre_requests']}s")
print(f"   • User-Agent: {CONFIGURACION_ETICA['user_agent']}")

⚙️ Configuración ética establecida
   • Delay: 3.0s
   • User-Agent: TallerBigData-WebScraping/1.0 (Educativo; Python/requests)


## 4️⃣ Verificar robots.txt

Siempre verificar qué permite el sitio web:

In [3]:
def verificar_robots_txt(url_base):
    """Verificar y mostrar robots.txt del sitio"""
    robots_url = urljoin(url_base, '/robots.txt')
    
    try:
        response = requests.get(robots_url, timeout=10)
        if response.status_code == 200:
            print("🤖 robots.txt encontrado:")
            print("─" * 50)
            print(response.text[:500])  # Primeras 500 caracteres
            return True
        else:
            print("⚠️ No se encontró robots.txt (permitido por defecto)")
            return True
    except Exception as e:
        print(f"⚠️ Error verificando robots.txt: {e}")
        return False

# Verificar robots.txt de ADRES
URL_BASE_ADRES = "https://www.adres.gov.co"
verificar_robots_txt(URL_BASE_ADRES)

⚠️ No se encontró robots.txt (permitido por defecto)


True

## 5️⃣ Función de Scraping Ético

Implementación con delays y manejo de errores:

In [4]:
def scraping_etico(url, config=CONFIGURACION_ETICA):
    """
    Realizar scraping ético con delays y reintentos
    
    Args:
        url: URL a scrapear
        config: Configuración ética
    
    Returns:
        BeautifulSoup object o None si falla
    """
    for intento in range(config['max_reintentos']):
        try:
            # Delay ético antes de hacer request
            if intento > 0:
                print(f"   ⏳ Reintento {intento + 1}/{config['max_reintentos']}...")
            
            time.sleep(config['delay_entre_requests'])
            
            # Realizar request
            response = requests.get(
                url,
                headers=config['headers'],
                timeout=config['timeout']
            )
            
            response.raise_for_status()
            
            # Parsear HTML
            soup = BeautifulSoup(response.content, 'html.parser')
            
            print(f"✅ Contenido extraído exitosamente de: {url}")
            return soup
            
        except requests.exceptions.RequestException as e:
            print(f"❌ Error en intento {intento + 1}: {e}")
            if intento == config['max_reintentos'] - 1:
                print(f"❌ Falló después de {config['max_reintentos']} intentos")
                return None
    
    return None

print("✅ Función de scraping ético definida")

✅ Función de scraping ético definida


## 6️⃣ Extraer Enlaces a Documentos

Buscar enlaces a PDFs y documentos oficiales:

In [5]:
def extraer_enlaces_documentos(soup, url_base):
    """
    Extraer enlaces a documentos (PDFs, resoluciones, etc.)
    
    Args:
        soup: BeautifulSoup object
        url_base: URL base para construir URLs absolutas
    
    Returns:
        Lista de diccionarios con información de documentos
    """
    documentos = []
    
    # Buscar todos los enlaces
    enlaces = soup.find_all('a', href=True)
    
    for enlace in enlaces:
        href = enlace['href']
        texto = enlace.get_text(strip=True)
        
        # Filtrar enlaces a documentos
        if any(ext in href.lower() for ext in ['.pdf', 'resolucion', 'documento']):
            url_completa = urljoin(url_base, href)
            
            documentos.append({
                'url': url_completa,
                'texto': texto,
                'tipo': 'pdf' if '.pdf' in href.lower() else 'documento',
                'fecha_extraccion': datetime.now().isoformat()
            })
    
    print(f"📄 Encontrados {len(documentos)} enlaces a documentos")
    return documentos

print("✅ Función de extracción de enlaces definida")

✅ Función de extracción de enlaces definida


## 7️⃣ Analizar Contenido de Página

Extraer información estructurada:

In [6]:
def analizar_contenido(soup, url):
    """
    Analizar y extraer contenido estructurado
    
    Args:
        soup: BeautifulSoup object
        url: URL de origen
    
    Returns:
        Diccionario con análisis del contenido
    """
    # Extraer título
    titulo = soup.find('title')
    titulo_texto = titulo.get_text(strip=True) if titulo else 'Sin título'
    
    # Extraer texto principal
    texto_completo = soup.get_text(separator=' ', strip=True)
    
    # Palabras clave relacionadas con ADRES
    palabras_clave = ['adres', 'salud', 'seguridad social', 'resolución', 
                      'administradora', 'recursos', 'eps', 'ips']
    
    palabras_encontradas = {}
    for palabra in palabras_clave:
        cuenta = texto_completo.lower().count(palabra.lower())
        if cuenta > 0:
            palabras_encontradas[palabra] = cuenta
    
    # Extraer números de resolución (ejemplo: Resolución 2876 de 2013)
    resoluciones = re.findall(r'resolución\s+(\d+)\s+de\s+(\d{4})', 
                              texto_completo, re.IGNORECASE)
    
    analisis = {
        'url': url,
        'titulo': titulo_texto,
        'longitud_texto': len(texto_completo),
        'palabras_clave': palabras_encontradas,
        'resoluciones_encontradas': resoluciones,
        'fecha_analisis': datetime.now().isoformat(),
        'relevancia_adres': len(palabras_encontradas) > 0
    }
    
    return analisis

print("✅ Función de análisis de contenido definida")

✅ Función de análisis de contenido definida


## 8️⃣ Conexión a MongoDB Atlas

**Nota**: Reemplazar la cadena de conexión con tu propia configuración

In [7]:
def conectar_mongodb(connection_string=None):
    """
    Conectar a MongoDB Atlas
    
    Args:
        connection_string: String de conexión de MongoDB Atlas
    
    Returns:
        Tupla (client, database, collection)
    """
    # IMPORTANTE: Reemplazar con tu propia connection string
    if connection_string is None:
        print("⚠️ Configurar connection_string de MongoDB Atlas")
        print("   Ejemplo: mongodb+srv://usuario:password@cluster.mongodb.net/")
        return None, None, None
    
    try:
        client = MongoClient(connection_string, serverSelectionTimeoutMS=5000)
        
        # Verificar conexión
        client.admin.command('ping')
        
        db = client['taller_bigdata_adres']
        collection = db['documentos_adres']
        
        print("✅ Conectado a MongoDB Atlas")
        print(f"   📊 Base de datos: {db.name}")
        print(f"   📁 Colección: {collection.name}")
        
        return client, db, collection
        
    except Exception as e:
        print(f"❌ Error conectando a MongoDB: {e}")
        return None, None, None

# Descomentar y configurar tu connection string
# MONGODB_URI = "mongodb+srv://usuario:password@cluster.mongodb.net/"
# client, db, collection = conectar_mongodb(MONGODB_URI)

print("✅ Función de conexión a MongoDB definida")

✅ Función de conexión a MongoDB definida


## 9️⃣ Guardar en MongoDB

Almacenar documentos extraídos:

In [8]:
def guardar_en_mongodb(collection, documento):
    """
    Guardar documento en MongoDB
    
    Args:
        collection: Colección de MongoDB
        documento: Diccionario con datos a guardar
    
    Returns:
        ID del documento insertado o None
    """
    if collection is None:
        print("⚠️ Colección no configurada")
        return None
    
    try:
        # Verificar si ya existe (evitar duplicados)
        existe = collection.find_one({'url': documento.get('url')})
        
        if existe:
            print(f"ℹ️ Documento ya existe: {documento.get('titulo', 'Sin título')}")
            return existe['_id']
        
        # Insertar nuevo documento
        resultado = collection.insert_one(documento)
        print(f"✅ Documento guardado: {documento.get('titulo', 'Sin título')}")
        
        return resultado.inserted_id
        
    except Exception as e:
        print(f"❌ Error guardando documento: {e}")
        return None

print("✅ Función de guardado en MongoDB definida")

✅ Función de guardado en MongoDB definida


## 🔟 Proceso Completo de Web Scraping

Integrar todas las funciones en un flujo completo:

In [9]:
def proceso_scraping_completo(url, collection=None):
    """
    Proceso completo de web scraping ético
    
    Args:
        url: URL a scrapear
        collection: Colección de MongoDB (opcional)
    
    Returns:
        Diccionario con resultados
    """
    print("\n" + "="*60)
    print("🎓 TALLER BIG DATA - WEB SCRAPING ÉTICO A ADRES")
    print("="*60)
    
    # 1. Scraping ético
    print(f"\n1️⃣ Extrayendo contenido de: {url}")
    soup = scraping_etico(url)
    
    if soup is None:
        print("❌ No se pudo extraer contenido")
        return None
    
    # 2. Analizar contenido
    print("\n2️⃣ Analizando contenido...")
    analisis = analizar_contenido(soup, url)
    
    print(f"   📋 Título: {analisis['titulo'][:80]}...")
    print(f"   📝 Longitud texto: {analisis['longitud_texto']} caracteres")
    print(f"   🔑 Palabras clave: {list(analisis['palabras_clave'].keys())}")
    print(f"   📄 Resoluciones: {len(analisis['resoluciones_encontradas'])}")
    
    # 3. Extraer enlaces
    print("\n3️⃣ Extrayendo enlaces a documentos...")
    documentos = extraer_enlaces_documentos(soup, url)
    
    # 4. Guardar en MongoDB (si está configurado)
    if collection is not None:
        print("\n4️⃣ Guardando en MongoDB...")
        
        # Crear documento completo
        documento_completo = {
            **analisis,
            'documentos_relacionados': documentos,
            'metadata': {
                'fuente': 'ADRES',
                'tipo_extraccion': 'web_scraping_etico',
                'taller': 'Big Data 2025'
            }
        }
        
        doc_id = guardar_en_mongodb(collection, documento_completo)
        
        if doc_id:
            print(f"   💾 ID MongoDB: {doc_id}")
    else:
        print("\nℹ️ MongoDB no configurado - datos no guardados")
    
    # 5. Resumen
    print("\n" + "="*60)
    print("✅ PROCESO COMPLETADO")
    print("="*60)
    print(f"📊 Documentos encontrados: {len(documentos)}")
    print(f"🔑 Palabras clave ADRES: {len(analisis['palabras_clave'])}")
    print(f"✅ Relevancia ADRES: {'SÍ' if analisis['relevancia_adres'] else 'NO'}")
    
    return {
        'analisis': analisis,
        'documentos': documentos,
        'exito': True
    }

print("✅ Proceso completo definido")

✅ Proceso completo definido


## 🚀 Ejemplo de Uso

Ejecutar web scraping a ADRES:

In [None]:
# Ejemplo: Extraer datos de ADRES
URL_ADRES = "https://www.adres.gov.co/"

# Opción 1: Sin MongoDB (solo extracción)
resultados = proceso_scraping_completo(URL_ADRES, collection=None)

# Opción 2: Con MongoDB (descomentar y configurar)
# MONGODB_URI = "mongodb+srv://usuario:password@cluster.mongodb.net/"
# client, db, collection = conectar_mongodb(MONGODB_URI)
# resultados = proceso_scraping_completo(URL_ADRES, collection)

# Mostrar resultados
if resultados:
    print(f"\n✅ Extracción completada:")
    print(f"   📊 Documentos encontrados: {len(resultados['documentos'])}")
    print(f"   🔑 Palabras clave: {len(resultados['analisis']['palabras_clave'])}")
    print(f"   📝 Caracteres analizados: {resultados['analisis']['longitud_texto']:,}")