# **Taller de Web Scraping Dinámico y Pipeline ETL**

##**Normatividad del Ministerio de Agricultura**

*   Autor: Juan Carlos Díaz González
*   Fecha: 2025-11-18
---
Este cuaderno implementa un pipeline ETL (Extracción, Transformación y Carga) robusto para obtener normatividad pública del sitio web del Ministerio de Agricultura de Colombia y almacenar el contenido textual en MongoDB Atlas.

### **Flujo de Trabajo (Pipeline)**

1. **Configuración:** Instalación de librerías, dependencias de OCR (Poppler) y montaje de Google Drive.
2. **Scraping:** Navegación dinámica (Playwright) y extracción de todas las URLs de PDF de los módulos definidos.
3. **Descarga:** Descarga de archivos PDF, incluyendo validación para descartar archivos corruptos (HTML/Error).
4. **Extracción:** Extracción de texto de PDF a formato JSON, con *fallback* a **OCR** para documentos basados en imagen.
5. **Carga:** Carga de los archivos JSON a una única colección en MongoDB Atlas, implementando validación de idempotencia para evitar duplicados.
---


# **1. Configuración**

- Instalar librerías y dependencias
- Instancias librerías
- Instanciar Google Drive


In [None]:
!pip install --upgrade pip
!apt-get update

In [None]:
# Instalar dependencias para Playwright
!apt-get install -y libgbm-dev libnss3-dev libxss-dev libasound2 libatk1.0-0 libatk-bridge2.0-0 libgtk-3-0
# Instalar Playwright para el scraping dinámico.
!pip install playwright
!playwright install chromium --with-deps

In [None]:
# Instalar librerías para trabajar con PDFs y OCR
!apt-get install -y poppler-utils
!pip install pdfminer.six pdf2image pytesseract
!apt-get install tesseract-ocr libtesseract-dev tesseract-ocr-spa
!apt-get install poppler-utils

In [None]:
# Instalar librerías para trabajar con imágenes
!pip install pytesseract Pillow
!pip install matplotlib-venn

In [None]:
# Instalar librerías de Mongo
!pip install pymongo
!pip install py2neo

In [6]:
# Instancias librerías
import os
import json
import re
import asyncio # Necesario para ejecutar funciones asíncronas
import pytesseract
import requests
from datetime import datetime
from urllib.parse import urljoin
from io import StringIO
from PIL import Image, ImageOps
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from pymongo import MongoClient
from pymongo.errors import PyMongoError
from google.colab import drive
from playwright.sync_api import sync_playwright
from playwright.async_api import async_playwright, TimeoutError
from pdfminer.high_level import extract_text
from pdf2image import convert_from_path
from requests.exceptions import RequestException

In [7]:
# Habilitamos Drive de Google desde Colab
drive.mount('/content/drive')

Mounted at /content/drive


# **2. Scraping Dinámico y Extracción de URLs**

La estrategia es un bucle principal que define las rutas de guardado y las colecciones de MongoDB de forma dinámica, con una única función de scraping dinámico, y el cuerpo principal será la iteración.

In [8]:
# 1. VARIABLES GLOBALES (MINAGRICULTURA)

BASE_URL_RAIZ = "https://www.minagricultura.gov.co"
URL_BASE_NORM = BASE_URL_RAIZ + "/Normatividad/SitePages/buscador-general-normas.aspx"

# Módulos a explorar (Nombre descriptivo: URL completa). Se define la URL de inicio para cada tipo de documento.
MODULOS_MINAGRICULTURA = {
    'Leyes': URL_BASE_NORM + '?t=2',
    'Decretos': URL_BASE_NORM + '?t=4',
    'Resoluciones': URL_BASE_NORM + '?t=3',
    'Conpes': URL_BASE_NORM + '?t=1'
}

# Ruta base para guardar los resultados en Google Drive
BASE_DRIVE_PATH = '/content/drive/MyDrive/BIG_DATA/WebScraping/MinAgricultura_Normatividad/'

In [9]:
# Función de Scraping Dinámico (Extracción de Hipervínculos)
# Esta función implementa el Scraping Dinámico Asíncrono mediante Playwright para gestionar la paginación.
# Se busca y extrae directamente todos los hipervínculos que terminan en .pdf (a[href$='.pdf']) en cada página,
# aprovechando que los enlaces de descarga son visibles en el DOM principal.
async def extraer_hipervinculos_minagricultura(url_base):
    """
    Navega por una única URL de normatividad, maneja la paginación y extrae
    directamente los enlaces a PDF.
    """
    pdf_links = set()
    BASE_URL_RAIZ = "https://www.minagricultura.gov.co"

    PDF_LINK_SELECTOR = 'a[href$=".pdf"]'                                       # Buscamos enlaces que terminan en .pdf
    NEXT_PAGE_SELECTOR = 'a[title="Siguiente"]'                                 # Selector del botón/enlace de la página siguiente

    print(f"-> Iniciando scraping ASÍNCRONO y paginación...")

    try:
        async with async_playwright() as p:
            browser = await p.chromium.launch(headless=True)
            page = await browser.new_page()

            current_url = url_base
            page_count = 0

            while current_url:
                page_count += 1

                print(f"\nVisitando página {page_count}: {current_url}")
                await page.goto(current_url, wait_until="load", timeout=60000)
                await page.wait_for_timeout(4000)                               # Damos tiempo extra para que cargue la lista de documentos después de la URL

                # 1. EXTRACCIÓN DE ENLACES PDF
                link_elements = await page.locator(PDF_LINK_SELECTOR).all()

                if link_elements:
                    print(f"   {len(link_elements)} enlaces PDF encontrados en esta página.")
                    for link_element in link_elements:
                        href = await link_element.get_attribute("href")
                        if href:
                            full_url = urljoin(BASE_URL_RAIZ, href)             # Construimos la URL completa y la guardamos
                            # FILTRO DE RESTRICCIÓN DE RUTA
                            # Nos aseguramos de que la URL pertenezca al dominio 'Normatividad'
                            if "Normatividad" in full_url or "Leyes" in full_url or "Decretos" in full_url or "Resoluciones" in full_url:
                                pdf_links.add(full_url)
                            else:
                                print(f"   -> [IGNORADO] Enlace fuera de alcance: {full_url}")   # Opcional: imprimir qué enlaces se están ignorando
                                pass
                else:
                    print("   -> No se encontraron enlaces PDF en esta página.")

                # 2. BÚSQUEDA DE PAGINACIÓN
                next_button = page.locator(NEXT_PAGE_SELECTOR).first

                if await next_button.count() > 0 and await next_button.is_visible():
                    next_href = await next_button.get_attribute("href")         # Obtenemos el href del botón Siguiente para la siguiente iteración

                    if next_href and next_href != current_url:                  # Comprobación de ciclo infinito
                        current_url = urljoin(BASE_URL_RAIZ, next_href)
                        print("   -> Paginando a la página siguiente...")
                    else:
                        print("   -> Paginación finalizada o error de URL. Deteniendo el bucle.")
                        current_url = None # Detiene el bucle
                else:
                    print("   -> No se encontró botón 'Siguiente'. Fin de la paginación.")
                    current_url = None                                          # Detiene el bucle
            await browser.close()

    except Exception as e:
        print(f"Error CRÍTICO durante el scraping o paginación: {e}")

    print(f"\n-> Enlaces PDF ÚNICOS encontrados en total: {len(pdf_links)}")
    return list(pdf_links)

In [10]:
# Bucle Principal de Ejecución. Este es el cuerpo principal con la lógica de visita de páginas.

async def ejecutar_flujo_principal(MODULOS, BASE_DRIVE_PATH):
    """
    Controla la ejecución de scraping, iniciando con las URLs predefinidas en MODULOS.
    """
    all_pdf_links_by_module = {}

    # MODULOS es un diccionario (ej: {'Leyes': 'URL_LEYES'})
    print(f"Tipos de Normatividad a procesar: {', '.join(MODULOS.keys())}")

    for modulo_nombre, url_inicio in MODULOS.items():

        pdf_dir = os.path.join(BASE_DRIVE_PATH, modulo_nombre, 'pdfs')
        json_output_dir = os.path.join(BASE_DRIVE_PATH, modulo_nombre, 'json')
        links_file_path = os.path.join(json_output_dir, 'links.json')

        os.makedirs(pdf_dir, exist_ok=True)
        os.makedirs(json_output_dir, exist_ok=True)

        print(f"\n--- INICIANDO MÓDULO: {modulo_nombre} ---")
        print(f"URL de inicio: {url_inicio}")

        # Extracción de hipervínculos (No necesita recursividad)
        links = await extraer_hipervinculos_minagricultura(url_inicio)
        all_pdf_links_by_module[modulo_nombre] = links

        # Código para guardar links.json
        if links:
            try:
                with open(links_file_path, 'w', encoding='utf-8') as f:
                    json.dump(links, f, indent=4, ensure_ascii=False)
                print(f"[ÉXITO] {len(links)} enlaces guardados en {links_file_path} para {modulo_nombre}")
            except Exception as e:
                print(f"[ERROR] No se pudo guardar links.json para {modulo_nombre}: {e}")
        else:
            print(f"[ADVERTENCIA] No se encontraron enlaces para el módulo {modulo_nombre}.")

    return all_pdf_links_by_module

In [11]:
# EJECUCIÓN DEL FLUJO PRINCIPAL
#asyncio.run(ejecutar_flujo_principal(MODULOS_MINAGRICULTURA, BASE_DRIVE_PATH))
all_pdf_links_by_module = await ejecutar_flujo_principal(MODULOS_MINAGRICULTURA, BASE_DRIVE_PATH)

Tipos de Normatividad a procesar: Leyes, Decretos, Resoluciones, Conpes

--- INICIANDO MÓDULO: Leyes ---
URL de inicio: https://www.minagricultura.gov.co/Normatividad/SitePages/buscador-general-normas.aspx?t=2
-> Iniciando scraping ASÍNCRONO y paginación...

Visitando página 1: https://www.minagricultura.gov.co/Normatividad/SitePages/buscador-general-normas.aspx?t=2
   123 enlaces PDF encontrados en esta página.
   -> [IGNORADO] Enlace fuera de alcance: https://www.minagricultura.gov.co/Documents/Manual_de_Funciones_y_Competencias_Resoluci%C3%B3n_000417_del_07_de_Noviembre_de_2018.pdf
   -> [IGNORADO] Enlace fuera de alcance: https://www.minagricultura.gov.co/ministerio/recursos-humanos/Actos_Administrativos/MODIFICACION%20AL%20MANUAL%20ESPECIFICO%20DE%20FUNCIONES%20Y%20COMPETENCIAS%20LABORALES.pdf
   -> [IGNORADO] Enlace fuera de alcance: https://www.minagricultura.gov.co/Documents/Resolucion%2000043%20DE%202023.pdf
   -> [IGNORADO] Enlace fuera de alcance: https://www.minagricultura.

# **3. Descarga de archivos PDF**

In [12]:
# 3. Descarga de PDFs y Validación de Contenido

# Diccionario para capturar el conteo de descargas por módulo
conteo_descargados_final = {}

# Iterar sobre los módulos y sus enlaces
for modulo_nombre, links in all_pdf_links_by_module.items():

    contador_modulo = 0
    pdf_dir = os.path.join(BASE_DRIVE_PATH, modulo_nombre, 'pdfs')
    json_output_dir = os.path.join(BASE_DRIVE_PATH, modulo_nombre, 'json')

    # 1. Definición del archivo de log
    FALLOS_LOG_PATH = os.path.join(json_output_dir, 'fallos_descarga.log')

    print(f"\n--- Iniciando descarga de {len(links)} documentos para {modulo_nombre} ---")

    # Aseguramos que los directorios existan
    os.makedirs(pdf_dir, exist_ok=True)
    os.makedirs(json_output_dir, exist_ok=True)

    # 2. Abrir el archivo de log en modo 'a' (append)
    with open(FALLOS_LOG_PATH, 'a', encoding='utf-8') as log_file:

        # Escribir encabezado de inicio de ejecución
        log_file.write(f"\n--- INICIO DE EJECUCIÓN: {modulo_nombre} ({os.path.basename(FALLOS_LOG_PATH)}) ---\n")

        for url in links:
            file_name = os.path.basename(url)
            file_path = os.path.join(pdf_dir, file_name)

            # COMPROBACIÓN 1: Idempotencia (Archivo ya existe)
            if os.path.exists(file_path):
                print(f"  -> [SALTAR] Documento ya existe, se salta la descarga: {file_name}") # Mensaje de salto habilitado
                contador_modulo += 1
                continue

            try:
                # 3. Descargar el archivo
                response = requests.get(url, stream=True, timeout=30)
                response.raise_for_status() # Lanza error si es 4xx o 5xx

                # 4. VALIDACIÓN DE CONTENIDO CORRUPTO

                # A. Validar Tipo MIME (Content-Type)
                content_type = response.headers.get('Content-Type', '').lower()
                if 'text/html' in content_type or 'text/plain' in content_type:
                    motivo = f"Descargado como {content_type}. Archivo no es PDF."
                    print(f"[ERROR CORRUPTO]: {file_name}. {motivo}")
                    log_file.write(f"[CORRUPTO - MIME] URL: {url} | Archivo: {file_name} | Motivo: {motivo}\n")
                    continue

                # B. Validar Encabezado Binario (%PDF-)
                if not response.content.startswith(b'%PDF-'):
                    motivo = "No comienza con el encabezado binario '%PDF-'."
                    print(f"[ERROR CORRUPTO]: {file_name}. {motivo}")
                    log_file.write(f"[CORRUPTO - BINARIO] URL: {url} | Archivo: {file_name} | Motivo: {motivo}\n")
                    continue

                # 5. Guardar el archivo (Solo si pasa las validaciones)
                with open(file_path, 'wb') as pdf_file:
                    pdf_file.write(response.content)

                # MENSAJE DE ÉXITO DE DESCARGA
                print(f"[OK] Descargado y validado: {file_name}")
                contador_modulo += 1

            except RequestException as e:
                motivo = f"Error HTTP/Conexión: {e}"
                print(f"[ERROR RED]: {file_name}. {motivo}")
                log_file.write(f"[ERROR RED] URL: {url} | Archivo: {file_name} | Motivo: {motivo}\n")

            except Exception as e:
                motivo = f"Error general desconocido: {e}"
                print(f"[ERROR GENERAL]: {file_name}. {motivo}")
                log_file.write(f"[ERROR GENERAL] URL: {url} | Archivo: {file_name} | Motivo: {motivo}\n")

    # Al finalizar el bucle interno, guardar el conteo del módulo
    conteo_descargados_final[modulo_nombre] = contador_modulo

# RESUMEN FINAL DE DESCARGA
print("\n" + "="*50)
print("RESUMEN FINAL DE DESCARGA DE PDFS")
print("="*50)
for modulo, count in conteo_descargados_final.items():
    total_links = len(all_pdf_links_by_module.get(modulo, []))
    saltados_o_exitosos = count

    print(f"[OK] Módulo {modulo}: {saltados_o_exitosos} documentos procesados (descargados o ya existentes).")
    print(f"   - Total de URLs únicas: {total_links}")
print("="*50)


--- Iniciando descarga de 60 documentos para Leyes ---
  -> [SALTAR] Documento ya existe, se salta la descarga: LEY%202175%20DEL%2030%20DE%20DICIEMBRE%20DE%202021.pdf
  -> [SALTAR] Documento ya existe, se salta la descarga: Ley%20160%20de%201994.pdf
  -> [SALTAR] Documento ya existe, se salta la descarga: ley%202079%20DEL%2014%20DE%20ENERO%20DE%202021.pdf
  -> [SALTAR] Documento ya existe, se salta la descarga: Ley%201133%20de%202007.pdf
  -> [SALTAR] Documento ya existe, se salta la descarga: Ley%20607%20de%202000.pdf
  -> [SALTAR] Documento ya existe, se salta la descarga: LEY%202204%20DEL%2010%20DE%20MAYO%20DE%202022.pdf
  -> [SALTAR] Documento ya existe, se salta la descarga: LEY%202138%20DEL%204%20DE%20AGOSTO%20DE%202021.pdf
  -> [SALTAR] Documento ya existe, se salta la descarga: LEY%202223%20DEL%2030%20DE%20JUNIO%20DE%202022.pdf
  -> [SALTAR] Documento ya existe, se salta la descarga: LEY%202169%20DEL%2022%20DE%20DICIEMBRE%20DE%202021.pdf
  -> [SALTAR] Documento ya existe, se s

# **4. Extracción de Texto de PDF a formato JSON**


In [13]:
# Extracción de Texto a JSON (OCR Incluido)

# 1. Intentar importar la función de extracción directa (pdfminer.six)
try:
    from pdfminer.high_level import extract_text
    print("[OK] Módulo 'pdfminer.high_level' importado correctamente para extracción directa.")
    PDFMINER_DISPONIBLE = True
except Exception as e:
    print(f"[ERROR] Falló la importación de 'pdfminer.high_level': {e}. Se usará solo OCR.")
    PDFMINER_DISPONIBLE = False

# FUNCIONES DE EXTRACCIÓN

def extract_text_pdfminer(pdf_path):
    """Intenta extraer texto directamente usando pdfminer.six. Si falla, lanza excepción."""
    if not PDFMINER_DISPONIBLE:
        raise ImportError("pdfminer.six no está disponible.")

    texto = extract_text(pdf_path)
    # Si el texto es muy corto, asume que es un PDF de imagen.
    if len(texto.strip()) < 50:
        raise ValueError("Texto extraído es demasiado corto o vacío, probablemente PDF de imagen.")
    return texto

def extract_text_ocr(pdf_path):
    """Extrae texto usando OCR (pdf2image + pytesseract). Captura errores de bajo nivel."""
    print(f"   -> Intentando OCR (esto puede tardar más)...")
    try:
        images = convert_from_path(pdf_path) # Convierte PDF a imágenes

        texto_ocr = []
        for i, image in enumerate(images):
            page_text = pytesseract.image_to_string(image, lang='spa') # Aplica OCR
            texto_ocr.append(page_text)

        return "\n".join(texto_ocr)
    except Exception as e:
        print(f"[ERROR GRAVE OCR]: {e}") # Reporta el error fatal
        return None # Devuelve None para que el bucle lo pueda manejar

def robust_extract_text(pdf_path):
    """Intenta la extracción directa, y si falla, cae al OCR."""
    # 1. Intento de extracción directa
    if PDFMINER_DISPONIBLE:
        try:
            texto = extract_text_pdfminer(pdf_path)
            return texto
        except (ValueError, ImportError, Exception) as e:
             # Si falla (texto corto o PDF corrupto para pdfminer), pasa al OCR.
            pass
    # 2. Fallback a OCR
    texto_ocr = extract_text_ocr(pdf_path)
    if texto_ocr and len(texto_ocr.strip()) > 50:
        return texto_ocr
    else:
        return None

# BUCLE PRINCIPAL DE PROCESAMIENTO

conteo_extraidos_final = {}

for modulo_nombre in MODULOS_MINAGRICULTURA.keys():

    pdf_dir = os.path.join(BASE_DRIVE_PATH, modulo_nombre, 'pdfs')
    json_output_dir = os.path.join(BASE_DRIVE_PATH, modulo_nombre, 'json')

    contador_extraido = 0

    print(f"\n--- Iniciando procesamiento de texto para: {modulo_nombre} ---")

    for file_name in os.listdir(pdf_dir):
        if file_name.endswith('.pdf'):

            pdf_path = os.path.join(pdf_dir, file_name)
            json_file_name = file_name.replace('.pdf', '.json')
            json_path = os.path.join(json_output_dir, json_file_name)

            # 3. Comprobación de idempotencia (si el JSON ya existe, se salta)
            if os.path.exists(json_path):
                print(f"  -> [SKIP] JSON ya existe, se salta el reprocesamiento: {json_file_name}")
                contador_extraido += 1
                continue

            # 4. Extracción de texto robusta
            print(f"Procesando {file_name}...")
            texto_extraido = robust_extract_text(pdf_path)

            if texto_extraido:
                # 5. Crear y guardar el objeto JSON
                documento_json = {
                    "documento_nombre": file_name,
                    "modulo": modulo_nombre,
                    "contenido": texto_extraido,
                    "fecha_extraccion": "2025-11-18" # Usar la fecha actual
                }

                with open(json_path, 'w', encoding='utf-8') as f:
                    json.dump(documento_json, f, indent=4, ensure_ascii=False)

                contador_extraido += 1
                print(f"  -> [OK] Extraído y guardado: {json_file_name}")
            else:
                print(f"[FALLO TOTAL]: No se pudo extraer texto de {file_name}. Saltando.")

    conteo_extraidos_final[modulo_nombre] = contador_extraido

# RESUMEN FINAL
print("\n" + "="*50)
print("RESUMEN FINAL DE EXTRACCIÓN DE TEXTO A JSON")
print("="*50)
for modulo, count in conteo_extraidos_final.items():
    print(f"[OK] Módulo {modulo}: {count} documentos extraídos y guardados como JSON.")
print("="*50)

[OK] Módulo 'pdfminer.high_level' importado correctamente para extracción directa.

--- Iniciando procesamiento de texto para: Leyes ---
  -> [SKIP] JSON ya existe, se salta el reprocesamiento: LEY%202177%20DEL%2030%20DE%20DICIEMBRE%20DE%202021.json
  -> [SKIP] JSON ya existe, se salta el reprocesamiento: LEY%202193%20DEL%206%20DE%20ENERO%20DE%202022.json
  -> [SKIP] JSON ya existe, se salta el reprocesamiento: Ley%2070%20de%201993.json
  -> [SKIP] JSON ya existe, se salta el reprocesamiento: Ley%20731%202002.json
  -> [SKIP] JSON ya existe, se salta el reprocesamiento: LEY%202186%20DEL%206%20DE%20ENERO%20DE%202022.json
  -> [SKIP] JSON ya existe, se salta el reprocesamiento: LEY%201900%20DEL%2018%20DE%20JUNIO%20DE%202018.json
  -> [SKIP] JSON ya existe, se salta el reprocesamiento: LEY%201335%20DE%202009.json
  -> [SKIP] JSON ya existe, se salta el reprocesamiento: LEY%201847%20DEL%2018%20DE%20JULIO%20DE%202017.json
  -> [SKIP] JSON ya existe, se salta el reprocesamiento: LEY%202337%2

# **5. Carga a MongoDB Atlas**


In [14]:
# Conectarse a Mongo Atlas
# Reemplazar el <db_password>
MONGO_URI = "mongodb+srv://juancd1974:Juancd1974*@cluster0.sgs4hwz.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"
DB_NAME = "MINAGRICULTURA_NORMAS"
COLLECTION_NAME = "normatividad_raw"

In [15]:
# Carga de Datos a MongoDB Atlas

# FUNCIÓN DE CARGA

def cargar_json_a_mongo(MODULOS, BASE_DRIVE_PATH, MONGO_URI, DB_NAME, COLLECTION_NAME):

    conteo_cargados_final = {}

    try:
        # 1. Conexión a MongoDB Atlas
        client = MongoClient(MONGO_URI)
        db = client[DB_NAME]
        collection = db[COLLECTION_NAME] # Colección centralizada
        print(f"[OK] Conexión a MongoDB exitosa. Colección: {COLLECTION_NAME}")

        # Opcional pero ALTAMENTE RECOMENDADO: Crear índice para garantizar unicidad y optimizar consultas.
        collection.create_index([("documento_nombre", 1)], unique=True)
        print(f"[OK] Índice de unicidad en 'documento_nombre' creado/verificado.")

    except ConnectionError as e:
        print(f"[ERROR CONEXIÓN] Error de conexión a MongoDB: {e}")
        return conteo_cargados_final

    for modulo_nombre in MODULOS.keys():

        json_output_dir = os.path.join(BASE_DRIVE_PATH, modulo_nombre, 'json')
        contar_cargados = 0
        contar_duplicados = 0

        print(f"\n--- Iniciando carga de JSON para el módulo: {modulo_nombre} ---")

        # 2. Recorrer archivos JSON en la carpeta del módulo
        for json_archivo in os.listdir(json_output_dir):

            # FILTRO 1: Ignorar el archivo de enlaces (links.json)
            if json_archivo == 'links.json':
                print(f"  -> [SKIP] Saltando archivo de enlaces: {json_archivo}")
                continue

            if not json_archivo.endswith('.json'):
                continue

            json_path = os.path.join(json_output_dir, json_archivo)

            try:
                with open(json_path, 'r', encoding='utf-8') as json_file:
                    json_data = json.load(json_file)

                documento_nombre = json_data.get("documento_nombre")

                # FILTRO 2: Comprobación de Idempotencia
                documento_existente = collection.find_one({"documento_nombre": documento_nombre})

                if documento_existente:
                    contar_duplicados += 1
                    continue # Salta el documento si ya existe

                # 3. Insertar el documento en la colección
                insert_resultado = collection.insert_one(json_data)

                if insert_resultado.inserted_id:
                    contar_cargados += 1

            except BulkWriteError as e:
                # Captura el error si el índice único lo detecta (mecanismo de respaldo)
                if 'E11000 duplicate key error' in str(e):
                    contar_duplicados += 1
                else:
                    print(f"[ERROR CARGA] Error al cargar {json_archivo}: {e}")

            except Exception as e:
                print(f"[ERROR GENERAL] Error al procesar o cargar {json_archivo}: {e}")

        conteo_cargados_final[modulo_nombre] = {
            "cargados": contar_cargados,
            "duplicados_saltados": contar_duplicados
        }

    client.close()
    return conteo_cargados_final

# EJECUCIÓN DEL BLOQUE DE CARGA

resumen_carga = cargar_json_a_mongo(
    MODULOS_MINAGRICULTURA,
    BASE_DRIVE_PATH,
    MONGO_URI,
    DB_NAME,
    COLLECTION_NAME
)

# RESUMEN FINAL
print("\n" + "="*50)
print("RESUMEN FINAL DE CARGA A MONGODB ATLAS")
print("="*50)
if resumen_carga:
    total_cargados = 0
    total_saltados = 0
    for modulo, conteo in resumen_carga.items():
        print(f"[OK] Módulo {modulo} (Colección: {COLLECTION_NAME}):")
        print(f"   - Documentos insertados: {conteo['cargados']}")
        print(f"   - Documentos ya existentes (saltados): {conteo['duplicados_saltados']}")
        total_cargados += conteo['cargados']
        total_saltados += conteo['duplicados_saltados']

    print("-" * 50)
    print(f"TOTAL DE DOCUMENTOS NUEVOS CARGADOS: {total_cargados}")
    print(f"TOTAL DE DOCUMENTOS SALTADOS: {total_saltados}")
print("="*50)

[OK] Conexión a MongoDB exitosa. Colección: normatividad_raw
[OK] Índice de unicidad en 'documento_nombre' creado/verificado.

--- Iniciando carga de JSON para el módulo: Leyes ---
  -> [SKIP] Saltando archivo de enlaces: links.json

--- Iniciando carga de JSON para el módulo: Decretos ---
  -> [SKIP] Saltando archivo de enlaces: links.json

--- Iniciando carga de JSON para el módulo: Resoluciones ---
  -> [SKIP] Saltando archivo de enlaces: links.json

--- Iniciando carga de JSON para el módulo: Conpes ---
  -> [SKIP] Saltando archivo de enlaces: links.json

RESUMEN FINAL DE CARGA A MONGODB ATLAS
[OK] Módulo Leyes (Colección: normatividad_raw):
   - Documentos insertados: 0
   - Documentos ya existentes (saltados): 59
[OK] Módulo Decretos (Colección: normatividad_raw):
   - Documentos insertados: 2
   - Documentos ya existentes (saltados): 100
[OK] Módulo Resoluciones (Colección: normatividad_raw):
   - Documentos insertados: 0
   - Documentos ya existentes (saltados): 98
[OK] Módulo 