# **Taller para aprender a hacer Web Scraping**
---
1. Instalar librerías (básicas)
2. Creación de los DOOM (Página web como la vería un humano en una pantalla)
3. Recorrido de objetos html (página web) y vamos a recorrer los hipervínculos que esté en el dominio
4. Descargar todos los PDF que están linkeados/hipervinculados (acceso libre)
5. Extraer el texto de cada archivo PDF (normal/OCR) español y guardarlo en formato JSON
6. Cargar los JSON a Mongo Atlas

## **0. Trabajar con Google Drive**

In [1]:
# Habilitamos Drive de Google desde Colab
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## **1. Instalar librerías**

In [2]:
!pip install requests
!pip install beautifulsoup4
!pip install lxml



## **2. Crear DOOM inicial**
* Buscar el DIV class="containerblanco"
* Buscar todos los hipeervínculos y listar

In [3]:
import requests
from bs4 import BeautifulSoup

url         ='https://www.minsalud.gov.co/Normativa/Paginas/normativa.aspx'
response    =requests.get(url)
soup        =BeautifulSoup(response.content,'lxml')

# Encontrar DIV maestro clase "containerblanco"
container_div = soup.find("div", class_='containerblanco')

# Buscar todos los hipervínculos y los liste
if container_div:
    hipervinculos = container_div.find_all('a')
    for hipervinculo in hipervinculos:
        print(hipervinculo.get('href'))
else:
    print("No se encontró el DIV con la clase 'containerblanco'.")

None
/Portada/index.html
/Normativa/Paginas/decreto-unico-minsalud-780-de-2016.aspx
/Normativa/Paginas/actos-administrativos.aspx
http://url.minsalud.gov.co/r9qd8
/Paginas/Norm_Conceptos.aspx
/Normativa/Paginas/Notificaciones-por-aviso.aspx
/Ministerio/Institucional/Paginas/asuntos-juridicos.aspx
/Paginas/Norm_Boletines.aspx
/Institucional/Paginas/asuntos-juridicos.aspx
/Normativa/Paginas/Proyectos-de-actos-administrativos.aspx
/Paginas/normograma.aspx
/Normativa/Paginas/agenda-regulatoria.aspx
/Normativa/Paginas/informe-global-de-participacion-ciudadana.aspx
/Normativa/Paginas/analisis-de-impacto-normativo.aspx


## **3. Crear un JSON donde se guarde los hipervínculos de cada uno de los DOOM's de las páginas hijas (aspx)**

### **3.1. Librerías requeridas**

In [4]:
import requests
import json
import os
from bs4 import BeautifulSoup
from urllib.parse import urljoin

### **3.2. Función especializada**

In [5]:
def extraer_hipervínculos(url):
    '''ingresr a la url cree el DOOM y extraiga los hipervínculos (aspx y PDF)'''
    try:
        response = requests.get(url)
        response.raise_for_status()  # Raise an exception for bad status codes
        soup = BeautifulSoup(response.content, 'lxml')
        container_div = soup.find('div', class_='containerblanco')
        links = []
        if container_div:
            for link in container_div.find_all('a'):
                href = link.get('href')
                if href:
                    full_url = urljoin(url, href)
                    # Check if the link is within the specified domain
                    if full_url.startswith("https://www.minsalud.gov.co/Normativa/"):
                        if full_url.endswith('.pdf'):
                            links.append({'url': full_url, 'type': 'pdf'})
                        elif full_url.endswith('.aspx'):
                             links.append({'url': full_url, 'type': 'aspx'})
        return links
    except requests.exceptions.RequestException as e:
        print(f"Error fetching {url}: {e}")
        return []

### **3.3. Crear el JSON con el web scraping**

In [7]:
# Load links from the existing JSON file or initialize if not found
json_file_path='/content/drive/MyDrive/BIG_DATA/WebScraping/links_minsalud.json'
if os.path.exists(json_file_path):
    try:
        with open(json_file_path, 'r') as f:
            json_data = json.load(f)
        all_links = json_data.get("links", [])
    except json.JSONDecodeError:
        print(f"Warning: {json_file_path} contains invalid JSON. Initializing with empty links.")
        all_links = []
else:
    print(f"{json_file_path} not found. Creating a new file.")
    all_links = []

# Filter initial ASPX links to visit based on the domain
aspx_links_to_visit = [link['url'] for link in all_links if link['type'] == 'aspx' and link['url'].startswith("https://www.minsalud.gov.co/Normativa/")]
visited_aspx_links = set()

# Add initial URL if the json file was empty
if not all_links:
  initial_url = "https://www.minsalud.gov.co/Normativa/Paginas/normativa.aspx"
  all_links = extraer_hipervínculos(initial_url)  #Extraer los link de la pagina inicial
  #depurar el listado (solo dejar lo aspx y pdf)
  aspx_links_to_visit = [link['url'] for link in all_links if link['type'] == 'aspx' and link['url'].startswith("https://www.minsalud.gov.co/Normativa/")]


# limpiar los link's para que solo queden los que estan en el dominio
all_links = [link for link in all_links if link['url'].startswith("https://www.minsalud.gov.co/Normativa/")]


while aspx_links_to_visit:
    current_aspx_url = aspx_links_to_visit.pop(0)
    if current_aspx_url not in visited_aspx_links:
        visited_aspx_links.add(current_aspx_url)
        print(f"Visiting: {current_aspx_url}")
        new_links = extraer_hipervínculos(current_aspx_url)
        for link in new_links:
            if link not in all_links:
                all_links.append(link)
                if link['type'] == 'aspx':
                    aspx_links_to_visit.append(link['url'])

# Create a JSON object
json_output = {"links": all_links}

# Save the JSON to a file
with open(json_file_path, 'w') as f:
    json.dump(json_output, f, indent=4)

print("finalizado extracción de links y PDF")

/content/drive/MyDrive/BIG_DATA/WebScraping/links_minsalud.json not found. Creating a new file.
Visiting: https://www.minsalud.gov.co/Normativa/Paginas/decreto-unico-minsalud-780-de-2016.aspx
Visiting: https://www.minsalud.gov.co/Normativa/Paginas/actos-administrativos.aspx
Visiting: https://www.minsalud.gov.co/Normativa/Paginas/Notificaciones-por-aviso.aspx
Visiting: https://www.minsalud.gov.co/Normativa/Paginas/Proyectos-de-actos-administrativos.aspx
Visiting: https://www.minsalud.gov.co/Normativa/Paginas/agenda-regulatoria.aspx
Visiting: https://www.minsalud.gov.co/Normativa/Paginas/informe-global-de-participacion-ciudadana.aspx
Visiting: https://www.minsalud.gov.co/Normativa/Paginas/analisis-de-impacto-normativo.aspx
Visiting: https://www.minsalud.gov.co/Normativa/Paginas/normativa.aspx
finalizado extracción de links y PDF


## **4. Recorrer JSON con los hipervinculos y descargar todos los PDF's**

In [8]:
# Define the directory to save PDFs
pdf_dir='/content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_pdfs/'
os.makedirs(pdf_dir,exist_ok=True)

# Load the JSON file
json_file_path='/content/drive/MyDrive/BIG_DATA/WebScraping/links_minsalud.json'
try:
    with open(json_file_path, 'r') as f:
        json_data = json.load(f)
    all_links = json_data.get("links", [])
except FileNotFoundError:
    print(f"Error: {json_file_path} not found. Please run the previous step to create it.")
    all_links = []
except json.JSONDecodeError:
    print(f"Error: {json_file_path} contains invalid JSON.")
    all_links = []


# Download PDF files
for link in all_links:
    if link['type'] == 'pdf':
        pdf_url = link['url']
        try:
            response = requests.get(pdf_url, stream=True)
            response.raise_for_status()  # Raise an exception for bad status codes

            # Extract filename from the URL
            filename = os.path.join(pdf_dir, pdf_url.split('/')[-1])

            with open(filename, 'wb') as pdf_file:
                for chunk in response.iter_content(chunk_size=8192):
                    pdf_file.write(chunk)
            print(f"Downloaded: {filename}")

        except requests.exceptions.RequestException as e:
            print(f"Error downloading {pdf_url}: {e}")
        except Exception as e:
            print(f"An unexpected error occurred while processing {pdf_url}: {e}")

print("PDF download process completed.")

Downloaded: /content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_pdfs/AIN Decreto 677 de 1995 - Sección 1, 2 y 3 Versión Final para Consulta Pública + Formato observaciones AIN.pdf
Downloaded: /content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_pdfs/AIN etiquetado V02032020.pdf
Downloaded: /content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_pdfs/AIN etiquetado V27022020.pdf
Downloaded: /content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_pdfs/AIN_Frutas Procesadas Resol 3929 de 2013 Planteamiento del problema.docx.pdf
Downloaded: /content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_pdfs/AIN_Frutas Procesadas.pdf
Downloaded: /content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_pdfs/AIN-BPM_DM+RDIV.pdf
Downloaded: /content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_pdfs/AIN-Deficiencia de micronutrientes .pdf
Downloaded: /content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_pdfs/Definición del problema AIN Alimentos para deportistas.pdf
Downloaded: /content/drive/MyDrive/BIG_DATA/WebSc

## **5. Extraer el texto de cada archivo PDF y generar un JSON**

### **5.1. Instalar librerías especializadas para trabajar con PDF (OCR)**

In [13]:
!apt-get update
!apt-get install tesseract-ocr libtesseract-dev tesseract-ocr-spa
!apt-get install poppler-utils

# Instalar librerías para trabajar con imágenes
!pip install pytesseract Pillow
!pip install matplotlib-venn
!pip install pdfminer.six pdf2image

0% [Working]            Hit:1 http://archive.ubuntu.com/ubuntu jammy InRelease
0% [Waiting for headers] [Connecting to security.ubuntu.com (185.125.190.39)] [                                                                               Hit:2 http://archive.ubuntu.com/ubuntu jammy-updates InRelease
                                                                               Hit:3 https://cli.github.com/packages stable InRelease
0% [Waiting for headers] [Connecting to security.ubuntu.com (185.125.190.39)] [                                                                               Hit:4 http://archive.ubuntu.com/ubuntu jammy-backports InRelease
0% [Waiting for headers] [Waiting for headers] [Connected to r2u.stat.illinois.                                                                               Hit:5 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease
0% [Waiting for headers] [Waiting for headers] [Connected to r2u.stat.illinois

### **5.2. Instanciar las librerías que necesitamos**

In [10]:
import pytesseract
from io import StringIO
from datetime import datetime
from PIL import Image, ImageOps
# Librerías para trabajar con PDF
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage

### **5.3. Extraer el texto a un archivo JSON**

In [14]:
def extraer_texto_desde_pdf (pdf_path):
    # Intento de extracción NORMAL
    try:
        rsrcmgr = PDFResourceManager()
        retstr = StringIO()
        codec = 'utf-8'
        laparams = LAParams()
        device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
        fp = open(pdf_path, 'rb')
        interpreter = PDFPageInterpreter(rsrcmgr, device)
        for page in PDFPage.get_pages(fp, caching=True, check_extractable=True):
            interpreter.process_page(page)
        text = retstr.getvalue()
        fp.close()
        device.close()
        retstr.close()

        if text.strip():                # Check if standard extraction yielded any text
            return text, 'normal', True

    except Exception as e:
        print (f"Error al extraer texto desde {pdf_path}: {e}")

    # Si no puedo por el método normal intente con OCR
    try:
        from pdf2image import convert_from_path
        images = convert_from_path(pdf_path)
        ocr_text = ""
        for i, image in enumerate (images):
            ocr_text += pytesseract.image_to_string(image, lang='spa')
        if ocr_text.strip():
                return ocr_text, 'OCR', True
        else:
            print(f"No se pudo extraer texto con OCR de {pdf_path}")
            return "", 'OCR', False
    except Exception as e:
        print (f"Error al extraer texto con OCR {pdf_path}: {e}")
    return "", "Failed", False

In [15]:
# Define input and output directories
pdf_dir='/content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_pdfs/'
json_output_dir='/content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_json/'
error_json_path='/content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_error.json'
os.makedirs(json_output_dir,exist_ok=True)      # Crear la carpeta si no existe

pdf_archivos = [f for f in os.listdir(pdf_dir) if f.endswith('.pdf')]
error_archivos=[]

# Procesar cada archivo pdf
for i, pdf_archivo in enumerate(pdf_archivos):
    print(f"Procesando archivo {i+1}/{len(pdf_archivos)}:{pdf_archivo}")
    pdf_path = os.path.join(pdf_dir, pdf_archivo)
    texto, metodo, sucess = extraer_texto_desde_pdf(pdf_path)

    if sucess:          # Create JSON data
        json_data ={
            "archivo": pdf_archivo,
            "fecha": datetime.now().strftime("%Y-%m-%d"),
            "texto": texto,
            "metodo": metodo
        }

        # Guardar un archivo JSON con una secuencia
        json_file = f"Minsalud_{i+1}.json"
        json_file_path = os.path.join(json_output_dir, json_file)
        with open(json_file_path, 'w', encoding='utf-8') as json_file:
            json.dump(json_data, json_file, indent=4, ensure_ascii=False)
        print(f"PDF {pdf_archivo} => JSON creado: {json_file}")
    else:
        error_archivos.append(pdf_archivo)
        print(f"Error al procesar {pdf_archivo}")

# Save the list of error files to a JSON file
if len(error_archivos) > 0:
    error_json_data = {"archivos_error": error_archivos}
    with open(error_json_path, 'w', encoding='utf-8') as json_file:
        json.dump(error_json_data, json_file, indent=4, ensure_ascii=False)
    print(f"Lista de archivos con errores guardada en {error_json_path}")


print("Extracción de texto PDF y creación de JSON completadas.")
print(f"Lista de archivos con errores guardada en {error_json_path}")

Procesando archivo 1/54:AIN Decreto 677 de 1995 - Sección 1, 2 y 3 Versión Final para Consulta Pública + Formato observaciones AIN.pdf
PDF AIN Decreto 677 de 1995 - Sección 1, 2 y 3 Versión Final para Consulta Pública + Formato observaciones AIN.pdf => JSON creado: <_io.TextIOWrapper name='/content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_json/Minsalud_1.json' mode='w' encoding='utf-8'>
Procesando archivo 2/54:AIN etiquetado V02032020.pdf




PDF AIN etiquetado V02032020.pdf => JSON creado: <_io.TextIOWrapper name='/content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_json/Minsalud_2.json' mode='w' encoding='utf-8'>
Procesando archivo 3/54:AIN etiquetado V27022020.pdf




PDF AIN etiquetado V27022020.pdf => JSON creado: <_io.TextIOWrapper name='/content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_json/Minsalud_3.json' mode='w' encoding='utf-8'>
Procesando archivo 4/54:AIN_Frutas Procesadas Resol 3929 de 2013 Planteamiento del problema.docx.pdf




PDF AIN_Frutas Procesadas Resol 3929 de 2013 Planteamiento del problema.docx.pdf => JSON creado: <_io.TextIOWrapper name='/content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_json/Minsalud_4.json' mode='w' encoding='utf-8'>
Procesando archivo 5/54:AIN_Frutas Procesadas.pdf
PDF AIN_Frutas Procesadas.pdf => JSON creado: <_io.TextIOWrapper name='/content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_json/Minsalud_5.json' mode='w' encoding='utf-8'>
Procesando archivo 6/54:AIN-BPM_DM+RDIV.pdf
PDF AIN-BPM_DM+RDIV.pdf => JSON creado: <_io.TextIOWrapper name='/content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_json/Minsalud_6.json' mode='w' encoding='utf-8'>
Procesando archivo 7/54:AIN-Deficiencia de micronutrientes .pdf
PDF AIN-Deficiencia de micronutrientes .pdf => JSON creado: <_io.TextIOWrapper name='/content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_json/Minsalud_7.json' mode='w' encoding='utf-8'>
Procesando archivo 8/54:Definición del problema AIN Alimentos para deportistas.pdf




PDF Definición del problema AIN Alimentos para deportistas.pdf => JSON creado: <_io.TextIOWrapper name='/content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_json/Minsalud_8.json' mode='w' encoding='utf-8'>
Procesando archivo 9/54:Informe-Rendicion-Cuentas-26-10-23.pdf




PDF Informe-Rendicion-Cuentas-26-10-23.pdf => JSON creado: <_io.TextIOWrapper name='/content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_json/Minsalud_9.json' mode='w' encoding='utf-8'>
Procesando archivo 10/54:Notificacion por Aviso Oficio Humberto Antonio Sierra Porto.pdf
PDF Notificacion por Aviso Oficio Humberto Antonio Sierra Porto.pdf => JSON creado: <_io.TextIOWrapper name='/content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_json/Minsalud_10.json' mode='w' encoding='utf-8'>
Procesando archivo 11/54:Problema AIN APME v1.pdf




PDF Problema AIN APME v1.pdf => JSON creado: <_io.TextIOWrapper name='/content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_json/Minsalud_11.json' mode='w' encoding='utf-8'>
Procesando archivo 12/54:Respuesta consulta Problema AIN Atún en Conserva y Preparaciones de Atún en conserva.pdf
PDF Respuesta consulta Problema AIN Atún en Conserva y Preparaciones de Atún en conserva.pdf => JSON creado: <_io.TextIOWrapper name='/content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_json/Minsalud_12.json' mode='w' encoding='utf-8'>
Procesando archivo 13/54:INFORME%20FINAL%20EX%20ANTE%20AIN%20Re%cc%81gimen%20RS%20EBC%20y%20VG%20DM%20Rev%20DNP%20F.pdf
PDF INFORME%20FINAL%20EX%20ANTE%20AIN%20Re%cc%81gimen%20RS%20EBC%20y%20VG%20DM%20Rev%20DNP%20F.pdf => JSON creado: <_io.TextIOWrapper name='/content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_json/Minsalud_13.json' mode='w' encoding='utf-8'>
Procesando archivo 14/54:Cuestionario-2025-07-09T163640.894.pdf
PDF Cuestionario-2025-07-09T163640.894.pdf =>



PDF AIN_APME_VF.pdf => JSON creado: <_io.TextIOWrapper name='/content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_json/Minsalud_31.json' mode='w' encoding='utf-8'>
Procesando archivo 32/54:An%c3%a1lisis%20de%20impacto%20normativo%20en%20la%20tem%c3%a1tica%20de%20alimentos%20para%20deportistas.pdf




PDF An%c3%a1lisis%20de%20impacto%20normativo%20en%20la%20tem%c3%a1tica%20de%20alimentos%20para%20deportistas.pdf => JSON creado: <_io.TextIOWrapper name='/content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_json/Minsalud_32.json' mode='w' encoding='utf-8'>
Procesando archivo 33/54:AIN%20Decreto%20677%20de%201995%20-%20Secci%c3%b3n%201%2c%202%20y%203%20Versi%c3%b3n%20Final%20para%20Consulta%20P%c3%bablica%20+%20Formato%20observaciones%20AIN.pdf
PDF AIN%20Decreto%20677%20de%201995%20-%20Secci%c3%b3n%201%2c%202%20y%203%20Versi%c3%b3n%20Final%20para%20Consulta%20P%c3%bablica%20+%20Formato%20observaciones%20AIN.pdf => JSON creado: <_io.TextIOWrapper name='/content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_json/Minsalud_33.json' mode='w' encoding='utf-8'>
Procesando archivo 34/54:Respuetas%20observaciones%20AIN%20Sodio.pdf
PDF Respuetas%20observaciones%20AIN%20Sodio.pdf => JSON creado: <_io.TextIOWrapper name='/content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_json/Minsalud_34.json' mode

## **6. Cargar los JSON a Mongo Atlas**

### **6.1. Instalar librerías**

In [16]:
# Instalar librerías de Mongo
!pip install pymongo
!pip install py2neo

Collecting pymongo
  Downloading pymongo-4.15.3-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl.metadata (22 kB)
Collecting dnspython<3.0.0,>=1.16.0 (from pymongo)
  Downloading dnspython-2.8.0-py3-none-any.whl.metadata (5.7 kB)
Downloading pymongo-4.15.3-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl (1.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m23.4 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dnspython-2.8.0-py3-none-any.whl (331 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m331.1/331.1 kB[0m [31m24.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: dnspython, pymongo
Successfully installed dnspython-2.8.0 pymongo-4.15.3
Collecting py2neo
  Downloading py2neo-2021.2.4-py2.py3-none-any.whl.metadata (9.9 kB)
Collecting interchange~=2021.0.4 (from py2neo)
  Downloading interchange-2021.0.4-py2.py3-none-any.whl.metadata (1.9 kB)
Colle

### **6.2. Establecer conexión a Mongo**

In [None]:
from pymongo import MongoClient

# Conectarse a Mongo Atlas
# Reemplazar el <db_password>
uri = "mongodb+srv://juancd1974:xxxxxxx@cluster0.sgs4hwz.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"
client=MongoClient(uri)
client.stats

Database(MongoClient(host=['ac-8e0mhdx-shard-00-02.sgs4hwz.mongodb.net:27017', 'ac-8e0mhdx-shard-00-01.sgs4hwz.mongodb.net:27017', 'ac-8e0mhdx-shard-00-00.sgs4hwz.mongodb.net:27017'], document_class=dict, tz_aware=False, connect=True, retrywrites=True, w='majority', appname='Cluster0', authsource='admin', replicaset='atlas-14lj6v-shard-0', tls=True), 'stats')

### **6.3. Crear una base de datos (Minsalud)**

In [18]:
# Crear la Base de datos
db_name = 'minsalud_db'
db = client[db_name]

# Crear la colección
collection_name = 'normatividad'
collection = db[collection_name]
print(f"Base de datos {db_name} y colección {collection_name} creadas")

Base de datos minsalud_db y colección normatividad creadas


### **6.4. Cargar archivos JSON a colección**

In [19]:
import os
import json
from pymongo.errors import PyMongoError

# Cargar los archivos JSON a la colección en mongo Atlas
json_output_dir = '/content/drive/MyDrive/BIG_DATA/WebScraping/Minsalud_json/'
json_archivos = [f for f in os.listdir(json_output_dir) if f.endswith('.json')]

contar_cargados = 0
json_no_cargados =[]
print(f"Cargando {len(json_archivos)} JSON a Mongo")

for json_archivo in json_archivos:
    json_path = os.path.join(json_output_dir, json_archivo)
    try:
        with open (json_path, 'r', encoding='utf-8') as json_file:
            json_data = json.load(json_file)

        # Insert the data into the collection
        insert_resultado = collection.insert_one(json_data)

        if insert_resultado.inserted_id:
            print(f"JSON {json_archivo} cargado correctamente. ID: {insert_resultado.inserted_id}")
            contar_cargados+=1
        else:
            print(f"Error al cargar {json_archivo}")
            json_no_cargados.append(json_archivo)

    except FileNotFoundError:
        print(f"Error: File not found at {json_path}")
        json_no_cargados.append(json_file)
    except json.JSONDecodeError:
        print(f"Error: Invalid JSON in file {json_file}")
        json_no_cargados.append(json_file)
    except PyMongoError as e:
        print(f"MongoDB error while loading {json_file}: {e}")
        json_no_cargados.append(json_file)
    except Exception as e:
        print(f"An unexpected error occurred while processing {json_file}: {e}")
        json_no_cargados.append(json_file)

print(f"JSON cargados: {contar_cargados} de {len(json_archivos)}")
if json_no_cargados:
    print(f"JSON no cargados: {json_no_cargados}")

Cargando 54 JSON a Mongo
JSON Minsalud_1.json cargado correctamente. ID: 68eea26fda2543ca181c3c85
JSON Minsalud_2.json cargado correctamente. ID: 68eea270da2543ca181c3c86
JSON Minsalud_3.json cargado correctamente. ID: 68eea270da2543ca181c3c87
JSON Minsalud_4.json cargado correctamente. ID: 68eea270da2543ca181c3c88
JSON Minsalud_5.json cargado correctamente. ID: 68eea270da2543ca181c3c89
JSON Minsalud_6.json cargado correctamente. ID: 68eea270da2543ca181c3c8a
JSON Minsalud_7.json cargado correctamente. ID: 68eea270da2543ca181c3c8b
JSON Minsalud_8.json cargado correctamente. ID: 68eea270da2543ca181c3c8c
JSON Minsalud_9.json cargado correctamente. ID: 68eea270da2543ca181c3c8d
JSON Minsalud_10.json cargado correctamente. ID: 68eea271da2543ca181c3c8e
JSON Minsalud_11.json cargado correctamente. ID: 68eea271da2543ca181c3c8f
JSON Minsalud_12.json cargado correctamente. ID: 68eea271da2543ca181c3c90
JSON Minsalud_13.json cargado correctamente. ID: 68eea271da2543ca181c3c91
JSON Minsalud_14.json 