#Maestría en "Analítica de Datos"
---
Nombre: Oscar Daniel Tunjano Rojas

Código: 1070015630

Fecha: 2025 Agosto 28
---
Descripción: Web scraping Ministerio de Tecnologías de la información y las comunicaciones

---


# 0 Conenctar con Drive

In [1]:
# habilitamos drive de google desde colab
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# 1 Librerias

In [20]:
!pip install requests
!pip install beautifulsoup4
!pip install pymongo
!pip install lxml



In [18]:
# ==============================
# 1. LIBRERÍAS
# ==============================
import requests
from bs4 import BeautifulSoup
import json
from urllib.parse import urljoin
import os
from time import sleep

# 1.1 Conexión con Mongo

In [19]:
!pip install pymongo



# 1.2 Librerias especiales


In [21]:
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
import json, os, time

# 2 Extracción de texto HTML

# 2.1 Cargar url

In [30]:
BASE_URL = 'https://normograma.mintic.gov.co/mintic/compilacion/compilacion_normativa_sector_tic.html'

# 2.2 Obtener pag hijas

In [31]:
def obtener_paginas_hijas(url):
    """Extrae todas las subpáginas hijas (.htm/.html) de la compilación MINTIC."""
    headers = {'User-Agent': 'Mozilla/5.0'}
    resp = requests.get(url, headers=headers)
    resp.raise_for_status()
    soup = BeautifulSoup(resp.content, 'lxml')

    links = []
    for a in soup.find_all('a', href=True):
        href = a['href']
        full_url = urljoin(url, href)
        if full_url.endswith('.htm') or full_url.endswith('.html'):
            links.append(full_url)
    return list(set(links))


# 2.3 Extraer texto

In [32]:
def extraer_texto_norma(url):
    """Extrae título y cuerpo textual de una norma del portal MINTIC."""
    headers = {'User-Agent': 'Mozilla/5.0'}
    resp = requests.get(url, headers=headers, timeout=20)
    resp.raise_for_status()
    soup = BeautifulSoup(resp.content, 'lxml')

    # título
    titulo = soup.title.text.strip() if soup.title else "Sin título"

    # buscar texto normativo dentro del contenido principal
    texto_div = soup.find('div', class_='textoNorma') or soup.find('body')
    parrafos = [p.get_text(strip=True) for p in texto_div.find_all('p')] if texto_div else []
    texto = "\n".join(parrafos)

    return {'titulo': titulo, 'url': url, 'texto': texto}

# 2.4  Guardar JSON de cada norma

In [33]:

json_output_dir = '/content/drive/MyDrive/BIG DATA/web_scraping/mintic_normas_json'
os.makedirs(json_output_dir, exist_ok=True)

# Obtener todas las normas
paginas_hijas = obtener_paginas_hijas(BASE_URL)
print(f" Se encontraron {len(paginas_hijas)} páginas hijas.")

errores = []
for i, link in enumerate(paginas_hijas):
    try:
        print(f" Procesando norma {i+1}/{len(paginas_hijas)}: {link}")
        data = extraer_texto_norma(link)
        json_path = os.path.join(json_output_dir, f"norma_mintic_{i+1}.json")
        with open(json_path, 'w', encoding='utf-8') as f:
            json.dump(data, f, indent=4, ensure_ascii=False)
    except Exception as e:
        print(f" Error procesando {link}: {e}")
        errores.append(link)
    time.sleep(1)

print(f"\n Se generaron {len(paginas_hijas) - len(errores)} archivos JSON en {json_output_dir}")
if errores:
    print(f" No se pudieron procesar {len(errores)} normas.")


 Se encontraron 71 páginas hijas.
 Procesando norma 1/71: https://normograma.mintic.gov.co/mintic/compilacion/cndstc_dapr_departamento_administrativo_presidencia_republica.html
 Procesando norma 2/71: https://normograma.mintic.gov.co/mintic/compilacion/cndstc_dnp_departamento_nacional_planeacion.html
 Procesando norma 3/71: https://normograma.mintic.gov.co/mintic/compilacion/cndste_congreso_republica.html
 Procesando norma 4/71: https://normograma.mintic.gov.co/mintic/compilacion/cndstm_ministerio_tecnologias_informacion_comunicaciones.html
 Procesando norma 5/71: https://normograma.mintic.gov.co/mintic/compilacion/doctrina.html
 Procesando norma 6/71: https://normograma.mintic.gov.co/mintic/compilacion/cndstc_asamblea_constituyente_1991.html
 Procesando norma 7/71: https://normograma.mintic.gov.co/mintic/compilacion/cndstd_presidencia_republica.html
 Procesando norma 8/71: https://normograma.mintic.gov.co/mintic/compilacion/cndstc_congreso_republica.html
 Procesando norma 9/71: https:

# 3 Cargar JSON  a MONGODB

In [34]:
from pymongo import MongoClient
import os, json


In [35]:
#  Conexión a tu cluster de MongoDB Atlas
uri = "mongodb+srv://OscarDanTR:Trojas1973@cluster0.9ydjhbu.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"
client = MongoClient(uri)

#  Crear base y colección
db_name = 'mintic'
collection_name = 'normatividad_html'
db = client[db_name]
collection = db[collection_name]
collection_fecha = db['fecha']

print(f" Conectado a MongoDB — Base: {db_name}, Colección: {collection_name}")

 Conectado a MongoDB — Base: mintic, Colección: normatividad_html


In [36]:
#  Ruta donde están tus JSON
json_output_dir = '/content/drive/MyDrive/BIG DATA/web_scraping/mintic_normas_json'
json_archivos = [f for f in os.listdir(json_output_dir) if f.endswith('.json')]

# 3.1 Cargar JSON

In [37]:

#  Cargar cada JSON
contar_cargados = 0
json_no_cargados = []

print(f" Cargando {len(json_archivos)} archivos JSON a MongoDB...")

for archivo in json_archivos:
    try:
        ruta = os.path.join(json_output_dir, archivo)
        with open(ruta, 'r', encoding='utf-8') as f:
            data = json.load(f)
        insert_result = collection.insert_one(data)
        if insert_result.inserted_id:
            contar_cargados += 1
            print(f" {archivo} cargado con éxito")
        else:
            json_no_cargados.append(archivo)
    except Exception as e:
        print(f" Error cargando {archivo}: {e}")
        json_no_cargados.append(archivo)

print(f"\n Se cargaron {contar_cargados} JSON correctamente a MongoDB.")
if json_no_cargados:
    print(f" No se pudieron cargar {len(json_no_cargados)} archivos.")

 Cargando 70 archivos JSON a MongoDB...
 norma_mintic_1.json cargado con éxito
 norma_mintic_2.json cargado con éxito
 norma_mintic_3.json cargado con éxito
 norma_mintic_4.json cargado con éxito
 norma_mintic_5.json cargado con éxito
 norma_mintic_6.json cargado con éxito
 norma_mintic_7.json cargado con éxito
 norma_mintic_8.json cargado con éxito
 norma_mintic_9.json cargado con éxito
 norma_mintic_10.json cargado con éxito
 norma_mintic_11.json cargado con éxito
 norma_mintic_12.json cargado con éxito
 norma_mintic_13.json cargado con éxito
 norma_mintic_14.json cargado con éxito
 norma_mintic_16.json cargado con éxito
 norma_mintic_17.json cargado con éxito
 norma_mintic_18.json cargado con éxito
 norma_mintic_19.json cargado con éxito
 norma_mintic_20.json cargado con éxito
 norma_mintic_21.json cargado con éxito
 norma_mintic_22.json cargado con éxito
 norma_mintic_23.json cargado con éxito
 norma_mintic_24.json cargado con éxito
 norma_mintic_25.json cargado con éxito
 norma_mi