In [None]:
!pip install python-docx
!pip install pdfminer.six
!pip install requests
!pip install bs4

Collecting python-docx
  Downloading python_docx-1.1.2-py3-none-any.whl.metadata (2.0 kB)
Downloading python_docx-1.1.2-py3-none-any.whl (244 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m244.3/244.3 kB[0m [31m4.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: python-docx
Successfully installed python-docx-1.1.2
Collecting pdfminer.six
  Downloading pdfminer_six-20250416-py3-none-any.whl.metadata (4.1 kB)
Downloading pdfminer_six-20250416-py3-none-any.whl (5.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.6/5.6 MB[0m [31m39.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pdfminer.six
Successfully installed pdfminer.six-20250416
Collecting bs4
  Downloading bs4-0.0.2-py2.py3-none-any.whl.metadata (411 bytes)
Downloading bs4-0.0.2-py2.py3-none-any.whl (1.2 kB)
Installing collected packages: bs4
Successfully installed bs4-0.0.2


In [None]:
import os
import json
import time
import requests
import hashlib
from bs4 import BeautifulSoup
from docx import Document
from pdfminer.high_level import extract_text
from datetime import datetime
from concurrent.futures import ThreadPoolExecutor, as_completed

# Configuración
HEADERS = {"User-Agent": "Mozilla/5.0"}
URL_PRINCIPAL = "https://conveniomarco2.mercadopublico.cl/software3/quote_public/requestquote/lists/"
PATH = '/content/drive/MyDrive/Diplomado/WhitePaper/archivos/'
LISTADO_FILE = PATH + "listado_rapido.json"
PROCESADOS_FILE = PATH + "procesados.json"
CACHE_HASH_FILE = PATH + "cache_hash.txt"
DOWNLOAD_DIR = PATH + "descargas"

os.makedirs(DOWNLOAD_DIR, exist_ok=True)

# Logging con timestamp
def log(mensaje):
    timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    print(f"[{timestamp}] {mensaje}")

def calcular_hash_tbody(html):
    soup = BeautifulSoup(html, "html.parser")
    tbody = soup.find("table", {"id": "wk_mp_requestedquote_table"}).find("tbody")
    return hashlib.sha256(tbody.encode("utf-8")).hexdigest()

# Fase 1: Scrapeo rápido del listado
def scrape_listado_rapido():
    log("Iniciando scraping rápido de listado...")
    response = requests.get(URL_PRINCIPAL, headers=HEADERS)
    soup = BeautifulSoup(response.text, "html.parser")
    table = soup.find("table", {"id": "wk_mp_requestedquote_table"})
    filas = table.find("tbody").find_all("tr")
    total = len(filas)
    listado = []

    for idx, row in enumerate(filas, 1):
        cols = row.find_all("td")
        id_raw = cols[0].find("span", class_="id").text.strip()
        id_clean = id_raw.replace("ID ", "")
        descripcion = cols[0].find("span", class_="name-quote").text.strip()
        url_detalle = cols[0].find("a")["href"]

        log(f"[Fase 1] Licitación {idx} de {total} ({id_clean}): {descripcion}")

        item = {
            "id": id_clean,
            "descripcion": descripcion,
            "organismo": cols[1].text.strip(),
            "publicacion_inicio": cols[2].find("b").text.strip(),
            "publicacion_fin": cols[2].find_all("b")[1].text.strip(),
            "evaluacion_inicio": cols[3].find("b").text.strip(),
            "evaluacion_fin": cols[3].find_all("b")[1].text.strip(),
            "estado": cols[6].text.strip(),
            "ofertas": cols[5].text.strip(),
            "url_detalle": url_detalle
        }
        listado.append(item)

    with open(LISTADO_FILE, "w", encoding="utf-8") as f:
        json.dump(listado, f, indent=2, ensure_ascii=False)

    log(f"Listado guardado en {LISTADO_FILE} con {len(listado)} registros.")
    return listado

# Funciones auxiliares de extracción
def extraer_texto_docx(filepath):
    doc = Document(filepath)
    return "\n".join(p.text for p in doc.paragraphs)

def extraer_texto_pdf(filepath):
    return extract_text(filepath)

def descargar_y_extraer(id_licitacion, nombre, url):
    extension = nombre.split('.')[-1].lower()
    dir_destino = os.path.join(DOWNLOAD_DIR, id_licitacion)
    os.makedirs(dir_destino, exist_ok=True)
    filepath = os.path.join(dir_destino, nombre)

    if not os.path.exists(filepath):
        r = requests.get(url, headers=HEADERS)
        with open(filepath, "wb") as f:
            f.write(r.content)

    try:
        if extension == "docx":
            texto = extraer_texto_docx(filepath)
        elif extension == "pdf":
            texto = extract_text(filepath)
        else:
            texto = f"[Tipo no soportado: {extension}]"
    except Exception as e:
        texto = f"[Error al extraer texto: {str(e)}]"

    return texto

# Fase 2: Procesamiento de adjuntos
def procesar_una_licitacion(item):
    log(f"[Fase 2] Procesando ({item['id']}): {item['descripcion']}")
    item["adjuntos"] = []

    try:
        detalle_html = requests.get(item["url_detalle"], headers=HEADERS).text
        detalle_soup = BeautifulSoup(detalle_html, "html.parser")
        archivos = detalle_soup.find_all("div", class_="field file")

        for archivo in archivos:
            nombre = archivo.find("span").text.strip()
            enlace = archivo.find("a")["href"]
            log(f"  Adjunto de {item['id']}: {nombre}")
            texto = descargar_y_extraer(item["id"], nombre, enlace)
            item["adjuntos"].append({
                "nombre": nombre,
                "url": enlace,
                "texto": texto
            })

    except Exception as e:
        log(f"  [ERROR] Licitación {item['id']}: {e}")
        item["adjuntos"].append({"error": str(e)})

    return item

def procesar_adjuntos_paralelo(listado, max_workers=4):
    log(f"Iniciando procesamiento paralelo de {len(listado)} licitaciones con {max_workers} threads...")
    resultados = []

    with ThreadPoolExecutor(max_workers=max_workers) as executor:
        futuras = [executor.submit(procesar_una_licitacion, item) for item in listado]

        for idx, future in enumerate(as_completed(futuras), 1):
            try:
                item_procesado = future.result()
                resultados.append(item_procesado)
                log(f"Licitación {idx} procesada: {item_procesado['id']}")
            except Exception as e:
                log(f"[ERROR] en ejecución paralela: {e}")

            # Guardar progreso incremental
            with open(PROCESADOS_FILE, "w", encoding="utf-8") as f:
                json.dump(resultados, f, indent=2, ensure_ascii=False)

    log(f"Procesamiento completo. Guardado en {PROCESADOS_FILE}")
    return resultados


# =========================
# Ejecución principal
# =========================

print("Comprobando cambios en la página principal...")
html = requests.get(URL_PRINCIPAL, headers=HEADERS).text
nuevo_hash = calcular_hash_tbody(html)

if os.path.exists(CACHE_HASH_FILE):
    with open(CACHE_HASH_FILE, "r") as f:
        hash_anterior = f.read().strip()
else:
    hash_anterior = ""

if nuevo_hash == hash_anterior and os.path.exists(LISTADO_FILE):
    log("Sin cambios. Cargando listado desde cache local...")
    with open(LISTADO_FILE, "r", encoding="utf-8") as f:
        listado_rapido = json.load(f)
else:
    listado_rapido = scrape_listado_rapido()
    with open(CACHE_HASH_FILE, "w") as f:
        f.write(nuevo_hash)

datos_finales = procesar_adjuntos_paralelo(listado_rapido, max_workers=4)
log(f"Finalizado. Licitaciones procesadas: {len(datos_finales)}")

Comprobando cambios en la página principal...
[2025-05-06 02:21:04] Iniciando scraping rápido de listado...
[2025-05-06 02:21:27] [Fase 1] Licitación 1 de 1130 (5802363-3680ESMW): Servicio de Desarrollo de un Upgrade Tecnológico de Aplicaciones y Base de Datos, para el Sistema informático de Seguimiento Documental (SSD)
[2025-05-06 02:21:27] [Fase 1] Licitación 2 de 1130 (5802363-8861ZDOC): CONTRATACIÓN DEL SERVICIO MANTENCIONES EVOLUTIVAS PARA LA PLATAFORMA DE SHAREPOINT
[2025-05-06 02:21:27] [Fase 1] Licitación 3 de 1130 (5802363-1394EBMD): SERVICIOS DE EVOLUCIÓN E INNOVACIÓN DE PLATAFORMA SIM-FIMU “PROYECTO DE RECEPCIÓN Y PROCESAMIENTO DE ESTADOS FINANCIEROS PARA EL SECTOR MUNICIPAL (SUBDERE -CGR)”” E3103/2025
[2025-05-06 02:21:27] [Fase 1] Licitación 4 de 1130 (5802363-1788VAGU): CONTRATO DE SOFTWARE - DIRECCION FORM. 87
[2025-05-06 02:21:27] [Fase 1] Licitación 5 de 1130 (5802363-5733AVJA): MANTENCIÓN DE PLATAFORMA MOODLE: CENTRO DE APRENDIZAJE DE FOCALIZACIÓN
[2025-05-06 02:21:27



[2025-05-06 02:23:41] [Fase 2] Procesando (5802363-9484GZXR): Mantención del Sistema Alarmas Facultad de Economía y Negocios (FEN)[2025-05-06 02:23:41] Licitación 92 procesada: 5802363-2157OMVL

[2025-05-06 02:23:42]   Adjunto de 5802363-9484GZXR: f-mantenci_n_del_sistema_alarmas_facultad_de_econom_a_y_negocios_fen_.-1743684750.docx
[2025-05-06 02:23:43] [Fase 2] Procesando (5802363-1897ZNMF): Mantención del Sistema CCTV Facultad de Economía y Negocios (FEN)[2025-05-06 02:23:43] Licitación 93 procesada: 5802363-9484GZXR

[2025-05-06 02:23:45]   Adjunto de 5802363-1897ZNMF: documentacion_camaras_hikvision_y_panasonic_-_fen_actualizacion_2023_v1.0_3_.-1743682863.xlsx
[2025-05-06 02:23:45] [Fase 2] Procesando (5802363-2937YRSY): ADQUISICIÓN DE UNA PLATAFORMA DE SOFTWARE PARA LA GESTIÓN DE LA CALIDAD INSTITUCIONAL Y LA ACREDITACIÓN DEL CENTRO DE FORMACIÓN TÉCNICA DE LA REGIÓN DE COQUIMBO
[2025-05-06 02:23:45] Licitación 94 procesada: 5802363-0683ACVF
[2025-05-06 02:23:45]   Adjunto de 5802



[2025-05-06 02:23:47]   Adjunto de 5802363-2937YRSY: anexos_software_de_calidad.-1743622360.docx




[2025-05-06 02:23:47]   Adjunto de 5802363-7134VFWP: sc_02.3-0135_y_tdr_convenio_marco_-_servicio_desarrollo_para_plataforma_fondos_concr.-1743621263.pdf
[2025-05-06 02:23:48] [Fase 2] Procesando (5802363-0735OWUE): Servicio de Mantención y/o Soporte de Sitio Web y Redes Sociales Acciona año 2025.
[2025-05-06 02:23:48] Licitación 96 procesada: 5802363-2937YRSY




[2025-05-06 02:23:50] [Fase 2] Procesando (5802363-5465VVVD): Soporte sobre la plataforma Power BI
[2025-05-06 02:23:50] Licitación 97 procesada: 5802363-3089XYSN
[2025-05-06 02:23:50]   Adjunto de 5802363-0735OWUE: solicitud_y_tdr_plataforma_acciona-1743619180.pdf




[2025-05-06 02:23:51] [Fase 2] Procesando (5802363-9591PWSM): Servicio de Construcción del Nuevo Diseño de los Modulos Express[2025-05-06 02:23:51] Licitación 98 procesada: 5802363-7134VFWP





[2025-05-06 02:23:51] [Fase 2] Procesando (5802363-1291VDWX): Servicio de Plataforma Digital para Gestión Ciudadana y Seguridad Pública Municipal
[2025-05-06 02:23:51] Licitación 99 procesada: 5802363-1056ZZAT
[2025-05-06 02:23:52]   Adjunto de 5802363-5465VVVD: solicitud_de_cotizacion_soporte_power_bi-1743618702.pdf
[2025-05-06 02:23:52]   Adjunto de 5802363-9591PWSM: anexos.-1743605003.docx
[2025-05-06 02:23:52] [Fase 2] Procesando (5802363-2000QTYT): REGISTRO CLÍNICO ELECTRÓNICO
[2025-05-06 02:23:52] Licitación 100 procesada: 5802363-0735OWUE
[2025-05-06 02:23:53]   Adjunto de 5802363-9591PWSM: ir_cm_servicio_de_construcci_n_del_nuevo_dise_o_de_los_m_dulos_express-1743605003.pdf
[2025-05-06 02:23:53] [Fase 2] Procesando (5802363-9988ODPT): Proyectos de Consultoría y/o Auditoría en Ciberseguridad[2025-05-06 02:23:53] Licitación 101 procesada: 5802363-5465VVVD

[2025-05-06 02:23:53]   Adjunto de 5802363-1291VDWX: especificaciones_t_cnicas_tipo_convenio_marco_-_alto_hospicio_1_-1743603



[2025-05-06 02:25:55]   Adjunto de 5802363-1430MLXG: acta_compromiso_vpn.-1741358789.docx
[2025-05-06 02:25:55] [Fase 2] Procesando (5802363-0276MKYF): Mantención y/o Soporte a los procesos del Departamento Tic del IPS-ChileAtiende
[2025-05-06 02:25:55] Licitación 195 procesada: 5802363-5705RNHE
[2025-05-06 02:25:56]   Adjunto de 5802363-1430MLXG: condiciones_generales_migracionreporte_v07.03_rvl-cqm_-1741358789.pdf
[2025-05-06 02:25:57]   Adjunto de 5802363-3951YORX: intenci_n_de_compra_y_anexos.-1743446854.docx
[2025-05-06 02:25:58]   Adjunto de 5802363-0276MKYF: anexos.-1741373375.docx
[2025-05-06 02:25:58]   Adjunto de 5802363-1430MLXG: formulario_c-4.-1741358789.docx
[2025-05-06 02:25:58]   Adjunto de 5802363-0276MKYF: ic_mantenci_n_soporte_a_los_procesos_del_departamento_tic_4-1741358722.pdf
[2025-05-06 02:25:58] [Fase 2] Procesando (5802363-8465DFHK): IMPLEMENTACION GESTION DE  FILAS
[2025-05-06 02:25:58] Licitación 196 procesada: 5802363-1430MLXG
[2025-05-06 02:25:59] [Fase 2] 



[2025-05-06 02:26:16] Licitación 213 procesada: 5802363-4319AFMF




[2025-05-06 02:26:18]   Adjunto de 5802363-8282GUAJ: especificaciones_t_cnicas-1741184853.pdf
[2025-05-06 02:26:19] [Fase 2] Procesando (5802363-9066VECT): Migracion de Reportería Planeamiento[2025-05-06 02:26:19] Licitación 214 procesada: 5802363-7542CVHQ

[2025-05-06 02:26:19] [Fase 2] Procesando (5802363-5931YKPE): DIA DE LOS PATRIMONIOS 2025
[2025-05-06 02:26:19] [Fase 2] Procesando (5802363-4053SHAL): ADQUISICIÓN DE SERVICIOS IAAS NUBE PÚBLICA DE CRÉDITOS AWS
[2025-05-06 02:26:19] Licitación 215 procesada: 5802363-8282GUAJ
[2025-05-06 02:26:19] Licitación 216 procesada: 5802363-8445UQCJ
[2025-05-06 02:26:20]   Adjunto de 5802363-4053SHAL: aws_2025-1741197378.pdf
[2025-05-06 02:26:20] [Fase 2] Procesando (5802363-4201CNTV): Desarrollo de mejoras a la implementación de la plataforma de trámites del servicio.[2025-05-06 02:26:20] Licitación 217 procesada: 5802363-4053SHAL

[2025-05-06 02:26:21]   Adjunto de 5802363-9066VECT: acta_compromiso_vpn.-1741179161.docx
[2025-05-06 02:26:21] 



[2025-05-06 02:26:44]   Adjunto de 5802363-3628ITTF: 241028_-_ote_mantenimiento_hblt-1740497319.pdf




[2025-05-06 02:26:45]   Adjunto de 5802363-8435MGED: 241028_-_ote_soporte_hblt-1740496958.pdf
[2025-05-06 02:26:45] [Fase 2] Procesando (5802363-7943WVSK): Servicio de alertas mediante un botón de pánico dentro de la aplicación SOSAFE
[2025-05-06 02:26:45] Licitación 242 procesada: 5802363-3628ITTF
[2025-05-06 02:26:45]   Adjunto de 5802363-0882XJCS: anexo_11.-1740494300.docx
[2025-05-06 02:26:45]   Adjunto de 5802363-0882XJCS: evaluaci_n_de_plataforma_de_gesti_n_documental_y_expedientes_dgd_20240105.-1740494300.xlsx
[2025-05-06 02:26:45]   Adjunto de 5802363-0882XJCS: gestor_documental_convenio_marco_imc-1740494300.pdf
[2025-05-06 02:26:45]   Adjunto de 5802363-5820BIOJ: referenciastecnicasdatacentercontingencia_vf.-1740488990.docx
[2025-05-06 02:26:46] [Fase 2] Procesando (5802363-1760DVSU): DESARROLLO Y MANTENCIÓN DE  SOFTWARE Y  SERVICIOS PROFESIONALES TI  E INFRAESTRUCTURA[2025-05-06 02:26:46] Licitación 243 procesada: 5802363-7943WVSK

[2025-05-06 02:26:46] [Fase 2] Procesando (5



[2025-05-06 02:28:05]   Adjunto de 5802363-6899GVMM: 01_t_rminos_de_referencia_servicio_de_contactibilidad-1739466678.pdf
[2025-05-06 02:28:06]   Adjunto de 5802363-9205XFCY: aprueba_intenci_n_de_compra-1741354178.pdf
[2025-05-06 02:28:06]   Adjunto de 5802363-8053IJYG: decreto_aprueba_e_intenci_n-1741867613.pdf
[2025-05-06 02:28:07] Licitación 286 procesada: 5802363-5722POJC
[2025-05-06 02:28:07] [Fase 2] Procesando (5802363-4132BUZE): SERVICIOS DE SEGURIDADA PERIMETRAL ALTA DISPONIBILDAD
[2025-05-06 02:28:09] Licitación 287 procesada: 5802363-6192UCKA
[2025-05-06 02:28:09]   Adjunto de 5802363-4132BUZE: intcompra_alta_disponibilidad_ha_1_-1739457376.pdf
[2025-05-06 02:28:11] Licitación 288 procesada: 5802363-5097GKSS
[2025-05-06 02:28:14] [Fase 2] Procesando (5802363-8876KAHJ): Servicio Mantenimiento Evolutivo de la Plataforma de Análisis Territorial de Inversiones
[2025-05-06 02:28:14] Licitación 289 procesada: 5802363-7754HRGL
[2025-05-06 02:28:16]   Adjunto de 5802363-9205XFCY: in



[2025-05-06 02:28:57] [Fase 2] Procesando (5802363-3904FHXS): Servicio de Administración de Bases de Datos para labores de mantenimiento y gestión de tickets sobre las bases de datos del MINVU por periodo de doce (12) meses.
[2025-05-06 02:28:57] Licitación 325 procesada: 5802363-7284DTHO




[2025-05-06 02:28:57]   Adjunto de 5802363-8752OAFD: tdr_cm_-_desarrollo_mixto_-_framework_redec-02_v3_06-02-2025-1738934069.pdf
[2025-05-06 02:28:58] [Fase 2] Procesando (5802363-8113CTBL): Adquisición Bundle Municipal ArcGIS
[2025-05-06 02:28:59] Licitación 326 procesada: 5802363-1168KWBL
[2025-05-06 02:28:59]   Adjunto de 5802363-3904FHXS: 17.01_solicitud_cotizacion_cm_desarrollo_selico_17_v4-1738933267.pdf
[2025-05-06 02:28:59]   Adjunto de 5802363-8113CTBL: ttr_bundle_municipal-1738929252.pdf
[2025-05-06 02:29:00] [Fase 2] Procesando (5802363-4911EWKO): IMPLEMENTACION DE PLATAFORMA DE CONTACTABILIDAD OMNICANAL PARA EL HOSPITAL SAN AGUSTIN DE COLLIPULLI
[2025-05-06 02:29:00]   Adjunto de 5802363-2737LHAN: requerimiento-1738943038.pdf
[2025-05-06 02:29:01] [Fase 2] Procesando (5802363-4152AECT): Solicitud de 40 licencias Rayen
[2025-05-06 02:29:01] [Fase 2] Procesando (5802363-5419OMAZ): Desarrollo del catálogo de datos asociado al proceso de negocio préstamo a empresas
[2025-05-06 



[2025-05-06 02:29:32] [Fase 2] Procesando (5802363-0513OQKM): INTENCION DE COMPRA PARA EL PROCESO DE GRAN COMPRA PARA LA CONTRATACION DE LOS SERVICIOS PLATAFORMA CLOUD COMPUTING Y SERVICIOS ASOCIADOS APLICATIVO SAC DEL SERVICIO DE SALUD BIOBIO MEDIANTE EL CONVENIO MARCO DE DESARROLLO, MANTENCION DE SOFTWARE E IAAS, ID 2239-19-LR23.
[2025-05-06 02:29:32] [Fase 2] Procesando (5802363-0123JUBK): SERVICIO DE APOYO PARA LOS SISTEMAS INFORMATICOS INTERNOS
[2025-05-06 02:29:33] Licitación 351 procesada: 5802363-3080SUQC
[2025-05-06 02:29:33]   Adjunto de 5802363-1652DKRM: bases_tecnicas_correos_exchange-1738089361.pdf
[2025-05-06 02:29:33]   Adjunto de 5802363-0513OQKM: ress695-1738871546.pdf
[2025-05-06 02:29:33] [Fase 2] Procesando (5802363-8863KBNQ): MANTENCION DE SISTEMA DE GESTION DE FLUJOS INTERNOS Y OTROS PROCEDIMIENTOS ADMINISTRATIVOS
[2025-05-06 02:29:34] Licitación 352 procesada: 5802363-8726MTTJ
[2025-05-06 02:29:35] Licitación 353 procesada: 5802363-4648YPDQ
[2025-05-06 02:29:35] 



[2025-05-06 02:30:31] Licitación 397 procesada: 5802363-7645FGCU
[2025-05-06 02:30:31]   Adjunto de 5802363-0027QHWY: rex_632_intenci_n_de_compra_final_firmado_jdl-1736965962.pdf




[2025-05-06 02:30:31] [Fase 2] Procesando (5802363-8449GCFV): ADQUISICIÓN DE ESTRUCTURA COMO SERVICIO NUBE PRIVADA




[2025-05-06 02:30:33]   Adjunto de 5802363-8449GCFV: eett_licencias_rayen_cm_3_-1736941199.pdf




[2025-05-06 02:30:33] Licitación 398 procesada: 5802363-9410LIPP




[2025-05-06 02:30:34] [Fase 2] Procesando (5802363-9909SGDF): Proyecto Plataforma DOM Municipalidad LAMPA con Diseño, Administración de Base de datos.
[2025-05-06 02:30:36]   Adjunto de 5802363-9909SGDF: requisitos_cotizaci_n-1736884666.pdf
[2025-05-06 02:30:36] [Fase 2] Procesando (5802363-2635UHYN): DESARROLLO DE FLUJO RIGHTNOW PARA RECLAMOS SEC: PROCESAMIENTO Y GESTIÓN AUTOMATIZADA DE DOCUMENTOS DE FACTURACIÓN.
[2025-05-06 02:30:36] Licitación 399 procesada: 5802363-4141JQOC
[2025-05-06 02:30:36] [Fase 2] Procesando (5802363-9476RTAE): SERVICIO DE DESARROLLO E IMPLEMENTACIÓN DEL NUEVO SISTEMA DE GESTIÓN DE PROYECTOS DEL BENEFICIARIO
[2025-05-06 02:30:37] [Fase 2] Procesando (5802363-2232WWPY): Mejoras al Sistema de Ley del Lobby
[2025-05-06 02:30:39]   Adjunto de 5802363-9476RTAE: fsc-re-26-12-2024_intencion_compra_sgp_20241226091632-1736880011.pdf
[2025-05-06 02:30:39] [Fase 2] Procesando (5802363-7499TGHX): Proyecto Servicio de Mantención y Soporte de Corrientes Débiles
[2025-05-0



[2025-05-06 02:31:09] [Fase 2] Procesando (5802363-5601APPF): CECOPAC N° 10000/961 SERVICIO DE HOSTING POR 12 MESES




[2025-05-06 02:31:11] [Fase 2] Procesando (5802363-5165LJKN): IIMPLEMENTACIÓN DEL SISTEMA FILA, AGENDA REMOTA Y CONFIRMACIÓN DE CITAS
[2025-05-06 02:31:11] Licitación 414 procesada: 5802363-8317RKSS
[2025-05-06 02:31:11]   Adjunto de 5802363-5601APPF: bases_tecnicas_hosting_2025.-1735928365.docx
[2025-05-06 02:31:11] [Fase 2] Procesando (5802363-3817WNDC): Servicio de Soporte Funcional para Sistema de Gasto Electoral de Servel por año 2025.
[2025-05-06 02:31:12] [Fase 2] Procesando (5802363-7812NNCA): SERVICIO DE MANTENIMIENTO EVOLUTIVO DE LOS SISTEMAS DE MEDICINA PREVENTIVA
[2025-05-06 02:31:13] Licitación 415 procesada: 5802363-4775DAJL
[2025-05-06 02:31:13] [Fase 2] Procesando (5802363-7436WJXA): Plataforma hibrida basada en web y Mobile
[2025-05-06 02:31:14]   Adjunto de 5802363-3817WNDC: anexos_cm_soporte_gasto__2025.-1735849928.docx
[2025-05-06 02:31:14]   Adjunto de 5802363-7812NNCA: cotizador_convenio_marco_2239-19-lr23-1735656594.pdf
[2025-05-06 02:31:14]   Adjunto de 5802363-



[2025-05-06 02:32:48]   Adjunto de 5802363-7471ELIK: 2024-12_confirmaciones_de_citas-1733772863.pdf




[2025-05-06 02:32:50] [Fase 2] Procesando (5802363-3976FQNP): SERVICIO DE CONSULTORÍA PARA EL APOYO AL DESARROLLO DE SISTEMAS DE LA SUBSECRETARÍA DE MINERÍA
[2025-05-06 02:32:51] Licitación 466 procesada: 5802363-8251DCBG
[2025-05-06 02:32:52] [Fase 2] Procesando (5802363-0390AUSO): Desarrollo de mejoras a la implementación de la plataforma de trámites del servicio, a través de una célula de trabajo especializada.
[2025-05-06 02:32:52]   Adjunto de 5802363-3976FQNP: solicitud_de_adquisici_n_cm_apoyo_al_desarrollo_de_sistemas-1733772649.pdf
[2025-05-06 02:32:52] [Fase 2] Procesando (5802363-5205WNWV): COTIZACIÓN SERVICIO DE SOPORTE Y CONTINUIDAD OPERATIVA
[2025-05-06 02:32:53] Licitación 467 procesada: 5802363-2908YOTQ
[2025-05-06 02:32:54]   Adjunto de 5802363-0390AUSO: anexos-1733514962.zip
[2025-05-06 02:32:55] [Fase 2] Procesando (5802363-3553RFYH): NP 30 DIRECCION DE OBRAS
[2025-05-06 02:32:55] Licitación 468 procesada: 5802363-0929SBSX
[2025-05-06 02:32:55]   Adjunto de 5802363-52



[2025-05-06 02:34:36]   Adjunto de 5802363-2017RJLH: anexo_n_2_hitos_de_pago_16_.-1732117737.docx




[2025-05-06 02:34:36] Licitación 537 procesada: 5802363-2351RYFK
[2025-05-06 02:34:37]   Adjunto de 5802363-2017RJLH: anexo_n_3_certificado_proyecto_exitoso_25_.-1732117737.docx
[2025-05-06 02:34:37]   Adjunto de 5802363-5170GPGD: 01_requerimientos_tecnicos_aws_y_anexos.-1732115028.docx
[2025-05-06 02:34:37]   Adjunto de 5802363-2017RJLH: anexo_n_4_normas_4_.-1732117737.docx
[2025-05-06 02:34:37]   Adjunto de 5802363-2017RJLH: anexo_n_5_informe_levantamiento_extensiones_-1732117737.pdf
[2025-05-06 02:34:37] [Fase 2] Procesando (5802363-8346QOPK): Servicio de Soporte para Infraestructura de Seguridad Perimetral NGFW de la Universidad de Talca
[2025-05-06 02:34:38]   Adjunto de 5802363-0471GAAU: anexos_proyecto_servicios_de_desarrollo_evaluadores_publicar-1732107335.doc
[2025-05-06 02:34:38]   Adjunto de 5802363-0471GAAU: ttr_proyecto_servicios_de_desarrollo_y_o_implementaci_n_de_nuevas_funcionalidades_en_sistema_de_gesti_n_de_evaluadores_publicar-1732107336.pdf
[2025-05-06 02:34:38] [Fa



[2025-05-06 02:34:42]   Adjunto de 5802363-7135ADGF: intenci_n_de_compra_servicios_ti_sifim_e15324-2024-1732053487.rar
[2025-05-06 02:34:42] Licitación 543 procesada: 5802363-0606QGIP
[2025-05-06 02:34:42] [Fase 2] Procesando (5802363-4148ADZU): “PROYECTO DE LEVANTAMIENTO DE PROCESOS BAJO METODOLOGÍA ITIL PARA PROCESOS DE GESTION DE SERVICIOS DE TI
[2025-05-06 02:34:42] [Fase 2] Procesando (5802363-1998SZIT): PROYECTO DE MEJORAMIENTO DE LA PLATAFORMA INTRANET DEL ISL




[2025-05-06 02:34:42]   Adjunto de 5802363-2117SMOF: proyecto_desarrollo_soluci_n_recolecci_n_datos_sin_internet-1732050146.pdf
[2025-05-06 02:34:43]   Adjunto de 5802363-1998SZIT: v2mejoramiento_de_la_plataforma_intranet_del_isl_1.0-1732049046.pdf
[2025-05-06 02:34:43] [Fase 2] Procesando (5802363-0747DJXG): Servicio de Análisis, Desarrollo y Migración de Aplicaciones propias del CASR
[2025-05-06 02:34:44]   Adjunto de 5802363-4148ADZU: cm_metodolog_a_itil_1.1_3_19-11-1732049373.pdf
[2025-05-06 02:34:44] Licitación 544 procesada: 5802363-7566WIJP
[2025-05-06 02:34:44]   Adjunto de 5802363-0747DJXG: cm_2234531_desarrollo_aplicaciones_03.-1732042883.docx
[2025-05-06 02:34:45] [Fase 2] Procesando (5802363-5440CQAB): SERVICIO DE CONSULTORÍA PARA EL APOYO AL DESARROLLO DE SISTEMAS DE LA SUBSECRETARÍA DE MINERÍA
[2025-05-06 02:34:47] [Fase 2] Procesando (5802363-2636NPWY): Adquisicion de levantamiento y automatizacion proceso gestion solicitudes
[2025-05-06 02:34:47]   Adjunto de 5802363-54



[2025-05-06 02:36:58]   Adjunto de 5802363-9200IEVA: compra_aws-1730213244.pdf
[2025-05-06 02:36:58]   Adjunto de 5802363-6078QLDD: sc_342_final-1730213407.pdf
[2025-05-06 02:36:59] [Fase 2] Procesando (5802363-0132DUUE): solo prueba (no ofertar)
[2025-05-06 02:36:59]   Adjunto de 5802363-7328CPDK: resolucion_n_9553_del_15-11-2024_aprueba_intencion_de_compra_postulacion_en_linea_bilingue_fase_ii-1731699811.pdf
[2025-05-06 02:36:59]   Adjunto de 5802363-5699FKKT: formularios.-1730298201.docx
[2025-05-06 02:37:00]   Adjunto de 5802363-0132DUUE: prueba_de_docto_regulado_v3-1730160777.pdf
[2025-05-06 02:37:00]   Adjunto de 5802363-0132DUUE: prueba_de_docto_regulado_v2-1730160777.pdf
[2025-05-06 02:37:01]   Adjunto de 5802363-0132DUUE: prueba_de_docto_regulado_v1-1730160777.pdf
[2025-05-06 02:37:01]   Adjunto de 5802363-5699FKKT: resoluci_n_n_2122_-_aprueba_intenci_n_de_compra-1730298201.pdf[2025-05-06 02:37:01] [Fase 2] Procesando (5802363-3209MGGS): DISEÑO, DESARROLLO, IMPLEMENTACION , MA



[2025-05-06 02:40:10]   Adjunto de 5802363-1469YTIE: cm_2234535_-_migraci_n_de_correos.-1728591420.docx




[2025-05-06 02:40:10] [Fase 2] Procesando (5802363-2944OXPY): Proyecto de UI/UX y diseño web del Sistema Nacional de Inversiones
[2025-05-06 02:40:10] Licitación 689 procesada: 5802363-5331BIEC
[2025-05-06 02:40:10]   Adjunto de 5802363-3240MYTV: solicitud_cotizacion_cm_consultoria_trellix-paloalto-azure.-1728588400.docx
[2025-05-06 02:40:11] [Fase 2] Procesando (5802363-6719JFLN): SERVICIO DE PROOF OF CONCEPT (POC O PRUEBA DE CONCEPTO) PARA AWS (AMAZON) SHIELD ADVANCED, PARA EVALUAR RENDIMIENTO Y FUNCIONALIDAD ASOCIADO AL CONTRATO CORRESPONDIENTE A LICITACIÓN PÚBLICA ID 1170507-12-LR23
[2025-05-06 02:40:11]   Adjunto de 5802363-0728ZUIR: programas_de_integridad_y_cumplimiento.-1728591267.docx
[2025-05-06 02:40:11]   Adjunto de 5802363-0728ZUIR: requerimiento_p_gina_web_de_co-inventa_laben.-1728591268.docx
[2025-05-06 02:40:11] [Fase 2] Procesando (5802363-8727XGFW): Servicio de Análisis, Desarrollo y Migración de Aplicaciones propias del CASR
[2025-05-06 02:40:12] Licitación 690 proce



[2025-05-06 02:40:51]   Adjunto de 5802363-4574KQDL: formulario_de_cotizaci_n.docx




[2025-05-06 02:40:52] Licitación 708 procesada: 5802363-3200TCGI
[2025-05-06 02:40:52] [Fase 2] Procesando (5802363-3916ILWB): Migración de componentes dentro de la aplicación Sistema de Administración de Giros (SAG)
[2025-05-06 02:40:52]   Adjunto de 5802363-8244EDGB: anexo_10.docx
[2025-05-06 02:40:52]   Adjunto de 5802363-4738EPHE: anexo_8.docx
[2025-05-06 02:40:53]   Adjunto de 5802363-4738EPHE: solicitud_de_cotizaci_n_c_lula_aplicaciones_que_complementen_iva.pdf
[2025-05-06 02:40:53]   Adjunto de 5802363-8244EDGB: solicitud_de_cotizaci_n_c_lula_migraci_n_aplicaciones_sifm.pdf
[2025-05-06 02:40:53]   Adjunto de 5802363-3916ILWB: anexo_6.docx
[2025-05-06 02:40:54]   Adjunto de 5802363-3916ILWB: sistema_de_administraci_n_de_giros_sag_.pdf
[2025-05-06 02:40:55] Licitación 709 procesada: 5802363-7184BFJV
[2025-05-06 02:40:56] [Fase 2] Procesando (5802363-8411WRDN): Servicio de mantención de software y soporte a plataforma GIS de la DTPR
[2025-05-06 02:40:57] [Fase 2] Procesando (580236



[2025-05-06 02:40:57] [Fase 2] Procesando (5802363-2042KWWS): Migración de componentes backend para los procesos de Operación IVA.




[2025-05-06 02:40:58]   Adjunto de 5802363-5240ONNL: cm_servicios_profesionales_qa_v2.pdf
[2025-05-06 02:40:58]   Adjunto de 5802363-2042KWWS: anexo_4.docx




[2025-05-06 02:40:58] Licitación 710 procesada: 5802363-3453HPGG
[2025-05-06 02:40:58]   Adjunto de 5802363-2042KWWS: c_lula_desarrollo_migraci_n_iva.pdf




[2025-05-06 02:40:58] [Fase 2] Procesando (5802363-0810QOPE): Mantenciones sobre las aplicaciones que soportan la Operación IVA mediante la integración con procesos BigData.
[2025-05-06 02:40:59]   Adjunto de 5802363-8411WRDN: dtpr_anex_gis.docx
[2025-05-06 02:40:59] [Fase 2] Procesando (5802363-5389MNFA): Servicio de cloud computing mediante créditos Azure de Microsoft para la Universidad de Talca
[2025-05-06 02:40:59]   Adjunto de 5802363-8411WRDN: solicitud_de_cotizaci_n._servicio_mantenci_n_gis_2.pdf
[2025-05-06 02:41:00]   Adjunto de 5802363-0810QOPE: anexo_2.docx
[2025-05-06 02:41:01]   Adjunto de 5802363-5389MNFA: 20-31016_cotizacion_id_2234535.pdf
[2025-05-06 02:41:01]   Adjunto de 5802363-0810QOPE: operaci_n_iva_mediante_operaci_n_bigdata.pdf
[2025-05-06 02:41:02] [Fase 2] Procesando (5802363-7475QUHH): APP aplicación de actividad física y cognitiva Adultos mayores
[2025-05-06 02:41:02] [Fase 2] Procesando (5802363-6228ALMH): Servicios de valor agregado para la administración 



[2025-05-06 02:42:59] [Fase 2] Procesando (5802363-5894NBFS): Mejoramiento de experiencia usuario e interfaz usuario de Plataforma de Interoperabilidad
[2025-05-06 02:43:00] [Fase 2] Procesando (5802363-3679CYCO): Proyecto de diseño UI/UX y diseño web para el nuevo Portal Único del Beneficiario (PUB)




[2025-05-06 02:43:00] Licitación 754 procesada: 5802363-5626XWRO
[2025-05-06 02:43:00]   Adjunto de 5802363-9876MJQU: cm_proyecto_de_consultoria_de_metodologia_pmi..pdf
[2025-05-06 02:43:01]   Adjunto de 5802363-3679CYCO: form_cotizacion_cm_ui-ux_nuevo_sgp_beneficiariov1.4_09.09.24.docx
[2025-05-06 02:43:01] [Fase 2] Procesando (5802363-0204LVYP): Proyecto de Optimización y Modernización del sistema de Registro y Evaluación Unificada de Facilitadores (REUF)
[2025-05-06 02:43:02] [Fase 2] Procesando (5802363-4170VVPX): Servicio Mantención para Distribución de Planillas y Constitución de Deudas
[2025-05-06 02:43:02] Licitación 755 procesada: 5802363-9043XEYL
[2025-05-06 02:43:03] [Fase 2] Procesando (5802363-4800LVKW): OPTIMIZACION PLATAFORMA DE PUNTOS DE CULTURA MINCAP
[2025-05-06 02:43:03]   Adjunto de 5802363-0204LVYP: anexo_n_1_antecedentes_equipo_de_trabajo_cv_9_.docx
[2025-05-06 02:43:03]   Adjunto de 5802363-4170VVPX: anexo_n_1_requisitos_m_nimos_de_la_oferta_3.docx
[2025-05-06 02



[2025-05-06 02:44:34]   Adjunto de 5802363-6685SDZM: solicitud_de_adquisici_n_cm_litio_2_4.pdf
[2025-05-06 02:44:34]   Adjunto de 5802363-1557FCQO: solicitud_de_adquisici_n_cm_litio_2_2.pdf
[2025-05-06 02:44:34] [Fase 2] Procesando (5802363-2417FPPH): Programadores para desarrollo de aplicaciones informáticas Onsite
[2025-05-06 02:44:35] [Fase 2] Procesando (5802363-6124ZLTO): SERVICIO DE GENERACIÓN DE CONTENIDOS COMUNICACIONALES – 12 MESES
[2025-05-06 02:44:35] Licitación 803 procesada: 5802363-6665ZFGF
[2025-05-06 02:44:36] [Fase 2] Procesando (5802363-4315ZZOH): SERVICIO DE VIRTUALIZACIÓN DE UN CURSO TEMÁTICO Y UNA CÁPSULA AUDIOVISUAL TEMÁTICA 2024 (ciclo 3)
[2025-05-06 02:44:36] [Fase 2] Procesando (5802363-9239ULHZ): SERVICIO DE VIRTUALIZACIÓN DE DOS CURSOS TEMÁTICOS 2024 (ciclo 2)
[2025-05-06 02:44:37] Licitación 804 procesada: 5802363-8362MQZC
[2025-05-06 02:44:37] Licitación 805 procesada: 5802363-6029KOJJ
[2025-05-06 02:44:37] Licitación 806 procesada: 5802363-3808TTED
[2025-0



[2025-05-06 02:44:40] [Fase 2] Procesando (5802363-9426PDEQ): solo prueba (no ofertar)
[2025-05-06 02:44:40] Licitación 809 procesada: 5802363-6315CIHW
[2025-05-06 02:44:40]   Adjunto de 5802363-2692UBJG: pdf_de_prueba_-_propuesta_adicional_8.pdf
[2025-05-06 02:44:41] [Fase 2] Procesando (5802363-4346LSIX): solo prueba (no ofertar)
[2025-05-06 02:44:41] [Fase 2] Procesando (5802363-9785QBCC): Cotización de prueba - No ofertar
[2025-05-06 02:44:41] Licitación 810 procesada: 5802363-8801ZOSA
[2025-05-06 02:44:41] [Fase 2] Procesando (5802363-2740ESGY): solo prueba (no ofertar)
[2025-05-06 02:44:42] [Fase 2] Procesando (5802363-3095BFOK): solo prueba (no ofertar)
[2025-05-06 02:44:42]   Adjunto de 5802363-9785QBCC: prueba_5.pdf
[2025-05-06 02:44:42] [Fase 2] Procesando (5802363-8453XZLO): solo prueba (no ofertar)
[2025-05-06 02:44:42] Licitación 811 procesada: 5802363-8223YLHK
[2025-05-06 02:44:42]   Adjunto de 5802363-2740ESGY: pdf_de_prueba_-_criterio_1_12.pdf
[2025-05-06 02:44:43]   Ad

In [None]:
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://downloads.apache.org/spark/spark-3.5.5/spark-3.5.5-bin-hadoop3.tgz
!tar xf spark-3.5.5-bin-hadoop3.tgz
!pip install -q findspark
!pip install pyarrow==15.0.2

Collecting pyarrow==15.0.2
  Downloading pyarrow-15.0.2-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (3.0 kB)
Collecting numpy<2,>=1.16.6 (from pyarrow==15.0.2)
  Downloading numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (61 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.0/61.0 kB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pyarrow-15.0.2-cp311-cp311-manylinux_2_28_x86_64.whl (38.3 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m38.3/38.3 MB[0m [31m18.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading numpy-1.26.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (18.3 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m18.3/18.3 MB[0m [31m85.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: numpy, pyarrow
  Attempting uninstall: numpy
    Found existing installation: numpy 2.0.2
    Uninstalling numpy-2.0.2:
      Successfully uninstalled numpy-2

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import explode
from pyspark.sql.functions import to_date

PATH = '/content/drive/MyDrive/Diplomado/WhitePaper/archivos/'
# 1. Crear la SparkSession
spark = SparkSession.builder \
    .appName("LicitacionesScraping") \
    .getOrCreate()

# 2. Leer el JSON
#df = spark.read.option("multiline",True).json(PATH + "procesados.json")

#df.write.mode("overwrite").parquet(PATH + "datos_parquet/")
df = spark.read.parquet()

# 3. Explorar la estructura
df.printSchema()

# 4. Aplanar los adjuntos para que cada fila sea un archivoPATH + "datos_parquet/"
df_flat = df.select(
    "id", "publicacion_inicio", "descripcion", "organismo",
    explode("adjuntos").alias("adjunto")
).select(
    "id", "publicacion_inicio", "descripcion", "organismo",
    "adjunto.nombre", "adjunto.url", "adjunto.texto"
)

# Convertir columna string a fecha real
df_flat = df_flat.withColumn(
    "fecha_publicacion", to_date("publicacion_inicio", "dd-MM-yyyy")
)

# 5. Crear vista SQL
df_flat.createOrReplaceTempView("archivos")

# 6. Consulta SQL
resultados = spark.sql("""
    SELECT id, fecha_publicacion, nombre, LENGTH(texto) AS largo_texto
    FROM archivos
    WHERE texto IS NOT NULL AND texto LIKE '%documental%'
ORDER BY fecha_publicacion Desc
""")

resultados.show(truncate=False)

resultados = spark.sql("""
    SELECT id, fecha_publicacion, nombre, LENGTH(texto) AS largo_texto, texto
    FROM archivos
    WHERE texto IS NOT NULL AND texto LIKE '%documental%'
ORDER BY fecha_publicacion Desc
""")

root
 |-- adjuntos: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- nombre: string (nullable = true)
 |    |    |-- texto: string (nullable = true)
 |    |    |-- url: string (nullable = true)
 |-- descripcion: string (nullable = true)
 |-- estado: string (nullable = true)
 |-- evaluacion_fin: string (nullable = true)
 |-- evaluacion_inicio: string (nullable = true)
 |-- id: string (nullable = true)
 |-- ofertas: string (nullable = true)
 |-- organismo: string (nullable = true)
 |-- publicacion_fin: string (nullable = true)
 |-- publicacion_inicio: string (nullable = true)
 |-- url_detalle: string (nullable = true)

+----------------+-----------------+-----------------------------------------------------------------------------------------------+-----------+
|id              |fecha_publicacion|nombre                                                                                         |largo_texto|
+----------------+-----------------+-----------

In [None]:
!pip install openai
!pip install tiktoken

Collecting tiktoken
  Downloading tiktoken-0.9.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.7 kB)
Downloading tiktoken-0.9.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.2/1.2 MB[0m [31m12.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: tiktoken
Successfully installed tiktoken-0.9.0


Ejemplo de resumenes

In [None]:
import openai
import tiktoken
import textwrap
import re

PATH = "/content/drive/MyDrive/Diplomado/WhitePaper/archivos/"
with open(PATH + "/openai_key.txt") as f:
    openai.api_key = f.read().strip()

client = openai.OpenAI(api_key=openai.api_key)

def limpiar_formato_markdown(texto):
    # Elimina negritas en formato **texto**
    texto = re.sub(r'\*\*(.*?)\*\*', r'\1', texto)
    # Elimina negritas/cursivas en formato __texto__
    texto = re.sub(r'__(.*?)__', r'\1', texto)
    # Elimina cursivas en formato *texto*
    texto = re.sub(r'\*(.*?)\*', r'\1', texto)
    # Elimina cursivas en formato _texto_
    texto = re.sub(r'_(.*?)_', r'\1', texto)
    return texto

def resumir_con_openai(texto, modelo="gpt-4o", max_tokens=500):
    prompt = f"Resume brevemente el siguiente texto, destacando los puntos principales. Utiliza texto plano, sin emojis ni formato markdown:\n\n{texto}"
    chat_models = {"gpt-4o", "gpt-4", "gpt-4-turbo", "gpt-3.5-turbo", "gpt-4o-mini"}

    try:
        if modelo in chat_models:
            response = client.chat.completions.create(
                model=modelo,
                messages=[
                    {"role": "system", "content": "Eres un asistente experto en licitaciones públicas."},
                    {"role": "user", "content": prompt}
                ],
                temperature=0.3,
                max_tokens=max_tokens
            )
            return response.choices[0].message.content.strip()
        else:
            print("PROMPT: ",prompt[:500])
            response = client.chat.completions.create(
                model=modelo,
                messages=[
                    {"role": "system", "content": "Eres un asistente experto en licitaciones públicas."},
                    {"role": "user", "content": prompt}
                ],
                #temperature=0.3,
                max_completion_tokens=max_tokens,
                reasoning_effort="medium",
                response_format={"type": "text"},
                store=False
            )
            return response.choices[0].message

    except openai.APIError as e:
        return f"[API ERROR] {str(e)}"
    except Exception as e:
        return f"[ERROR] {str(e)}"

In [None]:
!pip show openai

Name: openai
Version: 1.76.2
Summary: The official Python library for the openai API
Home-page: https://github.com/openai/openai-python
Author: 
Author-email: OpenAI <support@openai.com>
License: Apache-2.0
Location: /usr/local/lib/python3.11/dist-packages
Requires: anyio, distro, httpx, jiter, pydantic, sniffio, tqdm, typing-extensions
Required-by: 


In [None]:
print("::::: MODELO GPT-4o :::::")
resultados_local = resultados.select("id", "nombre", "texto").limit(3).collect()

for fila in resultados_local:
    texto = fila["texto"]
    resumen = resumir_con_openai(texto, modelo="gpt-4o")
    print("*"*20)
    lineas = resumen.splitlines()
    resumen_pretty = "\n".join(textwrap.fill(linea, width=160) for linea in lineas if linea.strip() != "")
    resumen_pretty = limpiar_formato_markdown(resumen_pretty)
    my_string = f"{fila['id']} - {fila['nombre']}\nResumen: {resumen_pretty}\n"
    #wrapped_string = textwrap.fill(my_string, width=160)
    print(my_string)

::::: MODELO GPT-4o :::::
********************
5802363-8861ZDOC - requerimiento_de_mantencion_2_sharepoint_05052025-1746473583.pdf
Resumen: La Dirección de Compras y Contratación Pública busca contratar servicios de mantención evolutiva para la plataforma SharePoint, asegurando su actualización y
funcionalidad. El proyecto requiere 600 horas anuales de servicio durante 12 meses, con un presupuesto máximo de $30.195.200. El proveedor debe designar un Jefe
de Proyecto para coordinar con la DCCP. Las ofertas deben cumplir con requisitos técnicos mínimos, incluyendo experiencia en SharePoint e integraciones, y
contar con un equipo de trabajo calificado. La evaluación de ofertas será técnica y económica, y se aplicarán multas por incumplimientos. La contratación se
regirá por un acuerdo complementario, con pagos mensuales tras la entrega de informes de servicios. Se requiere una garantía de fiel cumplimiento del 5% del
monto total del acuerdo.

********************
5802363-3680ESMW - formul

In [None]:
print("::::: MODELO gpt-4o-mini")
resultados_local = resultados.select("id", "nombre", "texto").limit(3).collect()

for fila in resultados_local:
    texto = fila["texto"]
    resumen = resumir_con_openai(texto, modelo="gpt-4o-mini")
    print("*"*20)
    lineas = resumen.splitlines()
    resumen_pretty = "\n".join(textwrap.fill(linea, width=160) for linea in lineas if linea.strip() != "")
    resumen_pretty = limpiar_formato_markdown(resumen_pretty)
    my_string = f"{fila['id']} - {fila['nombre']}\nResumen: {resumen_pretty}\n"
    #wrapped_string = textwrap.fill(my_string, width=160)
    print(my_string)

::::: MODELO gpt-4o-mini
********************
5802363-8861ZDOC - requerimiento_de_mantencion_2_sharepoint_05052025-1746473583.pdf
Resumen: Se requiere la contratación de servicios de mantención evolutiva para la plataforma SharePoint, mediante un convenio marco, con un presupuesto máximo de
$30.195.200. El objetivo es asegurar que la plataforma esté actualizada y operativa, apoyando la transformación digital y la mejora continua de los procesos
internos de la Dirección de Compras y Contratación Pública (DCCP). Se necesitan 600 horas anuales de soporte especializado durante un contrato de 12 meses.
El proveedor deberá designar un Jefe de Proyecto que actuará como interlocutor con la DCCP y será responsable de coordinar actividades y resolver incidentes. Se
establecen plazos específicos para la presentación de cotizaciones, consultas y la apertura de ofertas. Las ofertas se evaluarán en dos etapas: técnica y
económica, siendo necesarias ciertas calificaciones mínimas en experiencia y equ

¿Cuál sería el costo aproximado de generar los resumenes de todos los documentos?

In [None]:
from pyspark.sql.functions import col, length, sum as sum_, count

# 1. Leer el archivo parquet
df = spark.read.parquet(PATH + "datos_parquet/")
df_flat = df.select(
    "id", "publicacion_inicio", "descripcion", "organismo",
    explode("adjuntos").alias("adjunto")
).select(
    "id", "publicacion_inicio", "descripcion", "organismo",
    "adjunto.nombre", "adjunto.url", "adjunto.texto"
)
# 2. Filtrar registros que tienen texto no nulo
df_validos = df_flat.filter(col("texto").isNotNull())

# 3. Calcular suma total de caracteres y cantidad de textos
resumen = df_validos.select(
    sum_(length(col("texto"))).alias("total_caracteres"),
    count("*").alias("total_documentos")
).collect()[0]

total_chars = resumen["total_caracteres"]
total_docs = resumen["total_documentos"]

print(f"Total documentos con texto: {total_docs}")
print(f"Total caracteres: {total_chars:,}")


Total documentos con texto: 1737
Total caracteres: 32,984,797


In [None]:
# Conversión estimada: 4 caracteres ≈ 1 token
total_tokens_est = total_chars / 4

# Costo por modelo (por 1000 tokens)
precios = {
    "gpt-4o": 0.005,
    "gpt-4": 0.01,
    "gpt-4o-mini": 0.0005
}

print("\nEstimación de tokens:", int(total_tokens_est))

for modelo, precio in precios.items():
    costo = (total_tokens_est / 1000) * precio
    print(f"→ Modelo {modelo.ljust(12)}: US${costo:.2f}")



Estimación de tokens: 8246199
→ Modelo gpt-4o      : US$41.23
→ Modelo gpt-4       : US$82.46
→ Modelo gpt-4o-mini : US$4.12


In [None]:
from pyspark.sql.functions import col, explode, struct, collect_list, lit
import pandas as pd
import os

ARCHIVO_ORIGEN = PATH + "datos_parquet"
ARCHIVO_CACHE = PATH + "resumenes_incremental.parquet"
ARCHIVO_SALIDA = PATH + "datos_con_resumenes.parquet"
LOTE = 10
# Leer el original
df = spark.read.parquet(ARCHIVO_ORIGEN)

# Explodear los adjuntos
df_exploded = df.select("id", to_date("publicacion_inicio", "dd-MM-yyyy").alias("fecha_publicacion"), explode("adjuntos").alias("adjunto"))

# Seleccionar campos relevantes
df_min = df_exploded.select(
    "id",
    "fecha_publicacion",
    col("adjunto.nombre").alias("nombre"),
    col("adjunto.texto").alias("texto"),
    col("adjunto.url").alias("url")
).filter(col("texto").isNotNull()).orderBy(col("fecha_publicacion").desc())

# Cargar cache si existe
if os.path.exists(ARCHIVO_CACHE):
    df_cache = spark.read.parquet(ARCHIVO_CACHE).toPandas()
    procesados_set = set(zip(df_cache["id"], df_cache["fecha_publicacion"], df_cache["nombre"]))
else:
    df_cache = pd.DataFrame(columns=["id", "nombre", "texto", "url", "resumen"])
    procesados_set = set()

# Filtrar ya procesados
df_pendientes = df_min.filter(~(struct("id", "nombre").isin([struct(l[0], l[1]) for l in procesados_set])))

# Limitar lote
df_lote = df_pendientes.limit(3)

df_lote.show(truncate=False)

+----------------+-----------------+-------------------------------------------------------------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

In [None]:
# Convertir a Pandas para procesar
df_lote_pd = df_lote.toPandas()
# Si no hay más pendientes, detener
if df_lote_pd.empty:
    print("No quedan adjuntos pendientes por procesar.")
else:
    # Procesar lote

    def resumir_seguro(texto):
        try:
            return resumir_con_openai(texto, modelo="gpt-4o-mini")  # o gpt-4o
        except Exception as e:
            return f"[ERROR] {e}"

    df_lote_pd["resumen"] = df_lote_pd["texto"].apply(resumir_seguro)

    # Combinar con cache
    df_completo = pd.concat([df_cache, df_lote_pd], ignore_index=True).drop_duplicates(subset=["id", "nombre"])

    # Guardar cache actualizado
    df_completo_spark = spark.createDataFrame(df_completo)
    df_completo_spark.write.mode("overwrite").parquet(ARCHIVO_CACHE)

    print(f"Guardado: {len(df_lote_pd)} nuevos resúmenes. Total acumulado: {len(df_completo)}")

Guardado: 3 nuevos resúmenes. Total acumulado: 3


In [None]:
df_original = spark.read.parquet(ARCHIVO_ORIGEN)
df_resumenes = spark.read.parquet(ARCHIVO_CACHE)

# Crear struct con resumen incluido
df_resumen_struct = df_resumenes.select(
    "id",
    struct(
        col("nombre"),
        col("url"),
        col("texto"),
        col("resumen")
    ).alias("adjunto_completo")
)

# Agrupar por id → reconstruir array de adjuntos
df_agrupado = df_resumen_struct.groupBy("id").agg(
    collect_list("adjunto_completo").alias("adjuntos")
)

# Unir con el resto de los datos originales
df_sin_adjuntos = df_original.drop("adjuntos")
df_final = df_sin_adjuntos.join(df_agrupado, on="id", how="left")

# Guardar archivo completo final
df_final.write.mode("overwrite").parquet(ARCHIVO_SALIDA)
print(f"Archivo enriquecido guardado como: {ARCHIVO_SALIDA}")


Archivo enriquecido guardado como: /content/drive/MyDrive/Diplomado/WhitePaper/archivos/datos_con_resumenes.parquet


In [5]:
from pyspark.sql.functions import col, explode, struct, collect_list, lit, to_date
from pyspark.sql import SparkSession
import pandas as pd
import os

PATH = "/content/drive/MyDrive/Diplomado/WhitePaper/archivos/"
ARCHIVO_SALIDA = PATH + "datos_con_resumenes.parquet"

spark = SparkSession.builder \
    .appName("LicitacionesScraping") \
    .getOrCreate()

df = spark.read.parquet(ARCHIVO_SALIDA)
print(df.count())

# Explodear los adjuntos
df_exploded = df.select("id", to_date("publicacion_inicio", "dd-MM-yyyy").alias("fecha_publicacion"), explode("adjuntos").alias("adjunto"))

# Seleccionar campos relevantes
df_min = df_exploded.select(
    "id",
    "fecha_publicacion",
    col("adjunto.nombre").alias("nombre"),
    #col("adjunto.texto").alias("texto"),
    col("adjunto.url").alias("url"),
    col("adjunto.resumen").alias("resumen")
).orderBy(col("fecha_publicacion").desc())

# Limitar lote
df_lote = df_min.limit(5)

df_lote.show(truncate=False)

1130
+----------------+-----------------+-------------------------------------------------------------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------