In [7]:
import requests
from requests.adapters import HTTPAdapter
from requests.packages.urllib3.util.ssl_ import create_urllib3_context
import urllib3
from bs4 import BeautifulSoup
import pandas as pd
import datetime as dt
import os
import argparse
import re
import sys

In [8]:
REINTENTOS = 20
TIMEOUT = 30
BASE_URL = "https://www.sicoes.gob.bo/portal"
SICOES_CIPHERS = "AES256-SHA"

In [9]:
def iniciarSesion(conexion: requests.sessions.Session, headers: dict, data: dict):
    """Una consulta para comenzar o reiniciar el intercambio con SICOES"""
    respuesta = conexion.get(
        BASE_URL + "/contrataciones/busqueda/convocatorias.php?tipo=convNacional",
        headers=headers,
        timeout=TIMEOUT,
        verify=False,
    )
    return mantenerSesion(data, respuesta)


def mantenerSesion(data: dict, response: requests.models.Response):
    """Actualiza los parámetros que mantienen una sesión"""
    parametros_sesion = ["B903A6B7", "varSesionCli"]

    html = BeautifulSoup(response.text, "html.parser")

    for parametro in parametros_sesion:
        valor = html.select(f"input[name={parametro}]")
        if len(valor) > 0:
            data[parametro] = valor[0]["value"]

    return data

In [16]:
def iniciarDescarga():
    """
    Pasos antes de descargar datos de convocatorias:
    - Crea una conexión para reutilizar en cada consulta.
    - Define un estado inicial para headers y datos de consulta.
    - Define el día de consulta desde el argumento --dia o , por defecto, el día de ayer.
    Retorna estos valores para futuras consultas y procesos.
    """

    class adaptadorSicoes(HTTPAdapter):
        """
        Un adaptador para realizar consultas con el cipher anticuado que utiliza SICOES.
        """

        def __init__(self, *args, **kwargs):
            self.ssl_context = create_urllib3_context(ciphers=SICOES_CIPHERS)
            self.ssl_context.check_hostname = False
            super().__init__(*args, **kwargs)

        def _add_ssl_context(self, *args, **kwargs):
            kwargs["ssl_context"] = self.ssl_context
            return super().init_poolmanager(*args, **kwargs)

        init_poolmanager = _add_ssl_context
        proxy_manager_for = _add_ssl_context

    def dataInicial():
        """
        Valores iniciales para datos de consulta.
        """

        return {
            "entidad": "",
            "codigoDpto": "",
            "cuce1": "",
            "cuce2": "",
            "cuce3": "",
            "cuce4": "",
            "cuce5": "",
            "cuce6": "",
            "objetoContrato": "",
            "codigoModalidad": "",
            "r1": "",
            "codigoContrato": "",
            "nroContrato": "",
            "codigoNormativa": "",
            "montoDesde": "",
            "montoHasta": "",
            "publicacionDesde": "",
            "publicacionHasta": "",
            "presentacionPropuestasDesde": "",
            "presentacionPropuestasHasta": "",
            "desiertaDesde": "",
            "desiertaHasta": "",
            "subasta": "",
            "personaContDespliegue": "on",
            "nomtoGarDespliegue": "option2",
            "costoPlieDespliegue": "option3",
            "arpcDespliegue": "option3",
            "fechaReunionDespliegue": "option1",
            "fechaAdjudicacionDespliegue": "option2",
            "dptoDespliegue": "option3",
            "normativaDespliegue": "option3",
            "tipo": "Avanzada",
            "operacion": "convNacional",
            "autocorrector": "",
            "nroRegistros": "10",
            "draw": "1",
            "start": "0",
            "length": "10",
            "captcha": "",
        }

    def headersIniciales():
        """Valores iniciales para headers de consulta."""
        return {
            "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko)",
            "Referer": "https://www.sicoes.gob.bo/portal/index.php",
        }

    def diaConsulta(data):
        """
        Define el día de consulta desde el argumento --dia o, por defecto, el día de ayer.
        """

        parametros_fecha = ["publicacionDesde", "publicacionHasta"]

        # parser = argparse.ArgumentParser()
        # parser.add_argument(
        #     "--dia", required=False, type=str, help="Fecha de Publicación"
        # )
        # args = parser.parse_args()

        # if args.dia:
        #     dia = dt.datetime.strptime(args.dia, "%Y-%m-%d")
        # else:
        dia = dt.datetime.now() - dt.timedelta(days=1)

        for parametro in parametros_fecha:
            data[parametro] = dia.strftime("%d/%m/%Y")

        print(f"Convocatorias para el {dia.strftime("%Y-%m-%d")}")

        return dia, data

    # Utiliza el adaptador de SICOES en todas las consultas de red
    # y deshabilita advertencias para hacer consultas no cifradas.
    conexion = requests.Session()
    conexion.mount("http://", adaptadorSicoes(max_retries=REINTENTOS))
    conexion.mount("https://", adaptadorSicoes(max_retries=REINTENTOS))
    urllib3.disable_warnings()

    # Inicializa headers y datos de consulta.
    headers = headersIniciales()
    data = dataInicial()

    # Inicializa la sesión en SICOES.
    data = iniciarSesion(conexion, headers, data)

    # Define el día de consulta.
    dia, data = diaConsulta(data)

    # Retorna estos valores para futuras consultas y procesos.
    return conexion, headers, data, dia

In [24]:
def descargarConvocatorias(
    conexion: requests.sessions.Session, headers: dict, data: dict
):
    """
    Intenta descargar los registros de una página de convocatorias.
    Si la descarga es exitosa,
    - actualiza parámetros para mantener la sesión,
    - organiza las convocatorias en una lista de diccionarios
    - y las agrega a una lista final.
    Si una respuesta incluye menos de 10 convocatorias, ordena detener futuras descargas.
    Si una respuesta indica explícitamente "error", reinicia la sesión con SICOES y vuelve a intentar.
    Si una respuesta está vacía o malformada, indicando un error serio en cómo SICOES almacena y comunica
    estos registros, evita esa página y salta a la siguiente.
    Si una respuesta presenta otro tipo de error, aborta el programa para ser inspeccionado manualmente.
    """

    def leerCampo(campo: str, encoding: str = "iso-8859-1"):
        if campo and len(re.findall(r"(\%[0-9A-F][0-9A-F]*)", campo)) > 3:
            return bytes.fromhex(campo.replace("%", "")).decode(encoding)
        else:
            return campo

    def leerConvocatorias(respuesta_json: dict, encoding: str = "iso-8859-1"):
        return [
            {campo: leerCampo(item[campo], encoding) for campo in item.keys()}
            for item in respuesta_json["data"]
        ]

    detener = False
    try:
        respuesta = conexion.post(
            BASE_URL + "/contrataciones/operacion.php",
            headers=headers,
            data=data,
            timeout=TIMEOUT,
            verify=False,
        )
        respuesta_json = respuesta.json()
        if "error" in respuesta_json.keys():
            data = iniciarSesion(conexion, headers, data)
        else:
            data = mantenerSesion(data, respuesta)
            convocatorias_pagina = leerConvocatorias(respuesta_json)
            convocatorias.extend(convocatorias_pagina)
            print(f"{len(convocatorias)}/{respuesta_json["recordsTotal"]}")
            if len(convocatorias_pagina) < 10:
                detener = True
            else:
                data["draw"] = str(int(data["draw"]) + 1)
        return data, detener
    except requests.exceptions.JSONDecodeError:
        print(
            f"Error: una respuesta vacía o malformada. Saltando la página {data["draw"]}."
        )
        data["draw"] = str(int(data["draw"]) + 1)
        return data, detener
    except Exception as e:
        print(f"Error: {e}. Deteniendo el programa.")
        sys.exit(1)

In [26]:
convocatorias = []

In [27]:
while True:
    data, detener = descargarConvocatorias(conexion, headers, data)
    if detener:
        break

10/271
20/271
30/271
40/271
50/271
60/271
70/271
80/271
90/271
100/271
110/271
120/271
130/271
140/271


KeyboardInterrupt: 

In [21]:
respuesta = conexion.post(
    BASE_URL + "/contrataciones/operacion.php",
    headers=headers,
    data=data,
    timeout=TIMEOUT,
    verify=False,
)

In [22]:
respuesta_json = respuesta.json()

In [23]:
respuesta_json

{'recordsTotal': 271,
 'recordsFiltered': 271,
 'draw': 0,
 'data': [{'ogaYxiYc': '24-1414-00-1464554-1-1',
   'IKDaVFhi': 'Gobierno Autonomo Municipal De Corque',
   '963ZcMz6': 'Consultoria',
   'B4pJfQFa': 'LP',
   'SgHBdokj': '" Auditoría Externa Financiera Del Proyecto:” Equipamiento Con Maquinaria Para La Construcción De Vigiñas Para Consumo Animal En El Municipio De Corque” Financiado Por El Fondo De Desarrollo Indígena (Fdi) Y El Gobierno Autónomo Municipal De Corque"',
   'hBi5hvHo': 'No',
   'zchNAV1E': '05/08/2024',
   'ldooyrC1': '26/08/2024',
   'blMSnjpe': 'Vigente',
   'HT2CrOyL': '<a href="javascript:void(0);" onClick="openWindownx1(\'oXGAiIKVmImHY5SmpJmCZZuTaZNgqJl3nI6od36Hf5TDnZGTlKKpnH5sl5trlmirmHKWveKmyQ==\');">Documento Base de Contratacion</a><br><a href="javascript:void(0);" onClick="openWindownx1(\'oXGAiIKVmImHY5SmpJmCZZuTaZNgqJl3nI6od36Hf5TDnK5mkqSrmIZknJhsmGipnG/MyNa7\');">Convocatoria</a><br>',
   'wj9WpZda': '%3C%61%20%68%72%65%66%3D%22%6A%61%76%61%73%63%72%