In [1]:
pip install requests beautifulsoup4



## Fuente de datos identificada: Página web del SRI

Se ha identificado la siguiente página web del SRI para la consulta de RUC:

[https://srienlinea.sri.gob.ec/sri-en-linea/SriRucWeb/ConsultaRuc/Consultas/consultaRuc](https://srienlinea.sri.gob.ec/sri-en-linea/SriRucWeb/ConsultaRuc/Consultas/consultaRuc)

Sin embargo, se usa la dirección:
https://srienlinea.sri.gob.ec/sri-catastro-sujeto-servicio-internet/rest/ConsolidadoContribuyente/obtenerPorNumerosRuc?&ruc=numero


In [4]:
import requests

def consultar_ruc_sri(ruc):
    """
    Consulta la información de un RUC en el SRI.

    Args:
        ruc (str): El número de RUC a consultar.

    Returns:
        dict or None: Un diccionario con la información del RUC si la consulta es exitosa y
                      la respuesta es JSON válido, de lo contrario, None.
    """
    url = f"https://srienlinea.sri.gob.ec/sri-catastro-sujeto-servicio-internet/rest/ConsolidadoContribuyente/obtenerPorNumerosRuc?&ruc={ruc}"
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }

    try:
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()  # Lanza una excepción para códigos de estado de error (4xx o 5xx)

        # Intenta parsear la respuesta como JSON
        try:
            data = response.json()
            return data
        except requests.exceptions.JSONDecodeError:
            print("La respuesta no es un JSON válido.")
            print(response.text)
            return None

    except requests.exceptions.RequestException as e:
        print(f"Error al realizar la petición: {e}")
        return None

if __name__ == '__main__':
    # Ejemplo de uso de la función:
    ruc_ingresado = str(input("Ingrese un RUC: "))
    informacion_ruc = consultar_ruc_sri(ruc_ingresado)

    if informacion_ruc:
        print("Información del RUC:")
        print(informacion_ruc)
    else:
        print("No se pudo obtener información para el RUC proporcionado.")

Ingrese un RUC: 0990004196001
Información del RUC:
[{'numeroRuc': '0990004196001', 'razonSocial': 'CORPORACION EL ROSADO S.A.', 'estadoContribuyenteRuc': 'ACTIVO', 'actividadEconomicaPrincipal': 'VENTA AL POR MENOR DE GRAN VARIEDAD DE PRODUCTOS EN SUPERMERCADOS, ENTRE LOS QUE PREDOMINAN, LOS PRODUCTOS ALIMENTICIOS, LAS BEBIDAS O EL TABACO, COMO PRODUCTOS DE PRIMERA NECESIDAD Y VARIOS OTROS TIPOS DE PRODUCTOS, COMO PRENDAS DE VESTIR, MUEBLES, APARATOS, ARTÍCULOS DE FERRETERÍA, COSMÉTICOS, ETCÉTERA.', 'tipoContribuyente': 'SOCIEDAD', 'regimen': 'GENERAL', 'categoria': None, 'obligadoLlevarContabilidad': 'SI', 'agenteRetencion': 'SI', 'contribuyenteEspecial': 'SI', 'informacionFechasContribuyente': {'fechaInicioActividades': '1954-11-22 00:00:00.0', 'fechaCese': '', 'fechaReinicioActividades': '', 'fechaActualizacion': '2025-07-31 11:10:23.0'}, 'representantesLegales': [{'identificacion': '0910760701', 'nombre': 'CZARNINSKI SHEFI GAD'}], 'motivoCancelacionSuspension': None, 'contribuyente

## Fuente de datos identificada: Supercias

Se ha identificado la siguiente página web de la Superintendencia de Compañías para la consulta de RUC:
https://appscvsgen.supercias.gob.ec/consultaCompanias/societario/busquedaCompanias.jsf

In [5]:
pip install easyocr opencv-python

Collecting easyocr
  Downloading easyocr-1.7.2-py3-none-any.whl.metadata (10 kB)
Collecting python-bidi (from easyocr)
  Downloading python_bidi-0.6.6-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Collecting pyclipper (from easyocr)
  Downloading pyclipper-1.3.0.post6-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (9.0 kB)
Collecting ninja (from easyocr)
  Downloading ninja-1.11.1.4-py3-none-manylinux_2_12_x86_64.manylinux2010_x86_64.whl.metadata (5.0 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch->easyocr)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch->easyocr)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch->easyocr)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (

In [27]:
import requests
import easyocr
import cv2
import os

# Función para obtener el CAPTCHA y los datos
def obtener_informacion_compania(ruc):
    try:
        headers = {
            "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/132.0.0.0 Safari/537.36",
            "sec-ch-ua-platform": "\"Windows\"",
            "host": "appscvsgen.supercias.gob.ec"
        }

        # Iniciar sesión
        sesion = requests.Session()

        # Obtener el ViewState inicial
        _req = sesion.get("https://appscvsgen.supercias.gob.ec/consultaCompanias/societario/busquedaCompanias.jsf", headers=headers)
        html = _req.text
        print("Inicio")

        # Extraer el ViewState
        indiceView = html.find("j_id1:javax.faces.ViewState:0")
        if indiceView > -1:
            indexValueInicio = html.find("value=", indiceView)
            indexValueFin = html.find("\"", indexValueInicio + 7)
            view = html[indexValueInicio + 7:indexValueFin]
            view = view.replace(":", "%3A")

        dtSesion = sesion.cookies.get_dict()

        # Solicitar tipo de búsqueda
        print("Cambiar a búsqueda por RUC")
        headers = {
            "content-type": "application/x-www-form-urlencoded; charset=UTF-8",
            "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/132.0.0.0 Safari/537.36",
            "sec-ch-ua-platform": "\"Windows\"",
            "cookie": "JSESSIONID=" + dtSesion["JSESSIONID"],
            "referer": "https://appscvsgen.supercias.gob.ec/consultaCompanias/societario/busquedaCompanias.jsf"
        }

        payload = f"javax.faces.partial.ajax=true&javax.faces.source=frmBusquedaCompanias%3AtipoBusqueda&javax.faces.partial.execute=frmBusquedaCompanias%3AtipoBusqueda&javax.faces.partial.render=frmBusquedaCompanias%3AparametroBusqueda+frmBusquedaCompanias%3ApanelCompaniaSeleccionada+frmBusquedaCompanias%3ApanelCaptcha+frmBusquedaCompanias%3AbtnConsultarCompania&javax.faces.behavior.event=valueChange&javax.faces.partial.event=change&frmBusquedaCompanias%3AtipoBusqueda=2&javax.faces.ViewState={view}"
        _req = sesion.post("https://appscvsgen.supercias.gob.ec/consultaCompanias/societario/busquedaCompanias.jsf", data=payload, headers=headers)

        # Enviar la consulta con el RUC
        payload = f"javax.faces.partial.ajax=true&javax.faces.source=frmBusquedaCompanias%3AparametroBusqueda&javax.faces.partial.execute=frmBusquedaCompanias%3AparametroBusqueda&javax.faces.partial.render=frmBusquedaCompanias%3AparametroBusqueda&frmBusquedaCompanias%3AparametroBusqueda_query={ruc}&frmBusquedaCompanias=frmBusquedaCompanias&frmBusquedaCompanias%3AtipoBusqueda=2&frmBusquedaCompanias%3AparametroBusqueda_input={ruc}&frmBusquedaCompanias%3Abrowser=Chrome&frmBusquedaCompanias%3AaltoBrowser=372&frmBusquedaCompanias%3AanchoBrowser=1536&frmBusquedaCompanias%3AmenuDispositivoMovil=hidden&javax.faces.ViewState={view}"
        _req = sesion.post("https://appscvsgen.supercias.gob.ec/consultaCompanias/societario/busquedaCompanias.jsf", data=payload, headers=headers)
        html = _req.text

        # Obtener el nombre de la compañía
        indiceNombre = html.find("data-item-value=")
        id_nombre = ""
        if indiceNombre > -1:
            indexValueFin = html.find("\"", indiceNombre + 17)
            id_nombre = html[indiceNombre + 17:indexValueFin]
            id_nombre = id_nombre.replace(" ", "+")

        # Solicitar imagen del CAPTCHA
        payload = f"javax.faces.partial.ajax=true&javax.faces.source=frmBusquedaCompanias%3AparametroBusqueda&javax.faces.partial.execute=frmBusquedaCompanias%3AparametroBusqueda&javax.faces.partial.render=frmBusquedaCompanias%3AparametroBusqueda+frmBusquedaCompanias%3ApanelCompaniaSeleccionada+frmBusquedaCompanias%3ApanelCaptcha+frmBusquedaCompanias%3AbtnConsultarCompania&javax.faces.behavior.event=itemSelect&javax.faces.partial.event=itemSelect&frmBusquedaCompanias%3AparametroBusqueda_itemSelect={id_nombre}&frmBusquedaCompanias%3AparametroBusqueda_input={id_nombre}&javax.faces.ViewState={view}"
        _req = sesion.post("https://appscvsgen.supercias.gob.ec/consultaCompanias/societario/busquedaCompanias.jsf", data=payload, headers=headers)

        html = _req.text
        indicesrc = html.find("src=")
        if indicesrc > -1:
            indexValueFin = html.find("\"", indicesrc + 5)
            imgcaptcha = html[indicesrc + 5:indexValueFin]

            urlimge = "https://appscvsgen.supercias.gob.ec" + imgcaptcha
            print(urlimge)
            _reqimg = sesion.get(urlimge, headers=headers)

            # Guardar la imagen del CAPTCHA
            buffer = _reqimg.content
            rutaimg = "imgtemp.png"  # Guardar la imagen localmente

            with open(rutaimg, "wb") as f:
                f.write(buffer)

            if os.path.isfile(rutaimg):
                print("Procesando imagen del CAPTCHA")
                gray = cv2.imread(rutaimg, 0)
                thresholded = cv2.threshold(gray, 120, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]
                reader = easyocr.Reader(['en'])
                result = reader.readtext(thresholded, detail=0, paragraph=True)

                captcha = result[0].replace(" ", "")
                print(captcha)

                # Enviar CAPTCHA resuelto
                payload = f"javax.faces.partial.ajax=true&javax.faces.source=frmBusquedaCompanias%3AbtnConsultarCompania&javax.faces.partial.execute=frmBusquedaCompanias%3AbtnConsultarCompania+frmBusquedaCompanias%3Acaptcha+frmBusquedaCompanias%3Abrowser+frmBusquedaCompanias%3AaltoBrowser+frmBusquedaCompanias%3AanchoBrowser+frmBusquedaCompanias%3AmenuDispositivoMovil&frmBusquedaCompanias%3AbtnConsultarCompania=frmBusquedaCompanias%3AbtnConsultarCompania&frmBusquedaCompanias%3Acaptcha={captcha}&frmBusquedaCompanias%3Abrowser=Chrome&frmBusquedaCompanias%3AaltoBrowser=614&frmBusquedaCompanias%3AanchoBrowser=1536&frmBusquedaCompanias%3AmenuDispositivoMovil=hidden&javax.faces.ViewState={view}"
                _req = sesion.post("https://appscvsgen.supercias.gob.ec/consultaCompanias/societario/busquedaCompanias.jsf", data=payload, headers=headers, allow_redirects=True)

                if _req.status_code == 200:
                    print("*" * 10)
                    _req = sesion.get("https://appscvsgen.supercias.gob.ec/consultaCompanias/societario/informacionCompanias.jsf", headers=headers, allow_redirects=True)
                    rptaJson = procesar_informacion(_req.text)
                    return rptaJson

    except Exception as e:
        print(f"Error: {e}")
        return {}

def extract_from_textarea(html, textarea_id):
    """
    Busca una etiqueta textarea por su id y extrae el texto que contiene.
    """
    # Construimos el identificador único del textarea
    search_str = f'id="{textarea_id}"'

    # Encontramos la posición del id
    pos_id = html.find(search_str)
    if pos_id == -1:
        return "" # No se encontró el textarea

    # A partir de la posición del id, encontramos el cierre de la etiqueta de apertura '>'
    pos_value_start = html.find('>', pos_id)
    if pos_value_start == -1:
        return ""

    # Buscamos la etiqueta de cierre '</textarea>' que le corresponde
    pos_value_end = html.find('</textarea>', pos_value_start)
    if pos_value_end == -1:
        return ""

    # Extraemos el valor, lo limpiamos y lo retornamos
    value = html[pos_value_start + 1 : pos_value_end]
    return value.strip()

# Función para procesar la información de la compañía

def procesar_informacion(html):
    dtEmpres = {}

    # Nombre de la compañía
    posInicio = html.find("barra.png")
    if posInicio > -1:
        posvalue = html.find(">", posInicio)
        posvalueFin = html.find("<", posvalue + 1)
        dtEmpres["Nombre"] = html[posvalue + 1:posvalueFin].strip()

    # Expediente
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt121")
    if posInicio > -1:
        posvalue = html.find("value=", posInicio)
        posvalueFin = html.find("\"", posvalue + 7)
        dtEmpres["Expediente"] = html[posvalue + 7:posvalueFin]

    # RUC
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt126", posInicio)
    if posInicio > -1:
        posvalue = html.find("value=", posInicio)
        posvalueFin = html.find("\"", posvalue + 7)
        dtEmpres["RUC"] = html[posvalue + 7:posvalueFin]

    # Fecha de constitución
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt131", posInicio)
    if posInicio > -1:
        posvalue = html.find("value=", posInicio)
        posvalueFin = html.find("\"", posvalue + 7)
        dtEmpres["FechaConstitucion"] = html[posvalue + 7:posvalueFin]

    # Nacionalidad
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt136", posInicio)
    if posInicio > -1:
        posvalue = html.find("value=", posInicio)
        posvalueFin = html.find("\"", posvalue + 7)
        dtEmpres["Nacionalidad"] = html[posvalue + 7:posvalueFin]

    # Plazo social
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt141", posInicio)
    if posInicio > -1:
        posvalue = html.find("value=", posInicio)
        posvalueFin = html.find("\"", posvalue + 7)
        dtEmpres["PlazoSocial"] = html[posvalue + 7:posvalueFin]

    # Oficina de control
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt146", posInicio)
    if posInicio > -1:
        posvalue = html.find("value=", posInicio)
        posvalueFin = html.find("\"", posvalue + 7)
        dtEmpres["OficinaControl"] = html[posvalue + 7:posvalueFin]

    # Tipo de compañía
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt151", posInicio)
    if posInicio > -1:
        posvalue = html.find(">", posInicio)
        posvalueFin = html.find("<", posvalue + 1)
        dtEmpres["TipoConpania"] = html[posvalue + 1:posvalueFin]

    # Situación legal
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt156", posInicio)
    if posInicio > -1:
        posvalue = html.find(">", posInicio)
        posvalueFin = html.find("<", posvalue + 1)
        dtEmpres["situacionLegal"] = html[posvalue + 1:posvalueFin]

    # Provincia
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt167", posInicio)
    if posInicio > -1:
        posvalue = html.find("value=", posInicio)
        posvalueFin = html.find("\"", posvalue + 7)
        dtEmpres["Provincia"] = html[posvalue + 7:posvalueFin].strip()

    # Cantón
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt172", posInicio)
    if posInicio > -1:
        posvalue = html.find("value=", posInicio)
        posvalueFin = html.find("\"", posvalue + 7)
        dtEmpres["Canton"] = html[posvalue + 7:posvalueFin].strip()

    # Ciudad
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt177", posInicio)
    if posInicio > -1:
        posvalue = html.find("value=", posInicio)
        posvalueFin = html.find("\"", posvalue + 7)
        dtEmpres["Ciudad"] = html[posvalue + 7:posvalueFin]

    # Parroquia
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt182", posInicio)
    if posInicio > -1:
        posvalue = html.find("value=", posInicio)
        posvalueFin = html.find("\"", posvalue + 7)
        dtEmpres["Parroquia"] = html[posvalue + 7:posvalueFin]

    # Calle
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt187", posInicio)
    if posInicio > -1:
        posvalue = html.find("value=", posInicio)
        posvalueFin = html.find("\"", posvalue + 7)
        dtEmpres["Calle"] = html[posvalue + 7:posvalueFin]

    # Número
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt192", posInicio)
    if posInicio > -1:
        posvalue = html.find("value=", posInicio)
        posvalueFin = html.find("\"", posvalue + 7)
        dtEmpres["Numero"] = html[posvalue + 7:posvalueFin]

    # Intersección
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt197", posInicio)
    if posInicio > -1:
        posvalue = html.find("value=", posInicio)
        posvalueFin = html.find("\"", posvalue + 7)
        dtEmpres["Interseccion"] = html[posvalue + 7:posvalueFin]

    # Ciudadela
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt202", posInicio)
    if posInicio > -1:
        posvalue = html.find("value=", posInicio)
        posvalueFin = html.find("\"", posvalue + 7)
        dtEmpres["Ciudadela"] = html[posvalue + 7:posvalueFin]

    # Conjunto
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt207", posInicio)
    if posInicio > -1:
        posvalue = html.find("value=", posInicio)
        posvalueFin = html.find("\"", posvalue + 7)
        dtEmpres["Conjunto"] = html[posvalue + 7:posvalueFin]

    # Referencia
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt242", posInicio)
    if posInicio > -1:
        posvalue = html.find("value=", posInicio)
        posvalueFin = html.find("\"", posvalue + 7)
        dtEmpres["Referencia"] = html[posvalue + 7:posvalueFin]

    # Casillero Postal
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt253", posInicio)
    dtEmpres["CasilleroPostal"] = ""
    if posInicio > -1:
        posvalue = html.find("/>", posInicio)
        temp = html[posInicio:posvalue]
        posvaluetemp = temp.find("value=")
        if posvaluetemp > -1:
            posvalue = html.find("value=", posInicio)
            posvalueFin = html.find("\"", posvalue + 7)
            dtEmpres["CasilleroPostal"] = html[posvalue + 7:posvalueFin]

    # Celular
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt258", posInicio)
    dtEmpres["Celular"] = ""
    if posInicio > -1:
        posvalue = html.find("/>", posInicio)
        temp = html[posInicio:posvalue]
        posvaluetemp = temp.find("value=")
        if posvaluetemp > -1:
            posvalue = html.find("value=", posInicio)
            posvalueFin = html.find("\"", posvalue + 7)
            dtEmpres["Celular"] = html[posvalue + 7:posvalueFin]

    # Telefono1
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt263", posInicio)
    dtEmpres["Telefono1"] = ""
    if posInicio > -1:
        posvalue = html.find("/>", posInicio)
        temp = html[posInicio:posvalue]
        posvaluetemp = temp.find("value=")
        if posvaluetemp > -1:
            posvalue = html.find("value=", posInicio)
            posvalueFin = html.find("\"", posvalue + 7)
            dtEmpres["Telefono1"] = html[posvalue + 7:posvalueFin].strip()

    # Telefono2
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt268", posInicio)
    dtEmpres["Telefono2"] = ""
    if posInicio > -1:
        posvalue = html.find("/>", posInicio)
        temp = html[posInicio:posvalue]
        posvaluetemp = temp.find("value=")
        if posvaluetemp > -1:
            posvalue = html.find("value=", posInicio)
            posvalueFin = html.find("\"", posvalue + 7)
            dtEmpres["Telefono2"] = html[posvalue + 7:posvalueFin]

    # Sitio Web
    posInicio = html.find("frmInformacionCompanias:j_idt110:j_idt273", posInicio)
    dtEmpres["SitioWeb"] = ""
    if posInicio > -1:
        posvalue = html.find("/>", posInicio)
        temp = html[posInicio:posvalue]
        posvaluetemp = temp.find("value=")
        if posvaluetemp > -1:
            posvalue = html.find("value=", posInicio)
            posvalueFin = html.find("\"", posvalue + 7)
            dtEmpres["SitioWeb"] = html[posvalue + 7:posvalueFin]

    # --- INICIO DEL CÓDIGO MODIFICADO PARA CIIU ---

    dtEmpres["ActividadesCIIU"] = []
    actividades = []

    # Usaremos una variable para saber dónde continuar la búsqueda en el HTML
    posicion_actual = 0

    # 1. Extraer la Actividad Principal
    # Buscamos la etiqueta de texto que es nuestra "ancla"
    label_principal = "CIIU actividad principal:"
    pos_label_p = html.find(label_principal, posicion_actual)

    if pos_label_p > -1:
        # A partir de la etiqueta, encontramos el textarea del CÓDIGO
        pos_textarea_open_p = html.find('<textarea', pos_label_p)
        pos_value_start_p = html.find('>', pos_textarea_open_p)
        pos_value_end_p = html.find('</textarea>', pos_value_start_p)
        ciiu_codigo = html[pos_value_start_p + 1 : pos_value_end_p].strip()

        # Ahora, buscamos la etiqueta "Descripción:" DESPUÉS de haber encontrado el código
        label_descripcion = "Descripción:"
        pos_label_desc = html.find(label_descripcion, pos_value_end_p)

        # Y encontramos el textarea de la DESCRIPCIÓN
        pos_textarea_open_d = html.find('<textarea', pos_label_desc)
        pos_value_start_d = html.find('>', pos_textarea_open_d)
        pos_value_end_d = html.find('</textarea>', pos_value_start_d)
        ciiu_descripcion = html[pos_value_start_d + 1 : pos_value_end_d].strip()

        # Si encontramos un código, lo añadimos a la lista
        if ciiu_codigo:
            actividades.append({
                "Tipo": "Principal",
                "CIIU": ciiu_codigo,
                "Descripcion": ciiu_descripcion
            })

        # Actualizamos nuestra posición para la siguiente búsqueda
        posicion_actual = pos_value_end_d

    # 2. Extraer las Actividades Complementarias
    for i in range(1, 6):
        label_complementaria = f"CIIU actividad complementaria {i}:"
        pos_label_c = html.find(label_complementaria, posicion_actual)

        if pos_label_c > -1:
            # Encontramos el textarea del CÓDIGO complementario
            pos_textarea_open_c = html.find('<textarea', pos_label_c)
            pos_value_start_c = html.find('>', pos_textarea_open_c)
            pos_value_end_c = html.find('</textarea>', pos_value_start_c)
            ciiu_codigo_comp = html[pos_value_start_c + 1 : pos_value_end_c].strip()

            # Buscamos la "Descripción:" DESPUÉS del código complementario
            pos_label_desc_c = html.find(label_descripcion, pos_value_end_c)

            # Y el textarea de la DESCRIPCIÓN complementaria
            pos_textarea_open_d_c = html.find('<textarea', pos_label_desc_c)
            pos_value_start_d_c = html.find('>', pos_textarea_open_d_c)
            pos_value_end_d_c = html.find('</textarea>', pos_value_start_d_c)
            ciiu_descripcion_comp = html[pos_value_start_d_c + 1 : pos_value_end_d_c].strip()

            # Si el código no está vacío, lo añadimos
            if ciiu_codigo_comp:
                actividades.append({
                    "Tipo": f"Complementaria {i}",
                    "CIIU": ciiu_codigo_comp,
                    "Descripcion": ciiu_descripcion_comp
                })

            # Actualizamos la posición para buscar la siguiente actividad complementaria
            posicion_actual = pos_value_end_d_c
        else:
            # Si no encontramos "actividad complementaria 1", salimos del bucle
            # para no seguir buscando la 2, 3, etc.
            break

    dtEmpres["ActividadesCIIU"] = actividades

    # Buscar el valor de "Capital suscrito" en el HTML
    posInicio = html.find("Capital suscrito:")
    if posInicio > -1:
        # Buscar el valor después de "Capital suscrito:"
        posvalueInicio = html.find('value="', posInicio)
        if posvalueInicio > -1:
            posvalueFin = html.find('"', posvalueInicio + 7)
            capital_suscrito = html[posvalueInicio + 7:posvalueFin].strip()
            # Agregarlo a dtEmpres
            dtEmpres["CapitalSuscrito"] = capital_suscrito

    return dtEmpres


# --- Ejecución ---
if __name__ == "__main__":
    ruc_a_consultar = "0990004196001"  # El RUC que deseas consultar
    resultado = obtener_informacion_compania(ruc_a_consultar)
    print(resultado)


Inicio
Cambiar a búsqueda por RUC




https://appscvsgen.supercias.gob.ec/consultaCompanias/tmp/38003361269462425714151782798231.png
Procesando imagen del CAPTCHA
978705
**********
{'Nombre': 'CORPORACION EL ROSADO S.A.', 'CasilleroPostal': '', 'Celular': '', 'Telefono1': '', 'Telefono2': '', 'SitioWeb': '', 'ActividadesCIIU': [{'Tipo': 'Principal', 'CIIU': 'G4711.01', 'Descripcion': 'VENTA AL POR MENOR DE GRAN VARIEDAD DE PRODUCTOS EN TIENDAS, ENTRE LOS QUE PREDOMINAN, LOS PRODUCTOS ALIMENTICIOS, LAS BEBIDAS O EL TABACO, COMO PRODUCTOS DE PRIMERA NECESIDAD Y VARIOS OTROS TIPOS DE PRODUCTOS, COMO PRENDAS DE VESTIR, MUEBLES, APARATOS, ARTÍCULOS DE FERRETERÍA, COSMÉTICOS, ETCÉTERA.'}], 'CapitalSuscrito': '127,719,025.00'}


## Uso de Funciones para consultar RUC en SRI y Supercias

In [34]:
def reemplazar_none_con_vacio(obj):
    """
    Recorre recursivamente un objeto (diccionario o lista) y reemplaza
    todos los valores `None` con un string vacío "".
    """
    if isinstance(obj, dict):
        # Si es un diccionario, itera sobre sus items
        return {k: reemplazar_none_con_vacio(v) for k, v in obj.items()}
    elif isinstance(obj, list):
        # Si es una lista, itera sobre sus elementos
        return [reemplazar_none_con_vacio(elem) for elem in obj]
    # Si el valor es None, lo reemplaza. Si no, lo deja como está.
    return "" if obj is None else obj

# ==============================================================================
# FUNCIÓN DE UNIÓN PULIDA Y ROBUSTA
# ==============================================================================
def unificar_info_empresa_produccion(ruc: str) -> dict:
    """
    Consulta información de un RUC en el SRI y Supercias, unifica los datos de
    forma segura y prepara el resultado para su uso en una aplicación.

    Características:
    - Es robusto ante fallos en las fuentes de datos (si una falla, devuelve los datos de la otra).
    - Reemplaza todos los valores `None` por strings vacíos ("") para una integración
      más sencilla con aplicaciones web.
    - Devuelve siempre un diccionario, aunque esté vacío si ambas fuentes fallan.

    Args:
        ruc (str): El número de RUC a consultar.

    Returns:
        dict: Un diccionario con la información combinada y limpia.
    """
    # 1. Obtener la información de ambas fuentes
    info_sri_raw = consultar_ruc_sri(ruc)
    info_supercias_raw = obtener_informacion_compania(ruc)

    # 2. Inicializar diccionarios como vacíos para garantizar una operación segura
    sri_dict = {}
    supercias_dict = {}

    # 3. Validar y procesar datos del SRI
    if isinstance(info_sri_raw, list) and info_sri_raw:
        # Asegurarse de que el primer elemento también sea un diccionario
        if isinstance(info_sri_raw[0], dict):
            sri_dict = info_sri_raw[0]

    # 4. Validar y procesar datos de Supercias
    if isinstance(info_supercias_raw, dict):
        supercias_dict = info_supercias_raw

    # 5. Combinar los diccionarios. Esta operación ahora es 100% segura.
    # El orden importa: las claves de supercias_dict sobreescribirán las de sri_dict si coinciden.
    info_unida = sri_dict | supercias_dict

    # 6. Si no se obtuvo nada de ninguna fuente, devolver un diccionario vacío.
    if not info_unida:
        return {}

    # 7. Limpiar el resultado final reemplazando todos los None con ""
    resultado_limpio = reemplazar_none_con_vacio(info_unida)

    return resultado_limpio



In [35]:
import json

# ==============================================================================
# EJEMPLO DE USO
# ==============================================================================
if __name__ == "__main__":
    RUC_A_CONSULTAR = "0990004196001"

    print(f"--- Consultando RUC: {RUC_A_CONSULTAR} ---")
    resultado_final = unificar_info_empresa_produccion(RUC_A_CONSULTAR)

    print("\n--- Resultado final (limpio y listo para producción) ---")
    # Imprimimos con json.dumps para una visualización clara y bonita
    print(json.dumps(resultado_final, indent=4, ensure_ascii=False))

    # Ejemplo de un RUC que fallará en ambas fuentes
    RUC_FALLIDO = "9999999999999"
    print(f"\n--- Consultando RUC que fallará: {RUC_FALLIDO} ---")
    resultado_fallido = unificar_info_empresa_produccion(RUC_FALLIDO)
    print("\n--- Resultado para RUC fallido ---")
    print(resultado_fallido)

--- Consultando RUC: 0990004196001 ---
Inicio
Cambiar a búsqueda por RUC




https://appscvsgen.supercias.gob.ec/consultaCompanias/tmp/97613337066351550299417996865738.png
Procesando imagen del CAPTCHA
548490
**********

--- Resultado final (limpio y listo para producción) ---
{
    "numeroRuc": "0990004196001",
    "razonSocial": "CORPORACION EL ROSADO S.A.",
    "estadoContribuyenteRuc": "ACTIVO",
    "actividadEconomicaPrincipal": "VENTA AL POR MENOR DE GRAN VARIEDAD DE PRODUCTOS EN SUPERMERCADOS, ENTRE LOS QUE PREDOMINAN, LOS PRODUCTOS ALIMENTICIOS, LAS BEBIDAS O EL TABACO, COMO PRODUCTOS DE PRIMERA NECESIDAD Y VARIOS OTROS TIPOS DE PRODUCTOS, COMO PRENDAS DE VESTIR, MUEBLES, APARATOS, ARTÍCULOS DE FERRETERÍA, COSMÉTICOS, ETCÉTERA.",
    "tipoContribuyente": "SOCIEDAD",
    "regimen": "GENERAL",
    "categoria": "",
    "obligadoLlevarContabilidad": "SI",
    "agenteRetencion": "SI",
    "contribuyenteEspecial": "SI",
    "informacionFechasContribuyente": {
        "fechaInicioActividades": "1954-11-22 00:00:00.0",
        "fechaCese": "",
        "fechaRei