In [1]:
import re
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

BASE = "https://financiamento.iapmei.pt"
API_PATTERN = re.compile(r"/webapi/api/[a-zA-Z0-9_/-]+")

html = requests.get(BASE).text
soup = BeautifulSoup(html, "html.parser")

js_files = [
    urljoin(BASE, s["src"])
    for s in soup.find_all("script", src=True)
]

endpoints = set()

for js in js_files:
    try:
        code = requests.get(js, timeout=10).text
        matches = API_PATTERN.findall(code)
        endpoints.update(matches)
    except Exception:
        pass

for e in sorted(endpoints):
    print(e)


In [12]:
endpoints = await capture_endpoints()
for e in endpoints:
    print(e)


https://financiamento.iapmei.pt/webapi/api/ItensPesquisas?caraterizacao=2
https://financiamento.iapmei.pt/webapi/api/Paginas/Footer
https://financiamento.iapmei.pt/webapi/api/indicadores
https://financiamento.iapmei.pt/webapi/api/ItensPesquisas/arrayvalores
https://financiamento.iapmei.pt/webapi/api/paginas
https://financiamento.iapmei.pt/webapi/api/sliders
https://financiamento.iapmei.pt/webapi/api/ItensPesquisas
https://financiamento.iapmei.pt/webapi/api/ItensPesquisas?caraterizacao=1
https://financiamento.iapmei.pt/webapi/api/Itens/arrayvalores
https://financiamento.iapmei.pt/webapi/api/Configuracao/GetRedesSociais


In [4]:
import asyncio
from playwright.async_api import async_playwright
import requests
from bs4 import BeautifulSoup
import json
from pathlib import Path

OUTPUT_DIR = Path("data")
OUTPUT_DIR.mkdir(exist_ok=True)

BASE_URL = "https://financiamento.iapmei.pt/webapi/api"

# ------------------------------
# Helper functions
# ------------------------------
def clean_html(html_str):
    if not html_str:
        return ""
    return BeautifulSoup(html_str, "html.parser").get_text(separator="\n", strip=True)

def fetch_json(url, params=None):
    r = requests.get(url, params=params, timeout=30)
    r.raise_for_status()
    return r.json()

def extract_text_from_data(data):
    texts = []

    if isinstance(data, dict):
        for key in ["titulo", "descricao", "conteudo", "texto"]:
            val = data.get(key)
            if isinstance(val, str) and val.strip():
                texts.append(clean_html(val))

        # Rich text components
        for comp in data.get("componentes", []):
            if isinstance(comp, dict):
                for v in comp.values():
                    if isinstance(v, str) and len(v.strip()) > 50:
                        texts.append(clean_html(v))

    elif isinstance(data, list):
        for el in data:
            if isinstance(el, dict):
                for v in el.values():
                    if isinstance(v, str) and len(v.strip()) > 50:
                        texts.append(clean_html(v))
            elif isinstance(el, str) and el.strip():
                texts.append(clean_html(el))

    return "\n".join(texts)

# ------------------------------
# Step 1: Capture endpoints via Playwright
# ------------------------------
async def capture_endpoints():
    async with async_playwright() as p:
        browser = await p.chromium.launch(headless=False)  # set True to hide browser
        page = await browser.new_page()
        endpoints = set()

        # Capture all API responses
        page.on("response", lambda res: endpoints.add(res.url) if "/webapi/api/" in res.url else None)

        # Open homepage
        await page.goto("https://financiamento.iapmei.pt/inicio/home", wait_until="domcontentloaded")

        # Trigger lazy-loaded content
        await page.wait_for_timeout(3000)
        await page.mouse.wheel(0, 3000)
        await page.wait_for_timeout(3000)

        await browser.close()
        return endpoints

# ------------------------------
# Step 2: Fetch content from discovered endpoints
# ------------------------------
async def main():
    endpoints = await capture_endpoints()
    print(f"Discovered {len(endpoints)} API endpoints")
    
    dataset = []

    # Filter relevant endpoints: only Itens / Paginas / ItensPesquisas
    relevant = [e for e in endpoints if any(x in e.lower() for x in ["/produtos", "/paginas"])]
    print(f"Processing {len(relevant)} relevant endpoints")

    for url in relevant:
        try:
            data = fetch_json(url)
            text = extract_text_from_data(data)

            dataset.append({
                "url": url,
                "text": text
            })
            print(f"Fetched {url} → {len(text)} chars")

        except Exception as e:
            print(f"Error fetching {url}: {e}")

    # Save final dataset
    output_file = OUTPUT_DIR / "financiamento_complete.json"
    with open(output_file, "w", encoding="utf-8") as f:
        json.dump(dataset, f, ensure_ascii=False, indent=2)

    print(f"All content saved to {output_file}")
    print(f"Total documents: {len(dataset)}")

# ------------------------------
# Run
# ------------------------------
import nest_asyncio
nest_asyncio.apply()

import asyncio

# Instead of asyncio.run(main()), do:
await main()


Discovered 10 API endpoints
Processing 2 relevant endpoints
Fetched https://financiamento.iapmei.pt/webapi/api/Paginas/Footer → 7578 chars
Fetched https://financiamento.iapmei.pt/webapi/api/paginas → 11209 chars
All content saved to data/financiamento_complete.json
Total documents: 2


In [11]:
import asyncio
import json
from urllib.parse import urljoin
from playwright.async_api import async_playwright
from bs4 import BeautifulSoup

# =====================
# CONFIG (minimal)
# =====================
START_URL = "https://financiamento.iapmei.pt/inicio/home"
BASE_SITE = "https://financiamento.iapmei.pt"
API_PREFIX = "/webapi/api"

MAX_PAGES = 30   # safety limit

# =====================
def clean_html(text):
    return BeautifulSoup(text, "html.parser").get_text(
        separator="\n", strip=True
    )

# =====================
async def crawl_visible_pages():
    results = []
    visited = set()

    async with async_playwright() as p:
        browser = await p.chromium.launch(headless=True)
        context = await browser.new_context()
        page = await context.new_page()

        # ---- STEP 1: open homepage
        await page.goto(START_URL, wait_until="networkidle")

        await page.mouse.wheel(0, 5000)
        await page.wait_for_timeout(3000)

        # ---- STEP 2: collect visible links
        anchors = await page.query_selector_all("a")
        links = []

        for a in anchors:
            if not await a.is_visible():
                continue

            text = (await a.inner_text()).strip()
            href = await a.get_attribute("href")

            if not text or not href:
                continue

            full_url = urljoin(BASE_SITE, href)
            links.append((full_url, text))

        print(f"Found {len(links)} visible links")

        # ---- STEP 3: visit each link and capture API content
        for url, link_text in links[:MAX_PAGES]:
            if url in visited:
                continue
            visited.add(url)
        
            api_payloads = []  # reset per page
        
            def on_response(res):
                if API_PREFIX in res.url and res.request.method == "GET":
                    api_payloads.append(res)
        
            page.on("response", on_response)
        
            await page.goto(url, wait_until="networkidle")
            await page.wait_for_timeout(3000)
        
            texts = []
            for res in api_payloads:
                try:
                    data = await res.json()
                    texts.append(clean_html(json.dumps(data)))
                except:
                    pass
        
            results.append({
                "page_url": url,
                "link_text": link_text,
                "content": "\n".join(texts)
            })
        
            api_payloads.clear()  # ready for next page
        

        await browser.close()

    return results

# =====================
# RUN
# =====================
import nest_asyncio
nest_asyncio.apply()

data = await crawl_visible_pages()

print(f"\nExtracted {len(data)} pages\n")
for d in data:
    print(d["page_url"])


Found 13 visible links

Extracted 7 pages

https://financiamento.iapmei.pt#resultados
https://financiamento.iapmei.pt/home/financiamento?id=3bc6afb6-87bc-443b-9019-683f56f7a78e
https://financiamento.iapmei.pt/home/financiamento?id=6d430c26-fdf4-4c6a-acf8-166ea496404a
https://financiamento.iapmei.pt/home/financiamento?id=78009eb4-5c1d-41b3-8534-221895b99ab9
https://financiamento.iapmei.pt/home/financiamento?id=27395855-c653-47c5-9cc2-63483f6d717d
https://financiamento.iapmei.pt/home/financiamento?id=45990c62-0b36-43a7-9029-907412aef549
https://financiamento.iapmei.pt/inicio/home/financiamento?id=3bc6afb6-87bc-443b-9019-683f56f7a78e


In [17]:
import requests

urls = [
    "https://financiamento.iapmei.pt/webapi/api/paginas",
    "https://financiamento.iapmei.pt/webapi/api/produtos"
]

headers = {
    "User-Agent": "Mozilla/5.0",
    "Accept": "application/json",
}

def fetch_all() -> dict:
    results = {}

    for url in urls:
        r = requests.get(url, headers=headers, timeout=10)
        r.raise_for_status()
        results[url] = r.json()

    return results


data = fetch_all()

In [38]:
for i in data["https://financiamento.iapmei.pt/webapi/api/paginas"]:
    print(i["titulo"], i["corpo"])


Linhas de Crédito <p>As linhas de cr&eacute;dito bonificadas e garantidas t&ecirc;m como objetivo melhorar as condi&ccedil;&otilde;es de financiamento e facilitar o acesso das PME ao cr&eacute;dito banc&aacute;rio, atrav&eacute;s do recurso aos mecanismos de garantia do Sistema Nacional de Garantia M&uacute;tua.</p>

Garantia Mútua <p>A Garantia M&uacute;tua &eacute; um sistema mutualista de apoio &agrave;s micro, pequenas e m&eacute;dias empresas, que se traduz fundamentalmente na presta&ccedil;&atilde;o de garantias para facilitar a obten&ccedil;&atilde;o de cr&eacute;dito mas tamb&eacute;m de outro tipo de garantias necess&aacute;rias ao desenvolvimento empresarial nos v&aacute;rios setores de atividade.<br />
<br />
A caracter&iacute;stica mutualista resulta do facto de as empresas benefici&aacute;rias das garantias assumirem a condi&ccedil;&atilde;o de acionistas de Sociedades de Garantia M&uacute;tua.<br />
<br />
O sistema de garantia m&uacute;tua &eacute; participado pelo IAPME

In [36]:
data["https://financiamento.iapmei.pt/webapi/api/paginas"]

[{'id': '30045a7f-f5c3-4da8-823c-f85173dce675',
  'titulo': 'Linhas de Crédito',
  'resumo': '(Imagem)',
  'subtitulo': None,
  'corpo': '<p>As linhas de cr&eacute;dito bonificadas e garantidas t&ecirc;m como objetivo melhorar as condi&ccedil;&otilde;es de financiamento e facilitar o acesso das PME ao cr&eacute;dito banc&aacute;rio, atrav&eacute;s do recurso aos mecanismos de garantia do Sistema Nacional de Garantia M&uacute;tua.</p>\r\n',
  'pai': None,
  'resulta': '',
  'ultimaactualizacao': '2019-08-01',
  'ordem': 2000},
 {'id': 'c6df6166-2c4a-4894-9801-786d8587e2aa',
  'titulo': 'Garantia Mútua',
  'resumo': '(Imagem)\r\n',
  'subtitulo': None,
  'corpo': '<p>A Garantia M&uacute;tua &eacute; um sistema mutualista de apoio &agrave;s micro, pequenas e m&eacute;dias empresas, que se traduz fundamentalmente na presta&ccedil;&atilde;o de garantias para facilitar a obten&ccedil;&atilde;o de cr&eacute;dito mas tamb&eacute;m de outro tipo de garantias necess&aacute;rias ao desenvolviment

In [28]:
for i in data['https://financiamento.iapmei.pt/webapi/api/produtos']:
    print(i['nome'])

Fundo de Capital de Risco - Portugal Growth
Linha BPF Invest Export PME – Investimento
Benefícios Fiscais - SIFIDE II
Fundo de Investimento Imobiliário Fechado Turístico II - FIIFT II
Linha de Apoio à Tesouraria
Fundo de Capitalização das Empresas dos Açores (FCEA) - Programa Capital Participativo Açores I
Linha Tesouraria PDR 2020 - Investimento
Fundo de Capital de Risco - Portugal Tech I
Fundo de Capitalização das Empresas dos Açores (FCEA) - Programa Capital Participativo Açores II
Linha de Garantia InvestEU - PME e Small Mid-Caps
Instrumento de Capital - Programa de Venture Capital
Instrumento de Capital - Programa de Recapitalização Estratégica
Linha de Crédito para Apoio ao Empreendedorismo e à Criação do Próprio Emprego - "Microinvest"
Instrumento de Capital - Programa Consolidar
Benefícios Fiscais Aplicáveis aos Territórios do Interior e às Regiões Autónomas
Fundo Imobiliário Especial de Apoio às Empresas  - Call 50 - Turismo e Indústria
Linha de Apoio à Qualificação da Oferta 

In [34]:
for produto in data['https://financiamento.iapmei.pt/webapi/api/produtos']:
    if produto.get('nome') == 'Fundo de Capital de Risco - Portugal Growth':
        print(produto)


{'id': '0129102a-a42c-4792-82ac-dc585e25db10', 'nome': 'Fundo de Capital de Risco - Portugal Growth', 'descricao': None, 'disponibilidade': False, 'reutilizavel': False, 'tipooperacao': False, 'data': '25/05/2023', 'dados': [{'id': '50379aec-b7ae-408b-abe7-abdb3db191e2', 'textfield': '', 'selectlist': ['Investir', 'Inovar', 'Reforçar Capitais Próprios'], 'checkbox': False, 'data': '0001-01-01T00:00:00', 'editor': '', 'anexos': None, 'descricao': 'Necessidades de Financiamento', 'tipocampo': '7', 'grupo': None, 'ordem': 0, 'visivel': False, 'impressao': False}, {'id': '04007a44-4caf-4a0c-ad59-4e66d94f1b70', 'textfield': '27/06/2022 00:00:00', 'selectlist': [], 'checkbox': False, 'data': '2022-06-27T00:00:00', 'editor': '', 'anexos': None, 'descricao': 'Data de Início da Linha / Produto', 'tipocampo': '4', 'grupo': None, 'ordem': 200, 'visivel': False, 'impressao': False}, {'id': 'a3ac3a75-9c20-45f1-8e47-34dfac92bf8e', 'textfield': '01/01/0001 00:00:00', 'selectlist': [], 'checkbox': Fal

In [35]:
data['https://financiamento.iapmei.pt/webapi/api/produtos']

[{'id': '0129102a-a42c-4792-82ac-dc585e25db10',
  'nome': 'Fundo de Capital de Risco - Portugal Growth',
  'descricao': None,
  'disponibilidade': False,
  'reutilizavel': False,
  'tipooperacao': False,
  'data': '25/05/2023',
  'dados': [{'id': '50379aec-b7ae-408b-abe7-abdb3db191e2',
    'textfield': '',
    'selectlist': ['Investir', 'Inovar', 'Reforçar Capitais Próprios'],
    'checkbox': False,
    'data': '0001-01-01T00:00:00',
    'editor': '',
    'anexos': None,
    'descricao': 'Necessidades de Financiamento',
    'tipocampo': '7',
    'grupo': None,
    'ordem': 0,
    'visivel': False,
    'impressao': False},
   {'id': '04007a44-4caf-4a0c-ad59-4e66d94f1b70',
    'textfield': '27/06/2022 00:00:00',
    'selectlist': [],
    'checkbox': False,
    'data': '2022-06-27T00:00:00',
    'editor': '',
    'anexos': None,
    'descricao': 'Data de Início da Linha / Produto',
    'tipocampo': '4',
    'grupo': None,
    'ordem': 200,
    'visivel': False,
    'impressao': False},
  