In [1]:
import math
import requests
import re

from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_ollama.embeddings import OllamaEmbeddings
from langchain.vectorstores import FAISS
from bs4 import BeautifulSoup

In [2]:
base_url = "https://data.bka.gv.at/ris/api/v2.6/Landesrecht"
params = {
    "Applikation": "LrKons",
    "Bundesland_SucheInSalzburg": "true",
    "Sortierung_SortDirection": "Descending",
    "DokumenteProSeite": "Ten",
    "Seitennummer": 1,
    "Fassung_FassungVom": "2025-06-09"
}

resp = requests.get(base_url, params=params)
resp.raise_for_status()
data = resp.json()

hits = int(data["OgdSearchResult"]["OgdDocumentResults"]["Hits"]["#text"])
page_size = int(data["OgdSearchResult"]["OgdDocumentResults"]["Hits"]["@pageSize"])
total_pages = math.ceil(hits / page_size)
print(f"Gesamt-Treffer: {hits}, Seitengröße: {page_size}, Gesamt-Seiten: {total_pages}")

Gesamt-Treffer: 13601, Seitengröße: 10, Gesamt-Seiten: 1361


In [5]:
all_docs = []

for page in range(1, total_pages + 1):
    print(f"Lade Seite {page}/{total_pages}")
    params["Seitennummer"] = page
    resp = requests.get(base_url, params=params)
    resp.raise_for_status()
    data = resp.json()
    
    docs = data["OgdSearchResult"]["OgdDocumentResults"]["OgdDocumentReference"]
    if isinstance(docs, list):
        all_docs.extend(docs)
    else:
        all_docs.append(docs)

print(f"Anzahl gesammelter Dokument-Referenzen: {len(all_docs)}")

Lade Seite 1/1
Anzahl gesammelter Dokument-Referenzen: 10


In [6]:
all_texts = []
seen_urls = set()

for doc in all_docs:
    lrKons = doc["Data"]["Metadaten"]["Landesrecht"]["LrKons"]
    url = lrKons.get("GesamteRechtsvorschriftUrl")
    beachte = lrKons.get("Beachte")

    if url in seen_urls:
        continue
    seen_urls.add(url)

    text = "Rechtsvorschrift noch nicht dokumentiert."

    if url and not beachte:
        try:
            page_resp = requests.get(url)
            page_resp.raise_for_status()
            soup = BeautifulSoup(page_resp.text, "html.parser")

            containers = soup.find_all(
                "div",
                id=re.compile(r"MainContent_DocumentRepeater.*Container")
            )

            blocks = []
            seen_blocks = set()

            for cont in containers:
                cid = cont.get("id", "")

                if "LangtitelContainer" in cid:
                    header = cont.find("h3")
                    if header:
                        header.decompose()
                    title = cont.get_text(separator=" ", strip=True)
                    if title and title not in seen_blocks:
                        blocks.append(title)
                        seen_blocks.add(title)
                    continue

                if "PraeambelContainer" in cid:
                    header = cont.find("h3")
                    if header:
                        header.decompose()
                    praem = cont.get_text(separator=" ", strip=True)
                    if praem and praem not in seen_blocks:
                        blocks.append(praem)
                        seen_blocks.add(praem)
                    continue

                if "TextContainer" in cid:
                    for tag in cont.find_all(['h3', 'h4', 'p', 'li']):
                        classes = tag.get("class", [])
                        if "sr-only" in classes or "onlyScreenreader" in classes:
                            continue
                        for bad in tag.find_all(class_=["sr-only", "onlyScreenreader"]):
                            bad.decompose()
                        block = tag.get_text(separator=" ", strip=True)
                        if block and block not in seen_blocks:
                            blocks.append(block)
                            seen_blocks.add(block)
                    continue

            text = "\n\n".join(blocks)

        except requests.RequestException:
            pass

    all_texts.append(text)

print(f"Anzahl gesammelter Text-Passagen: {len(all_texts)}")
for idx, txt in enumerate(all_texts, start=1):
    print(f"\n--- Dokument {idx} ---\n{txt}")

Anzahl gesammelter Text-Passagen: 2

--- Dokument 1 ---
Verordnung der Salzburger Landessregierung vom 27. Februar 2024, mit der die Zweitwohnung-Beschränkungsgemeinden im Land Salzburg bestimmt werden (Zweitwohnung-Beschränkungsgemeinden-Verordnung 2024) StF: LGBl Nr 26/2024

Auf Grund des § 31 Abs 1 des Salzburger Raumordnungsgesetzes 2009 – ROG 2009, LGBl Nr 30/2009 , in der geltenden Fassung wird verordnet: Auf Grund des Paragraph 31, Absatz eins, des Salzburger Raumordnungsgesetzes 2009 – ROG 2009, Landesgesetzblatt Nr 30 aus 2009,, in der geltenden Fassung wird verordnet:

Text

Zweitwohnung-Beschränkungsgemeinden

§ 1

Im Land Salzburg werden als Zweitwohnung-Beschränkungsgemeinden bestimmt:

1. im Flachgau die Gemeinden: Anif, Ebenau, Elixhausen, Elsbethen, Faistenau, Fuschl am See, Großgmain, Hallwang, Henndorf am Wallersee, Hintersee, Hof bei Salzburg, Mattsee, St. Gilgen, Seeham, Seekirchen am Wallersee, Schleedorf und Strobl;

2. im Tennengau die Gemeinden: Abtenau, Adnet, 