In [1]:
import os
import math
import requests
import faiss
import concurrent.futures
import re
import time

In [2]:
from datetime import date
from bs4 import BeautifulSoup
from urllib.parse import urljoin

In [3]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.text_splitter import CharacterTextSplitter
from langchain.document_loaders import PyPDFLoader
from langchain_ollama.embeddings import OllamaEmbeddings
from langchain_ollama.llms import OllamaLLM
from langchain.vectorstores import FAISS
from langchain.schema import Document
from langchain.prompts import PromptTemplate
from langchain.chains import RetrievalQA
print("Alle Bibliotheken importiert und bereit.")

Alle Bibliotheken importiert und bereit.


In [4]:
EMBEDDING_MODEL = "nomic-embed-text:latest"
LLM_MODEL = "gemma3:1b"
INDEX_PATH = "faiss_index.faiss"
API_URL = "https://data.bka.gv.at/ris/api/v2.6/Landesrecht"
print(f"Konfiguration gesetzt: EMBEDDING_MODEL = {EMBEDDING_MODEL}, LLM_MODEL = {LLM_MODEL}, INDEX_PATH = '{INDEX_PATH}', API_URL = {API_URL}")

Konfiguration gesetzt: EMBEDDING_MODEL = nomic-embed-text:latest, LLM_MODEL = gemma3:1b, INDEX_PATH = 'faiss_index.faiss', API_URL = https://data.bka.gv.at/ris/api/v2.6/Landesrecht


In [5]:
embeddings = OllamaEmbeddings(model=EMBEDDING_MODEL)
llm = OllamaLLM(model=LLM_MODEL)
session = requests.Session()
print("Embeddings- und LLM-Objekte erstellt. Aktuelle Session wurde aufgerufen.")

Embeddings- und LLM-Objekte erstellt. Aktuelle Session wurde aufgerufen.


In [6]:
def fetch_and_parse_ris(ref):
    lrKons = (
        ref.get("Data", {})
            .get("Metadaten", {})
            .get("Landesrecht", {})
            .get("LrKons", {})
    )
    html_url = lrKons.get("GesamteRechtsvorschriftUrl")
    if not html_url:
        return []

    try:
        resp = session.get(html_url, timeout=60)
        resp.raise_for_status()
        soup = BeautifulSoup(resp.text, "html.parser")

        a_pdf = soup.find(
            "a",
            href=re.compile(r"\.pdf$"),
            title=lambda t: t and "PDF-Dokument" in t
        )
        if not a_pdf or not a_pdf.has_attr("href"):
            print(f"PDF-Link nicht gefunden in {html_url}")
            return []

        pdf_path = a_pdf["href"]
        pdf_url = urljoin("https://www.ris.bka.gv.at", pdf_path)

        print(f"Lade PDF: {pdf_url}")
        loader = PyPDFLoader(pdf_url)
        docs = loader.load()
        print(f"{len(docs)} Seiten geladen von {pdf_url}")
        return [(pdf_url, doc.page_content) for doc in docs]

    except Exception as e:
        print(f"Fehler beim Verarbeiten von {html_url}: {e}")
        return []

In [7]:
heute  = date.today().isoformat()
params = {
    "Applikation": "LrKons",
    "Bundesland_SucheInSalzburg": "true",
    "Sortierung_SortDirection": "Descending",
    "DokumenteProSeite": "Ten",
    "Fassung_FassungVom": heute
}
resp = session.get(API_URL, params=params)
resp.raise_for_status()
data = resp.json()
hits = int(data["OgdSearchResult"]["OgdDocumentResults"]["Hits"]["#text"])
page_size = int(data["OgdSearchResult"]["OgdDocumentResults"]["Hits"]["@pageSize"])
total = math.ceil(hits / page_size)

In [8]:
all_refs = []
# for page in range(1, total+1):
for page in range(1, 2):
    params["Seitennummer"] = page
    resp = session.get(API_URL, params=params)
    resp.raise_for_status()
    docs = resp.json()["OgdSearchResult"]["OgdDocumentResults"]["OgdDocumentReference"]
    all_refs.extend(docs if isinstance(docs, list) else [docs])
print(f"Insgesamt {len(all_refs)} Dokumentreferenzen geladen.")

Insgesamt 10 Dokumentreferenzen geladen.


In [9]:
all_sections = []
with concurrent.futures.ThreadPoolExecutor(max_workers=8) as pool:
    futures = [pool.submit(fetch_and_parse_ris, ref) for ref in all_refs]
    for fut in concurrent.futures.as_completed(futures):
        all_sections.extend(fut.result() or [])
print(f"Insgesamt {len(all_sections)} Textabschnitte aus PDFs extrahiert.")

Lade PDF: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001469/Zweitwohnung-Beschr%c3%a4nkungsgemeinden-Verordnung%202024%2c%20Fassung%20vom%2018.06.2025.pdf
Lade PDF: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001469/Zweitwohnung-Beschr%c3%a4nkungsgemeinden-Verordnung%202024%2c%20Fassung%20vom%2018.06.2025.pdf
Lade PDF: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001469/Zweitwohnung-Beschr%c3%a4nkungsgemeinden-Verordnung%202024%2c%20Fassung%20vom%2018.06.2025.pdf
Lade PDF: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2018.06.2025.pdf
Lade PDF: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2018.06.2025.pdf
Lade PDF: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2018.06.2025.pdf
Lade PDF: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2018.06.2025.pdf
Lade PDF: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20

In [10]:
para_docs = []
for url, text in all_sections:
    cleaned = re.sub(r"(\w+)-\n(\w+)", r"\1\2", text)
    cleaned = re.sub(r"(?<!\n)\n(?!\n)", " ", cleaned)
    for para in cleaned.split("\n\n"):
        if para.strip():
            para_docs.append(Document(
                page_content=para.strip(),
                metadata={"source_url": url}
            ))

In [11]:
splitter = CharacterTextSplitter(
    separator="\n\n",
    chunk_size=1200,
    chunk_overlap=0
)
chunked_docs = splitter.split_documents(para_docs)
print(f"Insgesamt {len(chunked_docs)} Absatz-Chunks aus PDF extrahiert.")

Insgesamt 52 Absatz-Chunks aus PDF extrahiert.


In [12]:
for i, chunk in enumerate(chunked_docs):
    source = chunk.metadata["source_url"]
    text = chunk.page_content
    snippet = text[:500].replace("\n", " ")

    print(f"\n--- Chunk {i+1}/{len(chunked_docs)} ---")
    print(f"Quelle: {source}")
    print(f"Inhalt (erstes 500 Zeichen): {snippet} …")
    print(f"Länge dieses Chunks: {len(text)} Zeichen")
    print("--- Ende Chunk ---", flush=True)


--- Chunk 1/52 ---
Quelle: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001469/Zweitwohnung-Beschr%c3%a4nkungsgemeinden-Verordnung%202024%2c%20Fassung%20vom%2018.06.2025.pdf
Inhalt (erstes 500 Zeichen): Landesrecht Salzburg  www.ris.bka.gv.at Seite 1 von 1  Gesamte Rechtsvorschrift für Zweitwohnung -Beschränkungsgemeinden-Verordnung  2024, Fassung vom 18.06.2025  Langtitel  Verordnung der Salzburger Landessregierung vom 27. Februar 2024, mit der die ZweitwohnungBeschränkungsgemeinden im Land Salzburg bestimmt werden (Zweitwohnung - Beschränkungsgemeinden-Verordnung 2024)  StF: LGBl Nr 26/2024  Präambel/Promulgationsklausel  Auf Grund des §  31 Abs  1 des Salzburger Raumordnungsgesetzes  2009 –  …
Länge dieses Chunks: 2474 Zeichen
--- Ende Chunk ---

--- Chunk 2/52 ---
Quelle: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2018.06.2025.pdf
Inhalt (erstes 500 Zeichen): Landesrecht Salzburg  www.ris.bka.gv.at Seite 1 von 7  Gesamte Rechtsvorschri

In [13]:
for i, chunk in enumerate(docs):
    if i == 1:
        print(f"Snippet zur Query: {chunk.page_content}")

AttributeError: 'dict' object has no attribute 'page_content'

In [14]:
class DebugOllamaEmbeddings(OllamaEmbeddings):
    def embed_documents(self, texts: list[str]) -> list[list[float]]:
        total = len(texts)
        results = []
        for i, text in enumerate(texts, start=1):
            start_save_sg = time.perf_counter()
            print(f"Verarbeite Chunk {i}/{total}")
            emb = super().embed_documents([text])[0]
            results.append(emb)
            end_save_sg = time.perf_counter()
            print(f"Chunk {i} gespeichert in {end_save_sg - start_save_sg:.2f} Sekunden.")
        return results

In [15]:
embeddings = DebugOllamaEmbeddings(model=EMBEDDING_MODEL)

In [16]:
start_embed = time.perf_counter()
print(f"Starte Embedding von {len(chunked_docs)} Chunks...")
vector_store = FAISS.from_documents(chunked_docs, embeddings)
end_embed = time.perf_counter()
print(f"Embedding abgeschlossen in {end_embed - start_embed:.2f} Sekunden.")

Starte Embedding von 52 Chunks...
Verarbeite Chunk 1/52
Chunk 1 gespeichert in 1.44 Sekunden.
Verarbeite Chunk 2/52
Chunk 2 gespeichert in 0.49 Sekunden.
Verarbeite Chunk 3/52
Chunk 3 gespeichert in 0.90 Sekunden.
Verarbeite Chunk 4/52
Chunk 4 gespeichert in 1.17 Sekunden.
Verarbeite Chunk 5/52
Chunk 5 gespeichert in 1.08 Sekunden.
Verarbeite Chunk 6/52
Chunk 6 gespeichert in 1.00 Sekunden.
Verarbeite Chunk 7/52
Chunk 7 gespeichert in 1.07 Sekunden.
Verarbeite Chunk 8/52
Chunk 8 gespeichert in 0.32 Sekunden.
Verarbeite Chunk 9/52
Chunk 9 gespeichert in 0.87 Sekunden.
Verarbeite Chunk 10/52
Chunk 10 gespeichert in 0.84 Sekunden.
Verarbeite Chunk 11/52
Chunk 11 gespeichert in 0.48 Sekunden.
Verarbeite Chunk 12/52
Chunk 12 gespeichert in 0.90 Sekunden.
Verarbeite Chunk 13/52
Chunk 13 gespeichert in 1.16 Sekunden.
Verarbeite Chunk 14/52
Chunk 14 gespeichert in 1.07 Sekunden.
Verarbeite Chunk 15/52
Chunk 15 gespeichert in 1.01 Sekunden.
Verarbeite Chunk 16/52
Chunk 16 gespeichert in 1.09 Se

In [17]:
start_save = time.perf_counter()
print("Speichere FAISS-Index …")
vector_store.save_local(INDEX_PATH)
end_save = time.perf_counter()
print(f"FAISS-Index gespeichert unter '{INDEX_PATH}' in {end_save - start_save:.2f} Sekunden.")
print(f"Gesamtzeit für Embedding + Speichern: {end_save - start_embed:.2f} Sekunden.")

Speichere FAISS-Index …
FAISS-Index gespeichert unter 'faiss_index.faiss' in 0.00 Sekunden.
Gesamtzeit für Embedding + Speichern: 641.53 Sekunden.


In [18]:
prompt_template = """
Du bist ein hilfreicher Assistent für Rechtstexte im Bundesland Salzburg. Unten siehst du Auszüge aus den Salzburger Gesetzestexten.
Nutze nur diese Auszüge, um die Frage zu beantworten.

=== Auszüge ===
{context}

=== Frage ===
{question}

=== Antwort ===
Bitte beantworte die Frage klar und präzise, und nenne dabei die Quelle (URL).
"""
PROMPT = PromptTemplate(input_variables=["context", "question"], template=prompt_template)

In [19]:
query = "Ausgenommen von der Abgabenpflicht sind jedenfalls was?"

In [20]:
results = vector_store.similarity_search_with_score(query, k=10)
print("\nTop-10 ähnliche Chunks für die Query:")
for rank, (doc, score) in enumerate(results, start=1):
    print(f"{rank}. Score = {score:.2f}, Quelle = {doc.metadata['source_url']}")
    print("->", doc.page_content[:120].replace("\n"," "), "…\n")

Verarbeite Chunk 1/1
Chunk 1 gespeichert in 0.34 Sekunden.

Top-10 ähnliche Chunks für die Query:
1. Score = 0.70, Quelle = https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2018.06.2025.pdf
-> Landesrecht Salzburg  www.ris.bka.gv.at Seite 3 von 7  bis zur Meldung an die Gemeinde die Abgabenpflichtigen gemäß Abs  …

2. Score = 0.70, Quelle = https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2018.06.2025.pdf
-> Landesrecht Salzburg  www.ris.bka.gv.at Seite 3 von 7  bis zur Meldung an die Gemeinde die Abgabenpflichtigen gemäß Abs  …

3. Score = 0.70, Quelle = https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2018.06.2025.pdf
-> Landesrecht Salzburg  www.ris.bka.gv.at Seite 3 von 7  bis zur Meldung an die Gemeinde die Abgabenpflichtigen gemäß Abs  …

4. Score = 0.70, Quelle = https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2018.06.2025.pdf
-> Landesrech

In [21]:
retriever = vector_store.as_retriever(search_kwargs={"k": 10})
llm = OllamaLLM(model=LLM_MODEL, temperature=0.0, max_tokens=1024, streaming=True)
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=retriever,
    chain_type_kwargs={"prompt": PROMPT}
)

In [22]:
answer = qa_chain.run(query)
print("\nAntwort:", answer)

  answer = qa_chain.run(query)


Verarbeite Chunk 1/1
Chunk 1 gespeichert in 0.04 Sekunden.

Antwort: Die Frage lautet: Ausgenommen von der Abgabenpflicht sind jedenfalls was?

Die Antwort lautet: Wohnungen, die auch als Hauptwohnsitz oder überwiegend für Zwecke gemäß § 5 Z 17 lit a lit b lit c bzw. § 31 Abs 2 Z 1 ROG 2009 verwendet werden, wobei Eigennutzungen von Apartments in Beherbergungsbetrieben oder Verfügungsrechte über Wohnungen, Wohneinheiten oder Wohnräume, die über einen typischen Beherbergungsvertrag hinausgehen, die Annahme einer touristischen Beherbergung ausschließen.

Die Quelle ist: [https://www.salzburg-baueigentum.de/kommunalabgabe-zweitwohnsitz-2023/](https://www.salzburg-baueigentum.de/kommunalabgabe-zweitwohnsitz-2023/)
