In [1]:
import os
import math
import requests
import faiss
import concurrent.futures
import re
import time

In [2]:
from datetime import date
from bs4 import BeautifulSoup
from urllib.parse import urljoin

In [3]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.text_splitter import CharacterTextSplitter
from langchain.document_loaders import PyPDFLoader
from langchain_ollama.embeddings import OllamaEmbeddings
from langchain_ollama.llms import OllamaLLM
from langchain.vectorstores import FAISS
from langchain.schema import Document
from langchain.prompts import PromptTemplate
from langchain.chains import RetrievalQA
print("Alle Bibliotheken importiert und bereit.")

Alle Bibliotheken importiert und bereit.


In [4]:
EMBEDDING_MODEL = "nomic-embed-text:latest"
LLM_MODEL = "gemma3:1b"
INDEX_PATH = "faiss_index.faiss"
API_URL = "https://data.bka.gv.at/ris/api/v2.6/Landesrecht"
print(f"Konfiguration gesetzt: EMBEDDING_MODEL = {EMBEDDING_MODEL}, LLM_MODEL = {LLM_MODEL}, INDEX_PATH = '{INDEX_PATH}', API_URL = {API_URL}")

Konfiguration gesetzt: EMBEDDING_MODEL = nomic-embed-text:latest, LLM_MODEL = gemma3:1b, INDEX_PATH = 'faiss_index.faiss', API_URL = https://data.bka.gv.at/ris/api/v2.6/Landesrecht


In [5]:
embeddings = OllamaEmbeddings(model=EMBEDDING_MODEL)
llm = OllamaLLM(model=LLM_MODEL)
session = requests.Session()
print("Embeddings- und LLM-Objekte erstellt. Aktuelle Session wurde aufgerufen.")

Embeddings- und LLM-Objekte erstellt. Aktuelle Session wurde aufgerufen.


In [6]:
def extract_pdf_url(ref) -> str | None:
    lrKons = (
        ref.get("Data", {})
           .get("Metadaten", {})
           .get("Landesrecht", {})
           .get("LrKons", {})
    )
    html_url = lrKons.get("GesamteRechtsvorschriftUrl")
    if not html_url:
        return None
    try:
        resp = session.get(html_url, timeout=60)
        resp.raise_for_status()
        soup = BeautifulSoup(resp.text, "html.parser")
        
        a_pdf = soup.find(
            "a",
            href=re.compile(r"\.pdf$"),
            title=lambda t: t and "PDF-Dokument" in t
        )
        if not a_pdf or not a_pdf.has_attr("href"):
            print(f"PDF-Link nicht gefunden in {html_url}")
            return None

        pdf_path = a_pdf["href"]
        pdf_url = urljoin("https://www.ris.bka.gv.at", pdf_path)

        return pdf_url
        
    except Exception as e:
        print(f"Fehler beim Extrahieren der PDF-URL von {html_url}: {e}")
        return None

In [7]:
def load_pdf_pages(pdf_url: str) -> list[tuple[str, str]]:
    try:
        loader = PyPDFLoader(pdf_url)
        docs = loader.load()
        print(f"{len(docs)} Seiten geladen von {pdf_url}")
        return [(pdf_url, doc.page_content) for doc in docs]
    except Exception as e:
        print(f"Fehler beim Laden von {pdf_url}: {e}")
        return []

In [8]:
heute  = date.today().isoformat()
params = {
    "Applikation": "LrKons",
    "Bundesland_SucheInSalzburg": "true",
    "Sortierung_SortDirection": "Descending",
    "DokumenteProSeite": "Ten",
    "Fassung_FassungVom": heute
}
resp = session.get(API_URL, params=params)
resp.raise_for_status()
data = resp.json()
hits = int(data["OgdSearchResult"]["OgdDocumentResults"]["Hits"]["#text"])
page_size = int(data["OgdSearchResult"]["OgdDocumentResults"]["Hits"]["@pageSize"])
total = math.ceil(hits / page_size)

In [9]:
all_refs = []
# for page in range(1, total+1):
for page in range(1, 2):
    params["Seitennummer"] = page
    resp = session.get(API_URL, params=params)
    resp.raise_for_status()
    docs = resp.json()["OgdSearchResult"]["OgdDocumentResults"]["OgdDocumentReference"]
    all_refs.extend(docs if isinstance(docs, list) else [docs])
print(f"Insgesamt {len(all_refs)} Dokumentreferenzen geladen.")

Insgesamt 10 Dokumentreferenzen geladen.


In [10]:
pdf_urls = set()
for ref in all_refs:
    url = extract_pdf_url(ref)
    if url:
        pdf_urls.add(url)
print(f"{len(pdf_urls)} eindeutige PDF-URLs gefunden.")

2 eindeutige PDF-URLs gefunden.


In [11]:
all_sections = []
with concurrent.futures.ThreadPoolExecutor(max_workers=8) as pool:
    futures = [pool.submit(load_pdf_pages, url) for url in pdf_urls]
    for fut in concurrent.futures.as_completed(futures):
        all_sections.extend(fut.result() or [])
print(f"Insgesamt {len(all_sections)} Seitenabschnitte aus PDFs extrahiert.")

1 Seiten geladen von https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001469/Zweitwohnung-Beschr%c3%a4nkungsgemeinden-Verordnung%202024%2c%20Fassung%20vom%2018.06.2025.pdf
7 Seiten geladen von https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2018.06.2025.pdf
Insgesamt 8 Seitenabschnitte aus PDFs extrahiert.


In [12]:
para_docs = []
for url, text in all_sections:
    cleaned = re.sub(r"(\w+)-\n(\w+)", r"\1\2", text)
    cleaned = re.sub(r"(?<!\n)\n(?!\n)", " ", cleaned)
    for para in cleaned.split("\n\n"):
        if para.strip():
            para_docs.append(Document(
                page_content=f"Quelle: {url}\n{para.strip()}",
                metadata={"source_url": url}
            ))

In [13]:
splitter = CharacterTextSplitter(
    separator="\n\n",
    chunk_size=1200,
    chunk_overlap=0
)
chunked_docs = splitter.split_documents(para_docs)
print(f"Insgesamt {len(chunked_docs)} Absatz-Chunks aus PDF extrahiert.")

Insgesamt 8 Absatz-Chunks aus PDF extrahiert.


In [14]:
for i, chunk in enumerate(chunked_docs):
    source = chunk.metadata["source_url"]
    text = chunk.page_content
    snippet = text[:500].replace("\n", " ")

    print(f"\n--- Chunk {i+1}/{len(chunked_docs)} ---")
    print(f"Quelle: {source}")
    print(f"Inhalt (erstes 500 Zeichen): {snippet} …")
    print(f"Länge dieses Chunks: {len(text)} Zeichen")
    print("--- Ende Chunk ---", flush=True)


--- Chunk 1/8 ---
Quelle: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001469/Zweitwohnung-Beschr%c3%a4nkungsgemeinden-Verordnung%202024%2c%20Fassung%20vom%2018.06.2025.pdf
Inhalt (erstes 500 Zeichen): Quelle: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001469/Zweitwohnung-Beschr%c3%a4nkungsgemeinden-Verordnung%202024%2c%20Fassung%20vom%2018.06.2025.pdf Landesrecht Salzburg  www.ris.bka.gv.at Seite 1 von 1  Gesamte Rechtsvorschrift für Zweitwohnung -Beschränkungsgemeinden-Verordnung  2024, Fassung vom 18.06.2025  Langtitel  Verordnung der Salzburger Landessregierung vom 27. Februar 2024, mit der die ZweitwohnungBeschränkungsgemeinden im Land Salzburg bestimmt werden (Zweitwohnung - Besch …
Länge dieses Chunks: 2634 Zeichen
--- Ende Chunk ---

--- Chunk 2/8 ---
Quelle: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2018.06.2025.pdf
Inhalt (erstes 500 Zeichen): Quelle: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20F

In [15]:
class DebugOllamaEmbeddings(OllamaEmbeddings):
    def embed_documents(self, texts: list[str]) -> list[list[float]]:
        total = len(texts)
        results = []
        for i, text in enumerate(texts, start=1):
            start_save_sg = time.perf_counter()
            print(f"Verarbeite Chunk {i}/{total}")
            emb = super().embed_documents([text])[0]
            results.append(emb)
            end_save_sg = time.perf_counter()
            print(f"Chunk {i} gespeichert in {end_save_sg - start_save_sg:.2f} Sekunden.")
        return results

In [16]:
embeddings = DebugOllamaEmbeddings(model=EMBEDDING_MODEL)

In [17]:
start_embed = time.perf_counter()
print(f"Starte Embedding von {len(chunked_docs)} Chunks...")
vector_store = FAISS.from_documents(chunked_docs, embeddings)
end_embed = time.perf_counter()
print(f"Embedding abgeschlossen in {end_embed - start_embed:.2f} Sekunden.")

Starte Embedding von 8 Chunks...
Verarbeite Chunk 1/8
Chunk 1 gespeichert in 1.57 Sekunden.
Verarbeite Chunk 2/8
Chunk 2 gespeichert in 0.58 Sekunden.
Verarbeite Chunk 3/8
Chunk 3 gespeichert in 1.03 Sekunden.
Verarbeite Chunk 4/8
Chunk 4 gespeichert in 1.27 Sekunden.
Verarbeite Chunk 5/8
Chunk 5 gespeichert in 1.16 Sekunden.
Verarbeite Chunk 6/8
Chunk 6 gespeichert in 1.09 Sekunden.
Verarbeite Chunk 7/8
Chunk 7 gespeichert in 1.18 Sekunden.
Verarbeite Chunk 8/8
Chunk 8 gespeichert in 0.41 Sekunden.
Embedding abgeschlossen in 8.30 Sekunden.


In [18]:
start_save = time.perf_counter()
print("Speichere FAISS-Index …")
vector_store.save_local(INDEX_PATH)
end_save = time.perf_counter()
print(f"FAISS-Index gespeichert unter '{INDEX_PATH}' in {end_save - start_save:.2f} Sekunden.")
print(f"Gesamtzeit für Embedding + Speichern: {end_save - start_embed:.2f} Sekunden.")

Speichere FAISS-Index …
FAISS-Index gespeichert unter 'faiss_index.faiss' in 0.00 Sekunden.
Gesamtzeit für Embedding + Speichern: 10.90 Sekunden.


In [19]:
prompt_template = """
Du bist ein hilfreicher Assistent, der Informationen aus dem konsolidierten Landesrecht Salzburgs bereitstellt.
Die Antworten sollen so formuliert sein, dass sie auch ein Laie gut versteht.
Jeder Auszug im Kontext beginnt mit einer Zeile `Quelle: URL`.

=== Auszüge ===
{context}

=== Frage ===
{question}

=== Antwort ===
Bitte beantworte die Frage klar und präzise, erkläre schwierige Begriffe einfach, und gib am Ende die Quelle an.
"""
PROMPT = PromptTemplate(input_variables=["context", "question"], template=prompt_template)

In [20]:
query = "Unter welchen Umständen ist man von der Abgabenpflicht befreit?"

In [21]:
results = vector_store.similarity_search_with_score(query, k=10)
print("\nTop-10 ähnliche Chunks für die Query:")
for rank, (doc, score) in enumerate(results, start=1):
    print(f"{rank}. Score = {score:.2f}, Quelle = {doc.metadata['source_url']}")
    print("->", doc.page_content[:120].replace("\n"," "), "…\n")

Verarbeite Chunk 1/1
Chunk 1 gespeichert in 0.04 Sekunden.

Top-10 ähnliche Chunks für die Query:
1. Score = 0.79, Quelle = https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2018.06.2025.pdf
-> Quelle: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2018.06.2025.pdf Landesrecht …

2. Score = 0.84, Quelle = https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2018.06.2025.pdf
-> Quelle: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2018.06.2025.pdf Landesrecht …

3. Score = 0.94, Quelle = https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2018.06.2025.pdf
-> Quelle: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2018.06.2025.pdf Landesrecht …

4. Score = 0.95, Quelle = https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2018.06.2025.pdf
-> Quelle: ht

In [22]:
retriever = vector_store.as_retriever(search_kwargs={"k": 10})
llm = OllamaLLM(model=LLM_MODEL, temperature=0.0, max_tokens=1024, streaming=True)
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=retriever,
    chain_type_kwargs={"prompt": PROMPT}
)

In [23]:
answer = qa_chain.run(query)
print(answer)

  answer = qa_chain.run(query)


Verarbeite Chunk 1/1
Chunk 1 gespeichert in 0.05 Sekunden.
Hier ist die Antwort auf die Frage, wie man von der Abgabenpflicht befreit ist:

**Unter welchen Umständen ist man von der Abgabenpflicht befreit?**

Es gibt verschiedene Situationen, in denen eine Person von der Abgabenpflicht befreit ist. Die wichtigsten sind:

*   **Verlust der Rechtsfähigkeit:** Wenn eine Person ihre Rechtsfähigkeit verliert (z.B. durch Tod oder eine bestimmte Erkrankung), ist sie in der Regel von ihren Abgabenpflichten befreit.
*   **Ermessensentscheidung des Finanzamtes:** Das Finanzamt kann eine Ermessensentscheidung treffen, die bedeutet, dass eine Person von einer bestimmten Abgabenpflicht befreit wird, wenn die Abgabenpflicht nicht durch die Umstände des Einzelfalls erfüllt werden kann.
*   **Verwaltungsrechtliche Gründe:** Es gibt bestimmte Gründe, die die Abgabenpflicht verringern oder beheben können.

**Kurz gesagt:** Eine Person ist von der Abgabenpflicht befreit, wenn sie ihre Rechtsfähigkeit ver