In [1]:
import os
import math
import requests
import faiss
import numpy as np
import concurrent.futures
import re

In [2]:
from datetime import date
from bs4 import BeautifulSoup
from urllib.parse import urljoin
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import PyPDFLoader
from langchain_ollama.embeddings import OllamaEmbeddings
from langchain_ollama.llms import OllamaLLM
from langchain.vectorstores import FAISS
from langchain.schema import Document
from langchain.chains import RetrievalQA

In [3]:
print("Alle Bibliotheken importiert und bereit.")

Alle Bibliotheken importiert und bereit.


In [4]:
MODEL_NAME = "deepseek-r1:1.5b"
INDEX_PATH = "faiss_index.faiss"
API_URL = "https://data.bka.gv.at/ris/api/v2.6/Landesrecht"
print(f"Konfiguration gesetzt: MODEL_NAME = {MODEL_NAME}, INDEX_PATH = '{INDEX_PATH}', API_URL = {API_URL}")

Konfiguration gesetzt: MODEL_NAME = deepseek-r1:1.5b, INDEX_PATH = 'faiss_index.faiss', API_URL = https://data.bka.gv.at/ris/api/v2.6/Landesrecht


In [5]:
embeddings = OllamaEmbeddings(model=MODEL_NAME)
llm = OllamaLLM(model=MODEL_NAME)
session = requests.Session()
print("Embeddings- und LLM-Objekte erstellt. Aktuelle Session wurde aufgerufen.")

Embeddings- und LLM-Objekte erstellt. Aktuelle Session wurde aufgerufen.


In [6]:
def fetch_and_parse_ris(ref):
    """
    1) Metadaten holen
    2) HTML-URL abrufen und Seite laden
    3) Mit BeautifulSoup nach dem <a>-Tag für das PDF suchen
    4) Absolute PDF-URL bauen
    5) PDF via PyPDFLoader einlesen und Text zurückliefern
    """
    lrKons = (
        ref.get("Data", {})
            .get("Metadaten", {})
            .get("Landesrecht", {})
            .get("LrKons", {})
    )
    html_url = lrKons.get("GesamteRechtsvorschriftUrl")
    if not html_url:
        return []

    try:
        resp = session.get(html_url, timeout=60)
        resp.raise_for_status()
        soup = BeautifulSoup(resp.text, "html.parser")

        a_pdf = soup.find(
            "a",
            href=re.compile(r"\.pdf$"),
            title=lambda t: t and "PDF-Dokument" in t
        )
        if not a_pdf or not a_pdf.has_attr("href"):
            print(f"PDF-Link nicht gefunden in {html_url}")
            return []

        pdf_path = a_pdf["href"]
        pdf_url = urljoin("https://www.ris.bka.gv.at", pdf_path)

        print(f"Lade PDF: {pdf_url}")
        loader = PyPDFLoader(pdf_url)
        docs = loader.load()
        print(f"{len(docs)} Seiten geladen von {pdf_url}")
        return [(pdf_url, doc.page_content) for doc in docs]

    except Exception as e:
        print(f"Fehler beim Verarbeiten von {html_url}: {e}")
        return []

In [7]:
heute  = date.today().isoformat()
params = {
    "Applikation": "LrKons",
    "Bundesland_SucheInSalzburg": "true",
    "Sortierung_SortDirection": "Descending",
    "DokumenteProSeite": "Ten",
    "Fassung_FassungVom": heute
}
resp = session.get(API_URL, params=params)
resp.raise_for_status()
data = resp.json()
hits = int(data["OgdSearchResult"]["OgdDocumentResults"]["Hits"]["#text"])
page_size = int(data["OgdSearchResult"]["OgdDocumentResults"]["Hits"]["@pageSize"])
total = math.ceil(hits / page_size)

In [8]:
all_refs = []
page = 1
# for page in range(1, total+1):
params["Seitennummer"] = page
resp = session.get(API_URL, params=params); resp.raise_for_status()
docs = resp.json()["OgdSearchResult"]["OgdDocumentResults"]["OgdDocumentReference"]
all_refs.extend(docs if isinstance(docs, list) else [docs])
print(f"Insgesamt {len(all_refs)} Dokumentreferenzen geladen.")

Insgesamt 10 Dokumentreferenzen geladen.


In [9]:
all_sections = []
with concurrent.futures.ThreadPoolExecutor(max_workers=8) as pool:
    futures = [pool.submit(fetch_and_parse_ris, ref) for ref in all_refs]
    for fut in concurrent.futures.as_completed(futures):
        all_sections.extend(fut.result() or [])
print(f"Insgesamt {len(all_sections)} Textabschnitte aus PDFs extrahiert.")

Lade PDF: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001469/Zweitwohnung-Beschr%c3%a4nkungsgemeinden-Verordnung%202024%2c%20Fassung%20vom%2017.06.2025.pdf
Lade PDF: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001469/Zweitwohnung-Beschr%c3%a4nkungsgemeinden-Verordnung%202024%2c%20Fassung%20vom%2017.06.2025.pdf
Lade PDF: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001469/Zweitwohnung-Beschr%c3%a4nkungsgemeinden-Verordnung%202024%2c%20Fassung%20vom%2017.06.2025.pdf
Lade PDF: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2017.06.2025.pdf
Lade PDF: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2017.06.2025.pdf
Lade PDF: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2017.06.2025.pdf
Lade PDF: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2017.06.2025.pdf
Lade PDF: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20

In [10]:
docs = [Document(page_content=text, metadata={"source_url": url})
        for url, text in all_sections]
print(f"Erstellt {len(docs)} LangChain-Dokumente.")

Erstellt 52 LangChain-Dokumente.


In [11]:
splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
chunked_docs = splitter.split_documents(docs)
print(f"Anzahl Chunks: {len(chunked_docs)}")

Anzahl Chunks: 177


In [12]:
for i, chunk in enumerate(chunked_docs):
    source = chunk.metadata["source_url"]
    print(f"\n--- Chunk {i+1}/{len(chunked_docs)} ---")
    print(f"Quelle: {source} ---")
    print(chunk.page_content)
    print("--- Ende Chunk ---")


--- Chunk 1/177 ---
Quelle: https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001469/Zweitwohnung-Beschr%c3%a4nkungsgemeinden-Verordnung%202024%2c%20Fassung%20vom%2017.06.2025.pdf ---
Landesrecht Salzburg 
www.ris.bka.gv.at Seite 1 von 1 
Gesamte Rechtsvorschrift für Zweitwohnung -Beschränkungsgemeinden-Verordnung 
2024, Fassung vom 17.06.2025 
Langtitel 
Verordnung der Salzburger Landessregierung vom 27. Februar 2024, mit der die Zweitwohnung-
Beschränkungsgemeinden im Land Salzburg bestimmt werden (Zweitwohnung -
Beschränkungsgemeinden-Verordnung 2024) 
StF: LGBl Nr 26/2024 
Präambel/Promulgationsklausel 
Auf Grund des §  31 Abs  1 des Salzburger Raumordnungsgesetzes  2009 – ROG 2009, LGBl 
Nr 30/2009, in der geltenden Fassung wird verordnet: 
Text 
Zweitwohnung-Beschränkungsgemeinden 
§ 1 
Im Land Salzburg werden als Zweitwohnung-Beschränkungsgemeinden bestimmt: 
 1. im Flachgau die Gemeinden: Anif, Ebenau, Elixhausen, Elsbethen, Faisten au, Fuschl am See, 
Großgmain, Hallwang, Hen

In [13]:
vector_store = FAISS.from_documents(chunked_docs, embeddings)
vector_store.save_local(INDEX_PATH)
print(f"FAISS-Index gespeichert unter '{INDEX_PATH}'.")

FAISS-Index gespeichert unter 'faiss_index.faiss'.


In [14]:
query = "Welche Gemeinden im Pongau sind Zweitwohnung-Beschränkungsgemeinden?"

In [15]:
results = vector_store.similarity_search_with_score(query, k=10)
print("\nTop-10 ähnliche Chunks für die Query:")
for rank, (doc, score) in enumerate(results, start=1):
    print(f"{rank}. Score={score:.2f}, Quelle={doc.metadata['source_url']}")
    print(">", doc.page_content[:120].replace("\n"," "), "…\n")


Top-10 ähnliche Chunks für die Query:
1. Score=0.33, Quelle=https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2017.06.2025.pdf
> Abgabenschuldner für diesen Monat allein die Abgabe zu entrichten.  (4) Die Abgabenschuldner haben bei der Abgabenbehörd …

2. Score=0.33, Quelle=https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2017.06.2025.pdf
> Abgabenschuldner für diesen Monat allein die Abgabe zu entrichten.  (4) Die Abgabenschuldner haben bei der Abgabenbehörd …

3. Score=0.33, Quelle=https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2017.06.2025.pdf
> Abgabenschuldner für diesen Monat allein die Abgabe zu entrichten.  (4) Die Abgabenschuldner haben bei der Abgabenbehörd …

4. Score=0.33, Quelle=https://www.ris.bka.gv.at/GeltendeFassung/LrSbg/20001389/%20ZWAG%2c%20Fassung%20vom%2017.06.2025.pdf
> Abgabenschuldner für diesen Monat allein die Abgabe zu entrichten.  (4) Die Abgabenschuld

In [16]:
retriever = vector_store.as_retriever(search_kwargs={"k":10})
qa_chain  = RetrievalQA.from_chain_type(
    llm=llm, chain_type="stuff", retriever=retriever
)

In [None]:
answer = qa_chain.run(query)
print("\nAntwort:", answer)

  answer = qa_chain.run(query)
