# 1 Architekturkonzept: Chatbot f√ºr Berliner Gesetze (Open Source)

Ziel ist die Entwicklung eines webbasierten Softwaresystems, das aktuell g√ºltige Berliner Gesetze und Verordnungen aus der Quelle *gesetze.berlin.de* automatisiert verarbeitet, versioniert und Verwaltungsmitarbeitende √ºber einen Chatbot bei der Recherche und Nutzung relevanter Rechtsgrundlagen unterst√ºtzt.

# 2 Entwicklungsschritte als Minimum Viable Produkt (MVP)-Roadmap

1. Problemdefinition und Zielkl√§rung: Festlegung der Zielsetzung, Rahmenbedingungen und Zielgruppe. </br>

2. Strategie und Priorisierung: Definition der Kernfunktionen des Chatbots sowie zugrunde liegender Annahmen.</br>

3. Design und Prototyping:</br>
   - Ausarbeitung des Architekturkonzepts inklusive Architekturskizze (z. B. Mermaid).</br>
   - Definition der Datenfl√ºsse.</br>
   - Auswahl geeigneter Open-Source-Technologien.</br>
   - Bewertung von Risiken und Ableitung von Mitigationsma√ünahmen.</br>

4. Pilotentwicklung: Implementierung eines funktionsf√§higen Prototyps.</br>

5. Rollout und Feedback: Bereitstellung f√ºr erste Nutzer, Erhebung von KPIs und strukturiertem Nutzerfeedback (z. B. Umfragen).</br>

7. Iteration: Kontinuierliche Weiterentwicklung auf Basis der R√ºckmeldungen sowie Anpassung der Roadmap und Fehlerbehebung. </br>

# 3 Frontend-L√∂sungsvorschl√§ge


## 3.1 Variante A - Chatbot Wigdet
Der Chatbot wird als ‚ÄúWidget‚Äù √ºber ein JavaScript-Snippet in die Webanwendung eingebunden. Dazu wird ein Skript (z.B. *chat-widget.js*,) geladen, das ein UI-Element bestehend aus Button und Chatfenster bereitstellt. Nutzereingaben werden √ºber HTTPS (REST) oder WebSocket an das Backend √ºbertragen, das die relevanten Ressourcen von *https://gesetze.berlin.de/bsbe/search* verarbeitet.

**Vorteil:** Einfache Integration in bestehende Seiten bei geringer Kopplung, geeignet f√ºr fr√ºhe Entwicklungsphasen zur Bedarfsermittlung.</br>
**Nachteil:** Authentifizierungsmethoden (z.B. Auth/SSO, Token-√úbergabe an das Widget) m√ºssen sauber umgesetzt werden.

## 3.2 Variante B - ‚ÄúNative‚Äù Integration

Der Chatbot wird als UI-Komponente im bestehenden Frontend (kein iFrame, kein externes Widget) direkt integriert. In der Regel wird dies als (React/Angular) umgesetzt.</br>

**Vorteil:** Konsistentes Design & Nutzererlebnis, direkte Kommunikation mit der Chat-API, Zugriff auf Anwendungskontext (beispielsweise Nutzerrolle, Berechtigungen), h√∂here Performance & Stabilit√§t.</br>
**Nachteil:** Erh√∂hter Implementierungsaufwand.

# 4 Implementierung (nach MVP)

## 4.1 Problemdefinition

Konzeption einer technischen Architektur f√ºr ein webbasiertes Softwaresystem bzw. einen Chatbot zur Unterst√ºtzung der Recherche nach Rechtsgrundlagen in Berliner Gesetzen und Verordnungen.

## 4.2 Strategie & Priorisierung der Kernfunktionen vom Chatbot

**Funktionale Anforderungen an die Applicaction (Kernfunktionen)**
- Der Chatbot muss ausschlie√ülich aktuell guÃàltige Berliner Gesetze und Verordnungen automatisiert verarbeiten.
- Der Chatbot soll die deutsche Sprache als prim√§re Interaktionssprache unterst√ºtzen.
- Die Antworten sollen mindestens Quellenangaben (z.B. ¬ß/Absatz) sowie einen Link zum jeweiligen Dokument enthalten. 
- Der Chatbot soll Feedback-Funktion bereitstellen (z.B.: üëç/üëé, ‚ÄûQuelle unpassend‚Äú, ‚ÄûAntwort unklar‚Äú).
- Der Chatbot soll keine Rechtsberatung bieten, es dient ausschlie√ülich der Assistenz und Recherche.
- Der Chatbot darf nicht ‚Äúlive‚Äù bei jeder Nutzeranfrage auf *gesetze.berlin.de* zugreifen, sondern nutzt einen eigenen lokal regelm√§√üig gepflegten Wissensspeicher.


**Nicht-funktionale Anforderungen an die Applicaction (Kernfunktionen)**
- Der Chatbot weist kurze Reaktionszeiten auf (Angabe fehlt!), um eine hohe Nutzerakzeptanz zu gew√§hrleisten.

**Annahmen und Rahmenbedingungen**
- Die Inhalte von *gesetze.berlin.de* (Berliner Vorschriften- und Rechtsprechungsdatenbank) sind √∂ffentlich zug√§ngliche HTML-Seiten.
- Es d√ºrfen ausschlie√ülich Open-Source-Komponenten eingesetzt werden.
- Das Chatbot-System ist f√ºr interne Verwaltungsmitarbeitende vorgesehen, beispielsweise f√ºr eine Beh√∂rden-/Intranet-Nutzung mit SSO und rollenbasiertem Zugriff.
- Nutzer d√ºrfen keine personenbezogenen Falldaten oder vollst√§ndigen Akteninhalte in den Chat eingeben, Schutz vor Missbrauch.
- Der Limit nach Tokens per Nutzeranfrage (Frontend soft-Limit) ist UX-getrieben. Beispielsweise darf der Nutzer maximal 5.000 Zeichen eintippen (1 Token ‚âà 3‚Äì4 Zeichen im Deutschen (grob)). Backend hard-Limit wird auf 8.000 Zeichen gesetzt.
- Es wird auf LLM-Inference verzichten; der Chatbot ist ausschlie√ülich f√ºr Retrieval und Antwortvorlagen ausgelegt.
- In der initialen Implementierungsphase steht die F√∂rderung der Digitalisierung innerhalb der Senatsverwaltung f√ºr Justiz und Verbraucherschutz im Vordergrund. Dabei d√ºrfte die Akzeptanz der Nutzer, n√§mlich die Verwaltungsmitarbeitende, zu der Applikation nach dem Rollout m√∂glichst hoch sein.

## 4.3 Design & Prototyping

### 4.3.1 Architektureskizze

Quelle: Entworfen in *diagrams.net*.

![xx](./berlin-laws-chatbot-architecture.drawio.png)

### 4.3.2 Verarbeitungsschritte


1. Ein Scheduler startet den regelm√§√üigen Importprozess von Inhalten und stellt die Ausf√ºhrung der Komponenten (Crawler/Fetcher, Parser, SQL-DB, Index, etc.) gem√§√ü definierter Abh√§ngigkeiten sicher. Zeitgesteuerte Datenerfassung (t√§glich/mehrmals t√§glich). 

2. Ein Crawler/Fetcher ruft neue oder ge√§nderte Inhalte von *gesetze.berlin.de* ab und l√§dt diese schonend (Rate Limit, Retry, Caching) herunter (HTML-Seiten). 

3. Die abgerufenen Rohdaten (HTML/PDF?) werden ersioniert in einem internen Object Store gespeichert. S√§mtliche nachgelagerten Verarbeitungsschritte (Parsing, Indexierung, Chat-API) greifen ausschlie√ülich auf diese interne Kopie zu.

4. Ein Parser extrahiert aus den Rohdaten den eigentlichen Gesetzestext, erkennt die Gesetzesstruktur (Titel, ¬ß/Absatz, Nummerierung), extrahiert die Metadaten (Stand, Links, G√ºltigkeit), bereinigt und standardisiert die Texte f√ºr Indexierung und stellt diese als maschinenlesbare Text-Chunks bereit.

5. Die strukturierte Text-Chunks und Metadaten werden in einer SQL-Datenbank als persistente, auditierbare Daten gespeichert.

6. Die Text-Chunks werden in einen Search-Index √ºberf√ºhrt, suchrelevante Felder (Text, ¬ß, Stand) werden indexiert. Der Search Index nimmt die Nutzerfrage entgegen, findet relevante Paragraphen, sortiert sie nach Relevanz, liefert kurze Textausschnitte (Snippets) und √ºbergibt diese an die Chat-API.

7. Ein authentifizierter Nutzer stellt eine Anfrage √ºber das Web-Interface (Chat-Fenster), die Chat-API validiert die Anfrage und Berechtigungen.

8. Die Chat-API (Backend) stellt eine Suchanfrage an den Search-Index. Die relevantesten Text-Chunks werden ermittelt, G√ºltigkeit und Metadaten werden √ºber die SQL-Datenbank verifiziert.

9. Die Antworten-Treffer werden zu einer nutzerfreundlichen Antwort mit Textausschnitten und Quellenangaben zusammengestellt und an das Frontend (Chat-Fenster) zur√ºckgegeben.


### 4.3.3 Systemkomponenten (Open Source)

Note: Die konkrete Auswahl h√§ngt von Betriebsumgebung, Team‚ÄëSkills und Skalierungsbedarf ab.

- **Scheduler & Orchestrator:** Apache Airflow.
- **Crawler/Fetcher:** Scrapy (robust).
- **Object Store:** MinIO.
- **Parser & Normalizer:** BeautifulSoup.
- **SQL-DB:** PostgreSQL.
- **Search Index:** OpenSearch (BM25/Volltextsuche).
- **Vector DB (optional):** findet passende Abs√§tze, auch wenn W√∂rter in der Nutzerfrage nicht exakt √ºbereinstimmen. Ohne Vektor Suche, wird dies nur nach Volltext gef√ºhrt. Tool: Qdrant.
- **Frontend:** Chat UI als Widget OR Iframe OR Native, siehe Kapitel 3.
- **Chat API (Backend):** FastAPI in Python.
- **Auth / SSO:** Keycloak.
- **Observability (optional):** Grafana.

### 4.3.4 Risiken und Herausforderungen

**Rechtliche Compliance**
- Nutzungs-/Lizenzfragen beim automatisierten Abruf und der Weiterverarbeitung (auch wenn Inhalte √∂ffentlich sind), Datenschutz pr√ºfen, ggf. Abstimmung mit Betreiberstelle. 
- Rate Limits: Crawler darf Portal nicht belasten. 

**Qualit√§t**
- Halluzinationen: Im Fall der Nutzung von LLMs.
- Falscher Rechtsstand: Gesetzt hat sich ge√§ndert und noch nicht aktualisiert worden, ‚Äúg√ºltig ab/bis‚Äù.
- Kontextverst√§ndnis: Verwaltungssprache und Abk√ºrzungen, Querverweise zwischen Normen.

**Security**
- Prompt Injection: User versucht Systemregeln auszuhebeln, im Fall der Nutzung von LLMs.
- Datenabfluss: falls Nutzer interne Fallinformationen eintippt.

**Betrieb/Skalierung**
- Hohe Latenz: Caching wichtig.
- Software Update bzw. Rebuilds: Deployment neuer Softwarenversionen soll einwandfrei laufen, getrennte Umgebungen (Dev/Test/Prod).
- Monitoring & Fehlerf√§lle: Beispiel: √Ñnderungen in der  HTML-Struktur der Quelle verursacht das Scheitern vom Parser. 

**Akzeptanz/UX**
- Niedrige Nutzenakzeptanz aufgrund von hoher Latenz, nicht zutreffenden Antworten, unklare Hinweise vom Chatbot, etc.

## 4.4 Ausrollen & Feedback (KPIs)

**KPIs zur Ermittlung der Nutzerakzeptanz:**
- Nutzung: aktive Users, Messages pro Session, etc.
- Erfolg: Task Completion Rate, Anzahl der Antworten als hilfreich markiert, % der Anfragen ohne passende Treffer, etc.
- Vertrauen: Thumbs-Up / Thumbs-Down Ratio, % der gemeldeten Fehler, etc.
- Effizienzgewinn: Anteil der Chats statt klassischer Suche, etc.

Bei Bedarf l√§sst sich daf√ºr ein interaktives Dashboarding in Grafana aufbauen.

## 4.5 Kontinuierliche Weiterentwicklung

Neue Softwareabh√§ngigkeiten, Versions√§nderungen, Bibliotheksupdates, zus√§tzliche Chatbot-Funktionen sowie Debugging f√ºhren zu einer kontinuierlichen Weiterentwicklung des Systems. Diese √Ñnderungen werden versioniert, nachvollziehbar dokumentiert und im Rahmen eines strukturierten Change-Managements umgesetzt. Neue MVP-St√§nde werden iterativ bereitgestellt, der Betrieb der Chatbot-Software darf containerisiert erfolgen (Docker).

# 5 Follow-up

Weitere Ideen:
- Integration von KI-F√§higkeiten, sofern Normen und Datenschutz konform.