# 1 Architekturkonzept: Chatbot f√ºr Berliner Gesetze (Open Source)

Ziel ist ein webbasiertes Softwaresystem, das aktuell g√ºltige Berliner Gesetze und Verordnungen aus der Quelle *gesetze.berlin.de* automatisiert verarbeitet, versioniert und Verwaltungsmitarbeitende √ºber einen Chatbot beim Auffinden und Verstehen relevanter Rechtsgrundlagen unterst√ºtzt.

# 2 Entwicklungsschritte als Minimum Viable Produkt (MVP)-Roadmap

1. Problemdefinition, Zielsetzung, Definition der Ziele bzw. Rahmenbedingungen, Zielgruppe. </br>

2. Strategie & Priorisierung der Kernfunktionen vom Chatbot, Annahmen.</br>

3. Design & Prototyping:</br>
   - Architekturkonzept erarbeiten inkl. Architekturskizze, beispielsweise als Mermaid.</br>
   - Datenfl√ºsse setzen.</br>
   - Open Source Technologien definieren.</br>
   - Risiken evaluieren und Mitigationsstrategie.</br>

4. Entwicklung eines Pilots.</br>

5. Ausrollen & Feedback: Ver√∂ffentlichung bei fr√ºhen Nutzern, Sammeln von Daten (KPIs) und direktem Feedback (Umfrage).</br>

7. Iteration: Nutzung des Feedbacks, um das Produkt schrittweise zu verbessern und die Roadmap f√ºr die n√§chste Version anzupassen. Debugging. </br>


# 3 Frontend L√∂sungsvorschl√§ge


## 3.1 Variante A - Chatbot Wigdet
Der Chatbot wird als ‚ÄúWidget‚Äù per JavaScript-Snippet implementiert, wodurch ein kleines Script in die Webanwendung einzubinden ist.
Das Frontend l√§dt beispielsweise das Script *chat-widget.js*, ein Widget bestehend aus Button plus Chatfenster wird eingebunden. Die Nutzer-Nachrichten (Anfragen) gehen per HTTPS Protokoll (REST Architektur) oder WebSocket an das Backend, um die Ressourcen von *https://gesetze.berlin.de/bsbe/search* abzurufen.

**Vorteil:** Einfach zu integrieren in bestehende Seiten, wenig Coupling. Geeignet f√ºr eine erste Entwicklunsphase, um den Bedarf der Nutzer zu messen.</br>
**Nachteil:** Authentifizierungsmethode wie Auth/SSO (Token ans Widget) sollen einwandfrei gel√∂st werden.

## 3.2 Variante B - ‚ÄúNative‚Äù Integration

Der Chatbot wird als UI-Komponente im bestehenden Frontend (kein iFrame, kein externes Widget) direkt integriert. In der Regel wird dies als (React/Angular) umgesetzt.</br>

**Vorteil:** Konsistentes Design & UX, direkte Kommunikation mit der eigenen Chat API, direkter Zugriff auf Anwendungskontext (Nutzerrolle, Berechtigungen), bessere Performance & Stabilit√§t.</br>
**Nachteil:** H√∂herer Implementierungsaufwand.

# 4 Implementierung (nach MVP)

## 4.1 Problemdefinition

Technische Architektur eines webbasierten Softwaresystems bzw. eines Chatbots, der zur Unterst√ºtzung bei der Recherche von Rechtsgrundlagen in Berliner Gesetze und Verordnungen per Chatbot dient.


## 4.2 Strategie & Priorisierung der Kernfunktionen vom Chatbot

**Funktionale Anforderungen an die Applicaction (Kernfunktionen)**
- Der Chatbot muss nur aktuelle guÃàltige Berliner Gesetze und Verordnungen automatisch verarbeitet.
- Der Chatbot soll die deutsche Sprache (native) unterst√ºtzen. Typische Verwaltungsfragen sind auf Deutsch, Webseite (Quelle) ebenfalls auf Deutsch aufgebaut.
- Der Chatbot soll als Umfang der Antworten mindestens Zitaten von Quellen (¬ß/Absatz) und Link zum Dokument liefern. 
- Der Chatbot soll Feedback-Funktion enthalten (z.B.: üëç/üëé, ‚ÄûQuelle unpassend‚Äú, ‚ÄûAntwort unklar‚Äú).
- Der Chatbot soll keine Rechtsberatung bieten, es ist nur f√ºr Assistenz und Recherche gedacht.
- Der Chatbot darf nocht ‚Äúlive‚Äù bei jeder Nutzerfrage auf *gesetze.berlin.de* zugreifen, sondern auf einen eigenen, lokal regelm√§√üig gepflegten Wissensspeicher.


**Nicht-funktionale Anforderungen an die Applicaction (Kernfunktionen)**
- Der Chatbot soll m√∂glichst schnelle Reaktionszeit (Angabe fehlt!) zeigen, um hohe Nutzerakzeptanz zu erzielen.

**Annahmen und Rahmenbedingungen**
- Die Inhalte von *gesetze.berlin.de* (Berliner Vorschriften- und Rechtsprechungsdatenbank) sind √∂ffentlich zug√§ngliche (HTML-Seiten).
- F√ºr die Anwendungen d√ºrfen ausschlie√ülich nur Open-Source-Komponente verwendet werden.
- Das Chatbot-System ist intern f√ºr Verwaltungsmitarbeitende gedacht, eventuell f√ºr ein Beh√∂rden-/Intranet-Use Case gedacht: SSO, rollenbasierter Zugriff.
- Bez√ºglich Datenschutz: Nutzer sollen keine personenbezogenen Falldaten in den Chat kopieren. Ebenfalls kein Copy-Paste ganzer Akten, Schutz vor Missbrauch.
- Der Limit nach Tokens per Nutzeranfrage (Frontend soft-Limit) ist UX-getrieben. Beispielsweise darf der Nutzer maximal 5.000 Zeichen eintippen (1 Token ‚âà 3‚Äì4 Zeichen im Deutschen (grob)). Backend hard-Limit wird auf 8.000 Zeichen gesetzt.
- Es wird auf LLM-Inference verzichten, Chatbot nur f√ºr Retrieval und Antwortvorlagen konzipiert.
- In einer ersten Implementierungsphase ist das Hauptziel, Digitalisierung mithilfe von modernen webbasierten Applikationen innerhalb der Senatsverwaltung f√ºr Justiz und Verbraucherschutz voranzutreiben. Dabei d√ºrfte die Akzeptanz der Nutzer, n√§mlich die Verwaltungsmitarbeitende, zu der Applikation nach dem Ausrollen hoch sein.

## 4.3 Design & Prototyping

### 4.3.1 Architektureskizze

Quelle: Entworfen in *diagrams.net*.

![xx](./berlin-laws-chatbot-architecture.drawio.png)

### 4.3.2 Verarbeitungsschritte


1. Ein Scheduler startet regelm√§√üig den Importprozess von Inhalten und sichert, dass andere Komponenten nach definierter Reihenfolge und Abh√§ngigkeiten laufen (Crawler/Fetcher, Parser, SQL-DB, Index, etc.). Zeitgesteuerte Datenerfassung (t√§glich/mehrmals t√§glich). 

2. Der Crawler/Fetcher ruft neue oder ge√§nderte Inhalte von *gesetze.berlin.de* ab. Er sucht nach √Ñnderungen und l√§dt diese Inhalte schonend (Rate Limit, Retry, Cache) herunter (HTML-Seiten). 

3. Die abgerufenen Dokumente bzw. Rohdaten (HTML/PDF?) werden intern im Object Store versioniert gespeichert. S√§mtliche nachgelagerten Verarbeitungsschritte (Parsing, Indexierung, Chat API) greifen ausschlie√ülich auf diese interne Kopie zu.

4. Ein Parser extrahiert aus den Rohdaten den eigentlichen Gesetzestext, erkennt die Gesetzesstruktur (z. B. ¬ß, Titel, Absatz, Nummerierung) und extrahiert die Metadaten (Stand, Links, G√ºltigkeit). Die Texte werden bereinigt und standardisiert f√ºr Indexierung. Das Ergebnis sind strukturierte, normalisierte, maschinenlesbare Text-Chunks (Beispiel: JSON) mit Metadaten. 

5. Die strukturierte Text-Chunks und deren Metadaten werden in einer SQL-Datenbank gespeichert. Sommit werden persistent auditierbare Daten zur Verf√ºgung gestellt, als auditierbare ‚ÄúSingle Source of Truth‚Äù.

6. Die Text-Chunks werden in einen Search-Index √ºberf√ºhrt, suchrelevante Felder (Text, ¬ß, Stand) werden indexiert. Der Search Index nimmt die Nutzerfrage entgegen, findet relevante Paragraphen, sortiert sie nach Relevanz, liefert kurze Textausschnitte (Snippets) und √ºbergibt diese an die Chat API.

7. Ein authentifizierter Nutzer stellt eine Frage √ºber das Web-Interface (Chat-Fenster). Die Chat API validiert die Anfrage und Berechtigungen (Auth/SSO), dann eine g√ºltige, verarbeitbare Anfrage liegt vor.

8. Die Chat API (Backend) stellt eine Suchanfrage an den Search-Index. Die relevantesten Text-Chunks werden ermittelt, G√ºltigkeit und Metadaten werden √ºber die SQL-Datenbank verifiziert.

9. Die Antworten-Treffer werden zu einer nutzerfreundlichen Antwort zusammengestellt und in Form von Snippets und Quellenangaben (Dokument, ¬ß, Absatz) an das Frontend (Chat-Fenster) zur√ºckgegeben.


### 4.3.3 Systemkomponenten (Open Source)

Note: Die konkrete Auswahl h√§ngt von Betriebsumgebung, Team‚ÄëSkills und Skalierungsbedarf ab.

- **Scheduler & Orchestrator:** Apache Airflow.
- **Crawler/Fetcher:** Scrapy (robust).
- **Object Store:** MinIO.
- **Parser & Normalizer:** BeautifulSoup.
- **SQL-DB:** PostgreSQL.
- **Search Index:** OpenSearch (BM25/Volltextsuche).
- **Vector DB (optional):** findet passende Abs√§tze, auch wenn W√∂rter in der Nutzerfrage nicht exakt √ºbereinstimmen. Ohne Vektor Suche, wird dies nur nach Volltext gef√ºhrt. Tool: Qdrant.
- **Frontend:** Chat UI als Widget OR Iframe OR Native, siehe Kapitel 3.
- **Chat API (Backend):** FastAPI in Python.
- **Auth / SSO:** Keycloak.
- **Observability (optional):** Grafana.

### 4.3.4 Risiken und Herausforderungen

**Rechtliche Compliance**
- Nutzungs-/Lizenzfragen beim automatisierten Abruf und der Weiterverarbeitung (auch wenn Inhalte √∂ffentlich sind), Datenschutz pr√ºfen, ggf. Abstimmung mit Betreiberstelle. 
- Rate Limits: Crawler darf Portal nicht belasten. 

**Qualit√§t**
- Halluzinationen: Im Fall der Nutzung von LLMs.
- Falscher Rechtsstand: Gesetzt hat sich ge√§ndert und noch nicht aktualisiert worden, ‚Äúg√ºltig ab/bis‚Äù.
- Kontextverst√§ndnis: Verwaltungssprache und Abk√ºrzungen, Querverweise zwischen Normen.

**Security**
- Prompt Injection: User versucht Systemregeln auszuhebeln, im Fall der Nutzung von LLMs.
- Datenabfluss: falls Nutzer interne Fallinformationen eintippt.

**Betrieb/Skalierung**
- Hohe Latenz: Caching wichtig.
- Software Update bzw. Rebuilds: Deployment neuer Softwarenversionen soll einwandfrei laufen, getrennte Umgebungen (Dev/Test/Prod).
- Monitoring & Fehlerf√§lle: Beispiel: √Ñnderungen in der  HTML-Struktur der Quelle verursacht das Scheitern vom Parser. 

**Akzeptanz/UX**
- Niedrige Nutzenakzeptanz aufgrund von hoher Latenz, nicht zutreffenden Antworten, unklare Hinweise vom Chatbot, etc.

## 4.4 Ausrollen & Feedback (KPIs)

**KPIs zur Messung der Nutzerakzeptanz:**
- Nutzung: aktive Users, Messages pro Session, etc.
- Erfolg: Task Completion Rate, Anzahl der Antworten als hilfreich markiert, % der Anfragen ohne passende Treffer, etc.
- Vertrauen: Thumbs-Up / Thumbs-Down Ratio, % der gemeldeten Fehler, etc.
- Effizienzgewinn: Anteil der Chats statt klassischer Suche, etc.

Bei Bedarf l√§sst sich daf√ºr ein interaktives Dashboarding in Grafana aufbauen.

## 4.5 Iteration

Neue Software Dependencies, Versionen und Releases, Prgrammerungsprache-Bibliotheken, neue Chatbot Features, Debugging, etc. f√ºhren zu einer Weiterentwicklung und Verbesserung des Chatbots. Dies soll m√∂glichst versioniert und gut kommentiert sein. Zu beachten: Change Managemnent (CM), neue MVPs, Chatbot-Softwarel√∂sung containerisiert in Docker betreiben, etc.

# 5 Follow-up

Weitere Ideen:
- Integration von KI-F√§higkeiten, falls Normen und Datenschutz konform.