# Goal and Motivation

The goal of the project stems from the problem that legal documents are large in size and interwoven.   
Oftentimes, questions are hard to link to the right and relevant articles.   
One reason for this is that titles of articles are often not precise enough for the average person to find the answers they need.   
Furthermore, it usually takes a lot of time to find the right content,   
especially when multiple legal documents are connected and therefore need to be consulted together.  

The goal of this project, therefore, is to create a RAG-Bot that can take user inputs in the form of a legal question and return relevant articles and provide responses that can help the user continue their research.   
It is important to state that AI itself should NOT be used to provide legally binding responses. So the response should only be seen as a way to find the most relevant legal texts that should be consulted by the users themselves.  

My personal motivation derives from my employment in HR, where many employees are very unfamiliar with the legal bases they need to adhere to.   
Also, many of the employees within HR need to dedicate time to find the right legal groundwork when responding to questions posed by other employees.   
This bot can help reduce the research time by finding and providing relevant articles that correspond to the question at hand.  

# Modeling

My RAG bot uses multiple Documents as basis to provide relevant answers. 
These documents are:   
    -Personalrecht der Stadt Zürich incl. Ausführungsbestimmungen  
    -Arbeitsgesetz der Schweiz  
    -Kaderärztereglement des Stadtspitals Zürich  
    -Pausenreglement des Stadtspitals Zürich  
    -Pikettreglement des Stadtspitals Zürich  
    -Regelement zum Bereitschaftsdienst des Stadtspitals Zürich  
    -Gesamtspitalweisung für Oberärzte*innen des Stadtspitals Zürich  


# Approach 1: PDF Embedding and Chroma_db:

All data are originally PDF documents. At first, I tried to perform my request using a "standard" RAG embedding/retrieval. Therefore, I used the whole PDF and split/embedded them.

Here is an example for the search query "Was sind Nachtzulagen":

![image.png](img/PR_embedding_whole_pdf.png)

The result seemed promising, even though not really surprising as articles usually don't have much overlapping content and articles focus on individual topics. The problems arose when looking at the actual responses retrieved by the RAG request:


Extarct of the Result on the request "Was sind Nachtzulagen" 
*******************************************************


Chunk ID: 421, Content: 62 89, 91, 92 
Treueprämie: Berechnung 13, 62 88, 91, 191 
Treueprämie: Teilprämie  90 
 223 Schlagwort PR Art. AB PR Art. 
Treueurlaub  135 
U   
Überbrückungszuschuss 27  
Übergangsbestimmungen 89 187ff 
Überleitung 89 187, 188 
Überstunden → siehe Überzeit   
Überwachung  55 
Überzeit: Barvergütung von 
Mahlzeiten  109 
Überzeit: Grundsätze  162, 167, 
173 

Chunk ID: 207, Content: passen. 
Art. 177 Abweichende Zuschläge für Nacht- und  
Sonntagsarbeit 
Von Art. 176 abweichende Stunden zuschläge gelten aufgrund 
der besonderen Arbeitszeiten für die folgenden Personalgrup-
pen: 
a)  Vereinsabwartinnen und -abw arte, Badaufsichten, Spette-
rinnen und Spetter der Abte ilung Anlagen und Schulsport 
des Sportamtes: Zuschlag für Sonn- und Feiertagsdienste Fr. 4.20 je Stunde, kein Zuschlag für Nachtdienst; 
b)  Tätigkeit als Abend- un d Wochenendsupporterin oder 
-supporter im Ausbildungsz entrum von Schutz und Rettung 
Zürich: Zuschlag für Sonn- und Feiertagsdienste Fr. 4.20 je Stunde, kein Zuschlag für Nachtdienst; 
c)  Aufsichtspersonal im Museum Rietberg, Strauhof und 
Helmhaus: Zuschlag für Nacht-, Sonn- und Feiertagsdienst Fr. 4.20 je Stunde. 
Ausführungsbestimmungen zum Personalrecht  
 107 Art. 178 Zeitkompensation für Nachtdienst 
1Die Angestellten, mit Ausnahme der Ärztinnen und Ärzte und 
derjenigen Angestellten der Verkehr sbetriebe, die dem Arbeits-
zeitges
Chunk ID: 0, Content: 177.100 
177.101 
 
 
  
Personalrecht
Verordnung
über das Arbeitsverhältnis
des städtischen Personals und
Ausführungsbestimmungen
Gültig ab 1. Juli 2002
Nachgeführt bis 7. Februar 2007
 
 
  
 I Verordnung über das Arbei tsverhältnis des städtischen 
Personals (Personalrecht) 
 
Titelverzeichnis  
Titel  Artikel PR Seite 
I. Allgemeine Bestimmungen  1 - 4 1 
 A. Geltungsbereich 1 1 
 B. Begriffe 2 2 
 C. Personalpolitik 3 – 3bis 2 
Personalverbände 70, 71, 74 10, 131, 
143, 144, 
147 
Personalvermittlung  16 
Personalvorschriften  21 
Personendaten 42ff 17, 44ff 
Persönlichkeitsschutz 20, 68 96, 150 
Pflege kranker  Familienmitglieder  129 
Pflegekindverhältnis  128, 130 
Pflichten der Angestellten 77ff 149ff 
 219 Schlagwort PR Art. AB PR Art. 
Pikettdienst  172, 173 
Polizeilicher Führungsbericht  19 
Praktikum 12  
Prämien 59 68, 148 
Praxisberatung  11 
Private Abwesenheiten  161 
Probezeit 14 29, 122 
Prozesskosten 36 42 
Q   
Qualitätszirkel 76  
R   
Recht auf Begründung 17, 38  
Recht auf Berichtigung 45 19, 49, 142 
Recht auf Einsicht/Auskunft 45, 46 19, 47 ,48 
Rechte der Angestellten 68ff 96ff 
Rechtliches Gehör 37 19, 34 
Rechtsmittel 39  
Rechtsmittelbelehrung 17, 38  
Rechtsschutz 36 42 
Referenzauskunft  17, 51 
Regelarbeitszeit  157 
Reintegration  9 
Rekurs 39  
Reorganisation  16 
Rotkreuzdienst  126 
220 Schlagwort PR Art. AB PR Art. 
Ruhetage 81 58, 73, 157, 
169 
Ruhezeit  123, 167, 
178 
S 
Chunk ID: 27, Content: chutzbeau ftragte oder den Datenschutzbe-
auftragten, die Stadtamtsfrauen und Stadtammänner, Friedens-
richterinnen und Friedensricht er, Schulpräsidentinnen und 
Schulpräsidenten gilt das Persona lrecht sinngemäss, soweit 
nicht besondere Best immungen bestehen. 
Personalrecht  
2 B. Begriffe 
Art. 2 Angestellte; Anstellungsinstanz  
1Angestellte sind Personen, die unb efristet oder befristet mit ei-
nem vollen oder teilweisen Pensum  im städtischen Dienst ste-
hen. 

******************************************
Even though the response was not completely wrong given the returned response of Article 177., yet it was evident that splitting legal documents created a problem. Articles are self-contained pieces of information that need to be considered independently of each other but also in full. So giving this response to an LM would yield limited results.

Additionally, there was a second problem. Combining different articles together led to a situation where sometimes the question would be part of multiple articles originating from different legal bases. Depending on the circumstances, only some of the articles are relevant, and therefore only those should be returned to the user and processed by the LM to provide the best possible result.

By combining the documents in different versions, this could reduce the problem. This led to a situation where I had to use multiple embeddings and vector stores, then only retrieve the one relevant to the question and situation.

While complicating things, it turned out to work to some capacity. In the end, I abandoned this approach as I was unable to reliably filter articles as a whole to provide to the LM for further processing.




This Version of the project can be found in the following github repo: https://github.com/JanoshWerlen/RAG_Bot_STZ
it can be run using "python app.py" and accessing the Interface via a Browser. 

# Approach 2: using JSON

In my second atempt i decided that the data i am working with needs to be handeled differently and preprocessed before beeing able to yield good results. 

So i decided to parse all the Articles into JSON and embedd them in whole.  
As all original docuements are formatted differently and also vary in machine-readability i parsed them using GPT-4o,   
promting it to parse the articles into the given JSON format. 

The result can be found here: [data/1_documents_json](App/data/1_documents_json/)


I then used two differen models to embedd the individual documents as well as combinations of parsed articles into groups that represent the relevant legal grounds for the different groups i decided to implement in my bot.
  
Groups:  
    - Nicht-Ärztliches Personal   
    - Assistenzärzte  
    - Ärztliches Personal excl. Assistenzärzte  
    - Wildcard / Alle Artikel kombiniert.   

The combinations of these groups were then embedded using the following code: 





In [None]:
import openai
import os
from openai import OpenAI
from dotenv import load_dotenv
import json
import numpy as np
import faiss

load_dotenv()

openai.api_key = os.getenv('OPENAI_API_KEY')


def get_embedding(text, tags, type, model="text-embedding-3-large"):
    text = text.replace("\n", " ")
    combine = text + " " .join(tags) + " " .join(type)
    return openai.embeddings.create(input=[combine], model=model).data[0].embedding

def load_json(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        return json.load(file)

def save_json(data, file_path):
    with open(file_path, 'w', encoding='utf-8') as file:
        json.dump(data, file, indent=4, ensure_ascii=False)

file_path = 'APP/data/KAR/KAR.json'
data = load_json(file_path)
file_path_new = 'APP/data/KAR/KAR_embedded.json'

for article in data:
    article_text = article['text']
    article_tags = article['metadata']['tags']
    article_type = article['metadata']['type']
    article['embedding'] = get_embedding(article_text, article_tags, article_type)

save_json(data, file_path_new)

embeddings = np.array([article['embedding'] for article in data]).astype('float32')

base_index = faiss.IndexFlatL2(embeddings.shape[1])

index = faiss.IndexIDMap(base_index)

# IDs for the articles
ids = np.array([i for i in range(len(data))], dtype='int64')

# Add vectors and their IDs to the index
index.add_with_ids(embeddings, ids)

# Save the index to disk
faiss.write_index(index, "APP/data/KAR/KAR.index")


The embedded results can be viewed here: [Embeddings](App\data\2_embedded)  
Now that I had different embeddings of different combinations of legal documents, I evaluated them on how well the returned relevant and similar results.

# Evaluation

The evaluations can be found here: [Evaluation](Evaluate.ipynb)  
The results were promising. Evaluating the results of the same query over different versions of embeddings yielded good results. The returned articles were relevant given a relevant user input.

One exaple is the result here given the input "Was sind die Pausenregelungen?"  
that was improved to :  
"Was sind die gesetzlich vorgeschriebenen Pausenregelungen für Angestellte am Stadtspital Zürich in der Schweiz?  
Wie sind die Arbeitszeiten und Pausen am Stadtspital Zürich in der Schweiz geregelt?  
Gibt es spezifische Regelungen für Mindestpausen und Ruhezeiten für Arbeitnehmer am Stadtspital Zürich in der Schweiz?  
Welche Vorschriften gelten bezüglich Pausenregelungen für Mitarbeiter des Stadtspitals Zürich in der Schweiz?  
Welche Pausenregelungen müssen gemäß schweizerischem Arbeitsrecht am Stadtspital Zürich eingehalten werden?"    
by an impovment LM function :  
![image.png](img\PR_embedding_json.png)
 

 Here we can see that one of the top results:  
 Article ID: 284 PReg, Pausenregelung für Assistenzärztinnen und -ärzte  
 should not the relevant here, as this combination of articles is not intended to be used for Assistenzärzt. So I filtered my Articles and removed all irrlevant Articles that were still in my data.
