# Modul 08 Large Language Models und Retrieval Augmented Generation

## Das Szenario 

<div class="alert alert-block alert-info"> Das Unternehmen Alstrom produziert Straßenbahnen. Sie sind neuen Technologien gegenüber sehr aufgeschlossen und haben die Idee einen <b> intelligenten Wartungsassistent </b> für die Produktionslinie B zu entwickeln.

<b>Ziel:</b> Der Assistent soll Technikern bei der <b> Fehlerdiagnose und Wartung von Fertigungsrobotern </b> und Montageanlagen helfen. Die Techniker geben ihre Beobachtung oder Fehldercodes in ein Chatfenster ein und der Wartungsassistent gibt Ihnen eine Handlungsempfehlung. 

Der Manager schlägt vor, <b>ChatGPT</b> für diese Aufgabe zu nutzen, während der Meister sagt, dass es ein <b>RAG-System</b> brauchst.

<b> Deine Aufgabe im Laufe dieses Notebooks ist es, das RAG-System zu implementieren und dessen Performance mit der von ChatGPT zu vergleichen. Die Ergebnisse deines Vergleichs präsentierst du Meister und Manager. </b>

 </div>

![Platzhalter](pictures/Produktionslinie.jpg)



## Überblick

Dieses Notebook leitet dich durch die notwendigen Schritte. 
<ul>
<li> Die Basis für einen Test erstellen </li>
<li> Option A testen und bewerten</li>
<li> Option B testen und bewerten</li>
<li> Option A und B miteinander vergleichen </li>
</ul>




## 1. Die Basis für einen Test erstellen

Um die beiden Optionen, welche wir testen sollen, gut miteinander vergleichen zu können und dem Vorgesetzten erklären zu können, welche besser geeignet ist, brauchen wir erstmal einen geeigneten Maßstab. Das ist vergleichbar mit den <i> Performance Metriken, </i> die du aus den anderen Modulen bereits kennst. 
Beim Arbeiten mit Textdaten heißen diese <i> Benchmarks </i> und sind speziell angefertigte Datensätze. **Eine solche Benchmark wirst du nun selbst erstellen.** 

Dafür musst du dich ein wenig mit den Daten aus der Produktionslinie B vertraut machen. Im Ordner **Alstrom_Dokumentation** findest du jede Menge Dokumente aus dem Unternehmen.  

<div class="alert alert-block alert-success">
<b>Auftrag:</b> Sieh dir die Dokumente in dem Order an und überlege dir:
<ul>
<li> 1. eine Frage, mit welchem du den Wartungsassitent testen willst
<li> 2. die ideale Antwort, die der Wartungsassistent geben sollte
</ul>

Versuche dabei Fragen zu stellen, auf die es <b>konkrete Antworten</b> gibt, z.B Wer muss informiert werden, wenn ... passiert?, Wo finde ich ... ?, etc. </div>


### Frage-Antwort-Paar in die Datei <i>Benchmark.json</i> eintragen

<div class="alert alert-block alert-success">
<b>Auftrag:</b> 
Um das Paar aus Frage und idealer Antwort in die Benchmark einzutragen, führe die nächste Codezelle aus. Gib im Eingabefeld die Frage ein, bestätige mit <i> Enter</i>; gib dann die richtige Antwort ein und bestätige wieder mit <i> Enter</i>. 
</div>


In [None]:
from helpers.query_helpers import fill_bench_df

bench = fill_bench_df(question="", ground_truth="", GPT_answer="", GPT_score="", RAG_answer="", RAG_relevance="", RAG_use="", RAG_completeness="" )
print(bench)

### Prüfen ob die Eintragung funktioniert hat

![Platzhalter](pictures/Explorer.png)  


Im VSCode-Explorer siehst du nun ein Dokument namens <i>benchmark.json</i>. Klicke darauf, um es zu öffnen.

![Platzhalter](pictures/JC_Button.png)

Klicke dann auf den Button <i> JC</i> oben rechts. Dann erhälts du eine übersichtliche Darstellung deines Eintrags.

![Platzhalter](pictures/json.png)



## 2. Option A (ChatGPT) testen

Nun geht es darum Option A zu testen. D.h. zu prüfen, wie **ChatGPT** die von dir ausgewählte Frage beantwortet. Die Antwort und deine Bewertung trägst du anschließend auch in die Benchmark ein, um sie später besser präsentieren zu können.

![Platzhalter](pictures/LLM_diagramm.png)

Nachdem ChatGPT schon ein fertiges Produkt ist, musst du nicht mehr viel vorbereiten. Auf dem anderen Bildschirm siehst du bereits einen Tab geöffnet, in diesem kannst du mit dem Modell **ChatGPT** chatten. 

<div class="alert alert-block alert-success">
<b>Auftrag:</b> Stelle nun die Frage aus deiner Benchmark an ChatGPT. </div>


<div class="alert alert-block alert-success">
<b>Auftrag:</b> Um die Antworten von ChatGPT in deinen Datensatz zu integrieren, führe die nächste Codezelle aus. Gibt dann zunächst die <b>id </b> der Frage ein, bestätige mit <i> Enter</i>; kopiere dann die Antwort von <b> ChatGPT</b> aus dem Terminal und füge sie in die Eingabezeile ein. Bestätige wieder mit <i> Enter</i>. </div>


In [None]:
from helpers.query_helpers import insert_GPT_answer
bench = insert_GPT_answer()


### Qualitative Bewertung

In deinem Datensatz hast du nun die richtige Antwort und die Antwort von ChatGPT nebeneinander stehen. Sieh dir die beiden Antworten an und bewerte die Performance von ChatGPT. Du kannst zwischen 0 und 10 Punkten vergeben. Wobei 0 Punkte sehr schlecht ist und 10 Punkte eine ideale Antwort. Verwende für die Bewertung auch deine vorher definierte **richtige Antwort**.


<div class="alert alert-block alert-success">
<b>Auftrag:</b> Indem du die folgende Codezelle ausführst kannst du die Bewertung wieder in die Benchmark eintragen.</div>

In [None]:
from helpers.query_helpers import insert_GPT_score
bench = insert_GPT_score()

## 3. Option B (RAG) testen

Nun geht es darum Option B zu testen. Nachdem sich die technischen Informationen oder auch Zuständigkeiten schnell ändern können, hat der Meister vorgeschlagen RAG (Retrieval Augmented Generation) zu nutzen. 
Der große Unterschied zwischen einem klassischen LLM und einem LLM mit RAG ist der Weg, den der Promt des Users durchläuft. Statt direkt an das LLM gegeben zu werden, wird der Promt einer Suchfunktion übergeben. Diese sucht in einer Datenbank nach relevaten Information, die mit dem Prompt dann an das LLM übergeben werden. 

![Platzhalter](pictures/RAG_LLM_diagramm.png)


<div class="alert alert-block alert-info"> In den nächsten Schritten wirst du diesen Weg definieren.  
 <b> Den Assistenten der dabei entsteht nennen wir  <i> RAG-Bot </i>. </b> Wenn er fertig zusammengebaut ist, können wir dessen Performance testen. </div>

 

### 3.1 Installieren von Software-Paketen

Der erste Schritt beim Implementieren ist immer das Installieren der richtigen Software-Pakete (auch Bibliotheken genannt). 

Die Bibliothek, die wir für unseren RAG-Bot verwenden, heißt <strong>llama-index </strong>. Die Dokumentation der Bibliothek findest du hier:  <a> https://docs.llamaindex.ai/en/stable/ </a>. Für die Arbeit mit dem Notebook während der Praxistage benötigst du die Dokumentation allerdings nicht.


<div class="alert alert-block alert-info">
<b>Info:</b> Dies ist ein einmaliger Schritt. D.h er muss nur ausgeführt werden, wenn das Notebook auf einem neuen Computer läuft. Du kannst also direkt zum Importieren von Funktionen übergehen. </div>

In [None]:
#!pip install llama-index
#!pip install llama-index-embeddings-huggingface
#!pip install llama-index-llms-ollama

## 3.2 Importieren von Funktionen

 
Um einzelne Funktionen der Bibliothek nutzen zu können, müssen wir die benötigten Elemente von <strong>llama-index </strong> importieren. Die 5 Elemente <i> Settings, VectorStoreIndex, SimpleDirectoryReader, HuggingFaceEmbedding und ollama </i> werden wir im Laufe des Notebooks für unseren RAG-Bot verwenden.

<div class="alert alert-block alert-success">
<b>Auftrag:</b> Führe die nächste Codezelle aus, um die benötigten Bibliotheken zu importieren.</div>

In [None]:
import textwrap
from llama_index.core import Settings, VectorStoreIndex, SimpleDirectoryReader
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.llms.ollama import Ollama
#from llama_index.core.callbacks import CallbackManager, LlamaDebugHandler

## 3.3 Suche nach relevanten Daten

Nun geht es darum, nach relevanten Dokumenten zu suchen. Denn damit unser Wartungsassistent <i>hilfreiche Informationen zur Produktionslinie B </i> geben kann, müssen wir erst einmal entscheiden, was hilfreiche Informationen für diesen Anwendungsfall sind. 

Im Ordner **Alstrom_Dokumentation** findest du jede Menge Dokumente aus dem Unternehmen.  

<div class="alert alert-block alert-success">
<b>Auftrag:</b> Sieh dir die Dokumente im Ordner <b>Alstrom_Dokumentation</b> an und entscheide, welche für den Wartungsassistenten sinnvoll oder notwendig sind! Ziehe diese in den Ordner <b>Wissensbasis</b>.
</div>


![Platzhalter](pictures/Explorer1.png)


## 3.4 Einlesen der Daten

Eben hast du entschieden, welche Dokumente für den RAG-Bot relevant sind und diese in den Ordner <i> Wissensbasis </i> verschoben. Für die Verwendung mit RAG ist es aber auch wichtig, dass die Dokumente durchsuchbar sind. 

<div class="alert alert-block alert-Info">
<b>QUIZ:</b> Führe die nächste Codezelle aus, um die Quizfrage anzuzeigen. </div>

In [None]:
from jupyterquiz import display_quiz
from helpers.q_helpers import load_question
q4 = load_question('q4')
q5 = load_question('q5')
display_quiz([q4, q5])


<div class="alert alert-block alert-success">
<b>Auftrag:</b> Überprüfe alle Dokumente im Ordner Wissensbasis auf Durchsuchbarkeit und passe deine Auswahl ggf. an.</div>

Mit der nächsten Codezeile erhält der RAG-Bot Zugriff auf die Dateien, welche in dem Ordner <i> Wissensbasis </i> gespeichert sind. Dafür muss der Ordner natürlich am richtigen Ort sein. Alle Dateien in diesem Ordner werden mit dem Objekt **documents** gleichgesetzt. So kann es anderen Funktionen zur Verfügung gestellt werden.

<div class="alert alert-block alert-success">
<b>Auftrag:</b> Führe die nächste Codezelle aus. </div>

In [None]:

documents = SimpleDirectoryReader("Wissensbasis").load_data()


## 3.5 Embedding

Vorhin haben wir sichergestellt, dass die Dokumente in unserer Wissensbasis durchsuchbar sind. Das heißt eine Suchfunktion kann Wörter und Sätze aus den Dokumenten entnehmen. Trotzdem liegen die Texte darin noch nicht im richtigen Format für ein LLM vor.<strong> Denn Neuronale Netze brauchen numerischen Input! </strong> Wir müssen also noch einen Umwandlungsschritt machen: Jedes einzele enthaltene Wort muss in einen Vektor umgewandelt werden. 

![Platzhalter](../RAG/pictures/Embedding.png)

Dafür werden bereits trainierte Embedding Modelle verwendet. Die meisten Embedding Modelle sind einsprachig. Einige große Modelle sind mehrsprachig, können aber trotzdem meistens eine besonders gut. 


<div class="alert alert-block alert-success">
<b>Auftrag:</b> Führe die nächste Codezelle aus, um ein <b> Embedding-Modell </b> von der Plattform Huggingface zu importieren. </div>

In [None]:
Settings.embed_model = HuggingFaceEmbedding(model_name="mixedbread-ai/deepset-mxbai-embed-de-large-v1")


## 3.6 Speichern in Vektordatenbank

Nachdem das Embeddingmodell geladen wurde, kann es auf den Text in unserem **documents** Objekt angewendet werden. 
Mit der nächsten Codezeile passiert aber noch etwas mehr:

<ul>
<li> Jedes Wort wird ein Vektor zugeordnet (wie in der Abbildung oben) </li>
<li> Der ganze Text wird in kleine Schnipsel (Chunks) aufgeteilt. Default: 1024 Zeichen pro Chunk </li>
<li> Die Chunks werden dann wieder in einem Vektorraum (VektorStoreIndex) gespeichert. Dadurch sind sie für die Suchfunktion, die wir gleich zusammensatzen, leichter durchsuchbar. </li>
</ul>

Grob können wir uns also vorstellen, dass jedes Chunk einen Punkt im Vektorraum zugeordnet bekommt. Auf diese Weise können die Chunks später mit Anfragen an das Modell verglichen werden.

![Platzhalter](pictures/Embedding_chunks.png)

 Hier ein Beispiel, wie die Suchfunktion ein Mapping zwischen einer Useranfrage und den Chunks der Wissensdatenbank herstellt:
 Wenn ein User eine Frage stellt, werden die einzelnen Worte auch durch das Embedding Modell in Vektoren umgewandelt. Die ganze Frage wird an einem Ort in der *VectorDataBase* platziert. Der Stern repräsentiert hier die Useranfrage. Durch den K-Nächste-Nachbarn Algorithmus (KNN) wird bestimmt, welche Chunks aus der Datenbank abgefragt werden. Im Bild durch den Kreis gezeigt, siehst du welche Chunks bei k = 3 ausgewählt werden.

![Platzhalter](pictures/Embedding_search_.png)


<div class="alert alert-block alert-success">
<b>Auftrag: </b>Führe die nächste Codezelle aus, um die Vektordatenbak zu befüllen.</div>

In [None]:
index = VectorStoreIndex.from_documents(
    documents,
)

## 3.7 Importieren des LLMs

Nun laden wir das firmeneigene LLM **Phi3**.


<div class="alert alert-block alert-success">
<b>Auftrag:</b> Führe die nächste codezelle aus, um das LLM zu laden. </div> 

In [None]:
Settings.llm = Ollama(model="phi3", request_timeout=360.0)

## 4 Zusammensetzen und Ausprobieren

Die Nächste Codezeile setzt nun alle Elemente, die du bisher vorbereitet hast, zusammen. D.h.: Es ist Zeit zum Ausprobieren! 

<div class="alert alert-block alert-success">
<b>Auftrag:</b> Teste die Fragen aus deiner Benchmark nun am RAG-Bot. <b> Wenn du die nächste Codezelle ausfüllst, sieh an den oberen Bildschirmrand. Dort erscheint ein Feld, indem du die Frage eingeben kannst! </b> Bestätige mit Enter, um die Frage abzuschicken. </div>

In [None]:
import textwrap
from helpers.query_helpers import set_query
TASK = 'WRITE'


#debug_handler = LlamaDebugHandler()
#callback_manager = CallbackManager([debug_handler])
query_engine = index.as_query_engine(
    #callback_manager = callback_manager
)
response = query_engine.query(set_query(TASK))
formatted_response= textwrap.fill(response.response, width=80)
print(formatted_response)

<div class="alert alert-block alert-success">
<b>Auftrag:</b> Um die Antworten von RAG-Bot in deinen Datensatz zu integrieren, führe die nächste Codezelle aus. Gibt dann zunächst die <b>id </b> der Frage ein, bestätige mit <i> Enter</i>; kopiere dann die Antwort vom <b> Wartungsassistenten</b> aus dem Terminal und füge sie in die Eingabezeile ein. Bestätige wieder mit <i> Enter</i>. </div>

In [None]:
from helpers.query_helpers import insert_rag_answer
bench = insert_rag_answer()


## 5. Evaluation

Um die Performance von RAG-Systemen zu prüfen und gleichzeitig Informationen darüber zu erhalten, wo im RAG-System nachgebessert werden muss, kann man z.B. die folgenden 4 Maßstäbe nutzen:
<ul>
<li> Relevanz = werden nützliche Dokumente gefunden?
<li> Nutzung = werden die gefundenen Infos genutz?
<li> Treue = basiert die Antwort <b> nur </b> auf den Dokumenten?
<li> Vollständigkeit = sind alle Infos enthalten?
</ul>

Die Evaluation in unterschiedliche Kriterien aufzuteilen macht deswegen Sinn, weil es beim Beheben von Fehlern unterstützt. Zur Erinnerung: ein RAG-System besteht aus unterschiedlichen Komponenten. An jeder dieser Komponenten können Veränderungen vorgenommen werden, die zu einer besseren oder schlechteren Performance führen. 

![Platzhalter](pictures/RAG_diagramm_eval.png)


Die Antwort von RAG-Bot allein ist für diese Bewertung jedoch nicht ausreichend. Du musst auch überprüfen welche Textdateien in der Datenbank gefunden und zum Generieren der Antwort verwendet wurden. 

Im nächsten Bild siehst du ein Beispiel: Gelb markiert sind die <b>Textdateien die verwendet wurden</b>, blau markiert ist die daraus erzeugte Antwort. 

![Platzhalter](pictures/retrival_insights.png)

<div class="alert alert-block alert-success"> Führe die nächste Codezelle aus um Informationen über die gefundenen Texte zu bekommen.</div>

In [None]:
import pprint

formatted_insights = pprint.pformat(response.__dict__)
print(formatted_insights)

### 5.1 Relevanz

Mit diesen Informationen kannst du eine Bewertung in der Kategorie <b>Relevanz</b> vornehmen. Bewerte ob die ausgewählten Texte relevante Information in Bezug auf deine Frage enthalten.


 <div class="alert alert-block alert-success"> Indem du die nächste Codezelle ausführst, kannst du deine Bewertung wieder in deine Benchmark eintragen. Nutze hierfür die Kategorien: <b>relevant</b>, <b>teils relevant</b> und <b>nicht relevant</b>.</div>


In [None]:
from helpers.query_helpers import insert_rag_relevance
bench = insert_rag_relevance()


<div class="alert alert-block alert-info"> <b>Info:</b> Wenn sich beim Benchmarking z.B. herausstellt, dass relevante Dokumente sehr selten gefunden werden, ist es ein sinnvoller Schritt die Suchfunktion, das Embedding Modell und die Datenbank zu überprüfen. </div>

### 5.2 Nutzung und Treue

Nun musst du prüfen ob die Texte, welche gefunden wurden auch wirklich für die Generierung der Antwort verwendet wurden. Denn auch an diesem Schritt können Fehler im Prozess entstehen. Die kannst du tun indem du die generierte Antwort mit den Inhalten der gefundenen Texte vergleichst.

<div class="alert alert-block alert-success"> Lese dir die Antwort von RAG-Bot <b>sowie</b> die gefundenen Texte <b> genau </b> durch und vergleiche. Hat sich RAG-Bot bei der Generiereung der Antwort steng an die Inhalte der Texte gehalten? Beurteile Nutzung und Treue der Antwort wieder von 0 bis 10 Punkten! 

Mit der nächsten Codezelle kannst du deine Bewertung in die Benchmark eintragen.
</div>


In [None]:
from helpers.query_helpers import insert_rag_use
bench = insert_rag_use()


<div class="alert alert-block alert-info"> <b>Info:</b> Ergibt das Benchmarking, dass sich das LLM beim generieren der Antwort selten an die Inhalte in den Bereitgestellten texten hält kann folgendes geprüft werden:
<ul>
<li> Ein klarer Systemprompt der immer mit der Useranfrage und dem Kontext übergeben wird.</li>
<li> Eine Beschränkung der ausgewählten Texte </li>
<li> Falls möglich: Das Einstellen von Parametern am LLM, welches es weniger <it>"kreativ"</it> macht.
</ul>
</div>

### 5.3 Vollständigkeit


Der nächste Punkt der Bewertung ist die Vollständigkeit. Prüfe ob die Antwort von RAG-Bot alle Infos enthält was für eine optimale Antwort wichtig ist. Beziehe dich dabei sowohl auf die <b>von dir zu Beginn festgelegte richtige Antwort</b>, als auch auf die Inhalte in den Textquellen. 


<div class="alert alert-block alert-success">
<b>Auftrag:</b> Indem du die folgende Codezelle ausführst kannst du die Bewertung wieder in die Benchmark eintragen. Nutze hier die Kategorien <b>vollständig</b>, <b>beinahe vollständig</b> und <b>unvollständig</b>. </div>

In [None]:
from helpers.query_helpers import insert_rag_completeness
bench = insert_rag_completeness()


<div class="alert alert-block alert-info"> <b>Info:</b> Auch wenn die Textquellen optimal genutz wurden kannst du Unvollstädndigkeit feststellen. z.B. dann wenn Dokumente in der Wissensdatenbank fehlen. 
</div>


<div class="alert alert-block alert-success">
 <b>Nun hast du den Testlauf mit einer Frage durchlaufen. Eine Frage ist aber nicht genug für die Präsentation. Dafür benötigst du heute mindestens 3 Fragen.</b>
</div>
<div class="alert alert-block alert-success">
<b>Auftrag:</b> 
Wiederhole die <b> Schritte 1, 2, 4 und 5 </b> so lange, bis du <b> mindestens 3 Fragen mit Bewertungen </b> in den Datensatz eingetragen hast. 
</div>


<div style="display:none" >
    print("\nRetrieved Chunks:")
    for i, node in enumerate(debug_handler.get_retrived_nodes()):
    print(f"\n--- Chunk {i+1} ---")
    print(f"Text: {node.text}")

</div>