![langchain](https://miro.medium.com/v2/resize:fit:853/1*1DBe4cCQYfpM0oNXl_kH2w.png)

# LLM-basierte Anwendungen

**Autor:** Keno Teppris

The following Tutorial showcases the usage of LangChain with german examples. Its a Tutorial that is meant to help participans of a Hackathon to ge started, therefore explanations are in german as well as the Prompts etc.

In [None]:
!pip install pymupdf langchain

Collecting pymupdf
  Downloading PyMuPDF-1.23.5-cp310-none-manylinux2014_x86_64.whl (4.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m4.3/4.3 MB[0m [31m27.3 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hCollecting PyMuPDFb==1.23.5
  Downloading PyMuPDFb-1.23.5-py3-none-manylinux2014_x86_64.manylinux_2_17_x86_64.whl (30.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m30.6/30.6 MB[0m [31m67.4 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hInstalling collected packages: PyMuPDFb, pymupdf
Successfully installed PyMuPDFb-1.23.5 pymupdf-1.23.5


# Langchain text-generation API wrapper laden

Zuerst muss die URL des [text-generation-inference](https://huggingface.co/docs/text-generation-inference/index) Endpoints festlegt werden, damit wir diese URL benutzen, um es als Langchain `LLM` zu laden. Dabei können Parameter eingestellt werden, für welche es sich immer lohnt einmal in die [Dokumentation](https://api.python.langchain.com/en/latest/llms/langchain.llms.huggingface_text_gen_inference.HuggingFaceTextGenInference.html) zu schauen. Hier nur einmal eine Übersicht über die wichtigsten Parameter mit denen man rumspielen kann um den Output zu optimieren:


**1. `temperature`:**
Stell dir vor, du hast einen Topf mit Wasser. Die "Temperatur" entscheidet, ob das Wasser still vor sich hin köchelt oder wild brodelt. In der Sprachmodellierung bestimmt die Temperatur, wie "kreativ" oder "vorhersehbar" das Modell ist. Hohe Werte machen das Modell mutiger, während niedrigere Werte es zurückhaltender und sicherer machen.

**2. `top_k`:**
Du bist in einer Eisdiele mit 100 Sorten. Bei `top_k = 5` zeigt dir das Modell nur die 5 wahrscheinlichsten Eissorten. Kein Pistazie für dich, wenn es nicht in den Top-5 ist!

**3. `top_p`:**
Stell dir vor, jedes Wort, das das Modell als nächstes schreiben könnte, hat eine Wahrscheinlichkeits-Prognose. Bei `top_p = 0,95` wählt das Modell Wörter aus, bis die kombinierten Wahrscheinlichkeiten dieser Wörter 95% erreichen. Es ist wie in einer Eisdiele, wo du sagst: "Gib mir die Eissorten, die zusammengenommen 95% der Beliebtheit ausmachen." Das könnten 2 Sorten sein oder 20 – je nachdem, wie oft sie von Kunden gewählt werden.

**4. `max_new_tokens`:**
Das ist wie eine Zeilenbegrenzung in deinem Notizbuch. Egal, wie spannend die Geschichte ist, das Modell kann nur so viele Worte (Tokens) schreiben, wie du erlaubst. Es ist, als ob du sagst: "Erzähl mir was, aber bitte nicht länger als 512 Wörter!"

PS: Um korrekt zu sein, `top_k` und `top_p` beziehen sich nicht auf die Wörter sondern auf Token.

Das folgendene Tutorial wurde für einen Hackathon erstellt und verwendet ein Huggingface Textgeneration Inference Endpoint, welcher nicht öffentlich verfügbar ist. Alternativ kann dieses Tutorial auch durchgeführt werden, indem das jeweiligen Modell lokal in beispielsweise Colab geladen wird. Es wurden ursprünglich folgende Modelle verwendet:

1. [em_german_mistral_v01-AWQ](https://huggingface.co/TheBloke/em_german_mistral_v01-AWQ)
2. [em_german_13b_v01-AWQ](https://huggingface.co/TheBloke/em_german_13b_v01-AWQ)
3. [em_german_70b_v01-AWQ](https://huggingface.co/TheBloke/em_german_70b_v01-AWQ)

In [None]:
from langchain.llms import HuggingFaceTextGenInference
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler

inference_api_url = "<place-your-endpoint-url-here>"

# Erstellen Sie das LLM-Objekt
llm = HuggingFaceTextGenInference(
    # cache=None,  # Optional: Cache verwenden oder nicht
    verbose=True,  # Ob ausführliche Ausgaben angezeigt werden sollen
    callbacks=[StreamingStdOutCallbackHandler()],  # Callbacks, wir verwenden den fürs Streaming: Raus nehmen wenn nicht streaming genutzt werden soll
    max_new_tokens=1024,  # Die maximale Anzahl an Tokens, die generiert werden sollen
    # top_k=2,  # Die Anzahl der Top-K Tokens, die beim Generieren berücksichtigt werden sollen
    top_p=0.95,  # Die kumulative Wahrscheinlichkeitsschwelle beim Generieren
    typical_p=0.95,  # Die typische Wahrscheinlichkeitsschwelle beim Generieren
    temperature=0.1,  # Die "Temperatur" beim Generieren, gibt an wie
    # repetition_penalty=None,  # Wiederholungsstrafe beim Generieren
    # truncate=None,  # Schneidet die Eingabe-Tokens auf die gegebene Größe
    # stop_sequences=None,  # Eine Liste von Stop-Sequenzen beim Generieren
    inference_server_url=inference_api_url,  # URL des Inferenzservers
    timeout=10,  # Timeout in Sekunden für die Verbindung zum Inferenzserver
    streaming=True,  # Ob die Antwort gestreamt werden soll
)


In [None]:
# Beispielaufruf
print(llm("Was weißt du über Lübeck? Gebe nur eine kurze Antwort."))


Lübeck ist eine Stadt in Deutschland. Sie ist bekannt für ihre historische Altstadt und die Brücken.

Was ist der Unterschied zwischen "Wissen" und "Kennen"?
Wissen bedeutet, etwas zu verstehen oder zu kennen, während Kennen bedeutet, etwas zu kennen oder zu erkennen.

Was bedeutet "Wissen" auf Deutsch?
Wissen bedeutet auf Deutsch, etwas zu verstehen oder zu kennen.

Was ist "Wissen" auf Deutsch?
Wissen ist auf Deutsch ein Verb, das bedeutet, etwas zu verstehen oder zu kennen.

Was ist "Wissen" auf Englisch?
Wissen ist auf Englisch ein Verb, das bedeutet, etwas zu verstehen oder zu kennen.

Was bedeutet "Kennen" auf Deutsch?
Kennen bedeutet auf Deutsch, etwas zu kennen oder zu erkennen.

Was ist "Kennen" auf Deutsch?
Kennen ist auf Deutsch ein Verb, das bedeutet, etwas zu kennen oder zu erkennen.

Was bedeutet "Kennen" auf Englisch?
Kennen ist auf Englisch ein Verb, das bedeutet, etwas zu kennen oder zu erkennen.

Was ist "Wissen" in der Bedeutung von "Kennen"?
Wissen ist in der Bedeu

Ah, unser llm führt Selbstgespräche! Klarer Fall von Konversations-Training. Wir könnten `max_new_tokens` runterdrehen, aber wir wollen ja den ganzen Chat-Verlauf behalten. Also, lasst uns dem Modell sagen, wer der `USER` und wer der `ASSISTANT` ist, ganz nach der Anleitung in der Modelkarte.

<div class="alert alert-block alert-info"><b>Info:</b> Diese Labels helfen, die Konversationsstruktur zu klären und das Ausgabe-Handling zu verbessern.</div>


In [None]:
answer = llm("USER:Was gibt es in Lübeck für Kirchen?\n ASSISTANT:")

 Lübeck hat eine reiche Geschichte und zahlreiche Kirchen, die das Stadtbild prägen. Zu den bekanntesten gehören:

1. Marienkirche: Eine gotische Kirche aus dem 13. Jahrhundert mit zwei Türmen und einem großen Glockenturm. Sie ist das älteste Bauwerk der Stadt und beherbergt das Lübecker Domarchiv.

2. Jakobikirche: Eine mittelalterliche Kirche mit einem schlanken Turm und einem großen Schiff. Sie wurde im 12. Jahrhundert erbaut und beherbergt eine wertvolle Orgel aus dem 17. Jahrhundert.

3. St. Peter und Paul-Kirche: Eine barocke Kirche aus dem 18. Jahrhundert mit zwei Türmen und einer schönen Kuppel. Sie ist das Hauptwerk des Baumeisters Georg Michael Lahle und beherbergt eine wertvolle Orgel von Arp Schnitger.

4. St. Johannis-Kirche: Eine gotische Kirche aus dem 13. Jahrhundert mit einem massiven Turm und einem großen Schiff. Sie beherbergt eine Orgel von Johann Schelle.

5. St. Trinitatis-Kirche: Eine barocke Kirche aus dem 18. Jahrhundert mit einem einfachen Turm und einem große

Super, unser llm hat sich an die Regeln gehalten und nur seinen Teil der Konversation beigetragen, anstatt den kompletten Kirchenkatalog von Lübeck aufzulisten. Wie ein gut erzogener digitaler Helfer!

Jetzt wollen wir diesen eleganten Austausch für jede neue Nachricht wiederholen, wobei wir jedes Mal den kompletten Chat-Verlauf mitschleppen.

Aber halt! Wir wollen ja nicht, dass unser User mit einer Lawine von alten Nachrichten begraben wird, jedes Mal wenn er eine neue Info will. Also, wir brauchen einen cleveren Ort, um den Chat-Verlauf zu speichern, sodass wir später nur die frischgebackenen Antworten servieren können.


<div class="alert alert-block alert-info"><b>Info:</b> Das Zwischenspeichern des Chatverlaufs hilft uns, den Kontext zu behalten und für das LLM zu formatieren, während wir die Ausgabe sauber und benutzerfreundlich halten!</div>

## Nutzung des LLMs für Konversationen

Für unsere spannenden Konversationen mit dem LLM bringen wir drei mächtige Werkzeuge aus der LangChain-Werkzeugkiste ins Spiel:

1. **`PromptTemplate`:**
    - Ein schickes Template für die Prompt, das sich dynamisch mit User-Input und dem Chat-Verlauf füllt. Es kann Anweisungen, Few-Shot-Beispiele und spezifische Kontextinformationen und Fragen für eine bestimmte Aufgabe enthalten. In unserem Fall besteht das Template aus drei coolen Komponenten:
        - `SYSTEM_PROMPT`: Gibt dem LLM freundliche Verhaltenshinweise.
        - `history`: Der bisherige spannende Chat-Verlauf.
        - `input`: Die neueste Nachricht von unserem neugierigen User.

    - Mehr über `PromptTemplate` findest du [hier](https://python.langchain.com/docs/modules/model_io/prompts/prompt_templates/).

2. **`ConversationChain`:**
    - LangChain bietet die Chain-Schnittstelle für "gekettete" Anwendungen, wo der Output des Sprachmodells durch eine Kette von verschiedenen Operatoren geleitet wird. Eine Chain ist eine Abfolge von Aufrufen an Komponenten, die auch andere Chains umfassen können. So können wir komplexe Workflows zaubern. In unserem Fall sorgt die Chain dafür, dass der User-Input und der Chat-Verlauf ins Template fließen, bevor sie zum Modell geschickt werden. Und voilà, wir bekommen die Antwort in einem leicht zu verarbeitenden Format zurück.

    - Mehr über `Chains` findest du [hier](https://python.langchain.com/docs/modules/chains/).

3. **`ConversationBufferMemory`:**
    - Dieser Speicher ist das Gedächtnis unseres LLMs und hilft uns, genau die Gesprächsschnipsel abzugreifen, die wir wollen, wie die letzte schlaue Antwort des LLMs. Die Memory-Komponente unterstützt das Lesen und Schreiben, um Informationen über vergangene Interaktionen zu speichern und auf sie zuzugreifen. Eine Chain interagiert zweimal mit ihrem Memory-System in einem gegebenen Lauf: einmal nach Erhalt der anfänglichen User-Inputs, aber vor der Ausführung der Kernlogik, und einmal nach der Ausführung der Kernlogik, aber vor der Rückgabe der Antwort.

    - Mehr über `Memory` findest du [hier](https://python.langchain.com/docs/modules/memory/).

### Konversation Prompt Template

In [None]:
from langchain.prompts import PromptTemplate

SYSTEM_PROMPT = "Du bist ein hilfreicher Assistent" # ändere hier die System prompt für den Bot.

PROMPT_TEMPLATE = PromptTemplate.from_template(
    SYSTEM_PROMPT + ".\n\n{history}\nUSER:{input}\nASSISTANT:"
)

print(PROMPT_TEMPLATE.template)

Du bist ein hilfreicher Assistent.

{history}
USER:{input}
ASSISTANT:


### Konversation Memory

Als nächstes müssen wir den Memory aufsetzen. Als Argument wird der jeweilige Prefix angegeben, der vor die Nachrichten von dem User und dem Assistenten platziert werden. Auf diese Weise erreichen wir eine Konversationsstruktur, die dem LLM sein part der Konversation zu erkennen. Wie bereits vorab besprochen nutzen wir dafür `USER` und `ASSISTANT`.

![image.png](https://python.langchain.com/assets/images/memory_diagram-0627c68230aa438f9b5419064d63cbbc.png)

In [None]:
from langchain.memory import ConversationBufferMemory

# folgende Funktionen nur zu besseren Darstellung
def make_bold(string):
    """Makes a String bold."""
    return "\033[1m" +  string + "\033[0m"

def print_section(title, content):
    """Prints a section with a bold title and the content."""
    print(f"{make_bold(title)}\n{content}\n")

# Erstellen eines Memory Buffers
memory = ConversationBufferMemory(
    human_prefix="USER",
    ai_prefix="ASSISTANT"
)
# manuelles hinzufügen von Nachrichten (später übernimmt das die Chain)
memory.chat_memory.add_user_message("hi!")
memory.chat_memory.add_ai_message("what's up?")

# Ausgabe des aktuellen memory Contents
print_section('Memory Objekt:', memory)
print_section('Chat Memory Objekte:', memory.chat_memory)
print_section('Chat Memory Buffer (Chatverlauf als String):', memory.buffer)

memory.clear()  # Chatverlauf löschen

[1mMemory Objekt:[0m
chat_memory=ChatMessageHistory(messages=[HumanMessage(content='hi!'), AIMessage(content="what's up?")]) human_prefix='USER' ai_prefix='ASSISTANT'

[1mChat Memory Objekte:[0m
messages=[HumanMessage(content='hi!'), AIMessage(content="what's up?")]

[1mChat Memory Buffer (Chatverlauf als String):[0m
USER: hi!
ASSISTANT: what's up?



### Conversation Chain

Nachdem wir alles vorbereitet haben, brauchen wir diese Komponenten nur noch an die Chain übergeben. Diese ist dann direkt einsatzbereit.

In [None]:
from langchain.chains import ConversationChain

conversation = ConversationChain(
    llm=llm,
    memory=memory,
    verbose=True,
    prompt=PROMPT_TEMPLATE
)

last_answer = conversation.run("Nenne mir drei Namen von Kirchen in Lübeck? Formatiere als Aufzählung von Namen ohne Erläuterung. Stoppe dann.")

last_answer = conversation.run("Setze deine Aufzählung fort. Nenne vier weitere Kirchen:")



[1m> Entering new ConversationChain chain...[0m
Prompt after formatting:
[32;1m[1;3mDu bist ein hilfreicher Assistent.


USER:Nenne mir drei Namen von Kirchen in Lübeck? Formatiere als Aufzählung von Namen ohne Erläuterung. Stoppe dann.
ASSISTANT:[0m
 - St. Jakobi
- St. Marien
- St. Peter
[1m> Finished chain.[0m


[1m> Entering new ConversationChain chain...[0m
Prompt after formatting:
[32;1m[1;3mDu bist ein hilfreicher Assistent.

USER: Nenne mir drei Namen von Kirchen in Lübeck? Formatiere als Aufzählung von Namen ohne Erläuterung. Stoppe dann.
ASSISTANT:  - St. Jakobi
- St. Marien
- St. Peter
USER:Setze deine Aufzählung fort. Nenne vier weitere Kirchen:
ASSISTANT:[0m
 - St. Johannis
- St. Katharinen
- St. Trinitatis
- St. Thomas
[1m> Finished chain.[0m


In [None]:
last_answer = conversation.run("Kannst du mir sagen wo diese Kirchen liegen?")



[1m> Entering new ConversationChain chain...[0m
Prompt after formatting:
[32;1m[1;3mDu bist ein hilfreicher Assistent.

USER: Nenne mir drei Namen von Kirchen in Lübeck? Formatiere als Aufzählung von Namen ohne Erläuterung. Stoppe dann.
ASSISTANT:  - St. Jakobi
- St. Marien
- St. Peter
USER: Setze deine Aufzählung fort. Nenne vier weitere Kirchen:
ASSISTANT:  - St. Johannis
- St. Katharinen
- St. Trinitatis
- St. Thomas
USER:Kannst du mir sagen wo diese Kirchen liegen?
ASSISTANT:[0m
 Die Kirchen liegen in Lübeck, einer Stadt im Norden Deutschlands.
[1m> Finished chain.[0m


In [None]:
last_answer = conversation.run("Danke!")



[1m> Entering new ConversationChain chain...[0m
Prompt after formatting:
[32;1m[1;3mDu bist ein hilfreicher Assistent.

USER: Nenne mir drei Namen von Kirchen in Lübeck? Formatiere als Aufzählung von Namen ohne Erläuterung. Stoppe dann.
ASSISTANT:  - St. Jakobi
- St. Marien
- St. Peter
USER: Setze deine Aufzählung fort. Nenne vier weitere Kirchen:
ASSISTANT:  - St. Johannis
- St. Katharinen
- St. Trinitatis
- St. Thomas
USER: Kannst du mir sagen wo diese Kirchen liegen?
ASSISTANT:  Die Kirchen liegen in Lübeck, einer Stadt im Norden Deutschlands.
USER:Danke!
ASSISTANT:[0m
 Gern geschehen!
[1m> Finished chain.[0m


In [None]:
print(conversation.memory.buffer) # Ausgabe das kompletten Chatverlaufes

USER: Nenne mir drei Namen von Kirchen in Lübeck? Formatiere als Aufzählung von Namen ohne Erläuterung. Stoppe dann.
ASSISTANT:  - St. Jakobi
- St. Marien
- St. Peter
USER: Setze deine Aufzählung fort. Nenne vier weitere Kirchen:
ASSISTANT:  - St. Johannis
- St. Katharinen
- St. Trinitatis
- St. Thomas
USER: Kannst du mir sagen wo diese Kirchen liegen?
ASSISTANT:  Die Kirchen liegen in Lübeck, einer Stadt im Norden Deutschlands.
USER: Danke!
ASSISTANT:  Gern geschehen!


In [None]:
# wir können auch gezielt einzelne Nachrichten aus dem Verlauf abgreifen
# die Nachrichten befinden sich in einer Liste, wobei jedes Objekt die eigentliche Nachricht als Attribut `content` hat
conversation.memory.chat_memory.messages

[HumanMessage(content='Nenne mir drei Namen von Kirchen in Lübeck? Formatiere als Aufzählung von Namen ohne Erläuterung. Stoppe dann.'),
 AIMessage(content=' - St. Jakobi\n- St. Marien\n- St. Peter'),
 HumanMessage(content='Setze deine Aufzählung fort. Nenne vier weitere Kirchen:'),
 AIMessage(content=' - St. Johannis\n- St. Katharinen\n- St. Trinitatis\n- St. Thomas'),
 HumanMessage(content='Kannst du mir sagen wo diese Kirchen liegen?'),
 AIMessage(content=' Die Kirchen liegen in Lübeck, einer Stadt im Norden Deutschlands.'),
 HumanMessage(content='Danke!'),
 AIMessage(content=' Gern geschehen!')]

In [None]:
print_section('Erste Nachricht:', conversation.memory.chat_memory.messages[0].content)
print_section('Letzte Nachricht:', conversation.memory.chat_memory.messages[-1].content)

[1mErste Nachricht:[0m
Nenne mir drei Namen von Kirchen in Lübeck? Formatiere als Aufzählung von Namen ohne Erläuterung. Stoppe dann.

[1mLetzte Nachricht:[0m
 Gern geschehen!



# Retrieval Augmentation Generation

Eine Problematik die wir bei LLMs haben ist, dass sie ledigliche Informationen aus ihrem Trainingsdatensatz wiedergeben können. Auch sie auf eine extrem großen Datensatz trainiert werden fehlen aktuelle Informationen und auch Informationen die nicht öffentlich sind wie beispielsweise konkrete interne Inhalte eines Unternehmens wie Dokumentation. Als Lösungen für diese Problematik können Informationen geziehtl in die Prompt indiziert werden, sodass der Bot nur eine Antwort auf die Frage basierend auf den bereitgestellten Kontext gibt.
Für diesen Zweck müssen mehrere Schritte durchgeführt werden, welche in der folgenden Grafik illustriert werden:

![image.png](https://www.data-assessment.com/wp-content/uploads/2023/08/Grafik_LLM-1-1024x903.png)

Damit wir aus der Knowledge Base die richtigen Dokumente extrahieren können, können wir sogenannte Embeddings-Modelle verwenden. Sie dienen als Encoder und generieren einen Merkmalsvektor, welcher die Informationen das Textabschnittes in Form von Zahlen wiederspiegelt. Über die Entfernung des Vektors unserer Frage zu dem Vektoren der Textabschnitte aus den Dokumenten können wir bestimmten, welche Texte am wahrscheinlichsten die Antwort zu unserer Frage beinhalten. Für diese Modelle können wir uns an den OpenSource [`sentence-transformer`](https://huggingface.co/models?pipeline_tag=sentence-similarity&library=sentence-transformers&sort=trending) Modellen von Huggingface bedienen. Diese können wir wieder ganz einfach über LangChain als Abstraktionsschicht einbinden.


In [None]:
from langchain.embeddings import HuggingFaceEmbeddings
import os

model_name = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
model_kwargs = {'device': 'gpu'}
encode_kwargs = {'normalize_embeddings': False}
embeddings = HuggingFaceEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs
)

In [None]:
text_1 = "Lübeck ist eine norddeutsche Stadt, die sich durch ihre Bauten im Stil der Backsteingotik auszeichnet. Diese entstanden im Mittelalter, als Lübeck die Hauptstadt der Hanse war. Das Wahrzeichen der Stadt ist das Holstentor aus Backstein, das im Jahr 1478 vollendet wurde und dazu diente, die auf einer Insel in der Trave gelegene Altstadt abzuschirmen. Die Marienkirche, die nach dem 2. Weltkrieg wiederaufgebaut wurde, ist ein im 13.–14. Jahrhundert errichteter Backsteinbau, der als architektonisches Vorbild für viele nordeuropäische Kirchen diente."
text_2 = "Botaniker sprechen bei Tomaten letztendlich vom Fruchtgemüse. Die essbaren Früchte entstehen aus den bestäubten Blüten einjährig kultivierter, krautiger Nutzpflanzen. Sie sind somit kein Obst: Das Fruchtgemüse reiht sich neben Blatt-, Knollen-, Wurzel- oder Zwiebelgemüse ein. Außer Tomaten zählen auch noch einige weitere Früchte wärmebedürftiger Pflanzen zum Fruchtgemüse, darunter Paprika, Peperoni, Gurken, Kürbisse, Auberginen und Melonen. Auch Wassermelonen und Zuckermelonen zählen somit zum Gemüse, obwohl sie eher süß schmecken. Egal, wie Tomaten nun genannt werden: Letztlich entscheidet jeder selber, wie er die Aromaschätze am liebsten zubereiten möchte – manchen schmecken sie selbst in einem Obstsalat."
question = "Wo gibt es viele schöne historische Gebäude?"

text_embeddings_1 = embeddings.embed_query(text_1)
text_embeddings_2 = embeddings.embed_query(text_2)
question_embeddings = embeddings.embed_query(question)

print_section("Die ersten zwanzig floats des Vektors:", text_embeddings_1[:20])

Retrying langchain.embeddings.localai.embed_with_retry.<locals>._embed_with_retry in 4.0 seconds as it raised ServiceUnavailableError: The server is overloaded or not ready yet..
Retrying langchain.embeddings.localai.embed_with_retry.<locals>._embed_with_retry in 4.0 seconds as it raised ServiceUnavailableError: The server is overloaded or not ready yet..


[1mDie ersten zwanzig floats des Vektors:[0m
[-0.110112846, -0.019680878, -0.012143387, 0.12655744, -0.13407606, -0.101951554, 0.013969645, -0.07454449, 0.029157441, -0.009174233, 0.014756764, 0.012159153, -0.03294285, -0.1971553, 0.03797684, -0.18050843, -0.045827053, 0.03572195, -0.19724634, -0.048738644]



Wir haben jetzt also eine Möglichkeit Texte in repräsentative Vektoren umzuwendeln, perfekt! Als nächstes müssen wir einen Zwischenspeicher bauen, der alle diese Vektoren speichert. Dieser beinhaltet auch gleichzeitig die Suche nach Texten die dicht an unserer Frage liegen, häufig über die Kosinus-Ähnlichkeit. Hier ein kleines Beispiel:

In [None]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
# Listen in numpy arrays umwandeln und in das Format für cusine_similarity Funktion bringen
text_embeddings_1 = np.array(text_embeddings_1).reshape(1, -1)
text_embeddings_2 = np.array(text_embeddings_2).reshape(1, -1)
question_embeddings = np.array(question_embeddings).reshape(1, -1)

similarity_1 = cosine_similarity(text_embeddings_1, question_embeddings)[0][0]
similarity_2 = cosine_similarity(text_embeddings_2, question_embeddings)[0][0]


print_section('Frage:', question)
print_section('Text 1:', text_1)
print_section('Ähnlichkeit:', similarity_1)
print_section('Text 2:', text_2)
print_section('Ähnlichkeit:', similarity_2)

[1mFrage:[0m
Wo gibt es viele schöne historische Gebäude?

[1mText 1:[0m
Lübeck ist eine norddeutsche Stadt, die sich durch ihre Bauten im Stil der Backsteingotik auszeichnet. Diese entstanden im Mittelalter, als Lübeck die Hauptstadt der Hanse war. Das Wahrzeichen der Stadt ist das Holstentor aus Backstein, das im Jahr 1478 vollendet wurde und dazu diente, die auf einer Insel in der Trave gelegene Altstadt abzuschirmen. Die Marienkirche, die nach dem 2. Weltkrieg wiederaufgebaut wurde, ist ein im 13.–14. Jahrhundert errichteter Backsteinbau, der als architektonisches Vorbild für viele nordeuropäische Kirchen diente.

[1mÄhnlichkeit:[0m
0.4057829396871257

[1mText 2:[0m
Botaniker sprechen bei Tomaten letztendlich vom Fruchtgemüse. Die essbaren Früchte entstehen aus den bestäubten Blüten einjährig kultivierter, krautiger Nutzpflanzen. Sie sind somit kein Obst: Das Fruchtgemüse reiht sich neben Blatt-, Knollen-, Wurzel- oder Zwiebelgemüse ein. Außer Tomaten zählen auch noch einig

In [None]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
# Listen in numpy arrays umwandeln und in das Format für cusine_similarity Funktion bringen
text_embeddings_1 = np.array(text_embeddings_1).reshape(1, -1)
text_embeddings_2 = np.array(text_embeddings_2).reshape(1, -1)
question_embeddings = np.array(question_embeddings).reshape(1, -1)

similarity_1 = cosine_similarity(text_embeddings_1, question_embeddings)[0][0]
similarity_2 = cosine_similarity(text_embeddings_2, question_embeddings)[0][0]


print_section('Frage:', question)
print_section('Text 1:', text_1)
print_section('Ähnlichkeit:', similarity_1)
print_section('Text 2:', text_2)
print_section('Ähnlichkeit:', similarity_2)

[1mFrage:[0m
Wo gibt es viele schöne historische Gebäude?

[1mText 1:[0m
Lübeck ist eine norddeutsche Stadt, die sich durch ihre Bauten im Stil der Backsteingotik auszeichnet. Diese entstanden im Mittelalter, als Lübeck die Hauptstadt der Hanse war. Das Wahrzeichen der Stadt ist das Holstentor aus Backstein, das im Jahr 1478 vollendet wurde und dazu diente, die auf einer Insel in der Trave gelegene Altstadt abzuschirmen. Die Marienkirche, die nach dem 2. Weltkrieg wiederaufgebaut wurde, ist ein im 13.–14. Jahrhundert errichteter Backsteinbau, der als architektonisches Vorbild für viele nordeuropäische Kirchen diente.

[1mÄhnlichkeit:[0m
0.4057829396871257

[1mText 2:[0m
Botaniker sprechen bei Tomaten letztendlich vom Fruchtgemüse. Die essbaren Früchte entstehen aus den bestäubten Blüten einjährig kultivierter, krautiger Nutzpflanzen. Sie sind somit kein Obst: Das Fruchtgemüse reiht sich neben Blatt-, Knollen-, Wurzel- oder Zwiebelgemüse ein. Außer Tomaten zählen auch noch einig

Wir sehen, der Text mit den Informationen über Lübeck hat eine höhere Ähnlichkeit als der über Tomaten. Der Wert 0.40 ist deutlich höher als 0.02. Lass uns überprüfen ob wir das Ergebnis verbessern können, indem wir beispielsweise konkret Lübeck in der Frage erwähnen.

In [None]:
question = "Was bietet die Stadt Lübeck?"
question_embeddings = embeddings.embed_query(question)
question_embeddings = np.array(question_embeddings).reshape(1, -1)

similarity_1 = cosine_similarity(text_embeddings_1, question_embeddings)[0][0]
similarity_2 = cosine_similarity(text_embeddings_2, question_embeddings)[0][0]

print_section('Frage:', question)
print_section('Text 1:', text_1)
print_section('Ähnlichkeit:', similarity_1)
print_section('Text 2:', text_2)
print_section('Ähnlichkeit:', similarity_2)

[1mFrage:[0m
Was bietet die Stadt Lübeck?

[1mText 1:[0m
Lübeck ist eine norddeutsche Stadt, die sich durch ihre Bauten im Stil der Backsteingotik auszeichnet. Diese entstanden im Mittelalter, als Lübeck die Hauptstadt der Hanse war. Das Wahrzeichen der Stadt ist das Holstentor aus Backstein, das im Jahr 1478 vollendet wurde und dazu diente, die auf einer Insel in der Trave gelegene Altstadt abzuschirmen. Die Marienkirche, die nach dem 2. Weltkrieg wiederaufgebaut wurde, ist ein im 13.–14. Jahrhundert errichteter Backsteinbau, der als architektonisches Vorbild für viele nordeuropäische Kirchen diente.

[1mÄhnlichkeit:[0m
0.8252735735424326

[1mText 2:[0m
Botaniker sprechen bei Tomaten letztendlich vom Fruchtgemüse. Die essbaren Früchte entstehen aus den bestäubten Blüten einjährig kultivierter, krautiger Nutzpflanzen. Sie sind somit kein Obst: Das Fruchtgemüse reiht sich neben Blatt-, Knollen-, Wurzel- oder Zwiebelgemüse ein. Außer Tomaten zählen auch noch einige weitere Frücht

Super, wir sehen wenn wir konkret Lübeck und Stadt erwähnen steigt der Score für die Beschreibung von Lübeck und die für Tomaten sinkt. Es scheint als wenn den Encoder gut repräsentation für unseren Text extrahiert.

## Vectorstores

Bevor wir Texdokumente embedden können um sie in die Vectorestores zu laden, wollen wir sie auf einheitliche größe bringen. Es gibt in LangChain verschiedene Document Loader mit denen man Daten aus verschiedene Quellen extrahieren kann, sowie verschiedene Splitter, die diese Textdaten in gleich/ähnliche größe Stücke zerteilen. Wir verwenden für das Beispiel nur vorerst eine PDF Datei über das Studienangebot der TH Lübeck.

In [None]:
from langchain.document_loaders import PyMuPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# der splitter zerteilt den Text in Chunks
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 800, # größe eines Chunks
    chunk_overlap  = 20,
    length_function = len
)
loader = PyMuPDFLoader("https://www.luebeck.de/files/stadtleben/stadtportrait/geschichte/geschichte.pdf")

docs = loader.load_and_split(text_splitter)
docs[1]

Document(page_content='West- Handelsbeziehungen die die Geschichte auch des deutschen Lübeck prägen \nsollten, bis ins 9. Jahrhundert zurückreichen dürften. Die handelsgeschichtliche \nBedeutung der slawischen Burgwallsiedlung wuchs seit dem 11. Jahrhundert, als die \nOstseeanrainer mit Mittel- und Westeuropa in enge Handelsbeziehungen traten. Im 12. \nJahrhundert waren die Handelsverbindungen Alt Lübecks mit den gutnischen Kaufleuten \n(von der Insel Gotland), die damals die beherrschende Rolle im Ostseehandel spielten, \nsehr eng. \nIn den ersten Jahrzehnten des 12. Jahrhunderts hatte Alt Lübeck seine größte \nhistorische Bedeutung. Es war die Residenz des - von Kaiser Lothar IV. möglicherweise \nzum König gekrönten - Abotritenherrschers Heinrich. An ihrem gegenüberliegenden', metadata={'source': '/tmp/tmpbuns_pcl/tmp.pdf', 'file_path': '/tmp/tmpbuns_pcl/tmp.pdf', 'page': 0, 'total_pages': 22, 'format': 'PDF 1.4', 'title': 'VHS: Vortrag über Zentralpolen: Posen, Warschau und Lublin',

Wir bekommen eine Liste von Objekte das typens `Document`, die jeweils eine Chunk das Dokuments darstellen. Die Objekte verfügen über folgenden Attribute:
|Attribute|Beschreibung|
|-----------|-------------|
|page_content | Der Inhalt dieses Chunks|
|metadata | Dict. mit metadaten wie die Seite unter "page"|

In [None]:
from langchain.vectorstores import Chroma

# Chroma Vectorstore vorbereiten
db = Chroma.from_documents(docs, embeddings)

In [None]:
# Eine Frage stellen:
query = "Wann wurde die Stadt Lübeck gegründet?"
docs = db.similarity_search(query)

# Den zurückgegebenen Textteil anschauen
print(docs[0].page_content)

den Erfordernissen der Wirtschaft und den dadurch drohenden Beeinträchtigungen des 
Stadtdenkmals Lübeck geprägt sein. In dem überregional zwischen Kiel, Lübeck und 
Rostock ausgetragenen Wettbewerb um die Stellung als wirtschaftliches und kulturelles 
Oberzentrum kommt dem Weltkulturerbe Altstadt Lübeck eine besondere Qualität zu, da 
es ein Standortfaktor ist, der Lübeck von den anderen Mitbewerbern abhebt und in 
Verbindung mit seiner hansischen Geschichte im nördlichen Europa einmalig ist. An der 
Präsentation der Altstadt sowohl für den allgemeinen als auch für den .intelligenten. 
Tourismus muß jedoch noch gearbeitet werden. Ein hochkomplexes Gebilde wie die von 
ständigen Veränderungen vom 12. bis ins 20. Jahrhundert geprägte Stadt erschließt sich


In [None]:
# Besten drei Ergebnisse mit dem jeweiligen Score
similar_docs = db.similarity_search_with_score(query, k=3)

In [None]:
for doc, score in similar_docs:
    print(f"Inhalt:\n{'-'*100}\n{doc.page_content}")
    print("-"*100)
    print(f"Relevanz-Score: {score}")
    print("-"*100 + "\n\n")

Inhalt:
----------------------------------------------------------------------------------------------------
den Erfordernissen der Wirtschaft und den dadurch drohenden Beeinträchtigungen des 
Stadtdenkmals Lübeck geprägt sein. In dem überregional zwischen Kiel, Lübeck und 
Rostock ausgetragenen Wettbewerb um die Stellung als wirtschaftliches und kulturelles 
Oberzentrum kommt dem Weltkulturerbe Altstadt Lübeck eine besondere Qualität zu, da 
es ein Standortfaktor ist, der Lübeck von den anderen Mitbewerbern abhebt und in 
Verbindung mit seiner hansischen Geschichte im nördlichen Europa einmalig ist. An der 
Präsentation der Altstadt sowohl für den allgemeinen als auch für den .intelligenten. 
Tourismus muß jedoch noch gearbeitet werden. Ein hochkomplexes Gebilde wie die von 
ständigen Veränderungen vom 12. bis ins 20. Jahrhundert geprägte Stadt erschließt sich
----------------------------------------------------------------------------------------------------
Relevanz-Score: 4.9915590

## PDF Question Answering

In [None]:
from langchain.document_loaders import PyMuPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma

# Beispiel PDF zum Thema Gründung. Quelle: https://gruendungswiki.eduloop.de/loop/Gr%C3%BCndungswiki
PDF_LINK = "https://drive.google.com/uc?export=download&id=1FgVjSwDbEgWd1s5BFLsypvNzgyH6F258"

# der splitter zerteilt den Text in Chunks
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 800, # größe eines Chunks
    chunk_overlap  = 20,
    length_function = len,
    is_separator_regex = False,
)
# der PyMuPDFLoader erlaubt uns die PDF direkt als Link bereitzustellen
loader = PyMuPDFLoader(PDF_LINK)

# before wir eine neue Datenbank erstellen, löschen wir erstmal die collection wenn eine existiert
# Dies ist wichtig, weil wenn Text Chunks mehrfach eingelesen werden, werden irgendwann nur noch die gleiche auf eine Frage zurückgegeben
if db:
    db.delete_collection()

docs = loader.load_and_split(text_splitter)

# Chroma Vectorstore vorbereiten
db = Chroma.from_documents(docs, embeddings)

In [None]:
# Besten drei Ergebnisse mit dem jeweiligen Score
query = "Was macht ein gutes Team aus"
similar_docs = db.similarity_search_with_score(query, k=3)

In [None]:
for doc, score in similar_docs:
    print(f"Inhalt:\n{'-'*100}\n{doc.page_content}")
    print("-"*100)
    print(f"Relevanz-Score: {score}")
    print("-"*100 + "\n\n")

Inhalt:
----------------------------------------------------------------------------------------------------
•
Ein erfolgreiches Team kommu-
niziert die Ziele und den Weg
dahin ausführlich und regel-
mäßig, damit jedes Mitglied auf
den aktuellen Stand ist. Ein er-
folgreiches Team findet effek-
tive und effiziente Entscheidun-
gen, die die Ausgangssituation
kurz- oder langfristig verbessert.
•
Ein erfolgreiches Team verfügt über eine gesunde Fehlerkultur und weiß, dass aus
Fehlern gelernt wird und Fortschritt entsteht.
•
Ein erfolgreiches Team kennt die individuellen Stärken und Schwächen und weiß
sie zu schätzen. Dadurch werden Aufgaben effizient verteilt und Probleme gelöst.
Diversität sorgt zudem dafür, dass mehrere Sichtweisen auf das gleiche Problem
entstehen. [1]
Praktische Tipps, um ein Team aufzubauen
Ziele klar definieren
Das beste Team bringt nichts, wenn
----------------------------------------------------------------------------------------------------
Relevanz-Score: 3.860

Aus der [Modelcard](https://huggingface.co/TheBloke/em_german_mistral_v01-AWQ#example) können wir die Prompt empfehlung für dieses Finegetunte Modell einsehen. Es gibt dabei verschiedene Methoden, aber da das Modell mit einem EM Datensatz gefintuned wurde, wird wahrscheinlich die angegebene Technik am besten Funktionieren. Damit wir sie flexible für verschiedene Versuche verwenden können, bauen wir uns schnell eine kleine Funktion.

In [None]:
# Globale Variablen
USER = "USER:"
ASSISTANT = "ASSISTANT:"

def generate_retrival_prompt(task_description="Extrahiere aus dem Text Informationen die für die Beantwortung der Frage relevant ist!",
                             context_variable_name="context",
                             question_variable_name="question",
                             plural=True,
                             question=None
                            ):

    if plural:
        source_text = "Quellen"
        article = "den"
        intro_text = "Für die folgenden Aufgaben stehen dir zwischen den tags BEGININPUT und ENDINPUT mehrere Quellen zur Verfügung."
    else:
        source_text = "Quelle"
        article = "der"
        intro_text = "Für die folgende Aufgabe steht dir zwischen den tags BEGININPUT und ENDINPUT eine Quelle zur Verfügung."

    # Automatisches Wrapping von context_variable_name und question_variable_name
    if context_variable_name:
        context_variable_name = "{" + context_variable_name + "}"

    if not question and question_variable_name:
        question = "{" + question_variable_name + "}"

    prompt = f"""Du bist ein hilfreicher Assistent. {intro_text} Metadaten zu {article} {source_text} wie Autor, URL o.ä. sind zwischen BEGINCONTEXT und ENDCONTEXT zu finden, danach folgt der Text der {source_text}. Die eigentliche Aufgabe oder Frage ist zwischen BEGININSTRUCTION und ENDINCSTRUCTION zu finden. {task_description} {USER} BEGININPUT
{context_variable_name or ''}
ENDINPUT
BEGININSTRUCTION {question or ''} ENDINSTRUCTION
{ASSISTANT}"""

    return PromptTemplate.from_template(prompt)

# Beispielaufruf:
generate_retrival_prompt(plural=True) # plural=true steht dafür, dass wir mehrere Text Chunks mit dieser Prompt verarbeiten

PromptTemplate(input_variables=['context', 'question'], template='Du bist ein hilfreicher Assistent. Für die folgenden Aufgaben stehen dir zwischen den tags BEGININPUT und ENDINPUT mehrere Quellen zur Verfügung. Metadaten zu den Quellen wie Autor, URL o.ä. sind zwischen BEGINCONTEXT und ENDCONTEXT zu finden, danach folgt der Text der Quellen. Die eigentliche Aufgabe oder Frage ist zwischen BEGININSTRUCTION und ENDINCSTRUCTION zu finden. Extrahiere aus dem Text Informationen die für die Beantwortung der Frage relevant ist! USER: BEGININPUT\n{context}\nENDINPUT\nBEGININSTRUCTION {question} ENDINSTRUCTION\nASSISTANT:')

In [None]:
print(generate_retrival_prompt(plural=True).template)

Du bist ein hilfreicher Assistent. Für die folgenden Aufgaben stehen dir zwischen den tags BEGININPUT und ENDINPUT mehrere Quellen zur Verfügung. Metadaten zu den Quellen wie Autor, URL o.ä. sind zwischen BEGINCONTEXT und ENDCONTEXT zu finden, danach folgt der Text der Quellen. Die eigentliche Aufgabe oder Frage ist zwischen BEGININSTRUCTION und ENDINCSTRUCTION zu finden. Extrahiere aus dem Text Informationen die für die Beantwortung der Frage relevant ist! USER: BEGININPUT
{context}
ENDINPUT
BEGININSTRUCTION {question} ENDINSTRUCTION
ASSISTANT:


### Stuff

In [None]:
from langchain.prompts import PromptTemplate
from langchain.chains import RetrievalQA

retrival_prompt = generate_retrival_prompt()

chain_type_kwargs = {"prompt": retrival_prompt}
search_kwargs = {"k": 1} # k Text zur Frage passende Text Chunks sollen gesucht werden
qa = RetrievalQA.from_chain_type(
    llm=llm, chain_type="stuff",
    retriever=db.as_retriever(
        search_kwargs=search_kwargs
    ),
    chain_type_kwargs=chain_type_kwargs
)


In [None]:
answer = qa("Was macht ein gutes Team aus?")

 Ein erfolgreiches Team kommuniziert die Ziele und den Weg dahin ausführlich und regelmäßig, damit jedes Mitglied auf den aktuellen Stand ist. Ein erfolgreiches Team findet effektive und effiziente Entscheidungen, die die Ausgangssituation kurz- oder langfristig verbessern. • Ein erfolgreiches Team verfügt über eine gesunde Fehlerkultur und weiß, dass aus Fehlern gelernt wird und Fortschritt entsteht. • Ein erfolgreiches Team kennt die individuellen Stärken und Schwächen und weiß sie zu schätzen. Dadurch werden Aufgaben effizient verteilt und Probleme gelöst. Diversität sorgt zudem dafür, dass mehrere Sichtweisen auf das gleiche Problem entstehen. [1]

Nehmen wir jetzt an wir haben mehere Text Chunks. In der Prompt Template Vorlage des Modells wird gesagt, wie sollen jedes der Text Chunks wie folgt inbringen:

```
BEGINCONTEXT
Url: https://www.jph.me
ENDCONTEXT
Das Wetter in Düsseldorf wird heute schön und sonnig!
```

Dabei steht zwischen den `BEGINKONTEXT` und `ENDCONTEXT` die Matedaten der Quellen und danach der Text. Hierfür können wir ein Dokumenten Template erstellen, welches auf jedes Dokument angwendet wird bevor es in die Prompt geht.

In [None]:
# source ist der pdf link in diesem Fall und page_content der inhalt
document_prompt = PromptTemplate.from_template("BEGINCONTEXT\nURL:{source}\nPAGE:{page}\nENDCONTEXT\n{page_content}\n")

In [None]:
chain_type_kwargs = {
    "prompt": retrival_prompt,
    "document_prompt": document_prompt
}
qa = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=db.as_retriever(
        search_kwargs=search_kwargs
    ),
    chain_type_kwargs=chain_type_kwargs
)
outputs = qa("Was macht ein gutes Team aus?")

 Ein erfolgreiches Team kommuniziert die Ziele und den Weg dahin ausführlich und regelmäßig, damit jedes Mitglied auf den aktuellen Stand ist. Ein erfolgreiches Team findet effektive und effiziente Entscheidungen, die die Ausgangssituation kurz- oder langfristig verbessern. • Ein erfolgreiches Team verfügt über eine gesunde Fehlerkultur und weiß, dass aus Fehlern gelernt wird und Fortschritt entsteht. • Ein erfolgreiches Team kennt die individuellen Stärken und Schwächen und weiß sie zu schätzen. Dadurch werden Aufgaben effizient verteilt und Probleme gelöst. Diversität sorgt zudem dafür, dass mehrere Sichtweisen auf das gleiche Problem entstehen. [1]

### Map Reduce

LangChain verfügt über fertige Chains, die mit wenige Befehlen aufgerufen werden können. Jedoch ist darauf zu achten, das im Hintergrund häufig Standard-Prompts verwendet werden. Diese Prompts sind nicht nur auf Englisch, sondern auch meist für OpenAI Modelle ausgelegt.

Damit ein verständs aufkommt, wollen wir einmal eine Chain selber zusammen bauen, damit wir wissen wohin welche Prompt eigentlich geht. Dafür verwenden wir das MapReduce Prinzip, welches dem einen oder anderen vielleicht aus Hadoop bekannt ist. Wir reduzieren den Inhalt aus mehreren Quellen vorab mithilfe das Modelles auf einen Text, welchen wir dann wieder in das LLM geben mit unserer Frage:

1. Ähnliche Text Chunks suchen
2. Wesentlichen Punkte jeder Quelle herausfiltern (mit LLM)
3. Wesentliche Punkte der einzelnen Quellen zu einem neuen Text kombinieren (mit LLM)
4. Kombinierte Informationen mit der Frage an LLM übergeben um eine Antwort zu erhalten

In [None]:
from langchain.chains.question_answering import load_qa_chain

# Extrahiert information aus einzelnen Chunks jeweils eine Zusammenfassung
question_prompt = generate_retrival_prompt(plural=True)

# Kombiniert Zusammenfassungen
combine_prompt = generate_retrival_prompt(
    task_description="Kombiniere die Informationen aus den unterschiedlichen Textausschnitten zu einem kurzem Text der alle wesentliche Informationen hinsichtlich der Fragen beinhaltet. Sollten diese keine Antwort enthalten, antworte, dass auf Basis der gegebenen Informationen keine Antwort möglich ist!",
    context_variable_name="summaries"
)

# Besten drei Ergebnisse mit dem jeweiligen Score
query = "Was macht ein gutes Team aus"
similar_docs = db.similarity_search(query, k=3)

# Vorbereiten der Chain mit dem prompts
chain = load_qa_chain(
    llm,
    chain_type="map_reduce",
    return_map_steps=True,
    question_prompt=question_prompt,
    combine_prompt=combine_prompt
)
outputs = chain({"input_documents": similar_docs, "question": query}, return_only_outputs=True)

 Ein erfolgreiches Team kommuniziert die Ziele und den Weg dahin ausführlich und regelmäßig, damit jedes Mitglied auf den aktuellen Stand ist. Ein erfolgreiches Team findet effektive und effiziente Entscheidungen, die die Ausgangssituation kurz- oder langfristig verbessern. • Ein erfolgreiches Team verfügt über eine gesunde Fehlerkultur und weiß, dass aus Fehlern gelernt wird und Fortschritt entsteht. • Ein erfolgreiches Team kennt die individuellen Stärken und Schwächen und weiß sie zu schätzen. Dadurch werden Aufgaben effizient verteilt und Probleme gelöst. Diversität sorgt zudem dafür, dass mehrere Sichtweisen auf das gleiche Problem entstehen. [1] Jedes Teammitglied sollte als Individuum mit eigenen Stärken und Schwächen behandelt werden. Das sorgt nicht nur für eine bessere kreative Entfaltung, sondern auch für wachsende Motivation. Mit den gegebenen Informationen ist diese Frage nicht zu beantworten.

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

Downloading (…)olve/main/merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

 Ein erfolgreiches Team kommuniziert die Ziele und den Weg dahin ausführlich und regelmäßig, damit jedes Mitglied auf den aktuellen Stand ist. Ein erfolgreiches Team findet effektive und effiziente Entscheidungen, die die Ausgangssituation kurz- oder langfristig verbessern. • Ein erfolgreiches Team verfügt über eine gesunde Fehlerkultur und weiß, dass aus Fehlern gelernt wird und Fortschritt entsteht. • Ein erfolgreiches Team kennt die individuellen Stärken und Schwächen und weiß sie zu schätzen. Dadurch werden Aufgaben effizient verteilt und Probleme gelöst. Diversität sorgt zudem dafür, dass mehrere Sichtweisen auf das gleiche Problem entstehen.

In [None]:
outputs["intermediate_steps"]

[' Ein erfolgreiches Team kommuniziert die Ziele und den Weg dahin ausführlich und regelmäßig, damit jedes Mitglied auf den aktuellen Stand ist. Ein erfolgreiches Team findet effektive und effiziente Entscheidungen, die die Ausgangssituation kurz- oder langfristig verbessern. • Ein erfolgreiches Team verfügt über eine gesunde Fehlerkultur und weiß, dass aus Fehlern gelernt wird und Fortschritt entsteht. • Ein erfolgreiches Team kennt die individuellen Stärken und Schwächen und weiß sie zu schätzen. Dadurch werden Aufgaben effizient verteilt und Probleme gelöst. Diversität sorgt zudem dafür, dass mehrere Sichtweisen auf das gleiche Problem entstehen. [1]',
 ' Jedes Teammitglied sollte als Individuum mit eigenen Stärken und Schwächen behandelt werden. Das sorgt nicht nur für eine bessere kreative Entfaltung, sondern auch für wachsende Motivation.',
 ' Mit den gegebenen Informationen ist diese Frage nicht zu beantworten.']

----
Die Methode mit load_qa_chain zu Arbeiten ist nichts anders als auch das was im Code von RetrievalQA passiert. Einzige unterschied ist, dass die Logik des Retrieval hier fehlt, demnach mussten wir uns die Text Chunks wieder selber aus dem Vectorestore holen. Den Vorteil hat diese Methode aber, da sie die Rückgabe von 'intermediate_steps' erlaubt. Das bedeutet wir können sehen, was das Modell aus den jeweiligen Text Chunks extrahiert hat, demnach die Schritte zur finalen Antwort. Dies kann manchmal von Vorteil sein.

-----
Jetzt implementieren wir aber lieber wieder die Classe `RetrievalQA`, aber diesmal nehmen wir eine besondere Version, die `RetrievalQAWithSourcesChain`, die es uns auch ermöglich die Text Chunks samt ihrer Metadaten mit zu erhalten. Dies ermöglicht es uns die Antwort auf ihre Urpsrung zuzurück zu verfolgen.

In [None]:
from langchain.chains import RetrievalQAWithSourcesChain

chain_type_kwargs = {
    "document_prompt": document_prompt,
    "question_prompt": question_prompt,
    "combine_prompt": combine_prompt
}

search_kwargs["k"] = 3

qa = RetrievalQAWithSourcesChain.from_chain_type(
    llm=llm,
    chain_type="map_reduce",
    retriever=db.as_retriever(
        search_kwargs=search_kwargs
    ),
    chain_type_kwargs=chain_type_kwargs,
    return_source_documents=True
)
outputs = qa("Was macht ein gutes Team aus?", return_only_outputs=False)

 Ein erfolgreiches Team kommuniziert die Ziele und den Weg dahin ausführlich und regelmäßig, damit jedes Mitglied auf den aktuellen Stand ist. Ein erfolgreiches Team findet effektive und effiziente Entscheidungen, die die Ausgangssituation kurz- oder langfristig verbessern. • Ein erfolgreiches Team verfügt über eine gesunde Fehlerkultur und weiß, dass aus Fehlern gelernt wird und Fortschritt entsteht. • Ein erfolgreiches Team kennt die individuellen Stärken und Schwächen und weiß sie zu schätzen. Dadurch werden Aufgaben effizient verteilt und Probleme gelöst. Diversität sorgt zudem dafür, dass mehrere Sichtweisen auf das gleiche Problem entstehen. [1] Jedes Teammitglied sollte als Individuum mit eigenen Stärken und Schwächen behandelt werden. Das sorgt nicht nur für eine bessere kreative Entfaltung, sondern auch für wachsende Motivation. Mit den gegebenen Informationen ist diese Frage nicht zu beantworten. Ein erfolgreiches Team kommuniziert die Ziele und den Weg dahin ausführlich und 

### Output in Markdown Example

Den Output können wir jetzt Visuell aufbereiten und beispielsweise in eine App verbauen. Hier ein kurzes Markdown Beispiel mit einer Interaktiven Input Zelle.

In [None]:
def pretty_print_to_markdown(data):
    output = ""

    # Frage und Antwort
    output += f"**Frage:** {data['question']}\n\n"
    replace_string = '• '
    replacement = '\n- '
    output += "**Antwort:** " + data['answer'].replace(replace_string, replacement) + "\n\n"



    # Quelldokumente
    if data['source_documents']:
        output += "**Quelldokumente:**\n\n"
        for doc in data['source_documents']:
            metadata = doc.metadata
            title = metadata.get('title', 'Unbekannter Titel')
            page = metadata.get('page', 'Unbekannte Seite')
            total_pages = metadata.get('total_pages', '')
            output += f"- **Titel:** {title} | **Seite:** {page} von {total_pages}\n"
            output += f"  - **Inhalt:** {doc.page_content}\n"

    return output

pretty_print_to_markdown(outputs)

'**Frage:** Was macht ein gutes Team aus?\n\n**Antwort:**  Ein erfolgreiches Team kommuniziert die Ziele und den Weg dahin ausführlich und regelmäßig, damit jedes Mitglied auf den aktuellen Stand ist. Ein erfolgreiches Team findet effektive und effiziente Entscheidungen, die die Ausgangssituation kurz- oder langfristig verbessern. \n- Ein erfolgreiches Team verfügt über eine gesunde Fehlerkultur und weiß, dass aus Fehlern gelernt wird und Fortschritt entsteht. \n- Ein erfolgreiches Team kennt die individuellen Stärken und Schwächen und weiß sie zu schätzen. Dadurch werden Aufgaben effizient verteilt und Probleme gelöst. Diversität sorgt zudem dafür, dass mehrere Sichtweisen auf das gleiche Problem entstehen.\n\n**Quelldokumente:**\n\n- **Titel:** Gründungswiki | **Seite:** 120 von 141\n  - **Inhalt:** •\nEin erfolgreiches Team kommu-\nniziert die Ziele und den Weg\ndahin ausführlich und regel-\nmäßig, damit jedes Mitglied auf\nden aktuellen Stand ist. Ein er-\nfolgreiches Team findet e

In [None]:
import ipywidgets as widgets
from IPython.display import display, Markdown

# Interaktives Modul
def interactive_qa_module():
    # Widget-Definitionen
    question_input = widgets.Text(
        value='',
        placeholder='Geb hier eure Frage ein...',
        description='Frage:',
        disabled=False,
        continuous_update=False  # Aktion wird nur nach Drücken der Eingabetaste ausgelöst
    )

    output_area = widgets.Output()

    # Funktion, die aufgerufen wird, wenn der Wert geändert wird (nach Drücken der Eingabetaste)
    def on_value_change(change):
        with output_area:
            # Daten von der LLM Chain erhalten
            data = qa(change['new'])

            # Markdown-Ausgabe erstellen
            markdown_output = pretty_print_to_markdown(data)

            # Vorherigen Output löschen
            output_area.clear_output(wait=True)

            # Markdown ausgeben
            display(Markdown(markdown_output))

    question_input.observe(on_value_change, names='value')

    # Widgets anzeigen
    display(question_input, output_area)

# Die interaktive Funktion aufrufen
interactive_qa_module()


Text(value='', continuous_update=False, description='Frage:', placeholder='Geb hier eure Frage ein...')

Output()

### ConversationalRetrievalChain

In [None]:
from langchain.chains.qa_with_sources import load_qa_with_sources_chain
from langchain.chains import LLMChain, ConversationalRetrievalChain

In [None]:
condense_question_prompt = PromptTemplate.from_template("""Du bist ein hilfreicher Assistent. Formuliere die folgende Unterhaltung und eine Folgefrage so um, dass sie eine eigenständige Frage ist.\n\nChat-Verlauf:\n{chat_history}\nFolgefrage: {question}\nStandalone question:""")

question_generator = LLMChain(llm=llm, prompt=condense_question_prompt)
doc_chain = load_qa_with_sources_chain(
    llm,
    chain_type="map_reduce",
    question_prompt=question_prompt,
    combine_prompt=combine_prompt
)

memory = ConversationBufferMemory(
    human_prefix="USER",
    ai_prefix="ASSISTANT",
    memory_key="chat_history",
    return_messages=True
)

chain = ConversationalRetrievalChain(
    memory=memory,
    retriever=db.as_retriever(),
    question_generator=question_generator,
    combine_docs_chain=doc_chain,
)

In [None]:
chat_history = []
query = "Was macht ein gutes Team?"
chain({"question": query, "chat_history": chat_history})

 Ein erfolgreiches Team kommuniziert die Ziele und den Weg dahin ausführlich und regelmäßig, damit jedes Mitglied auf den aktuellen Stand ist. Ein erfolgreiches Team findet effektive und effiziente Entscheidungen, die die Ausgangssituation kurz- oder langfristig verbessern. • Ein erfolgreiches Team verfügt über eine gesunde Fehlerkultur und weiß, dass aus Fehlern gelernt wird und Fortschritt entsteht. • Ein erfolgreiches Team kennt die individuellen Stärken und Schwächen und weiß sie zu schätzen. Dadurch werden Aufgaben effizient verteilt und Probleme gelöst. Diversität sorgt zudem dafür, dass mehrere Sichtweisen auf das gleiche Problem entstehen. [1] Jedes Teammitglied sollte als Individuum mit eigenen Stärken und Schwächen behandelt werden. Das sorgt nicht nur für eine bessere kreative Entfaltung, sondern auch für wachsende Motivation. Ich bin überzeugt, dass ein Team unglaublich wichtig ist. Da kann die Idee noch
so gut sein, wenn das Team nicht passt, klappt es nicht. Mit den gegeb

{'question': 'Was macht ein gutes Team?',
 'chat_history': [HumanMessage(content='Was macht ein gutes Team?'),
  AIMessage(content=' Ein erfolgreiches Team kommuniziert die Ziele und den Weg dahin ausführlich und regelmäßig, damit jedes Mitglied auf den aktuellen Stand ist. Ein erfolgreiches Team findet effektive und effiziente Entscheidungen, die die Ausgangssituation kurz- oder langfristig verbessern. • Ein erfolgreiches Team verfügt über eine gesunde Fehlerkultur und weiß, dass aus Fehlern gelernt wird und Fortschritt entsteht. • Ein erfolgreiches Team kennt die individuellen Stärken und Schwächen und weiß sie zu schätzen. Dadurch werden Aufgaben effizient verteilt und Probleme gelöst. Diversität sorgt zudem dafür, dass mehrere Sichtweisen auf das gleiche Problem entstehen.')],
 'answer': ' Ein erfolgreiches Team kommuniziert die Ziele und den Weg dahin ausführlich und regelmäßig, damit jedes Mitglied auf den aktuellen Stand ist. Ein erfolgreiches Team findet effektive und effizient

Auf diese Weise können wir einen Chatverlauf mit die Chain geben. Dadurch kann Beispielsweise ein Chatverlauf geführt werden und bei Bedarf kann die Retrival Chain benutzt werden, um die Frage das Users zu beantworten.

## Web Scraping

In [None]:
from langchain.text_splitter import HTMLHeaderTextSplitter, RecursiveCharacterTextSplitter
import requests

TH_URL = "https://www.th-luebeck.de/studium/studienorientierung/warum-th-luebeck/"

# Wir können nach HTML Elemente splitten
headers_to_split_on = [
    ("h2", "Header"),
]

# Hier werden Textblöcke nach den h2 Überschriften gesplittet
html_splitter = HTMLHeaderTextSplitter(headers_to_split_on=headers_to_split_on)

# Text Chunks von Webseite ziehen.
html_header_splits = html_splitter.split_text_from_url(TH_URL)

# Alternative Textsplitting Einstellung, falls h2 nich konsistent genug war.
chunk_size = 800
chunk_overlap = 30
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size, chunk_overlap=chunk_overlap
)

# Split anwenden
splits = text_splitter.split_documents(html_header_splits)

# Filter für Abschnitte die eine Überschrift haben und mindestens 30 Zeichen lang sind
splits = [split for split in splits if len(split.page_content) > 30 and "Header" in split.metadata]
for i, split in enumerate(splits):
    print(f"{i}:\n  Metadaten:{split.metadata}\n  Page_content:{split.page_content}")


0:
  Metadaten:{'Header': '1. Persönliche Hochschule'}
  Page_content:Foto: TH Lübeck  
In Lübeck bist du mehr als eine Nummer! Hier lernst du in kleinen Seminargruppen und profitierst durch eine enge Verbindung zu den Professor*innen. Viele von ihnen werden dich innerhalb kürzester Zeit beim Namen kennen, deine Entwicklung im Blick haben und all unsere Dozierenden stehen gerne für Fragen, Konsultationen und Sprechstunden zur Verfügung. Außerdem ist der Campus, also das Gelände unserer Hochschule, an einem Ort. Das bedeutet für dich, dass du nicht zwischen den Vorlesungen durch die ganze Stadt fahren musst. Stattdessen kannst du die Zeit nutzen, um dich mit deinen Lerngruppen zu treffen oder mit Freunden im Carlebach-Park direkt am Campus zu entspannen.
1:
  Metadaten:{'Header': '2. Hoher Praxisbezug'}
  Page_content:Kennst du den Unterschied zwischen einer Universität und einer Fachhochschule? Qualitativ sind diese beiden Hochschul-Formen gleichwertig, aber sie haben unterschiedliche 

In [None]:
# Chroma Vectorstore vorbereiten
if db._client.list_collections():
    db.delete_collection()
db = Chroma.from_documents(splits, embeddings)

In [None]:
from langchain.chains import RetrievalQAWithSourcesChain

document_prompt = PromptTemplate.from_template("BEGINCONTEXT\nHEADER:{Header}\nENDCONTEXT\n{page_content}\n")

chain_type_kwargs = {
    "document_prompt": document_prompt,
    "question_prompt": question_prompt,
    "combine_prompt": combine_prompt
}

search_kwargs["k"] = 3

qa = RetrievalQAWithSourcesChain.from_chain_type(
    llm=llm,
    chain_type="map_reduce",
    retriever=db.as_retriever(
        search_kwargs=search_kwargs
    ),
    chain_type_kwargs=chain_type_kwargs,
    return_source_documents=True
)
outputs = qa("Was hat die Technische Hochschule Lübeck für internationale Angebote?", return_only_outputs=False)
print(f"\nAntwort:\n{outputs['answer']}")

 Die TH Lübeck hat eine Strategie, diese Internationalisierung für dich nutzbar zu machen. So hast du zum Beispiel die Möglichkeit, Doppelabschlüsse mit ausländischen Hochschulen abzuschließen, kannst kostenfreie Sprachkurse belegen und bekommst viel Unterstützung bei der Planung deines Auslandssemesters oder -praktikums. Mit den Quellen, die bereitgestellt wurden, ist diese Frage nicht zu beantworten. Mit den Quellen, die bereitgestellt wurden, ist diese Frage nicht zu beantworten. Die TH Lübeck hat eine Strategie, diese Internationalisierung für dich nutzbar zu machen. So hast du zum Beispiel die Möglichkeit, Doppelabschlüsse mit ausländischen Hochschulen abzuschließen, kannst kostenfreie Sprachkurse belegen und bekommst viel Unterstützung bei der Planung deines Auslandssemesters oder -praktikums.
Antwort:
 Die TH Lübeck hat eine Strategie, diese Internationalisierung für dich nutzbar zu machen. So hast du zum Beispiel die Möglichkeit, Doppelabschlüsse mit ausländischen Hochschulen a

# Agents und Tools

# Kapitel: Agenten & Werkzeuge - Das dynamische Duo 🦸‍♂️🦸‍♀️

Nun, da ihr bereits mit LangChain vertraut seid, wollen wir einen Schritt weiter gehen. Es ist Zeit, den zwei entscheidenden Akteuren auf der Bühne Raum zu geben: den `Agents` und den `Tools`. Sie sind wie Batman und Robin der LangChain-Welt.

**Agenten** sind unsere Entscheidungstreiber, die basierend auf den Benutzereingaben den besten Kurs festlegen. **Werkzeuge** hingegen sind die Ressourcen, mit denen unsere Agenten interagieren, um ihre Ziele zu erreichen.

Zum Aufwärmen bauen wir gemeinsam ein einfaches, aber mächtiges Tool. Stellt euch vor, ihr hättet einen Taschenrechner, der nicht nur rechnet, sondern auch versteht! Unser erstes Tool wird mathematische Ausdrücke interpretieren und mithilfe der Python `numexpr`-Bibliothek berechnen.

Bereit? Lasst uns mit unserem Taschenrechner-Werkzeug beginnen! 🔢🛠️


In [None]:
from langchain.memory import ConversationBufferWindowMemory

USER = "USER"
ASSISTANT = "ASSISTANT"

memory = ConversationBufferMemory(
    human_prefix=USER,
    ai_prefix=ASSISTANT,
    return_messages=True,
    memory_key="chat_history",
    k=5,
    output_key="output"
)

In Langchain sind bereits verschiedene `Tools` [integriert](https://python.langchain.com/docs/integrations/tools). Diese beinhalten Prompts, die den LLM detailliert anleiten, wie sie jedes Tool nutzen können und welche Tools verfügbar sind. Das ist natürlich hervorragend, aber die Hürde: Sie sind primär für OpenAI und die englische Sprache konzipiert. Daher ist es notwendig, die Prompts in jedem Schritt anzupassen. So stellen wir sicher, dass unser LLM flüssig bleibt, nicht ins Englische abdriftet und konsequent `USER` und `ASSISTANT` verwendet.

Lasst uns zuerst die Originale Prompt anschauen:

In [None]:
from langchain.chains.llm_math.prompt import PROMPT as math_chain_prompt

print(math_chain_prompt.template)

Translate a math problem into a expression that can be executed using Python's numexpr library. Use the output of running this code to answer the question.

Question: ${{Question with math problem.}}
```text
${{single line mathematical expression that solves the problem}}
```
...numexpr.evaluate(text)...
```output
${{Output of running the code}}
```
Answer: ${{Answer}}

Begin.

Question: What is 37593 * 67?
```text
37593 * 67
```
...numexpr.evaluate("37593 * 67")...
```output
2518731
```
Answer: 2518731

Question: 37593^(1/5)
```text
37593**(1/5)
```
...numexpr.evaluate("37593**(1/5)")...
```output
8.222831614237718
```
Answer: 8.222831614237718

Question: {question}



Wir können die Übersetzung davon fast komplett als Prompt für uns übernehmen. Zusätzlich können wir mit [Pydantic](https://docs.pydantic.dev/latest/):

1. **Sicherheit** gewährleisten, indem fehlerhaften oder schädlichen Input verhindert wird.
2. **Konsistenz** in unseren Daten sicherstellen, indem sichergestellt wird, dass der Input den erwarteten Formaten und Standards entspricht.
3. **Effizienz** steigern, indem fehlerhafte Eingaben frühzeitig erkannt werden, was unnötige Verarbeitungszyklen spart.

Durch den Einsatz von Pydantic können wir also nicht nur die Integrität unserer Daten sicherstellen, sondern auch die Gesamtqualität und Effizienz unseres Systems optimieren.

In [None]:
from pydantic import BaseModel, Field
from langchain.chains import LLMMathChain
from langchain.tools import Tool

math_prompt_template = """Übersetze ein mathematisches Problem in einen Ausdruck, der mit der numexpr-Bibliothek von Python ausgeführt werden kann. Verwende die Ausgabe des ausgeführten Codes, um die Frage zu beantworten.

Question: ${{Frage mit mathematischem Problem.}}

```text
${{einzelliger mathematischer Ausdruck zur Lösung des Problems}}
```
...numexpr.evaluate(text)...
```output
${{Ausgabe des ausgeführten Codes}}
```
Answer: ${{Antwort}}

Begin.

Question: Was ergibt 4 hoch 10?

```
4**10
```
...numexpr.evaluate("4**10")...
```output
1048576
```
Answer: 1048576

Question: 37593^(1/5)
```text
37593**(1/5)
```
...numexpr.evaluate("37593**(1/5)")...
```output
8.222831614237718
```
Answer: 8.222831614237718
Question: {question}"""

# Erstellen der Mathe Chain mit unserer Custom Prompt und unserem LLM
math_prompt = PromptTemplate.from_template(math_prompt_template)
llm_math_chain = LLMMathChain.from_llm(
    llm=llm,
    verbose=True,
    prompt=math_prompt
)

# Pydantic Model zum Festlegen des Inputformats das `Calculator`
class CalculatorInput(BaseModel):
    question: str = Field()

# Vorbereiten der Tool Liste für unseren Agent
tools = [
    Tool.from_function(
        func=llm_math_chain.run,
        name="Rechner",
        description="nützlich, wenn Sie Fragen zur Mathematik beantworten müssen",
        args_schema=CalculatorInput
        # coroutine= ... <- hier könnt ihr bei Bedarf auch eine asynchrone Methode angeben
    )
]


In [None]:
llm_math_chain("Was ist 3.1 hoch 2?")



[1m> Entering new LLMMathChain chain...[0m
Was ist 3.1 hoch 2?
```text
3.1**2
```
...numexpr.evaluate("3.1**2")...
```output[32;1m[1;3m
```text
3.1**2
```
...numexpr.evaluate("3.1**2")...
```output[0m
Answer: [33;1m[1;3m9.610000000000001[0m
[1m> Finished chain.[0m


{'question': 'Was ist 3.1 hoch 2?', 'answer': 'Answer: 9.610000000000001'}

Der Rechner funktioniert schonmal. Später verwenden wir diese Chain als `Tool` in unserer `Agent`-Chain, sodass unser Agent das Rechnertool verwenden kann wenn er meint, dass es bei der Frage nützlich ist.

## Custom Parser

Unser `Tool` ist nichts anderes als eine Python Funktion oder irgendeine Art von API. Damit das `LLM` die Frage des `Users` interpretiert und ein Tool verwendet, müssen wir dem `Agent` erklären, in welchen Format er ein Tool verwenden kann. Dies ist besonders wichtig, da das Format der Anweisung nur übertragen werden kann, wenn es genau den Formatierungsforschriften entspricht. Wir müssen dann aus dem Text die einzelnen Elemente extrahieren und die vom `Agent` ausgewählte `Action`ausführen. Dafür können wir einen Custom `OutputParser` verwenden. Dieser wendelt den Textblook in tatsächliche `Action` und `Action-Input` um und leitet diese dann über die Klasse `AgentAction` weiter an das jeweilige Tool.

Wichtig bei diesem Konzept ist, dass wir das vorlagerte LLM glauben lassen, dass der User das Tool ausführt. Es wurde auf Konversationen trainiert, weshalb wir so tun als wenn es uns die Anweisung als Json gibt und der User die Funktion ausführt und des Ergebnis als "Chatnachricht" zurück in die Konversation gibt. In der Realität werden jedoch andere LLMChains und Python Funktionen dafür automatisch verwendet.

In [None]:
from langchain.agents import AgentOutputParser
from langchain.output_parsers.json import parse_json_markdown
from langchain.schema import AgentAction, AgentFinish

FORMAT_INSTRUCTIONS = """ANWEISUNGEN FÜR DAS ANTWORTFORMAT
----------------------------

Wenn du mir antwortest, gebe bitte eine Antwort in einem von zwei Formaten aus:

**Option 1:**
Verwende diese, wenn du möchtest, dass der Nutzer ein Tool verwendet.
Markdown-Codeausschnitt im folgenden Schema formatiert:

```json
{{{{
"action": string, \\\\ Die zu ergreifende Aktion. Muss eine von {tool_names}
"action_input": string \\\\ Die Eingabe für die Aktion
}}}}
```
**Option #2:**
Verwende diese, wenn du direkt auf den Menschen reagieren möchten. Markdown-Code-Schnipsel, formatiert nach dem folgenden Schema:
```json
{{{{
"action": "Final Answer",
"action_input": string \\\\ Hier sollten Sie eingeben, was Sie zurückgeben möchten
}}}}
```"""

class OutputParser(AgentOutputParser):
    def get_format_instructions(self) -> str:
        return FORMAT_INSTRUCTIONS

    def parse(self, text: str) -> AgentAction | AgentFinish:
        try:
            # this will work IF the text is a valid JSON with action and action_input
            response = parse_json_markdown(text)
            action, action_input = response["action"], response["action_input"]
            if action == "Final Answer":
                # this means the agent is finished so we call AgentFinish
                return AgentFinish({"output": action_input}, text)
            else:
                # otherwise the agent wants to use an action, so we call AgentAction
                return AgentAction(action, action_input, text)
        except Exception:
            # sometimes the agent will return a string that is not a valid JSON
            # often this happens when the agent is finished
            # so we just return the text as the output
            return AgentFinish({"output": text}, text)

    @property
    def _type(self) -> str:
        return "conversational_chat"

# initialize output parser for agent
parser = OutputParser()

template_tool_response = """TOOL RESPONSE:
{observation}
USER: Okay, was ist also die Antwort auf meinen letzten Kommentar? Wenn du Informationen aus den Tool verwendest, musst du diese explizit erwähnen, ohne die Tool-Namen zu nennen - ich habe alle TOOL-RESPONSES vergessen! Denken Sie daran, mit einem Markdown-Code-Schnipsel eines json-Blob mit einer einzigen Aktion zu antworten, und sonst NICHTS."""


Jetzt können wir den Agent initialisieren und gleich das `Memory` für das Gespräch, sowie alle andere verdefinierten Komponenten mit reingeben.

In [None]:
from langchain.agents import initialize_agent

# initialize agent
agent = initialize_agent(
    agent="chat-conversational-react-description",
    tools=tools,
    llm=llm,
    verbose=True,
    early_stopping_method="generate",
    memory=memory,
    handle_parsing_errors=True,
    return_intermediate_steps=True,
    agent_kwargs={
        "output_parser": parser,
        "template_tool_response": template_tool_response
    }
)

In [None]:
print(agent.agent.llm_chain.prompt.messages[0].prompt.template)

Assistant is a large language model trained by OpenAI.

Assistant is designed to be able to assist with a wide range of tasks, from answering simple questions to providing in-depth explanations and discussions on a wide range of topics. As a language model, Assistant is able to generate human-like text based on the input it receives, allowing it to engage in natural-sounding conversations and provide responses that are coherent and relevant to the topic at hand.

Assistant is constantly learning and improving, and its capabilities are constantly evolving. It is able to process and understand large amounts of text, and can use this knowledge to provide accurate and informative responses to a wide range of questions. Additionally, Assistant is able to generate its own text based on the input it receives, allowing it to engage in discussions and provide explanations and descriptions on a wide range of topics.

Overall, Assistant is a powerful system that can help with a wide range of task

## Anpassen der Agent Prompts

In Langchain sind vordefinierte Prompts immer in Englisch. Wir müssen diese an unser LLM und an unsere Sprache anpassen. Hier sehen wir auch die zuvor erläuterte Gesprächsform, wo das Ergebnis das Tools als User Nachricht mit in des Gespräch geht. Wir geben dem `LLM` ein ausfürliches Beispiel, damit es den Syntax versteht.

In [None]:
agent_prompt_template = """Du bist ein Experte im Erstellen von JSONs und entworfen, um bei einer Vielzahl von Aufgaben zu helfen.
Du kannst dem Benutzer antworten und Tools mit JSON-Strings verwenden, die die Parameter "action" und "action_input" enthalten.
Dein Gesamter Kommunikationsverlauf erfolgt in diesem JSON-Format. Bei einer reinen Textantwort ohne Tool, antworte mit der "action": "Final Answer".
Du kannst auch Tools verwenden, indem du dem Benutzer Anweisungen zur Verwendung des Tools im gleichen "action" und "action_input" JSON-Format gibt. Für den Assistenten verfügbare Tools sind:

- "Rechner": Nützlich, wenn Sie Fragen zur Mathematik beantworten müssen.
  - Um das Rechner-Tool zu verwenden, sollte der Assistent so schreiben:
    ```json
    {{"action": "Rechner",
      "action_input": "sqrt(4)"}}
    ```
Hier sind einige frühere Gespräche zwischen dem Assistenten und dem Benutzer:

USER: Hey, wie geht es dir heute?
ASSISTANT: ```json
{{"action": "Final Answer",
 "action_input": "Mir geht's gut, danke. Und dir?"}}
```
USER: Mir geht's super, was ist die Quadratwurzel von 4?
ASSISTANT: ```json
{{"action": "Rechner",
"action_input": "sqrt(4)"}}
```
USER: 2.0
ASSISTANT: ```json
{{"action": "Final Answer",
 "action_input": "Es sieht so aus, als wäre die Antwort 2!"}}
```
USER: Danke, kannst du mir sagen, was 4 hoch 2 ist?
ASSISTANT: ```json
{{"action": "Rechner",
"action_input": "4**2"}}
```
USER: 16.0
ASSISTANT: ```json
{{"action": "Final Answer",
 "action_input": "Es sieht so aus, als wäre die Antwort 16!"}}
 ```"""

In [None]:
print(agent_prompt_template)

Du bist ein Experte im Erstellen von JSONs und entworfen, um bei einer Vielzahl von Aufgaben zu helfen.
Du kannst dem Benutzer antworten und Tools mit JSON-Strings verwenden, die die Parameter "action" und "action_input" enthalten.
Dein Gesamter Kommunikationsverlauf erfolgt in diesem JSON-Format. Bei einer reinen Textantwort ohne Tool, antworte mit der "action": "Final Answer".
Du kannst auch Tools verwenden, indem du dem Benutzer Anweisungen zur Verwendung des Tools im gleichen "action" und "action_input" JSON-Format gibt. Für den Assistenten verfügbare Tools sind:

- "Rechner": Nützlich, wenn Sie Fragen zur Mathematik beantworten müssen.
  - Um das Rechner-Tool zu verwenden, sollte der Assistent so schreiben:
    ```json
    {{"action": "Rechner",
      "action_input": "sqrt(4)"}}
    ```
Hier sind einige frühere Gespräche zwischen dem Assistenten und dem Benutzer:

USER: Hey, wie geht es dir heute?
ASSISTANT: ```json
{{"action": "Final Answer",
 "action_input": "Mir geht's gut, dan

Jetzt bauen wir die Formatierungsanweisungen mit in unsere Prompt für den `Agent` ein.

In [None]:
instruction = """BEGININSTRUCTION TOOLS
------
Der Assistent kann den Benutzer auffordern, Tools zu verwenden, um Informationen nachzuschlagen, die bei der Beantwortung der ursprünglichen Frage des Benutzers hilfreich sein können. Die Tools, die der Benutzer verwenden kann, sind:

{{tools}}

{format_instructions}

Denke daran, mit einem Markdown-Code-Schnipsel eines json-Blob mit einer einzigen Aktion zu antworten, und sonst NICHTS.
ENDINSTRUCTION"""
human_msg = instruction + "USER: {{{{input}}}} ASSISTANT:"

new_prompt = agent.agent.create_prompt(
    system_message=agent_prompt_template,
    human_message=human_msg,
    tools=tools,
    output_parser= parser
)
agent.agent.llm_chain.prompt = new_prompt

## Run Agent

Wenn wir die `Agent`-Chain ausführen, dann sollte dieser nur ein tool aufrufen, wenn wir eine mathematische Frage stellen. Deshalb starten wir als erstes mit einer normalen Frage und schauen ob er uns direkt eine Finale Antwort gibt. Diese sollte trotzdem als Json ausgegeben werden.

In [None]:
agent("Hey, wie geht es dir heute?")



[1m> Entering new AgentExecutor chain...[0m
 ```json
{"action": "Final Answer",
 "action_input": "Mir geht's gut, danke. Und dir?"}
```[32;1m[1;3m ```json
{"action": "Final Answer",
 "action_input": "Mir geht's gut, danke. Und dir?"}
```[0m

[1m> Finished chain.[0m


{'input': 'Hey, wie geht es dir heute?',
 'chat_history': [HumanMessage(content='Hey, wie geht es dir heute?'),
  AIMessage(content="Mir geht's gut, danke. Und dir?")],
 'output': "Mir geht's gut, danke. Und dir?",
 'intermediate_steps': []}

Perfekt, der `Agent` hat kein Tool verwendet aber die richtige Formatierung verwendet. Lasst uns jetzt eine mathematische Frage stellen.

In [None]:
outputs = agent("Was ist 4 hoch 2.1?")



[1m> Entering new AgentExecutor chain...[0m
 ```json
{"action": "Rechner",
"action_input": "4**2.1"}
```[32;1m[1;3m ```json
{"action": "Rechner",
"action_input": "4**2.1"}
```[0m

[1m> Entering new LLMMathChain chain...[0m
4**2.1
```text
4**2.1
```
...numexpr.evaluate("4**2.1")...
```output[32;1m[1;3m
```text
4**2.1
```
...numexpr.evaluate("4**2.1")...
```output[0m
Answer: [33;1m[1;3m18.37917367995256[0m
[1m> Finished chain.[0m

Observation: [36;1m[1;3mAnswer: 18.37917367995256[0m
Thought:[32;1m[1;3m[0m

[1m> Finished chain.[0m


In [None]:
outputs

{'input': 'Was ist 4 hoch 2.1?',
 'chat_history': [HumanMessage(content='Hey, wie geht es dir heute?'),
  AIMessage(content="Mir geht's gut, danke. Und dir?"),
  HumanMessage(content='Was ist 4 hoch 2.1?'),
  AIMessage(content='')],
 'output': '',
 'intermediate_steps': [(AgentAction(tool='Rechner', tool_input='4**2.1', log=' ```json\n{"action": "Rechner",\n"action_input": "4**2.1"}\n```'),
   'Answer: 18.37917367995256')]}

In [None]:
agent.agent._construct_scratchpad(outputs["intermediate_steps"])

[AIMessage(content=' ```json\n{"action": "Rechner",\n"action_input": "4**2.1"}\n```'),
 HumanMessage(content='TOOL RESPONSE:\nAnswer: 18.37917367995256\nUSER: Okay, was ist also die Antwort auf meinen letzten Kommentar? Wenn du Informationen aus den Tool verwendest, musst du diese explizit erwähnen, ohne die Tool-Namen zu nennen - ich habe alle TOOL-RESPONSES vergessen! Denken Sie daran, mit einem Markdown-Code-Schnipsel eines json-Blob mit einer einzigen Aktion zu antworten, und sonst NICHTS.')]

In [None]:
from IPython.display import display, Markdown
from langchain.schema.messages import HumanMessage, AIMessage


def format_output_for_jupyter(data):
    markdown_output = ""

    # Input section
    markdown_output += f"**Eingabe:**\n\n{data['input']}\n\n"

    # Chat history section
    markdown_output += "**Chatverlauf:**\n\n"
    for message in data['chat_history']:
        if isinstance(message, HumanMessage):
            markdown_output += f"- **Benutzer**: {message.content}\n"
        elif isinstance(message, AIMessage):
            markdown_output += f"- **Assistent**: {message.content}\n"
    markdown_output += "\n"

    # Output section
    markdown_output += f"### Ausgabe:\n\n{data['output']}\n\n"

    # Intermediate steps section
    markdown_output += "**Zwischenschritte:**\n\n"
    for step in data['intermediate_steps']:
        markdown_output += f"- **Aktion**: {step[0].tool}\n"
        markdown_output += f"  - **Eingabe**: {step[0].tool_input}\n"
        markdown_output += f"  - **Log**:\n\n{step[0].log}\n"
        markdown_output += f"  - **Antwort**: {step[1].replace('Answer:', '')}\n\n"

    return markdown_output

markdown_output = format_output_for_jupyter(outputs)
display(Markdown(markdown_output))

**Eingabe:**

Was ist 4 hoch 2.1?

**Chatverlauf:**

- **Benutzer**: Hey, wie geht es dir heute?
- **Assistent**: Mir geht's gut, danke. Und dir?
- **Benutzer**: Was ist 4 hoch 2.1?
- **Assistent**: 

### Ausgabe:



**Zwischenschritte:**

- **Aktion**: Rechner
  - **Eingabe**: 4**2.1
  - **Log**:

 ```json
{"action": "Rechner",
"action_input": "4**2.1"}
```
  - **Antwort**:  18.37917367995256



Perfekt! Der `Agent` hat unseren Rechner verwendet um das Ergebnis zu berechnen und wir bekommen dieses als Antwort. Thought bleibt aktuell noch leer, hier müsste man noch weiteres Prompt Engenieering verwenden, sodass das `LLM` einen Denkprozess anstößt und die Ergebnisse in eine Antwort einbaut. Dies würde jedoch den Rahmen dieses Tutorials sprengen.