# ü¶úüîó Langchain Demo

Hallo und herzlich Willkommen! 

## Umgebungsvariablen gesetzt?

```
# OpenAI Variante
OPENAI_API_KEY=<required>
OPENAI_MODEL="gpt-4-0125-preview"

# AzureVariante
AZURE_OPENAI_API_KEY=<required>
AZURE_OPENAI_ENDPOINT=<required>
AZURE_OPENAI_API_VERSION="2023-12-01-preview"
AZURE_OPENAI_DEPLOYMENT_NAME=<required>
AZURE_OPENAI_EMBEDDING_NAME=<required>
```

Diese Umgebungsvariablen werden implizit verwendet, wenn man ein LLM aufruft oder ein Textst√ºck vektorisiert.

In [None]:
%pip install -r requirements.txt

In [None]:
from dotenv import load_dotenv
load_dotenv()

## Woher der Hype?

2017 kam ein Paper von Google heraus: [Attention is all you need](https://arxiv.org/abs/1706.03762). Die dort vorgestellte Transformer-Architektur unterscheidet sich von den bis dahin gebr√§uchlichen neuronalen Netzen. Das Netz wird insbesondere darauf trainiert, gezielt die "Aufmerksamkeit" auf "relevante" Passagen eines m√∂glicherweise sehr langen Inputs zu lenken. Das macht es ideal zur Verarbeitung von viel Text. Das Paper wurde bisher √ºberaus oft zitiert. Wer keine Angst vor Technikt hat und sich daf√ºr interessiert, was eigentlich hinter so einem LLM steckt, k√∂nnte bei diesem Paper mit der Reise beginnen.

## √úberblick

### OpenAI-Modelle
ChatGPT oder auch jedes andere LLM benutzen ist relativ einfach mit Langchain

In diesen Test nutzen wir das neueste "gpt-4-turbo" Model - m√∂gliche Large Language Modelle von OpenAI sind:
- `gpt-35-turbo`  Das g√ºnstigste und am weitesten verbreitete Modell
- `gpt-4`  Das neue und bessere GPT Modell
- `gpt-4-turbo`  Turbo-variante von gpt-4 (g√ºnstiger, schneller, kleinere maximale L√§nge des Text-Outputs)
- `gpt-4-vision`  Ein "multimodales" Modell, welches auch auf Bilder trainiert wurde.

OpenAI trainiert diese Versionen laufend neu, was dazu f√ºhren kann, das Anfragen an das LLM pl√∂tzlich andere Antworten geben.
M√∂chte man dies verhindern, kann man seine Applikation auf einen Snapshot (z.b. gpt-4-0613) festsetzen.
Dies ist insbesondere wichtig, wenn die Applikation vom Output des LLM bestimmte Strukturen erwartet, beispielsweise eine bestimmte XML-Syntax o.√Ñ.

OpenAI-Modelle werden nicht nur von OpenAI selbst gehostet, sondern auch von Azure.
Diese muss man auf dem Azure Portal selbst als Endpunkte konfigurieren, in der Regel leiden die OpenAI Azure Deployments weniger unter hoher Auslastung

### Andere Modelle
Auch wenn wir nicht damit arbeiten werden, ist es vielleicht ganz gut, die Namen der "gro√üen" Konkurrenz-Modelle einmal geh√∂rt zu haben:
- `Gemini` Das neueste Google-Modell. Es hat den Fokus insbesondere auf multimodalem Input.
- `Claude` Claude ist die LLM-Reihe von Anthropic. Sehr viel Instruction-Tuning.
- `Mixtral` Ein sehr gutes Open-Source Modell. Entwickelt von Mistral AI. Ein guter Kandidat f√ºr ein selbst gehostetes LLM.

### Temperatur
Alle LLMs sind nicht deterministisch. Aber die Temperatur ist ein Parameter, mit der man die Variabilit√§t von Antworten hoch und runter schrauben kann.
Wie bei normalen Atomen ist die Bewegung niedrig, wenn die Temperatur niedrig ist. Wenn man die Temperatur hochschraubt, wird viel gewackelt.
Der Temperatur-Parameter ist √ºblicherweise ein Flie√ükommawert zwischen 0 und 1.

### Streaming
Nicht alle LLMs bieten die M√∂glichkeit, Token f√ºr Token live zu streamen. OpenAI-Modelle k√∂nnen es, man kann dies mit dem Streaming-Parameter einstellen.


### Bitte etwas schneller
Recht neu auf dem Markt mit beeindruckendem Token/Sekunde-Verh√§ltnis: [Groq](https://groq.com/)

### Links:
- https://python.langchain.com/docs/get_started/introduction
- https://platform.openai.com/docs/models/

#### Wir probieren aus:

In [None]:
from helpers import llm
print(llm().invoke("Hi OpenAI! Kannst Du mir gerade mal einen fr√§nkischen Trinkspruch auf die Stadt W√ºrzburg im Dialekt erzeugen?").content)

#### Jetzt nochmal mit Streaming. Dazu rufen wir nicht invoke sondern astream auf (a f√ºr async). Wir drehen etwas an der Temperatur, damit die Ergebnisse spannend bleiben

In [None]:
chunks = []
async for chunk in llm(temperature=1).astream("Erkl√§r mir in einem Satz Quantenmechanik."):
    chunks.append(chunk)
    print(chunk.content, end="", flush=True)

## Token

Token sind die kleinste Einheit des LLM. Das haben wir gerade beim Streaming sch√∂n gesehen. Der Stream kommt Token f√ºr Token aus dem LLM gepurzelt.

Das LLM rechnet aus der Eingabe und den bisher errechneten Token die Wahrscheinlichkeit f√ºr den n√§chsten Token aus. Dieser neue Token wird dann angeh√§ngt und der n√§chste Token wird ermittelt.

So geht das immer weiter. Bis der n√§chste wahrscheinlichste Token ein Stop-Zeichen ist. Auf diese Weise generieren LLMs die wahrscheinlichste Fortf√ºhrung der Eingabetoken.

Token k√∂nnen W√∂rter, machmal sogar Wortgruppen oder auch nur einzelne oder mehrere Buchstaben sein.

Die Bepreisung der LLMs ist an die Tokenanzahl (Eingabe und Ausgabe) gekoppelt.



Links:
- https://github.com/openai/openai-cookbook/blob/main/examples/How_to_count_tokens_with_tiktoken.ipynb 

In [None]:
import tiktoken

encoding = tiktoken.encoding_for_model("gpt-3.5-turbo")

tokens = encoding.encode("AI ist eine tolle Sache.")

decoded_tokens = [encoding.decode_single_token_bytes(token).decode('utf-8') for token in tokens]
for token in decoded_tokens:
    print(token)

## Prompt Engineering und Templates in Langchain

Um die Dinge von der AI zu bekommen, die man erwartet, stellt man am besten sehr konkrete und pr√§zise Anfragen.

Weil eine AI oft an ein bestimmtes Feld von Aufgaben gekoppelt ist, gibt man die Rahmenanweisung dann in ein Template ein, um nicht immer wieder die gleiche Rahmenanweisung zu schreiben.

Die jeweilige konkrete Nutzeranfrage wird dann in das Template eingef√ºgt und das ausgef√ºllte Template ans LLM √ºbergeben.

Der Trend geht immer mehr zu Chat-Modellen. Hierbei ist die Information, die man dem LLM gibt, in "Messages" unterteilt. Besondere Gewichtung hat eine System-Message. Diese kann Rahmenanweisungen enthalten, an die sich das LLM halten soll. Dem Nutzer wird es schwer fallen, das LLM dazu zu bewegen, sich √ºber eine Anweisung in der System-Message hinweg zu setzen. Das LLM wurde ganz einfach darauf trainiert, sich an die Anweisungen einer System-Message strikt zu halten.

### Links
- https://python.langchain.com/docs/get_started/quickstart#prompt-templates
- https://learn.microsoft.com/en-us/azure/ai-services/openai/concepts/prompt-engineering
- https://learnprompting.org/docs/intro
- https://www.promptingguide.ai/
- https://smith.langchain.com/hub

In [None]:
from langchain.prompts import  ChatPromptTemplate

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "Du bist ein {beruf} aus W√ºrzburg."),
        ("human", "Erkl√§re in 2 S√§tzen im fr√§nkischen dialekt warum Deine Kunden aus {ort} die besten sind."),
    ]
)

print(prompt.format(beruf="Winzer", ort="W√ºrzburg"))


### Langchain Hub Beispiel

Weil das "Prompt-Engineering" ein bisschen √úbung braucht und es diverse Tricks gibt, hat LangChain einen "Hub", auf dem man eine ganze Reihe vorgefertigter Prompts f√ºr verschiedene Anwendungsf√§lle findet.

Dort kann man sich inspirieren lassen, Prompts forken oder auch selbst etwas f√ºr andere Leute zur Verf√ºgung stellen, wenn es sich als n√ºtzlich erweist.

Links:
- https://smith.langchain.com/hub/borislove/customer-sentiment-analysis

In [None]:
from langchain import hub
sentiment_prompt = hub.pull("borislove/customer-sentiment-analysis")

client_letter="""Ich bin von dem Volleyballschl√§ger zutiefst entt√§uscht. Zuerst ist der Griff abgefallen, danach auch noch der Dynamo. Au√üerdem riecht er noch schlechter als er schmeckt. Wieso ist das immer so ein √Ñrger mit euch?"""
format_instructions="""Zus√§tlich zur numerischen Klassifizierung sollst du herausfinden, was der Kunde gerne gehabt h√§tte. Antworte auf deutsch."""

print(sentiment_prompt.format(client_letter = client_letter, format_instructions = format_instructions))

## Jetzt f√§ngt es an, etwas technischer zu werden. Wieso hei√üt LangChain eigentlich LangChain?

Langchain definiert einige Python-Operatoren neu, wenn sie zwischen LangChain-Objekten stehen. Der bekannteste ist die Pipe: |

Wenn die Pipe zwischen zwei Langchain-Objekten steht, wird die Ausgabe des ersten Obekts an das n√§chste weitergegeben. Damit erh√§lt man eine "Chain" von "Runnables"

#### Links
- https://python.langchain.com/docs/modules/chains

In [None]:
from langchain.schema import StrOutputParser # Hilft beim Formatieren
chain = prompt | llm() | StrOutputParser()
print(chain.invoke({"beruf":"Winzer", "ort":"W√ºrzburg"}))

In [None]:
# Streaming
async for chunk in chain.astream({"beruf":"Brauer", "ort":"W√ºrzburg"}):
    print(chunk, end="", flush=True)

In [None]:
# Funktioniert auch das Beispiel vom Hub?
sentiment_chain = sentiment_prompt | llm() | StrOutputParser()
async for chunk in sentiment_chain.astream({"client_letter" :client_letter, "format_instructions" : format_instructions}):
    print(chunk, end="", flush=True)

In [None]:
# Wir k√∂nnen dynamisch die format_instructions des Templates √ºberschreiben, um neue Ergebnisse zu bekommen
format_instructions="""Zus√§tlich zur sentiment Analysis ist es deine Aufgabe, die Sinnhaftigkeit der Kunden√§u√üerung zu √ºberpr√ºfen."""
async for chunk in sentiment_chain.astream({"client_letter" :client_letter, "format_instructions" : format_instructions}):
    print(chunk, end="", flush=True)

### Debug Informationen gew√ºnscht?

In [None]:
from langchain.globals import set_debug

In [None]:
## Und jetzt selber mal Ausprobieren
set_debug(True)
print(chain.invoke({
    'beruf': "Programmierer",
    'ort': "W√ºrzburg"
    }))