# Notebook: Einf√ºhrung inPrompting-Strategien f√ºr Large Language Models (LLMs)

In diesem Notebook werden verschiedene Prompting-Strategien vorgestellt, die helfen k√∂nnen, die Leistung von Large Language Models (LLMs) zu verbessern.

## üìö Quellen

- [Prompting Guide](https://www.promptingguide.ai/de/techniques)
- [Python-Paket `openai`](https://github.com/openai/openai-python)

---

Viel Spa√ü beim Erkunden und Experimentieren! ü§ó

Wir verwenden das `openai`-Paket, um mit einem LLM zu interagieren. Das Paket erlaubt sowohl die Kommunikation mit der OpenAI-API als auch mit anderen LLMs, die eine kompatible API anbieten. 

**Wichtiger Hinweis:** Bei der Uni haben wir mehrere Large Language Models zur Verf√ºgung gestellt √ºber einen Server. Ich verweise an dieser Stelle auf die Anleitung f√ºr den VPN-Zugang, den ich bei GRIPS hinterlegt habe. Anfragen an das LLM sind nur **innerhalb des Uni-Netzwerks** m√∂glich, das bedeutet, dass ihr entweder auf dem Campus seid im `eduroam` oder √ºber VPN verbunden seid.

Auf dem Uni-Server werden mehrere Open-Source LLMs angeboten, wobei diese ollama bereitgestellt werden.

Wir werden nun das Packet installieren.

In [1]:
%%capture 
!pip install openai

In [2]:
# Importieren wir nun das Paket
from openai import OpenAI

In [3]:
# Definieren wir die API-URL und den API-Schl√ºssel. Beachte den Hinweis oben!
LLM_URL = "http://132.199.138.16:11434/v1"
LLM_MODEL = "gemma3:4b"

In [4]:
client = OpenAI(
    base_url=LLM_URL,
    api_key='ollama',
)

In [5]:
# Definieren wir eine Funktion, die eine Anfrage an das LLM stellt. Dabei handelt es sich um die completions-API, die eine Next-Token-Vorhersage durchf√ºhrt.
# Es werden maximal `max_tokens` generiert, die durch das `stop`-Token begrenzt werden k√∂nnen.
def llm_completion(prompt, temperature=0.0, stop=["\n"], seed=0, max_tokens=256):
    completion = client.completions.create(
        model=LLM_MODEL,
        temperature=temperature,
        stop=stop,
        prompt=prompt,
        max_tokens=max_tokens,
        seed=seed
    )
    return completion.choices[0].text

In [6]:
# Definieren wir noch eine weitere Funktion, die die Chat-Completions-API nutzt. Diese erlaubt es, Nachrichten in einem Chat-Format zu √ºbergeben.
def llm_completion_chat(prompt, temperature=0.0, stop=None, image_url=None, seed=0):
    messages = [
        {
            "role": "user",
            "content": [
                    {
                        "type": "text",
                        "text": prompt
                    }
            ] + ([{"type": "image_url", "image_url": {"url": image_url}}] if image_url else [])
        }
    ]

    extra_body = {"stop": [stop]} if stop else {}

    response = client.chat.completions.create(
        model=LLM_MODEL,
        messages=messages,
        temperature=temperature,
        stream=False,
        seed=seed,
        extra_body=extra_body,
    )

    return response.choices[0].message.content

## 1. Zero-shot Prompting

**Zero-shot Prompting** bedeutet, dass Sie dem LLM direkt eine Aufgabe stellen ‚Äì ganz ohne Beispiele oder zus√§tzliche Erkl√§rungen.  

Das Modell nutzt sein trainiertes Wissen, um Ihre Anfrage bestm√∂glich zu beantworten. Oft funktioniert das √ºberraschend gut, besonders bei klar formulierten Fragen.

In [7]:
prompt = "Paris ist die Hauptstadt von?"
print(llm_completion_chat(prompt, stop="\n"))

Paris ist die Hauptstadt von Frankreich.


## 2. Few-shot Prompting

**Few-shot Prompting** bedeutet, dass Sie dem LLM einige Beispiele geben, um mehr Kontext zu bieten.

Dies hilft dem Modell, Ihre Anfrage besser zu verstehen und relevantere Antworten zu generieren.

In dem Kontext ist das Paper **‚ÄûLanguage Models are Few-Shot Learners‚Äú** von Brown et al. (2020), das 2020 GPT-3 vorgestellt hatte von besonderer Bedeutung. Statt das Modell neu zu trainieren, reicht es bei LLMs, dem Modell wenige Beispiele direkt im Prompt zur Verf√ºgung zu stellen (Few-Shot), um neue Aufgaben zu l√∂sen. Es kann in gewisser Weise von einem Paradigmenwechsel gesprochen werden: Statt f√ºr jede Aufgabe ein Modell feinzujustieren, k√∂nnen gro√üe Modelle durch Prompt-Engineering generalisieren.

[Hier geht es zum Paper](https://proceedings.neurips.cc/paper_files/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf)

In [17]:
# In dem folgenden Beispiel wird ein Prompt verwendet, um Sentiment-Elemente aus S√§tzen zu extrahieren.
# Das Modell soll die relevanten Elemente identifizieren und deren Sentiment klassifizieren.
prompt = '''Satz: Es war richtig toll in Berlin.
Sentiment Elemente: [("Berlin", "positive")]
Satz: Das Essem war nicht so lecker.
Sentiment Elemente: [("Essen", "negative")]
Satz: Hier in Portugal gibt es fantastische Str√§nde aber leider war das Wetter schlecht.
Sentiment Elemente: [("Str√§nde", "positive"), ("Wetter", "negative")]
Satz: Die Stadt ist sehr sch√∂n.
Sentiment Elemente: '''

# stop ist ein optionales Stop-Kriterium, um die Antwort zu beenden
print(llm_completion(prompt, stop="\n"))  # Stoppt die Antwort bei "Satz:"

Sentiment Elemente: [("Stadt", "positive")]


### 3. Chain of Thought

Eingef√ºhrt in [Wei et al. (2022)](https://arxiv.org/abs/2201.11903), erm√∂glicht Chain-of-Thought (CoT) Prompting komplexe Schlussfolgerungsf√§higkeiten durch Zwischenschritte im Denkprozess. Sie k√∂nnen es mit Few-Shot-Prompting kombinieren, um bessere Ergebnisse bei komplexeren Aufgaben zu erzielen, die eine Schlussfolgerung vor der Beantwortung erfordern.

In [9]:
prompt = '''Ich ging auf den Markt und kaufte 10 √Ñpfel. Ich gab 2 √Ñpfel an den Nachbarn und 2 an den Handwerker. Dann ging ich und kaufte 5 weitere √Ñpfel und a√ü 1. Wie viele √Ñpfel blieben mir √ºbrig?
Lass uns Schritt f√ºr Schritt denken.\n'''

print(llm_completion_chat(prompt))  # Stoppt die Antwort bei "Lass uns Schritt

Okay, lass uns das Schritt f√ºr Schritt durchgehen:

1. **Start:** Du hast mit 10 √Ñpfeln angefangen.
2. **An den Nachbarn:** Du hast 2 √Ñpfel gegeben, also bleiben 10 - 2 = 8 √Ñpfel.
3. **An den Handwerker:** Du hast 2 √Ñpfel gegeben, also bleiben 8 - 2 = 6 √Ñpfel.
4. **Neue K√§ufe:** Du kaufst 5 √Ñpfel dazu, also hast du 6 + 5 = 11 √Ñpfel.
5. **Du isst einen Apfel:** Du isst 1 Apfel, also bleiben 11 - 1 = 10 √Ñpfel.

**Antwort:** Du hast 10 √Ñpfel √ºbrig.


## 4. Self-Consistency / Majority Vote

Self-Consistency ist eine Technik, die in [Wang et al. (2022)](https://arxiv.org/abs/2203.11171) eingef√ºhrt wurde. Sie nutzt die Tatsache, dass LLMs bei der Beantwortung von Fragen oft mehrere plausible Antworten generieren k√∂nnen. Statt sich auf eine einzelne Antwort zu verlassen, aggregiert Self-Consistency mehrere Antworten und w√§hlt die h√§ufigste Antwort aus, um die Genauigkeit zu erh√∂hen.

In dem Beispiel unten generieren wir mehrere Antworten, indem wir die `temperature` auf 0.8 setzen, und w√§hlen dann die h√§ufigste Antwort aus. Ich erinnere an die Vorlesung, wobei wir die `temperature` auf 0 gesetzt hatten, um eine deterministische Antwort zu erhalten, 0.8 sorgt f√ºr mehr Vielfalt in den Antworten, da nicht das Token mit der h√∂chsten Wahrscheinlichkeit immer ausgew√§hlt wird.

In [None]:
import re

prompt = '''Q: Anna hat 2 √Ñpfel. Sie bekommt 3 weitere √Ñpfel von ihrer Freundin. Wie viele √Ñpfel hat sie jetzt?
A: Anna hat 2 √Ñpfel. Sie bekommt 3 weitere. 2 + 3 = 5. Die Antwort ist 5.

Q: Tom hat 7 Buntstifte. Er kauft 5 weitere. Wie viele Buntstifte hat er insgesamt?
A: Tom hat 7 Buntstifte. Er kauft 5 weitere. 7 + 5 = 12. Die Antwort ist 12.

Q: Lisa hat 10 Euro. Sie bekommt 4 Euro Taschengeld. Wie viel Geld hat sie danach?
A: Lisa hat 10 Euro. Sie bekommt 4 Euro dazu. 10 + 4 = 14. Die Antwort ist 14.

Q: Paul hat 3 Tafeln Schokolade. Er bekommt von seinem Bruder 6 Tafeln Schokolade dazu. Wie viel Schokolade hat Paul?
A: '''

# Wir k√∂nnen nun Self-Consistency aufrufen
predictions = [llm_completion(prompt, stop="\n\n", seed=i, temperature=0.8) for i in range(5)]

prediction_ints = []
for p in predictions:
    numbers = re.findall(r'\d+', p)
    if numbers:
        # Wir nehmen die letzte gefundene Zahl als Vorhersage
        prediction_ints.append(int(numbers[-1]))
    else:
        prediction_ints.append(None)

# Ausgabe: f√ºnf Vorhersagen + h√§ufigste Antwort
prediction_ints, max(set(prediction_ints), key=prediction_ints.count)


([9, 9, 9, 9, 9], 9)

## 5. Generiertes Wissens-Prompting

Gro√üe Sprachmodelle (LLMs) werden kontinuierlich verbessert, und eine beliebte Technik beinhaltet die F√§higkeit, Wissen oder Informationen einzubinden, um dem Modell zu helfen, genauere Vorhersagen zu treffen.

Kann das Modell mit einer √§hnlichen Idee auch genutzt werden, um Wissen zu generieren, bevor eine Vorhersage getroffen wird? Genau das wird im Paper von [Liu et al. 2022](https://arxiv.org/pdf/2110.08387.pdf) versucht ‚Äì Wissen zu generieren, das als Teil des Prompts verwendet wird. Wie n√ºtzlich ist dies f√ºr Aufgaben wie Schlussfolgerungen nach gesundem Menschverstand?

Schritte:

1. Zuerst generieren wir einige "Wissensst√§nde":
2. Dann verwenden wir diese Wissensst√§nde, um den Prompt zu erweitern.
3. Schlie√ülich verwenden wir den erweiterten Prompt, um die Vorhersage zu treffen.

In [16]:
prompt = '''Eingabe: Griechenland ist gr√∂√üer als Mexiko.
Wissen: Griechenland ist ungef√§hr 131.957 Quadratkilometer gro√ü, w√§hrend Mexiko ungef√§hr 1.964.375 Quadratkilometer gro√ü ist. Mexiko ist daher 1.389% gr√∂√üer als Griechenland.

Eingabe: Brillen beschlagen immer.
Wissen: Kondensation tritt auf Brillengl√§sern auf, wenn Wasserdampf aus Ihrem Schwei√ü, Atem und der umgebenden Feuchtigkeit auf eine kalte Oberfl√§che trifft, abk√ºhlt und sich dann in winzige Fl√ºssigkeitstr√∂pfchen verwandelt und einen Film bildet, den Sie als Beschlag wahrnehmen. Ihre Gl√§ser werden im Vergleich zu Ihrem Atem relativ k√ºhl sein, besonders wenn die Au√üenluft kalt ist.

Eingabe: Ein Fisch ist in der Lage zu denken.
Wissen: Fische sind intelligenter, als sie scheinen. In vielen Bereichen, wie beispielsweise dem Ged√§chtnis, stehen ihre kognitiven F√§higkeiten denen von 'h√∂heren' Wirbeltieren, einschlie√ülich nichtmenschlicher Primaten, in nichts nach. Die Langzeitged√§chtnisse der Fische helfen ihnen, komplexe soziale Beziehungen im √úberblick zu behalten.

Eingabe: Eine h√§ufige Wirkung des Rauchens vieler Zigaretten im Laufe des Lebens ist eine √ºberdurchschnittlich hohe Wahrscheinlichkeit, Lungenkrebs zu bekommen.
Wissen: Diejenigen, die konstant weniger als eine Zigarette pro Tag im Laufe ihres Lebens geraucht haben, hatten ein neunmal h√∂heres Risiko an Lungenkrebs zu sterben als Nichtraucher. Bei Personen, die zwischen einer und 10 Zigaretten pro Tag rauchten, war das Risiko an Lungenkrebs zu sterben fast 12 Mal h√∂her als bei Nichtrauchern.

Eingabe: Wie viele Planeten gibt es im Sonnensystem?
Wissen: '''

wissen = llm_completion(prompt, stop="\n")

prompt_mit_wissen = f'''Frage: Ist die Erde ist der einzige Planet im Sonnensystem?"
Wissen: {wissen}
Antwort:'''

antwort = llm_completion(prompt_mit_wissen, stop="\n")
print(prompt_mit_wissen + antwort)

Frage: Ist die Erde ist der einzige Planet im Sonnensystem?"
Wissen: Wissen: Es gibt acht Planeten in unserem Sonnensystem: Merkur, Venus, Erde, Mars, Jupiter, Saturn, Uranus und Neptun.
Antwort:Nein, die Erde ist nicht der einzige Planet im Sonnensystem. Es gibt acht Planeten: Merkur, Venus, Erde, Mars, Jupiter, Saturn, Uranus und Neptun.


### Aufgabe 1: Named Entity Recognition mit Few-Shot Learning

#### Ziel der Aufgabe
Entwickeln Sie eine Few-Shot-Prompt-Strategie zur automatischen Erkennung von **Ortsnamen** (LOC - Location Entities) in deutschen Texten.  
Als Datengrundlage dient die vorbereitete Datei **`LOC_sentences.txt`**, die S√§tze im Format  

```
Satz####["Entity1", "Entity2", ...]
```

enth√§lt. Jeder Eintrag besteht also aus einem deutschen Satz und der zugeh√∂rigen Liste aller Ortsnamen (LOC-Entities) in diesem Satz.  

#### Anforderungen
1. **Few-Shot Learning:** Erstellen Sie eine Prompt mit **f√ºnf zuf√§lligen Few-shot Beispielen** aus `LOC_sentences.txt`, die das gew√ºnschte Input-Output-Verhalten demonstrieren.  
2. **Ausgabeformat:** Das Modell soll erkannte Ortsnamen als String-Liste zur√ºckgeben (z. B. `["Berlin", "M√ºnchen"]`).  
3. **Evaluation:** Testen Sie Ihr Few-Shot-Prompting auf 64 zuf√§lligen Beispielen aus `LOC_sentences.txt`. 

#### Evaluation mit Accuracy
Zur Bewertung der Ergebnisse soll die **Accuracy** berechnet werden.  

Ein Satz gilt als **korrekt gelabelt**, wenn die vorhergesagte Liste von Ortsnamen exakt mit der Gold-Standard-Liste aus `LOC_sentences.txt` √ºbereinstimmt.

#### Beispiel f√ºr das erwartete Verhalten

```md
Input: "In Essen haben sich die beiden Br√ºder getroffen."
Output: ["Essen"]
```

Tipp: Mit `eval()` k√∂nnen Sie die String-Ausgabe des Modells in eine Python-Liste umwandeln.

#### Beispiel Prompt

```text
Erkenne alle Ortsnamen in deutschen S√§tzen und gib sie als Liste zur√ºck.

Satz: Die neuerliche Verwaltungsreform aus dem Jahre 1815 brachte f√ºr Passenheim abermals eine neue Kreiszuordnung mit sich .
Ortsnamen: ['Passenheim']

Satz: Die Hauptbasis wurde 2006 von Alderney nach Jersey verlegt .
Ortsnamen: ['Alderney', 'Jersey']

Satz: Sie verl√§uft zun√§chst entlang der Bayernstra√üe , √ºberquert diese und erreicht die Haltestelle Dutzendteich , an der Umsteigem√∂glichkeit zur S-Bahn nach Altdorf besteht .
Ortsnamen: ['Bayernstra√üe', 'Dutzendteich', 'Altdorf']

Satz: Rhein-Kreis Neuss Eigentlich kommt das Thema immer zum Jahresanfang auf den Tisch , wenn die Fraktionen √ºber den Haushaltsplan beraten : Soll sich der Rhein-Kreis Neuss von seinen RWE-Aktien trennen ?
Ortsnamen: ['Rhein-Kreis Neuss', 'Rhein-Kreis Neuss']

Satz: Eine Goevier ist in der Flugwerft Schlei√üheim ausgestellt .
Ortsnamen: ['Schlei√üheim']

Satz: Heute ist durch einen roten Ziegelstreifen der Verlauf des an den Turm anschlie√üenden nordwestlichen Mauerrings gekennzeichnet , w√§hrend der s√ºdwestliche Mauerring bis zum Gel√§nde des ehemaligen Franziskanerklosters St . Johannis noch intakt ist .
Ortsnamen:
```

In [12]:
# Laden des Datensatzes
dataset = []

with open("LOC_sentences.txt", encoding="utf-8") as f:
    for line in f:
        line = line.strip()
        sentence, entities_str = line.split("####")
        entities = eval(entities_str)
        dataset += [[sentence, entities]]

print("Satz:", dataset[0][0])
print("Entities:", dataset[0][1])

# 5 zuf√§llige Few-Shot Beispiele
import random
random.seed(42)
few_shot_examples = random.sample(dataset, 5)
test_data = [item for item in dataset if item not in few_shot_examples][:64]

Satz: Heute ist durch einen roten Ziegelstreifen der Verlauf des an den Turm anschlie√üenden nordwestlichen Mauerrings gekennzeichnet , w√§hrend der s√ºdwestliche Mauerring bis zum Gel√§nde des ehemaligen Franziskanerklosters St . Johannis noch intakt ist .
Entities: ['St . Johannis']


In [13]:
# Ihr Code steht hier ...

<details>
<summary><b>L√∂sung anzeigen</b></summary>

```python
# Prompt erstellen
def create_prompt(examples, test_sentence):
    prompt = "Erkenne alle Ortsnamen in deutschen S√§tzen und gib sie als Liste zur√ºck.\n\n"
    
    for sentence, entities in examples:
        prompt += f"Satz: {sentence}\nOrtsnamen: {entities}\n\n"
    
    prompt += f"Satz: {test_sentence}\nOrtsnamen:"
    return prompt

# Evaluation
def evaluate(test_data):
    correct = 0
    total = len(test_data)
    
    for sentence, true_entities in test_data:
        prompt = create_prompt(few_shot_examples, sentence)
        response = llm_completion(prompt, stop="\n")
        
        # Da das LLM manchmal ung√ºltige Python-Ausdr√ºcke zur√ºckgibt, verwenden wir try-except
        try:
            predicted_entities = eval(response.strip())
            if set(predicted_entities) == set(true_entities): # Mit set vergleichen, um Reihenfolge zu ignorieren
                correct += 1
        except:
            pass
    
    accuracy = correct / total
    return accuracy

# Ausf√ºhrung
accuracy = evaluate(test_data) * 100
print(f"Accuracy: {accuracy:.2f}")
```

</details>