# Hands-on Beispiel LLM (1)

### 1. Baseline - Juristische Fragen an ein untrainiertes Modell (Lokale LLM)
In diesem Abschnitt laden wir das Modell `dbmdz/german-gpt2` und stellen ihm zwei juristische Fragen zum AI Act.Da das Modell noch nicht mit AI Act-spezifischen Texten feingetunt wurde, sind die Antworten vermutlich unzureichend.


In [1]:
# falls noch nicht installiert 

import sys
# !{sys.executable} -m pip install transformers datasets
# !{sys.executable} -m pip install 'accelerate>=0.26.0'


In [1]:
# Importiere die benötigten Bibliotheken
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

  from .autonotebook import tqdm as notebook_tqdm


In [7]:
# Lade das deutschsprachige Modell und den zugehörigen Tokenizer

model_name = "dbmdz/german-gpt2" 
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
model = model.bfloat16()

# Konfiguriere pad_token_id im Modell 
# (braucht man, wenn das Modell noch nicht standardmäßig für den Umgang mit dem Padding-Token eingestellt ist)
model.config.pad_token_id = tokenizer.eos_token_id
model.generation_config.pad_token_id = tokenizer.pad_token_id
model.eval()

# Da GPT-2-Modelle oft keinen expliziten Padding-Token besitzen, setzen wir hier den EOS-Token als Padding-Token.
tokenizer.pad_token = tokenizer.eos_token


In [8]:
def ask_question(prompt):
    # Tokenisiere den Input inklusive Attention-Maske
    encoded = tokenizer(prompt, return_tensors="pt")
    input_ids = encoded["input_ids"]
    attention_mask = encoded["attention_mask"]
    
    # Generiere eine Antwort unter Verwendung der Attention-Maske
    output = model.generate(
        input_ids,
        attention_mask=attention_mask,
        max_length=150,
        temperature=0.7,
        do_sample=True
    )
    generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
    return generated_text

In [9]:
# Liste juristischer Fragen, bei denen Wissen aus dem AI Act abgefragt wird
questions = [
    "Welche Anforderungen stellt der AI Act an Hochrisiko-KI-Systeme?",
    "Was versteht man unter Transparenz gemäß dem AI Act?"
]

In [11]:
# Fragen stellen und Antworten ausgeben
print("=== llm-1: Untrainiertes Modell ===\n")
for q in questions:
    print("Frage:", q)
    print() 
    answer = ask_question(q)
    print("Antwort:", answer)
    print("-" * 500)

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


=== llm-1: Untrainiertes Modell ===

Frage: Welche Anforderungen stellt der AI Act an Hochrisiko-KI-Systeme?



Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Antwort: Welche Anforderungen stellt der AI Act an Hochrisiko-KI-Systeme?
Vor der WM-Vorbereitung hatte es auf Schalke ein wenig gekracht.
Für die kommenden Tage ist es laut Prognose des Deutschen Wetterdienstes (DWD) in Sachsen-Anhalt ein Tiefdruckgebiet mit kräftiger Böe. (mz)
Die beiden Fahrer wurden durch den Unfall und den Sturz leicht verletzt.
Denn die ist so alt wie die.
Es gibt nur einen einzigen Hersteller, das sind die Hersteller von Motorrollern.
Man wolle den "Standpunkt des Rechtspopulismus nicht preisgeben", sagte der SPD-Innenpolitiker Burkhard Lischka dem Evangelischen Pressedienst (epd).
Die Mannschaft von Trainer Tayfun Korkut hat am Sonntag in
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------