In [1]:
import os
from dotenv import load_dotenv

# lädt automatisch .env, was den API-Key enthält, aus dem aktuellen Arbeitsverzeichnis
# (das kommt nicht auf das Repo, API-Key ist nur lokal gespeichert)
load_dotenv(override=True)

# zum Testen:
api_key = os.getenv("OPENAI_API_KEY")
if api_key:
    print("API-Key erfolgreich geladen ✅")
else:
    print("API-Key NICHT gefunden ❌")

API-Key erfolgreich geladen ✅


In [2]:
from langchain_openai import ChatOpenAI
from langchain.prompts import ChatPromptTemplate

# Modell mit explizitem API-Key
model = ChatOpenAI(openai_api_key=api_key, model="gpt-4o")

#from pydantic import BaseModel, Field
#class ResponseFormatter(BaseModel):
#    """Always use this tool to structure your response to the user."""
#    answer: str = Field(description="The answer to the user's question")
#    followup_question: str = Field(description="A followup question the user could ask")
#
#model_with_tools = model.bind_tools([ResponseFormatter])

# Testaufruf
#antwort = model_with_tools.invoke("Was ist das Kraftwerk der Zelle?")
#print(antwort.tool_calls[0]["args"]['answer'])

In [3]:
import pandas as pd

# Initialisiere den Vektor mit den Kategorien als Einträgen
categories = ["Personalabteilung", "Finanzabteilung", "Rechtsabteilung", "Leitungsebene", "Kundenservice"]

kinds = pd.read_excel("Arten_von_Schreiben.xlsx")

# Gruppierung nach Werten in der ersten Spalte (hier: 'Abteilung')
gruppen = kinds.groupby('Abteilung')

# Erzeuge ein Dictionary mit einer Matrix (Liste von Listen) pro Abteilung, jeweils ohne die redundante erste Spalte
matrizen = {
    abteilung: gruppe.drop(columns='Abteilung').values.tolist()
    for abteilung, gruppe in gruppen
}

# Definiere Funktion, die den Prompt ausgibt
def std_prompt(obvious, formal, category, zusatz=""):
    # Eingabeparameter für Offensichtlichkeit und Förmlichkeit runden
    obvious_whole = round(obvious)
    formal_whole = round(formal)

    # Wertebereiche prüfen
    if not (0 <= obvious_whole <= 100):
        return "Fehler: 'von' muss zwischen 0 und 100 liegen."
    if not (0 <= formal_whole <= 100):
        return "Fehler: 'bis' muss zwischen 0 und 100 liegen."

    # Bestimme die gewählte Abteilung basierend auf Index oder direkter Eingabe
    if isinstance(category, int):
        if not (0 <= category < len(categories)):
            return "Fehler: Index muss zwischen 0 und 4 liegen."
        chosen = categories[category]
    elif isinstance(category, str) and category in categories:
        chosen = category
    else:
        return "Fehler: category muss ein Index von 0 bis 4 oder eine der Abteilungen sein."

    # Vektor für die nicht gewählten Abteilungen definieren
    others = [c for c in categories if c != chosen]

    # Richtigen Artikel für die Abteilung im Text wählen
    article = "den" if chosen == "Kundenservice" else "die"

    # Prompt in zwei separaten Strings generieren, um Zusatz-Satz für konkrete Anfrage-Art noch dazwischen einbauen zu können
    satz1 = (
        f"Gib mir bitte eine Anfrage in Briefform an eine öffentliche Verwaltung, "
        f"aus der hervorgeht, dass sie intern an {article} {chosen} (im Gegensatz zu " + ", ".join(others[:-1]) + f" oder {others[-1]}) weitergeleitet werden sollte. "
        f"Dabei sollte die Zuordnung zur/zum {chosen} zwar eindeutig sein, aber nicht explizit im Text erwähnt werden, "
        f"sondern durch subtilere Hinweise klar werden. "
    )
    satz2 = (
        f"Das Anliegen in der Anfrage sollte konkret sein, insbesondere auch im Bezug auf relevante Daten, Firmen, Personen "
        f"und auch bezüglich der öffentlichen Verwaltung, an die die Anfrage adressiert ist. Auf eine Skala von 0 (überhaupt nicht offensichtlich) "
        f"bis 100 (so offensichtlich wie es nur sein kann), sollte die Offensichtlichkeit der Zuordnung bei {obvious_whole} liegen. "
        f"Auf einer Skala von 0 (sehr salopp und umgangssprachlich) bis 100 (sehr korrekt und förmlich) "
        f"sollte die Förmlichkeit der Anfrage bei {formal_whole} liegen. Die Anfrage sollte insgesamt aus ca. 200 Wörtern bestehen, "
        f"auf jeden Fall jedoch nicht weniger als 120 Wörter und nicht mehr als 300 Wörter. "
        f"Gib dabei nur den Haupttext des Briefs aus, also keinen Absender, keinen Empfänger und keinen Betreff. "
        f"Am Anfang des Briefs sollte eine Grußformel stehen. Am Ende des Briefs soll "
        f"der fiktive Name des Absenders stehen, bei dem du gerne kreativ sein darfst, aber nicht seine Adresse. "
        f"Falls in dem Brief konkrete Daten vorkommen (Namen, Adressen, ...), bitte verwende hier keine Placeholder, "
        f"sondern fiktive Namen, Adressen, ... . Gib bitte ausschließlich den angeforderten Text aus und sprich mich "
        f"in deiner Ausgabe nicht direkt an."
    )

    # Prompt mit Zusatz-Satz ausgeben
    return satz1 + zusatz + satz2

print(std_prompt(10.5, 20.834, 4))
#print(kinds)

Gib mir bitte eine Anfrage in Briefform an eine öffentliche Verwaltung, aus der hervorgeht, dass sie intern an den Kundenservice (im Gegensatz zu Personalabteilung, Finanzabteilung, Rechtsabteilung oder Leitungsebene) weitergeleitet werden sollte. Dabei sollte die Zuordnung zur/zum Kundenservice zwar eindeutig sein, aber nicht explizit im Text erwähnt werden, sondern durch subtilere Hinweise klar werden. Das Anliegen in der Anfrage sollte konkret sein, insbesondere auch im Bezug auf relevante Daten, Firmen, Personen und auch bezüglich der öffentlichen Verwaltung, an die die Anfrage adressiert ist. Auf eine Skala von 0 (überhaupt nicht offensichtlich) bis 100 (so offensichtlich wie es nur sein kann), sollte die Offensichtlichkeit der Zuordnung bei 10 liegen. Auf einer Skala von 0 (sehr salopp und umgangssprachlich) bis 100 (sehr korrekt und förmlich) sollte die Förmlichkeit der Anfrage bei 21 liegen. Die Anfrage sollte insgesamt aus ca. 200 Wörtern bestehen, auf jeden Fall jedoch nicht 

In [10]:
import numpy as np
import time

# Zeit vor Durchlauf speichern für Zeitnahme
start = time.time()

# Random Seed setzen zur Replizierbarkeit (sollte 40-{batch-nummer} sein)
np.random.seed(40)

# Definieren einer Funktion für den Satz im Prompt, der das Anliegen innerhalb der Abteilung konkretisiert
def zusatz_template(kind):
    ausgabe = f"Konkret soll es sich bei dem Schreiben um eine(n) {kind} handeln. "
    return ausgabe

# Leere Liste initialisieren, in die die einzelnen Einträge als Dictionaries geschrieben werden
training_data_batch = []

# For-Schleifen durch die Abteilungen mit 50 Anfragen pro Abteilung
for abteilung in categories:
    for i in range(50):
        # Mit 80% Wahrscheinlichkeit gibt es eine konkrete Anfrage-Art, mit 20% nicht
        specific_kind = np.random.choice(range(2), p=[0.2, 0.8])
        # Wenn es eine konkrete Anfrage, geben soll, dann...
        if bool(specific_kind):
            # Wahrscheinlichkeiten für die einzelnen konkreten Arten von Anfragen für die aktuelle Abteilung aus der Excel-Tabelle auslesen
            percent_probs = [zeile[1] for zeile in matrizen[abteilung]]
            # Prozentzahlen in Kommazahlen konvertieren
            probs = [x / 100 for x in percent_probs]
            # Entsprechend den gegebenen Wahrscheinlichkeiten eine Art von Anfrage ziehen
            chosen_kind_ind = np.random.choice(range(len(matrizen[abteilung])), p=probs)
            chosen_kind = matrizen[abteilung][chosen_kind_ind][0]
            # Die Art der Anfrage in den Zusatz-Satz für den Prompt von oben einfügen
            zusatz = zusatz_template(chosen_kind)
        # Wenn es keine konkrete Anfrage-Art geben soll, bleibt der Prompt-Zusatz leer
        else:
            zusatz = ""

        # Parameter für Offensichtlichkeit der Zeil-Abteilung setzen
        obvious = 100 * np.random.beta(2, 4)
        # Parameter für Förmlichkeit der Anfrage setzen (nur mit sehr niedrigen Werten bekommt man wirklich saloppe Anfragen)
        formal = 100 * np.random.beta(1.2, 12)
        # Prompt ans Modell übergeben
        aux = model.invoke(std_prompt(obvious, formal, abteilung, zusatz), temperature = 1)
        # Modell-Antwort und wahre Kategorie in Dictionary schreiben und zur Liste hinzufügen
        schreiben = {
            "text": aux.content,
            "label": abteilung
        }
        training_data_batch.append(schreiben)

# Endzeit nehmen und Dauer des Durchlaufs ausgeben
ende = time.time()  # Zeit nach Durchlauf
print(ende - start)

#brief1 = model.invoke(std_prompt(70, 20, 4), temperature = 1)
#print(brief1.content)

1742.0971031188965


In [11]:
import json

with open("test_batch.json", "w", encoding="utf-8") as datei:
    json.dump(training_data_batch, datei, ensure_ascii=False, indent=4)