---
titlepage-logo: img/fhdw.png
Organisation: FHDW Bielefeld
Studiengang: Wirtschaftsinformatik - Software Engineering
Dokumententyp: Praxisarbeit
Titel: Implementierung und Weiterentwicklung eines LLM-basierten Fehlererklärungssystems zur intelligenten Systemverbesserung
Verfasser: |-
  \textbf{Lars Boes}\
  Schillerstraße 2c\
  53489 Sinzig
Pruefer: Yvonne Gorniak
Abgabedatum: 03.03.2025
Autor: Lars Boes
AutorUnterschrift: img/LarsBoes.png
Ort: Valencia
Kooperationsunternehmen: Deutsche Telekom Technik GmbH
jupyter: python3
format:
  pdf:
    documentclass: scrartcl
    default: true
    sperrvermerk: false
    gendervermerk: true
    glossar: true
    keep-tex: true
    latex-tinytex: false
    classoption:
      - numbers=noenddot
      - listof=totoc
  html:
    lang: de
---


<!-- Das Dokument beginnt hier: -->

<!-- Mittels include-Anweisungen werden weitere qmd-Dateien eingebunden -->


# Einleitung & Kontext

```{=latex}
\setcounter{figure}{0}
\setcounter{table}{0}
```

## Problemstellung

Die zunehmende Komplexität moderner Cloud-Infrastrukturen führt zu einer wachsenden Herausforderung im Bereich des Deployment-Managements. Mit der Transformation zu containerisierten, microservice-basierten Architekturen steigt die Anzahl der Komponenten, Abhängigkeiten und möglichen Fehlerquellen exponentiell. Die Fehlerbehebung bei fehlgeschlagenen Deployments gestaltet sich oft schwierig, da die generierten Fehlermeldungen technisch detailliert und für Benutzer ohne tiefgreifende Systemkenntnisse schwer verständlich sind (Laigner et al., 2021; Oyekunle et al., 2024; Abbildung A.1);

Diese Herausforderung führt zu erhöhtem Supportaufwand, verlängerten Lösungszeiten, reduzierter Produktivität und mangelnder Transparenz bezüglich der Fehlerursachen. In modernen verteilten Systemarchitekturen ist eine einzelne Fehlermeldung häufig das Resultat komplexer Interaktionen zwischen verschiedenen Systemkomponenten, was die Diagnose zusätzlich erschwert (Tzanettis et al., 2022).

## Motivation

Die Bewältigung dieser Herausforderung ist aus mehreren Gründen von entscheidender Bedeutung:

**Wachsende Komplexität:** Moderne Microservice-Architekturen bestehen oft aus Hunderten von Services, was die Fehlerdiagnose erheblich erschwert. Die Anzahl der potenziellen Fehlerquellen steigt dabei nicht linear, sondern exponentiell mit der Anzahl der interagierenden Komponenten (Oyekunle et al., 2024; Saurabh et al., 2024).

**Erhöhte Transparenz:** Bessere Erklärungen schaffen Transparenz und Vertrauen in die Plattform, besonders in komplexen, verteilten Systemen, wo die Ursache-Wirkungs-Beziehungen oft nicht unmittelbar ersichtlich sind und erhöhen somit auch die Benutzererfahrung (Dash, 2024; Dhoopati, 2023).

## Warum LLMs?

Large Language Models (LLMs) bieten für diese Herausforderung entscheidende Vorteile gegenüber traditionellen Ansätzen:

-   **Verarbeitung natürlicher Sprache:** LLMs können unstrukturierte Fehlermeldungen interpretieren und in verständliche Erklärungen übersetzen (Brown et al., 2020; Wang et al., 2023).

-   **Adaptivität:** Im Gegensatz zu regelbasierten Systemen können LLMs mit der Variabilität und Dynamik moderner Fehlerszenarien umgehen (Mao et al., 2024).

-   **Skalierbarkeit:** LLMs können mit einer wachsenden Anzahl und Vielfalt von Fehlermeldungen umgehen, ohne manuelle Anpassungen zu erfordern (Alibakhsh, 2023).

-   **Lernfähigkeit:** Sie haben das Potenzial, aus Feedback zu lernen und ihre Erklärungen kontinuierlich zu verbessern (Ouyang et al., 2022; Stiennon et al., 2020). Diese Eigenschaften machen LLMs deutlich überlegen gegenüber traditionellen Ansätzen, die mit der Komplexität moderner Cloud-Umgebungen oft überfordert sind. Die Fähigkeit, kontextbezogene Erklärungen zu generieren, adressiert direkt das Problem technisch komplexer Fehlermeldungen (Talukdar & Biswas, 2023).

## Projektkontext

Diese Arbeit konzentriert sich auf das **CAS** der Deutschen Telekom, eine Plattform zur automatisierten Bereitstellung und Verwaltung von Cloud-Ressourcen. Das entwickelte CASGPT-Feature erweitert dieses System, um Benutzern mit unterschiedlichen Erfahrungsniveaus verständliche Erklärungen für technische Fehlermeldungen in natürlicher Sprache zu bieten. Die Implementierung und Weiterentwicklung folgt dem Feed-Forward/Feed-Backward-Prinzip, bei dem ein initialer Design-Ansatz durch systematische Analyse und Feedback kontinuierlich verbessert wird. Dieser Ansatz harmoniert mit der Design Science Research(DSR) Methodik zur Entwicklung innovativer IT-Artefakte (Hevner et al., 2004; Engström et al., 2020). Die Integration des CASGPT-Features stellt einen konkreten Anwendungsfall für die Nutzung von LLMs in Enterprise-Umgebungen dar und bietet einen praxisnahen Kontext für die Erforschung der Evolution zu einem selbstlernenden System (Devaraju, 2024).

## Forschungsziel

**Hauptforschungsfrage:** "Wie kann ein erfolgreich in ein Enterprise-System integriertes LLM-basiertes Fehlererklärungssystem durch systematische Analyse und Feedback zu einem selbstlernenden System evolvieren?"

**Unterforschungsfragen:**

1\. Welche Grundlagen und Anforderungen sind für eine erfolgreiche Integration von LLMs zur Fehlererklärung in Enterprise-Systeme notwendig?

2\. Wie können Fehlermuster und Systemfeedback systematisch für eine autonome Systemevolution genutzt werden?

3\. Welche Architekturkonzepte ermöglichen den Übergang von einem reaktiven zu einem proaktiven, selbstlernenden System?

**Umfang und Abgrenzung:** Diese Forschung konzentriert sich auf Deployment-Fehler innerhalb des CAS-Systems. Sie umfasst die praktische Implementierung eines Prototyps und die konzeptionelle Ausarbeitung eines evolutionären Entwicklungskonzepts. Die Arbeit leistet einen Beitrag zum Verständnis der systematischen Evolution von KI-gestützten Assistenzsystemen in Unternehmenssystemen (Perron et al., 2025) und folgt dem iterativen Prozess von Design Science Research (Venable et al., 2016).


# Theoretische Grundlagen

## Large Language Models im Enterprise-Kontext

LLMs, basierend auf der Transformer-Architektur (Vaswani et al., 2017), bieten durch ihre Fähigkeit, natürliche Sprache zu verstehen und zu generieren, neue Möglichkeiten für Unternehmensanwendungen (Brown et al., 2020). Für die Entwicklung eines Fehlererklärungssystems sind drei Eigenschaften von LLMs von besonderer Bedeutung: Kontextverständnis, Generalisierungsfähigkeit und Adaptivität (Törnberg, 2024). LLMs können komplexe Zusammenhänge in technischen Fehlermeldungen erfassen und interpretieren, bekannte Muster auf neue Fehlerszenarien übertragen und sich durch gezieltes Prompt Engineering an domänenspezifische Aufgaben anpassen (Wang et al., 2023; Kumar et al., 2025). Die Integration von LLMs in Enterprise-Systeme eröffnet das Potenzial zur Automatisierung, verbesserten Benutzererfahrung, Wissensverteilung, gesteigerter Integration und Skalierbarkeit (Alibakhsh, 2023; Devaraju, 2024). Gleichzeitig sind Herausforderungen wie Sicherheit, Ressourcenbedarf, Datenschutz, Interpretierbarkeit und Wartbarkeit zu adressieren (Alibakhsh, 2023; Chandramouli, 2022; Dhoopati, 2023). Eine detaillierte Gegenüberstellung dieser Chancen und Herausforderungen findet ist verfügbar (Tabelle A.4).

Trotz ihrer Stärken weisen LLMs zwei kritische Limitationen auf, die für Fehlererklärungssysteme besonders relevant sind:

1\. **Halluzinationen:** LLMs können technisch plausibel klingende, aber faktisch falsche Informationen generieren (Orgad et al., 2024). Dies ist besonders problematisch bei technischen Fehlererklärungen, da fehlerhafte Lösungsvorschläge zu weiteren Problemen führen können. Ein konkretes Beispiel wäre die Identifikation nicht existierender Konfigurationsparameter oder das Empfehlen nicht verfügbarer API-Aufrufe. Aktuelle Forschungen zeigen, dass LLMs oft "mehr wissen als sie zeigen" – sie besitzen intern korrekte Repräsentationen, produzieren aber dennoch falsche Ausgaben, was das Vertrauen in LLM-basierte Systeme beeinträchtigen kann.

2\. **Mangelndes Systemkontextwissen:** LLMs fehlt spezifisches Wissen über die Systemarchitektur, Komponenten und deren Interaktionen im jeweiligen Enterprise-System (Wang et al., 2023; Wrick Talukdar & Biswas, 2023). Ohne diesen Kontext können LLMs nur allgemeine Erklärungen liefern, die möglicherweise nicht auf die spezifischen Umstände des Fehlers eingehen.

## Ansätze zur Fehlererklärung

Traditionelle Ansätze zur Fehlerbehandlung, wie statische Fehlercodes und umfangreiche Dokumentationen, stoßen in komplexen, dynamischen Systemen an ihre Grenzen. Regelbasierte Systeme bieten zwar Präzision bei bekannten Fehlern, sind aber unflexibel gegenüber neuen Fehlertypen und erfordern hohen manuellen Aufwand (Tabelle A.5). Im Gegensatz dazu bieten KI-basierte Ansätze, insbesondere LLMs, eine höhere Flexibilität und Adaptivität. Sie können aus unstrukturierten Fehlermeldungen relevante Informationen extrahieren, natürlichsprachliche Erklärungen generieren und sich potenziell an neue Fehlersituationen anpassen (Sain et al., 2024, Ahmed et al., 2023, Chen et al., 2023, Zhang et al., 2024). Die systematische Kategorisierung von Fehlern ist ein wichtiger Schritt, um die Effizienz der Fehlerbehandlung zu steigern (Abdallah, 2024; Agrawal, 2016; Ahmed, 2023). Durch die Identifikation wiederkehrender Fehlermuster können Ursachen schneller erkannt, Fehler priorisiert und gezielte Lösungsansätze entwickelt werden (Wang et al., 2022; Li et al., 2024). Sie ermöglicht zudem verbesserte Ursachenerkennung, effizientere Fehlerbehandlung, sinnvolle Prioritisierung und die proaktive Erkennung von Fehlermustern. (Vorobyov et al., 2021).

## Prompt Engineering

Prompt Engineering ist der Schlüssel zur effektiven Nutzung von LLMs (White et al., 2023; Cheng et al., 2024). Es umfasst die systematische Gestaltung von Eingabeaufforderungen, um das Verhalten des LLM gezielt zu steuern und qualitativ hochwertige Ausgaben zu erzielen (Törnberg, 2024). Grundlegende Prinzipien für erfolgreiches Prompt Engineering sind Klarheit, Spezifität, Strukturierung, Kontextualisierung, Few-Shot Learning und Chain-of-Thought-Prompting (Brown et al., 2020; Wei et al., 2022; White et al., 2023). Darüber hinaus existieren spezifische Prompt-Patterns, die als wiederverwendbare Bausteine für komplexere Interaktionen dienen können (White et al., 2023).

Besonders relevant für Fehlererklärungssysteme sind:

-   Das **Persona Pattern**, das dem LLM eine spezifische Rolle als Experte für Fehlererklärungen zuweist

-   Das **Template Pattern**, das eine strukturierte Ausgabe mit Ursache, Auswirkung und Lösungsvorschlägen vorgibt

-   Das **Context Enhancement Pattern**, das domänenspezifisches Wissen in den Prompt integriert

-   Das **Cognitive Verifier Pattern**, das das LLM zur Selbstüberprüfung seiner Antworten auffordert, um Halluzinationen zu reduzieren

-   Das **Chain-of-Thought Pattern**, das schrittweises Denken fördert und die Reasoning-Fähigkeiten verbessert

Eine detaillierte Übersicht dieser Patterns wurde zusammengestellt (Tabelle A.6). Für technische Fehlererklärungen sind insbesondere die Unterscheidung zwischen System- und Benutzer-Prompt, die Klassifizierung von Fehlertypen und ein strukturiertes Ausgabeformat entscheidend (Vatsal & Dubey, 2024; White et al., 2023). Ein gut gestalteter System-Prompt definiert die Rolle und das erwartete Verhalten des LLM, während der Benutzer-Prompt die spezifische Fehlermeldung und relevanten Kontext enthält. Dieser iterative Prozess aus Design, Evaluation und Verbesserung entspricht dem Feed-Forward/Feed-Backward-Paradigma und ermöglicht die systematische Evolution des Systems (Bae et al., 2024).

## Selbstlernende Systeme und Feed-Forward/Feed-Backward

Der MAPE-K-Zyklus (Monitor-Analyze-Plan-Execute-Knowledge) bietet ein strukturiertes Framework für selbstadaptive Systeme, indem er kontinuierliche Überwachung, Analyse, Planung und Ausführung von Anpassungen ermöglicht (Cheng et al., 2009). Diese Struktur harmoniert mit dem Feed-Forward/Feed-Backward-Ansatz, da sie einen geschlossenen Regelkreis für kontinuierliches Lernen und Anpassen implementiert. Eine detaillierte Beschreibung der MAPE-K-Komponenten im Kontext von CASGPT wurde entwickelt (Tabelle A.7). Feedback-Schleifen ermöglichen die systematische Verbesserung aus Erfahrungen (Kang & Meira-Goes, 2022), während Human-in-the-Loop-Ansätze menschliches Expertenwissen in den Lernprozess integrieren (Wu et al., 2022; Stiennon et al., 2020). Für den Übergang von einem reaktiven zu einem proaktiven System sind zwei Mustererkennungstechniken besonders relevant: Das Clustering von Fehlermeldungen ermöglicht die Identifikation wiederkehrender Muster (Vorobyov et al., 2021), während Association Rule Mining Konfigurationsabhängigkeiten erkennen und für proaktive Konfigurationsvalidierungen nutzen kann (Wang et al., 2022; Li et al., 2024). Diese Techniken, kombiniert mit dem MAPE-K-Framework, bilden die Grundlage für die systematische Evolution eines reaktiven Fehlererklärungssystems zu einem proaktiven, selbstlernenden System.


# Methodisches Vorgehen

## Forschungsansatz: Design Science Research

Um die in der Hauptforschungsfrage adressierte Evolution zu einem selbstlernenden System methodisch fundiert zu untersuchen, wird Design Science Research (DSR) als übergeordneter Forschungsrahmen gewählt. DSR ermöglicht die Entwicklung und Evaluation innovativer IT-Artefakte in einem iterativen Prozess (Hevner et al., 2004; Peffers et al., 2007). Dieser iterative Charakter ist von zentraler Bedeutung für die Umsetzung des Feed-Forward/Feed-Backward-Konzepts, das den Kern dieser Arbeit bildet.

Die methodische Verankerung in DSR spiegelt sich in der Integration des Feed-Forward/Feed-Backward-Ansatzes in die drei DSR-Zyklen wider (Tabelle 1; Hevner, 2007):

| **DSR-Zyklus** | **Feed-Forward** | **Feed-Backward** |
|------------------------|------------------------|------------------------|
| Relevanz-Zyklus | Identifikation des Problems unverständlicher Fehlermeldungen | Überprüfung der Erfüllung der identifizierten Anforderungen |
| Design-Zyklus | Entwicklung des CASGPT-Systems | Iterative Verbesserung basierend auf Evaluationsergebnissen |
| Rigor-Zyklus | Anwendung vorhandenen Wissens zu LLMs | Beitrag neuer Erkenntnisse zur LLM-Integration |

: Integration von DSR-Zyklen und Feed-Forward/Feed-Backward-Ansatz

Die Evaluation orientiert sich am Framework for Evaluation in Design Science (FEDS). Dabei wird, dem Feed-Backward-Gedanken folgend, eine formative, naturalistische Evaluierungsstrategie gewählt, um qualitative Rückmeldungen von Experten in einer realen Umgebung zu erhalten und in die Weiterentwicklung des Systems einfließen zu lassen. (Venable et al., 2016)

## Forschungsdesign

### Zweiphasiger Ansatz und iterativer Prozess

Diese Forschung verfolgt einen zweiphasigen Ansatz, der den Feed-Forward/Feed-Backward-Kreislauf vollständig abbildet:

1.  **Phase 1: Implementierung (Feed-Forward)**
    -   Konzeption und Implementierung des CASGPT-Features basierend auf theoretischen Grundlagen
    -   Technische Integration von LLMs, Prompt Engineering und Benutzeroberfläche
    -   Dokumentation der implementierten Systemarchitektur und ihrer Komponenten
2.  **Phase 2: Evolution (Feed-Backward → Feed-Forward)**
    -   Untersuchung der Weiterentwicklungsmöglichkeiten zu einem selbstlernenden System
    -   Basiert auf systematischer Evaluation und Feedbackanalyse
    -   Entwicklung eines evolutionären Weiterentwicklungskonzepts für proaktive Fehlererklärung

Der Entwicklungsprozess ist bewusst iterativ gestaltet, wobei Feedback aus Tests und Experteninterviews kontinuierlich in Designverbesserungen einfließt. Dieser Ansatz entspricht der Verschränkung von Entwicklung, Intervention und Evaluation im Design Science Kontext (Sein et al., 2011).

## Datenerhebung und -analyse

### Implementierungsdaten

Die initiale Implementierung von CASGPT stützte sich auf verschiedene Datenquellen:

-   Systemdokumentation und Fehlerprotokolle des CAS-Systems
-   Expertenwissen des Entwicklungsteams
-   Erkenntnisse aus der Forschungsliteratur zu LLMs und Prompt Engineering

### Evaluierung durch Experteninterviews

Als primäre Evaluierungsmethode wurden halbstrukturierte Interviews mit drei Schlüsselpersonen durchgeführt, die unterschiedliche Perspektiven auf das System repräsentieren:

-   **Teamleiter (Product Owner):** Strategische Perspektive (Projektziele und Vision)
-   **Full-Stack-Entwickler:** Technische Perspektive (Implementierung und Integration)
-   **DevOps Engineer:** Operative Perspektive (Systemstabilität und Fehlerbehebung)

Diese multiperspektivische Herangehensweise folgt den Empfehlungen zur Planung und Durchführung von Experteninterviews in der Informationssystemforschung (Hevner et al., 2004; Engström et al., 2020).

**Interviewmethodik:** Die Interviews folgten einem halbstrukturierten Format mit einem dreistufigen Aufbau:

1.  **Einführende Fragen** zur Rolle und Erfahrung
2.  **Hauptfragenblock** zu zentralen Themenbereichen (Qualität der Erklärungen, Workflow-Integration, technische Aspekte)
3.  **Abschlussfragen** zum Gesamteindruck und zu Verbesserungsvorschlägen

Dieser Ansatz ermöglichte sowohl die systematische Abdeckung der Forschungsfragen als auch die Exploration unerwarteter Einsichten. Die Interviews dauerten jeweils 45-60 Minuten und wurden protokolliert. Der vollständige Interviewleitfaden ist in Anhang A dokumentiert.

### Qualitative Inhaltsanalyse

Die Auswertung der Interviews erfolgte mittels qualitativer Inhaltsanalyse (Mayring, 2014), wobei ein kombiniert deduktiv-induktives Vorgehen angewandt wurde. Zunächst wurden auf Basis der Forschungsfragen und des theoretischen Rahmens deduktiv Hauptkategorien abgeleitet. In einem zweiten Schritt erfolgte die induktive Kategorienbildung aus dem Material heraus, wodurch unerwartete Einsichten und Themen identifiziert werden konnten. Diese methodische Triangulation ermöglichte sowohl die systematische Prüfung theoriegeleiteter Aspekte als auch die Entdeckung neuer, für die Evolution des Systems relevanter Erkenntnisse.

Der Analyseprozess umfasste folgende Schritte:

1.  **Kodierung:** Analyse der Interviewprotokolle durch systematische Zuordnung von Textstellen zu Kategorien
2.  **Thematische Analyse:** Identifikation von Mustern, Schlüsselthemen und Beziehungen zwischen Konzepten
3.  **Triangulation:** Vergleich und Gegenüberstellung der verschiedenen Perspektiven für ein umfassendes Bild

Diese systematische Auswertung gewährleistet eine methodisch fundierte Ableitung von Erkenntnissen aus dem qualitativen Material. Die Triangulation der verschiedenen Perspektiven stärkt zusätzlich die Validität der Ergebnisse (Engström et al., 2020). Das vollständige Codebook mit Definitionen und Beispielen ist in Anhang B dokumentiert Die aus der Analyse gewonnenen Erkenntnisse bilden die Grundlage für die Konzeption des evolutionären Weiterentwicklungsansatzes für CASGPT.

## Methodische Reflexion

Bei der Durchführung wurden ethische Aspekte gemäß den Richtlinien der Deutschen Telekom und der DSGVO berücksichtigt. Die wesentlichen methodischen Limitationen umfassen:

-   **Begrenzte Teilnehmerzahl**: Die Stichprobe von drei Experten wurde durch gezielt unterschiedliche Perspektiven (strategisch, technisch, operativ) kompensiert.
-   **Qualitative Natur**: Die primär auf Experteneinschätzungen basierende Evaluation könnte in zukünftigen Studien durch quantitative Nutzungsdaten ergänzt werden.
-   **Zeitlicher Rahmen**: Die Evaluation bezieht sich auf einen spezifischen Zeitpunkt und reflektiert nicht die langfristige Systemnutzung.

Diese Limitationen sind für qualitative DSR-Projekte in frühen Entwicklungsphasen typisch (Hevner & Chatterjee, 2010) und werden bei der Interpretation entsprechend berücksichtigt.


# System und Implementierung

## CAS-Systemüberblick

**Problemstellung:** Die in der Einleitung ausführlich dargestellte Problematik unverständlicher Fehlermeldungen manifestiert sich besonders im Cloud Automation System (CAS) der Deutschen Telekom, das die Bereitstellung von Cloud-Ressourcen automatisiert.

**Zielbenutzer:** Die primären Benutzer von CAS sind DevOps-Ingenieure und Anwendungsentwickler mit heterogenen Erfahrungsniveaus. Während einige Experten mit dem Debugging komplexer Systemfehler vertraut sind, benötigen andere Benutzer zusätzliche Unterstützung bei der Fehlerbehebung. Diese Heterogenität stellte eine besondere Herausforderung bei der Entwicklung des "Explain by AI"-Features dar, da die Erklärungen für Benutzer mit unterschiedlichem technischen Hintergrund verständlich sein müssen.

## Das "Explain by AI"-Feature (CASGPT)

### Konzeption und User Journey

Das "Explain by AI"-Feature (CASGPT) wurde konzipiert, um das Problem unverständlicher Fehlermeldungen zu adressieren und folgt dem Feed-Forward-Ansatz, bei dem theoretische Überlegungen zu LLMs und Prompt Engineering in eine praktische Implementierung überführt werden. Die typische Benutzerinteraktion umfasst das Auftreten eines Fehlers während des Deployments, das Anklicken der "Explain by AI"-Schaltfläche neben der Fehlermeldung, die automatische Analyse und Kategorisierung durch das System und die Bereitstellung einer verständlichen Erklärung in natürlicher Sprache. Diese enthält Informationen zur Ursache, potenziellen Auswirkungen und möglichen Lösungsansätzen, was dem Benutzer ermöglicht, gezielt Korrekturmaßnahmen zu ergreifen. (Abbildung A.1)

### Funktionaler Umfang und Benutzeroberfläche

CASGPT ist nahtlos in die bestehende CAS-Benutzeroberfläche integriert und erscheint als Schaltfläche "Explain by AI" neben Fehlermeldungen in der Deployment-Fortschrittsanzeige (ProgressView). Die Hauptfunktionalitäten umfassen die automatische Fehleranalyse, natürlichsprachliche Erklärung, strukturierte Ausgabe und kontextspezifische Informationen basierend auf der identifizierten Fehlerkategorie. Die Benutzeroberfläche wurde bewusst einfach gehalten, um die Benutzerakzeptanz zu fördern.

## Systemarchitektur

### Architekturüberblick

CASGPT ist als Microservice-Architektur implementiert, wobei die einzelnen Komponenten lose gekoppelt sind und über definierte Schnittstellen kommunizieren. Diese Architekturentscheidung ermöglicht Skalierbarkeit, Wartbarkeit und Fehlertoleranz (Oyekunle et al., 2024; Laigner et al., 2021) und unterstützt den iterativen Feed-Forward/Feed-Backward-Ansatz durch die Möglichkeit, einzelne Komponenten unabhängig zu aktualisieren. Der Kommunikationsfluss umfasst drei Hauptpfade: vom Frontend (Angular) zum Backend (Python/FastAPI), vom Backend zum LLM-Service (Azure OpenAI) und zurück vom Backend zum Frontend zur Anzeige der generierten Erklärung (Abbildung A.2).

### Komponentenbeschreibung

**Frontend (Angular)**

-   Erweiterte `ProgressComponent` zur Integration der "Explain by AI"-Funktionalität und State Management des Erklärungsstatus

-   Erweiterte `ApiService` für die Kommunikation mit dem Backend **Backend (Python/FastAPI)**

-   `Gateway` mit neuem Endpunkt für CASGPT-Anfragen

-   `ErrorExplanationHandler` als Kernkomponente für Fehlerverarbeitung (Code A.11)

-   `PromptConfig` für die Verwaltung von Prompts und Kategorien (Code A.10)

**LLM-Integration (Azure OpenAI):** Intern gehostete GPT-4-Instanz mit sicherer Verbindung über Azure OpenAI API Diese lose gekoppelten Komponenten kommunizieren über definierte Schnittstellen und unterstützen dadurch den iterativen Feed-Forward/Feed-Backward-Ansatz.

### Datenfluss und Sequenz

![Datenfluss Sequenzdiagramm](img/DatenflussSequenzdiagramm.png)

Der detaillierte Datenfluss bei einer typischen Anfrage umfasst acht Schritte: von der Benutzerinteraktion über die Extraktion der Fehlermeldung, die HTTP-Anfrage, die Weiterleitung ans Backend, die Fehleranalyse und Prompt-Erstellung, die LLM-Interaktion bis zur Rückgabe und Anzeige der Erklärung. Dieser Prozess dauert typischerweise 3-5 Sekunden, was als akzeptable Reaktionszeit eingestuft wurde (Abbildung 1).

### Entwicklungs- und Zielumgebung

Das CAS-System selbst ist in einem Kubernetes-Cluster deployed, während CASGPT derzeit als Prototyp in einer lokalen Entwicklungsumgebung läuft. Die lokale Entwicklung erfolgt mithilfe von Docker-Containern, um die Portabilität zu gewährleisten und eine konsistente Entwicklungsumgebung für alle Teammitglieder zu schaffen. Die Fehlermeldungen werden vom internen Life Cycle Management (LCM) generiert, das für die Orchestrierung des gesamten Deployment-Prozesses verantwortlich ist. Für die zukünftige vollständige Integration ist ein Deployment in der bestehenden Kubernetes-Infrastruktur geplant.

## Prompt-Engineering und -Konfiguration

### Architektur der Prompt-Konfiguration

Das Prompt-Engineering bildet das Herzstück des CASGPT-Systems und repräsentiert einen zentralen Feed-Forward-Aspekt der Implementierung. Die Prompt-Konfiguration ist als eigenständige Komponente (`PromptConfig`) implementiert, um eine klare Trennung der Verantwortlichkeiten zu gewährleisten und zukünftige Erweiterungen im Sinne des Feed-Forward/Feed-Backward-Paradigmas zu erleichtern (White et al., 2023). Der detaillierte Workflow des Prompt-Engineering-Prozesses veranschaulicht die Entwicklung von einer einfachen Erklärung hin zu einer ursachenabhängigen, mit Kategorien angereicherten und formatierten Erklärung (Abbildung A.3).

Die Hauptklassen der Implementierung umfassen:

-   **PromptConfig:** Zentrale Klasse für die Initialisierung der Konfiguration und die Bereitstellung von Methoden zur Generierung von System- und Error-Prompts

-   **ErrorType (Enum):** Definition verschiedener Fehlertypen (System Error, User-Fixable Error, etc.)

-   **ErrorCategory:** Repräsentation einer Fehlerkategorie mit zugehörigen Mustern, Kontext und Fehlertyp

-   **ErrorPattern:** Definition eines Musters zur Erkennung einer Fehlerkategorie mit Gewichtungsfaktor

-   **Message:** Repräsentation einer Nachricht mit Rolle und Inhalt für die LLM-Kommunikation

![Prompt Flow Diagramm](img/PromptFlowDiagramm.png)

Die Fehlerkategorisierung basiert auf einem Mustererkennungssystem mit regulären Ausdrücken und einem gewichteten Scoring-Mechanismus. Das System umfasst sieben Hauptkategorien typischer CAS-Fehler: Datenverarbeitung, Service-Verfügbarkeit, Konfiguration, Deployment, Netzwerk, Laufzeitausnahmen und eine allgemeine Kategorie. Durch die Analyse von Log-Dateien mit dem LLM Claude 3.5 Sonnet wurden die Fehlerkategorien ermittelt. Der Musterabgleich prüft die regulären Ausdrücke jeder Kategorie gegen die eingehende Fehlermeldung und berechnet einen Score basierend auf Gewichtung und Spezifität der Muster. Die Kategorie mit dem höchsten Score wird für die Fehlermeldung ausgewählt, wodurch eine präzise Kategorisierung und zielgerichtete Erklärungen ermöglicht werden (Vorobyov et al., 2021; Abbildung A2; Code A.10).

### Prompt-Struktur

Die Prompt-Struktur orientiert sich an Best Practices und ist in drei Hauptkomponenten unterteilt:

1\. **System Prompt:** Dieser Prompt legt die grundlegende Rolle und das erwartete Verhalten des LLM fest und bleibt über alle Anfragen hinweg konstant. Er definiert das LLM als Experten für Fehlererklärungen im Kontext der Deployment-Infrastruktur von CAS.

2\. **Error Prompts:** Diese Prompts werden dynamisch auf Basis der identifizierten Fehlerkategorie generiert. Sie enthalten die originale Fehlermeldung, die zugeordnete Kategorie, relevanten kategoriespezifischen Kontext und aus der Fehlermeldung extrahierte Schlüsselwörter.

3\. **Response Templates:** Diese Templates definieren die erwartete Struktur der LLM-Antwort. Sie variieren je nach Fehlertyp (z.B. Standard, Quick-Fix, User-Error), um sicherzustellen, dass die Erklärungen jeweils die relevantesten Informationen enthalten (Ursache, Auswirkung, Lösungsschritte).

Das übergeordnete Ziel der Prompt-Gestaltung ist es, technische Konzepte auch für Benutzer mit unterschiedlichem Vorwissen verständlich zu machen und Fehlermeldungen in eine möglichst natürliche und zugängliche Sprache zu übersetzen. Der vollständige System Prompt sowie Beispiele für Error Prompts und Response Templates sind zur Referenz in Anhang C dokumentiert (Vatsal & Dubey, 2024; White et al., 2023; Code A.10).

### Aktuelle Einschränkungen und Abgrenzung

Die aktuelle Implementierung integriert bewusst keinen dynamischen, systemspezifischen Kontext in den Prompt-Engineering-Prozess. Diese Abgrenzung wurde vorgenommen, um den Implementierungsumfang realistisch zu halten, eine definierte Ausgangsbasis für die Evaluation zu schaffen und das Potenzial für Weiterentwicklung zu demonstrieren. Konkret fehlen der aktuellen Implementierung wichtige Kontextinformationen wie spezifische Konfigurationen der betroffenen Dienste, Versionsdetails der verwendeten Software und Container, Status abhängiger Komponenten sowie historische Fehlerinformationen für ähnliche Deployments. Diese fehlenden Kontextinformationen limitieren die Spezifität und Handlungsrelevanz der Erklärungen, was in den Experteninterviews als Hauptverbesserungspotential identifiziert wurde und einen zentralen Aspekt des evolutionären Weiterentwicklungskonzepts bildet.

## Entwicklungsprozess

Das Feature wurde iterativ entwickelt, wobei Feedback aus internen Demo-Tests und Diskussionen im Team kontinuierlich in die Designentscheidungen einfloss. Dieser iterative Prozess spiegelt den Feed-Forward/Feed-Backward-Ansatz wider: ein initiales Design basierend auf theoretischen Grundlagen (Feed-Forward) und kontinuierliche Verbesserung basierend auf frühem Feedback (Feed-Backward). Ein konkretes Beispiel für diesen iterativen Verbesserungsprozess ist die Evolution der Prompts von einfachen Anfragen ("Explain this error message: {error_message}") zu strukturierten, kontextspezifischen Prompts mit detaillierten Anweisungen und kategoriespezifischem Kontext (Abbildung A.3).

## Technische Herausforderungen

Bei der Implementierung von CASGPT waren zwei zentrale technische Herausforderungen zu bewältigen:

**Integration in bestehende Systemkomponenten:** Die nahtlose Einbindung in die Architektur des CAS-Systems erforderte tiefgreifendes Verständnis der bestehenden Komponenten und Datenflüsse. Besonders die Erweiterung der ProgressComponent und des ApiService sowie die Integration in das Gateway unter Beibehaltung der Sicherheitsmechanismen stellten anspruchsvolle Aufgaben dar.

**Prompt-Konfiguration:** Die Entwicklung eines effektiven Kategorisierungssystems mit Mustern für verschiedene Fehlertypen erforderte umfangreiche Analyse realer Fehlermeldungen. Die größte Herausforderung bestand darin, eine Balance zwischen generalisierten Erklärungen für diverse Fehler und spezifischen, handlungsrelevanten Informationen zu finden. Der iterative Ansatz zur Verfeinerung der Prompt-Konfiguration anhand von Testfällen mit realen Fehlermeldungen ermöglichte die schrittweise Optimierung der Erklärungsqualität.

## Sicherheitsaspekte

### Sicherheitsmaßnahmen

Bei der Implementierung wurden verschiedene Sicherheitsmaßnahmen getroffen, um den Enterprise-Anforderungen gerecht zu werden:

1\. Nutzung eines intern gehosteten LLM in Schweden für Datensouveränität und DSGVO-Konformität

2\. direkte Extraktion der Fehlermeldungen aus Systemlogs zur Vermeidung von XSS-Schwachstellen

3\. Integration in bestehende Sicherheitsmechanismen des API-Gateways

4\. sichere Speicherung sensitiver Tokens in Vault.

Diese Maßnahmen stellen sicher, dass CASGPT keine neuen Sicherheitsrisiken einführt.

### Umgang mit LLM-Limitationen

CASGPT implementiert mehrere gezielte Maßnahmen, um den diskutierten Limitationen zu begegnen:

**Gegen Halluzinationen:** - Strukturierte Prompts mit klaren Antwortformaten

-   Reflection Pattern zur kritischen Selbstreflexion des LLM

-   Template Pattern zur Strukturierung der Ausgaben

**Gegen mangelndes Systemkontextwissen:**

-   Fehlerkategorisierung für kategoriespezifischen Kontext

-   Kontextuelle Anreicherung durch Extraktion relevanter Informationen

-   Bewusste Abgrenzung zur Schaffung einer definierten Evaluationsbasis

Diese Gegenmaßnahmen bilden die Grundlage für die initiale Implementierung und werden im Rahmen der evolutionären Weiterentwicklung optimiert.


# Evaluation und Analyse

## Methodik der Evaluation

Die Evaluation des CASGPT-Systems erfolgte mittels halbstrukturierter Experteninterviews mit drei Schlüsselpersonen: einem Product Owner (P), einem Full-Stack-Entwickler (M) und einem DevOps Engineer (D). Diese multiperspektivische Herangehensweise ermöglicht eine ganzheitliche Beurteilung des Systems (Engström et al., 2020).

Die etwa 45-60-minütigen Interviews wurden protokolliert und mittels qualitativer Inhaltsanalyse ausgewertet (Mayring, 2014; Notizen A.12)). Die Analyse erfolgte durch ein kombiniert deduktiv-induktives Kodierungsverfahren, wobei zunächst theoriegeleitete Hauptkategorien definiert und anschließend induktiv weitere Kategorien aus dem Material entwickelt wurden.

## Zentrale Evaluationsergebnisse

Die qualitative Analyse der Interviews ergab mehrere zentrale Erkenntnisse:

Der **Bedarf an systemspezifischem Kontext** wurde am häufigsten thematisiert (8 Nennungen), gefolgt vom **Mangel an Spezifität** in den Erklärungen (6 Nennungen) und dem wahrgenommenen **Potenzial des Systems** (6 Nennungen). Der **Beitrag zum Benutzerverständnis** wurde ebenfalls als wesentlicher positiver Aspekt hervorgehoben (5 Nennungen).

Diese quantitative Verteilung deutet auf ein grundsätzlich wertvolles System hin, das durch die Integration von spezifischem Systemwissen deutlich verbessert werden könnte (Tabelle A.8).

## Thematische Analyse und rollenspezifische Perspektiven

### Systemkontext als Hauptlimitation

Alle drei Experten identifizierten den mangelnden Systemkontext als zentrale Einschränkung:

> "Ja, die System Knowledge fehlt, die man in die Prompts einbauen sollte" (D)
>
> "Wenn System Knowledge (Wiki Dump) dem Model gegeben wird, hat es mehr Ahnung worum es geht" (M)

Der DevOps Engineer betonte den Bedarf an spezifischeren Handlungsempfehlungen, während der Full-Stack-Entwickler auf die technische Umsetzbarkeit durch Integration von Systemdokumentation fokussierte. Der Product Owner sah dies als Möglichkeit zur Erhöhung des Systemwerts.

### Grundnutzen und Transparenz

Trotz der identifizierten Einschränkungen bestätigten alle Interviews den Mehrwert des Systems:

> "Doch schon einiges an Hilfe, nicht jeder User weiß, was ein DSO ist" (M)
>
> "Wertschöpfung: für Menschen komisch wirkenden Fehler in natürliche Sprache übersetzen" (P)

Der Hauptwert liegt in der Übersetzungsleistung von technischen Details in verständliche Sprache und der damit verbundenen Transparenz und Vertrauensbildung.

### Integration und Akzeptanz

Die Integration des Features in den bestehenden Workflow wurde einheitlich positiv bewertet, wobei die nahtlose Implementierung in die Benutzeroberfläche und die Übereinstimmung mit den Nutzererwartungen hervorgehoben wurden. Der DevOps Engineer identifizierte die Antwortzeit als kritischen Faktor: "Nicht zu hohe Latenz zwischen der Antwort... wenn man so ca. 5 Sekunden wartet ist's okay" (D).

### Entwicklungspotenzial

Als konkrete Erweiterungsmöglichkeiten wurden vorgeschlagen:

-   **BlueBox-übergreifender Wissenstransfer**: "Wenn Fehler bei einer anderen BlueBox war, direkt in Prompt mit schreiben - das war übrigens der Fix" (D)
-   **Interaktives Chatfenster**: "Weiterentwicklung: interaktiver: z.B. in die Erklärung ein Chatfenster → KI nochmal Nachfragen stellen" (P)
-   **Feedbackmechanismen**: "Selbstlernend immer sinnvoll → Antwortqualität bewerten" (M)


# Evolutionäres Weiterentwicklungskonzept

## Zielzustand und Wertbeitrag

Der angestrebte Zielzustand entwickelt das aktuelle CASGPT von generischen Erklärungen (Wang et al., 2023) zu spezifischen, kontextbewussten Erklärungen; von statischer Prompt-Konfiguration zu kontinuierlicher, feedback-basierter Verbesserung (Ouyang et al., 2022); von reaktiver zu proaktiver, vorhersagebasierter Fehlerbehandlung (Ahmed et al., 2023); von einmaliger Erklärung zu dialogbasierter Interaktion (Wu et al., 2022); und von keiner Lernfähigkeit zu systematischem Feedback-basiertem Lernen (Li et al., 2021). Ein detaillierter Vergleich zwischen dem aktuellen Zustand und dem Zielzustand wurde erarbeitet (Tabelle A.9).

Dieser Zielzustand verspricht mehrere konkrete Wertbeiträge:

1\. **Erhöhte Benutzerproduktivität** durch präzisere, kontextspezifische Erklärungen

2\. **Reduzierter Supportaufwand** durch verbesserte Selbsthilfe-Möglichkeiten

3\. **Verbesserte Systemzuverlässigkeit** durch proaktive Fehlervermeidung

4\. **Kontinuierliche Wissenserweiterung** als selbstverstärkender Lernprozess

Dieser Zielstand orientiert sich an dem Rahmen des Feed-Forward/Feed-Backward-Ansatzes, der die gesamte CASGPT-Entwicklung charakterisiert.

## Feed-Forward/Feed-Backward-Integration

### MAPE-K-Schleife als strukturelles Rahmenwerk

Um den Feed-Forward/Feed-Backward-Ansatz in ein operatives Designprinzip zu überführen, wird das MAPE-K-Framework (Monitor, Analyze, Plan, Execute, Knowledge) für selbstadaptive Systeme (Cheng et al., 2009) als strukturelles Rahmenwerk verwendet. Dieses Framework implementiert einen geschlossenen Regelkreis für kontinuierliches Lernen und integriert Feedback-Mechanismen in einen strukturierten Adaptionsprozess:

-   **Monitor:** Sammlung von Fehlermeldungen, Benutzerfeedback und Systemmetriken

-   **Analyze:** Musteranalyse, Fehlerkategorisierung und Feedbackauswertung

-   **Plan:** Optimierung der Prompts und Erweiterung der Wissensbasis

-   **Execute:** Anwendung optimierter Prompts und Integration neuen Wissens

-   **Knowledge:** Zentrale Wissensbasis mit Systemkontext und Fehlermustern

Der Knowledge-Bereich dient dabei als gemeinsame Grundlage für Feed-Forward (Anwendung von Wissen) und Feed-Backward (Integration neuen Wissens).

### Feedback-Mechanismen als Kernelemente

Basierend auf den Experteninterviews (M: "selbstlernend immer sinnvoll → Antwortsqualität bewerten") werden folgende Feedback-Mechanismen konzipiert:

**1. Explizites Feedback:**

-   **Qualitätsbewertung:** Einfaches Bewertungssystem (+/-) nach jeder Erklärung

-   **Kategorisiertes Feedback:** Vorgegebene Kategorien wie "Zu technisch", "Zu vage"

-   **Verbesserungsvorschläge:** Freitextfeld für konkrete Anregungen

**2. Implizites Feedback:**

-   **Wiederkehrende Fehler:** Automatische Erkennung von Fällen, in denen derselbe Fehler nach einer Erklärung erneut auftritt

-   **Nutzungsstatistiken:** Analyse der Nutzungsmuster (z.B. Häufigkeit der Feature-Nutzung)

### BlueBox-übergreifender Wissenstransfer

Ein besonders effektiver Mechanismus zur Systemverbesserung ist die Übertragung von Lösungen zwischen verschiedenen BlueBoxes, wie vom DevOps Engineer hervorgehoben:

> "Wenn Fehler bei einer anderen BlueBox war, direkt in Prompt mit schreiben - das war übrigens der Fix → BlueBox kann das selber machen \[...\] Spart Zeit → weniger Supportaufwand bei selbem Fehler" (D)

Dieser Ansatz implementiert einen selbstverstärkenden Lernmechanismus durch:

1\. **Erfassung erfolgreicher Fixes:** Dokumentation erfolgreicher Fehlerbehebungen mit Kontext

2\. **Erkennung ähnlicher Fehler:** Automatische Identifikation von Ähnlichkeiten zu früheren Fehlern

3\. **Integration von Lösungswissen:** Wiederverwendung bewährter Lösungsansätze in neuen Kontexten

## Systematische Analyse für proaktive Fehlervorhersage

### Clustering von Fehlermeldungen

Zur Identifikation ähnlicher Fehler wird ein Clustering-Ansatz implementiert, der die Grundlage für den BlueBox-übergreifenden Wissenstransfer bildet (Vorobyov et al., 2021):

-   **Aufbereitung der Fehlertexte:** Entfernung variabler Elemente wie Zeitstempel und Tokenisierung

-   **Gruppierung:** Anwendung von k-Means oder DBSCAN zur automatischen Cluster-Bildung

-   **Anwendung für Prompt-Optimierung:** Entwicklung spezifischer Prompt-Templates für häufige Fehlerklassen

Das Clustering ermöglicht eine klarere Unterscheidung zwischen nutzerseitigen und systemseitigen Fehlern – ein Aspekt, der in den Interviews als wichtig hervorgehoben wurde.

### Association Rule Mining für Fehlervorhersage

Association Rule Mining (ARM) dient zur Identifikation von Zusammenhängen zwischen Konfigurationsparametern und Fehlertypen (Wang et al., 2022; Li et al., 2024):

-   **Regelextraktion:** Anwendung von Algorithmen wie Apriori oder FP-Growth

-   **Praktische Anwendung:** Übersetzung der Regeln in verständliche Warnungen und Empfehlungen

Durch die Kombination von Clustering und ARM können Fehlermuster systematisch identifiziert und für die Verbesserung des Systems genutzt werden, was direkt auf die zweite Unterforschungsfrage einzahlt.

**Beispiel für Assoziationsregeln:**

> `WENN (service_version="1.2.3" UND network_config="internal") DANN Wahrscheinlichkeit für Fehlertyp "permission_denied" = 78% EMPFEHLUNG: "Überprüfen Sie die Berechtigungen vor dem Deployment"`

## Proaktive Fähigkeiten

### Kontextsensitive Erklärungen

Die Integration von Systemkontext in die Erklärungen bildet die Grundlage für proaktive Fähigkeiten. Durch die dynamische Einbindung von Konfigurationsinformationen, Systemarchitektur und Abhängigkeiten können Erklärungen deutlich spezifischer und handlungsrelevanter gestaltet werden. Dies umfasst die: Automatische Extraktion relevanter Konfigurationsparameter, Integration von Systemarchitekturwissen und Berücksichtigung von Service-Interaktionen und Abhängigkeiten.

### Interaktive Fehleranalyse

Entsprechend dem Vorschlag des Product Owners zur Erweiterung des Systems um interaktive Funktionen: \> "Weiterentwicklung: interaktiver: z.B. in die Erklärung ein Chatfenster → KI nochmal Nachfragen stellen" (P)

Das System kann um einen dialogorientierten Ansatz erweitert werden, bei dem Benutzer Rückfragen zu Erklärungen stellen können. Dies unterstützt den Übergang zu einem proaktiveren System durch:

-   **Vertiefende Erklärungen:** Detailliertere Informationen zu spezifischen Aspekten eines Fehlers

-   **Schrittweise Fehleranalyse:** Geführte Exploration der Fehlerursachen

-   **Kontextualisierte Lösungsvorschläge:** Anpassung der Lösungsvorschläge an die spezifische Situation des Benutzers

## Technische Verbesserungen und Priorisierung

Die Evolution zu einem selbstlernenden System erfordert zusätzliche Komponenten und eine priorisierte Umsetzung. Basierend auf den Experteninterviews, der technischen Machbarkeit und dem erwarteten Wertbeitrag wird folgende Implementierungsstrategie vorgeschlagen:

**Hohe Priorität:**

-   Systemkontext-Integration: Implementierung eines Systemkontext-Connectors zur dynamischen Einbindung von CAS-Komponenten und Konfigurationsinformationen

-   Einfacher Feedback-Mechanismus: Einführung eines "Hilfreich/Nicht hilfreich"-Buttons mit Feedback-Datenbank zur Bewertungsspeicherung

-   BlueBox-übergreifender Wissenstransfer: Entwicklung von Mechanismen zur Dokumentation und Wiederverwendung erfolgreicher Fehlerbehebungen

**Mittlere Priorität:**

-   Verbesserte Fehlerkategorisierung und Cluster-Erkennung mittels Analyse-Engine

-   Konfigurationsempfehlungen basierend auf historischen Daten

-   Erweiterter Prompt-Generator mit interaktiver Chatbot-Funktionalität

Diese inkrementelle Umsetzungsstrategie gewährleistet, dass jede Implementierungsphase einen konkreten Mehrwert liefert und gleichzeitig die Grundlage für nachfolgende Erweiterungen schafft.


# Fazit

## Zusammenfassung der Forschungsergebnisse

Diese Arbeit untersuchte die Evolution eines LLM-basierten Fehlererklärungssystems zu einem selbstlernenden System durch systematische Analyse und Feedback. Durch den Feed-Forward/Feed-Backward-Ansatz wurden theoretische Grundlagen, praktische Implementierung und ein evolutionäres Weiterentwicklungskonzept erarbeitet.

Die zentralen Ergebnisse sind:

1.  **Erfolgreiche LLM-Integration:** Die CASGPT-Implementierung demonstriert die effektive Nutzung von LLMs zur Verbesserung der Benutzererfahrung bei komplexen Cloud-Deployments (Brown et al., 2020; Wang et al., 2023).
2.  **Systemkontext als kritische Limitierung:** Die Evaluation identifizierte mangelnden Systemkontext als zentrale Einschränkung, was die Notwendigkeit einer dynamischen Kontextintegration unterstreicht (Talukdar & Biswas, 2023).
3.  **MAPE-K als Evolutionsrahmen:** Das MAPE-K-Framework bietet ein strukturiertes Modell für die Evolution zu einem selbstlernenden System (Cheng et al., 2009; Wong et al., 2022).
4.  **Proaktive Fähigkeiten als Ziel:** Der konzipierte Übergang von reaktiven Erklärungen zu proaktiven Empfehlungen und Fehlervorhersagen zeigt das Potenzial der Kombination von LLMs mit Mustererkennungstechniken (Vorobyov et al., 2021; Wang et al., 2022).

Diese Ergebnisse adressieren direkt die Hauptforschungsfrage zur Evolution eines LLM-basierten Fehlererklärungssystems zu einem selbstlernenden System und liefern konkrete Konzepte für die praktische Umsetzung.

## Praktische Implikationen

Die Forschungsergebnisse haben wichtige praktische Implikationen für Organisationen:

-   Bereits ein Basissystem ohne umfassenden Systemkontext bietet durch verbesserte Transparenz einen Mehrwert für Benutzer und Organisationen. Die Experteninterviews bestätigten, dass selbst generische Erklärungen zu einem besseren Verständnis komplexer Fehlermeldungen beitragen können.
-   Die schrittweise Evolution ermöglicht einen inkrementellen Ansatz mit kontinuierlichem Wertbeitrag. Organisationen können mit grundlegenden Funktionen beginnen und das System systematisch erweitern, ohne umfangreiche Vorabinvestitionen.
-   Feedback ist die Schlüsselressource für den Übergang zu selbstlernenden Systemen. Die konsequente Sammlung und Analyse von Benutzerfeedback bildet die Grundlage für kontinuierliche Verbesserung und Adaptation.

Diese Implikationen gelten nicht nur für Fehlererklärungssysteme, sondern können auf weitere KI-gestützte Assistenzsysteme in Enterprise-Umgebungen übertragen werden (Devaraju, 2024; Perron et al., 2025).

## Limitationen und kritische Reflexion

Diese Arbeit unterliegt mehreren Limitationen:

-   **Prototypischer Charakter:** Das volle Potenzial des Systems würde sich erst im langfristigen produktiven Einsatz zeigen. Die tatsächliche Nutzungserfahrung könnte zu weiteren Erkenntnissen führen, die im Rahmen dieser Arbeit nicht antizipiert werden konnten.
-   **Konzeptionelle vs. implementierte Evolution:** Das Weiterentwicklungskonzept wurde theoretisch ausgearbeitet, aber nicht vollständig implementiert. Die praktische Umsetzung könnte zusätzliche Herausforderungen offenbaren, die weitere Anpassungen erfordern.
-   **Generalisierbarkeit:** Die Ergebnisse beziehen sich spezifisch auf den CAS-Kontext und Deployment-Fehler im Cloud-Umfeld. Obwohl die grundlegenden Prinzipien übertragbar sein dürften, können in anderen Domänen spezifische Anpassungen erforderlich sein.

## Ausblick

Diese Forschung eröffnet mehrere vielversprechende Richtungen für zukünftige Arbeit:

-   **Erweiterte Lernmethoden:** Integration von Reinforcement Learning from Human Feedback (RLHF) (Stiennon et al., 2020) und ausgereifteren Human-in-the-Loop-Ansätzen (Wu et al., 2022). Diese könnten die Adaptivität des Systems weiter verbessern und den Übergang zu einem vollständig selbstlernenden System beschleunigen.
-   **Multi-Agent-Systeme:** Verteilte Fehleranalyse durch spezialisierte Agenten für verschiedene Aspekte der Systemdiagnose. Dieses Konzept könnte die Skalierbarkeit und Spezifität der Fehleranalyse verbessern, indem verschiedene Agenten für unterschiedliche Systemkomponenten oder Fehlertypen spezialisiert werden.
-   **Domänenadaption:** Übertragung des Konzepts auf andere Cloud-Plattformen und Deployment-Umgebungen. Die generischen Prinzipien des Feed-Forward/Feed-Backward-Ansatzes und der systematischen Evolution könnten auf andere technische Domänen angewendet werden.
-   **Balance zwischen Erklärbarkeit und Leistungsfähigkeit:** Weitere Forschung zur optimalen Balance zwischen detaillierten, transparenten Erklärungen und effizienter, prägnanter Kommunikation ist notwendig. Dies betrifft insbesondere die Frage, wie viel Kontext und technisches Detail für verschiedene Benutzergruppen hilfreich ist.
-   **Vertrauen in KI-generierte Erklärungen:** Untersuchung der Faktoren, die das Vertrauen in LLM-generierte technische Erklärungen beeinflussen. Die Akzeptanz solcher Systeme hängt maßgeblich vom Vertrauen der Benutzer ab, was weitere Forschung zu Transparenz, Konsistenz und Nachvollziehbarkeit erfordert.

Die Evolution von LLM-basierten Assistenzsystemen steht noch am Anfang. Diese Arbeit liefert einen Beitrag durch die systematische Untersuchung der Integration und Evolution eines spezifischen Anwendungsfalls, bietet jedoch gleichzeitig einen konzeptionellen Rahmen für die weitere Erforschung selbstlernender KI-Systeme in Enterprise-Umgebungen.



<!-- Anhang ### Den folgenden Code-Block nicht entfernen!!!  -->

\appendix
\renewcommand{\thefigure}{A\arabic{figure}}
\renewcommand{\thetable}{A\arabic{table}}
\setcounter{figure}{0}
\setcounter{table}{0}

# Anhang

## User Interface

![](img/JSON.png)

\newpage

## detailliertes Komponenten Diagramm

![](img/KomponentenDiagrammDetailliert.png)

\newpage

## Prompt-Engineering Workflow

![](img/PromptEngineeringWorkflow.png)

\newpage

## Chancen und Herausforderungen bei der Integration von LLMs in Enterprise-Systemen

+-------------------------------+---------------------------------------------------------------------+------------------------------------------------------------------------------------------------+
| **Chancen**                   | **Beschreibung**                                                    | **Herausforderungen:**                                                                         |
|                               |                                                                     |                                                                                                |
|                               |                                                                     | **Beschreibung**                                                                               |
+===============================+=====================================================================+================================================================================================+
| Automati-\                    | Reduktion manueller Prozesse durch natürlichsprachliche Interaktion | **Sicherheit**: Schutz sensibler Daten und Konformität mit Zero-Trust-Architektur (Dash, 2024) |
| sierung                       |                                                                     |                                                                                                |
+-------------------------------+---------------------------------------------------------------------+------------------------------------------------------------------------------------------------+
| Verbesserte Benutzererfahrung | Vereinfachung komplexer technischer Inhalte                         | **Ressourcenbedarf**: Hohe Anforderungen an Rechenleistung und Speicher (Hu et al., 2021)      |
+-------------------------------+---------------------------------------------------------------------+------------------------------------------------------------------------------------------------+
| Wissens-                      | Demokratisierung von Expertenwissen                                 | **Datenschutz & Compliance**: Einhaltung von Regularien wie DSGVO (Devaraju, 2024)             |
|                               |                                                                     |                                                                                                |
| distribution                  |                                                                     |                                                                                                |
+-------------------------------+---------------------------------------------------------------------+------------------------------------------------------------------------------------------------+
| Integrations-                 | Brückentechnologie zwischen verschiedenen Systemen                  | **Interpretierbarkeit**: Nachvollziehbarkeit von Entscheidungen (Kumar et al., 2025)           |
|                               |                                                                     |                                                                                                |
| fähigkeit                     |                                                                     |                                                                                                |
+-------------------------------+---------------------------------------------------------------------+------------------------------------------------------------------------------------------------+
| Skalier-                      | Bewältigung wachsender und diverser Fehlertypen                     | **Wartbarkeit**: Kontinuierliche Anpassung und Optimierung (Alibakhsh, 2023)                   |
|                               |                                                                     |                                                                                                |
| barkeit                       |                                                                     |                                                                                                |
+-------------------------------+---------------------------------------------------------------------+------------------------------------------------------------------------------------------------+

\newpage

## Vergleich verschiedener Fehlererklärungsansätze

+----------------------------------+---------------------------------------+----------------+-----------------------------------------+---------------------------+
| **Ansatz**                       | **Beschreibung**                      | **Stärken**    | **Schwächen**                           | **Relevanz für CASGPT**   |
+==================================+=======================================+================+=========================================+===========================+
| **Traditionelle Ansätze**        |                                       |                |                                         |                           |
+----------------------------------+---------------------------------------+----------------+-----------------------------------------+---------------------------+
| Statische Fehlercodes            | Standardisierte Fehlermeldungen       | Konsis-\       | Kontextlosigkeit, schwer verständlich   | Baseline für Verbesserung |
|                                  |                                       | tenz           |                                         |                           |
+----------------------------------+---------------------------------------+----------------+-----------------------------------------+---------------------------+
| Dokumen-\                        | Umfassende Fehlerbeschreibungen       | Detailtiefe    | Wartungs-\                              | Ergänzende Wissensquelle  |
| tationen                         |                                       |                | aufwand,\                               |                           |
|                                  |                                       |                | Veraltung                               |                           |
+----------------------------------+---------------------------------------+----------------+-----------------------------------------+---------------------------+
| Rule-Based Error Handling        | Regelbasierte Fehlerbehandlung        | Präzision bei\ | Schlechte Skalierbarkeit                | Ergänzender Ansatz        |
|                                  |                                       | bekannten\     |                                         |                           |
|                                  |                                       | Fehlern        |                                         |                           |
+----------------------------------+---------------------------------------+----------------+-----------------------------------------+---------------------------+
| **KI-basierte Ansätze**          |                                       |                |                                         |                           |
+----------------------------------+---------------------------------------+----------------+-----------------------------------------+---------------------------+
| Case-Based Reasoning             | Lösung basierend auf ähnlichen Fällen | Praxis-\       | Abhängigkeit von Fallbasis              | Konzeptuelle Ähnlichkeit  |
|                                  |                                       | bewährte\      |                                         |                           |
|                                  |                                       | Lösungen       |                                         |                           |
+----------------------------------+---------------------------------------+----------------+-----------------------------------------+---------------------------+
| ML-Clustering                    | Musterbasierte Fehlerkategorisierung  | Automa-\       | Keine natürlichsprachlichen Erklärungen | Ergänzende Technik        |
|                                  |                                       | tische\        |                                         |                           |
|                                  |                                       | Gruppie-\      |                                         |                           |
|                                  |                                       | rung           |                                         |                           |
+----------------------------------+---------------------------------------+----------------+-----------------------------------------+---------------------------+
| LLM-basierte Root Cause Analysis | LLM-gestützte Ursachenanalyse         | Natürlich-\    | Halluzinationen, Ressourcenbedarf       | Direktes Vorbild          |
|                                  |                                       | sprachliche\   |                                         |                           |
|                                  |                                       | Erklärungen,\  |                                         |                           |
|                                  |                                       | Adaptivität    |                                         |                           |
+----------------------------------+---------------------------------------+----------------+-----------------------------------------+---------------------------+

\newpage

## Relevante Prompt-Patterns für Fehlererklärungen

+---------------------+----------------------------------------------------+------------------------------------------------------------------------+
| **Pattern**         | **Beschreibung**                                   | **Anwendung in CASGPT**                                                |
+=====================+====================================================+========================================================================+
| Persona Pattern     | Definition einer spezifischen Rolle für das LLM    | "Du bist ein Experte für Fehlererklärung in Cloud-Deployment-Systemen" |
+---------------------+----------------------------------------------------+------------------------------------------------------------------------+
| Template Pattern    | Vorgabe einer spezifischen Ausgabestruktur         | Strukturierung der Erklärung in Ursache, Auswirkung, Lösung            |
+---------------------+----------------------------------------------------+------------------------------------------------------------------------+
| Context Enhancement | Anreicherung mit domänenspezifischem Wissen        | Integration von Systemwissen über CAS-Komponenten                      |
+---------------------+----------------------------------------------------+------------------------------------------------------------------------+
| Cognitive Verifier  | Aufforderung zur Verifizierung der eigenen Antwort | Selbstprüfung zur Reduktion von Halluzinationen                        |
+---------------------+----------------------------------------------------+------------------------------------------------------------------------+
| Reflection Pattern  | Explizite Aufforderung zur Selbstreflexion         | Erkennung von Unsicherheiten in der Erklärung                          |
+---------------------+----------------------------------------------------+------------------------------------------------------------------------+
| Chain-of-Thought    | Aufforderung zu schrittweisem Denken               | Verbesserung der Reasoning-Fähigkeiten des LLM                         |
+---------------------+----------------------------------------------------+------------------------------------------------------------------------+

\newpage

## Kernkonzepte selbstlernender Systeme für CASGPT

+-------------------+------------------------------------------------------------------+--------------------------+------------------------------------------+
| **Konzept**       | **Beschreibung**                                                 | **Relevanz für CASGPT**  | **Literatur**                            |
+===================+==================================================================+==========================+==========================================+
| MAPE-K Loop       | Monitor-Analyze-Plan-Execute-Knowledge-Zyklus für Selbstadaption | Strukturiertes\          | Cheng et al. (2009)                      |
|                   |                                                                  | Framework\               |                                          |
|                   |                                                                  | für den Feed-Forward/\   |                                          |
|                   |                                                                  | Feed-Backward-\          |                                          |
|                   |                                                                  | Kreislauf                |                                          |
+-------------------+------------------------------------------------------------------+--------------------------+------------------------------------------+
| Feedback-\        | Systematische Rückkopplungsmechanismen                           | Grundlage für\           | Kang & Meira-Goes (2022)                 |
| Schleifen         |                                                                  | kontinuierliches Lernen\ |                                          |
|                   |                                                                  | aus Erfahrungen          |                                          |
+-------------------+------------------------------------------------------------------+--------------------------+------------------------------------------+
| Human-in-the-Loop | Integration menschlichen Feedbacks in den Lernprozess            | Verbesserung\            | Wu et al. (2022); Stiennon et al. (2020) |
|                   |                                                                  | der Erklärungs­qualität\  |                                          |
|                   |                                                                  | durch Expertenwissen     |                                          |
+-------------------+------------------------------------------------------------------+--------------------------+------------------------------------------+

\newpage

## Häufigkeit der wichtigsten Codes in den Interviews

+-------------------------------------------+---------+---------+---------+------------+
| **Code & Beschreibung**                   | **D**   | **M**   | **P**   | **Gesamt** |
+===========================================+=========+=========+=========+============+
| `EX_SYSTEM_CONTEXT_NEED`:\                | 4       | 2       | 2       | **8**      |
| Bedarf an mehr systemspezifischem Kontext |         |         |         |            |
+-------------------------------------------+---------+---------+---------+------------+
| `EX_SPECIFICITY_LACK`:\                   | 3       | 2       | 1       | **6**      |
| Mangel an Spezifität in Erklärungen       |         |         |         |            |
+-------------------------------------------+---------+---------+---------+------------+
| `VALUE_POTENTIAL`:\                       | 2       | 2       | 2       | **6**      |
| Einschätzung des zukünftigen Potenzials   |         |         |         |            |
+-------------------------------------------+---------+---------+---------+------------+
| `USER_UNDERSTAND`:\                       | 1       | 2       | 2       | **5**      |
| Beitrag zum Benutzerverständnis           |         |         |         |            |
+-------------------------------------------+---------+---------+---------+------------+
| `INTEGRATION_POS`:\                       | 1       | 1       | 1       | **3**      |
| Positive Bewertung der Integration        |         |         |         |            |
+-------------------------------------------+---------+---------+---------+------------+
| `VALUE_CURRENT_POS`:\                     | 0       | 2       | 1       | **3**      |
| Positive Bewertung des aktuellen Nutzens  |         |         |         |            |
+-------------------------------------------+---------+---------+---------+------------+
| `SELF_LEARN`:\                            | 1       | 2       | 0       | **3**      |
| Vorschläge zur Selbstlernfähigkeit        |         |         |         |            |
+-------------------------------------------+---------+---------+---------+------------+

\newpage

## Evolution von CASGPT - Vergleich Ist- und Zielzustand

+--------------+--------------------------------+------------------+----------------------------------------------+
| **Merkmal**  | **Aktueller Zustand**          | **Zielzustand**  | **Theoretische Grundlage**                   |
+==============+================================+==================+==============================================+
| Kontext-\    | Generische Erklärungen         | Spezifische\     | Wang et al. (2023); Kumar et al. (2025)      |
| sensitivität |                                | Erklärungen mit\ |                                              |
|              |                                | Systemkontext    |                                              |
+--------------+--------------------------------+------------------+----------------------------------------------+
| Adaptivität  | Statische Prompt-Konfiguration | Kontinu-\        | Ouyang et al. (2022); Stiennon et al. (2020) |
|              |                                | ierliche\        |                                              |
|              |                                | Verbesserung\    |                                              |
|              |                                | durch Feedback   |                                              |
+--------------+--------------------------------+------------------+----------------------------------------------+
| Operations-\ | Reaktiv: Nach Fehlerauftreten  | Proaktiv:\       | Ahmed et al. (2023); Chen et al. (2023)      |
| modus        |                                | Vorhersage\      |                                              |
|              |                                | und Vermeidung   |                                              |
+--------------+--------------------------------+------------------+----------------------------------------------+
| Inter-\      | Einmalige Erklärung            | Dialog-basierte\ | Wu et al. (2022)                             |
| aktivität    |                                | Interaktion      |                                              |
+--------------+--------------------------------+------------------+----------------------------------------------+
| Lernfähig-\  | Kein Lernen aus Erfahrung      | Systematisches\  | Li et al. (2021); Wong et al. (2022)         |
| keit         |                                | Lernen\          |                                              |
|              |                                | aus Feedback     |                                              |
+--------------+--------------------------------+------------------+----------------------------------------------+

\newpage

## Prompt Konfiguration Code

Die ganze Datei `prompt_config.py` ist im digitalen Anhang zu finden.

``` python
# ...
    def _initialize_system_prompt(self) -> str:
        return """You are an expert at explaining technical errors 
                  from Deutsche Telekom's deployment infrastructure.
            Focus on providing clear, actionable explanations that:
            1. Accurately identify whether it's a system or 
            user-related issue.
            2. Explain technical concepts in accessible language.
            3. Describe practical impacts on the deployment process.

            When explaining errors:
            - Be specific rather than generic, BUT if the error is 
            truly unknown, provide GENERAL guidance.
            - Use technical terms appropriately but explain their 
            meaning.
            - Keep explanations focused and relevant to the 
            deployment context.
            - Consider these potential keywords: {keywords}
            - Identify and explain any specific components, services, 
            or technologies mentioned in the error message.
            - Explain the meaning of any HTTP status codes 
            in the context of the error.
            - Provide potential causes for THIS SPECIFIC error, 
            not just general causes for the category.
            - If the error message suggests a solution 
            (e.g., "retrying"), explain that suggestion.

            IF THE ERROR CATEGORY IS 'General':
            - Acknowledge that the error is not in a specific 
            known category.
            - STILL try to extract useful information from the 
            error message:
                - Are there any recognizable keywords 
                (e.g., "database," "connection," "timeout")?
                - Are there any error codes (e.g., "503," "404")?
                - Is there any mention of specific files, paths, 
                or URLs?
            - Based on the extracted information, provide the 
            MOST LIKELY causes and potential troubleshooting steps.
            - Suggest general troubleshooting steps that are 
            ALWAYS helpful:
                - Check network connectivity.
                - Verify service status.
                - Check recent logs.
                - Consult relevant documentation.
            - Clearly state that further investigation may 
            be needed if the general guidance doesn't 
            resolve the issue.

            Your goal is to help users understand what went wrong 
            and its implications for the deployment process, 
            EVEN if the error is unfamiliar."""

    def _initialize_response_templates(self) -> Dict[str, str]:
        templates = {
            "standard": """Analyze this error from Deutsche 
                           Telekom's deployment infrastructure:
            ERROR TYPE: {error_type}
            CONTEXT: {context}
            ERROR MESSAGE:
            {error_message}

            EXPLANATION:
            [Provide a technical analysis focusing on:
            - Root cause identification
            - Specific component or service affected
            - Technical process that failed]

            IMPACT:
            [Describe:
            - Immediate system effects
            - Process disruption
            - Required actions]""",

            "with_quick_fix": """Analyze this {category} error:
            ERROR TYPE:
            {error_type}: {category_name} Issue
            EXPLANATION:
            [Explain the error in clear technical terms, 
            considering this context: {context}]
            IMPACT:
            [Describe the practical effect on the deployment 
            environment and any potential risks]
            QUICK FIX:
            [Provide one simple, immediate action the user 
            can take to address this issue]
            Keep the explanation concise but informative. 
            Focus on clarity and practical implications.""",

            "user_error": """Analyze this {category} error:
            ERROR TYPE:
            {error_type}: {category_name} Issue
            EXPLANATION:
            [Explain the error in clear technical terms, 
            considering this context: {context}]
            IMPACT:
            [Describe the practical effect on the 
            deployment environment]
            USER ACTIONS:
            {user_actions}
            SUPPORT INFORMATION:
            {support_info}
            Keep the explanation concise but informative. 
            Focus on actionable steps the user can take."""
        }
        return templates
```

\newpage

## Client Creation Code

Die ganze Datei `error_explanation_handler.py` ist im digitalen Anhang zu finden.

``` python
# ...
class ErrorRequest(BaseModel):
    error_message: str = Field(..., min_length=1, max_length=1000)

class ExplanationResponse(BaseModel):
    explanation: str
    categories: list[str] = Field(default_factory=list)
    components: list[str] = Field(default_factory=list)

class ErrorExplanationHandler:
    def __init__(self):
        self.vault = VaultAccess()
        self.ai_service = self._initialize_ai_service()
        self.prompt_config = PromptConfig()

    def _initialize_ai_service(self) -> AIService:
        config = self._load_ai_service_config()
        return AzureAIService(config)

    def _load_ai_service_config(self) -> AIServiceConfig:
        openai_key = self.vault.get_value(
            self.vault.cas_kv_engine,
            f"{self.vault.cas_default_path}/utils",
            "AZURE_OPENAI_KEY"
        )
        if not openai_key:
            raise ValueError("AI service key not found in vault")

        return AIServiceConfig(
            endpoint=os.getenv('AZURE_OPENAI_ENDPOINT', '').strip(),
            api_key=openai_key,
            deployment_name=os.getenv('DEPLOYMENT_NAME', '').strip(),
            max_tokens=int(os.getenv('MAX_TOKENS', '200')),
            temperature=float(os.getenv('TEMPERATURE', '0.7')),
            proxy_url=os.getenv('PROXY_URL'),
            request_timeout=float(os.getenv('REQUEST_TIMEOUT', 
                                            '30.0'))
        )

    async def get_error_explanation(self, error_request: 
                                    ErrorRequest) -> 
                                    ExplanationResponse:
        try:
            explanation = await self._get_ai_explanation
                                (error_request.error_message)
            categories = self.prompt_config.identify_error_categories
                                        (error_request.error_message)

            return ExplanationResponse(
                explanation=explanation,
                categories=[cat.name for cat in categories],
                components=self._extract_related_components
                                (explanation)
            )
 # ...
```

\newpage

## Interviewnotizen

1\. \*\*D:\*\*

Wer bist du bzw. welche Rolle hast du im CAS Projekt /
welche Jobbeschreibung hast du?

- DevOps Engineer (macht kein DevOps) → ist Backend Engineer
 - kümmert sich größtenteils um einen Orchestrator im
Kubernetes Cloud Umfeld für CNFs
 - deployt automatisch das System, was die Blueboxen
automatisch installiert

Wie bewertest du die Qualität der KI-generierten Erklärungen?

- zu generisch, es wird das erklärt, was da steht aber
klipp und klare Antworten wären besser

Kannst du ein konkretes Beispiel für eine besonders gelungene /
weniger gelungene Erklärung nennen?

- …Object of type Exception is not JSON serializable

Wie gut integriert sich das Feature in den bestehenden Workflow?

- vorausgesetzt die BlueBoxen benutzen das ProgressView
→ super Integration
 - nicht zu hohe Latenz zwischen der Antwort
 - im besten Fall gibt es nicht zu viele Fehler und
wenn man so ca. 5 Sekunden wartet ist’s okay

Gibt es Verbesserungspotenzial bei der Integration?

- Ja, die System Knowledge fehlt,
die man in die Prompts einbauen sollte
- mehr Custom Knowledge

Wie schätzt du den Gesamtnutzen des Features ein?

- jetzt grade: noch nicht allzu hoch
 - mit Verbesserung besser
 - sehr viel Potenzial → tatsächliche Zeitersparnis
auf unserer Seite + BlueBox Seite

Welche Verbesserungsvorschläge hast du für die Weiterentwicklung?

- mehr Systemknowledge + Pormpts mit mehr Informationen füllen
- User oder Systemfehler kategorisieren
 - du kannst dafür nichts, das betroffene System kann sich nicht
zu dem System connecten, Tipp: connectivity issues können
durch retry vermieden werden
- vielleicht noch nicht jetzt, aber wenn die Prompts mit
Systeminfo gefüllt werden würden, würden die Kunden Infos bekommen,
wie die Services funktionieren, besser als sie jemals wissen könnten
 - Hilfe bekommen ohne Dokumentation zu lesen
(die es nicht gibt :) )
 - wir hätten die Möglichkeit die Fehler zu erkennen
→ Prompts umschreiben um zusätzliche Informationen
mit reinzuschreiben
 - wenn Fehler bei einer anderen BlueBox war, direkt in Prompt
mit schreiben: das war übrigens der Fix
→ BlueBox kann das selber machen
 - Spart Zeit → weniger Supportaufwand bei selbem Fehler

Gibt es noch Aspekte, die wir nicht besprochen haben?

- Datenschutz abgedeckt, keine User spezifischen Sachen

Gewünschte Fehlererklärung & Kontext, wie die Log Messages
erstellt werden:

- unhandled expection was caught → müsste übergeben werden,
kommt aus unseren Services → viel genauer: wir haben 200 erwartet,
in den Klammern, was wir bekommen haben,
nur eine Log Message auswerten
- das in den Klammern, was ich tatsächlich bekommen habe,
die Erklärung dass unser Service einen anderen Service
kontaktiert hat, der mit dem Fehlercode
“Internal server error: object of type …)
 - unsere Services schreiben Logs mit den ähnlichen / gleichen ids
→ Service der das wiederbekommt -\> der eine Service hat den
anderen kontaktiert und hat den Fehler bekommen
- an unhandled exepception was caught → von den Systeminfos, was
unsere Services produzieren / schreiben → die Services sind in
folgende Fehler gelaufen
1. \*\*M:\*\*

Wer bist du bzw. welche Rolle hast du im CAS Projekt /
welche Jobbeschreibung hast du?

- Software Engineer - Full-Stack: Frontend, Backend,
vor allem Frontend
- alles was mit dem CAS Portal zutun hat

Wie bewertest du die Qualität der KI-generierten Erklärungen?
Kannst du ein konkretes Beispiel für eine besonders gelungene /
weniger gelungene Erklärung nennen?

- doch schon einiges an Hilfe, nicht jeder User weiß, was ein DSO ist
- wenn ich persönlich erklären würde, würde ich auch vorlesen und
darauf erklären
 - doppelt da stehen ist nicht kritisch aber garkeine neue Info,
ist schade
 - manchmal lässt es sich nicht verhindern,
teilweise recht selbstaussagend
- Qualität ist für den Datenumfang gut, man merkt, die KI versteht,
worum es geht, wahrscheinlich weil System prompt gut gesgnined ist
 - verbessern mit mehr Daten geht immer, Grundidee ist gut,
absolut ausreichend
 - DSO erklärt und sowas anderes reicht einem User der
nicht technisch versiert ist, zu verstehen worum es geht

Inwieweit unterstützt das Feature den Deployment-Prozess?

- den Prozess an sich nicht, aber den User, insoweit,
dass der User besser versteht, was der Fehler ist und evtl.
vermeiden wir einfache Fehler zu großen Problemen werden
 - User versteht “ah ok war keine Verbindung zu wo auch immer”
 - Open Telekom Cloud nicht erreichbar → Systemfehler

Wie gut integriert sich das Feature in den bestehenden Workflow?

- perfekt, den Button finde ich gut, aufklappbar,
besser geht fast garnicht, genau richtig

Wie beurteilst du die \*Qualität der Erklärungen im Hinblick auf
technische Korrektheit und Vollständigkeit\*

- damit sie besser wird, muss man mehr Daten einfügen,
mehr Daten = bessere Antworten

Wie schätzt du den Gesamtnutzen des Features ein?

- aktuell: viel Wiederholung, manchmal reicht dem User,
dass er sieht, der error ist erklärbar
→ gutes Gewissen, Transparenz wird geschaffen
 - Qualität der Antworten kommt mit der Skalierung
 - aktuell ein nice to have
 - und man kann sagen “man nutzt AI”: alleine dafür gut

Welche Verbesserungsvorschläge hast du für die Weiterentwicklung?

- selbstlernend immer sinnvoll → Antwortsqualität bewerten,
anstatt dass es sich selbst mit schwachen Antworten füttert
 - wenn System Knowledge (Wiki Dump) dem Model gegeben wird,
hat es mehr Ahnung worum es geht
 - Fehlermeldungen sammeln, bestmögliche Antwort
auswählen vom Model bewerten
 - Fíne-Tuning
- mehr Daten, Struktur finde ich gut,
Weiternetwicklung auf andere Sachen
 - Logging Seite, in Zukunft kommt bestimmt mehr dazu
 - guter Einstieg
 - man weiß, wie man ans Modell kommt

Gibt es noch Aspekte, die wir nicht besprochen haben?

- wie ist es aktuell, du nimmst die error message
direkt von der Seite?
 - könnte man da cross scripten?
- Warum ist das ganze sinnvoll mit Ai zu lösen?
 - immer andere Fehlermeldung
 - Erweiterungspotenzial rechtfertigt das
1. \*\*P:\*\*

Wer bist du bzw. welche Rolle hast du im CAS Projekt /
welche Jobbeschreibung hast du?

- im CAS Projekt Squadlead im CAS Team
→ Product Owner für Plattformlösung
 - verschiedene Automatisierungsprojekte innerhalb Telekom T-VM
 - generische Lösung Plattform für verschiedene Kundenprojekte
 - Verantwortung für das ganze Team &
Plattformlösung & Kundenprojekte aufteilen

Wie bewertest du die Qualität der KI-generierten Erklärungen?
Kannst du ein konkretes Beispiel für eine besonders gelungene /
weniger gelungene Erklärung nennen?

- von dem was bisher gesehen: bisher unterschiedlich, erwartbar
- gefühl, dass die Antworten je genereller das Problem,
desto besser werden die Antworten
 - beispiel: string value im yml file nicht geparsed \
werden konnte
→ fehler: text sollte verwendet werden
 - System kann das ganz gut
 - Infrastruktur zugeschnittene Dinge: schwieriger, \
Meta Daten nicht
 - unterschiedlich aber erwartbar

Inwieweit unterstützt das Feature den Deployment-Prozess?

- am Ende des Prozesses, Benutzer kann in der Progress view sehen,
welche schritte abgehandelt werden in der zeit, sieht die Fehler
 - an dem Punkt setzt das feature an, Nutzer die nicht
so tief technologisches verständnis haben
 - sehr technische Fehlermeldugnen können trotzdem
angezeigt werden + erklärt werden
 - Qualität ganz gut unterwegs, manchmal geht es dazu
Zusatzinformationen zu geben
 - manchmal in html / xml code eingebettet
 - Button click → Fehler wird auseinander genommen
 - \*\*Wertschöpfung: für Menschen komisch wirkenden
Fehler in natürliche Sprache übersetzten
→ einleuchtend und gern angucken\*\*
 - User hat oft keine Lust,
sich das alles anzuschauen

Wie gut integriert sich das Feature in den bestehenden Workflow?

- eigentlich genauso integriert, funktioniert genauso wie ich mir
so ein Feature wünschen würde
 - ich hab eine Fehlermeldung, klicke drauf und wird erklärt
 - wüsste nicht, was man das anders machen sollte, \
Integration gelungen
- Integration absolut sinnvoll

Gibt es Verbesserungspotenzial bei der Integration?

- Content: mehr Informationen geben auf spezielle Infrastruktur
 - manchmal Nachrichten abgeschnitten
(LLM zu kleine Token Größe eingestellt)
→ da sollte man nacharbeiten

Inwiefern erfüllt das Feature deine ursprüngliche Vision?
Welche Aspekte haben dich positiv/negativ überrascht?

- positiv gestimmt: so funktioniert, wie vorgestellt
 - hab das Gefühl, dass die Idee mit den verfügbaren Mitteln
gut umgesetzt wurde
 - nicht positiv überrascht → positiv gestimmt
- positiv überrascht: wie gut diese generellen Modelle auf diese
speziellen tasks performen
 - wohl bewusst, das Meta Informationen zugegeben werden\
müssen um das zu verbessern
 - ohne besonderes training, einige dinge dabei, \
die gut funktionieren
- positiv überrascht: wie gut man über Prompting \
die Antworten strukturieren kann
 - Prompts so geschrieben, dass sie verschieden strukturiert sind
 - entsprechende Strukturen, gleichbleibende Notation /
Struktur der Antworten

Wo siehst du das größte Potenzial für die Weiterentwicklung?

- vorher Besprochen: content

Wie schätzt du den Gesamtnutzen des Features ein?

- Basierend auf den technischen Möglichkeiten des Nutzers,
durchaus komplexe Fehlermeldungen verständlich zu erklären
→ damit auch, das größere Ziel dahinter:
 - Support Anfragen an Plattformbetreiber reduzieren
→ dem Nutzer zu zeigen, wer am ende für ein Fehler \
verantwortlich ist
 - z.B. in einer Parameter config kann ich den Fehler lösen \
(String erwartet)
 - für uns reduzieren wir als Plattformbetreiber die \
Supportanfragen

Welche Verbesserungsvorschläge hast du für die Weiterentwicklung?

- Weiterentwicklung: interaktiver: z.B., in die Erklärung \
ein Chatfenster
→ KI nochmal Nachfragen stellen
 - man klappt das auf, kommt in Chatfenster und kann fragen,
die Komponente cicd solution, was ist das überhaupt?
 - wem gehört das cas1ref cluster local?
 - um Antworten zu kriegen, für jeden User ist es anders,
warum er die KI Erklärung haben will
 - der 1. User hat keine lust die Nachricht zu lesen \
und zu verstehen
 - der 2. User will verstehen, was überhaupt json ist / \
error code 500

Gibt es noch Aspekte, die wir nicht besprochen haben?

- unterschiedliche Modelle, super verschiedene Modelle,
wir sind leider beschränkt was uns zur verfügung steht,
über Tardis Integration nur Mistral / Llama zur Verfügung
 - evaluieren, inwieweit die Modelle, die man hat, performen \
→ bestes wählen
 - ggf. neu evaluieren

Das Codebook für das Verschlagworten ist im digitalen Anhang zu finden.

# Quellen

1.  Abdallah, N., Mallouli, S., Sherif, I., Bahri, H., & Al-Fuqaha, A. (2024). Cloud Network Anomaly Detection Using Machine and Deep Learning Techniques— Recent Research Advancements.

2.  Agrawal, V. (2016). Syntax errors identification from compiler error messages using ML techniques.

3.  Ahmed, A., Sethi, S., Agarwal, P., Hossain, M. S., Azeem, A., & Gadekallu, T. R. (2023). Recommending Root-Cause and Mitigation Steps for Cloud Incidents using Large Language Models.

4.  Alibakhsh, S. (2023). Challenges of Integrating LLMs Like ChatGPT with Enterprise Software and Solving it with Object Mess.

5.  Bae, H., Seo, J., Kim, H., Kim, S., Park, J., & Kim, H. (2024). Enhancing Software Code Vulnerability Detection Using GPT-4o and Claude-3.5 Sonnet: A Study on Prompt Engineering.

6.  Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language Models are Few-Shot Learners.

7.  Chandramouli, R. (2022). Implementation of DevSecOps for a microservices-based application with service mesh.

8.  Chen, Y., Yao, S., Yu, F., Wang, Y., Chen, J., Shen, B., ... & Zhou, P. (2023). Automatic Root Cause Analysis via Large Language Models for Cloud Incidents.

9.  Chen, Y., Zehui, D., Sun, S., Chen, J., Yu, F., Jiang, Z., ... & Zhou, P. (2025). AIOpsLab: A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds.

10. Cheng, B. H., de Lemos, R., Giese, H., Inverardi, P., Magee, J., Andersson, J., ... & Whittle, J. (2009). Software Engineering for Self-Adaptive Systems: A Research Roadmap.

11. Cheng, X., Cheng, X., & Xu, B. (2024). Prompt Sapper: A LLM-Empowered Production Tool for Building AI Chains.

12. Chukwuemeka Nwachukwu, C., Agboneni-Mordi, C. A., Igbinovia, P. A., Aniete, A. A., & Madu, C. A. (2024). AI-driven anomaly detection in cloud computing environments.

13. Dash, S. (2024). Zero-Trust Architecture (ZTA): Designing an AI-Powered Cloud Security Framework for LLMs' Black Box.

14. De Lemos, R., Giese, H., Müller, H. A., Shaw, M., Andersson, J., Litoiu, M., ... & Weyns, D. (2013). Software Engineering for Self-Adaptive Systems: A Second Research Roadmap.

15. De Lemos, R., Garlan, D., Ghezzi, C., Giese, H., Andersson, J., Litoiu, M., ... & Schmerl, B. (2017). Software Engineering for Self-Adaptive Systems: Research Challenges in the Provision of Assurances.

16. Detrois, M., Cito, J., Renggli, C., Agarwal, M., Karlaš, B., & Zhang, C. Automated processing of monitoring data for proactive root cause analysis in service-based systems.

17. Devaraju, B. M. (2024). Architecting Scalable LLM-Powered Employee Engagement Systems: A Multi-Modal Framework for Enterprise Application Integration.

18. Dhoopati, K. S. (2023). Enhancing Enterprise Application Integration through Artificial Intelligence and Machine Learning.

19. Engström, E., Engström, J., Björn, L., & Pettersson, O. (2020). How software engineering research aligns with design science: a review.

20. Happe, C., & Cito, J. (2025). Can LLMs Hack Enterprise Networks: Autonomous Assumed Breach Penetration-Testing Active Directory Networks.

21. Hevner, A., & Chatterjee, S. (2010). Design Science Research in Information Systems.

22. Hevner, A. R. (2007). A Three Cycle View of Design Science Research.

23. Hevner, A. R., March, S. T., Park, J., & Ram, S. (2004). Design Science in Information Systems Research.

24. Hu, F., Zhou, J., Ng, Y. P., & Chen, C. (2021). Pipeline Parallelism for Inference on Heterogeneous Edge Computing.

25. Hussain, M. W., & Zaidi, U. S. (2024). AdaBoost Ensemble Approach with Weak Classifiers for Gear Fault Diagnosis and Prognosis in DC Motors.

26. Kang, D., & Meira-Goes, J. (2022). Requirements Engineering for Feedback Loops in Software-Intensive Systems.

27. Krishna, L. K., Sankaralingam, S., & Jayaram, S. (2023). An Enhanced Time Series Analysis to Improve the Performance of 5G Communication Systems.

28. Kumar, S., Singh, V., Laxman, S., & Mishra, D. (2025). A multivariate transformer-based monitor-analyze-plan-execute (MAPE) autoscaling framework for dynamic cloud resources.

29. Laigner, R., Kalinowski, M., Diniz, S., Barros, L., Cassino, C., Lins, M., ... & Lifschitz, S. (2021). Data management in microservices: state of the practice, challenges, and research directions.

30. Li, Y., Luo, D., Hu, C., Zhang, Z., Wang, J., & Lu, S. (2024). Interpretable Analysis of Production GPU Clusters Monitoring Data via Association Rule Mining.

31. Mao, X., Tang, J., Qiu, W., Liu, Y., Wang, X., & Li, Z. (2024). Advancing Graph Representation Learning with Large Language Models: A Comprehensive Survey of Technical Approaches.

32. Mayring, P. (2014). Qualitative content analysis: theoretical foundation, basic procedures and software solution.

33. Mosqueira-Rey, E., Hernández-Pereira, E., & Alonso-Ríos, D. (2023). Human-in-the-loop machine learning: a state of the art.

34. Orgad, E., Maharshak, Y., Jain, S., Izsak, P., Gadre, S. Y., Pang, R. Y., ... & Hassid, Y. (2024). LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations.

35. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., ... & Christiano, P. (2022). Training language models to follow instructions with human feedback.

36. Oyekunle Claudius Oyeniran, O. C., Harapus, R., Adesola Akinade, B., & Nwangene, C. O. (2024). Microservices architecture in cloud-native applications: Design patterns and scalability.

37. Peffers, K., Tuunanen, T., Rothenberger, M. A., & Chatterjee, S. (2007). A Design Science Research Methodology for Information Systems Research.

38. Perron, J., Fernandez, A., Arbesfeld, E., Mao, H., Muennighoff, N., Golowich, N., ... & Nguyen, A. (2025). Demystifying Application Programming Interfaces (APIs): Unlocking the Power of Large Language Models.

39. Ramamoorthi, K. Machine Learning Models for Anomaly Detection in Microservices.

40. Rizvi, S. Z. H., Javed, A. R., Ahmed, S., Al-Khateeb, H., & Malik, S. U. R. (2024). LSTM-Based Autoencoder with Maximal Overlap Discrete Wavelet Transforms Using Lamb Wave for Anomaly Detection.

41. Sain, M., Matyukhina, A., Rožanec, J. M., & Mladenić, D. (2024). Leveraging ChatGPT to Enhance Debugging: Evaluating AI-Driven Solutions in Software Development.

42. Santolucito, M., Zhai, E., Dhodapkar, R., Shim, A., & Piskac, R. (2017). Synthesizing configuration file specifications with association rule learning.

43. Saurabh Ashwinikumar Dave, B. D., Surya, J., & Kumar, R. (2024). Scalable Microservices for Cloud Based Distributed Systems.

44. Sein, M. K., Henfridsson, O., Purao, S., Rossi, M., & Lindgren, R. (2011). Action Design Research.

45. Senior Lead Software Engineer, Richmond, VA, USA, & Balakrishna, A. (2023). Optimizing Observability: A Deep Dive into AWS Lambda Logging.

46. Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., ... & Christiano, P. Learning to summarize from human feedback.

47. Talukdar, W., & Biswas, A. (2023). Improving Large Language Model (LLM) fidelity through context-aware grounding: A systematic approach.

48. Tamanampudi, V. M. (2024). End-to-End ML-Driven Feedback Loops in DevOps Pipelines.

49. Tarun Kaniganti, T., & Naga Sai Kiran, N. S. (2021). Architecting Resilient REST APIs: Leveraging AWS, AI, and Microservices for Scalable Data Science Applications.

50. Törnberg, P. (2024). Best Practices for Text Annotation with Large Language Models.

51. Tzanettis, G., Kavoussanakis, K., & Piotter, S. (2022). Data Fusion of Observability Signals for Assisting Orchestration of Distributed Applications.

52. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is All You Need.

53. Vatsal, L., & Dubey, M. (2024). A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks.

54. Venable, J., Pries-Heje, J., & Baskerville, R. (2016). FEDS: a Framework for Evaluation in Design Science Research.

55. Vorobyov, N., Ustinova, E., Koriagin, F., & Noskov, A. (2021). Parallel Version of the Framework for Clustering Error Messages.

56. Wang, D., Wei, H., Nayel, M., & An, Y. (2022). Intelligent Software Service Configuration Technology Based on Association Mining.

57. Wang, H., Zhang, M., Zhang, Z., Agarwal, A., Zhao, S., Huang, P., ... & Wong, W. E. (2023). Transformer Fault Diagnosis Method Based on Incomplete Data and TPE-XGBoost.

58. Wang, J., Wei, J., He, H., Tian, C., & Chen, H. (2024). Research on Rolling Bearing Fault Diagnosis Method Based on ECA-MRANet.

59. Wang, P., Peng, Z., Ding, Z., Zhang, B., Jiang, H., & Wang, Y. (2023). Self-Consistency Improves Chain of Thought Reasoning in Language Models.

60. Wei, J., Wang, X., Schuurmans, D., Bosma, M., Chi, E. H., Le, Q., & Zhou, D. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.

61. Weyns, D. (2019). Software Engineering for Self-adaptive Systems.

62. White, J., Bommasani, R., & Gruver, N. (2023). A Prompt Pattern Catalog to Enhance Prompt Engineering with ChatGPT.

63. Wong, S., Chua, Z. E., & Xumin, L. (2022). Self-Adaptive Systems: A Systematic Literature Review Across Categories and Domains.

64. Wu, T., Jiang, L., Zheng, X., Ripple, A., Boucher, N., Shao, M. S., ... & Ma, S. (2022). A Survey of Human-in-the-loop for Machine Learning.

65. Wu, Z., Jiang, S., Liu, Q., & Wang, H. (2024). Large Language Models Can Self-Correct with Key Condition Verification.

66. Yasmin, A., Lano, K., & Alrajeh, D. (2020). A First Look at the Deprecation of RESTful APIs: An Empirical Study.

67. Zhang, H., Liu, J., Wang, K., Zhong, W., Wang, A., Ma, M., ... & Chen, Y. (2024). Automated Root Causing of Cloud Incidents using In-Context Learning with GPT-4.

68. Zhang, Y., Li, X., Bing, L., Wang, X., Shi, S., Yan, R., ... & Zhu, W. (2024). Comparison of Prompt Engineering and Fine-Tuning Strategies in Large Language Models in the Classification.

69. Zhao, S., Zhu, X., Zhao, H., Jin, Y., Cui, Y., & Sun, C. (2024). CHASE: A Causal Heterogeneous Graph based Framework for Root Cause Analysis in Multimodal Microservices.

# KI Tools zur Hilfe

Anthropic. (2025). Claude 3.5 Sonnet \[LLM\]. (<https://claude.ai>)

+-----------------------------------------------------------------------------------------------------------------------------------------------------+-----------------+
| Prompts                                                                                                                                             | Date accessed   |
+=====================================================================================================================================================+=================+
| "Analysiere bitte die folgenden Fehlermeldungen, welchen Kontext brauchst du um diese besser beantworten zu können? (Beispiel Fehlermeldungen ...)" | 22.01.2025      |
+-----------------------------------------------------------------------------------------------------------------------------------------------------+-----------------+
| "Erstelle eine Python-Klasse für ErrorCategory mit pattern matching und Gewichtung"                                                                 | 24.01.2025      |
+-----------------------------------------------------------------------------------------------------------------------------------------------------+-----------------+
| "Wie implementiert man den Azure OpenAI Client für GPT-4 in Python in mit async Funktionen?"                                                        | 26.01.2025      |
+-----------------------------------------------------------------------------------------------------------------------------------------------------+-----------------+
| "Konzept für State Management von einem Label in Angular, Button regelt das State Management des Labels?"                                           | 30.01.2025      |
+-----------------------------------------------------------------------------------------------------------------------------------------------------+-----------------+
| "Wie verbindet man Frontend mit Backend über HTTP für AzureOpenAI API-Anfragen?"                                                                    | 01.02.2025      |
+-----------------------------------------------------------------------------------------------------------------------------------------------------+-----------------+
| "Wie extrahiert man Keywords aus Fehlermeldungen mit RegEx für bessere LLM-Prompts?"                                                                | 03.02.2025      |
+-----------------------------------------------------------------------------------------------------------------------------------------------------+-----------------+
| "Wie implementiere ich adaptive Response Templates je nach Fehlertyp (System vs. User Errors)"                                                      | 05.02.2025      |
+-----------------------------------------------------------------------------------------------------------------------------------------------------+-----------------+
| "Wie strukturiert man einen System Prompt für technische Fehlererklärungen in natürlicher Sprache knapp aber detailliert erklärt?"                  | 07.02.2025      |
+-----------------------------------------------------------------------------------------------------------------------------------------------------+-----------------+
| "Strategien für Error Pattern Matching mit gewichteten Regex-Mustern"                                                                               | 09.02.2025      |
+-----------------------------------------------------------------------------------------------------------------------------------------------------+-----------------+