## Inhaltsverzeichnis
1. [Einleitung](#einleitung)
2. [Methodik](#methodik) <br>
    2.1 [Pm4py](#pm4py)

## 1 Einleitung

Die vorliegende Ausarbeitung untersucht Datensätze zur _[BPI Challenge 2020](https://icpmconference.org/2020/bpi-challenge/)_. <br>
Die BPI Challenge ist ein internationaler Wettbewerb im Bereich Process Mining, der Teilnehmer dazu auffordert, reale Ereignisprotokolle zu analysieren. <br>
Ziel ist es, mithilfe verschiedener Techniken wertvolle Einblicke in die erfassten Geschäftsprozesse zu gewinnen und spezifische Fragen des Prozessinhabers zu beantworten. <br>

Im Rahmen der für dieses Ausarbeitung untersuchten Fragestellungen werden Event-Logs beantwortet, die sich fachlich auf den Ablauf von Reisegenehmigungen und Kostenerstattungen beziehen. <br>
Nach Einreichung durch den Mitarbeiter durchlaufen die zugehörigen Anträge verschiedene Genehmigungsstufen, darunter die Reiseverwaltung, Budgetverantwortliche und Vorgesetzte. <br>
  
Im Rahmen dieser Ausarbeitung werden zwei Event-Logs untersucht:
- _DomesticDeclarations.xes_ für inlandsbezogene Anträge und
- _InternationalDeclarations.xes_ für auslandsbezogene Anträge


Die für diese Arbeit verwendeten Werkzeuge umfassen _Pm4py_ sowie einen _LLM-Agenten_. Im Abschnitt [Methodik](#methodik) werden diese Werkzeuge näher erläutert und ihre Auswahl begründet.

Diese Ausarbeitung zielt darauf ab, Fragestellungen aus den drei Bereichen _Process Discovery_, _Process Conformance_ sowie _Process Enhancement_ zu adressieren, dies erfolgt im Abschnitt [Analyse](##analyse). <br>
Für jede dieser Fragestellungen wurde ein eigenes Jupyter-Notebook erstellt. Dieses _Hauptnotebook_ verlinkt auf die Fragebezogenen _Unternotebooks_, <br> 
wobei jedes Unternotebook und damit jede Fragestellung einem der benannten Bereiche _Discovery_, _Conformance_ oder _Enhancement_ zugeordnet ist.

Eine vertiefende Analyse in Verbindung mit Leserführenden Kommentaren findet sich in den fragebezogenen Unternotebooks, die wichtigsten Erkenntnisse zur Beantwortung der Fragestellungen werden <br> 
im Abschnitt [Ergebnisse](#ergebnisse) textuell erläutet und visuell aufbereitet.

Für diese Ausarbeitung stehen die nachfolgenden Fragestellungen für die nachfolgend gelisteten Bereiche im Fokus: <br>
- Process Discovery
    - Welcher Prozessablauf liegt den Datensätzen unter Berücksichtigung eines geeigneten Maßes an Abstraktion zugrunde?
    - Wie lange dauern die Prozessdurchläufe und gibt es beschreibenswerte Muster?
    - Wie viele Anträge werden abgewiesen und welche Gründe könnten ggf. zu einer Abweisung führen?
- Process Conformance
    - Gibt es Muster, die auf Nicht-Konformität im Prozessablauf hindeuten?
- Process Enhancement
    - Welche Engpässe existieren möglicherweise und was könnten Gründe hierfür sein?
    - Welche zielführenden Kennzahlen könnten für die Prozesse erhoben werden?

Eine Verlinkung auf die zugehörigen Unternotebooks aus dem Hauptnotebook heraus erfolgt im Zuge der [Analyse](#analyse).
<br>
Die Ausarbeitung endet mit einer [Schlussbetrachtung](#schlussbetrachtung), in welcher die getätigten Untersuchungen einer kritischen Würdigung unterzogen werden <br> 
und ein Resümee für die Prozesseigner auf Basis der getätigten Untersuchungen gezogen wird.


## Methodik

### Pm4py

### Agent

## Analyse

### Process Discovery

Process Discovery ist ein zentraler Bestandteil des Process Minings, bei dem aus vorhandenen Event-Logs automatisch Prozessmodelle generiert werden. <br>
Es dient dazu, die tatsächlich ablaufenden Geschäftsprozesse in einer Organisation zu visualisieren und zu verstehen, um Abweichungen, Ineffizienzen oder Verbesserungspotenziale zu identifizieren.

Die erste für den Bereich Process Discovery formulierte Fragestellung lautet: <br>
**Welcher Prozessablauf liegt den Datensätzen unter Berücksichtigung eines geeigneten Maßes an Abstraktion zugrunde?**

Für ihre Beantwortung wurde für die geladenen Logs zunächst eine _explorative Datenanalyse_ durchgeführt, um ein Grundverständnis für die Datensätze zu erlangen. <br>
Diese initiale Analyse lieferte Informationen zum Vorhandensein von NULL-Werten, der Häufigkeit von Events sowie den Start- und Endaktivitäten und Prozessvarianten. <br>
Zugehörigen Analyseschritte wurden hierbei zunächst für _DomesticDeclarations.xex_ und nachfolgend für _InternationalDeclarations.xex_ durchgeführt, das zugehörige Sub-Notebook ist in entsprechende Abschnitte gegliedert. <br>
Das der Frage zugehörige Sub-Notebook enthält zudem Visualisierungen für Schlüsselerkenntnisse der explorativen Datenanalyse und Kommentare zur Leserführung. <br>
<br>
Auf Basis so gewonnener Erkenntnisse erfolgte zunächst eine erste Visualisierung in Form eines _Petri-Netzes_ für die Prozessmodelle mithilfe des _Alpha-Miner-Algorithmus_. <br>
Die initiale Visualisierung der gesamten Logfiles in Verbindung mit der Verwendung des Alpha-Algorithmus konnte jedoch noch nicht die gewünschte Übersicht zur Beantwortung der Fragestellung schaffen. <br> 
Zudem weist der Alpha-Algorithmus Schwächen wie eine _Empfindlichkeit gegenüber Rauschen_, einer _Schwierigkeiten bei der Entdeckung paralleler Strukturen_ sowie insbesonderere eine <br> 
_Unübersichtlichkeit bei der Darstellung komplexer Prozessmodelle_ auf, was seine Praxistauglichkeit maßgeblich reduziert. 

Diesen benannten Schwächen des Alpha-Miner Algorithmus sollten nachfolgend durch die Verwendung des _Inductive-Miner-Algorithmus_ ausgeglichen werden. <br>
Die mit diesem Algorithmus erzeugte Visualisierung wurde ferner mit einer _BPMN-Grafik_ anstelle des zuvor gewählten Petri-Netzes umgesetzt, um eine standardisierte, leicht verständliche Darrstellung zu ermöglichen. <br>
Unter Berücksichtigung sämtlicher Prozessvarianten ist jedoch auch die BPMN-Grafik noch nicht geeeignet, den zugrundeliegenden Prozessablauf hinreichend übersichtlich abzubilden. <br>

Um diese in der Fragestellung geforderte Übersichtlichkeit zu erreichen, wurde die Auswahl der für die BPMN-Grafik zu berücksichtigenden Prozessvaianten eingeschränkt. <br>
Durch diese Einschränkungen werden lediglich jene Prozessvarianten berücksichtigt, welche einen relativen Anteil von $> 1\%$ gemessen an allen enthaltenen Prozessvarianten besitzen. <br>
<br>
Für den _Domestic-Datensatz_ konnten somit eine Menge von $8$ Prozessvarianten identifiziert werden, die einen kumulierten relativen Anteil von $94\%$ am gesamten Log ausmachen und eine gute Abstraktion für die Darstellung des zugrundeliegenden Prozessablaufs zur Beantwortung der Fragstellung ermöglichen. <br>
<br>
Für den _International-Datensatz_ konnte eine Menge von $13$ Prozessvarianten identifiziert werden, die einen kumulierten relativen Anteil von $\approx 60\%$ am gesamten Log ausmachen und eine hinreichend gute Darsellung <br>
des zugrundeliegenden Prozessablaufs unter Berücksichtigung der deutlich höheren Komplexität des International-Datensatzes gegenüber dem Domestic-Datensatz bieten. <br>
<br>
Sämtliche zuvor beschriebenen Schritte und Grafiken finden sich kommentiert im nachfolgend verlinkten Sub-Notebook für die erste Fragestellung: <br>
- [Welcher Prozessablauf liegt den Datensätzen unter Berücksichtigung eines geeigneten Maßes an Abstraktion zugrunde?](./1_Process_Discovery/Describe%20and%20visualize%20the%20general%20underlying%20process%20flow.ipynb)

### Process Conformance

### Process Enhancement

## Ergebnisse

## Schlussbetrachtung

### Kritische Würdigung

### Resümee