# Management Summary

# 1. Einleitung

Die Kundenzufriedenheit spielt eine zentrale Rolle in der wettbewerbsintensiven Luftfahrtbranche. Fluggäste erwarten nicht nur eine sichere und pünktliche Beförderung, sondern auch einen exzellenten Service, der ihr Reiseerlebnis positiv beeinflusst. Gerade auf Flugreisen ist die Kundschaft besonders sensibel für die Qualität des angebotenen Services, sei es aufgrund der hohen Ticketpreise oder der unterbewussten Anspannung während des Flugs. Kleine Details im Service können sich summieren und erheblichen Einfluss auf die Wahrnehmung und Zufriedenheit der Passagiere haben. (International, 2014).

Um das Kundenerlebnis systematisch zu optimieren, setzt American Airlines auf Bernard Marrs fünfstufigen Ansatz zur datengetriebenen Entscheidungsfindung. Dieser methodische Ansatz ermöglicht es, fundierte Entscheidungen zu treffen und gezielte Massnahmen zur Verbesserung der Kundenzufriedenheit zu ergreifen. Die vorliegende Arbeit untersucht diesen Prozess detailliert und konzentriert sich dabei auf die ersten vier der fünf Schritte von Marrs (2020):

1.  Ziel und Informationsbedarf definieren (Kapitel 2): Hier werden die Hauptziele festgelegt, die als Grundlage für die weiteren Analysen dienen.
2.  Daten sammeln (Kapitel 3): Dieser Abschnitt behandelt die verschiedenen Aspekte der Datenerhebung, darunter Datenquellen, Datenqualität, Datenbereinigung und Datenmodellierung.
3.  Daten analysieren (Kapitel 4): Die gesammelten und aufbereiteten Daten werden analysiert, um fundierte Erkenntnisse zu gewinnen.
4.  Informationen präsentieren (Kapitel 6): Die Analyseergebnisse werden strukturiert aufbereitet und visualisiert, um eine fundierte Entscheidungsgrundlage zu schaffen.

Der fünfte Schritt, datengestützte Entscheidungen treffen, wird in dieser Arbeit nicht umgesetzt, da er nicht Teil der Aufgabenstellung ist.


# 2. Ziel und Informationsbedarf definieren

American Airlines verfolgt das Ziel, die Kundenzufriedenheit kontinuierlich zu verbessern, um sich im hart umkämpften Luftverkehrsmarkt erfolgreich zu behaupten. Dazu ist es notwendig, die wesentlichen Einflussfaktoren zu identifizieren, die das Reiseerlebnis der Passagiere positiv oder negativ beeinflussen. Ein datenbasierter Ansatz ermöglicht es, fundierte Entscheidungen zur Optimierung des Services und der betrieblichen Abläufe zu treffen.

Im Rahmen dieser Projektarbeit sollen daher folgende zentrale Fragen untersucht werden:

1.  Welche Faktoren haben den grössten Einfluss auf die Kundenzufriedenheit bei der American Airline im Luftverkehr?
2.  Welche Faktoren beeinflussen Flugverspätungen bei der American Airline am meisten?
3.  Wie variieren Passagieraufkommen und Flugverkehr über Zeit und Regionen hinweg, und welche Auswirkungen hat dies auf die Kundenzufriedenheit?

# 3. Daten sammeln
Eine systematische und strukturierte Datensammlung ist der Grundstein für die spätere Analyse und Entscheidungsfindung. Im folgenden Kapitel werden die verschiedenen Aspekte des Datenbeschaffungsprozesses behandelt.

## 3.1 Datenquellen
Die Fluggesellschaft möchte die Faktoren verstehen, die die Kundenzufriedenheit beeinflussen, und Strategien identifizieren, um das Kundenerlebnis zu verbessern. Leider gibt American Airlines keine konkreten Zahlen zu Kundenumfragen oder anderen relevanten Statistiken heraus. Aus diesem Grund bedient sich die Projektgruppe öffentlich zugänglicher, anonymisierter Daten von Kaggle, einer Plattform, die über 50.000 Datensätze zu verschiedensten Themen bietet (Kaggle, o. J.). Die Projektgruppe nutzt diese anonymisierten Datensätze gezielt und wendet sie auf American Airlines an, um daraus relevante Erkenntnisse abzuleiten.

Die Projektgruppe arbeitet mit den folgenden Datenquellen:

- Kundenzufriedenheitsumfrage XX (Annahme, dass diese Umfrage von American Airlines durchgeführt wurde) QUELLE
- Flugverspätungen: https://www.kaggle.com/datasets/ulrikthygepedersen/airlines-delay/code
- Grösste Flughäfen nach Passagieraufkommen zwischen 2016 und 2020: https://www.kaggle.com/datasets/khaiid/most-crowded-airports
- XX (weitere relevante Datensätze, die später spezifiziert werden) QUELLE

## 3.2 Datenqualität und -bereinigung

**Kundenzufriedenheitsumfrage**

Für diesen Datensatz wurde zunächst überprüft ob sich leere Felder im Datensatz befinden, welche in diesem Fall entfernt worden währen. Daraufhin wurden die Werte in verschiedenen Spalten umgewnadelt damit leichter mit ihnen zu arbeiten war. So wurden unteranderem die Werte in der Zielspalte "Satisfaction“ in binäre Werte umgewandelt, 1 für "satisfied" und 0 für dissatisfied". Aber auch andere Spalten wie zum Beispiel die Spalten "Gender", "Customer Type", "Type of Travel" und "Class" wurden zum besseren arbeiten mit den Daten in numerische Werte umgewandelt.

xx


x

**Flugverspätungen**

Für eine zielgerichtete Analyse der Flugverspätungen wurde zunächst der Datensatz "Airlines Delay" von Kaggle geladen. Die Daten enthalten Informationen zu verschiedenen Fluggesellschaften und deren Verbindungen. Zur Fokussierung auf eine homogene Datenbasis wurden ausschliesslich Flüge der Fluggesellschaft American Airlines (AA) berücksichtigt. Alle anderen Einträge wurden aus dem Datensatz entfernt, um Verzerrungen durch unterschiedliche Betriebsmodelle der Airlines zu vermeiden.


In [31]:
# Datensatz "Airlines Delay" von Kaggle herunterladen
import kagglehub
from kagglehub import KaggleDatasetAdapter

file_path = "airlines_delay.csv"

# Die letzte Version des Datensatzes laden
df_airlines_delay = kagglehub.load_dataset(
  KaggleDatasetAdapter.PANDAS,
  "ulrikthygepedersen/airlines-delay",
  file_path,
)

  df_airlines_delay = kagglehub.load_dataset(


In [32]:
# Lösche alle Zeilen, die nicht AA in Airline haben

df_airlines_delay = df_airlines_delay[df_airlines_delay['Airline'] == 'AA']
df_airlines_delay['Airline'].unique()

array(['AA'], dtype=object)

Im nächsten Schritt wurde die Qualität der Daten überprüft. Dabei zeigte sich, dass keine fehlenden Werte vorhanden waren, was auf eine hohe Vollständigkeit der Daten hinweist. Um Redundanzen zu vermeiden, wurden zusätzlich doppelte Einträge identifiziert und gelöscht - ingesamt 26760 Einträge.

In [33]:
# Fehlende Werte analysieren
print(df_airlines_delay.isnull().sum())

Flight         0
Time           0
Length         0
Airline        0
AirportFrom    0
AirportTo      0
DayOfWeek      0
Class          0
dtype: int64


In [34]:
# Suche nach doppelten Zeilen und lösche diese
print(df_airlines_delay.duplicated().sum())
df_airlines_delay.drop_duplicates(inplace=True)

26760


Ein Blick auf die Datentypen der einzelnen Spalten stellte sicher, dass alle Informationen korrekt formatiert waren, etwa Zahlenwerte als numerische Typen und Flughafencodes als Zeichenketten.

In [35]:
# Zeige die Datentypen aller Spalten an
print(df_airlines_delay.dtypes)

Flight         float64
Time           float64
Length         float64
Airline         object
AirportFrom     object
AirportTo       object
DayOfWeek        int64
Class            int64
dtype: object


Zur Ergänzung der Daten wurde ein zweiter Datensatz mit den passagierstärksten Flughäfen weltweit (Zeitraum 2016–2020) integriert. Dieser enthielt unter anderem die IATA-Codes sowie die Anzahl der Passagiere pro Flughafen und Jahr. Über eine Extraktion der IATA-Codes aus dem kombinierten Spaltenfeld `Code`
konnten diese mit den Abflug- und Ankunftsorten (`AirportFrom`, `AirportTo`) der American-Airlines-Flüge verknüpft werden.

In [36]:
# Datensatz "Most Crowded Airports" von Kaggle herunterladen
!pip install kagglehub[pandas-datasets]
import kagglehub
from kagglehub import KaggleDatasetAdapter

file_path = "airports.csv"

# Die letzte Version laden
df_crowded_airports = kagglehub.load_dataset(
    KaggleDatasetAdapter.PANDAS,
    "khaiid/most-crowded-airports",
    file_path,
)



  df_crowded_airports = kagglehub.load_dataset(


In [38]:
# Extraktion der IATA- und ICAO-Codes
df_crowded_airports[['IATA', 'ICAO']] = df_crowded_airports['Code'].str.split('/', n=1, expand=True)

Im Zuge der Verknüpfung wurden zwei neue Spalten ergänzt:

*   `AirportFromCrowd`: Passagieraufkommen am Abflughafen
*   `AirportToCrowd`: Passagieraufkommen am Ankunftsflughafen

So lässt sich künftig analysieren, ob ein Zusammenhang zwischen dem Verkehrsaufkommen eines Flughafens und der Wahrscheinlichkeit für Verspätungen besteht.

In [43]:
# Merge "Passenger" für "AirportFrom"
merged_df_from = pd.merge(df_airlines_delay, df_crowded_airports[['IATA', 'Passengers']], left_on='AirportFrom', right_on='IATA', how='left')
df_airlines_delay['AirportFromCrowd'] = merged_df_from['Passengers']

# Merge "Passenger" für "AirportTo"
merged_df_to = pd.merge(df_airlines_delay, df_crowded_airports[['IATA', 'Passengers']], left_on='AirportTo', right_on='IATA', how='left')
df_airlines_delay['AirportToCrowd'] = merged_df_to['Passengers']

print("First 5 records:", df_airlines_delay.head())

First 5 records:     Flight    Time  Length Airline AirportFrom AirportTo  DayOfWeek  Class  \
7   1300.0  1210.0    80.0      AA         DFW       MEM          3      0   
89   550.0  1030.0   150.0      AA         LAS       DFW          7      0   
92  1827.0  1030.0   225.0      AA         DFW       SMF          1      0   
94   655.0   540.0   250.0      AA         JFK       STT          6      0   
99  1822.0   875.0   130.0      AA         DFW       DAY          7      0   

    AirportFromCrowd  AirportToCrowd  
7         48566803.0             NaN  
89        61623756.0             NaN  
92               NaN      69112607.0  
94               NaN      65670697.0  
99        53099282.0      58813103.0  


Abschliessend wurde noch überprüft, wie viele unterschiedliche Werte in den Spalten vorhanden sind. Dabei wurde sichtbar, dass nicht für alle Flughäfen Informationen zum Passagieraufkommen vorliegen. Diese Lücken können auf Flughäfen zurückzuführen sein, die nicht zu den grössten weltweit zählen oder im Zeitraum der Erhebung nicht erfasst wurden. Ein möglicher Umgang damit wäre entweder die Imputation fehlender Werte, das Einholen zusätzlicher Daten oder die gezielte Einschränkung der Analyse auf vollständig verknüpfte Datensätze.

In [45]:
# Berechne die Anzahl der eindeutigen Werte pro Spalte
unique_counts = df_airlines_delay.nunique()
print(unique_counts)

#ACHTUNG HIER FEHLEN VIELE FLUGHAFEN - wie sollen wir das machen?

Flight              1281
Time                 229
Length                98
Airline                1
AirportFrom           78
AirportTo             78
DayOfWeek              7
Class                  2
AirportFromCrowd      75
AirportToCrowd        76
dtype: int64


## 3.4 Datenmodellierung

# 4 Daten analysieren
Im Zentrum der Datenanalyse stehen "Descriptive", "Diagnostic" und "Predictive Analytics" im Vordergrund.
Die beschreibende Analyse bezieht sich hauptsächlich die Analyse historischer Daten, um vergangene Ereignisse zu verstehen. Ziel ist es Muster und Trends in den Daten zu identifizieren. Übliche Methoden sind Mittelwerte, Standardabweichungen, minimale und maximale Werte, Korrelationen und Kreuztabellen. Für die Visualisierung werden Dashboards und Diagramme oder sogenannte Heatmaps erstellt. Mit "Diagnostic Analytics" wird einen Schritt weiter gegangen und versucht die Ursachen für bestimmte Ereignisse oder Trends zu identifizieren. Hierbei werden zusätzliche Techniken wie sogenannte "Drill-Down-Analysen", Korrelationen und Hypothesentests durchgeführt.
"Predictive Analytics" nutzt historische Daten und statistische Modelle, um zukünftige Ereignisse vorherzusagen. Dabei werden Instrumente wie maschinelles Lernen, Regressionsmodelle und Zeitreihenanalysen durchgeführt (Rashedi, 2024).

## 4.1 Untergeordneten Fragestellungen inkl. Code

Fragestellung: Gibt es bestimmte Wochentage oder Tageszeiten mit besonders vielen Verspätungen? Sind Wochenendflüge pünktlicher als Flüge unter der Woche?




# Literaturverzeichnis
Interanational, B. (2014, Dezember 11). *Airline Customer Experience*. B2B International. https://www.b2binternational.de/airline-customer-experience-ein-lacheln-kostet-nichts/)

Kaggle. (o. J.). Kaggle: Your Machine Learning and Data Science Community. Abgerufen am 31. März 2024, von https://www.kaggle.com/

Marr, B. (2020). From data to decisions: A five-step approach to data-driven decision-making. CPA Management Accounting Guideline.

Rashedi, J. (2024). Customer Analytics. In J. Rashedi, Customer Insights (S. 65–97). Springer Fachmedien Wiesbaden. https://doi.org/10.1007/978-3-658-43392-5_5
