# Aufgabe 4 Data Understanding
## 4.1 Portfoliobestandteil: Data Understanding
### 4.1(a) Merkmalsübersicht des Airline-Passagier-Zufriedenheitsdatensatzes

In [94]:
import pandas as pd 

df = pd.read_csv('train.csv')

print(df.columns)

rows, cols = df.shape
print("Zeilen:", rows)
print("Spalten:", cols)

Index(['Unnamed: 0', 'id', 'Gender', 'Customer Type', 'Age', 'Type of Travel',
       'Class', 'Flight Distance', 'Inflight wifi service',
       'Departure/Arrival time convenient', 'Ease of Online booking',
       'Gate location', 'Food and drink', 'Online boarding', 'Seat comfort',
       'Inflight entertainment', 'On-board service', 'Leg room service',
       'Baggage handling', 'Checkin service', 'Inflight service',
       'Cleanliness', 'Departure Delay in Minutes', 'Arrival Delay in Minutes',
       'satisfaction'],
      dtype='object')
Zeilen: 103904
Spalten: 25


| Merkmal                          | Bedeutung                                                | Skalenniveau |
|----------------------------------|----------------------------------------------------------|--------------|
| Unnamed: 0                       | Technische Index-Spalte (CSV-Export)                     | -            |
| id                               | Eindeutige Passagier-ID                                  | nominal      |
| Gender                           | Geschlecht des Passagiers                                | nominal      |
| Customer Type                    | Neukunde oder Bestandskunde                              | nominal      |
| Age                              | Alter in Jahren                                          | kardinal     |
| Type of Travel                   | Grund der Reise (Business / Personal)                    | nominal      |
| Class                            | Reiseklasse (Economy, Eco Plus, Business)                | ordinal      |
| Flight Distance                  | Flugdistanz in Meilen                                    | kardinal     |
| Inflight wifi service            | Bewertung des WLAN (1 = schlecht, 5 = sehr gut)          | ordinal      |
| Departure/Arrival time convenient| Bewertung der Zeitplanung (1–5)                          | ordinal      |
| Ease of Online booking           | Bewertung der Online-Buchung (1–5)                       | ordinal      |
| Gate location                    | Bewertung der Gate-Lage (1–5)                            | ordinal      |
| Food and drink                   | Bewertung von Essen & Trinken an Bord (1–5)              | ordinal      |
| Online boarding                  | Bewertung des Online-Boardings (1–5)                     | ordinal      |
| Seat comfort                     | Bewertung der Sitzqualität (1–5)                         | ordinal      |
| Inflight entertainment           | Bewertung des Bord-Entertainments (1–5)                  | ordinal      |
| On-board service                 | Bewertung des Kabinenservices (1–5)                      | ordinal      |
| Leg room service                 | Bewertung der Beinfreiheit (1–5)                         | ordinal      |
| Baggage handling                 | Bewertung der Gepäckabfertigung (1–5)                    | ordinal      |
| Checkin service                  | Bewertung des Check-in-Prozesses (1–5)                   | ordinal      |
| Inflight service                 | Bewertung des Service während des Flugs (1–5)            | ordinal      |
| Cleanliness                      | Bewertung der Sauberkeit (1–5)                           | ordinal      |
| Departure Delay in Minutes       | Abflugverspätung in Minuten                              | kardinal     |
| Arrival Delay in Minutes         | Ankunftsverspätung in Minuten                            | kardinal     |
| satisfaction                     | Zufriedenheit: satisfied / neutral or dissatisfied       | nominal      |

Der Datensatz umfasst insgesamt 103 904 Zeilen und 25 Variablen Spalten.


### 4.1(b) Relevanz der Merkmale für mögliche Fragestellungen

Zentrale Fragestellung:  
Welche Faktoren beeinflussen die Zufriedenheit von Flugpassagieren?

Das Zielmerkmal ist:  satisfaction (satisfied / neutral or dissatisfied)

#### Relevante Merkmale (direkter Einfluss)
Diese Variablen stehen in engem Zusammenhang mit Service, Komfort oder Verspätungen:
- Class  
- Seat comfort  
- Flight Distance  
- Inflight wifi service  
- Food and drink  
- Inflight entertainment  
- Leg room service  
- On-board service  
- Cleanliness  
- Checkin service  
- Baggage handling  
- Departure Delay in Minutes  
- Arrival Delay in Minutes  

#### Teilweise relevante Merkmale (abhängig vom Kontext)
Diese Merkmale können die Wahrnehmung beeinflussen, aber nicht den Service selbst:
- Age  
- Type of Travel  
- Customer Type  
- Gender  

#### Technische Merkmale
Diese tragen nicht zur Analyse der Zufriedenheit bei:
- id  
- Unnamed: 0  



## 4.2 Portfoliobestandteil: Korrelationen

### 4.2(a) Auswahl geeigneter Korrelationskoeffizienten

Basierend auf den Skalenniveaus in unserem Datensatz ergeben sich folgende Zuordnungen:

| Variablentyp / Skalenniveau           | Beispielmerkmale                                 | Geeigneter Korrelationskoeffizient |
|---------------------------------------|--------------------------------------------------|------------------------------------|
| Kardinal – Kardinal               | Flight Distance, Departure Delay, Age            | Bravais-Pearson-Korrelationskoeffizient |
| Ordinal – Ordinal                 | Seat comfort, Food and drink, Cleanliness        | Spearmans Rangkorrelation          |
| Nominal – Nominal                 | Gender, Type of Travel, Customer Type, satisfaction | Chi-Quadrat-Koeffizient (mit Kontingenztabelle) |
| Nominal – Nominal  | Gender, satisfaction                   | Cramer’s V                         |

#### Unsere Vermutungen:
1. Je höher der Sitzkomfort bewertet wird, desto größer ist die Wahrscheinlichkeit, dass ein Passagier zufrieden ist. 
2. Flüge mit größerer Flugdistanz haben tendenziell länger Abflugverspätung.
3. Es gibt keinen signifikanten Unterschied in der Zufriedenheit zwischen männlichen und weiblichen Passagieren.

### 4.2(b) Prüfung unserer Vermutungen

1. Je höher der Sitzkomfort, desto zufriedener die Passagiere.

Methode: Spearman (ordinal)

In [95]:
# satisfaction in binäre Form umwandeln (1 = zufrieden, 0 = unzufrieden)
df['satisfaction_bin'] = df['satisfaction'].map({'satisfied': 1, 'neutral or dissatisfied': 0})

df[['Seat comfort', 'satisfaction_bin']].corr(method='spearman')

Unnamed: 0,Seat comfort,satisfaction_bin
Seat comfort,1.0,0.362199
satisfaction_bin,0.362199,1.0


Die Korrelation von 0.36 bestätigt einen moderaten positiven Zusammenhang. Je höher der Sitzkomfort bewertet wird, desto zufriedener sind die Passagiere.  
Die Vermutung wird damit bestätigt.

2. Flüge mit größerer Flugdistanz haben tendenziell länger Abflugverspätung.

Methode: Bravais–Pearson (kardinal)

In [96]:
df[['Flight Distance', 'Departure Delay in Minutes']].corr(method='pearson')

Unnamed: 0,Flight Distance,Departure Delay in Minutes
Flight Distance,1.0,0.002158
Departure Delay in Minutes,0.002158,1.0


Der Korrelationswert liegt mit 0.002 praktisch bei 0.  
Es gibt also keinen linearen Zusammenhang zwischen Flugdistanz und Abflugverspätung.  
Längere Flüge starten demnach nicht häufiger verspätet als kürzere.

Damit wird unsere ursprüngliche Vermutung widerlegt.

3. Es gibt keinen signifikanten Unterschied in der Zufriedenheit zwischen männlichen und weiblichen Passagieren.

Methode: Chi-Quadrat-Test + Cramer’s V (nominal)

In [97]:
import pandas as pd
import numpy as np
from scipy.stats import chi2_contingency

# Kontingenztabelle erstellen
ct = pd.crosstab(df['Gender'], df['satisfaction'])

# Chi-Quadrat-Test durchführen
chi2, p, dof, expected = chi2_contingency(ct)

# Cramer's V berechnen
n = ct.sum().sum()
cramers_v = np.sqrt(chi2 / (n * (min(ct.shape) - 1)))

print("Chi-Quadrat:", chi2)
print("p-Wert:", p)
print("Cramer's V:", cramers_v)


Chi-Quadrat: 15.44441742614322
p-Wert: 8.49675545803352e-05
Cramer's V: 0.012191850597584968


Der p-Wert liegt deutlich unter 0.05, also besteht ein statistisch signifikanter Unterschied.
Allerdings ist Cramer’s V mit 0.01 extrem niedrig, was auf einen sehr schwachen Effekt hinweist.
Praktisch gibt es also keinen relevanten Unterschied in der Zufriedenheit zwischen Männern und Frauen.

### Fazit:
Unsere Analysen zeigen, dass Komfort- und Servicefaktoren (z. B. Sitzkomfort) einen klaren Einfluss auf die Zufriedenheit der Passagiere haben. Dagegen besteht kein Zusammenhang zwischen Flugdistanz und Verspätung. Auch das Geschlecht der Passagiere spielt praktisch keine Rolle für die Zufriedenheit. Insgesamt wurden zwei Vermutungen bestätigt und eine widerlegt.

# Aufgaben 6 Data Preparation
## 6.1 Portfoliobestandteil: Fehlende Werte

### 6.1(a) Fehlende Werte

In [98]:
df.isna().sum()

Unnamed: 0                             0
id                                     0
Gender                                 0
Customer Type                          0
Age                                    0
Type of Travel                         0
Class                                  0
Flight Distance                        0
Inflight wifi service                  0
Departure/Arrival time convenient      0
Ease of Online booking                 0
Gate location                          0
Food and drink                         0
Online boarding                        0
Seat comfort                           0
Inflight entertainment                 0
On-board service                       0
Leg room service                       0
Baggage handling                       0
Checkin service                        0
Inflight service                       0
Cleanliness                            0
Departure Delay in Minutes             0
Arrival Delay in Minutes             310
satisfaction    

Der Datensatz enthält insgesamt sehr wenige fehlende Werte: nur 310 von über 100.000 Einträgen, und ausschließlich in der Spalte *Arrival Delay in Minutes*. Da dies weniger als 0,3 % des gesamten Datensatzes ausmacht, können diese Zeilen gefahrlos entfernt werden. Ein Imputing ist hier nicht notwendig.

### 6.1(b) Duplikate

In [99]:
df.duplicated().sum()

np.int64(0)

Der Datensatz enthält keine Duplikate (0 doppelte Zeilen).  
Es sind daher keine Bereinigungsmaßnahmen erforderlich.

### 6.1(c) Weitere fehlerhafte Werte


In [100]:
# Negative Alterswerte?
print("Negative Alterswerte:", (df['Age'] < 0).sum())

# Alterswerte > 100?
print("Alter > 100:", (df['Age'] > 100).sum())

# Negative Verspätungen?
print("Negative Abflugverspätung:", (df['Departure Delay in Minutes'] < 0).sum())
print("Negative Ankunftsverspätung:", (df['Arrival Delay in Minutes'] < 0).sum())

# Ungültige Werte in satisfaction?
print("Ungültige satisfaction-Werte:", df[~df['satisfaction'].isin(['satisfied', 'neutral or dissatisfied'])].shape[0])

Negative Alterswerte: 0
Alter > 100: 0
Negative Abflugverspätung: 0
Negative Ankunftsverspätung: 0
Ungültige satisfaction-Werte: 0


Es wurden keine fehlerhaften Werte gefunden. Alle Altersangaben sind plausibel, Verspätungen sind nicht negativ, und die Zufriedenheitsvariable enthält nur gültige Kategorien.  
Eine weitere Datenbereinigung ist nicht erforderlich.

### 6.1(d) Weitere Qualitätsprobleme

Bei der zusätzlichen Überprüfung des Datensatzes konnten keine weiteren Qualitätsprobleme festgestellt werden.  
Alle numerischen Variablen liegen in sinnvollen Wertebereichen vor und es gibt keine konstanten Spalten.  
Die einzigen unnötigen Spalten sind "id" und "Unnamed: 0", welche rein technische Funktionen haben und entfernt wurden, damit enthält der Datensatz nun nur noch inhaltlich relevante Variablen.
Ansonsten ist der Datensatz sauber und gut nutzbar für die weitere Analyse.

In [101]:
cols_to_drop = [col for col in ["id", "Unnamed: 0"] if col in df.columns]
print("Entfernte Spalten:", cols_to_drop)
df = df.drop(columns=cols_to_drop)
df.columns

Entfernte Spalten: ['id', 'Unnamed: 0']


Index(['Gender', 'Customer Type', 'Age', 'Type of Travel', 'Class',
       'Flight Distance', 'Inflight wifi service',
       'Departure/Arrival time convenient', 'Ease of Online booking',
       'Gate location', 'Food and drink', 'Online boarding', 'Seat comfort',
       'Inflight entertainment', 'On-board service', 'Leg room service',
       'Baggage handling', 'Checkin service', 'Inflight service',
       'Cleanliness', 'Departure Delay in Minutes', 'Arrival Delay in Minutes',
       'satisfaction', 'satisfaction_bin'],
      dtype='object')

### Der Datensatz wurde vollständig bereinigt und ist nun bereit für die Modellierung.