In [2]:
import pandas as pd
import numpy as np
import Levenshtein as leven
from Levenshtein import distance as lev

#### Zu den Daten

Die Daten wurden von OAG zur Verfügung gestellt. Erfasst sind alle Flüge (Frequency) ab dem Flughafen Zürich, zu denen Sitze angeboten wurden, und ebendiese Sitze (Seats). Es handelt sich also nicht um tatsächlich verkaufte Sitze oder gar um tatsächlich gereiste Passagiere.

## 1. Schritt: Daten einlesen

In [6]:
path = "ZRH_Data.xlsx"
df = pd.read_excel(path, skiprows=24, usecols='A:E') #In den ersten 24 Reihen stehen Angaben zum Datensatz, die wir nicht in der Tabelle brauchen; In den Spalten nach E ist eine Pivot-Tabelle enthalten (deren Ergebnisse stellen wir nachfolgend sowieso selber nach)
df.drop([1594,1595,1596], inplace=True) #In den letzten drei Zeilen sind Fusszeilen enthalten

In [9]:
#Zahlen zu Integer machen (Anzahl Sitze, Flüge und das Jahr sind immer ganze Zahlen)
df['Seats (Total)'] = df['Seats (Total)'].astype(int)
df['Frequency'] = df['Frequency'].astype(int)
df['Time series'] = df['Time series'].astype(int)

Beim späteren Bearbeiten hat sich gezeigt, dass einzelne Flughäfen unterschiedlich erfasst sind. So existiert Genf als Geneva und als Geneva International. Wir versuchen das über verschiedene Methoden zu bereinigen.

In [10]:
#Ähnliche Namen mit Levenshtein-Differenz erkennen
airports = df['Arr Airport Name'].unique().tolist()
n = 0
for airport in airports:
    i = 1
    while i < len(airports):
        if (lev(airport,airports[i])<3) and (airport != airports[i]): #lev<3 gibt Werte zurück, die eine Levenshtein-Differenz unter 3 aufweisen (der eine Wert müsste an weniger als drei Stellen angepasst werden, um den anderen zu erhalten)
            print(str(n) + ": " + str(airport) +", " + str(airports[i]))
            n = n + 1
        i = i + 1

0: Catania, Chania
1: Faro, Bari
2: Faro, Cairo
3: Malta, Male
4: Kos, Nis
5: Jerez, Jersey
6: Geneva, Genoa
7: Nice, Nis
8: Male, Malta
9: Chania, Catania
10: Genoa, Geneva
11: Jersey, Jerez
12: Rostock, Rostov
13: Nis, Kos
14: Nis, Nice
15: Brac, Graz
16: Kiev Borispol Intl Apt, Kyiv Borispol Intl Apt
17: Graz, Brac
18: Kyiv Borispol Intl Apt, Kiev Borispol Intl Apt
19: Bari, Faro
20: Cairo, Faro
21: Rostov, Rostock


Im obigen Ausdruck sehen wir nur eine nötige Anpassung: Kiev und Kyiv müssen angeglichen werden.

In [11]:
#Eine Schreibweise durch die andere ersetzen
df['Arr Airport Name'].replace({'Kiev Borispol Intl Apt':'Kyiv Borispol Intl Apt'},inplace=True)

Der obige Ausdruck lässt aber auch vermuten, dass die Levenshtein-Differenz nicht die beste Variante ist, um ähnliche Flughäfen zu überprüfen. Das zeigt sich gerade am Beispiel Genf, das als Geneva und als Geneva International erfasst ist.

In [8]:
#Ähnliche Flughäfen über gleichen String-Anfang eruieren
airports = df['Arr Airport Name'].unique().tolist()
n = 0
for airport in airports:
    i = 1
    while i < len(airports):
        if (airport[0:5] == airports[i][0:5] and airport != airports[i]): #Erste fünf Zeichen eines Strings mit den ersten fünf des nächsten vergleichen und ausgeben, wenn nicht ganzer String identisch
            print(str(n) + ": " + str(airport) +", " + str(airports[i]))
            n = n + 1
        i = i + 1

0: Athens (GR), Athens
1: Athens, Athens (GR)
2: Dublin (IE), Dublin
3: Dublin, Dublin (IE)
4: Moscow Sheremetyevo International Apt, Moscow Domodedovo Apt
5: Berlin Tegel Apt, Berlin Brandenburg Apt
6: Berlin Tegel Apt, Berlin Schoenefeld Apt
7: Paris Charles de Gaulle Apt, Paris Le Bourget Apt
8: Malta, Malta (MT)
9: Belgrade, Nikola Tesla, Belgrade
10: Belgrade, Belgrade, Nikola Tesla
11: Istanbul Ataturk Airport, Istanbul Airport
12: Istanbul Ataturk Airport, Istanbul Sabiha Gokcen Apt
13: Pristina, Pristina International
14: London Heathrow Apt, London City Apt
15: London Heathrow Apt, London Luton Apt
16: London Heathrow Apt, London Gatwick Apt
17: London City Apt, London Heathrow Apt
18: London City Apt, London Luton Apt
19: London City Apt, London Gatwick Apt
20: Berlin Brandenburg Apt, Berlin Tegel Apt
21: Berlin Brandenburg Apt, Berlin Schoenefeld Apt
22: Pristina International, Pristina
23: Geneva, Geneva International
24: London Luton Apt, London Heathrow Apt
25: London Lut

Der obige Ausdruck offenbart weiteren Anpassungsbedarf.

In [12]:
#Jeweils die eine Schreibweise durch die andere ersetzen
df['Arr Airport Name'].replace({'Athens (GR)':'Athens'},inplace=True)
df['Arr Airport Name'].replace({'Belgrade':'Belgrade, Nikola Tesla'},inplace=True)
df['Arr Airport Name'].replace({'Cairo':'Cairo International'},inplace=True)
df['Arr Airport Name'].replace({'Dublin (IE)':'Dublin'},inplace=True)
df['Arr Airport Name'].replace({'Malta (MT)':'Malta'},inplace=True)
df['Arr Airport Name'].replace({'Pristina':'Pristina International'},inplace=True)
df['Arr Airport Name'].replace({'Geneva':'Geneva International'},inplace=True)

In [13]:
df

Unnamed: 0,Carrier Name,Arr Airport Name,Seats (Total),Frequency,Time series
0,Adria Airways,Ljubljana,82556,993,2018
1,Adria Airways,Ljubljana,78684,974,2017
2,Adria Airways,Ljubljana,59703,741,2019
3,Adria Airways,Paderborn/Lippstadt,5169,81,2018
4,Adria Airways,Paderborn/Lippstadt,3933,57,2019
...,...,...,...,...,...
1589,Vueling Airlines,Lanzarote,2626,14,2020
1590,Vueling Airlines,Santiago de Compostela,1674,9,2020
1591,Vueling Airlines,London Luton Apt,960,6,2017
1592,Vueling Airlines,Rome Fiumicino Apt,720,4,2019


Im Dataframe existiert pro Fluggsellschaft, angeflogener Destination und Jahr eine Zeile, in der Sitze und Flüge zu dieser Destination erfasst sind. Für die weitere Bearbeitung gruppieren wir erst nach Destinationsflughäfen und trennen dann Sitze und Flüge in zwei Dataframes auf. So erhalten wir pro Jahr eine Zeile mit allen Sitzen resp. Flügen pro Destination. Die Airlines lassen wir hier aussen vor.

In [15]:
#Nach Flughafen zusammenfassen
df_airports = df.groupby(['Arr Airport Name','Time series']).sum().reset_index()

In [16]:
#Dataframe pivotieren und gleichzeitig Sitze/Flüge aufteilen
df_seats = df_airports.pivot(index='Time series', columns=['Arr Airport Name'], values='Seats (Total)')
df_flights = df_airports.pivot(index='Time series', columns=['Arr Airport Name'], values='Frequency')

In [19]:
#Zusätzliche Dataframes mit dem Anteil einer Destination am jeweiligen Jahrestotal
df_seats_rel = df_seats.div(df_seats.sum(axis=1), axis=0) * 100
df_flights_rel = df_flights.div(df_flights.sum(axis=1), axis=0) * 100

In [22]:
#NaN zu 0 machen
df_seats = df_seats.fillna(0)
df_seats_rel = df_seats_rel.fillna(0)
df_flights = df_flights.fillna(0)
df_flights_rel = df_flights_rel.fillna(0)

## 2. Schritt: Daten auswerten

Wir betrachten die Top-Destinationen in den einzelnen Jahren. Dazu extrahieren wir pro Jahr jene drei Destinationen zu denen am meisten Sitze angeboten wurden. Das ermöglicht einen Blick darauf, welche Destinationen für den Flughafen Zürich an Bedeutung verloren/gewonnen haben könnten.

In [23]:
#Drei bedeutendste Zielflughäfen pro Jahr (Sitze) in ein Dataframe schreiben
df_seats_top = pd.DataFrame(df_seats_rel.columns.values[np.argsort(-df_seats_rel.values, axis=1)[:, :3]],
                  index=df_seats_rel.index,
                  columns = ['1st Max','2nd Max','3rd Max']).reset_index()
df_seats_top

Unnamed: 0,Time series,1st Max,2nd Max,3rd Max
0,2017,London Heathrow Apt,Vienna International,Berlin Tegel Apt
1,2018,Berlin Tegel Apt,London Heathrow Apt,Vienna International
2,2019,London Heathrow Apt,Berlin Tegel Apt,Vienna International
3,2020,London Heathrow Apt,Berlin Tegel Apt,Amsterdam
4,2021,Palma de Mallorca,Madrid Adolfo Suarez-Barajas Apt,London Heathrow Apt


In [24]:
#Drei bedeutendste Zielflughäfen pro Jahr (Flüge) in ein Dataframe schreiben
df_flights_top = pd.DataFrame(df_flights_rel.columns.values[np.argsort(-df_flights_rel.values, axis=1)[:, :3]],
                  index=df_flights_rel.index,
                  columns = ['1st Max','2nd Max','3rd Max']).reset_index()
df_flights_top

Unnamed: 0,Time series,1st Max,2nd Max,3rd Max
0,2017,London Heathrow Apt,Amsterdam,Duesseldorf International Airport
1,2018,Berlin Tegel Apt,London Heathrow Apt,Vienna International
2,2019,Berlin Tegel Apt,London Heathrow Apt,Vienna International
3,2020,London Heathrow Apt,Amsterdam,Frankfurt International Apt
4,2021,Frankfurt International Apt,Amsterdam,Vienna International


Nun schauen wir uns die Veränderungen zu vor der Pandemie an. Wir teilen die Dataframes df_seats und df_seats_rel sowie df_flights und df_flights_rel in jeweils zwei Dataframes auf. Im einen sind die 2019er-Zahlen, also jene aus dem letzten Jahr vor der Pandemie. Im anderen sind die Zahlen während der Jahre 2020 und 2021.

In [25]:
df_seats_2019 = df_seats.iloc[2,:].copy()
df_seats_pandemie = df_seats.iloc[3:5,:].copy()
df_seats_rel_2019 = df_seats_rel.iloc[2,:].copy()
df_seats_rel_pandemie = df_seats_rel.iloc[3:5,:].copy()
df_flights_2019 = df_flights.iloc[2,:].copy()
df_flights_pandemie = df_flights.iloc[3:5,:].copy()
df_flights_rel_2019 = df_flights_rel.iloc[2,:].copy()
df_flights_rel_pandemie = df_flights_rel.iloc[3:5,:].copy()

In [26]:
#Unterschiede vor/während Corona
df_seats_unterschied = df_seats_pandemie - df_seats_2019
df_seats_rel_unterschied = df_seats_rel_pandemie - df_seats_rel_2019
df_flights_unterschied = df_flights_pandemie - df_flights_2019
df_flights_rel_unterschied = df_flights_rel_pandemie - df_flights_rel_2019

Nun können wir mit diesen Dataframes der Unterschiede verschiedene Auswertungen vornehmen.

In [27]:
#Grösste Rückgänge in absoluten Zahlen pro Jahr (Seats)
loser_names = df_seats_unterschied.idxmin(axis=1)
loser_values = df_seats_unterschied.min(axis=1)
loser = pd.DataFrame(loser_names)
loser['Values'] = loser_values
loser

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,London Heathrow Apt,-484860.0
2021,Berlin Tegel Apt,-744102.0


In [29]:
#Grösste Rückgänge in absoluten Zahlen pro Jahr (Flights)
loser_names = df_flights_unterschied.idxmin(axis=1)
loser_values = df_flights_unterschied.min(axis=1)
loser = pd.DataFrame(loser_names)
loser['Values'] = loser_values
loser

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,Berlin Tegel Apt,-3230.0
2021,Berlin Tegel Apt,-4829.0


In [30]:
#Grösste Rückgänge in relativen Zahlen pro Jahr (Seats)
loser_names = df_seats_rel_unterschied.idxmin(axis=1)
loser_values = df_seats_rel_unterschied.min(axis=1)
loser = pd.DataFrame(loser_names)
loser['Values'] = loser_values
loser

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,London City Apt,-0.57127
2021,Berlin Tegel Apt,-3.576239


In [31]:
#Grösste Rückgänge in relativen Zahlen pro Jahr (Flights)
loser_names = df_flights_rel_unterschied.idxmin(axis=1)
loser_values = df_flights_rel_unterschied.min(axis=1)
loser = pd.DataFrame(loser_names)
loser['Values'] = loser_values
loser

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,London City Apt,-0.936137
2021,Berlin Tegel Apt,-3.944939


In [32]:
#Die drei grössten Verlierer pro Jahr (Seats)
minima = []
for column in df_seats_unterschied.T:
    min3 = df_seats_unterschied.T.nsmallest(3, columns=column)
    minima.append(min3[column])
loser3 = pd.DataFrame(minima)
loser3

Arr Airport Name,London Heathrow Apt,Berlin Tegel Apt,Vienna International,Duesseldorf International Airport
2020,-484860.0,-482406.0,-446840.0,
2021,-539764.0,-744102.0,,-473206.0


In [33]:
#Die drei grössten Verlierer pro Jahr (Flüge)
minima = []
for column in df_flights_unterschied.T:
    min3 = df_flights_unterschied.T.nsmallest(3, columns=column)
    minima.append(min3[column])
loser3 = pd.DataFrame(minima)
loser3

Arr Airport Name,Berlin Tegel Apt,London Heathrow Apt,Duesseldorf International Airport
2020,-3230.0,-2880.0,-2660.0
2021,-4829.0,-3298.0,-3031.0


In [34]:
#Die drei grössten Verlierer pro Jahr (Seats relativ)
minima = []
for column in df_seats_rel_unterschied.T:
    min3 = df_seats_rel_unterschied.T.nsmallest(3, columns=column)
    minima.append(min3[column])
loser3 = pd.DataFrame(minima)
loser3

Arr Airport Name,London City Apt,Barcelona Apt,Paris Charles de Gaulle Apt,Berlin Tegel Apt,Duesseldorf International Airport
2020,-0.57127,-0.485982,-0.455061,,
2021,-1.023643,,,-3.576239,-1.414191


In [35]:
#Die drei grössten Verlierer pro Jahr (Flights relativ)
minima = []
for column in df_flights_rel_unterschied.T:
    min3 = df_flights_rel_unterschied.T.nsmallest(3, columns=column)
    minima.append(min3[column])
loser3 = pd.DataFrame(minima)
loser3

Arr Airport Name,London City Apt,Lugano,Stuttgart Airport,Berlin Tegel Apt,Duesseldorf International Airport
2020,-0.936137,-0.910873,-0.71844,,
2021,-1.601132,,,-3.944939,-1.438412


In [36]:
#Grösste Gewinner in absoluten Zahlen pro Jahr (Seats)
winner_names = df_seats_unterschied.idxmax(axis=1)
winner_values = df_seats_unterschied.max(axis=1)
winner = pd.DataFrame(winner_names)
winner['Values'] = winner_values
winner

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,Berlin Brandenburg Apt,17192.0
2021,Berlin Brandenburg Apt,204269.0


In [37]:
#Grösste Gewinner in absoluten Zahlen pro Jahr (Flights)
winner_names = df_flights_unterschied.idxmax(axis=1)
winner_values = df_flights_unterschied.max(axis=1)
winner = pd.DataFrame(winner_names)
winner['Values'] = winner_values
winner

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,Berlin Brandenburg Apt,114.0
2021,Berlin Brandenburg Apt,1179.0


In [38]:
#Grösste Gewinner in relativen Zahlen pro Jahr (Seats)
winner_names = df_seats_rel_unterschied.idxmax(axis=1)
winner_values = df_seats_rel_unterschied.max(axis=1)
winner = pd.DataFrame(winner_names)
winner['Values'] = winner_values
winner

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,Doha,0.738585
2021,Berlin Brandenburg Apt,2.489562


In [39]:
#Grösste Gewinner in relativen Zahlen pro Jahr (Flights)
winner_names = df_flights_rel_unterschied.idxmax(axis=1)
winner_values = df_flights_rel_unterschied.max(axis=1)
winner = pd.DataFrame(winner_names)
winner['Values'] = winner_values
winner

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,Frankfurt International Apt,0.958578
2021,Berlin Brandenburg Apt,2.490547


In [40]:
#Die drei grössten Gewinner pro Jahr (Seats)
maxima = []
for column in df_seats_unterschied.T:
    max3 = df_seats_unterschied.T.nlargest(3, columns=column)
    maxima.append(max3[column])
winner3 = pd.DataFrame(maxima)
winner3

Arr Airport Name,Berlin Brandenburg Apt,Dar Es Salaam,Osaka Kansai International Airport,Thessaloniki,Irakleion
2020,17192.0,2715.0,2453.0,,
2021,204269.0,,,19421.0,17352.0


In [41]:
#Die drei grössten Gewinner pro Jahr (Flights)
maxima = []
for column in df_flights_unterschied.T:
    max3 = df_flights_unterschied.T.nlargest(3, columns=column)
    maxima.append(max3[column])
winner3 = pd.DataFrame(maxima)
winner3

Arr Airport Name,Berlin Brandenburg Apt,Linz Blue Danube,Paris Le Bourget Apt,Thessaloniki
2020,114.0,68.0,68.0,
2021,1179.0,86.0,,127.0


In [42]:
#Die drei grössten Gewinner pro Jahr (Seats, relativ)
maxima = []
for column in df_seats_rel_unterschied.T:
    max3 = df_seats_rel_unterschied.T.nlargest(3, columns=column)
    maxima.append(max3[column])
winner3 = pd.DataFrame(maxima)
winner3

Arr Airport Name,Doha,Porto,Frankfurt International Apt,Berlin Brandenburg Apt,Palma de Mallorca
2020,0.738585,0.716671,0.689236,,
2021,,0.920906,,2.489562,1.529652


In [43]:
#Die drei grössten Gewinner pro Jahr (Flights, relativ)
maxima = []
for column in df_flights_rel_unterschied.T:
    max3 = df_flights_rel_unterschied.T.nlargest(3, columns=column)
    maxima.append(max3[column])
winner3 = pd.DataFrame(maxima)
winner3

Arr Airport Name,Frankfurt International Apt,Amsterdam,"Belgrade, Nikola Tesla",Berlin Brandenburg Apt,Palma de Mallorca
2020,0.958578,0.872116,0.674658,,
2021,,,0.908666,2.490547,1.501459
