In [1]:
import pandas as pd
import numpy as np

#### Zu den Daten

Die Daten wurden von OAG zur Verfügung gestellt. Erfasst sind alle Flüge (Frequency) ab dem Flughafen Zürich, zu denen Sitze angeboten wurden, und ebendiese Sitze (Seats). Es handelt sich also nicht um tatsächlich verkaufte Sitze oder gar um tatsächlich gereiste Passagiere.

#### Zu diesem Notebook
Im Notebook OAG sind die Daten per Flughafen aufbereitet. Weil die BfS-Daten in den anderen Notebooks aber per Ort aufbereitet sind, schauen wir uns den OAG-Datensatz auch per Ort an.

## 1. Schritt: Daten einlesen

In [2]:
path = "ZRH_Data.xlsx"
df = pd.read_excel(path, skiprows=24, usecols='A:E') #In den ersten 24 Reihen stehen Angaben zum Datensatz, die wir nicht in der Tabelle brauchen; In den Spalten nach E ist eine Pivot-Tabelle enthalten (deren Ergebnisse stellen wir nachfolgend sowieso selber nach)
df.drop([1594,1595,1596], inplace=True) #In den letzten drei Zeilen sind Fusszeilen enthalten

In [3]:
#Zahlen zu Integer machen (Anzahl Sitze, Flüge und das Jahr sind immer ganze Zahlen)
df['Seats (Total)'] = df['Seats (Total)'].astype(int)
df['Frequency'] = df['Frequency'].astype(int)
df['Time series'] = df['Time series'].astype(int)

Um die einzelnen Flughäfen einem Ort zuzuweisen, gehen wir alle über eine Abfrage durch. In dieser wird jeweils der Flughafen ausgegeben. In ein Input-Feld kann dann der entsprechende Ort eingegeben werden. Die beiden Angaben werden zusammen in ein Dictionary gespeichert, dieses wiederum in eine Liste und aus dieser Liste entsteht dann ein Dataframe, in dem jedem Flughafen ein Ort zugeordnet ist. Damit wir diese Abfrage nicht jedes Mal machen müssen, speichern wir dieses Dataframe als CSV-Datei ab, die wir dann jeweils nach Bedarf einlesen können. Der Code für die Abfrage ist deshalb auskommentiert.

In [4]:
# airports = df['Arr Airport Name'].unique().tolist()
# orte = [] #In dieser Liste erfassen wir Dictionaries (Flughafen: Ort)
# for airport in airports:
#     ort = input("In welchem Ort steht der Flughafen " + str(airport) + "? ")
#     mini_dict = {'Flughafen': airport,
#                  'Ort': ort}
#     orte.append(mini_dict)
# df_orte = pd.DataFrame(orte) 
# df_orte.to_csv("Orte.csv")

In [5]:
#Flughafen/Ort-Zuteilung aus der CSV-Datei einlesen
df_orte = pd.read_csv("Orte.csv")
df_orte.drop('Unnamed: 0', axis=1, inplace=True)

In [6]:
#Ursprüngliches Dataframe mit dem Dataframe der Orte zusammenführen
df = pd.merge(df, df_orte, left_on="Arr Airport Name", right_on="Flughafen")
df.drop("Arr Airport Name", axis=1, inplace=True) #Flughafenangabe sonst doppelt

Im Dataframe existiert pro Fluggsellschaft, angeflogener Destination und Jahr eine Zeile, in der Sitze und Flüge zu dieser Destination erfasst sind. Für die weitere Bearbeitung gruppieren wir erst nach Destinationen und trennen dann Sitze und Flüge in zwei Dataframes auf. So erhalten wir pro Jahr eine Zeile mit allen Sitzen resp. Flügen pro Destination. Die Airlines lassen wir hier aussen vor.

In [8]:
#Nach Destinationen zusammenfassen
df_destinationen = df.groupby(['Ort','Time series']).sum().reset_index()

In [9]:
#Dataframe pivotieren und gleichzeitig Sitze/Flüge aufteilen
df_seats = df_destinationen.pivot(index='Time series', columns=['Ort'], values='Seats (Total)')
df_flights = df_destinationen.pivot(index='Time series', columns=['Ort'], values='Frequency')

In [10]:
#NaN zu 0 machen
df_seats = df_seats.fillna(0)
df_flights = df_flights.fillna(0)

In [11]:
#Zusätzliche Dataframes mit dem Anteil einer Destination am jeweiligen Jahrestotal
df_seats_rel = df_seats.div(df_seats.sum(axis=1), axis=0) * 100
df_flights_rel = df_flights.div(df_flights.sum(axis=1), axis=0) * 100

## 2. Schritt: Daten auswerten

Wir betrachten die Top-Destinationen in den einzelnen Jahren. Dazu extrahieren wir pro Jahr jene drei Destinationen zu denen am meisten Sitze angeboten wurden. Das ermöglicht einen Blick darauf, welche Destinationen für den Flughafen Zürich an Bedeutung verloren/gewonnen haben könnten.

In [13]:
#Drei bedeutendste Orte pro Jahr (Sitze) in ein Dataframe schreiben
df_seats_top = pd.DataFrame(df_seats_rel.columns.values[np.argsort(-df_seats_rel.values, axis=1)[:, :3]],
                  index=df_seats_rel.index,
                  columns = ['1st Max','2nd Max','3rd Max']).reset_index()
df_seats_top

Unnamed: 0,Time series,1st Max,2nd Max,3rd Max
0,2017,London,Berlin,Wien
1,2018,London,Berlin,Wien
2,2019,London,Berlin,Wien
3,2020,London,Berlin,Amsterdam
4,2021,London,Istanbul,Palma De Mallorca


In [14]:
#Daten extrahieren für Infografiker
df_seats_top.to_excel('Podest-Jahre-2017-bis-2021.xlsx') #Daten für Infografiker

In [15]:
#Drei bedeutendste Zielflughäfen pro Jahr (Flüge) in ein Dataframe schreiben
df_flights_top = pd.DataFrame(df_flights_rel.columns.values[np.argsort(-df_flights_rel.values, axis=1)[:, :3]],
                  index=df_flights_rel.index,
                  columns = ['1st Max','2nd Max','3rd Max']).reset_index()
df_flights_top

Unnamed: 0,Time series,1st Max,2nd Max,3rd Max
0,2017,London,Berlin,Amsterdam
1,2018,London,Berlin,Wien
2,2019,London,Berlin,Wien
3,2020,London,Amsterdam,Berlin
4,2021,London,Frankfurt,Amsterdam


Nun schauen wir uns die Veränderungen zu vor der Pandemie an. Wir teilen die Dataframes df_seats und df_seats_rel sowie df_flights und df_flights_rel in jeweils zwei Dataframes auf. Im einen sind die 2019er-Zahlen, also jene aus dem letzten Jahr vor der Pandemie. Im anderen sind die Zahlen während der Jahre 2020 und 2021.

In [16]:
df_seats_2019 = df_seats.iloc[2,:].copy()
df_seats_pandemie = df_seats.iloc[3:5,:].copy()
df_seats_rel_2019 = df_seats_rel.iloc[2,:].copy()
df_seats_rel_pandemie = df_seats_rel.iloc[3:5,:].copy()
df_flights_2019 = df_flights.iloc[2,:].copy()
df_flights_pandemie = df_flights.iloc[3:5,:].copy()
df_flights_rel_2019 = df_flights_rel.iloc[2,:].copy()
df_flights_rel_pandemie = df_flights_rel.iloc[3:5,:].copy()

In [17]:
#Unterschiede vor/während Corona
df_seats_unterschied = df_seats_pandemie - df_seats_2019
df_seats_rel_unterschied = df_seats_rel_pandemie - df_seats_rel_2019
df_flights_unterschied = df_flights_pandemie - df_flights_2019
df_flights_rel_unterschied = df_flights_rel_pandemie - df_flights_rel_2019

Nun können wir mit diesen Dataframes der Unterschiede verschiedene Auswertungen vornehmen.

In [18]:
#Grösste Rückgänge in absoluten Zahlen pro Jahr (Seats)
loser_names = df_seats_unterschied.idxmin(axis=1)
loser_values = df_seats_unterschied.min(axis=1)
loser = pd.DataFrame(loser_names)
loser['Values'] = loser_values
loser

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,London,-869461.0
2021,London,-989967.0


In [19]:
#Grösste Rückgänge in absoluten Zahlen pro Jahr (Flights)
loser_names = df_flights_unterschied.idxmin(axis=1)
loser_values = df_flights_unterschied.min(axis=1)
loser = pd.DataFrame(loser_names)
loser['Values'] = loser_values
loser

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,London,-6026.0
2021,London,-6918.0


In [20]:
#Grösste Rückgänge in relativen Zahlen pro Jahr (Seats)
loser_names = df_seats_rel_unterschied.idxmin(axis=1)
loser_values = df_seats_rel_unterschied.min(axis=1)
loser = pd.DataFrame(loser_names)
loser['Values'] = loser_values
loser

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,London,-0.511527
2021,London,-2.593174


In [21]:
#Grösste Rückgänge in relativen Zahlen pro Jahr (Flights)
loser_names = df_flights_rel_unterschied.idxmin(axis=1)
loser_values = df_flights_rel_unterschied.min(axis=1)
loser = pd.DataFrame(loser_names)
loser['Values'] = loser_values
loser

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,Lugano,-0.910873
2021,London,-3.305355


In [22]:
#Die drei grössten Verlierer pro Jahr (Seats)
minima = []
for column in df_seats_unterschied.T:
    min3 = df_seats_unterschied.T.nsmallest(3, columns=column)
    minima.append(min3[column])
loser3 = pd.DataFrame(minima)
loser3

Ort,London,Berlin,Wien,Düsseldorf
2020,-869461.0,-465824.0,-446840.0,
2021,-989967.0,-540443.0,,-473206.0


In [23]:
#Die drei grössten Verlierer pro Jahr (Flüge)
minima = []
for column in df_flights_unterschied.T:
    min3 = df_flights_unterschied.T.nsmallest(3, columns=column)
    minima.append(min3[column])
loser3 = pd.DataFrame(minima)
loser3

Ort,London,Berlin,Düsseldorf
2020,-6026.0,-3119.0,-2660.0
2021,-6918.0,-3653.0,-3031.0


In [24]:
#Die drei grössten Verlierer pro Jahr (Seats relativ)
minima = []
for column in df_seats_rel_unterschied.T:
    min3 = df_seats_rel_unterschied.T.nsmallest(3, columns=column)
    minima.append(min3[column])
loser3 = pd.DataFrame(minima)
loser3

Ort,London,Barcelona,Paris,Düsseldorf,Berlin
2020,-0.511527,-0.485982,-0.451343,,
2021,-2.593174,,,-1.414191,-1.089609


In [25]:
#Die drei grössten Verlierer pro Jahr (Flights relativ)
minima = []
for column in df_flights_rel_unterschied.T:
    min3 = df_flights_rel_unterschied.T.nsmallest(3, columns=column)
    minima.append(min3[column])
loser3 = pd.DataFrame(minima)
loser3

Ort,Lugano,London,Stuttgart,Berlin,Düsseldorf
2020,-0.910873,-0.892493,-0.71844,,
2021,,-3.305355,,-1.456843,-1.438412


In [26]:
#Grösste Gewinne in absoluten Zahlen pro Jahr (Seats)
winner_names = df_seats_unterschied.idxmax(axis=1)
winner_values = df_seats_unterschied.max(axis=1)
winner = pd.DataFrame(winner_names)
winner['Values'] = winner_values
winner

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,Dar Es Salaam,2715.0
2021,Thessaloniki,19421.0


In [27]:
#Grösste Gewinne in absoluten Zahlen pro Jahr (Flights)
winner_names = df_flights_unterschied.idxmax(axis=1)
winner_values = df_flights_unterschied.max(axis=1)
winner = pd.DataFrame(winner_names)
winner['Values'] = winner_values
winner

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,Linz,68.0
2021,Thessaloniki,127.0


In [28]:
#Grösste Gewinne in relativen Zahlen pro Jahr (Seats)
winner_names = df_seats_rel_unterschied.idxmax(axis=1)
winner_values = df_seats_rel_unterschied.max(axis=1)
winner = pd.DataFrame(winner_names)
winner['Values'] = winner_values
winner

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,Doha,0.738585
2021,Palma De Mallorca,1.529652


In [29]:
#Grösste Gewinne in relativen Zahlen pro Jahr (Flights)
winner_names = df_flights_rel_unterschied.idxmax(axis=1)
winner_values = df_flights_rel_unterschied.max(axis=1)
winner = pd.DataFrame(winner_names)
winner['Values'] = winner_values
winner

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,Frankfurt,0.958578
2021,Palma De Mallorca,1.501459


In [30]:
#Die drei grössten Gewinner pro Jahr (Seats)
maxima = []
for column in df_seats_unterschied.T:
    max3 = df_seats_unterschied.T.nlargest(3, columns=column)
    maxima.append(max3[column])
winner3 = pd.DataFrame(maxima)
winner3

Ort,Dar Es Salaam,Osaka,Menorca,Thessaloniki,Irakleion,Ibiza
2020,2715.0,2453.0,2436.0,,,
2021,,,,19421.0,17352.0,13470.0


In [31]:
#Die drei grössten Gewinner pro Jahr (Flights)
maxima = []
for column in df_flights_unterschied.T:
    max3 = df_flights_unterschied.T.nlargest(3, columns=column)
    maxima.append(max3[column])
winner3 = pd.DataFrame(maxima)
winner3

Ort,Linz,Menorca,Guernsey,Thessaloniki,Irakleion
2020,68.0,14.0,13.0,,
2021,86.0,,,127.0,69.0


In [32]:
#Die drei grössten Gewinner pro Jahr (Seats, relativ)
maxima = []
for column in df_seats_rel_unterschied.T:
    max3 = df_seats_rel_unterschied.T.nlargest(3, columns=column)
    maxima.append(max3[column])
winner3 = pd.DataFrame(maxima)
winner3

Ort,Doha,Porto,Frankfurt,Palma De Mallorca,Istanbul
2020,0.738585,0.716671,0.689236,,
2021,,0.920906,,1.529652,1.467733


In [33]:
#Die drei grössten Gewinner pro Jahr (Flights, relativ)
maxima = []
for column in df_flights_rel_unterschied.T:
    max3 = df_flights_rel_unterschied.T.nlargest(3, columns=column)
    maxima.append(max3[column])
winner3 = pd.DataFrame(maxima)
winner3

Ort,Frankfurt,Amsterdam,Belgrad,Palma De Mallorca,Istanbul
2020,0.958578,0.872116,0.674658,,
2021,,,0.908666,1.501459,1.389753


## 3. Schritt: Modifikationen für durchsuchbare Flourish-Tabelle

Im Artikel soll eine durchsuchbare Tabelle eingefügt werden, die dem Publikum ermöglicht, selber nachzuschlagen, wie sich der Verkehr für eine bestimmte Destination entwickelt hat.

In [34]:
#Die Sitze pro Destination und Jahr können im Artikel als durchsuchbare Tabelle angehängt werden.
df_seats.to_csv('Sitze-pro-Destination.csv')