In [1]:
import pandas as pd
import numpy as np
import Levenshtein as leven
from Levenshtein import distance as lev

Zu den Daten:
* von OAG.com auf Anfrage erhalten (sind zu erwähnen)
* Erfasst sind alle Flüge, zu denen Sitze angeboten wurden, die ZRH als Abflughafen haben.
* Erfasst sind Seats (= angebotene Sitze) und Frequency (=Flüge pro Jahr)

In [2]:
path = "ZRH_Data.xlsx"

In [3]:
df = pd.read_excel(path, skiprows=24, usecols='A:E') #In den ersten 24 Reihen stehen Angaben zum Datensatz, die wir nicht in der Tabelle brauchen; In den Spalten nach E ist eine Pivot-Tabelle enthalten (deren Ergebnisse stellen wir eh selber nach)

In [4]:
df.drop([1594,1595,1596], inplace=True) #In den letzten drei Zeilen sind Fusszeilen enthalten

In [5]:
df['Seats (Total)'] = df['Seats (Total)'].astype(int)
df['Frequency'] = df['Frequency'].astype(int)
df['Time series'] = df['Time series'].astype(int)

Beim späteren Bearbeiten hat sich gezeigt, dass einzelne Flughäfen unterschiedlich erfasst sind. So existiert Genf als Geneva und als Geneva International.

In [6]:
#Ähnliche Namen herausarbeiten, um leicht anders geschriebene Einträge zu entdecken
airports = df['Arr Airport Name'].unique().tolist()
n = 0
for airport in airports:
    i = 1
    while i < len(airports):
        if (lev(airport,airports[i])<3) and (airport != airports[i]): #lev<3 gibt Werte zurück, die eine Levenshtein-Differenz unter 3 aufweisen. Das heisst: Der eine Wert müsste an weniger als drei Stellen angepasst werden, um den anderen zu erhalten.
            print(str(n) + ": " + str(airport) +", " + str(airports[i]))
            n = n + 1
        i = i + 1

0: Catania, Chania
1: Faro, Bari
2: Faro, Cairo
3: Malta, Male
4: Kos, Nis
5: Jerez, Jersey
6: Geneva, Genoa
7: Nice, Nis
8: Male, Malta
9: Chania, Catania
10: Genoa, Geneva
11: Jersey, Jerez
12: Rostock, Rostov
13: Nis, Kos
14: Nis, Nice
15: Brac, Graz
16: Kiev Borispol Intl Apt, Kyiv Borispol Intl Apt
17: Graz, Brac
18: Kyiv Borispol Intl Apt, Kiev Borispol Intl Apt
19: Bari, Faro
20: Cairo, Faro
21: Rostov, Rostock


In [7]:
#Die meisten "ähnlichen" Werte sind kein Problem. Aber Kiev und Kyiv muss angepasst werden.
df['Arr Airport Name'].replace({'Kiev Borispol Intl Apt':'Kyiv Borispol Intl Apt'},inplace=True)

In [8]:
#Die Levenshtein-Differenz scheint aber nicht geeignet, um das zu überprüfen.
airports = df['Arr Airport Name'].unique().tolist()
n = 0
for airport in airports:
    i = 1
    while i < len(airports):
        if (airport[0:5] == airports[i][0:5] and airport != airports[i]): #Damit prüfen wir, ob die ersten fünf Buchstaben eines Flughafens mit den ersten fünf Buchstaben eines anderen Flughafens übereinstimmen.
            print(str(n) + ": " + str(airport) +", " + str(airports[i]))
            n = n + 1
        i = i + 1

0: Athens (GR), Athens
1: Athens, Athens (GR)
2: Dublin (IE), Dublin
3: Dublin, Dublin (IE)
4: Moscow Sheremetyevo International Apt, Moscow Domodedovo Apt
5: Berlin Tegel Apt, Berlin Brandenburg Apt
6: Berlin Tegel Apt, Berlin Schoenefeld Apt
7: Paris Charles de Gaulle Apt, Paris Le Bourget Apt
8: Malta, Malta (MT)
9: Belgrade, Nikola Tesla, Belgrade
10: Belgrade, Belgrade, Nikola Tesla
11: Istanbul Ataturk Airport, Istanbul Airport
12: Istanbul Ataturk Airport, Istanbul Sabiha Gokcen Apt
13: Pristina, Pristina International
14: London Heathrow Apt, London City Apt
15: London Heathrow Apt, London Luton Apt
16: London Heathrow Apt, London Gatwick Apt
17: London City Apt, London Heathrow Apt
18: London City Apt, London Luton Apt
19: London City Apt, London Gatwick Apt
20: Berlin Brandenburg Apt, Berlin Tegel Apt
21: Berlin Brandenburg Apt, Berlin Schoenefeld Apt
22: Pristina International, Pristina
23: Geneva, Geneva International
24: London Luton Apt, London Heathrow Apt
25: London Lut

In [9]:
#Einige müssen tatsächlich angepasst werden.
df['Arr Airport Name'].replace({'Kiev Borispol Intl Apt':'Kyiv Borispol Intl Apt'},inplace=True)
df['Arr Airport Name'].replace({'Athens (GR)':'Athens'},inplace=True)
df['Arr Airport Name'].replace({'Belgrade':'Belgrade, Nikola Tesla'},inplace=True)
df['Arr Airport Name'].replace({'Cairo':'Cairo International'},inplace=True)
df['Arr Airport Name'].replace({'Dublin (IE)':'Dublin'},inplace=True)
df['Arr Airport Name'].replace({'Malta (MT)':'Malta'},inplace=True)
df['Arr Airport Name'].replace({'Pristina':'Pristina International'},inplace=True)
df['Arr Airport Name'].replace({'Geneva':'Geneva International'},inplace=True)

In [10]:
df['Arr Airport Name'].unique()

array(['Ljubljana', 'Paderborn/Lippstadt', 'Munich International Airport',
       'Vienna International', 'Athens', 'Irakleion', 'Thessaloniki',
       'Rhodes', 'Mykonos', 'Dublin',
       'Moscow Sheremetyevo International Apt', 'Riga',
       'Berlin Tegel Apt', 'Duesseldorf International Airport',
       'Palma de Mallorca', 'Olbia', 'Gran Canaria', 'Westerland',
       'Tenerife Sur Apt', 'Fuerteventura', 'Brindisi', 'Catania',
       'Alicante Airport', 'Lanzarote', 'Faro', 'Funchal',
       'Santa Cruz de la Palma', 'Lamezia Terme',
       'Reykjavik Keflavik International Apt', 'Hurghada',
       'Toronto Lester B Pearson Intl', 'Vancouver International Apt',
       'Beijing Capital Intl Apt', 'Madrid Adolfo Suarez-Barajas Apt',
       'Paris Charles de Gaulle Apt', 'Malta', 'Amsterdam',
       'Prague Ruzyne', 'Belgrade, Nikola Tesla', 'Rome Fiumicino Apt',
       'Tokyo Narita Intl', 'Sendai', 'Philadelphia International Apt',
       'New York J F Kennedy International Apt',


In [11]:
#Nach Flughafen zusammenfassen
df_airports = df.groupby(['Arr Airport Name','Time series']).sum().reset_index()

In [12]:
#Wir pivotieren das Dataframe und trennen dabei gleich Flüge und Sitze
df_seats = df_airports.pivot(index='Time series', columns=['Arr Airport Name'], values='Seats (Total)')
df_flights = df_airports.pivot(index='Time series', columns=['Arr Airport Name'], values='Frequency')

In [13]:
#Zum Vergleich der Bedeutung eines Zielflughafens sind relative Angaben sinnvoller.
df_seats_rel = df_seats.div(df_seats.sum(axis=1), axis=0) * 100
df_flights_rel = df_flights.div(df_flights.sum(axis=1), axis=0) * 100

In [14]:
#Die drei bedeutendsten Zielflughäfen pro Jahr (Sitze) in ein Dataframe dftop schreiben.
df_seats_top = pd.DataFrame(df_seats_rel.columns.values[np.argsort(-df_seats_rel.values, axis=1)[:, :3]],
                  index=df_seats_rel.index,
                  columns = ['1st Max','2nd Max','3rd Max']).reset_index()
df_seats_top

Unnamed: 0,Time series,1st Max,2nd Max,3rd Max
0,2017,London Heathrow Apt,Vienna International,Berlin Tegel Apt
1,2018,Berlin Tegel Apt,London Heathrow Apt,Vienna International
2,2019,London Heathrow Apt,Berlin Tegel Apt,Vienna International
3,2020,London Heathrow Apt,Berlin Tegel Apt,Amsterdam
4,2021,Palma de Mallorca,Madrid Adolfo Suarez-Barajas Apt,London Heathrow Apt


In [15]:
#Die drei bedeutendsten Zielflughäfen pro Jahr (Flüge) in ein Dataframe dftop schreiben.
df_flights_top = pd.DataFrame(df_flights_rel.columns.values[np.argsort(-df_flights_rel.values, axis=1)[:, :3]],
                  index=df_flights_rel.index,
                  columns = ['1st Max','2nd Max','3rd Max']).reset_index()
df_flights_top

Unnamed: 0,Time series,1st Max,2nd Max,3rd Max
0,2017,London Heathrow Apt,Amsterdam,Duesseldorf International Airport
1,2018,Berlin Tegel Apt,London Heathrow Apt,Vienna International
2,2019,Berlin Tegel Apt,London Heathrow Apt,Vienna International
3,2020,London Heathrow Apt,Amsterdam,Frankfurt International Apt
4,2021,Frankfurt International Apt,Amsterdam,Vienna International


In [16]:
#Veränderungen zum Vorjahr
#NaN zu 0 machen
df_seats = df_seats.fillna(0)
df_seats_rel = df_seats_rel.fillna(0)
df_flights = df_flights.fillna(0)
df_flights_rel = df_flights_rel.fillna(0)

In [17]:
#Die prozentuale Veränderung der Bedeutung pro angeflogenem Flughafen berechnen wir von Jahr zu Jahr (Unterschied = Prozentpunkte)
df_seats_rel_vorjahr = df_seats_rel.diff(1)
df_flights_rel_vorjahr = df_flights_rel.diff(1)

In [18]:
#Veränderungen zu 2019
#Wir erstellen je zwei Dataframes: Eines mit den 2019er-Zahlen, eines mit denen danach
df_seats_2019 = df_seats.iloc[2,:].copy()
df_seats_pandemie = df_seats.iloc[3:5,:].copy()
df_seats_rel_2019 = df_seats_rel.iloc[2,:].copy()
df_seats_rel_pandemie = df_seats_rel.iloc[3:5,:].copy()
df_flights_2019 = df_flights.iloc[2,:].copy()
df_flights_pandemie = df_flights.iloc[3:5,:].copy()
df_flights_rel_2019 = df_flights_rel.iloc[2,:].copy()
df_flights_rel_pandemie = df_flights_rel.iloc[3:5,:].copy()

In [19]:
df_seats_unterschied = df_seats_pandemie - df_seats_2019
df_seats_rel_unterschied = df_seats_rel_pandemie - df_seats_rel_2019
df_flights_unterschied = df_flights_pandemie - df_flights_2019
df_flights_rel_unterschied = df_flights_rel_pandemie - df_flights_rel_2019

In [20]:
#Grösste Rückgänge in absoluten Zahlen pro Jahr (Seats)
loser_names = df_seats_unterschied.idxmin(axis=1)
loser_values = df_seats_unterschied.min(axis=1)
loser = pd.DataFrame(loser_names)
loser['Values'] = loser_values
loser

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,London Heathrow Apt,-484860.0
2021,Berlin Tegel Apt,-744102.0


In [21]:
#Grösste Rückgänge in absoluten Zahlen pro Jahr (Flights)
loser_names = df_flights_unterschied.idxmin(axis=1)
loser_values = df_flights_unterschied.min(axis=1)
loser = pd.DataFrame(loser_names)
loser['Values'] = loser_values
loser

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,Berlin Tegel Apt,-3230.0
2021,Berlin Tegel Apt,-4829.0


In [22]:
#Grösste Rückgänge in relativen Zahlen pro Jahr (Seats)
loser_names = df_seats_rel_unterschied.idxmin(axis=1)
loser_values = df_seats_rel_unterschied.min(axis=1)
loser = pd.DataFrame(loser_names)
loser['Values'] = loser_values
loser

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,London City Apt,-0.57127
2021,Berlin Tegel Apt,-3.576239


In [23]:
#Grösste Rückgänge in relativen Zahlen pro Jahr (Flights)
loser_names = df_flights_rel_unterschied.idxmin(axis=1)
loser_values = df_flights_rel_unterschied.min(axis=1)
loser = pd.DataFrame(loser_names)
loser['Values'] = loser_values
loser

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,London City Apt,-0.936137
2021,Berlin Tegel Apt,-3.944939


In [24]:
#Die drei grössten Verlierer pro Jahr (Seats)
minima = []
for column in df_seats_unterschied.T:
    min3 = df_seats_unterschied.T.nsmallest(3, columns=column)
    minima.append(min3[column])
loser3 = pd.DataFrame(minima)
loser3

Arr Airport Name,London Heathrow Apt,Berlin Tegel Apt,Vienna International,Duesseldorf International Airport
2020,-484860.0,-482406.0,-446840.0,
2021,-539764.0,-744102.0,,-473206.0


In [25]:
#Die drei grössten Verlierer pro Jahr (Flüge)
minima = []
for column in df_flights_unterschied.T:
    min3 = df_flights_unterschied.T.nsmallest(3, columns=column)
    minima.append(min3[column])
loser3 = pd.DataFrame(minima)
loser3

Arr Airport Name,Berlin Tegel Apt,London Heathrow Apt,Duesseldorf International Airport
2020,-3230.0,-2880.0,-2660.0
2021,-4829.0,-3298.0,-3031.0


In [26]:
#Die drei grössten Verlierer pro Jahr (Seats relativ)
minima = []
for column in df_seats_rel_unterschied.T:
    min3 = df_seats_rel_unterschied.T.nsmallest(3, columns=column)
    minima.append(min3[column])
loser3 = pd.DataFrame(minima)
loser3

Arr Airport Name,London City Apt,Barcelona Apt,Paris Charles de Gaulle Apt,Berlin Tegel Apt,Duesseldorf International Airport
2020,-0.57127,-0.485982,-0.455061,,
2021,-1.023643,,,-3.576239,-1.414191


In [27]:
#Die drei grössten Verlierer pro Jahr (Flights relativ)
minima = []
for column in df_flights_rel_unterschied.T:
    min3 = df_flights_rel_unterschied.T.nsmallest(3, columns=column)
    minima.append(min3[column])
loser3 = pd.DataFrame(minima)
loser3

Arr Airport Name,London City Apt,Lugano,Stuttgart Airport,Berlin Tegel Apt,Duesseldorf International Airport
2020,-0.936137,-0.910873,-0.71844,,
2021,-1.601132,,,-3.944939,-1.438412


In [28]:
#Grösste Gewinne in absoluten Zahlen pro Jahr (Seats)
winner_names = df_seats_unterschied.idxmax(axis=1)
winner_values = df_seats_unterschied.max(axis=1)
winner = pd.DataFrame(winner_names)
winner['Values'] = winner_values
winner

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,Berlin Brandenburg Apt,17192.0
2021,Berlin Brandenburg Apt,204269.0


In [29]:
#Grösste Gewinne in absoluten Zahlen pro Jahr (Flights)
winner_names = df_flights_unterschied.idxmax(axis=1)
winner_values = df_flights_unterschied.max(axis=1)
winner = pd.DataFrame(winner_names)
winner['Values'] = winner_values
winner

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,Berlin Brandenburg Apt,114.0
2021,Berlin Brandenburg Apt,1179.0


In [30]:
#Grösste Gewinne in relativen Zahlen pro Jahr (Seats)
winner_names = df_seats_rel_unterschied.idxmax(axis=1)
winner_values = df_seats_rel_unterschied.max(axis=1)
winner = pd.DataFrame(winner_names)
winner['Values'] = winner_values
winner

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,Doha,0.738585
2021,Berlin Brandenburg Apt,2.489562


In [31]:
#Grösste Gewinne in relativen Zahlen pro Jahr (Flights)
winner_names = df_flights_rel_unterschied.idxmax(axis=1)
winner_values = df_flights_rel_unterschied.max(axis=1)
winner = pd.DataFrame(winner_names)
winner['Values'] = winner_values
winner

Unnamed: 0_level_0,0,Values
Time series,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,Frankfurt International Apt,0.958578
2021,Berlin Brandenburg Apt,2.490547


In [32]:
#Die drei grössten Gewinner pro Jahr (Seats)
maxima = []
for column in df_seats_unterschied.T:
    max3 = df_seats_unterschied.T.nlargest(3, columns=column)
    maxima.append(max3[column])
winner3 = pd.DataFrame(maxima)
winner3

Arr Airport Name,Berlin Brandenburg Apt,Dar Es Salaam,Osaka Kansai International Airport,Thessaloniki,Irakleion
2020,17192.0,2715.0,2453.0,,
2021,204269.0,,,19421.0,17352.0


In [33]:
#Die drei grössten Gewinner pro Jahr (Flights)
maxima = []
for column in df_flights_unterschied.T:
    max3 = df_flights_unterschied.T.nlargest(3, columns=column)
    maxima.append(max3[column])
winner3 = pd.DataFrame(maxima)
winner3

Arr Airport Name,Berlin Brandenburg Apt,Linz Blue Danube,Paris Le Bourget Apt,Thessaloniki
2020,114.0,68.0,68.0,
2021,1179.0,86.0,,127.0


In [34]:
#Die drei grössten Gewinner pro Jahr (Seats, relativ)
maxima = []
for column in df_seats_rel_unterschied.T:
    max3 = df_seats_rel_unterschied.T.nlargest(3, columns=column)
    maxima.append(max3[column])
winner3 = pd.DataFrame(maxima)
winner3

Arr Airport Name,Doha,Porto,Frankfurt International Apt,Berlin Brandenburg Apt,Palma de Mallorca
2020,0.738585,0.716671,0.689236,,
2021,,0.920906,,2.489562,1.529652


In [35]:
#Die drei grössten Gewinner pro Jahr (Flights, relativ)
maxima = []
for column in df_flights_rel_unterschied.T:
    max3 = df_flights_rel_unterschied.T.nlargest(3, columns=column)
    maxima.append(max3[column])
winner3 = pd.DataFrame(maxima)
winner3

Arr Airport Name,Frankfurt International Apt,Amsterdam,"Belgrade, Nikola Tesla",Berlin Brandenburg Apt,Palma de Mallorca
2020,0.958578,0.872116,0.674658,,
2021,,,0.908666,2.490547,1.501459
