# EDA Experiments Grese

## Requirements

In [None]:
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

from local_nbutils import CFG, plt_savefig

In [None]:
df = pd.read_pickle(CFG["PROCESSED_DATA_PATH"])

In [None]:
# die Verteilung der Verspätungen unter Abluegen und Ankuenften
# Durchschnittliche Verspätung pro Abflughafen
dep_delay = df.groupby("DEPSTN")["target"].mean().sort_values(ascending=False)

plt.figure(figsize=(12, 6))
dep_delay.plot(kind="bar", color="skyblue")
plt.title("Durchschnittliche Verspätung pro Abflughafen")
plt.xlabel("Abflughafen")
plt.ylabel("Durchschnittliche Verspätung (Minuten)")
plt.xticks(rotation=45)
plt.tight_layout()
plt_savefig("dep-to-avg-delay_hist")
plt.show()

In [None]:
# Durchschnittliche Verspätung pro Ankunftsflughafen
arr_delay = df.groupby("ARRSTN")["target"].mean().sort_values(ascending=False)

plt.figure(figsize=(12, 6))
arr_delay.plot(kind="bar", color="salmon")
plt.title("Durchschnittliche Verspätung pro Ankunftsflughafen")
plt.xlabel("Ankunftsflughafen")
plt.ylabel("Durchschnittliche Verspätung (Minuten)")
plt.xticks(rotation=45)
plt.tight_layout()
plt_savefig("dest-to-avg-delay_hist")
plt.show()

In [None]:
df_tmp = pd.DataFrame({
    "Departure Delay": dep_delay,
    "Arrival Delay": arr_delay
})

df_tmp.plot(kind="bar", color=["skyblue", "salmon"])

plt.title("Mean Delay per Airport (DEP + ARR)")
plt.xlabel("Airport")
plt.ylabel("Mean Delay")
# plt.xticks(rotation=45)
plt.xticks([], [])
plt.tight_layout()
plt_savefig("airport-to-avg-delay_hist")

In [None]:
plt.figure(figsize=(14, 6))
sns.boxplot(x="DEPSTN", y="target", data=df)
plt.title("Verteilung der Verspätungen pro Abflughafen")
plt.xticks(rotation=45)
plt_savefig("airport-to-delay_boxplot")
plt.show()

In [None]:
# Pivot-Tabelle für Heatmap
route_delay = df.pivot_table(
    index="ARRSTN", columns="DEPSTN", values="target", aggfunc="mean"
)

plt.figure(figsize=(12, 8))
sns.heatmap(route_delay, cmap="Reds", linewidths=0.5, annot=False)
plt.title("Durchschnittliche Verspätung zwischen Abflug- und Ankunftsflughäfen")
plt.xlabel("Ankunftsflughafen")
plt.ylabel("Abflughafen")
plt.tight_layout()
plt_savefig("dep-vs-dest-wrt-avg-delay_heatmap")
plt.show()

In [None]:
df[df["DEPSTN"] == "TUN"]["target"].hist(bins=30)
plt.title("Verspätungsverteilung – Abflughafen TUN")
plt.xlabel("Verspätung in Minuten")
plt.ylabel("Anzahl Flüge")
plt_savefig("airport-to-delay-on-dest-eq-tun_boxplot")
plt.show()

In [None]:
pivot = df.pivot_table(
    index="DEPSTN", columns="ARRSTN", values="target", aggfunc="mean"
)
plt.figure(figsize=(12, 8))
sns.heatmap(pivot, annot=False, cmap="Reds")
plt.title("Durchschnittliche Verspätung je Flugroute (in Minuten)")
plt.xlabel("Ankunftsflughafen")
plt.ylabel("Abflughafen")
plt_savefig("dep-vs-dest-wrt-delay_heatmap")
plt.show()

In [None]:
top_dep = df["DEPSTN"].value_counts().head(10)
avg_delay_dep = df.groupby("DEPSTN")["target"].mean().loc[top_dep.index]

summary = pd.DataFrame({"Fluganzahl": top_dep, "Ø Verspätung (Min.)": avg_delay_dep})
print(summary)