# Inhalts√ºbersicht EDA

### 0. Datensatz laden und bereinigen mit data_preparation.py (neu machen, wenn Funktion abgeschlossen)
- kurze Beschreibung der Daten (Ursprung, Umfang)
- Funktion data_import()
- Funktion data_cleaning()

### 1. √úberblick √ºber den Datensatz
- Spaltenbeschreibung/Datentypen: Funktion overview()
- Fehlende Werte (NaN-Anteile)
- Entfernen von Variablen mit mehr als 50% fehlenden Werten

### 2. Deskriptive Statistik & Ausrei√üer-Handling
#### 2.1 Schadstoffe (einzeln)
- describe()-Tabelle f√ºr Schadstoffe
- Stripplots zur Ausrei√üererkennung f√ºr alle Schadstoffe
- Vergleich von Mean und Median und Schiefe (skew)
- Zellenweise Ersetzung durch NaN (statt Zeilenl√∂schung)
- Dokumentaton der Schwellenwerte (Cutoff) und Filterlogik
- Tabelle mit Anzahl der entfernten Werte

#### 2.2 Wetter (Schleife)
- describe()-Tabelle f√ºr Wetter
- Stripplots und Kennzahlen zur Ausrei√üererkennung f√ºr alle Wettervariablen
- Festlegen der Schwellenwerte f√ºr Ausrei√üer, Ersetzen durch NaN
- Dokumentaton der Schwellenwerte (Cutoff) und Filterlogik
- Tabelle mit Anzahl der entfernten Werte

### 3. Korrelationsanalysen
#### 3.1 Korelationsmatrix
- Korrelationsmatrix (Pearson)
- Identifikation und Dokumentation der st√§rksten Korrelationen
- Empfehlung zur Variablenselektion (evtl. PCA)

#### 3.2 Pairplots der wichtigsten Feature-Paare
- Berechnung und Interpretation von Pairplots
- √úberpr√ºfen der Art des Zusammenhangs (linear oder nicht) mit linearer Regression und LOWESS (Local Weighted Scatterplot Smoothing)
- Individuell getestete Feature-Paare: PM10-PM25, NO‚ÇÇ-PM10, NO‚ÇÇ-PM25, Humidity-PM25, O3-Tavg, Tmin-Dew, Pres-Dew, Pres-Tmin 
- Abschlie√üende Bewertung der Korrelationen und der Datenstruktur

# 0. Datensatz laden

Der Datensatz enth√§lt Messungen zur Luftqualit√§t sowie Wetter- und Bev√∂lkerungdaten aus den Jahren 2014-2024, aggregiert aus verschiedenen Quellen mit einem anf√§nglichen Gesamtumfang von ca. 14 Mio Datenpunkten (s. README.md --> Datenquellen)
Um alle Daten in einem Pandas-Dataframe bearbeiten zu k√∂nnen, werden zun√§chst die Datens√§tze mit der Funktion data_import() aggregiert und anschlie0end mit der Funktion data_cleaning() so bereinigt, dass z.B. redundante Spalten entfernt werden. Die Funktionen und ihre Unterfunktionen finden befinden sich im Skript data_preparation.py.

In [1]:
# imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import skew
%matplotlib inline

In [2]:
# Settings for displaying floats
pd.set_option('display.float_format', '{:,.2f}'.format)

In [3]:
df = pd.read_csv("./data/cleaned_air_quality_data_2025_03_25.csv")
df.head()

Unnamed: 0,Year,Month,Day,Country,City,Latitude,Longitude,Co,No2,O3,...,So2,Dew,Humidity,Tavg,Tmin,Tmax,Prcp,Wdir,Wspd,Pres
0,2014,12,29,AT,Graz,47.07,15.45,0.1,9.0,,...,1.6,,,,,,,,,
1,2014,12,29,AT,Innsbruck,47.26,11.39,0.1,25.6,,...,1.6,,,,,,,,,
2,2014,12,29,AT,Linz,48.31,14.29,0.1,14.2,,...,2.1,,,,,,,,,
3,2014,12,29,AT,Salzburg,47.8,13.04,0.1,21.1,,...,2.1,,,,,,,,,
4,2014,12,29,AT,Vienna,48.21,16.37,0.1,9.0,,...,2.6,,,,,,,,,


In [4]:
# Zelle l√∂schen, wenn cleaning-Funktion das √ºbernimmt!

df.columns

# Some redundant columns still need to be removed from df manually: Temperature, Pressure, Wind-speed

Index(['Year', 'Month', 'Day', 'Country', 'City', 'Latitude', 'Longitude',
       'Co', 'No2', 'O3', 'Pm10', 'Pm25', 'So2', 'Dew', 'Humidity', 'Tavg',
       'Tmin', 'Tmax', 'Prcp', 'Wdir', 'Wspd', 'Pres'],
      dtype='object')

In [6]:
df.shape

(1695041, 22)

# 1. √úberblick √ºber den Datensatz

- √úberblicksfunktion .overview()
- Fehlende Werte ausloten und Spalten mit < 50% Daten entfernen.
- Nach dem kompletten Entfernen aller Spalten mit < 50% Daten umfasst der Datensatz **1.695.041 Zeilen und 22 Spalten**.

In [7]:
# Function to create overview for dtypes, missing values, unique values

def overview(df):
    '''
    Erstelle einen √úberblick √ºber einige Eigenschaften der Spalten eines DataFrames.
    VARs
        df: Der zu betrachtende DataFrame
    RETURNS:
        None
    '''
    display(pd.DataFrame({'dtype': df.dtypes,
                          'total': df.count(),
                          'missing': df.isna().sum(),
                          'missing%': df.isna().mean()*100,
                          'n_uniques': df.nunique(),
                          'uniques%': df.nunique()/df.shape[0]*100,
                          'uniques': [df[col].unique() for col in df.columns]
                         }))


In [8]:
overview(df)

Unnamed: 0,dtype,total,missing,missing%,n_uniques,uniques%,uniques
Year,int64,1695041,0,0.0,12,0.0,"[2014, 2015, 2016, 2017, 2018, 2019, 2020, 202..."
Month,int64,1695041,0,0.0,12,0.0,"[12, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]"
Day,int64,1695041,0,0.0,31,0.0,"[29, 30, 31, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11..."
Country,object,1695041,0,0.0,95,0.01,"[AT, AU, BE, BO, BR, CA, CH, CL, CN, CO, CY, C..."
City,object,1695041,0,0.0,616,0.04,"[Graz, Innsbruck, Linz, Salzburg, Vienna, Bris..."
Latitude,float64,1692212,2829,0.17,617,0.04,"[47.06667, 47.26266, 48.30639, 47.79941, 48.20..."
Longitude,float64,1692212,2829,0.17,616,0.04,"[15.45, 11.39454, 14.28611, 13.04399, 16.37208..."
Co,float64,1063073,631968,37.28,988,0.06,"[0.1, 1.9, 2.1, nan, 2.3, 2.0, 3.4, 5.5, 3.8, ..."
No2,float64,1408527,286514,16.9,1271,0.07,"[9.0, 25.6, 14.2, 21.1, 4.6, 0.7, nan, 6.5, 4...."
O3,float64,1320290,374751,22.11,1496,0.09,"[nan, 3.7, 4.3, 12.8, 15.2, 21.0, 17.6, 6.1, 2..."


In [None]:
# Sort missing values (descending)

missing_percent = df.isna().mean() * 100
missing_percent_sorted = missing_percent.sort_values(ascending=False)

print(missing_percent_sorted)


In [None]:
# Urspr√ºnglich wurden hier Spalten mit >50% fehlenden Werten entfernt.
# Der aktuelle Datensatz ist vollst√§ndig genug ‚Äì daher ist dieser Schritt derzeit nicht notwendig.
# Falls sich das √§ndert, kann der folgende Codeblock wieder aktiviert werden:

# # Remove all columns with more than 50% missing values
# # Note: This removes population data entirely!

# # Anzahl der Spalten vor dem Entfernen merken
# original_columns = df.shape[1]

# df = df.loc[:, missing_percent <= 50]

# # Print what has changed
# print(f"Anzahl der entfernten Spalten: {original_columns - df.shape[1]}")
# removed = missing_percent[missing_percent > 50].index
# print("Entfernte Spalten:", list(removed))
# print("√úbrige Spalten:", df.columns)

# df.shape()

# 2. Deskriptive Statistik und Ausrei√üerentfernung

Vor der systematischen Ausrei√üeranalyse ist es sinnvoll, kurz die Art der Daten zu reflektieren:
Wetterdaten (wie Temperatur, Luftdruck oder Windgeschwindigkeit) werden seit Jahrzehnten weltweit standardisiert erfasst. Die verwendeten Messinstrumente sind technisch ausgereift, gut kalibriert und liefern in der Regel konsistente Ergebnisse. Aus diesem Grund ist hier nur mit wenigen Ausrei√üern oder Platzhalterwerten zu rechnen.

Bei Schadstoffmessungen (wie PM‚ÇÇ.‚ÇÖ, NO‚ÇÇ oder O‚ÇÉ) sieht die Situation anders aus. Diese Daten werden h√§ufig mit komplexeren Sensoren erhoben, die empfindlicher auf Umwelteinfl√ºsse oder Wartungsprobleme reagieren. Au√üerdem sind Schadstoffmessstationen nicht fl√§chendeckend verf√ºgbar, was zu uneinheitlicher Datenqualit√§t f√ºhren kann. In der Praxis zeigt sich das h√§ufig durch auff√§llige Ausrei√üerwerte oder symbolische Platzhalter wie 500 oder 999, die als Maximalwert oder Fehlwert dienen.

Auf Basis dieser √úberlegungen erwarten wir bei der folgenden Analyse:

- Mehr auff√§llige Werte in den Schadstoffvariablen
- Weniger (aber nicht zwingend keine) Ausrei√üer bei den Wetterdaten

Diese Hypothese best√§tigt sich auch in der Auswertung.

Entsprechend dieser Erwartung wurde das methodische Vorgehen angepasst:

- Die Schadstoffvariablen wurden einzeln analysiert ‚Äì mit Stripplots, Schiefe-Werten und einer individuellen Beurteilung der Ausrei√üerstruktur.

- Bei den Wettervariablen wurde ‚Äì unter Ber√ºcksichtigung ihrer geringeren Anf√§lligkeit f√ºr Messfehler ‚Äì eine automatisierte Analyse mittels Schleife durchgef√ºhrt, die Kennzahlen berechnet und visualisiert, um dennoch potenzielle Ausrei√üer strukturiert erkennen und ggf. entfernen zu k√∂nnen.

Die Entscheidungen, wo jeweils der Schwellenwerte  f√ºr die Ausrei√üerentfernung gesetzt wird, sind nicht rein statistisch begr√ºndet (z.B. 99,99-Quantil als Cutoff), sondern werden f√ºr jedes Feature individuell getroffen. Ziel der Ausrei√üerentfernung ist es, sachlich unm√∂gliche Werte zu entfernen, die nat√ºrliche Varianz zu erhalten und einen repr√§sentativen Datensatz f√ºr folgende Modellierungen zu schaffen.

Methode zur Ausrei√üerentfernung: Zur Datenbereinigung wurden extreme Ausrei√üer in den Schadstoffwerten nicht durch das Entfernen ganzer Zeilen, sondern durch das gezielte Ersetzen der jeweiligen Zellen mit NaN behandelt. So bleiben andere valide Messwerte in der gleichen Zeile erhalten.

# Analyse der Schadstoffdaten

In [None]:
# Pollutants

pollutant_cols = ["Co", "Pm25", "Pm10", "So2", "No2", "O3"]
df[pollutant_cols].describe().T


Die Messwerte, die als Maxima angegeben sind (Co = 500 oder Pm25 = 999) lassen Platzhalter f√ºr fehlende oder ung√ºltige Daten vermuten. Solche Werte k√∂nnen die Verteilung erheblich verzerren und sollten im Folgenden genau in Augenschein genommen werden.

Damit die Anzahl der entfernten Ausrei√üer ermittelt werden kann, muss vor der Aurei√üerentfernung deren Anzahl ermittelt und gespeichert werden:

In [None]:
# Vor der Bereinigung: fehlende Werte z√§hlen
missing_before = df.isna().sum()

# Gesamtgr√∂√üe des df speichern, um sp√§ter den Prozentsatz an durch Ausrei√üerentfernung verlorenen Werten zu berechnen
total_values_before = df.shape[0] * df.shape[1]

## Mittelgro√üe Feinstaubpartikel (Pm25)

"Die als Feinstaub (PM2,5) bezeichnete Staubfraktion enth√§lt 50% der Teilchen mit einem Durchmesser von 2,5 ¬µm, einen h√∂heren Anteil kleinerer Teilchen und einen niedrigeren Anteil gr√∂√üerer Teilchen." (https://www.umweltbundesamt.at/umweltthemen/luft/luftschadstoffe/staub/pm25)


In [None]:
sns.stripplot(x=df["Pm25"], size=2, jitter=0.3)
plt.title("PM2.5 Einzelwerte")
plt.xlabel("PM2.5-Konzentration (¬µg/m¬≥)")
plt.grid(True);

Bei der visuellen Analyse der PM2.5-Messwerte f√§llt eine ungew√∂hnliche H√§ufung im Bereich zwischen 816 und 834 ¬µg/m¬≥ auf, begleitet von vereinzelten extrem hohen Werten bei 981 und 999 ¬µg/m¬≥. Diese Werte liegen deutlich au√üerhalb des realistischen Messbereichs und deuten auf Messfehler, Platzhalterwerte oder systembedingte √úbertragungsfehler hin. Um die Analyse nicht zu verzerren, werden daher alle PM2.5-Werte ab 816 ¬µg/m¬≥ ausgeschlossen.

In [None]:
# PM2.5 >= 816
df.loc[df["Pm25"] >= 816, "Pm25"] = np.nan

In [None]:
sns.histplot(df["Pm25"], bins=50)

In [None]:
mean_pm25 = df["Pm25"].mean()
median_pm25 = df["Pm25"].median()
skew_pm25 = skew(df["Pm25"].dropna())

print(f"Mittelwert (mean): {mean_pm25:.2f}")
print(f"Median:            {median_pm25:.2f}")
print(f"Schiefe (Skewness): {skew_pm25:.2f}")

### Verteilung der bereinigten PM2.5-Werte

Die PM2.5-Werte zeigen eine deutlich rechtsschiefe Verteilung. Der Mittelwert liegt bei 53,19 ¬µg/m¬≥, w√§hrend der Median nur 42,00 ¬µg/m¬≥ betr√§gt. Zus√§tzlich ergibt die Berechnung der Schiefe (Skewness) einen Wert von 2,26, was auf eine starke Asymmetrie hindeutet.
Diese rechtsschiefe Verteilung bedeutet, dass der Gro√üteil der Messwerte im unteren Bereich liegt, w√§hrend einige wenige sehr hohe Werte den Mittelwert nach oben ziehen.

Um die Analyse nicht durch technisch bedingte Ausrei√üer zu verzerren, wurden alle PM2.5-Werte ab 816 ¬µg/m¬≥ ausgeschlossen, da sie deutlich au√üerhalb des nat√ºrlichen Messbereichs liegen und teilweise systematisch auftraten (Platzhalterwerte).

## Kohlenmonoxid (CO)

"Kohlenmonoxid (CO) ist ein farb-, geruch- und geschmackloses Gas, das bei der unvollst√§ndigen Verbrennung von Brenn- und Treibstoffen entsteht. Es bildet sich, wenn bei Verbrennungsprozessen zu wenig Sauerstoff zur Verf√ºgung steht. In h√∂heren Konzentrationen wirkt CO als starkes Atemgift." (https://www.umweltbundesamt.de/themen/luft/luftschadstoffe-im-ueberblick/kohlenmonoxid)

In [None]:
sns.stripplot(x=df["Co"], size=2, jitter=0.3)
plt.title("CO Einzelwerte")
plt.xlabel("CO-Konzentration (¬µg/m¬≥)")
plt.grid(True);

In [None]:
mean_co = df["Co"].mean()
median_co = df["Co"].median()
skew_co = skew(df["Co"].dropna())

print(f"Mittelwert (mean): {mean_co:.2f}")
print(f"Median:            {median_co:.2f}")
print(f"Schiefe:           {skew_co:.2f}")

In [None]:
# CO > 300 oder CO == 500 ‚Üí als NaN
df.loc[df["Co"] >= 300, "Co"] = np.nan

### Verteilung der bereinigten CO-Werte

Die Verteilung der CO-Messwerte ist stark rechtsschief, mit einem Mittelwert von 4.74 ¬µg/m¬≥, einem Median von 3.40 ¬µg/m¬≥ und einer Schiefe von 29.64. Dies deutet auf extreme Ausrei√üer hin, die den Mittelwert erheblich verzerren. Zus√§tzlich tritt eine auff√§llige H√§ufung exakt bei 500 ¬µg/m¬≥ auf, was sehr wahrscheinlich ein technischer Platzhalterwert ist.

Um die Aussagekraft der Analyse zu erh√∂hen, wurden daher alle Werte ab 300 ¬µg/m¬≥ ausgeschlossen. Dieser Grenzwert liegt deutlich oberhalb der Hauptverteilung und entfernt technische Ausrei√üer, aber auch extreme realistische Einzelwerte.

## Stickstoffdioxid (No2)

"Stickstoffdioxid (NO2) ist ein √§tzendes Reizgas, es sch√§digt unmittelbar das Schleimhautgewebe im gesamten Atemtrakt und kann auch die Augen reizen. Stickstoffdioxid zeigt eine st√§rkere sch√§dliche Wirkung als Stickstoffmonoxid (NO), weshalb Stickstoffdioxid im Zentrum der Bem√ºhungen um saubere Luft steht. [...] Die mittelbare Wirkung des Stickstoffdioxids auf die menschliche Gesundheit besteht in seiner Eigenschaft als Vorl√§ufersubstanz f√ºr die Bildung von Feinstaub." (https://www.umweltbundesamt.de/service/uba-fragen/wie-wirken-sich-stickstoffoxide-auf-die-menschliche)

In [None]:
sns.stripplot(x=df["No2"], size=2, jitter=0.3)
plt.title("NO‚ÇÇ Einzelwerte")
plt.xlabel("NO‚ÇÇ-Konzentration (¬µg/m¬≥)")
plt.grid(True);

In [None]:
mean_no2 = df["No2"].mean()
median_no2 = df["No2"].median()
skew_no2 = skew(df["No2"].dropna())

print(f"Mittelwert (mean): {mean_no2:.2f}")
print(f"Median:            {median_no2:.2f}")
print(f"Schiefe:           {skew_no2:.2f}")

In [None]:
# NO2 >= 300 oder == 500
df.loc[df["No2"] >= 300, "No2"] = np.nan

### Bereinigung der NO‚ÇÇ-Werte
Die NO‚ÇÇ-Werte zeigen eine stark rechtsschiefe Verteilung, mit einem Mittelwert von 10.55 ¬µg/m¬≥, einem Median von 8.40 ¬µg/m¬≥ und einer Schiefe von 10.08. Die gro√üe Mehrheit der Messwerte liegt unterhalb von 120 ¬µg/m¬≥, w√§hrend einzelne Ausrei√üer bis 425 ¬µg/m¬≥ reichen. 

Zus√§tzlich tritt eine auff√§llige H√§ufung bei 500 ¬µg/m¬≥ auf, was sehr wahrscheinlich auf technische Platzhalterwerte zur√ºckzuf√ºhren ist.
Um die Analyse nicht durch extreme Einzelwerte zu verzerren, wurden alle NO‚ÇÇ-Werte ab 300 ¬µg/m¬≥ ausgeschlossen.

## Schwefeldioxid (So2)

"Schwefeldioxid (SO2) ist ein farbloses, stechend riechendes, wasserl√∂sliches Gas, das Mensch und Umwelt beeintr√§chtigt. In der Atmosph√§re aus Schwefeldioxid entstehende Sulfatpartikel tragen zudem zur Belastung mit Feinstaub (PM10) bei." (https://www.umweltbundesamt.de/themen/luft/luftschadstoffe-im-ueberblick/schwefeldioxid)

In [None]:
sns.stripplot(x=df["So2"], size=2, jitter=0.3)
plt.title("SO‚ÇÇ Einzelwerte")
plt.xlabel("SO‚ÇÇ-Konzentration (¬µg/m¬≥)")
plt.grid(True);

In [None]:
mean_so2 = df["So2"].mean()
median_so2 = df["So2"].median()
skew_so2 = skew(df["So2"].dropna())

print(f"Mittelwert (mean): {mean_so2:.2f}")
print(f"Median:            {median_so2:.2f}")
print(f"Schiefe:           {skew_so2:.2f}")

Es zeigt sich eine auff√§llige Punktelinie zwischen 300 und 400, die einen technischen Maximalwert bestimmter Messger√§te vermuten l√§sst. Wo genau liegt diese Linie?

In [None]:
df["So2"].value_counts().sort_index(ascending=False).head(10)

In [None]:
# SO2 >= 352 oder == 500
df.loc[df["So2"] >= 352, "So2"] = np.nan

### Bereinigung der SO‚ÇÇ-Werte
Die Variable So2 misst die t√§gliche Schwefeldioxidkonzentration in ¬µg/m¬≥. Die Verteilung ist stark rechtsschief (Skewness = 25.75) mit einem Median von 2.5 ¬µg/m¬≥ und einem Mittelwert von 3.98 ¬µg/m¬≥.

Der Gro√üteil der Werte liegt im Bereich von 0 bis 70 ¬µg/m¬≥, wobei sich oberhalb dieses Bereichs eine kontinuierlich abnehmende Streuung zeigt.

Ab etwa 220 ¬µg/m¬≥ tritt eine leichte H√§ufung auf, bei 352 ¬µg/m¬≥ eine weitere, und bei 500 ¬µg/m¬≥ zeigt sich eine deutliche Punktelinie ‚Äì vermutlich ein technischer Maximalwert oder Platzhalter.

Zur Verbesserung der Datenqualit√§t und Modellierbarkeit wurde ein Cutoff bei 352 ¬µg/m¬≥ gesetzt.
Alle Werte oberhalb dieses Grenzwerts wurden durch NaN ersetzt.

## Analyse und Bereinigung der O3-Werte

"Das farblose und giftige Gas Ozon ist eines der wichtigsten Spurengase in der Atmosph√§re. [...] In Bodenn√§he auftretendes Ozon wird nicht direkt freigesetzt, sondern bei intensiver Sonneneinstrahlung durch komplexe photochemische Prozesse aus Vorl√§uferschadstoffen ‚àí √ºberwiegend Stickstoffoxiden und fl√ºchtigen organischen Verbindungen ‚àí gebildet. Ozon wird deshalb als sekund√§rer Schadstoff bezeichnet." (https://www.umweltbundesamt.de/themen/luft/luftschadstoffe-im-ueberblick/ozon)

In [None]:
sns.stripplot(x=df["O3"], size=2, jitter=0.3)
plt.title("O3 Einzelwerte")
plt.xlabel("O3-Konzentration (¬µg/m¬≥)")
plt.grid(True);

In [None]:
mean_o3 = df["O3"].mean()
median_o3 = df["O3"].median()
skew_o3 = skew(df["O3"].dropna())

print(f"Mittelwert (mean): {mean_o3:.2f}")
print(f"Median:            {median_o3:.2f}")
print(f"Schiefe:           {skew_o3:.2f}")

In [None]:
df["O3"].value_counts().sort_index(ascending=False).head(20)

In [None]:
# O3 >= 323.5 oder == 500
df.loc[df["O3"] >= 323.5, "O3"] = np.nan

### Bereinigung der Ozon-Werte (O‚ÇÉ)
Die Ozonwerte (O3) zeigen eine stark rechtsschiefe Verteilung mit einer Skewness von 13.71. Der Median liegt bei 19.90 ¬µg/m¬≥, der Mittelwert bei 20.46 ¬µg/m¬≥ ‚Äì was nahe beieinander liegt, aber durch einige hohe Ausrei√üer leicht verzerrt wird.

Im oberen Bereich der Verteilung ist eine ausgepr√§gte Punktelinie bei 395 ¬µg/m¬≥ erkennbar, mit 36 identischen Messwerten. Zudem zeigt sich eine gro√üe H√§ufung bei 500 ¬µg/m¬≥ mit 536 Eintr√§gen ‚Äì ein starkes Indiz f√ºr technische Grenzwerte oder Platzhalterwerte.

Zwischen 323.5 ¬µg/m¬≥ und 381 ¬µg/m¬≥ besteht eine auff√§llige L√ºcke, was darauf hinweist, dass oberhalb von 323.5 keine kontinuierliche nat√ºrliche Streuung mehr vorhanden ist.

‚Üí Es wurde ein Cutoff bei 323.5 ¬µg/m¬≥ gesetzt.
Alle Werte oberhalb dieses Grenzwerts wurden durch NaN ersetzt.

## Analyse und Bereinigung der Pm10-Werte

"Als Feinstaub (‚Å†PM10‚Å†) bezeichnet man Partikel mit einem aerodynamischen Durchmesser von weniger als 10 Mikrometer (¬µm). Der gr√∂√üte Teil der anthropogenen Feinstaubemissionen stammt aus Verbrennungsvorg√§ngen (Kfz-Verkehr, Geb√§udeheizung) und Produktionsprozessen inkl. Sch√ºttgutumschlag. [...] Feinstaub wird nicht nur direkt emittiert (prim√§re Partikel) sondern bildet sich auch aus Vorl√§uferstoffen (unter anderem aus Schwefeldioxid, Stickstoffoxid und Ammoniak) in der Atmosph√§re (sekund√§re Partikel)." (https://www.umweltbundesamt.de/daten/luft/luftschadstoff-emissionen-in-deutschland/emission-von-feinstaub-der-partikelgroesse-pm10#was-ist-feinstaub)

In [None]:
sns.stripplot(x=df["Pm10"], size=2, jitter=0.3)
plt.title("Pm10 Einzelwerte")
plt.xlabel("Pm10-Konzentration (¬µg/m¬≥)")
plt.grid(True);

In [None]:
df["Pm10"].describe()

In [None]:
mean_pm10 = df["Pm10"].mean()
median_pm10 = df["Pm10"].median()
skew_pm10 = skew(df["Pm10"].dropna())

print(f"Mittelwert (mean): {mean_pm10:.2f}")
print(f"Median:            {median_pm10:.2f}")
print(f"Schiefe:           {skew_pm10:.2f}")

In [None]:
# Wo beginnt die H√§ufung bei der breiten Linie im Ausrei√üerbereich (ca. 820-840)?

df["Pm10"].value_counts().loc[lambda x: x.index > 850].sort_index()


In [None]:
# "Datenmauer" plotten (nicht wirklich n√∂tig, aber "Nice to have" f√ºr Leute, die gerne Visualisierungen m√∂gen...)

high_values = df["Pm10"][df["Pm10"] > 800]
sns.histplot(high_values, binwidth=1)
plt.title("H√§ufigkeit der PM10-Werte > 800")
plt.xlabel("PM10-Wert (¬µg/m¬≥)")
plt.ylabel("Anzahl")
plt.grid(True)
plt.show()


In [None]:
# PM10 >= 867
df.loc[df["Pm10"] >= 867, "Pm10"] = np.nan


### Bereinigung der PM10-Werte
Die PM10-Werte zeigen eine deutlich rechtsschiefe Verteilung mit einem Mittelwert von 32.43 ¬µg/m¬≥, einem Median von 24.00 ¬µg/m¬≥ und einer Schiefe von 7.17. Der gr√∂√üte Teil der Messwerte liegt unterhalb von 200 ¬µg/m¬≥, mit einer kontinuierlich abnehmenden Dichte bis in den Bereich von ca. 850 ¬µg/m¬≥.

Eine detaillierte Analyse der Einzelwertverteilung ergab jedoch eine auff√§llige H√§ufung von Messwerten im Bereich 867‚Äì882 ¬µg/m¬≥, insbesondere 40 Messungen mit dem identischen Wert 867. Diese systematische H√§ufung spricht stark f√ºr einen technisch bedingten Fehler oder k√ºnstlich begrenzte Wertebereiche. Zus√§tzlich tritt der Platzhalterwert 999 33 Mal auf.

Um die Analyse nicht durch diese systematischen Verzerrungen zu beeinflussen, wurden alle PM10-Werte ab 867 ¬µg/m¬≥ aus dem Datensatz ausgeschlossen.

### Vergleich Anzahl fehlender Werte vor und nach der Ausrei√üerentfernung (Schadstoffe)

In [None]:
missing_after = df.isna().sum()
outliers_removed = missing_after - missing_before

outlier_table = pd.DataFrame({
    "Missing Before": missing_before,
    "Missing After": missing_after,
    "Outliers Replaced": missing_after - missing_before
})

# Nur Zeilen anzeigen, in denen tats√§chlich Ausrei√üer ersetzt wurden - alos die Schadstoff-Spalten
outlier_table_filtered = outlier_table[outlier_table["Outliers Replaced"] != 0]

outlier_table_filtered

In [None]:
# Wieviele Daten (%) wurden durch Ausrei√üerentfernung verloren?
missing_before_total = missing_before.sum()
missing_after_total = missing_after.sum()
outliers_total = missing_after_total - missing_before_total
outlier_percent = outliers_total / total_values_before * 100

print(f"Anzahl ersetzter Ausrei√üer: {outliers_total:,}")
print(f"Prozentualer Anteil der ersetzten Ausrei√üer: {outlier_percent:.4f}%")

Durch das Entfernen klar identifizierter Ausrei√üer **in den Schadstoffvariablen** wurden lediglich 0.0041‚ÄØ% der Datenpunkte ersetzt.
Der Datensatz wurde dadurch kaum reduziert, ist aber nun robuster gegen√ºber Verzerrungen, was insbesondere f√ºr Machine-Learning-Modelle, Visualisierungen und Clusteranalysen von Vorteil ist.

# Analyse und Bereinigung der Wettervariablen
Analog zum Vorgehen bei den Schadstoffen werden im Folgenden alle Wettervariablen untersucht und ggf. Platzhalterwerte und starke Ausrei√üer durch NaN ersetzt.

Anmerkung: Man K√ñNNTE auch nur die Platzhalterwerte durch NaN ersetzten und die Ausrei√üer gesondert kennzeichen. Aber darauf wird jetzt erst einmal verzichtet.

Die Wettervariablen werden in einer Schleife am St√ºck abgehandelt. Da das Setzen der Grenzwerte und das Entfernen von Ausrei√üern f√ºr jede Variable individuell entscheiden werden sollte, um m√∂glichst alle realistischen Werte zu erhalten, wir dieser Schritt nachgelagert.


In [None]:
# Save percentage of missing values before manipulatiing weather data
missing_before_weather = df.isna().sum()
total_values_before_weather = df.shape[0] * df.shape[1]


In [None]:
df[["Tavg", "Tmin", "Tmax", "Humidity", "Wspd", "Wdir", "Pres", "Prcp", "Dew"]].describe()


## Auswertung von describe()

| Spalte | Bedingung f√ºr NaN                     | Begr√ºndung |
|:-------|:--------------------------------------|:-----------|
|Tavg    |                                       |                              |
|Tmin    |                                       |                          |
|Tmax	 |Tmax > 60	                             |gemessenes Maximum weit √ºber weltweit beobachtete Temperaturen|
|Humidity|Humidity < 0 oder > 100                |physikalisch unm√∂glich / Platzhalter |
|Wspd	 |erst visuell pr√ºfen, dann ggf. > 150   |Hurrikan-Grenze, h√∂here Werte f√ºr einzelen B√∂en m√∂glich aber selten |
|Wdir    |<0 oder >360                           |Windrichtung wird in Winkelgrad gemessen |
|Pres	 |Pres > 1100	                         |Maximum ungew√∂hnlich hoch ‚Üí Messfehler m√∂glich |
|Prcp	 |                                       |plausible Naturverteilung, visuell pr√ºfen
|Dew	 |ggf. ab ‚Äì70 pr√ºfen                     |tendenziell realistisch, vorsichtiger Umgang


# Schleife f√ºr Wettervariablen

In [None]:
weather_columns = ["Tavg", "Tmin", "Tmax", "Humidity", "Wspd", "Wdir", "Pres", "Prcp", "Dew"]

for col in weather_columns:
    print(f"\nüìä Analyse f√ºr: {col}")
    
    # Stripplot
    plt.figure(figsize=(10, 2))
    sns.stripplot(x=df[col], size=2, jitter=0.3)
    plt.title(f"{col} ‚Äì Einzelwerte")
    plt.grid(True)
    plt.xlabel(f"{col}-Wert")
    plt.show()
    
    # Statistische Kennzahlen
    mean_val = df[col].mean()
    median_val = df[col].median()
    skew_val = df[col].skew()
    min_val = df[col].min()
    max_val = df[col].max()
    
    print(f"Mean:   {mean_val:.2f}")
    print(f"Median: {median_val:.2f}")
    print(f"Skew:   {skew_val:.2f}")
    print(f"Min:    {min_val:.2f}")
    print(f"Max:    {max_val:.2f}")
    
    # Cutoff-Vorschlag (nur zur Orientierung)
    cutoff = df[col].quantile(0.999)
    print(f"99.9%-Quantil (statistical suggestion only!): {cutoff:.2f}")


### Cutoffbestimmung und Ausrei√üerentfernung f√ºr Wettervariablen

F√ºr Variablen, bei denen der Stripplot keine eindeutige Auskunft gibt, wird der Cutoff-Wert durch einen Blick auf die betreffenden Messwerte bestimmt:

In [None]:
# Cutoff f√ºr Tmax genauer bestimmen; oberste 10 Messwerte anschauen:
df["Tmax"].value_counts().sort_index(ascending=False).head(10)

# --> Cutoff bei 60 Grad

In [None]:
# Wie entsteht der "gestrichelte" Eindruck im Stripplot f√ºr den Taupunkt? Gibt es mehrhheitlich ganzzahlige Messwerte?
df["Dew"].dropna().apply(lambda x: x.is_integer()).value_counts()

# --> Vermutlich geben die meisten Messger√§te nur ganzzahlige Werte aus

In [None]:
# Tmax: realistische Obergrenze bei 60¬∞C
df.loc[df["Tmax"] > 60, "Tmax"] = np.nan

# Humidity: alles < 0 oder > 100 ist physikalisch nicht (bzw. √ºber 100% nur SEHR kurzzeitig) m√∂glich
df.loc[(df["Humidity"] < 0) | (df["Humidity"] > 100), "Humidity"] = np.nan

# Wspd: Werte > 150 km/h (Orkangrenze) sind extrem selten
df.loc[df["Wspd"] > 150, "Wspd"] = np.nan

# Pres: zwei Ausrei√üer √ºber 1100 hPa, vermutlich technisches Problem
df.loc[df["Pres"] > 1100, "Pres"] = np.nan

# Prcp: 2 extreme Ausrei√üer, im Prinzip m√∂glich, aber f√ºr Modelle ung√ºnstig und f√ºr den Gesamtdatensatz nicht repr√§sentativ
df.loc[df["Prcp"] > 400, "Prcp"] = np.nan

# Dew: Werte von -40 bis 32 sind zu erwarten; mit diesen Schwellenwerten werden nur wenige Extremwerte entfernt
df.loc[(df["Dew"] < -40) | (df["Dew"] > 32), "Dew"] = np.nan

## Ausf√ºhrliche Beschreibung der Wettervariablen

üå°Ô∏è Tavg ‚Äì Durchschnittstemperatur

Die Variable Tavg beschreibt die durchschnittliche t√§gliche Temperatur. Die Verteilung ist leicht linksschief mit einem Skewness-Wert von ‚Äì0.38. Der Mittelwert betr√§gt 15.38‚ÄØ¬∞C, der Median liegt bei 15.90‚ÄØ¬∞C, was auf eine weitgehend symmetrische Verteilung mit leichtem √úbergewicht k√§lterer Temperaturen hinweist.

Ein Blick auf den Stripplot zeigt, dass sich alle Werte im realistisch meteorologischen Bereich befinden:

- Das Minimum liegt bei ca. ‚Äì42‚ÄØ¬∞C, was in sehr kalten Regionen (z.‚ÄØB. in Sibirien oder Teilen Kanadas) durchaus auftreten kann.
- Das Maximum liegt bei ca. 50‚ÄØ¬∞C, was mit bekannten Hitzerekorden weltweit vereinbar ist.

Das 99.9%-Quantil liegt bei 38.30‚ÄØ¬∞C. Dennoch wurde bewusst kein Grenzwert (Cutoff) gesetzt, da keine eindeutig unrealistischen Ausrei√üer erkennbar sind.

‚Üí Es wurden keine Werte entfernt oder als Ausrei√üer markiert.

---

üå°Ô∏è Tmin ‚Äì Tagestiefsttemperatur

Die Variable Tmin beschreibt die t√§gliche Tiefsttemperatur. Die Verteilung zeigt mit einer Schiefe von ‚Äì0.32 eine leichte Linksschiefe, was auf ein geringf√ºgiges √úbergewicht sehr kalter Tage hinweist.
Der Mittelwert betr√§gt 10.82‚ÄØ¬∞C, der Median 11.00‚ÄØ¬∞C, was auf eine insgesamt symmetrische Verteilung ohne nennenswerte Verzerrungen schlie√üen l√§sst.

Der Stripplot zeigt eine nat√ºrliche, kontinuierliche Verteilung der Messwerte.

- Das Minimum liegt bei ‚Äì46‚ÄØ¬∞C, was in kalten Klimazonen realistisch ist.
- Das Maximum bei 39‚ÄØ¬∞C ist ungew√∂hnlich hoch f√ºr eine Tiefsttemperatur, aber unter besonderen Bedingungen (z.‚ÄØB. Hitzewellen) m√∂glich.
- Das 99.9%-Quantil liegt bei 32.4‚ÄØ¬∞C, wodurch nur sehr wenige extrem hohe Werte √ºberhaupt betroffen w√§ren.

Insgesamt zeigen sich keine auff√§lligen Ausrei√üer oder technische Artefakte.

‚Üí Es wurden keine Werte entfernt oder ersetzt.

---

üå°Ô∏è Tmax ‚Äì Tagesh√∂chsttemperatur

Die Variable Tmax beschreibt die t√§gliche H√∂chsttemperatur.
Die Verteilung ist mit einem Skewness-Wert von ‚Äì0.37 leicht linksschief.
Der Mittelwert betr√§gt 20.38‚ÄØ¬∞C, der Median liegt bei 21.10‚ÄØ¬∞C ‚Äì die Verteilung ist insgesamt gut balanciert.

Der Stripplot zeigt einen realistischen Verlauf im Bereich zwischen ca. ‚Äì37‚ÄØ¬∞C und 50‚ÄØ¬∞C, wobei sich oberhalb von 50‚ÄØ¬∞C vereinzelte Werte h√§ufen. Eine genauere Pr√ºfung der 20 h√∂chsten Werte ergab jedoch drei offensichtliche Ausrei√üer:
‚Üí 60‚ÄØ¬∞C, 76‚ÄØ¬∞C und 87‚ÄØ¬∞C ‚Äì allesamt deutlich √ºber bekannten meteorologischen Rekorden.

‚Üí Als Grenzwert wurde daher ein Cutoff bei 60‚ÄØ¬∞C gesetzt. Drei Werte oberhalb dieses Grenzwerts wurden durch NaN ersetzt.

---

üíß Humidity ‚Äì Relative Luftfeuchtigkeit

Die Variable Humidity beschreibt die relative Luftfeuchtigkeit in Prozent.
Die Verteilung ist extrem linksschief mit einer Skewness von ‚Äì27.84, was auf starke Ausrei√üer im negativen und sehr hohen Bereich hindeutet.

Die realistischen Messwerte liegen zwischen 0‚ÄØ% und 100‚ÄØ%.
Der Stripplot zeigt jedoch vereinzelte, stark auff√§llige Werte:

- Das Minimum betr√§gt ‚Äì2671.1‚ÄØ%, was physikalisch unm√∂glich ist
- Das Maximum liegt bei 999.9‚ÄØ%, h√∂chstwahrscheinlich ein Platzhalterwert

‚Üí Es wurde daher ein Grenzbereich von 0‚ÄØ% bis 100‚ÄØ% definiert.
Alle Werte au√üerhalb dieses Intervalls wurden durch NaN ersetzt.

---

üí® Wspd ‚Äì Windgeschwindigkeit

Die Variable Wspd beschreibt die t√§gliche durchschnittliche Windgeschwindigkeit in km/h.
Die Verteilung zeigt eine leichte Rechtsschiefe mit einem Skewness-Wert von 1.51.
Der Mittelwert liegt bei 11.34‚ÄØkm/h, der Median bei 10.00‚ÄØkm/h, was auf einen leicht asymmetrischen, aber plausiblen Verlauf hindeutet.

Der Stripplot zeigt, dass die meisten Messwerte zwischen 0 und 45‚ÄØkm/h liegen, mit ausd√ºnnender Streuung nach oben ‚Äì was meteorologisch zu erwarten ist.
Drei auff√§llige Extremwerte oberhalb von 150‚ÄØkm/h wurden identifiziert, der Maximalwert liegt bei 176.3‚ÄØkm/h. Solche Werte sind theoretisch m√∂glich (z.‚ÄØB. bei Orkanen), aber im Kontext dieser Analyse nicht repr√§sentativ.

‚Üí Es wurde ein Cutoff bei 150‚ÄØkm/h gesetzt.
Drei Werte oberhalb dieses Grenzwerts wurden durch NaN ersetzt.

---

üå¨Ô∏è Pres ‚Äì Luftdruck

Die Variable Pres beschreibt den t√§glichen Luftdruck in hPa. Die Verteilung ist mit einer Skewness von ‚Äì0.04 nahezu symmetrisch, was auf eine ausgewogene, realistische Verteilung hinweist.
Der Mittelwert liegt bei 1015.15 hPa, was nahe am physikalischen Normaldruck (1013 hPa) liegt.

Ein Blick auf die Extremwerte zeigt:

- Minimum: 925.2 hPa ‚Äì plausibel, z.‚ÄØB. bei Tiefdrucklagen
- Maximum: 1392.1 hPa ‚Äì stark unrealistisch, deutlich √ºber bekannten Rekorden

‚Üí Es wurde ein Cutoff bei 1100 hPa gesetzt.
Zwei klare Ausrei√üer oberhalb dieses Grenzwerts wurden durch NaN ersetzt.

---

üåßÔ∏è Prcp ‚Äì Niederschlag

Die Variable Prcp beschreibt die t√§gliche Niederschlagsmenge in mm. Die Verteilung ist mit einer Skewness von 8.21 stark rechtsschief:

- An √ºber der H√§lfte aller Tage wurde kein Niederschlag gemessen (Median: 0.0 mm).
- Einzelne Starkregenereignisse f√ºhren zu hohen Maximalwerten (bis zu 462 mm), die jedoch extrem selten sind.

‚Üí Zur Vermeidung einer √ºberm√§√üigen Verzerrung der Analyse wurde ein Cutoff bei 400 mm gesetzt.
Zwei ungew√∂hnlich hohe Werte oberhalb dieses Grenzwerts wurden durch NaN ersetzt.

---

üíß Dew ‚Äì Taupunkt

Die Variable Dew beschreibt den t√§glichen Taupunkt in ¬∞C ‚Äì also die Temperatur, bei der die Luft mit Wasserdampf ges√§ttigt ist.
Die Werte zeigen eine leicht linksschiefe Verteilung mit einer Skewness von ‚Äì0.37.
Mittelwert und Median liegen nahe beieinander (9.69‚ÄØ¬∞C bzw. 10.00‚ÄØ¬∞C), was auf eine insgesamt ausgewogene Verteilung hindeutet.

Der Stripplot vermittelt einen ‚Äûgest√ºckelten‚Äú Eindruck, da etwa zwei Drittel der Werte ganzzahlig sind ‚Äì vermutlich durch vorverarbeitete oder gerundete Messdaten. Ein gutes Drittel liegt jedoch im nicht-ganzzahligen Bereich, was unterschiedliche Genauigkeitsstufen in den Datenquellen vermuten l√§sst.

Zur Erkennung potenzieller Ausrei√üer wurden die physikalisch plausiblen Grenzwerte des Taupunkts ber√ºcksichtigt:

- Oberhalb von 32‚ÄØ¬∞C (tropisch-feucht) und
- Unterhalb von ‚Äì40‚ÄØ¬∞C (polar-trocken) sind reale Messwerte zwar nicht unm√∂glich, aber extrem selten.

‚Üí Es wurde ein Cutoff bei ‚Äì40‚ÄØ¬∞C und +32‚ÄØ¬∞C gesetzt. Werte au√üerhalb dieses Bereichs wurden durch NaN ersetzt.


### Vergleich Anzahl fehlender Werte vor und nach der Ausrei√üerentfernung (Wetter)

In [None]:
missing_after_weather = df.isna().sum()
outliers_weather = missing_after_weather - missing_before_weather

outlier_weather_table = pd.DataFrame({
    "Missing Before": missing_before_weather,
    "Missing After": missing_after_weather,
    "Outliers Replaced": outliers_weather
})

# Nur Zeilen anzeigen, in denen tats√§chlich Ausrei√üer ersetzt wurden - alos die Schadstoff-Spalten
outlier_weather_table_filtered = outlier_weather_table[outlier_weather_table["Outliers Replaced"] != 0]

outlier_weather_table_filtered

In [None]:
missing_before_total_weather = missing_before_weather.sum()
missing_after_total_weather = missing_after_weather.sum()
outliers_total_weather = missing_after_total_weather - missing_before_total_weather
outlier_percent_weather = outliers_total_weather / total_values_before_weather * 100

print(f"Anzahl ersetzter Ausrei√üer (Wetterdaten): {outliers_total_weather:,}")
print(f"Prozentualer Anteil der ersetzten Ausrei√üer: {outlier_percent_weather:.4f}%")


Durch das Entfernen klar identifizierter Ausrei√üer **in den Wettervariablen** wurden lediglich 0.001‚ÄØ% der Datenpunkte ersetzt.
Der Datensatz wurde dadurch kaum reduziert, ist aber nun robuster gegen√ºber Verzerrungen, was insbesondere f√ºr Machine-Learning-Modelle, Visualisierungen und Clusteranalysen von Vorteil ist.

In [None]:
df.to_csv("data/cleaned_air_quality_data_2025_03_25.csv", index=False)

# 3. Korrelationsanalysen

## 3.1 Korrelationsmatrix (Pearson)

Die Matrix enth√§lt alle numerischen Features aus dem Datensatz. Als Ma√üstab f√ºr die St√§rke einer Korrelation werden folgende Werte angesetzt:

\> 0.8 = strong correlation

0.4 - 0.8 = moderate correlation

< 0.4 = weak correlation

In [None]:

# calculate correlation matrix (Pearson)
corr_matrix = df.select_dtypes(include=['number']).corr()

# Mask upper triangle
mask = np.triu(np.ones_like(corr_matrix, dtype=bool))

# Display heatmap
plt.figure(figsize=(12, 8))
sns.heatmap(corr_matrix, mask=mask, annot=True, fmt=".2f", cmap="coolwarm", center=0, linewidths=0.5)
plt.title("Feature Correlations (Pearson)");


In [None]:
# Show only strong and moderate correlations (>|0.4|); leave out main diagonal (1.0)

# Calculate matrix
corr_matrix = df.select_dtypes(include=['number']).corr()

# extract only strong and moderate correlations (>|0.4|); leave out main diagonal (1.0)
strong_corrs = corr_matrix[(corr_matrix.abs() > 0.4) & (corr_matrix.abs() < 1.0)]

# Convert df to long list (.stack) and reset index
strong_corrs = strong_corrs.stack().reset_index()
strong_corrs.columns = ["Feature 1", "Feature 2", "Korrelation"]

# remove redundant rows (note: the "<"-sign here refers to alphabetic order of feature names, not to numbers of any kind!)
strong_corrs = strong_corrs.loc[strong_corrs["Feature 1"] < strong_corrs["Feature 2"]]

strong_corrs

## Interpretation der Korrelationen und Vorschl√§ge f√ºr weitere Analysen

Die Korrelationsmatrix zeigt mehrere starke und inhaltlich gut erkl√§rbare Zusammenh√§nge zwischen den numerischen Variablen. Besonders deutlich sind folgende Muster:

**Feinstaub- und Stickstoffdioxidwerte h√§ngen zusammen:**
Es besteht eine starke Korrelation zwischen PM10 und PM2.5 (r = 0.83), was plausibel ist, da PM2.5 eine Teilmenge von PM10 ist. Zus√§tzlich korreliert NO‚ÇÇ moderat mit beiden Feinstaubkomponenten (r ‚âà 0.42‚Äì0.48), was auf gemeinsame Emissionsquellen wie Verkehr oder Industrie hindeutet.

**Temperaturvariablen sind stark untereinander korreliert:**
Die Tagesmitteltemperatur (Tavg) steht in sehr engem Zusammenhang mit Tmin und Tmax (r ‚âà 0.97). Auch Tmin und Tmax selbst sind hoch korreliert (r = 0.90). Das ist mathematisch und physikalisch naheliegend und spricht daf√ºr, nicht alle drei Variablen gleichzeitig zu verwenden, um Redundanz zu vermeiden.

**Der Taupunkt (Dew) korreliert stark mit Temperatur:**
Die st√§rkste Korrelation liegt zwischen Dew und Tmin (r = 0.87), gefolgt von Tavg (r = 0.82). Dies spiegelt wider, dass die Luftfeuchtigkeit ‚Äì und damit der Taupunkt ‚Äì eng mit der Umgebungstemperatur zusammenh√§ngt.

**Einige schw√§cher negative Korrelationen deuten auf atmosph√§rische Zusammenh√§nge hin:**
Der Luftdruck (Pres) korreliert moderat negativ mit Dew (r = ‚Äì0.43) und Tmin (r = ‚Äì0.42), was mit typischen meteorologischen Prozessen in Zusammenhang stehen kann (z.‚ÄØB. feuchtwarme Luft in Tiefdruckgebieten).

---

Diese Ergebnisse helfen dabei, hoch korrelierte bzw. redundante Variablen zu erkennen und gezielt f√ºr weitere Analysen (z.‚ÄØB. Clusteranalyse oder Modellierung) geeignete Features auszuw√§hlen.

F√ºr viele Verfahren, wie z.‚ÄØB. Clustering oder Regressionsmodelle, ist es ratsam, von stark korrelierten Variablen jeweils nur eine zu verwenden, um Verzerrungen oder sogenannte Multikollinearit√§t zu vermeiden.

Alternativ k√∂nnen Hauptkomponentenanalyse (PCA) oder andere dimensionalit√§tsreduzierende Verfahren genutzt werden, um mehrere stark korrelierte Variablen zu einer gemeinsamen Komponente zusammenzufassen, ohne wesentliche Information zu verlieren.


# 3.2 Pairplot der wichtigsten Feature-Paare

F√ºr eine Pairplot-Analyse werden nur bestimmte Features ausgew√§hlt, bei denen entweder aufgrund von Weltwissen oder der berechneten Korrelationswerte relevante Zusammenh√§nge zu erwarten sind. Diese sind: PM25, PM10, NO‚ÇÇ, O3, CO, Tavg, Humidity, Dew, Pres.

Von diesen werden wiederum nur einzelne Paare getestet: PM10-PM25, NO‚ÇÇ-PM10, NO‚ÇÇ-PM25, Humidity-PM25, O3-Tavg, Tmin-Dew, Pres-Dew, Pres-Tmin.

Die Pairplots werden auf einem repr√§sentativen Sample von 2000 Datenpunkten berechnet.

In [None]:
features = ["Pm25", "Pm10", "No2", "O3", "Co", "Tavg", "Humidity", "Dew", "Pres"]
sample_df = df[features].dropna().sample(n=2000, random_state=42)
sns.pairplot(sample_df, diag_kind="kde", plot_kws={"alpha": 0.4, "s": 15})

Die Histogramme im Pairplot best√§tigen die zuvor berechnete Schiefe vieler Variablen:

Schadstoffe wie Pm25, NO2 und O3 sind erwartungsgem√§√ü rechtsschief verteilt, w√§hrend Temperatur (Tavg), Luftfeuchtigkeit (Humidity) und Taupunkt (Dew) eine leichte Linksschiefe zeigen. Der Luftdruck (Pres) hebt sich durch seine nahezu normalverteilte Form ab.

# √úberpr√ºfung einzelner Variablenpaare mit linearer Regression und/oder LOWESS

Um die Art des Zusammenhangs (lienar oder nicht) zwischen zwei Features eindeutig zu identifizieren, werden sowohl lineare Regression als auch LOWESS (Local Weighted Scatterplot Smoothing) angewendet.

Die Samplegr√∂√üe betr√§gt jeweils 3000 Datenpunkte. Zur Replizierbarkeit wird ein Random State von 42 festgelegt. NaN-Werte werden f√ºr alle Berechnungen entfernt (weil Seaborn damit nicht umgehen kann).

## Zusammenhang zwischen Pm10 und Pm25

Pearson-Koeffizient: 0,83

Pm25 ist eine Teilmenge von Pm10. Sind beide Features relevant f√ºr sp√§tere Modellierungen oder ist eines davon redundant?

In [None]:
subset = df[["Pm10", "Pm25"]].dropna().sample(n=3000, random_state=42)

plt.figure(figsize=(8, 5))
sns.regplot(data=subset, x="Pm10", y="Pm25", lowess=True,
            scatter_kws={"alpha": 0.3, "s": 15},
            line_kws={"color": "crimson"})

plt.title("LOWESS-Regressionskurve: PM10 vs. PM2.5")
plt.xlabel("PM10-Konzentration (¬µg/m¬≥)")
plt.ylabel("PM2.5-Konzentration (¬µg/m¬≥)")
plt.grid(True);

Die LOWESS-Analyse best√§tigt den erwarteten sehr starken linearen Zusammenhang zwischen PM10 und PM2.5.

Im zentralen Bereich steigt PM2.5 nahezu proportional zu PM10, mit nur einer leichten Abflachung bei h√∂heren PM10-Werten.
Diese minimale Abweichung k√∂nnte darauf hindeuten, dass bei sehr hoher Feinstaubbelastung der relative Anteil von groben Partikeln (PM10 ohne PM2.5) etwas zunimmt.

Aufgrund der wenigen Datenpunkte in den extremen Bereichen kann f√ºr diesen keine Belastbare Aussage gemacht werden.

## Zusammenhang zwischen NO2 und PM10

Pearson-Koeffizient: 0,42

Der Zusammenhang sollte √§hnlich sein wie der zwischen No2 und PM25, aber um abzusch√§tzen, ob f√ºr sp√§tere Analysen ein Feature redundant ist, gehen wir mit LOWESS sicher:

In [None]:
subset = df[["No2", "Pm10"]].dropna().sample(n=3000, random_state=42)

plt.figure(figsize=(8, 5))
sns.regplot(data=subset, x="No2", y="Pm10", lowess=True,
            scatter_kws={"alpha": 0.3, "s": 15},
            line_kws={"color": "darkorange"})

plt.title("LOWESS-Regressionskurve f√ºr NO‚ÇÇ und PM10")
plt.xlabel("NO‚ÇÇ-Konzentration (¬µg/m¬≥)")
plt.ylabel("PM10-Konzentration (¬µg/m¬≥)")
plt.grid(True);

Die LOWESS-Analyse des Zusammenhangs zwischen NO‚ÇÇ und PM10 zeigt einen insgesamt positiven Trend, der im Bereich bis etwa 40‚ÄØ¬µg/m¬≥ NO‚ÇÇ weitgehend linear verl√§uft. Ab etwa 40‚ÄØ¬µg/m¬≥ NO‚ÇÇ wird der Zusammenhang flacher, was auf eine S√§ttigung oder zunehmende Streuung hinweisen k√∂nnte. In diesem Bereich sind jedoch nur wenige Datenpunkte vorhanden, sodass der Verlauf der Kurve dort nicht belastbar interpretiert werden sollte.

Eine lineare Regression k√∂nnte im unteren Bereich sinnvoll sein, sollte aber auf den zentralen Wertebereich beschr√§nkt werden.

## Zusammenhang zwischen NO2 und PM25

Pearson-Koeffizient: 0,48

In [None]:
sample_df = df[["No2", "Pm25"]].dropna().sample(n=3000, random_state=42)

plt.figure(figsize=(8, 5))
sns.regplot(data=sample_df, x="No2", y="Pm25",
            scatter_kws={"alpha":0.3, "s":15},
            line_kws={"color": "darkred"})

plt.title("Zusammenhang zwischen NO‚ÇÇ und PM2.5 (Stichprobe)")
plt.xlabel("NO‚ÇÇ-Konzentration (¬µg/m¬≥)")
plt.ylabel("PM2.5-Konzentration (¬µg/m¬≥)")
plt.grid(True)

Der regplot zwischen NO‚ÇÇ und PM2.5 zeigt eine positive lineare Tendenz, was plausibel erscheint, da beide Schadstoffe h√§ufig durch Verkehr oder industrielle Prozesse freigesetzt werden.
Aufgrund der breiten Streuung und fehlender Kontextvariablen ist die Regressionslinie jedoch nicht als kausales Modell, sondern lediglich als explorative Visualisierung einer Korrelation zu verstehen.
Der Konfidenzbereich ist nur f√ºr den Bereich gut, in dem die meisten Messwerte liegen. Problem: Heteroskadastizit√§t.

In [None]:
subset = df[(df["No2"] < 40) & (df["Pm25"] < 200)][["No2", "Pm25"]].dropna().sample(n=3000, random_state=42)

plt.figure(figsize=(8, 5))
sns.regplot(data=subset, x="No2", y="Pm25",
            scatter_kws={"alpha": 0.3, "s": 15},
            line_kws={"color": "darkblue"})

plt.title("Regression innerhalb des zentralen Wertebereichs (No2 < 40, Pm25 < 200)")
plt.xlabel("NO‚ÇÇ-Konzentration (¬µg/m¬≥)")
plt.ylabel("PM2.5-Konzentration (¬µg/m¬≥)")
plt.grid(True);

Nimmt man nur den zentralen Wertebereich heraus, ist eine lineare Verteilung sichtbar, und auch das Konfidenzintervall ist "akzeptabel".

In [None]:
subset = df[["No2", "Pm25"]].dropna().sample(n=3000, random_state=42)

plt.figure(figsize=(8, 5))
sns.regplot(data=subset, x="No2", y="Pm25", lowess=True,
            scatter_kws={"alpha": 0.3, "s": 15},
            line_kws={"color": "mediumvioletred"})

plt.title("LOWESS-Regressionskurve f√ºr NO‚ÇÇ und PM2.5")
plt.xlabel("NO‚ÇÇ-Konzentration (¬µg/m¬≥)")
plt.ylabel("PM2.5-Konzentration (¬µg/m¬≥)")
plt.grid(True)

Die Anwendung von LOWESS auf den gesamten Wertebereich von NO‚ÇÇ und PM2.5 zeigt, dass der Zusammenhang nicht durchg√§ngig linear ist.
Besonders im oberen Wertebereich (ab ~70 ¬µg/m¬≥ NO‚ÇÇ) ist die Punktverteilung zu d√ºnn und uneinheitlich, was zu starken Schwankungen in der Regressionskurve f√ºhrt.
Im zentralen Wertebereich (NO‚ÇÇ < 40, PM2.5 < 200) zeigt sich hingegen ein stabiler, positiver Trend.
F√ºr lineare Analysen ist daher eine Einschr√§nkung auf diesen Bereich sinnvoll.

--> Der Zusammenhang ist also √§hnlich wie der zwischen NO‚ÇÇ und PM10.

## Zusammenhang zwischen Luftfeuchtigkeit (Humidity) und mittelgro√üen Feinstaubpartikeln (Pm25)

Pearson-Koeffizient: 0,13



In [None]:
subset = df[["Humidity", "Pm25"]].dropna().sample(n=3000, random_state=42)

plt.figure(figsize=(8, 5))
sns.regplot(data=subset, x="Humidity", y="Pm25", lowess=True,
            scatter_kws={"alpha": 0.3, "s": 15},
            line_kws={"color": "teal"})

plt.title("LOWESS-Regressionskurve: Luftfeuchtigkeit vs. PM2.5")
plt.xlabel("Relative Luftfeuchtigkeit (%)")
plt.ylabel("PM2.5-Konzentration (¬µg/m¬≥)")
plt.grid(True);

Die LOWESS-Regression zwischen Luftfeuchtigkeit (Humidity) und PM2.5 zeigt, wie erwartet, einen klar negativen Zusammenhang.
Bei niedriger Luftfeuchtigkeit (unter 20‚ÄØ%) liegen die PM2.5-Werte durchschnittlich bei etwa 70‚ÄØ¬µg/m¬≥, w√§hrend sie bei sehr hoher Luftfeuchtigkeit (√ºber 90‚ÄØ%) auf unter 50‚ÄØ¬µg/m¬≥ sinken.

Dieser Verlauf ist nicht ganz linear, sondern flacht bei zunehmender Feuchtigkeit ab ‚Äì ein Hinweis auf s√§ttigende Effekte oder nat√ºrliche Begrenzungen.

Eine lineare Regression w√§re hier m√∂glich, aber nicht unbedingt angemessen ‚Äì LOWESS zeigt die tats√§chliche Struktur des Zusammenhangs besser.

## Zusammenhang zwischen Ozonwert (O3) und Durchnittstemperatur (Tavg)

Pearson-Koeffizient: 0,19

In [None]:
subset = df[["O3", "Tavg"]].dropna().sample(n=3000, random_state=42)
plt.figure(figsize=(8, 5))
sns.regplot(data=subset, x="Tavg", y="O3", lowess=True,
            scatter_kws={"alpha": 0.3, "s": 15},
            line_kws={"color": "darkgreen"})

plt.title("Nichtlinearer Zusammenhang zwischen Temperatur (Tavg) und Ozon (O3)")
plt.xlabel("Durchschnittstemperatur (¬∞C)")
plt.ylabel("Ozonkonzentration (¬µg/m¬≥)")
plt.grid(True);

Die Analyse des Zusammenhangs zwischen Temperatur (Tavg) und Ozonkonzentration (O3) mit Hilfe einer LOWESS-Regression zeigt einen klar nichtlinearen Verlauf:

- Bei Temperaturen zwischen 0 und etwa 20‚ÄØ¬∞C steigt die Ozonkonzentration tendenziell an ‚Äì ein plausibler Effekt durch sonnengetriebene Bildung.
- Ab ca. 20‚ÄØ¬∞C sinkt die Konzentration jedoch wieder.

Dieser geknickte Verlauf weist darauf hin, dass eine lineare Regressionsanalyse hier nicht geeignet ist, um den Zusammenhang korrekt zu modellieren.

--> Stichwort: ‚ÄûOzon-Peak-Temperatur-Ph√§nomen‚Äú

## Zusammenhang zwischen Tagestiefsttemperatur (Tmin) und Taupunkt (Dew)

Pearson-Koeffizient: 0.87

Die Temperatur beeinflusst den Taupunkt. Der Taupunkt ist der Punkt, bei dem die Luft ges√§ttigt ist und Wasserdampf kondensiert. Er ist immer kleiner oder gleich der aktuellen Lufttemperatur. Er n√§hert sich der Lufttemperatur vor allem nachts, wenn es abk√ºhlt. Daher ist der Zusammenhang mit Tmin am st√§rksten.

In [None]:
subset = df[["Tmin", "Dew"]].dropna().sample(n=3000, random_state=42)

plt.figure(figsize=(8, 5))
sns.regplot(data=subset, x="Tmin", y="Dew", lowess=True,
            scatter_kws={"alpha": 0.3, "s": 15},
            line_kws={"color": "mediumseagreen"})

plt.title("LOWESS-Regressionskurve: Tmin vs. Taupunkt (Dew)")
plt.xlabel("Tiefsttemperatur (¬∞C)")
plt.ylabel("Taupunkt (¬∞C)")
plt.grid(True);

Es zeigt sich ein deutlicher linearer Zusammenhang ohne nennenswerte Knicke.

Vergleich von LOWESS und linearer Regressionlinie:

In [None]:
subset = df[["Tmin", "Dew"]].dropna().sample(n=3000, random_state=42)

plt.figure(figsize=(8, 5))

# LOWESS
sns.regplot(data=subset, x="Tmin", y="Dew", lowess=True,
            scatter_kws={"alpha": 0.3, "s": 15},
            line_kws={"color": "mediumseagreen", "label": "LOWESS"})

# Lineare Regression
sns.regplot(data=subset, x="Tmin", y="Dew", lowess=False,
            scatter=False,
            line_kws={"color": "orangered", "linestyle": "--", "label": "Linear"})

plt.title("Tmin vs. Taupunkt (LOWESS & Lineare Regression)")
plt.xlabel("Tiefsttemperatur (¬∞C)")
plt.ylabel("Taupunkt (¬∞C)")
plt.legend()
plt.grid(True);


Tiefsttemperatur (Tmin) und Taupunkt (Dew) sind hoch korreliert (r = 0.87).

Ein LOWESS-Plot offenbart einen weitgehend linearen Anstieg des Taupunkts mit zunehmender Temperatur, insbesondere im Bereich unter 0‚ÄØ¬∞C. In h√∂heren Temperaturbereichen wird die Steigung etwas flacher, was auf eine schw√§cher werdende Kopplung hinweisen k√∂nnte.

Zum Vergleich wurde zus√§tzlich eine lineare Regressionslinie mit Konfidenzintervall geplottet. Sie verl√§uft insgesamt flacher als die LOWESS-Kurve. Das Konfidenzband ist sehr schmal, was auf eine geringe Streuung und hohe Vorhersagbarkeit hinweist.

Der Vergleich zeigt, dass eine lineare Regression im zentralen Bereich zwar m√∂glich, aber nicht ideal ist.
LOWESS eignet sich, um die **leichte** Nichtlinearit√§t sichtbar zu machen und kann f√ºr explorative Zwecke empfohlen werden.

## Zusammenhang zwischen Luftdruck (Pres) und Taupunkt (Dew)

Korrelationskoeffizient: -0,43

In [None]:
subset = df[["Pres", "Dew"]].dropna().sample(n=3000, random_state=42)

plt.figure(figsize=(8, 5))
sns.regplot(data=subset, x="Pres", y="Dew", lowess=True,
            scatter_kws={"alpha": 0.3, "s": 15},
            line_kws={"color": "darkorange"})

plt.title("LOWESS-Regressionskurve: Luftdruck vs. Taupunkt")
plt.xlabel("Luftdruck (hPa)")
plt.ylabel("Taupunkt (¬∞C)")
plt.grid(True)

Die LOWESS-Analyse zwischen Luftdruck (Pres) und Taupunkt (Dew) zeigt einen nichtlinearen, umgekehrt U-f√∂rmigen Zusammenhang.
Bei niedrigen Druckwerten steigt der Taupunkt zun√§chst an, flacht im mittleren Bereich ab und f√§llt schlie√ülich bei hohem Druck steil ab.

Dies unterst√ºtzt die meteorologische Annahme, dass Tiefdruck mit feuchterer Luft (h√∂herem Taupunkt) und Hochdruck mit trockenerer Luft (niedrigerem Taupunkt) einhergeht.

## Zusammenhang zwischen Tagestiefsttemperatur (Tmin) und Luftdruck (Pres)

Korrelationskoeffizient: -0,42

In [None]:
subset = df[["Pres", "Tmin"]].dropna().sample(n=3000, random_state=42)

plt.figure(figsize=(8, 5))
sns.regplot(data=subset, x="Pres", y="Tmin", lowess=True,
            scatter_kws={"alpha": 0.3, "s": 15},
            line_kws={"color": "darkorange"})

plt.title("LOWESS-Regressionskurve: Luftdruck vs. Tiefsttemperatur")
plt.xlabel("Luftdruck (hPa)")
plt.ylabel("Tiefsttemperatur (¬∞C)")
plt.grid(True)

Die LOWESS-Analyse zwischen Luftdruck (Pres) und Tiefsttemperatur (Tmin) zeigt einen symmetrisch gebogenen Zusammenhang, √§hnlich wie bei Pres und Dew.

- In Bereichen mit niedrigem Druck steigen die n√§chtlichen Tiefsttemperaturen zun√§chst leicht an, was auf eine isolierende Wirkung von Wolken und Wetteraktivit√§t bei Tiefdruck hindeutet.
- Ab einem Druck von etwa 1008 hPa kehrt sich der Effekt um: Bei hohem Druck sinken die Tiefsttemperaturen, vermutlich durch klare N√§chte mit st√§rkerer Abk√ºhlung.

Die Kurve ist harmonisch geformt und belegt eine meteorologisch plausible, nichtlineare Beziehung.

# Abschlie√üende Bewertung der Korrelationen und der Datenstruktur

Die ausf√ºhrliche Analyse der Korrelationen ‚Äì unterst√ºtzt durch klassische Korrelationsmatrizen, Regressionsplots und LOWESS-Kurven ‚Äì hat gezeigt, dass die betrachteten Variablen sinnvolle, teils lineare, teils nichtlineare Zusammenh√§nge aufweisen, die physikalisch, meteorologisch oder umweltbezogen plausibel erkl√§rbar sind.

Dabei konnten sowohl bekannte Beziehungen (z.‚ÄØB. zwischen Feinstaub und Stickstoffdioxid oder zwischen Taupunkt und Temperatur) als auch weniger offensichtliche, aber nachvollziehbare Muster (z.‚ÄØB. der Einfluss des Luftdrucks auf Temperatur und Feuchtigkeit) sichtbar gemacht werden.

Insgesamt deutet die Korrelationenanalyse darauf hin, dass es sich um nat√ºrliche, glaubw√ºrdige und konsistente Umweltdaten handelt, die keine Anzeichen k√ºnstlicher Verzerrung oder unplausibler Artefakte zeigen.

Damit ist der Datensatz in seiner bereinigten Form eine solide Grundlage f√ºr weiterf√ºhrende Machine-Learning-Modelle. Die erkannten Strukturen k√∂nnen gezielt genutzt werden, um sinnvolle Features zu definieren, Zusammenh√§nge zu explorieren und vorhersagende Modelle zu entwickeln, die auf realweltlichen Mustern basieren.