# Korrelationsanalysen

In diesem Notebook werden Korrelationen zwischen Variablen des im Notebook `1_eda_exploration.ipyb` weiter bereinigten Datensatzes ermittelt und ausgewertet.

Verwendet werden:
- Korrelationsmatrix (Pearson)
- Pairplots
- lineare Regressionlinien
- LOWESS f√ºr nicht-lineare Trends

üìå **Datenstand:** `cleaned_air_quality_data_2025-03-27.csv`  
üìÅ **Importiert aus:** lokaler Datei (--> gitignore)



## üìö Inhaltsverzeichnis 
(Diese Art von Inhaltsverzeichnis mit Link funktioniert leider in Notebooks nicht, weil die as JSON gespeichert werden und nicht als HTML...)

- [0. Datensatz laden](#0-datensatz-laden)
- [1. Berechnung der Pearson-Korrelationsmatrix](#1-berechnung_der_pearson-korrelationsmatrix)
- [2. Dokumentation der st√§rksten positiven/negativen Korrelationen & Empfehlung zur Variablenselektion](#2-dokumentation-der-staerksten-korrelationen)
- [3. Visuelle Analyse ausgew√§hlter Variablenpaare](#3-visuelle-analyse-ausgewaehlter-variablenpaare)
  - [3.1. PM10 vs PM25 (r = 0.84)](#31-Ô∏è-pm10-vs-pm25-r--084)
  - [3.2. NO‚ÇÇ vs PM25 (r = 0,49)](#32-no-vs-pm25-r--049)
  - [3.3. NO‚ÇÇ vs PM10 (r = 0,42)](#33-no-vs-pm25-r--049)
  - [3.4. Humidity vs PM25 (r = 0,13)](#34-humidity-vs-pm25-r--013)
  - [3.5. O‚ÇÉ vs Tavg (r = 0,19)](#35-o-vs-tavg-r--019)
  - [3.6. Tmin vs Dew (r = 0.87)](#36-tmin-vs-dew-r--087)
  - [3.7 Pres vs Dew (r = -0,43)](#37-pres-vs-dew-r---043)
  - [3.8. Pres vs Tmin (r = -0,42)](#38-pres-vs-tmin-r---042)
- [4. Bewertung von Art und St√§rke der Zusammenh√§nge](#4-bewertung-von-art-und-st√§rke-der-zusammenh√§nge)


# 0. Datensatz laden

In [None]:
# imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# from scipy.stats import skew
%matplotlib inline

In [None]:
# Settings for displaying floats
pd.set_option('display.float_format', '{:,.2f}'.format)

In [None]:
df = pd.read_csv("./data/cleaned_air_quality_data_2025-03-27.csv")
df.head()

In [None]:
df.shape

# 1. Berechnung der Pearson-Korrelationsmatrix

Die Korrelationsmatrix enth√§lt alle numerischen Features aus dem Datensatz. Als Ma√üstab f√ºr die St√§rke einer Korrelation werden folgende Werte angesetzt:

\> 0.8 = strong correlation

0.4 - 0.8 = moderate correlation

< 0.4 = weak correlation

In [None]:
# calculate correlation matrix (Pearson)
corr_matrix = df.select_dtypes(include=['number']).corr()

# Mask upper triangle
mask = np.triu(np.ones_like(corr_matrix, dtype=bool))

# Display heatmap
plt.figure(figsize=(12, 8))
sns.heatmap(corr_matrix, mask=mask, annot=True, fmt=".2f", cmap="coolwarm", center=0, linewidths=0.5)
plt.title("Feature Correlations (Pearson)");

In [None]:
# Show only strong and moderate correlations (>|0.4|); leave out main diagonal (1.0)

# Calculate matrix
corr_matrix = df.select_dtypes(include=['number']).corr()

# extract only strong and moderate correlations (>|0.4|); leave out main diagonal (1.0)
strong_corrs = corr_matrix[(corr_matrix.abs() > 0.4) & (corr_matrix.abs() < 1.0)]

# Convert df to long list (.stack) and reset index
strong_corrs = strong_corrs.stack().reset_index()
strong_corrs.columns = ["Feature 1", "Feature 2", "Korrelation"]

# remove redundant rows (note: the "<"-sign here refers to alphabetic order of feature names, not to numbers of any kind!)
strong_corrs = strong_corrs.loc[strong_corrs["Feature 1"] < strong_corrs["Feature 2"]]

strong_corrs

# 2. Dokumentation der st√§rksten positiven/negativen Korrelationen & Empfehlung zur Variablenselektion

Die Korrelationsmatrix zeigt mehrere starke und inhaltlich gut erkl√§rbare Zusammenh√§nge zwischen den numerischen Variablen. Besonders deutlich sind folgende Muster:

**Feinstaub- und Stickstoffdioxidwerte h√§ngen zusammen:**
Es besteht eine starke Korrelation zwischen PM10 und PM2.5 (r = 0.84), was plausibel ist, da PM2.5 eine Teilmenge von PM10 ist. Zus√§tzlich korreliert NO‚ÇÇ moderat mit beiden Feinstaubkomponenten (r ‚âà 0.42‚Äì0.49), was auf gemeinsame Emissionsquellen wie Verkehr oder Industrie hindeutet.

**Temperaturvariablen sind stark untereinander korreliert:**
Die Tagesmitteltemperatur (Tavg) steht in sehr engem Zusammenhang mit Tmin und Tmax (r ‚âà 0.97). Auch Tmin und Tmax selbst sind hoch korreliert (r = 0.90). Das ist mathematisch und physikalisch naheliegend und spricht daf√ºr, nicht alle drei Variablen gleichzeitig zu verwenden, um Redundanz zu vermeiden.

**Der Taupunkt (Dew) korreliert stark mit Temperatur:**
Die st√§rkste Korrelation liegt zwischen Dew und Tmin (r = 0.87), gefolgt von Tavg (r = 0.82). Dies spiegelt wider, dass die Luftfeuchtigkeit ‚Äì und damit der Taupunkt ‚Äì eng mit der Umgebungstemperatur zusammenh√§ngt.

**Einige schw√§cher negative Korrelationen deuten auf atmosph√§rische Zusammenh√§nge hin:**
Der Luftdruck (Pres) korreliert moderat negativ mit Dew (r = ‚Äì0.43) und Tmin (r = ‚Äì0.42), was mit typischen meteorologischen Prozessen in Zusammenhang stehen kann (z.‚ÄØB. feuchtwarme Luft in Tiefdruckgebieten).

---

Diese Ergebnisse helfen dabei, hoch korrelierte bzw. redundante Variablen zu erkennen und gezielt f√ºr weitere Analysen (z.‚ÄØB. Clusteranalyse oder Modellierung) geeignete Features auszuw√§hlen.

F√ºr viele Verfahren, wie z.‚ÄØB. Clustering oder Regressionsmodelle, ist es ratsam, von stark korrelierten Variablen jeweils nur eine zu verwenden, um Verzerrungen oder sogenannte Multikollinearit√§t zu vermeiden.

Alternativ k√∂nnen Hauptkomponentenanalyse (PCA) oder andere dimensionalit√§tsreduzierende Verfahren genutzt werden, um mehrere stark korrelierte Variablen zu einer gemeinsamen Komponente zusammenzufassen, ohne wesentliche Information zu verlieren.


# 3. Visuelle Analyse ausgew√§hlter Variablenpaare

Zur vertieften Analyse einzelner Zusammenh√§nge wurden im Folgenden ausgew√§hlte Variablenpaare visuell untersucht. Die Auswahl dieser Paare basiert nicht ausschlie√ülich auf den h√∂chsten Pearson-Korrelationskoeffizienten, sondern folgt einer Kombination aus statistischer Auff√§lligkeit und inhaltlicher Relevanz. Ber√ºcksichtigt wurden sowohl stark korrelierte Variablen (z.‚ÄØB. PM10‚ÄìPM25), als auch Paare mit moderater Korrelation, deren Beziehung aus umweltwissenschaftlicher Sicht besonders interessant erscheint (z.‚ÄØB. O‚ÇÉ‚ÄìTavg oder Humidity‚ÄìPM25).

Ziel dieser Analyse ist es, nicht nur die St√§rke, sondern auch die Form der Zusammenh√§nge sichtbar zu machen ‚Äì etwa durch lineare Regressionslinien und LOWESS-Kurven ‚Äì und gegebenenfalls Hinweise auf nichtlineare oder stadtabh√§ngige Strukturen zu erkennen.

Die Pairplots werden auf einem repr√§sentativen Sample von 2000 Datenpunkten berechnet.

In [None]:
features = ["Pm25", "Pm10", "No2", "O3", "Co", "Tavg", "Humidity", "Dew", "Pres"]
sample_df = df[features].dropna().sample(n=2000, random_state=42)
sns.pairplot(sample_df, diag_kind="kde", plot_kws={"alpha": 0.4, "s": 15})

Die Histogramme im Pairplot best√§tigen noch einmal die im Notebook 1_eda_exploration berechnete Schiefe vieler Variablen:

Schadstoffe wie Pm25, NO2 und O3 sind erwartungsgem√§√ü rechtsschief verteilt, w√§hrend Temperatur (Tavg), Luftfeuchtigkeit (Humidity) und Taupunkt (Dew) eine leichte Linksschiefe zeigen. Der Luftdruck (Pres) hebt sich durch seine nahezu normalverteilte Form ab.

#### √úberpr√ºfung auff√§lliger Korrelationen mit linearer Regressionlinie und/oder LOWESS (nichtlinearer Trend)

Es werden einige Korrelationen herausgegriffen und n√§her untersucht. Dabei werden nicht Korrelationen in Betracht gezogen, die einen hohen Pearson-Koeffizienten haben (z.B. PM10 vs PM25), sondern auch solche, die m√∂glicherweise keine rein lineare Beziehung haben und dadurch nicht durch einen hohen Pearson-Koeffizienten auffallen.

Um die Art des Zusammenhangs (lienar oder nicht) zwischen zwei Features eindeutig zu identifizieren, werden sowohl lineare Regression als auch LOWESS (Local Weighted Scatterplot Smoothing) angewendet.

Die Samplegr√∂√üe betr√§gt jeweils 3000 Datenpunkte. Zur Replizierbarkeit wird ein Random State von 42 festgelegt. NaN-Werte werden f√ºr alle Berechnungen entfernt (weil Seaborn damit nicht umgehen kann).

## 3.1. PM10 vs PM25 (r = 0.84)

Pm25 ist eine Teilmenge von Pm10. Sind beide Features relevant f√ºr sp√§tere Modellierungen oder ist eines davon redundant?

In [None]:
subset = df[["Pm10", "Pm25"]].dropna().sample(n=3000, random_state=42)

plt.figure(figsize=(8, 5))
sns.regplot(data=subset, x="Pm10", y="Pm25", lowess=True,
            scatter_kws={"alpha": 0.3, "s": 15},
            line_kws={"color": "crimson"})

plt.title("LOWESS-Regressionskurve: PM10 vs. PM2.5")
plt.xlabel("PM10-Konzentration (¬µg/m¬≥)")
plt.ylabel("PM2.5-Konzentration (¬µg/m¬≥)")
plt.grid(True);

Die LOWESS-Analyse best√§tigt den erwarteten sehr starken linearen Zusammenhang zwischen PM10 und PM2.5.

Im zentralen Bereich steigt PM2.5 nahezu proportional zu PM10, mit nur einer leichten Abflachung bei h√∂heren PM10-Werten.
Diese minimale Abweichung k√∂nnte darauf hindeuten, dass bei sehr hoher Feinstaubbelastung der relative Anteil von groben Partikeln (PM10 ohne PM2.5) etwas zunimmt.

Aufgrund der wenigen Datenpunkte in den extremen Bereichen kann f√ºr diesen keine Belastbare Aussage gemacht werden.

## 3.2. NO‚ÇÇ vs PM25 (r = 0,49)

In [None]:
sample_df = df[["No2", "Pm25"]].dropna().sample(n=3000, random_state=42)

plt.figure(figsize=(8, 5))
sns.regplot(data=sample_df, x="No2", y="Pm25",
            scatter_kws={"alpha":0.3, "s":15},
            line_kws={"color": "darkred"})

plt.title("Zusammenhang zwischen NO‚ÇÇ und PM2.5 (Stichprobe)")
plt.xlabel("NO‚ÇÇ-Konzentration (¬µg/m¬≥)")
plt.ylabel("PM2.5-Konzentration (¬µg/m¬≥)")
plt.grid(True)

Der regplot zwischen NO‚ÇÇ und PM2.5 zeigt eine positive lineare Tendenz, was plausibel erscheint, da beide Schadstoffe h√§ufig durch Verkehr oder industrielle Prozesse freigesetzt werden.

Aufgrund der breiten Streuung und fehlender Kontextvariablen ist die Regressionslinie jedoch nicht als kausales Modell, sondern lediglich als explorative Visualisierung einer Korrelation zu verstehen.

Der Konfidenzbereich ist nur f√ºr den Bereich gut, in dem die meisten Messwerte liegen (Problem: Heteroskadastizit√§t). Die folgende Darstellung zeigt nur diesen zentralen Wertebereich:

In [None]:
subset = df[(df["No2"] < 40) & (df["Pm25"] < 200)][["No2", "Pm25"]].dropna().sample(n=3000, random_state=42)

plt.figure(figsize=(8, 5))
sns.regplot(data=subset, x="No2", y="Pm25",
            scatter_kws={"alpha": 0.3, "s": 15},
            line_kws={"color": "darkblue"})

plt.title("Regression innerhalb des zentralen Wertebereichs (No2 < 40, Pm25 < 200)")
plt.xlabel("NO‚ÇÇ-Konzentration (¬µg/m¬≥)")
plt.ylabel("PM2.5-Konzentration (¬µg/m¬≥)")
plt.grid(True);

Innerhalb des zentralen Wertebereichs ist eine lineare Verteilung deutlich sichtbar, und auch das Konfidenzintervall ist "akzeptabel".

In [None]:
subset = df[["No2", "Pm25"]].dropna().sample(n=3000, random_state=42)

plt.figure(figsize=(8, 5))
sns.regplot(data=subset, x="No2", y="Pm25", lowess=True,
            scatter_kws={"alpha": 0.3, "s": 15},
            line_kws={"color": "mediumvioletred"})

plt.title("LOWESS-Regressionskurve f√ºr NO‚ÇÇ und PM2.5")
plt.xlabel("NO‚ÇÇ-Konzentration (¬µg/m¬≥)")
plt.ylabel("PM2.5-Konzentration (¬µg/m¬≥)")
plt.grid(True)

Die Anwendung von LOWESS auf den gesamten Wertebereich von NO‚ÇÇ und PM2.5 zeigt, dass der Zusammenhang nicht durchg√§ngig linear ist.
Besonders im oberen Wertebereich (ab ~70 ¬µg/m¬≥ NO‚ÇÇ) ist die Punktverteilung zu d√ºnn und uneinheitlich, was zu starken Schwankungen in der Regressionskurve f√ºhrt.

Im zentralen Wertebereich (NO‚ÇÇ < 40, PM2.5 < 200) zeigt sich hingegen ein stabiler, positiver Trend.

F√ºr lineare Analysen ist daher eine Einschr√§nkung auf diesen Bereich sinnvoll.

## 3.3. NO‚ÇÇ vs PM10 (r = 0,42)

Der Zusammenhang sollte √§hnlich sein wie der zwischen No2 und PM10.

In [None]:
subset = df[["No2", "Pm10"]].dropna().sample(n=3000, random_state=42)

plt.figure(figsize=(8, 5))
sns.regplot(data=subset, x="No2", y="Pm10", lowess=True,
            scatter_kws={"alpha": 0.3, "s": 15},
            line_kws={"color": "darkorange"})

plt.title("LOWESS-Regressionskurve f√ºr NO‚ÇÇ und PM10")
plt.xlabel("NO‚ÇÇ-Konzentration (¬µg/m¬≥)")
plt.ylabel("PM10-Konzentration (¬µg/m¬≥)")
plt.grid(True);

Die LOWESS-Analyse des Zusammenhangs zwischen NO‚ÇÇ und PM10 zeigt einen insgesamt positiven Trend, der im Bereich bis etwa 40‚ÄØ¬µg/m¬≥ NO‚ÇÇ weitgehend linear verl√§uft. Ab etwa 40‚ÄØ¬µg/m¬≥ NO‚ÇÇ wird der Zusammenhang flacher, was auf eine S√§ttigung oder zunehmende Streuung hinweisen k√∂nnte. In diesem Bereich sind jedoch nur wenige Datenpunkte vorhanden, sodass der Verlauf der Kurve dort nicht belastbar interpretiert werden sollte.

Eine lineare Regression k√∂nnte im unteren Bereich sinnvoll sein, sollte aber auf den zentralen Wertebereich beschr√§nkt werden.

--> Der Zusammenhang ist also √§hnlich wie der zwischen NO‚ÇÇ und PM10.

## 3.4. Humidity vs PM25 (r = 0,13)

In [None]:
subset = df[["Humidity", "Pm25"]].dropna().sample(n=3000, random_state=42)

plt.figure(figsize=(8, 5))
sns.regplot(data=subset, x="Humidity", y="Pm25", lowess=True,
            scatter_kws={"alpha": 0.3, "s": 15},
            line_kws={"color": "teal"})

plt.title("LOWESS-Regressionskurve: Luftfeuchtigkeit vs. PM2.5")
plt.xlabel("Relative Luftfeuchtigkeit (%)")
plt.ylabel("PM2.5-Konzentration (¬µg/m¬≥)")
plt.grid(True);

Die LOWESS-Regression zwischen Luftfeuchtigkeit (Humidity) und PM2.5 zeigt, wie erwartet, einen klar negativen Zusammenhang.
Bei niedriger Luftfeuchtigkeit (unter 20‚ÄØ%) liegen die PM2.5-Werte durchschnittlich bei etwa 70‚ÄØ¬µg/m¬≥, w√§hrend sie bei sehr hoher Luftfeuchtigkeit (√ºber 90‚ÄØ%) auf unter 50‚ÄØ¬µg/m¬≥ sinken.

Dieser Verlauf ist nicht ganz linear, sondern flacht bei zunehmender Feuchtigkeit ab ‚Äì ein Hinweis auf s√§ttigende Effekte oder nat√ºrliche Begrenzungen.

Eine lineare Regression w√§re hier m√∂glich, aber nicht unbedingt angemessen ‚Äì LOWESS zeigt die tats√§chliche Struktur des Zusammenhangs besser.

## 3.5. O‚ÇÉ vs Tavg (r = 0,19)

In [None]:
subset = df[["O3", "Tavg"]].dropna().sample(n=3000, random_state=42)
plt.figure(figsize=(8, 5))
sns.regplot(data=subset, x="Tavg", y="O3", lowess=True,
            scatter_kws={"alpha": 0.3, "s": 15},
            line_kws={"color": "darkgreen"})

plt.title("Nichtlinearer Zusammenhang zwischen Temperatur (Tavg) und Ozon (O3)")
plt.xlabel("Durchschnittstemperatur (¬∞C)")
plt.ylabel("Ozonkonzentration (¬µg/m¬≥)")
plt.grid(True);

Die Analyse des Zusammenhangs zwischen Temperatur (Tavg) und Ozonkonzentration (O3) mit Hilfe einer LOWESS-Regression zeigt einen klar nichtlinearen Verlauf:

- Bei Temperaturen zwischen 0 und etwa 20‚ÄØ¬∞C steigt die Ozonkonzentration tendenziell an ‚Äì ein plausibler Effekt durch sonnengetriebene Bildung.
- Ab ca. 20‚ÄØ¬∞C sinkt die Konzentration jedoch wieder.

Dieser geknickte Verlauf weist darauf hin, dass eine lineare Regressionsanalyse hier nicht geeignet ist, um den Zusammenhang korrekt zu modellieren.

‚û°Ô∏è ‚ÄûOzon-Peak-Temperatur-Ph√§nomen‚Äú

## 3.6. Tmin vs Dew (r = 0.87)

Die Temperatur beeinflusst den Taupunkt. Der Taupunkt ist der Punkt, bei dem die Luft ges√§ttigt ist und Wasserdampf kondensiert. Er ist immer kleiner oder gleich der aktuellen Lufttemperatur. Er n√§hert sich der Lufttemperatur vor allem nachts, wenn es abk√ºhlt. Daher ist der Zusammenhang mit Tmin am st√§rksten und wird hier exemplarisch ausgew√§hlt.

In [None]:
subset = df[["Tmin", "Dew"]].dropna().sample(n=3000, random_state=42)

plt.figure(figsize=(8, 5))
sns.regplot(data=subset, x="Tmin", y="Dew", lowess=True,
            scatter_kws={"alpha": 0.3, "s": 15},
            line_kws={"color": "mediumseagreen"})

plt.title("LOWESS-Regressionskurve: Tmin vs. Taupunkt (Dew)")
plt.xlabel("Tiefsttemperatur (¬∞C)")
plt.ylabel("Taupunkt (¬∞C)")
plt.grid(True);

Es zeigt sich ein deutlicher linearer Zusammenhang ohne nennenswerte Knicke.

Vergleich von LOWESS und linearer Regressionlinie:

In [None]:
subset = df[["Tmin", "Dew"]].dropna().sample(n=3000, random_state=42)

plt.figure(figsize=(8, 5))

# LOWESS
sns.regplot(data=subset, x="Tmin", y="Dew", lowess=True,
            scatter_kws={"alpha": 0.3, "s": 15},
            line_kws={"color": "mediumseagreen", "label": "LOWESS"})

# Lineare Regression
sns.regplot(data=subset, x="Tmin", y="Dew", lowess=False,
            scatter=False,
            line_kws={"color": "orangered", "linestyle": "--", "label": "Linear"})

plt.title("Tmin vs. Taupunkt (LOWESS & Lineare Regression)")
plt.xlabel("Tiefsttemperatur (¬∞C)")
plt.ylabel("Taupunkt (¬∞C)")
plt.legend()
plt.grid(True);


Tiefsttemperatur (Tmin) und Taupunkt (Dew) sind hoch korreliert (r = 0.87).

Ein LOWESS-Plot offenbart einen weitgehend linearen Anstieg des Taupunkts mit zunehmender Temperatur, insbesondere im Bereich unter 0‚ÄØ¬∞C. In h√∂heren Temperaturbereichen wird die Steigung etwas flacher, was auf eine schw√§cher werdende Kopplung hinweisen k√∂nnte.

Zum Vergleich wurde zus√§tzlich eine lineare Regressionslinie mit Konfidenzintervall geplottet. Sie verl√§uft insgesamt flacher als die LOWESS-Kurve. Das Konfidenzband ist sehr schmal, was auf eine geringe Streuung und hohe Vorhersagbarkeit hinweist.

Der Vergleich zeigt, dass eine lineare Regression im zentralen Bereich zwar m√∂glich, aber nicht ideal ist.
LOWESS eignet sich, um die **leichte** Nichtlinearit√§t sichtbar zu machen und kann f√ºr explorative Zwecke empfohlen werden.

## 3.7 Pres vs Dew (r = -0,43)

In [None]:
subset = df[["Pres", "Dew"]].dropna().sample(n=3000, random_state=42)

plt.figure(figsize=(8, 5))
sns.regplot(data=subset, x="Pres", y="Dew", lowess=True,
            scatter_kws={"alpha": 0.3, "s": 15},
            line_kws={"color": "darkorange"})

plt.title("LOWESS-Regressionskurve: Luftdruck vs. Taupunkt")
plt.xlabel("Luftdruck (hPa)")
plt.ylabel("Taupunkt (¬∞C)")
plt.grid(True)

Die LOWESS-Analyse zwischen Luftdruck (Pres) und Taupunkt (Dew) zeigt einen nichtlinearen, umgekehrt U-f√∂rmigen Zusammenhang.
Bei niedrigen Druckwerten steigt der Taupunkt zun√§chst an, flacht im mittleren Bereich ab und f√§llt schlie√ülich bei hohem Druck steil ab.

Dies unterst√ºtzt die meteorologische Annahme, dass Tiefdruck mit feuchterer Luft (h√∂herem Taupunkt) und Hochdruck mit trockenerer Luft (niedrigerem Taupunkt) einhergeht.

## 3.8. Pres vs Tmin (r = -0,42)

In [None]:
subset = df[["Pres", "Tmin"]].dropna().sample(n=3000, random_state=42)

plt.figure(figsize=(8, 5))
sns.regplot(data=subset, x="Pres", y="Tmin", lowess=True,
            scatter_kws={"alpha": 0.3, "s": 15},
            line_kws={"color": "darkorange"})

plt.title("LOWESS-Regressionskurve: Luftdruck vs. Tiefsttemperatur")
plt.xlabel("Luftdruck (hPa)")
plt.ylabel("Tiefsttemperatur (¬∞C)")
plt.grid(True)

Die LOWESS-Analyse zwischen Luftdruck (Pres) und Tiefsttemperatur (Tmin) zeigt einen symmetrisch gebogenen Zusammenhang, √§hnlich wie bei Pres und Dew.

- In Bereichen mit niedrigem Druck steigen die n√§chtlichen Tiefsttemperaturen zun√§chst leicht an, was auf eine isolierende Wirkung von Wolken und Wetteraktivit√§t bei Tiefdruck hindeutet.
- Ab einem Druck von etwa 1008 hPa kehrt sich der Effekt um: Bei hohem Druck sinken die Tiefsttemperaturen, vermutlich durch klare N√§chte mit st√§rkerer Abk√ºhlung.

Die Kurve ist harmonisch geformt und belegt eine meteorologisch plausible, nichtlineare Beziehung.


# 4. Bewertung von Art und St√§rke der Zusammenh√§nge

Die ausf√ºhrliche Analyse der Korrelationen ‚Äì unterst√ºtzt durch klassische Korrelationsmatrizen, Regressionsplots und LOWESS-Kurven ‚Äì hat gezeigt, dass die betrachteten Variablen sinnvolle, teils lineare, teils nichtlineare Zusammenh√§nge aufweisen, die physikalisch, meteorologisch oder umweltbezogen plausibel erkl√§rbar sind.

Dabei konnten sowohl bekannte Beziehungen (z.‚ÄØB. zwischen Feinstaub und Stickstoffdioxid oder zwischen Taupunkt und Temperatur) als auch weniger offensichtliche, aber nachvollziehbare Muster (z.‚ÄØB. der Einfluss des Luftdrucks auf Temperatur und Feuchtigkeit) sichtbar gemacht werden.

Insgesamt deutet die Korrelationenanalyse darauf hin, dass es sich um nat√ºrliche, glaubw√ºrdige und konsistente Umweltdaten handelt, die keine Anzeichen k√ºnstlicher Verzerrung oder unplausibler Artefakte zeigen.

Damit ist der Datensatz in seiner bereinigten Form eine solide Grundlage f√ºr weiterf√ºhrende Machine-Learning-Modelle. Die erkannten Strukturen k√∂nnen gezielt genutzt werden, um sinnvolle Features zu definieren, Zusammenh√§nge zu explorieren und vorhersagende Modelle zu entwickeln, die auf realweltlichen Mustern basieren.