# Feature Engineering

In diesem Notebook wird der Prozess der Feature Engineerings vorgestellt. Als Beispiel wird die Vorbereitung von Daten f√ºr einen Lineare Regressionsanalyse benutzt, und zwar der Daten zu Luftqualit√§t und Wetterdaten f√ºr die Stadt **Hamburg**. Anhand der Wettervariablen soll die Belastung mit Feinstaub vorhergesagt werden.

Die **lineare Regression** ist ein statistisches Verfahren, mit dem der Zusammenhang zwischen einer abh√§ngigen Variable (Zielvariable) und einer oder mehreren unabh√§ngigen Variablen (Features) modelliert wird. Ziel ist es, eine **lineare Gleichung** zu finden, mit der man den Wert der Zielvariable aus den Werten der Features vorhersagen kann.

Die allgemeine Form einer einfachen linearen Regression (mit nur einem Feature) lautet:

$$
y = \beta_0 + \beta_1 x + \varepsilon
$$

- y: Zielvariable (z.‚ÄØB. Feinstaubkonzentration)  
- x: unabh√§ngige Variable (z.‚ÄØB. Temperatur)  
- $\beta_0$: Achsenabschnitt (Intercept)  
- $\beta_1$: Steigung (Einfluss des Features auf das Ziel)   -->
- $\varepsilon$: Fehlerterm (Differenz zwischen Vorhersage und Realit√§t)

Bei **multipler linearer Regression** werden mehrere Features gleichzeitig ber√ºcksichtigt:

$$
y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n + \varepsilon
$$

Die lineare Regression geht davon aus, dass der Zusammenhang zwischen den Variablen **linear** ist ‚Äì also, dass sich √Ñnderungen in den Features proportional auf die Zielvariable auswirken.

**Typische Anwendungsf√§lle:**

- Vorhersage von Luftschadstoffkonzentrationen auf Basis von Wetterdaten  
- Erkl√§rung, welche Faktoren welchen Einfluss auf die Zielgr√∂√üe haben

Die folgenden Analysen werden zeigen, dass der Einfluss der Variablen nicht immer linear ist. Beispielsweise √§ndert sich der... (Fortsetzung folgt)

Diese Beobachtung motiviert den Einsatz von Feature Engineering mit dem Ziel, die vorhandenen Daten m√∂glichst gut vorzubereiten, um sie f√ºr ein Machine-Learning-Modell benutzen zu k√∂nnen.

Verwendet werden verschiedene Module der Python Bibliothek **Scitkit-learn** f√ºr maschinelles Lernen, so wie **statsmodels**.

üìå **Datenstand:** `cleaned_air_quality_data_2025-03-27.csv`  
üìÅ **Importiert aus:** lokaler Datei (--> gitignore)


## üìö Inhaltsverzeichnis 
(Diese Art von Inhaltsverzeichnis mit Link funktioniert leider in Notebooks nicht, weil die as JSON gespeichert werden und nicht als HTML...)

- [0. Datensatz laden](#0-datensatz-laden)
- [1. Mini-EDA Hamburg](#1-mini-eda-hamburg)
- [2. Baseline-Modell: Lineare Regression](#2-baseline-modell-lineare-regression)
- [3. Feature Engineering](#3-feature-engineering)
    - [3.1. Feature Reduction](#31-feature-reduction)
    - [3.2. Feature Transformation](#32-feature-transformation)
    - [3.3. Interaktionsterme](#33-interaktionsterme)
    - [3.4. Zeitvariablen](#34-zeitvariablen)
- [4. Fazit: Wirkung von Feature Engineering auf das Regressionsmodell](#4-fazit-wirkung-von-feature-engineering-auf-das-regressionsmodell)
- [5. Bonus: Weitere Luftschadstoffe als erkl√§rende Variablen](#5-bonus-weitere-luftschadstoffe-als-erkl√§rende-variablen)
- [6. Finales Modell: Visualisierung der Ergebnisse](#6-finales-modell-visualisierung-der-ergebnisse)
- [7. Modellvergleich](#7-modellvergleich)
    

# 0. Datensatz laden

In [None]:
# imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
import statsmodels.api as sm
from statsmodels.nonparametric.smoothers_lowess import lowess
%matplotlib inline

In [None]:
# Settings for displaying floats
pd.set_option('display.float_format', '{:,.2f}'.format)

In [None]:
df = pd.read_csv("data/cleaned_air_quality_data_2025-03-27.csv")
df.head()

# 1. Mini-EDA: Hamburg

In [None]:
# Erstellen eines DataFrames f√ºr Hamburg
df_hamburg = df[df['City'].isin(['Hamburg'])]

# √úberpr√ºfung der ersten Zeilen des gefilterten DataFrames
print(df_hamburg.shape)
df_hamburg.head()

In [None]:
df_hamburg.columns

In [None]:
df_hamburg.describe().T

In [None]:
df_hamburg['Co'].unique()

Die Werte f√ºr CO sind auff√§llig niedrig. Messfehler? Fehlende Messwerte?

Als Target f√ºr die Regressionsanalyse wird die Feinstaubbelastung (PM2.5) gew√§hlt.

Als Features werden die Wettervariablen Durchschnittstemperatur (Tavg), Luftfeuchtigkeit (Humidity), Niederschalg (Prcp), Windgeschwindigkeit (Wspd) und Luftdruck (Pres) ausgew√§hlt.

In [None]:
# Auswahl der relevanten Spalten f√ºr die Analyse
df_hamburg_pm25 = df_hamburg[['Year', 'Month', 'Day', 'Pm25', 'Tavg', 'Humidity', 'Prcp', 'Wspd', 'Pres']]

# √úberpr√ºfung der ersten Zeilen des neuen DataFrames
df_hamburg_pm25.head()

In [None]:
# Fehlende Werte in den relevanten Spalten z√§hlen
missing_values = df_hamburg_pm25.isnull().sum()
missing_values = missing_values[missing_values > 0]
print("Missing values in relevant columns:")    
missing_values

Es ist zu vermuten, dass f√ºr Wettervariablen 'Tavg', 'Prcp', 'Wspd' und 'Pres' f√ºr 67 Tage nicht √ºbermittelt wurden.

In [None]:
missing_weather_rows = df_hamburg_pm25[
    df_hamburg_pm25[['Tavg', 'Prcp', 'Wspd', 'Pres']].isna().all(axis=1)
]

len(missing_weather_rows)

√úber den Umgang mit NaN-Werten werden wir uns sp√§ter gedanken machen, Zun√§chst ermitteln wir die Korrelationen zwischen den Variablen:

In [None]:
# Berechnung der Korrelationsmatrix
correlation_matrix = df_hamburg_pm25[['Pm25', 'Tavg', 'Humidity', 'Prcp', 'Wspd', 'Pres']].corr()

# Visualisierung der Korrelationsmatrix mit 'center=0'

plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f', center=0)
plt.title('Korrelation zwischen PM2.5 und Wetterdaten in Hamburg')

Eine starke Korrelation zwischen dem Feinstaubwert und einer Wettervariablen ist nicht unmittelbar offensichtlich. Am st√§rksten ist mit -0,19 die Korrelation mit der Windgeschwindigkeit. Das bedeutet, dass in Zeiten mit wenig Wind die PM2.5-Werte tendenziell h√∂her sind. Dies ist zu erwarten, da Wind dazu beitr√§gt, Luftschadstoffe zu vertreiben, w√§hrend ruhiges Wetter (wenig Wind) zu einer Ansammlung von Schadstoffen f√ºhren kann.

Die Pearson-Korrelationsmatrix nimmt eine lineare Korrelation zwischen den Variablenpaaren an. Diese ist aber nicht zwingend gegeben (s. 2_eda_correlations.ipynb). Um zu sehen, wie die Korrelationen aussehen, erstellen wir Scatterplots:

In [None]:
# Erstelle Scatterplots f√ºr jede Wettervariable im Vergleich zu PM2.5
variables = ['Tavg', 'Humidity', 'Prcp', 'Wspd', 'Pres']
plt.figure(figsize=(12, 10))

for i, var in enumerate(variables, 1):
    plt.subplot(2, 3, i)  # 2 Zeilen, 3 Spalten
    plt.scatter(df_hamburg_pm25[var], df_hamburg_pm25['Pm25'], alpha=0.6)
    plt.title(f'Scatterplot: PM2.5 vs {var}')
    plt.xlabel(var)
    plt.ylabel('PM2.5 (¬µg/m¬≥)')
    plt.grid(True)

plt.tight_layout();

Nicht sicher, ob ich diesen Zweig hier weiterverfolgen m√∂chte. Das Prinzip wird im Notebook zu Korrelationen ausf√ºhrlich genug dargestellt.

# 2. Baseline-Modell: Lineare Regression

Bevor wir ein Modell f√ºr lineare Regression verwenden k√∂nnen, m√ºssen wir die NaN-Werte behandeln. Da wir Datumsangaben haben, k√∂nnten wir die Werte des Vortrags, bzw. der vorhergehenden Messung imputieren. Da der Datensatz aber mehrere l√§ngere L√ºcken aufweist, entscheiden wir uns f√ºr eine Imputation √ºber den Median.

In [None]:
# Inputiere NaN-Werte mit dem Median der jeweiligen Spalte
df_hamburg_pm25.fillna(df_hamburg_pm25.median(), inplace=True)

# √úberpr√ºfung, ob NaN-Werte noch vorhanden sind
print(df_hamburg_pm25.isna().sum())

Der Dataframe enth√§lt nun keine NaN_Werte mehr und kann f√ºr die Modellierung verwendet werden.

### Lineare Regression mit Scikit-Learn und Statsmodels

Es soll ein lineares Regressionsmodell erstellt werden, um den Zusammenhang zwischen der Feinstaubbelastung (PM2.5) und verschiedenen Wetterfaktoren zu untersuchen.

Dabei werden zwei Bibliotheken kombiniert:

- **Scikit-Learn**: zum Trainieren des Modells und zur Berechnung des Bestimmtheitsma√ües $r^2$
- **Statsmodels**: zur detaillierten Analyse des Modells (Koeffizienten, Standardfehler, p-Werte, Konfidenzintervalle, usw.)

Die verwendeten unabh√§ngigen Variablen (Features) sind:

- Durchschnittstemperatur (`Tavg`)
- Luftfeuchtigkeit (`Humidity`)
- Niederschlag (`Prcp`)
- Windgeschwindigkeit (`Wspd`)
- Luftdruck (`Pres`)

Die abh√§ngige Variable ist die Feinstaubkonzentration (`Pm25`).


In [None]:
# Feature-Auswahl & Zielvariable definieren
features = ['Tavg', 'Humidity', 'Prcp', 'Wspd', 'Pres']
X = df_hamburg_pm25[features]
y = df_hamburg_pm25['Pm25']

In [None]:
# Modelltraining
lr_model = LinearRegression()
lr_model.fit(X, y)

# Modellparameter anzeigen
print("Intercept (Œ≤‚ÇÄ):", lr_model.intercept_)
print("Koeffizienten (Œ≤‚ÇÅ...Œ≤‚Çô):", lr_model.coef_)
print("R¬≤ (Bestimmtheitsma√ü):", lr_model.score(X, y))

In [None]:
# Statsmodels: Regressionsanalyse mit Zusammenfassung
X_sm = sm.add_constant(X)  # Intercept hinzuf√ºgen
ols_model = sm.OLS(y, X_sm).fit()
print(ols_model.summary())

### üìä Interpretation der Regressionsanalyse

Die lineare Regressionsanalyse wurde durchgef√ºhrt, um den Einfluss verschiedener Wetterfaktoren auf die PM2.5-Konzentration in Hamburg zu untersuchen. Die Ergebnisse zeigen Folgendes:

#### üîπ Modellg√ºte

- **r^2 = 0,072**: Nur etwa **7,2‚ÄØ%** der Varianz der PM2.5-Werte kann durch die gew√§hlten Wettervariablen erkl√§rt werden. Das Modell hat also eine geringe Vorhersagekraft.
- **Adj. r^2 = 0,070**: Auch die bereinigte Variante (angepasst an die Anzahl der Pr√§diktoren) best√§tigt die geringe Erkl√§rungskraft.
- **F-Statistik = 43.76**, **p < 0.001**: Das Modell als Ganzes ist dennoch **statistisch signifikant**, d.‚ÄØh. mindestens einer der Pr√§diktoren tr√§gt systematisch zur Erkl√§rung von PM2.5 bei.

#### üîπ Koeffizienten und Signifikanz

| Variable   | Einflussrichtung | p-Wert  | Interpretation |
|------------|------------------|---------|----------------|
| **Tavg**   | negativ          | 0.000   | H√∂here Temperaturen gehen mit niedrigeren PM2.5-Werten einher. |
| **Humidity** | positiv        | 0.000   | H√∂here Luftfeuchtigkeit ist mit leicht erh√∂hten PM2.5-Werten assoziiert. |
| **Prcp**   | negativ          | 0.000   | Niederschlag reduziert die PM2.5-Konzentration ‚Äì vermutlich durch Auswaschungseffekte. |
| **Wspd**   | negativ          | 0.000   | H√∂here Windgeschwindigkeit f√ºhrt zu einer Verd√ºnnung von Feinstaub. |
| **Pres**   | kein signifikanter Effekt | 0.378 | Luftdruck scheint keinen nennenswerten Einfluss auf PM2.5 zu haben. |

Alle Wettervariablen au√üer dem Luftdruck zeigen einen **statistisch signifikanten Einfluss** auf die Feinstaubbelastung (p < 0.05).

#### üß≠ Fazit

Auch wenn das Modell nur einen kleinen Teil der Variation erkl√§ren kann, lassen sich einige **systematische Zusammenh√§nge** zwischen Wetterbedingungen und PM2.5-Konzentration erkennen. Diese Ergebnisse k√∂nnten ein n√ºtzlicher Ausgangspunkt f√ºr eine weiterf√ºhrende Modellierung (z.‚ÄØB. mit nichtlinearen oder multivariaten Ans√§tzen) sein.


# 3. Feature Engineering

Im Folgenden werden die im Modell verwendeten Features nacheinander bearbeitet mit dem Ziel, die Modellg√ºte zu verbessern. Da das Modell insgesamt sehr schwach ist, wird keine nennenswerte Verbesserung durch das Feature Engineering erwartet. Es soll aber gezeigt werden, welche Mothoden prinzipiell zur Verf√ºgung stehen.


## 3.1. Feature Reduction

Basierend auf der vorherigen Regressionsanalyse wurde der Luftdruck (`Pres`) als **nicht signifikant** identifiziert (p = 0.378). In diesem Schritt wird `Pres` aus dem Feature-Set entfernt, um zu √ºberpr√ºfen, ob sich die Modellg√ºte dadurch verbessert oder konstant bleibt.

In [None]:
# Neues Feature-Set ohne 'Pres'
X_reduced = df_hamburg_pm25[['Tavg', 'Humidity', 'Prcp', 'Wspd']]
y = df_hamburg_pm25['Pm25']

# Mit Statsmodels analysieren
X_reduced = sm.add_constant(X_reduced)
model_reduced = sm.OLS(y, X_reduced).fit()
print(model_reduced.summary())

#### Ergebnis:

- Das neue Modell enth√§lt nur noch vier Wettervariablen: `Tavg`, `Humidity`, `Prcp` und `Wspd`.
- Das Bestimmtheitsma√ü $R^2$ bleibt mit **0.072** unver√§ndert.
- Auch das bereinigte $R^2$ sowie die AIC- und BIC-Werte bleiben nahezu gleich.
- Damit zeigt sich, dass der Luftdruck keinen relevanten Beitrag zur Modellg√ºte leistet und ohne Informationsverlust entfernt werden kann.

üëâ Dies ist ein typisches Beispiel f√ºr **Feature-Selektion als Teil des Feature Engineerings**, bei dem √ºberfl√ºssige oder irrelevante Variablen identifiziert und entfernt werden, um Modelle robuster und interpretierbarer zu machen.

## 3.2. Feature Transformation

#### Logarithmierung der Niederschlagswerte

Da Niederschlagswerte oft viele Nullen und eine schiefe Verteilung aufweisen, wurde in diesem Schritt eine **logarithmische Transformation** durchgef√ºhrt:

$$\text{Log\_Prcp} = \log(\text{Prcp} + 1)$$


In [None]:

# Neue Spalte mit logarithmierter Niederschlagsmenge
df_hamburg_pm25['Log_Prcp'] = np.log(df_hamburg_pm25['Prcp'] + 1)

# Neues Feature-Set (Log_Prcp statt Prcp)
X_log = df_hamburg_pm25[['Tavg', 'Humidity', 'Log_Prcp', 'Wspd']]
y = df_hamburg_pm25['Pm25']

# Modell fitten
X_log = sm.add_constant(X_log)
model_log = sm.OLS(y, X_log).fit()
print(model_log.summary())

#### Ergebnis:

- Die lineare Variable `Prcp` wurde durch `Log_Prcp` ersetzt.
- Das neue Modell zeigt ein leicht verbessertes Bestimmtheitsma√ü:
  - $R^2$: von **0.072** ‚Üí **0.078**
  - Adj. $R^2$: von **0.070** ‚Üí **0.076**
- Auch AIC und BIC sind etwas gesunken ‚Üí das neue Modell ist **effizienter**.
- Der Koeffizient von `Log_Prcp` ist mit **-3.13** stark negativ und hoch signifikant (p < 0.001), was auf eine deutliche Reduktion von PM2.5 bei zunehmendem Regen hinweist (nach log-Skalierung).

‚û°Ô∏è Diese Transformation ist ein klassisches Beispiel daf√ºr, wie **Feature Engineering** helfen kann, nichtlineare Zusammenh√§nge **besser erfassbar zu machen** und das Modell zu verbessern.


#### Quadratischer Term f√ºr Temperaturwerte

Um zu pr√ºfen, ob der Zusammenhang zwischen Temperatur (`Tavg`) und Feinstaubkonzentration (`Pm25`) nichtlinear ist, wurde in diesem Schritt ein **quadratischer Term** (`Tavg_squared`) erg√§nzt:

- Sowohl der lineare als auch der quadratische Term wurden in das Modell aufgenommen.
- Die neue Modellform erlaubt es, auch U- oder umgekehrt U-f√∂rmige Zusammenh√§nge abzubilden.


In [None]:
# Quadratischer Term f√ºr Temperatur
df_hamburg_pm25['Tavg_squared'] = df_hamburg_pm25['Tavg'] ** 2

# Neues Feature-Set inkl. Tavg¬≤ und Log_Prcp
X_quad = df_hamburg_pm25[['Tavg', 'Tavg_squared', 'Humidity', 'Log_Prcp', 'Wspd']]
y = df_hamburg_pm25['Pm25']

# Modell mit quadratischer Temperaturkomponente
X_quad = sm.add_constant(X_quad)
model_quad = sm.OLS(y, X_quad).fit()
print(model_quad.summary())


#### Ergebnis:

- Das Modell zeigt eine deutliche Verbesserung:
  - $R^2$: von **0.078** ‚Üí **0.122**
  - Adj. $R^2$: von **0.076** ‚Üí **0.120**
  - AIC/BIC ebenfalls gesunken ‚Üí effizienteres Modell
- Beide Temperatur-Terme (`Tavg` und `Tavg_squared`) sind **hoch signifikant** (p < 0.001)
- Der negative Koeffizient von `Tavg` und der positive von `Tavg_squared` deuten auf einen **U-f√∂rmigen Zusammenhang** hin:  
  Sehr niedrige und sehr hohe Temperaturen gehen mit **erh√∂hter Feinstaubbelastung** einher, w√§hrend mittlere Temperaturen tendenziell niedrigere Werte zeigen.

‚û°Ô∏è Diese Erweiterung zeigt, wie sich mit gezielten Transformationen **wichtige Muster sichtbar machen** lassen, die in einem rein linearen Modell verborgen geblieben w√§ren.

## 3.3. Interaktionsterme

In einem explorativen Schritt wird gepr√ºft, ob eine **Interaktion zwischen Temperatur und Luftfeuchtigkeit** (`Tavg * Humidity`) einen zus√§tzlichen Einfluss auf die Feinstaubbelastung hat. Idee dahinter:

- Temperatur und Luftfeuchtigkeit beeinflussen gemeinsam viele chemische Reaktionen in der Atmosph√§re
- Bei hoher Luftfeuchtigkeit kann z.‚ÄØB. Feinstaub st√§rker ‚Äûgebunden‚Äú oder verteilt werden ‚Äì das h√§ngt aber vom Temperaturverlauf ab


In [None]:
# Interaktionsterm: Temperatur * Luftfeuchtigkeit
df_hamburg_pm25['Tavg_Humidity'] = df_hamburg_pm25['Tavg'] * df_hamburg_pm25['Humidity']

# Neues Feature-Set
X_inter = df_hamburg_pm25[['Tavg', 'Tavg_squared', 'Humidity', 'Log_Prcp', 'Wspd', 'Tavg_Humidity']]
y = df_hamburg_pm25['Pm25']

# Modell mit Interaktionsterm
X_inter = sm.add_constant(X_inter)
model_inter = sm.OLS(y, X_inter).fit()
print(model_inter.summary())

#### Ergebnis:

- Der Interaktionsterm `Tavg_Humidity` wurde dem Modell hinzugef√ºgt.
- Der zugeh√∂rige **p-Wert liegt bei 0.76**, d.‚ÄØh. die Variable ist **nicht signifikant**.
- Auch die Modellg√ºte bleibt unver√§ndert:
  - $R^2$ = 0.122 (wie im Modell ohne Interaktion)
  - AIC und BIC sind minimal **gestiegen**
- Fazit: Diese Interaktion liefert **keinen Mehrwert** f√ºr das Modell und kann wieder entfernt werden.

‚û°Ô∏è Dieser Schritt zeigt, wie einen Kombination von Features prinzipiell funktioniert, aber auch, dass nicht jede theoretisch plausible Kombination von Features ein Modell auch wirklich verbessert.


## 3.4. Zeitvariablen

Neben numerischen Transformationen und Interaktionstermen ist auch die **zeitliche Einordnung von Daten** ein wichtiger Bestandteil des Feature Engineerings. In diesem Schritt wird die urspr√ºngliche Monatsinformation (`Month`) genutzt, um daraus eine neue kategoriale Variable `Season` (Jahreszeit) zu erzeugen.

Hintergrund: Die Feinstaubbelastung unterliegt typischerweise **saisonalen Schwankungen**, etwa durch Heizemissionen im Winter, Inversionswetterlagen oder erh√∂hte Luftumw√§lzung im Sommer. Durch die Einbindung dieser Information als Modellfeature lassen sich solche Effekte gezielt abbilden.

Dazu wird `Season` in **Dummy-Variablen** umgewandelt, die in das Regressionsmodell einflie√üen. Auf diese Weise kann untersucht werden, ob sich die PM2.5-Konzentration **systematisch zwischen den Jahreszeiten unterscheidet** ‚Äì und ob diese Zeitinformation zur Verbesserung der Modellg√ºte beitr√§gt.

Zur Einbindung der Zeitvariable `Season` in das Regressionsmodell wird die kategoriale Variable mithilfe von **One-Hot-Encoding** in **Dummy-Variablen** umgewandelt. Dabei gilt:

Jede Auspr√§gung einer kategorialen Variable wird zu einer eigenen Spalte, die nur den Wert `1` tr√§gt, wenn die Zeile zu dieser Kategorie geh√∂rt ‚Äì sonst `0`.

Beispiel f√ºr 4 Jahreszeiten:

| Season   | Winter | Fr√ºhling | Sommer | Herbst |
|----------|--------|----------|--------|--------|
| Sommer   | 0      | 0        | 1      | 0      |
| Herbst   | 0      | 0        | 0      | 1      |
| Winter   | 1      | 0        | 0      | 0      |
| Fr√ºhling | 0      | 1        | 0      | 0      |

Allerdings sollte in Regressionsmodellen **eine Kategorie ausgelassen** werden (hier: **Fr√ºhling**). Sie dient als **Referenzkategorie**. Dadurch vermeidet man **Multikollinearit√§t**, also mathematische Redundanz im Modell. Das bedeutet:

- Die Effekte aller anderen Kategorien (Herbst, Sommer, Winter) werden im **Vergleich zum Fr√ºhling** berechnet.
- Beispiel: Ein Koeffizient von `-8.94` f√ºr Herbst bedeutet, dass die PM2.5-Konzentration im Herbst im Durchschnitt **8.94 ¬µg/m¬≥ niedriger ist als im Fr√ºhling**, wenn alle anderen Einflussfaktoren konstant gehalten werden.

In [None]:
def get_season(month):
    if month in [12, 1, 2]:
        return 'Winter'
    elif month in [3, 4, 5]:
        return 'Fr√ºhling'
    elif month in [6, 7, 8]:
        return 'Sommer'
    else:
        return 'Herbst'

df_hamburg_pm25.loc[:, 'Season'] = df_hamburg_pm25['Month'].apply(get_season)

df_hamburg_pm25.head()

In [None]:
# Saison in Dummy-Variablen umwandeln (Fr√ºhling als Referenzkategorie)
season_dummies = pd.get_dummies(df_hamburg_pm25['Season'], drop_first=True, dtype=int)

In [None]:
# Basis-Features
features_base = df_hamburg_pm25[['Tavg', 'Tavg_squared', 'Humidity', 'Log_Prcp', 'Wspd']]

# Kombinieren mit Saison-Dummies
X_season = pd.concat([features_base, season_dummies], axis=1)
y = df_hamburg_pm25['Pm25']

# Modell aufbauen und ausgeben
X_season = sm.add_constant(X_season)
model_season = sm.OLS(y, X_season).fit()
print(model_season.summary())


# 4. Fazit: Wirkung von Feature Engineering auf das Regressionsmodell

In diesem Notebook wurde schrittweise untersucht, wie sich gezielte Ma√ünahmen des **Feature Engineerings** auf die Vorhersagekraft eines linearen Regressionsmodells zur Feinstaubbelastung (PM2.5) auswirken. Ausgangspunkt war ein einfaches Modell mit f√ºnf Wettervariablen, das lediglich **7,2‚ÄØ% der Varianz** erkl√§ren konnte.

Durch systematische Erweiterung und Optimierung der Features wurde das Modell deutlich verbessert:

| Ma√ünahme                          | Verbesserung                                   |
|----------------------------------|------------------------------------------------|
| Entfernen nicht signifikanter Variablen (`Pres`) | Kein Informationsverlust, schlankeres Modell |
| Log-Transformation (`log(Prcp + 1)`)            | Bessere Modellanpassung durch Stabilisierung der Skala |
| Quadratischer Term (`Tavg¬≤`)     | Erfassung nichtlinearer Effekte, sp√ºrbare Steigerung von $R^2$ |
| Zeitvariable (`Season` als Dummy) | Deutlicher Leistungszuwachs, klare saisonale Muster |
| $R^2$ gesamt                 | von **0.072** ‚Üí **0.176** (+145‚ÄØ%)             |

Zus√§tzlich wurde gezeigt, dass **nicht jede Feature-Kombination sinnvoll ist**: Ein getesteter Interaktionsterm (`Tavg * Humidity`) hatte keinen signifikanten Einfluss und wurde wieder entfernt.

‚û°Ô∏è Insgesamt zeigt dieses Notebook, wie **datengetriebenes Feature Engineering** schrittweise zu einem leistungsf√§higeren und interpretierbareren Modell f√ºhren kann ‚Äì eine Kernkompetenz in der datenanalytischen Praxis.


#### Ergebnis:

- Das Modell verbessert sich deutlich:
  - $R^2$: von **0.122** ‚Üí **0.176**
  - Adj. $R^2$: von **0.120** ‚Üí **0.174**
  - AIC und BIC sinken ebenfalls deutlich
- Alle Jahreszeiten sind **signifikant unterschiedlich** zum Fr√ºhling (Referenzkategorie):
  - **Sommer**: starke Reduktion der PM2.5-Werte (-16.68‚ÄØ¬µg/m¬≥)
  - **Herbst**: ebenfalls reduzierte Werte (-8.94‚ÄØ¬µg/m¬≥)
  - **Winter**: leicht erh√∂hte Werte (+3.17‚ÄØ¬µg/m¬≥)

‚û°Ô∏è Diese Ergebnisse best√§tigen, dass **saisonale Faktoren einen substantiellen Einfluss auf die Luftqualit√§t** haben und im Modell ber√ºcksichtigt werden sollten.

## Notiz f√ºr Mareike
F√ºr Hamburg doch nochmal LOWESS f√ºr alle Wettervariablen anschauen, vielleicht wurde noch was √ºbersehen:

In [None]:
# Liste der Variablen f√ºr die Analyse
variables = ['Tavg', 'Humidity', 'Prcp', 'Wspd', 'Pres']

# Erstelle Scatterplots mit LOWESS-Gl√§ttung
plt.figure(figsize=(12, 10))

for i, var in enumerate(variables, 1):
    plt.subplot(2, 3, i)  # 2 Zeilen, 3 Spalten
    sns.scatterplot(x=df_hamburg_pm25[var], y=df_hamburg_pm25['Pm25'], alpha=0.6)
    
    # LOWESS-Gl√§ttung anwenden
    lowess_result = lowess(df_hamburg_pm25['Pm25'], df_hamburg_pm25[var], frac=0.3)
    plt.plot(lowess_result[:, 0], lowess_result[:, 1], color='red', label='LOWESS')
    
    plt.title(f'LOWESS: PM2.5 vs {var}')
    plt.xlabel(var)
    plt.ylabel('PM2.5 (¬µg/m¬≥)')
    plt.grid(True)
    plt.legend()

plt.tight_layout();

# 5. Bonus: Weitere Luftschadstoffe als erkl√§rende Variablen

Im bisherigen Verlauf des Notebooks lag der Fokus auf der Frage, wie sich Wetterbedingungen und saisonale Effekte auf die Feinstaubbelastung (PM2.5) auswirken. Ein weiterer sinnvoller Analyseansatz besteht darin, zu pr√ºfen, ob auch **andere Luftschadstoffe** (z.‚ÄØB. NO‚ÇÇ, SO‚ÇÇ, CO, O‚ÇÉ) dabei helfen k√∂nnen, PM2.5-Konzentrationen besser vorherzusagen.

Hintergrund: Viele Luftschadstoffe stehen miteinander in Zusammenhang ‚Äì sie entstehen gemeinsam (z.‚ÄØB. durch Verkehr oder Industrie) oder beeinflussen sich chemisch gegenseitig. Durch die Einbindung dieser Variablen l√§sst sich testen, ob ein **Mehrkomponentenmodell** die Modellg√ºte weiter verbessern kann.

In diesem Abschnitt wird daher das bestehende Regressionsmodell um weitere Schadstoffvariablen erweitert ()`No2`, `O3`, `So2`). Diese Schadstoffe stehen in der Realit√§t oft in engem Zusammenhang mit PM2.5, da sie aus √§hnlichen Quellen stammen oder in gemeinsamen atmosph√§rischen Prozessen auftreten. Ziel ist es, den Erkl√§rungswert des Modells zu steigern und gleichzeitig m√∂gliche Wechselwirkungen zwischen den Schadstoffen sichtbar zu machen.


#### üö´ Hinweis zur Datenqualit√§t: CO-Konzentration

Bei der explorativen Untersuchung der Beziehung zwischen PM2.5 und Kohlenmonoxid (CO) fiel auf, dass in den vorliegenden Daten **ausschlie√ülich der konstante Wert 0.10** f√ºr CO eingetragen ist. Dies ist physikalisch unrealistisch und spricht daf√ºr, dass es sich um:

- eine F√ºllkonstante
- oder eine fehlerhafte Messreihe

handelt. Aufgrund der fehlenden Varianz ist CO **f√ºr die Regressionsanalyse nicht sinnvoll nutzbar**. Die urspr√ºnglich im Modell enthaltene hohe Koeffizienz von CO (√ºber 400) ist damit wahrscheinlich **ein Artefakt** der schlechten Datenqualit√§t.

‚û°Ô∏è Die Variable CO wird im erweiterten Modell ausgeschlossen.

In [None]:
# Relevante Spalten aus df_hamburg holen
pollutants = df_hamburg[['No2', 'O3', 'So2']]

# Schadstoffe in df_hamburg_pm25 hinzuf√ºgen
df_hamburg_pm25_extended = df_hamburg_pm25.copy()
df_hamburg_pm25_extended[['No2', 'O3', 'So2']] = pollutants

In [None]:
df_hamburg_pm25_extended.head()

In [None]:
df_hamburg_pm25_extended.isna().sum()

In [None]:
season_dummies = pd.get_dummies(df_hamburg_pm25_extended['Season'], drop_first=True, dtype=int)


In [None]:
# Kombiniertes DataFrame mit allen Features und Ziel
df_model = pd.concat([
    df_hamburg_pm25_extended[['Tavg', 'Tavg_squared', 'Humidity', 'Log_Prcp', 'Wspd', 'No2', 'O3', 'So2', 'Pm25']],
    season_dummies
], axis=1)

# Nur vollst√§ndige Zeilen behalten
df_model = df_model.dropna()


In [None]:
X_final = df_model.drop(columns='Pm25')
y_final = df_model['Pm25']

# Konstanten-Term hinzuf√ºgen
X_final = sm.add_constant(X_final)

# Modell trainieren
model_final = sm.OLS(y_final, X_final).fit()
print(model_final.summary())



#### Ergebnis:

- Das erweiterte Modell zeigt eine deutliche Leistungssteigerung:
  - \( R^2 \): von **0.176** ‚Üí **0.283**
  - Adj. \( R^2 \): von **0.174** ‚Üí **0.280**
  - AIC und BIC sinken deutlich
- Alle hinzugef√ºgten Schadstoffe sind **statistisch signifikant**, mit plausiblen Wirkungsrichtungen:
  - **NO‚ÇÇ, SO‚ÇÇ**: positiv korreliert mit PM2.5
  - **O‚ÇÉ**: negativer Zusammenhang
- Die Windgeschwindigkeit (`Wspd`) verliert im erweiterten Modell an Signifikanz ‚Äì m√∂glicherweise, weil ihre Wirkung durch die Schadstoffkonzentrationen √ºberlagert wird

‚û°Ô∏è Die Einbindung weiterer Luftschadstoffe als erkl√§rende Variablen erh√∂ht die **Modellg√ºte substanziell** und bietet zus√§tzliche Einsichten in komplexe Zusammenh√§nge zwischen Umweltfaktoren und Feinstaubbelastung.


Da die Zusammenh√§nge zwischen Feinstaubbelastung und den anderen Schadstoffen nicht notwenigerweise linear sind, soll diese Annahme mit LOWESS-Regression √ºberpr√ºft werden.

In [None]:
# Liste der Variablen f√ºr die Analyse
variables = ['So2', 'No2', 'O3']

# Erstelle Scatterplots mit LOWESS-Gl√§ttung
plt.figure(figsize=(12, 10))

for i, var in enumerate(variables, 1):
    plt.subplot(2, 3, i)  # 2 Zeilen, 3 Spalten
    sns.scatterplot(x=df_hamburg_pm25_extended[var], y=df_hamburg_pm25_extended['Pm25'], alpha=0.6)
    
    # LOWESS-Gl√§ttung anwenden
    lowess_result = lowess(df_hamburg_pm25_extended['Pm25'], df_hamburg_pm25_extended[var], frac=0.3)
    plt.plot(lowess_result[:, 0], lowess_result[:, 1], color='red', label='LOWESS')
    
    plt.title(f'LOWESS: PM2.5 vs {var}')
    plt.xlabel(var)
    plt.ylabel('PM2.5 (¬µg/m¬≥)')
    plt.grid(True)
    plt.legend()

# plt.ylim(0, df_hamburg_pm25_extended['Pm25'].max() * 1.1)

plt.tight_layout();

#### üîÅ Feature-Engineering f√ºr Ozon: Quadratischer Zusammenhang

Die visuelle Analyse der Beziehung zwischen PM2.5 und Ozon (`O3`) mithilfe von LOWESS zeigt eine deutliche **U-f√∂rmige Struktur**:  
- Bei **niedrigen und hohen Ozonwerten** ist die Feinstaubbelastung erh√∂ht  
- Bei **mittleren Werten** hingegen am geringsten  
- Die Form wader Kurve ist rundlich, nicht spitz ‚Äì also kein V, sondern ein **sanfter quadratischer Verlauf**

Um diesen nichtlinearen Zusammenhang im Regressionsmodell abzubilden, wird ein **quadratischer Term** `O3_squared` eingef√ºhrt.

In [None]:
# Quadratischen Term f√ºr Ozon erstellen
df_model['O3_squared'] = df_model['O3'] ** 2


In [None]:
X_quad_o3 = df_model.drop(columns=['Pm25']) # Features
y_quad_o3 = df_model['Pm25']

# Konstanten-Term hinzuf√ºgen
X_quad_o3 = sm.add_constant(X_quad_o3)

# Modell trainieren
model_quad_o3 = sm.OLS(y_quad_o3, X_quad_o3).fit()
print(model_quad_o3.summary())



#### ‚úÖ Ergebnis: Quadratische Transformation von Ozon verbessert das Modell

Die zuvor mit LOWESS beobachtete **U-f√∂rmige Beziehung zwischen PM2.5 und O‚ÇÉ** konnte durch die Einf√ºhrung eines quadratischen Terms (`O3_squared`) erfolgreich im Regressionsmodell abgebildet werden.

Das erweiterte Modell zeigt eine weitere Leistungssteigerung:

- $R^2$: von **0.283** ‚Üí **0.313**
- Adj. $R^2$: von **0.280** ‚Üí **0.310**

Beide Ozon-Terme (`O3`, `O3_squared`) sind **hoch signifikant** (p < 0.001). Die Koeffizienten deuten auf einen **nichtlinearen Zusammenhang** hin, bei dem die Feinstaubbelastung bei mittleren O‚ÇÉ-Werten am geringsten ist ‚Äì und sowohl bei sehr niedrigen als auch sehr hohen Ozonwerten wieder ansteigt.

‚û°Ô∏è Diese Transformation verdeutlicht, wie wichtig es ist, **visuelle Datenanalyse** mit **gezieltem Feature Engineering** zu kombinieren, um komplexe Umweltzusammenh√§nge zu modellieren.


# 6. Finales Modell: Visualisierung der Ergebnisse

In [None]:
# Vorhersagen erzeugen
y_pred = model_quad_o3.predict(X_quad_o3)

# Scatterplot
plt.figure(figsize=(8, 6))
sns.scatterplot(x=y_quad_o3, y=y_pred, alpha=0.5)
plt.plot([y_quad_o3.min(), y_quad_o3.max()],
         [y_quad_o3.min(), y_quad_o3.max()],
         color='red', linestyle='--', label='Ideal')
plt.xlabel('Tats√§chliche PM2.5-Werte (¬µg/m¬≥)')
plt.ylabel('Vorhergesagte PM2.5-Werte (¬µg/m¬≥)')
plt.title('Vorhersage vs. tats√§chliche Werte')
plt.legend()
plt.grid(True)
plt.tight_layout();


#### üìà Vorhersage vs. tats√§chliche Werte

Der Scatterplot zeigt die vom Modell vorhergesagten PM2.5-Werte im Vergleich zu den tats√§chlich gemessenen Werten. Die rote Linie markiert den idealen Fall, in dem Vorhersage und Realit√§t exakt √ºbereinstimmen w√ºrden.

Beobachtungen:

- Im zentralen Bereich (ca. 20‚Äì80‚ÄØ¬µg/m¬≥), wo die meisten Datenpunkte liegen, liegt ein Gro√üteil der Punkte **unterhalb der Diagonalen** ‚Üí das Modell **√ºbersch√§tzt die PM2.5-Werte** leicht.
- Ab etwa 80 ¬µg/m¬≥ Vorhersagewert steigt die Modellvorhersage weiter an ‚Äì **obwohl die tats√§chlichen Werte eine Obergrenze bei ca. 80 erreichen**.
- Daraus ergibt sich eine **systematische √úbersch√§tzung im oberen Wertebereich**, was darauf hindeutet, dass das Modell **keine nat√ºrliche S√§ttigung erkennt**.

‚û°Ô∏è Insgesamt liefert das Modell brauchbare Vorhersagen im Hauptbereich der Daten, tendiert jedoch dazu, **sehr hohe PM2.5-Werte zu √ºbersch√§tzen**, was bei linearen Modellen ohne Schranken ein bekanntes Ph√§nomen ist.


In [None]:
# Residuen berechnen
residuals = y_quad_o3 - y_pred

# Plot
plt.figure(figsize=(8, 6))
sns.scatterplot(x=y_pred, y=residuals, alpha=0.5)
plt.axhline(0, color='red', linestyle='--')
plt.xlabel('Vorhergesagte PM2.5-Werte (¬µg/m¬≥)')
plt.ylabel('Residuen')
plt.title('Residuen vs. Vorhersagen')
plt.grid(True)
plt.tight_layout();


#### üìâ Residuen vs. Vorhersagen

Der Residuenplot zeigt die Differenz zwischen tats√§chlichem und vorhergesagtem PM2.5-Wert in Abh√§ngigkeit vom Vorhersagewert. Idealerweise sollten sich die Punkte zuf√§llig um die Null-Linie gruppieren ‚Äì ohne erkennbares Muster.

- Die Punkte streuen relativ gleichm√§√üig um die Null-Linie ‚Üí **kein systematischer Fehler** sichtbar.
- Kein klarer Trend in den Residuen ‚Üí das Modell verzerrt die Vorhersagen nicht systematisch bei hohen oder niedrigen PM2.5-Werten.
- Die Varianz der Residuen scheint √ºber den Wertebereich hinweg relativ konstant, das Kriterium der **Homoskedastizit√§t** ist also weitgehend erf√ºllt.

‚û°Ô∏è Der Residuenplot unterst√ºtzt die Annahme, dass das Modell nicht nur gut angepasst ist, sondern auch robust und stabil im Fehlerverhalten.

#### üîé Auff√§lligkeit im Residuenplot: diagonale Streifen

Beim Residuenplot zeigen sich insbesondere im negativen Bereich der Residuen **schr√§g verlaufende Streifenmuster**. Diese diagonalen Anordnungen entstehen h√§ufig, wenn:

- Eingabevariablen (z.‚ÄØB. Ozon oder NO‚ÇÇ) nur wenige diskrete Werte annehmen
- das Modell daraus kontinuierliche Vorhersagen erzeugt
- die tats√§chlichen PM2.5-Werte wiederum gerundet vorliegen

‚û°Ô∏è Das Streifenmuster ist in diesem Fall kein Hinweis auf Modellfehler, sondern eher auf die **Granularit√§t und Struktur der Eingangsdaten** zur√ºckzuf√ºhren.




# 7. Modellvergleich

| Modell | Enthaltene Features | $R^2$ | Adj. $R^2$ | AIC | BIC | Bemerkung |
|--------|----------------------|----------|----------------|-----|-----|-----------|
| **1** | Wetter (linear) | 0.072 | 0.070 | ~25280 | ~25310 | Ausgangsmodell |
| **2** | Wetter (ohne Luftdruck) | 0.072 | 0.070 | ~25280 | ~25310 | `Pres` entfernt ‚Äì kein Informationsverlust |
| **3** | + `log(Prcp + 1)` | 0.078 | 0.076 | ~25260 | ~25290 | Nichtlineare Transformation |
| **4** | + `Tavg¬≤` | 0.122 | 0.120 | ~25120 | ~25160 | Quadratische Temperatur |
| **5** | + `Season` (Dummy) | 0.176 | 0.174 | ~24950 | ~25000 | Zeitstruktur eingebunden |
| **6** | + Schadstoffe (ohne `Pm10`, mit `Co`) | 0.283 | 0.280 | ~22870 | ~22940 | Stark verbesserte Modellg√ºte |
| **7** | Schadstoffe ohne `Co`, + `O3¬≤` | **0.313** | **0.310** | ~24020* | ~24100* | Bestes Modell, plausibler Zusammenhang |

> \* Die AIC/BIC-Werte in Modell 7 sind durch mehr Beobachtungen nicht direkt vergleichbar mit Modell 6 (siehe Hinweis im Text).

‚û°Ô∏è Der Modellvergleich zeigt, wie systematisches Feature Engineering die Vorhersageg√ºte deutlich steigern kann:  

Durch die Kombination aus Transformationen, nichtlinearen Erweiterungen und der Einbindung zeitlicher sowie inhaltlich verwandter Einflussfaktoren konnte das Regressionsmodell von einem urspr√ºnglichen $R^2¬ß von **0.072** auf **0.313** verbessert werden ‚Äì eine Steigerung um √ºber **330‚ÄØ%**.

