# Dashboard 

*Disclaimer: Das Dashboard wurde zunächst mit Vibe-Coding erstellt (ChatGPT) und dann manuell optimiert.*

Zum Abschluss des Projekts soll ein interaktives Dashboard mit Streamlit erstellt werden.

in einem ersten Schritt wird ein MVP (Minimal Viable Product) entworfen, um die Funktionalitäten zu entwickeln und zu testen. Das MVP enthält nur Daten aus drei Städten: Hamburg, Berlin und Karlsruhe.

Der Datensatz für das MVP ist gespeichert als `test_dashboard_air_quality.csv`.



# 🧭 Plan für das Streamlit-Dashboard zur Luftqualität

## ✅ 1. Basisfunktionen (bereits umgesetzt oder fast fertig):

- Dropdown zur Stadtauswahl (Stadt A & Stadt B)
- Dropdown zur Schadstoffauswahl (z. B. PM2.5, NO₂, SO₂, O₃, CO)
- Liniendiagramm mit dem gewählten Schadstoff über die Zeit
- Vergleich zweier Städte im gemeinsamen Diagramm
- Achsen-Labels und Titel verbessern (PM2.5 statt „Pm25“ usw.)

## 🧩 2. Nächste Ausbaustufe (geplant):
a) Zusätzliche Filtermöglichkeiten

- Auswahl eines Jahres oder Monats (Slider oder Selectbox)
- Filter nach Jahreszeit (z. B. Frühling, Sommer...)

b) Statistische Kennzahlen

- Durchschnitt, Minimum, Maximum des gewählten Schadstoffs für jede Stadt
- Darstellung unterhalb des Plots oder in einer kleinen Infobox

c) Darstellung Wetterdaten

- Auswahl eines Wetterparameters (Tavg, Humidity, etc.)
- Zweiter Plot oder zusätzliche Linie im selben Plot (Sekundärachse)

## 🖼 3. Späterer Ausbau (optional):
a) Interaktive Visualisierungen mit Plotly

- Hover-Effekte, dynamisches Zoomen, bessere Tooltips

b) Karte mit Clusterfarben

- z. B. Städte auf einer Karte mit Farben nach Cluster oder Mittelwert PM2.5

c) Infoboxen / Erläuterungen

- Kleine Textboxen mit verständlichen Erklärungen zur Interpretation der Daten
- Z. B. „PM2.5 ist Feinstaub unter 2.5 Mikrometer…“

d) Dashboard mit Datums- und Städteauswahl

- Auswahl eines Datums → Anzeige der Messwerte für alle Variablen
- Interaktive Heatmap oder Vergleichstabelle

## 📚 Inhaltsverzeichnis 
(Diese Art von Inhaltsverzeichnis mit Link funktioniert leider in Notebooks nicht, weil die as JSON gespeichert werden und nicht als HTML...)

- [0. Datensatz laden](#0-datensatz-laden)
- [1. Dataframe für MVP vorbereiten]


# 0. Datensatz laden

In [2]:
import pandas as pd
import matplotlib.pyplot as plt

In [3]:
df = pd.read_csv("data/cleaned_air_quality_data_2025-03-27.csv")
df.head()

Unnamed: 0,Year,Month,Day,Country,City,Latitude,Longitude,Population,Co,No2,...,So2,Dew,Humidity,Tavg,Tmin,Tmax,Prcp,Wdir,Wspd,Pres
0,2019,2,28,SA,Abha,18.21639,42.50528,5616633.0,,,...,,6.0,45.0,18.8,15.8,24.1,,183.0,21.9,1022.3
1,2019,3,1,SA,Abha,18.21639,42.50528,5616633.0,,,...,,12.0,64.0,17.0,13.5,23.0,,185.0,21.2,1021.9
2,2019,3,2,SA,Abha,18.21639,42.50528,5616633.0,,0.0,...,0.0,9.0,63.0,16.7,10.8,23.6,,186.0,15.2,1022.3
3,2019,3,3,SA,Abha,18.21639,42.50528,5616633.0,,0.0,...,0.0,6.0,55.0,15.9,10.8,22.0,,196.0,16.5,1023.4
4,2019,3,4,SA,Abha,18.21639,42.50528,5616633.0,,0.0,...,0.0,3.0,58.0,16.1,9.0,22.5,,,11.2,1023.8


# 1. Dataframe für MVP vorbereiten

Für das MVP sollten drei Städte gewählt werden, die möglichst vollständige Messdaten für alle relevanten Variablen übermittelt haben, damit die Funktionalitäten gut getestet werden können. Auch sollte die Anzahl an Datenpunkten pro Stadt ausreichend sein und den geamten relevanten Zeitraum abdecken.

In [5]:
# Optional: nur Spalten betrachten, die im Dashboard relevant sind
relevante_spalten = ["City", "Year", "Month", "Day", "Pm25", "Co", "No2", "So2", "O3", "Tavg", "Humidity"]
df = df[relevante_spalten]

# NaN-Anzahl je Stadt berechnen (über alle relevanten Spalten hinweg)
stadt_nan = df.groupby("City").apply(lambda x: x.isna().sum().sum())

# Alternativ: Anteil an NaN-Werten je Stadt
stadt_nan_anteil = df.groupby("City").apply(lambda x: x.isna().mean().mean())

# Sortieren: Städte mit den wenigsten fehlenden Werten zuerst
stadt_nan = stadt_nan.sort_values()
stadt_nan_anteil = stadt_nan_anteil.sort_values()

# Die Top 10 anzeigen
print("Städte mit absolut wenigsten NaNs:")
print(stadt_nan.head(10))

print("\nStädte mit dem geringsten Anteil an NaNs:")
print(stadt_nan_anteil.head(10))


Städte mit absolut wenigsten NaNs:
City
Saint petersburg      152
Shillong              279
Nizhniy novgorod      283
Ghāziābād             296
Bhopal                356
Thiruvananthapuram    405
Tuzla                 638
Chandigarh            643
Mysore                691
Patna                 707
dtype: int64

Städte mit dem geringsten Anteil an NaNs:
City
Ghāziābād             0.012943
Shillong              0.013238
Bhopal                0.014921
Thiruvananthapuram    0.016320
Chandigarh            0.023504
Tuzla                 0.023645
Patna                 0.024448
Delhi                 0.024937
Tokyo                 0.025256
Osaka                 0.025288
dtype: float64


  stadt_nan = df.groupby("City").apply(lambda x: x.isna().sum().sum())
  stadt_nan_anteil = df.groupby("City").apply(lambda x: x.isna().mean().mean())


In [6]:
# Liste der drei gewünschten Städte
städte = ["Delhi", "Tokyo", "Osaka"]

# Relevante Spalten definieren
relevante_spalten = ["Pm25", "Co", "No2", "So2", "O3", "Tavg", "Humidity"]

# DataFrame auf die drei Städte und die relevanten Spalten beschränken
df_subset = df[df["City"].isin(städte)][["City"] + relevante_spalten]

# Fehlende Werte je Stadt und Variable zählen
fehlende_werte = df_subset.groupby("City").apply(lambda x: x[relevante_spalten].isna().sum())

# Alternativ: Anteil an NaN-Werten je Stadt und Variable
anteil_nan = df_subset.groupby("City").apply(lambda x: x[relevante_spalten].isna().mean())

# Ergebnisse anzeigen
print("Anzahl fehlender Werte:")
print(fehlende_werte)

print("\nAnteil fehlender Werte:")
print(anteil_nan.round(2))


Anzahl fehlender Werte:
       Pm25  Co  No2  So2  O3  Tavg  Humidity
City                                         
Delhi     3   0    0    0   0    70       703
Osaka     0   0    0    0   0    67       718
Tokyo     0   0    0    0   0    67       717

Anteil fehlender Werte:
       Pm25   Co  No2  So2   O3  Tavg  Humidity
City                                           
Delhi   0.0  0.0  0.0  0.0  0.0  0.02      0.25
Osaka   0.0  0.0  0.0  0.0  0.0  0.02      0.25
Tokyo   0.0  0.0  0.0  0.0  0.0  0.02      0.25


  fehlende_werte = df_subset.groupby("City").apply(lambda x: x[relevante_spalten].isna().sum())
  anteil_nan = df_subset.groupby("City").apply(lambda x: x[relevante_spalten].isna().mean())


In [7]:
# Test-DataFrame für das Dashboard erstellen
df_mvp = df[df["City"].isin(["Delhi", "Tokyo", "Osaka"])].copy()

# Relevante Spalten wählen
columns = ["Year", "Month", "Day", "City", "Pm25", "Co", "No2", "So2", "O3", "Tavg", "Humidity"]
df_mvp = df_mvp[columns]

# Fürs MVP: nur Zeilen ohne NaNs behalten
df_mvp.dropna(inplace=True)

# In Datei speichern
df_mvp.to_csv("data/test_dashboard_air_quality.csv", index=False)


# Codeschnipsel, fass ich die noch mal brauche

# 1. Dokumentation

Was man später beim Skalieren nicht vergesen darf:

Liniendiagramm:

✅ Mein Plan für den skalierbaren Umgang mit mehr Städten:
🔹 1. Stadtanzahl begrenzen (z. B. Top 10 nach Jahresmittelwert)

# Top 10 Städte mit höchsten Mittelwerten im letzten Jahr
top_staedte = df_letztes_jahr.sort_values(by=auswahl, ascending=False).head(10)

So bleibt das Diagramm übersichtlich und zeigt die „interessantesten Fälle“ zuerst.

🔹 2. Farben automatisch generieren (mit Colormap)

Wir lassen Matplotlib die Farben aus einer Farbpalette wählen – z. B. "viridis", "plasma", "Set2", "tab10", etc.

import matplotlib.cm as cm
import numpy as np

# Colormap definieren
cmap = cm.get_cmap("tab10", len(top_staedte))

# Farben automatisch zuweisen
colors = [cmap(i) for i in range(len(top_staedte))]


Dann beim Plotten:

ax_bar.bar(
    top_staedte["City"],
    top_staedte[auswahl],
    color=colors
)

🔹 3. Optional: Dropdown mit Städteauswahl oder Jahr

So kann man z. B. sagen:

    „Zeig mir die Top 10 Städte im Jahr 2022“
    oder
    „Zeig mir die 5 Städte mit der niedrigsten NO₂-Belastung im aktuellen Jahr“

🎁 Fazit für später:

Wenn du den Datensatz erweiterst, dann machen wir:

    intelligente Auswahl, z. B. Top 10

    automatische Farben

    flexible Steuerung durch Dropdown oder Slider

So bleibt dein Dashboard schön, verständlich und performant – auch bei vielen Städten.