In [109]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Datei einlesen (ggf. Pfad anpassen)
df_verkehr2024 = pd.read_csv(
    "../../data/Rohdaten/verkehrszaehlungen_csv/2024_verkehrszaehlungen_werte_fussgaenger_velo.csv",
    delimiter=",",
    encoding="utf-8",
    parse_dates=["DATUM"]
)

df_verkehr2022 = pd.read_csv(
    "../../data/Rohdaten/verkehrszaehlungen_csv/2022_verkehrszaehlungen_werte_fussgaenger_velo.csv",
    delimiter=",",
    encoding="utf-8",
    parse_dates=["DATUM"]
)

df_verkehr2023 = pd.read_csv(
    "../../data/Rohdaten/verkehrszaehlungen_csv/2023_verkehrszaehlungen_werte_fussgaenger_velo.csv",
    delimiter=",",
    encoding="utf-8",
    parse_dates=["DATUM"]
)

df_verkehr2025 = pd.read_csv(
    "../../data/Rohdaten/verkehrszaehlungen_csv/2025_verkehrszaehlungen_werte_fussgaenger_velo-1.csv",
    delimiter=",",
    encoding="utf-8",
    parse_dates=["DATUM"]
)

df_verkehr2021 = pd.read_csv(
    "../../data/Rohdaten/verkehrszaehlungen_csv/2021_verkehrszaehlungen_werte_fussgaenger_velo.csv",
    delimiter=",",
    encoding="utf-8",
    parse_dates=["DATUM"]
)

df_verkehr2020 = pd.read_csv(
    "../../data/Rohdaten/verkehrszaehlungen_csv/2020_verkehrszaehlungen_werte_fussgaenger_velo.csv",
    delimiter=",",
    encoding="utf-8",
    parse_dates=["DATUM"]
)

# Alle Jahres-Datensätze in eine Liste packen
verkehrsjahre = [
    df_verkehr2020,
    df_verkehr2021,
    df_verkehr2022,
    df_verkehr2023,
    df_verkehr2024,
    df_verkehr2025
]

# Jetzt alle zusammenführen
df_verkehr = pd.concat(verkehrsjahre, ignore_index=True)

# Überblick über Spalten und Datentypen
print("Datentypen:")
print(df_verkehr.dtypes)

# Nullwerte prüfen
print("\nNullwerte pro Spalte:")
print(df_verkehr.isnull().sum().sort_values(ascending=False))

# Dimensionen
print("\nForm:", df_verkehr.shape)

# Erste 5 Zeilen
print("\nErste 5 Zeilen:")
print(df_verkehr.head())

# Eindeutige Werte je Spalte
print("\nEindeutige Werte pro Spalte:")
print(df_verkehr.nunique().sort_values(ascending=False))

# Spalten mit nur einem Wert
print("\nSpalten mit nur einem Wert:")
print(df_verkehr.columns[df_verkehr.nunique() <= 1])

# Doppelte Zeilen prüfen
print("\nDoppelte Zeilen:", df_verkehr.duplicated().sum())


Datentypen:
FK_STANDORT             int64
DATUM          datetime64[ns]
VELO_IN               float64
VELO_OUT              float64
FUSS_IN               float64
FUSS_OUT              float64
OST                     int64
NORD                    int64
dtype: object

Nullwerte pro Spalte:
FUSS_IN        3959732
FUSS_OUT       3959732
VELO_OUT       2294781
VELO_IN        1793023
FK_STANDORT          0
DATUM                0
OST                  0
NORD                 0
dtype: int64

Form: (5759091, 8)

Erste 5 Zeilen:
   FK_STANDORT      DATUM  VELO_IN  VELO_OUT  FUSS_IN  FUSS_OUT      OST  \
0         3927 2020-01-01      1.0       1.0      NaN       NaN  2682873   
1         2977 2020-01-01      1.0       NaN      NaN       NaN  2682681   
2         3923 2020-01-01      0.0       0.0      NaN       NaN  2681385   
3         2979 2020-01-01      0.0       0.0      NaN       NaN  2681858   
4           60 2020-01-01      0.0       0.0      NaN       NaN  2682731   

      NORD  
0  1245

### 📝 Datenprüfung: Fuss- und Veloverkehrszählungen 2025 (`verkehrszaehlungen_werte_fussgaenger_velo-2.csv`)

Der Datensatz enthält **Verkehrszähldaten für das Jahr 2025** an **26 automatischen Messstellen** in der Stadt Zürich. Es wurden insgesamt **253'345 Zeilen** eingelesen, die sowohl Fussgänger- als auch Veloverkehrsbewegungen nach Richtung (IN/OUT) erfassen.

**Datenstruktur:**
- Es sind **acht Spalten** vorhanden:
  - `FK_STANDORT`: Messstellen-ID
  - `DATUM`: Zeitstempel (automatisch als `datetime` erkannt)
  - `VELO_IN`, `VELO_OUT`: einfahrende / ausfahrende Fahrräder
  - `FUSS_IN`, `FUSS_OUT`: ein-/ausgehende Fussgänger:innen
  - `OST`, `NORD`: Koordinaten im LV95-System (CH1903+)

**Nullwerte:**
- **Fussverkehrsdaten fehlen für viele Einträge**:
  - `FUSS_IN` und `FUSS_OUT`: jeweils **~91 % fehlend** (231'561 von 253'345)
- Auch bei Velodaten gibt es Lücken:
  - `VELO_IN`: 21'784 fehlende Werte
  - `VELO_OUT`: 42'512 fehlende Werte
- Die Standort- und Zeitinformationen sind vollständig vorhanden.

**Eindeutige Werte:**
- Es gibt Daten für **26 unterschiedliche Messstellen** (`FK_STANDORT`)
- Der Zeitraum umfasst **10'460 verschiedene Tage/Zeitpunkte**
- Die Zählwerte sind **numerisch (float)** und enthalten **eine moderate Spannweite** (z.B. 132 verschiedene Werte für `VELO_IN`)

**Doppelte Einträge:**
- Es wurden **keine doppelten Zeilen** gefunden → saubere Messstruktur

**Fazit:**
Der Datensatz ist gut strukturiert, allerdings **nicht vollständig für alle Zählarten**. Besonders im Bereich Fussgängerdaten fehlen Werte – dies muss bei der Analyse berücksichtigt werden (z.B. Filtern auf valide Einträge pro Verkehrsart). Die Koordinaten ermöglichen eine direkte räumliche Zuordnung zu Quartieren oder Wegenetzen. Ideal geeignet zur Berechnung von **Verkehrsintensitäten pro Standort**, zur **zeitlichen Trendanalyse** oder zur **Versorgungsbewertung in stark frequentierten Bereichen**.


In [110]:
# Zuerst nur die benötigten Spalten auswählen (ohne Velo-Daten)
df_verkehr = df_verkehr[[
    "FK_STANDORT", "DATUM", "FUSS_IN", "FUSS_OUT", "OST", "NORD"
]].copy()

# Spalten umbenennen auf englische kleine Namen
df_verkehr.rename(columns={
    "FK_STANDORT": "fk_standort",
    "DATUM": "date",
    "FUSS_IN": "fuss_in",
    "FUSS_OUT": "fuss_out",
    "OST": "east",
    "NORD": "north"
}, inplace=True)

# Zeilen löschen, bei denen sowohl foot_in als auch foot_out leer (NaN) sind
df_verkehr = df_verkehr.dropna(subset=["fuss_in", "fuss_out"], how="all")

# Überblick nach Umbenennung und Bereinigung
print("Neue Form nach Reduktion und Bereinigung:", df_verkehr.shape)
print("\nErste 5 Zeilen:")
print(df_verkehr.head())


Neue Form nach Reduktion und Bereinigung: (1799359, 6)

Erste 5 Zeilen:
    fk_standort       date  fuss_in  fuss_out     east    north
5          2985 2020-01-01      2.0       4.0  2680439  1249930
6          1357 2020-01-01    109.0     129.0  2682973  1246329
7             2 2020-01-01      1.0       1.0  2679190  1249436
10         1358 2020-01-01      1.0       5.0  2683557  1251702
11         2984 2020-01-01      7.0       5.0  2682978  1248744


In [111]:
# Erst sicherstellen, dass die 'date'-Spalte wirklich nur das Datum enthält (ohne Uhrzeit)
df_verkehr["date"] = pd.to_datetime(df_verkehr["date"]).dt.date

# Dann nach Standort und Datum gruppieren und summieren
df_verkehr_daily = df_verkehr.groupby(["fk_standort", "date"], as_index=False).agg({
    "fuss_in": "sum",
    "fuss_out": "sum",
    "east": "first",
    "north": "first"
})

# Kontrolle: neue Form und erste Zeilen
print("Form nach täglicher Aggregation:", df_verkehr_daily.shape)
print("\nErste 5 Zeilen:")
print(df_verkehr_daily.head())


Form nach täglicher Aggregation: (18757, 6)

Erste 5 Zeilen:
   fk_standort        date  fuss_in  fuss_out     east    north
0            2  2020-01-01    810.0     758.0  2679190  1249436
1            2  2020-01-02    982.0     930.0  2679190  1249436
2            2  2020-01-03   1469.0    1357.0  2679190  1249436
3            2  2020-01-04   1051.0    1205.0  2679190  1249436
4            2  2020-01-05    976.0     983.0  2679190  1249436


In [112]:
# Aggregierten Tages-Datensatz als CSV speichern
df_verkehr_daily.to_csv(
    "../../data/Cleaned/VerkehrszaehlungenFussgaengerDaily.csv",
    index=False,
    encoding="utf-8"
)

print("✅ Der aggregierte Fussgänger-Tagesdatensatz wurde erfolgreich gespeichert!")


✅ Der aggregierte Fussgänger-Tagesdatensatz wurde erfolgreich gespeichert!


In [113]:

anzahl_fussgaenger_standorte = df_verkehr[df_verkehr[["fuss_in", "fuss_out"]].notna().any(axis=1)]["fk_standort"].nunique()


print(f"🏙️ Anzahl Standorte mit Fussgänger-Daten: {anzahl_fussgaenger_standorte}")


🏙️ Anzahl Standorte mit Fussgänger-Daten: 39
