In [4]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Datei einlesen (ggf. Pfad anpassen)
df_verkehr = pd.read_csv(
    "../../data/Rohdaten/verkehrszaehlungen_csv/2025_verkehrszaehlungen_werte_fussgaenger_velo-2.csv",
    delimiter=",",
    encoding="utf-8",
    parse_dates=["DATUM"]
)




# √úberblick √ºber Spalten und Datentypen
print("Datentypen:")
print(df_verkehr.dtypes)

# Nullwerte pr√ºfen
print("\nNullwerte pro Spalte:")
print(df_verkehr.isnull().sum().sort_values(ascending=False))

# Dimensionen
print("\nForm:", df_verkehr.shape)

# Erste 5 Zeilen
print("\nErste 5 Zeilen:")
print(df_verkehr.head())

# Eindeutige Werte je Spalte
print("\nEindeutige Werte pro Spalte:")
print(df_verkehr.nunique().sort_values(ascending=False))

# Spalten mit nur einem Wert
print("\nSpalten mit nur einem Wert:")
print(df_verkehr.columns[df_verkehr.nunique() <= 1])

# Doppelte Zeilen pr√ºfen
print("\nDoppelte Zeilen:", df_verkehr.duplicated().sum())


Datentypen:
FK_STANDORT             int64
DATUM          datetime64[ns]
VELO_IN               float64
VELO_OUT              float64
FUSS_IN               float64
FUSS_OUT              float64
OST                     int64
NORD                    int64
dtype: object

Nullwerte pro Spalte:
FUSS_IN        231561
FUSS_OUT       231561
VELO_OUT        42512
VELO_IN         21784
FK_STANDORT         0
DATUM               0
OST                 0
NORD                0
dtype: int64

Form: (253345, 8)

Erste 5 Zeilen:
   FK_STANDORT      DATUM  VELO_IN  VELO_OUT  FUSS_IN  FUSS_OUT      OST  \
0         4241 2025-01-01      3.0       0.0      NaN       NaN  2682297   
1         2989 2025-01-01      1.0       2.0      NaN       NaN  2682278   
2         2991 2025-01-01     18.0       2.0      NaN       NaN  2682756   
3         4255 2025-01-01      0.0       0.0      NaN       NaN  2682881   
4         4242 2025-01-01      1.0       0.0      NaN       NaN  2682337   

      NORD  
0  1248328  
1  

### üìù Datenpr√ºfung: Fuss- und Veloverkehrsz√§hlungen 2025 (`verkehrszaehlungen_werte_fussgaenger_velo-2.csv`)

Der Datensatz enth√§lt **Verkehrsz√§hldaten f√ºr das Jahr 2025** an **26 automatischen Messstellen** in der Stadt Z√ºrich. Es wurden insgesamt **253'345 Zeilen** eingelesen, die sowohl Fussg√§nger- als auch Veloverkehrsbewegungen nach Richtung (IN/OUT) erfassen.

**Datenstruktur:**
- Es sind **acht Spalten** vorhanden:
  - `FK_STANDORT`: Messstellen-ID
  - `DATUM`: Zeitstempel (automatisch als `datetime` erkannt)
  - `VELO_IN`, `VELO_OUT`: einfahrende / ausfahrende Fahrr√§der
  - `FUSS_IN`, `FUSS_OUT`: ein-/ausgehende Fussg√§nger:innen
  - `OST`, `NORD`: Koordinaten im LV95-System (CH1903+)

**Nullwerte:**
- **Fussverkehrsdaten fehlen f√ºr viele Eintr√§ge**:
  - `FUSS_IN` und `FUSS_OUT`: jeweils **~91 % fehlend** (231'561 von 253'345)
- Auch bei Velodaten gibt es L√ºcken:
  - `VELO_IN`: 21'784 fehlende Werte
  - `VELO_OUT`: 42'512 fehlende Werte
- Die Standort- und Zeitinformationen sind vollst√§ndig vorhanden.

**Eindeutige Werte:**
- Es gibt Daten f√ºr **26 unterschiedliche Messstellen** (`FK_STANDORT`)
- Der Zeitraum umfasst **10'460 verschiedene Tage/Zeitpunkte**
- Die Z√§hlwerte sind **numerisch (float)** und enthalten **eine moderate Spannweite** (z.B. 132 verschiedene Werte f√ºr `VELO_IN`)

**Doppelte Eintr√§ge:**
- Es wurden **keine doppelten Zeilen** gefunden ‚Üí saubere Messstruktur

**Fazit:**
Der Datensatz ist gut strukturiert, allerdings **nicht vollst√§ndig f√ºr alle Z√§hlarten**. Besonders im Bereich Fussg√§ngerdaten fehlen Werte ‚Äì dies muss bei der Analyse ber√ºcksichtigt werden (z.B. Filtern auf valide Eintr√§ge pro Verkehrsart). Die Koordinaten erm√∂glichen eine direkte r√§umliche Zuordnung zu Quartieren oder Wegenetzen. Ideal geeignet zur Berechnung von **Verkehrsintensit√§ten pro Standort**, zur **zeitlichen Trendanalyse** oder zur **Versorgungsbewertung in stark frequentierten Bereichen**.
