## Open Government Data, provided by **OpenDataZurich**
*Autogenerated Python starter code for data set with identifier* **vbz_frequenzen_hardbruecke**

## Dataset
# **Fahrgastfrequenzen an der VBZ-Haltestelle Hardbrücke**

## Description

Diese Daten beinhalten die Personenfrequenzen verschiedener Zähllinien an der VBZ-Haltestelle Hardbrücke, an der die Linie 33, 72, 83 und die Linie 8 verkehren.
Mit diesem Test-System lassen sich Veränderungen an diesem speziellen Ort erkennen, welche aber nicht mit dem übrigen Netz oder dem Vorjahr verglichen werden können, um allfällige Effekte zu identifizieren.

**Wichtiger Hinweis**: 

Bitte beachten Sie die Hinweise unter **«Bekannte Sensorausfälle»** ob bei einer Datenanalyse im Untersuchungszeitraum ein Sensorausfall stattgefunden hat.

**Information zum Datensatz**

Die Daten werden richtungsgetrennt ausgewiesen. 

- 'Ost' bezeichnet die Haltestelle Hardbrücke mit Fahrtrichtung Schiffbau.
- 'West' bezeichnet die Haltestelle Hardbrücke mit Fahrtrichtung Hardplatz. 

Zudem werden die Frequenzen an vier verschiedenen Zähllinien erfasst. 

- 'Süd' bezeichnet die Zähllinie im Süden der Haltestelle. Es werden alle Personen erfasst, die vom Hardplatz kommend die VBZ-Haltestelle betreten bzw. die Haltestelle in diese Richtung verlassen.
- 'Nord' bezeichnet die Zähllinie im Norden der Haltestelle. Es werden alle Persoenen erfasst, die via Fussgängerrampe im Norden die VBZ-Haltestelle betreten/verlassen.
- 'SBB', bezeichnet die Zähllinie mit Zugang zur S-Bahnstation Hardbrücke. Es werden alle Personen erfasst, die von der SBB kommend die VBZ-Haltestelle betreten bzw. die Haltestelle in diese Richtung verlassen.
- 'VBZ', bezeichnet die Zähllinie mit den VBZ-Frequenzen. Es werden alle Persoenen erfasst, die von einem VBZ-Fahrzeug die VBZ-Haltestelle betreten bzw. die Haltestelle durch Einstieg in ein VBZ-Fahrzeug verlassen.

**Störungen:**

- Die absoluten Zählwerte auf dem Perron **Ost** sind von Januar 2023 bis und mit Juli 2023 fehlerbehaftet
- Die absoluten Zählwerte auf dem Perron **West** sind von Dezember 2019 bis und mit Dezember 2023 fehlerbehaftet

**Bekannte Sensorausfälle:**

- **20.12.2023 - ca. 15.01.2024**: Wegen Unterhaltsarbeiten lieferte die Schnittstelle keine Zähldaten.

- **01.08. - 13.08.2020**: Sensorausfall an der Hardbrücke (Ost-Seite) ausgefallen. Dies hat zur Folge, dass die Daten für die SBB-Zähllinie Ost (Attribut `Ost-SBB total`) in diesem Zeitraum fehlen.

**Genereller Hinweis:** Das Zählsystem an der Hardbrücke ist erst seit Q4 2019 im Betrieb. Es kann generell zu einzelnen Datenlücken kommen. Die VBZ arbeitet laufend daran, bekannte Datenlücken wenn möglich zu minimieren. Die Daten können somit stets überschrieben werden.

**Situation:**

Westkante:
![Situationsplan Westkante](https://www.stadt-zuerich.ch/content/dam/web/de/politik-verwaltung/statistik-und-daten/open-government-data/bilder_nwa/datenkatalog/vbz/vbz_Situation_Westkante.PNG)

Ostkante:
![Situationsplan/Ostkante](https://www.stadt-zuerich.ch/content/dam/web/de/politik-verwaltung/statistik-und-daten/open-government-data/bilder_nwa/datenkatalog/vbz/vbz_Situation_Ostkante.PNG)



## Data set links

[Direct link by OpenDataZurich for dataset](https://data.stadt-zuerich.ch/dataset/vbz_frequenzen_hardbruecke)

https://data.stadt-zuerich.ch/dataset/vbz_frequenzen_hardbruecke/download/frequenzen_hardbruecke_2025.parquet<br>


## Metadata
- **Publisher** `Verkehrsbetriebe Zürich, Departement der Industriellen Betriebe`
- **Maintainer** `Open Data Zürich`
- **Maintainer_email** `opendata@zuerich.ch`
- **Keywords** `Mobilität`
- **Tags** `['bus', 'fahrgastzahlen', 'frequenzen', 'hardbücke', 'passagiere', 'pendler', 'sachdaten', 'tabelle', 'tram', 'vbz', 'öffentlicher verkehr', 'öv']`
- **Metadata_created** `2020-03-27T14:23:46.471679`
- **Metadata_modified** `2025-08-10T03:56:52.842227`


## Imports and helper functions

In [None]:
import matplotlib.pyplot as plt
import pandas as pd 

In [None]:
# helper function for reading datasets with proper separator
def get_dataset(url):
    """
    Return pandas df if url is parquet or csv file. Return None if not.
    """
    extension = url.rsplit(".",1)[-1]
    if extension == 'parquet':
        data = pd.read_parquet(url)
    elif extension == 'csv':
        data = pd.read_csv(url, sep=",", on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
        # if dataframe only has one column or less the data is not comma separated, use ";" instead
        if data.shape[1] <= 1:
            data = pd.read_csv(url, sep=';', on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
            if data.shape[1] <= 1:
                print("The data wasn't imported properly. Very likely the correct separator couldn't be found.\nPlease check the dataset manually and adjust the code.")
    else:
        print("Cannot load data! Please provide an url with csv or parquet extension.")
        data = None
    return data

## Load the data

In [None]:
df = get_dataset('https://data.stadt-zuerich.ch/dataset/vbz_frequenzen_hardbruecke/download/frequenzen_hardbruecke_2025.parquet')

## Analyze the data

In [None]:
# drop columns that have no values
df.dropna(how='all', axis=1, inplace=True)

In [None]:
print(f'The dataset has {df.shape[0]:,.0f} rows (observations) and {df.shape[1]:,.0f} columns (variables).')
print(f'There seem to be {df.duplicated().sum()} exact duplicates in the data.')

In [None]:
df.info(memory_usage='deep', verbose=True)

In [None]:
df.head()

In [None]:
# display a small random sample transposed in order to see all variables
df.sample(3).T

In [None]:
# describe non-numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(exclude='number'))
except:
    print("No categorical data in dataset.")

In [None]:
# describe numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(include='number'))
except:
    print("No numercial data in dataset.")

In [None]:
# check missing values with missingno
# https://github.com/ResidentMario/missingno
import missingno as msno
msno.matrix(df, labels=True, sort='descending');

In [None]:
# plot a histogram for each numerical feature
try:
    df.hist(bins=25, rwidth=.9)
    plt.tight_layout()
    plt.show()
except:
    print("No numercial data to plot.") 

In [None]:
# continue your code here...

**Contact**: opendata@zuerich.ch