## Open Government Data, provided by **OpenDataZurich**
*Autogenerated Python starter code for data set with identifier* **vbz_fahrgastzahlen_ogd**

## Dataset
# **Fahrgastzahlen VBZ**

## Description

Diese Daten beinhalten **berechnete Jahreswerte** zu den Ein- und Aussteigenden an den Haltestellen, sowie zur Besetzung in den Fahrzeugen der Verkehrsbetriebe Zürich (VBZ). Bei den hier zur Verfügung gestellten Daten handelt es sich um **berechnete Mittelwerte** einzelner Fahrplanfahrten, **nicht** um **permanent gemessene Werte** aus allen Fahrzeugen. 

Die **Frequenzerhebung** erfolgt in den **Fahrzeugen mit einer Zähleinrichtung**, etwa **20% der Fahrzeuge** der VBZ sind entsprechend ausgerüstet. Es erfolgt eine **Schichtung nach Tagtyp**, die auf Tages- bzw. Periodensummen **hochgerechnet** werden. Falls eine Planfahrt an einem Tagtyp nicht gemessen wurde, **interpoliert das Zählsystem** aus den benachbarten Fahrten.

Die Tabellen ***HALTESTELLE.csv***, ***LINIE.csv***, ***TAGTYP.csv*** und ***GEFAESSGROESSE.csv*** sind Matchingtabellen zur Hauptdatei mit den Fahrgastzähldaten namens ***REISENDE.csv***.



**VBZ-Github-Repository:**

Um die Arbeit mit den OGD der VBZ einfacher zu gestalten, haben die VBZ ein eigenes [**Github-Repository**](https://github.com/VerkehrsbetriebeZuerich ) erstellt.
Darin finden Sie Anwendungsbeispiele und insbesondere Beispielcodes, wie mit den Daten in R oder mit Python gearbeitet werden kann. Siehe dazu die Repos:

- [**OGD-Beispielcode mit R**](https://github.com/VerkehrsbetriebeZuerich/ogd_examples_R)
- [**OGD-Beispielcode mit Python**](https://github.com/VerkehrsbetriebeZuerich/ogd_examples_python)

[]()

**Datenbankschema**

![Datenbankschema](https://statistik.stadt-zuerich.ch/modules/ogd_bspe/pics/vbz/Datenschema_faga21.PNG)


[]()

**Informationen zum Datensatz**

Der Fahrplan der VBZ ist aufgebaut nach **Tagtypen**.
Mit den in der Tabelle ***REISENDE.csv*** angegebenen Attributen «`Tage_DTV`» und «`Tage_DWV`» lassen sich **Durchschnittswerte** für Werktage oder für die ganze Woche berechnen. Dabei wird nicht das Fahrplanjahr oder das Kalenderjahr 2015 berücksichtigt, sondern ein **Standardjahr mit 251 Werktagen** (203 Mo-Do und 48 Fr), 52 Samstagen und 62 Sonn- und Feiertagen.

[]()

**Begrifflichkeiten**


- **DTV**: Durchschnittlicher täglicher Verkehr
- **DWV**: Durchschnittlicher Werktagverkehr



[]()

**Berechnung des «durchschnittlichen täglichen Verkehrs» (DTV):**

`DTV = (Besetzung * Tage_DTV) / 365`

[]()

**Berechnung des durchschnittlichen Werktagverkehrs (DWV):**

`DWV = (Besetzung * Tage_DWV) / 251`


[]()

**Code-Beispiel (SQL):**

Das folgende Code-Beispiel zeigt, wie der DTV und DWV für Ein- und Aussteigende je Haltestelle berechnet werden kann:

    SELECT 2019 AS Jahr, HALTESTELLEN.Haltestellennummer, HALTESTELLEN.Haltestellenlangname, Sum([Einsteiger]*[tage_DTV]/365) AS Ein_DTV, Sum([Aussteiger]*[Tage_DTV]/365) AS Aus_DTV, Sum([Einsteiger]*[tage_DWV]/251) AS Ein_DWV, Sum([Aussteiger]*[Tage_DwV]/251) AS Aus_DWV
    FROM REISENDE INNER JOIN HALTESTELLEN ON REISENDE.Haltestellen_Id = HALTESTELLEN.Haltestellen_Id
    GROUP BY 2019, HALTESTELLEN.Haltestellennummer, HALTESTELLEN.Haltestellenlangname;

[]()

**Nachtangebot**

Das Nachtangebot wird mit 52 Fr/Sa und 52 Sa/So verrechnet.

[]()

**Weitere Open Data zu öffentlichem Verkehr:**

Die VBZ publiziert - zusammen mit den meisten öffentlichen Verkehrsunternehmen der Schweiz - weitere Daten auch auf der [**«Open-Data-Plattform öV Schweiz**»](https://opentransportdata.swiss/de/dataset). 
Hier finden Sie beispielsweise [Fahrplandaten](https://opentransportdata.swiss/search?q=fahrplan) in HRDF oder auch in GTFS, [Echtzeitdaten](https://opentransportdata.swiss/de/dataset/go-realtime), [Fahrtprognosen-API](https://opentransportdata.swiss/de/dataset/fahrtprognose) und vieles mehr.

[]()

**Blogpost von vbzonline:**

«Zahlen, bitte!» - Beschreibung der Datenerhebung auf vbzonline.

[Hier geht's zum Blogpost](https://vbzonline.ch/zahlen-bitte/)

[]()



## Data set links

[Direct link by OpenDataZurich for dataset](https://data.stadt-zuerich.ch/dataset/vbz_fahrgastzahlen_ogd)

https://data.stadt-zuerich.ch/dataset/vbz_fahrgastzahlen_ogd/download/LINIE.csv<br>


## Metadata
- **Publisher** `Verkehrsbetriebe Zürich, Departement der Industriellen Betriebe`
- **Maintainer** `Open Data Zürich`
- **Maintainer_email** `opendata@zuerich.ch`
- **Keywords** `Mobilität`
- **Tags** `['bus', 'covid', 'offentlicher-verkehr', 'passagiere', 'pendler', 'sachdaten', 'tabelle', 'tram', 'vbz']`
- **Metadata_created** `2019-07-29T15:02:50.065125`
- **Metadata_modified** `2025-09-20T11:33:34.525940`


## Imports and helper functions

In [None]:
import matplotlib.pyplot as plt
import pandas as pd 

In [None]:
# helper function for reading datasets with proper separator
def get_dataset(url):
    """
    Return pandas df if url is parquet or csv file. Return None if not.
    """
    extension = url.rsplit(".",1)[-1]
    if extension == 'parquet':
        data = pd.read_parquet(url)
    elif extension == 'csv':
        data = pd.read_csv(url, sep=",", on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
        # if dataframe only has one column or less the data is not comma separated, use ";" instead
        if data.shape[1] <= 1:
            data = pd.read_csv(url, sep=';', on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
            if data.shape[1] <= 1:
                print("The data wasn't imported properly. Very likely the correct separator couldn't be found.\nPlease check the dataset manually and adjust the code.")
    else:
        print("Cannot load data! Please provide an url with csv or parquet extension.")
        data = None
    return data

## Load the data

In [None]:
df = get_dataset('https://data.stadt-zuerich.ch/dataset/vbz_fahrgastzahlen_ogd/download/LINIE.csv')

## Analyze the data

In [None]:
# drop columns that have no values
df.dropna(how='all', axis=1, inplace=True)

In [None]:
print(f'The dataset has {df.shape[0]:,.0f} rows (observations) and {df.shape[1]:,.0f} columns (variables).')
print(f'There seem to be {df.duplicated().sum()} exact duplicates in the data.')

In [None]:
df.info(memory_usage='deep', verbose=True)

In [None]:
df.head()

In [None]:
# display a small random sample transposed in order to see all variables
df.sample(3).T

In [None]:
# describe non-numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(exclude='number'))
except:
    print("No categorical data in dataset.")

In [None]:
# describe numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(include='number'))
except:
    print("No numercial data in dataset.")

In [None]:
# check missing values with missingno
# https://github.com/ResidentMario/missingno
import missingno as msno
msno.matrix(df, labels=True, sort='descending');

In [None]:
# plot a histogram for each numerical feature
try:
    df.hist(bins=25, rwidth=.9)
    plt.tight_layout()
    plt.show()
except:
    print("No numercial data to plot.") 

In [None]:
# continue your code here...

**Contact**: opendata@zuerich.ch