## Open Government Data, provided by **OpenDataZurich**
*Autogenerated Python starter code for data set with identifier* **sid_wapo_wetterstationen**

## Dataset
# **Messwerte der Wetterstationen der Wasserschutzpolizei Zürich**

## Description

Die beiden Wetterstationen [**Tiefenbrunnen**](https://www.tecson-data.ch/zurich/tiefenbrunnen/index.php) (beim Dienstgebäude der Wasserpolizei) und [**Mythenquai**](https://www.tecson-data.ch/zurich/mythenquai/index.php) (Hafen Enge) liefern Messwerte sowohl zu aktuellen wie auch zu vergangenen Wettersituationen. Über die REST-API namens [**Tecdottir**](https://data.stadt-zuerich.ch/showcase/wetterstation-api) können diese Daten direkt bezogen werden.

Die Daten können auch als csv-Dateien herunter geladen werden.

Die Messwerte umfassen: Lufttemperatur, Luftfeuchte, Luftdruck, Taupunkt, Wassertemperatur, Windböen, Windgeschwindigkeit, Windstärke, Windrichtung und Windchill. Zusätzlich liefert die Wetterstation Mythenquai noch die Messwerte zu Globalstrahlung, Niederschlagsmenge und dem Pegelstand des Zürichsees.


**Tecdottir API:**

Wenn Sie direkt mit den Messdaten der beiden Wetterstationen arbeiten möchten, können Sie die von **Stefan Oderbolz** aus Eigeninitiative privat entwickelte REST-API namens [**Tecdottir**](https://data.stadt-zuerich.ch/showcase/wetterstation-api) verwenden. Dieses ermöglicht ein einfaches abfragen und exportieren der Messdaten als JSON-Datei.

**Zeitzonen und Zeitumstellung**

In diesem Datensatz sind die Zeitangaben sowohl in MEZ/MESZ (Mitteleuropäische Zeit) wie auch in UTC (koordinierte Weltzeit) angegeben. Das Datumsformat entspricht jeweils [ISO 8601](https://de.wikipedia.org/wiki/ISO_8601).

Bei der Zeitumstellung im Frühling fehlt jeweils die Stunde zwischen 02:00-03:00 Uhr, d.h. auf die Messung von 01:50 Uhr folgt die Messung von 03:00 Uhr.
Im Herbst wird bei der Zeitumstellung systembedingt jeweils nur eine Messung pro Zeitangabe zwischen 02:00-03:00 Uhr übermittelt, d.h. die Stunde 01:00-02:00 UTC fehlt in den Daten.



## Data set links

[Direct link by OpenDataZurich for dataset](https://data.stadt-zuerich.ch/dataset/sid_wapo_wetterstationen)

https://data.stadt-zuerich.ch/dataset/sid_wapo_wetterstationen/download/messwerte_mythenquai_seit2007-heute.parquet<br>


## Metadata
- **Publisher** `Wasserschutzpolizei, Stadtpolizei, Sicherheitsdepartement`
- **Maintainer** `Open Data Zürich`
- **Maintainer_email** `opendata@zuerich.ch`
- **Keywords** `Freizeit,Umwelt`
- **Tags** `['api', 'echtzeitdaten', 'feuchte', 'hitze', 'kälte', 'sachdaten', 'sturm', 'tabelle', 'temperatur', 'wetter', 'zeitreihe']`
- **Metadata_created** `2022-07-12T15:22:11.076091`
- **Metadata_modified** `2025-09-07T03:43:02.925051`


## Imports and helper functions

In [None]:
import matplotlib.pyplot as plt
import pandas as pd 

In [None]:
# helper function for reading datasets with proper separator
def get_dataset(url):
    """
    Return pandas df if url is parquet or csv file. Return None if not.
    """
    extension = url.rsplit(".",1)[-1]
    if extension == 'parquet':
        data = pd.read_parquet(url)
    elif extension == 'csv':
        data = pd.read_csv(url, sep=",", on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
        # if dataframe only has one column or less the data is not comma separated, use ";" instead
        if data.shape[1] <= 1:
            data = pd.read_csv(url, sep=';', on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
            if data.shape[1] <= 1:
                print("The data wasn't imported properly. Very likely the correct separator couldn't be found.\nPlease check the dataset manually and adjust the code.")
    else:
        print("Cannot load data! Please provide an url with csv or parquet extension.")
        data = None
    return data

## Load the data

In [None]:
df = get_dataset('https://data.stadt-zuerich.ch/dataset/sid_wapo_wetterstationen/download/messwerte_mythenquai_seit2007-heute.parquet')

## Analyze the data

In [None]:
# drop columns that have no values
df.dropna(how='all', axis=1, inplace=True)

In [None]:
print(f'The dataset has {df.shape[0]:,.0f} rows (observations) and {df.shape[1]:,.0f} columns (variables).')
print(f'There seem to be {df.duplicated().sum()} exact duplicates in the data.')

In [None]:
df.info(memory_usage='deep', verbose=True)

In [None]:
df.head()

In [None]:
# display a small random sample transposed in order to see all variables
df.sample(3).T

In [None]:
# describe non-numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(exclude='number'))
except:
    print("No categorical data in dataset.")

In [None]:
# describe numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(include='number'))
except:
    print("No numercial data in dataset.")

In [None]:
# check missing values with missingno
# https://github.com/ResidentMario/missingno
import missingno as msno
msno.matrix(df, labels=True, sort='descending');

In [None]:
# plot a histogram for each numerical feature
try:
    df.hist(bins=25, rwidth=.9)
    plt.tight_layout()
    plt.show()
except:
    print("No numercial data to plot.") 

In [None]:
# continue your code here...

**Contact**: opendata@zuerich.ch