## Open Government Data, provided by **Statistisches Amt des Kantons Basel-Stadt - Fachstelle OGD**
*Autogenerated Python starter code for data set with identifier* **100272**

## Dataset
# **Vorhersagen Birs: Wasserstand und Abfluss**

## Data set links

[Direct data shop link for dataset](https://data.bs.ch/explore/dataset/100272)

## Metadata
- **Dataset_identifier** `100272`
- **Title** `Vorhersagen Birs: Wasserstand und Abfluss`
- **Description** `<p>Hydrologische Vorhersagen (Wasserstand und Abfluss) für die Station 'Birs - Münchenstein, Hofmatt'. </p><p style='font-family: sans-serif;'>Die Vorhersagen basieren auf den Meteo-Modellen ICON-CH1-EPS, ICON-CH2-EPS und IFS. Am Anfang der Zeitreihen stehen 24 Std. Messwerte, anschliessend fangen die Prognosen an. </p><p style='font-family: sans-serif;'>Bei den ICON-Modellen wird der Kontroll-Lauf in den Spalten 'Wasserstand' und 'Abflussmenge' ausgewiesen. Der Kontroll-Lauf ist die hydrologische Vorhersage basierend auf der meteorologischen Kontrollvorhersage.</p><p>Stationsinfo: Die Station befindet sich bei 'Hofmatt' in Münchenstein etwa auf Höhe der Brücke 'Baselstrasse' über die Birs.</p><p>Weitere Informationen sind hier zu finden: <a href='https://www.hydrodaten.admin.ch/de/seen-und-fluesse/stationen-und-daten/2106' target='_blank'>https://www.hydrodaten.admin.ch/de/seen-und-fluesse/stationen-und-daten/2106</a><a href='https://www.hydrodaten.admin.ch/de/seen-und-fluesse/stationen-und-daten/2106' target='_blank'></a></p><p style='font-family: sans-serif;'><span style='font-weight: bolder;'>Änderungsprotokoll:</span></p><p style='font-family: sans-serif;'><span style='font-weight: bolder;'>30.05.2024:</span> Für die numerische Vorhersage wurde das Wettermodell COSMO mit dem neuen Wettermodell ICON (Icosahedral Nonhydrostatic Weather and Climate Model) ersetzt. Mehr Infos dazu finden Sie hier: <a href='https://www.meteoschweiz.admin.ch/ueber-uns/forschung-und-zusammenarbeit/projekte/2023/icon-22.html' target='_blank'>https://www.meteoschweiz.admin.ch/ueber-uns/forschung-und-zusammenarbeit/projekte/2023/icon-22.html</a></p>`
- **Contact_name** `Open Data Basel-Stadt`
- **Issued** `2023-03-06`
- **Modified** `2025-03-24T06:02:02+00:00`
- **Rights** `NonCommercialAllowed-CommercialAllowed-ReferenceNotRequired`
- **Temporal_coverage_start_date** `2025-03-21T23:00:00+00:00`
- **Temporal_coverage_end_date** `2025-04-01T22:00:00+00:00`
- **Themes** `['Raum und Umwelt']`
- **Keywords** `['Vorhersage', 'Gewässer', 'Fliessgewässer', 'Hydrologie']`
- **Publisher** `Bundesamt für Umwelt BAFU`
- **Reference** `https://www.hydrodaten.admin.ch/de/seen-und-fluesse/stationen-und-daten/2106`


## Imports and helper functions

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('ggplot')

params = {
    'text.color': (0.25, 0.25, 0.25),
    'figure.figsize': [18, 6],
   }

plt.rcParams.update(params)

import pandas as pd
import requests
import os

In [None]:
# helper function for reading datasets with proper separator
def get_dataset(url):
    r = requests.get(url, params={'format': 'csv', 'timezone': 'Europe%2FZurich'})
    data_path = os.path.join(os.getcwd(), '..', 'data')
    if not os.path.exists(data_path):
      os.makedirs(data_path)
    csv_path = os.path.join(data_path, '100272.csv')
    with open(csv_path, 'wb') as f:
        f.write(r.content)
    data = pd.read_csv(url, sep=';', on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
    # if dataframe only has one column or less the data is not ";" separated
    if data.shape[1] <= 1:
        print("The data wasn't imported properly. Very likely the correct separator couldn't be found.\nPlease check the dataset manually and adjust the code.")
    return data

## Load data

The dataset is read into a dataframe

In [None]:
df = get_dataset('https://data.bs.ch/explore/dataset/100272/download')

## Analyze data

In [None]:
# drop columns that have no values
df.dropna(how='all', axis=1, inplace=True)

In [None]:
print(f'The dataset has {df.shape[0]:,.0f} rows (observations) and {df.shape[1]:,.0f} columns (variables).')
print(f'There seem to be {df.duplicated().sum()} exact duplicates in the data.')

In [None]:
df.info(memory_usage='deep', verbose=True)

In [None]:
df.head()

In [None]:
# display a small random sample transposed in order to see all variables
df.sample(3).T

In [None]:
# describe non-numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(exclude='number'))
except:
    print("No categorical data in dataset.")

In [None]:
# describe numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(include='number'))
except:
    print("No numercial data in dataset.")

In [None]:
# check missing values with missingno
# https://github.com/ResidentMario/missingno
import missingno as msno
msno.matrix(df, labels=True, sort='descending');

In [None]:
# plot a histogram for each numerical feature
try:
    df.hist(bins=25, rwidth=.9)
    plt.tight_layout()
    plt.show()
except:
    print("No numercial data to plot.") 

In [None]:
# continue your code here...

**Questions about the data?** Fachstelle für OGD Basel-Stadt | opendata@bs.ch