## Open Government Data, provided by **Canton Zurich**
*Auto-generated Python starter code for dataset with identifier* **2643@aln-kanton-zuerich**

## Dataset
# **Naturschutz-Finanzaufwand im Natur- und Heimatschutzfond des Kantons Zürich**

## Description

Der Datensatz enthält Informationen zur Entwicklung des jährlichen Naturschutzaufwandes in den Auftragskategorien gemäss Naturschutzgesamtkonzept des Kantons Zürich im Natur- und Heimatschutzfonds (NHF) seit 2021. Die Daten stammen aus den jährlichen SAP-Finanzbelegen des Profitcenters 89120 Naturschutz des Kantons Zürich und wurden auf die Auftragskategorien gemäss 'Umsetzungsplan Naturschutzgesamtkonzept Zwischenbericht 2020' umgelagert. Weitere Ausgaben zur Biodiversitätsförderung im Kanton Zürich aus anderen Finanzierungsquellen als dem NHF sind in diesen Daten nicht abgebildet. Aufgrund der Komplexität der Kostenumlagerungen waren in den Reportingjahren rückwirkende Anpassungen in einzelnen Kategorien notwendig, um die optimale Vergleichbarkeit der Jahre untereinander zu gewährleisten. Die Datei enthält daher für jedes Reportingjahr die jeweils publizierten Werte für jede Auftragskategorie pro Ausgabejahr, inklusive entsprechender Kommentare zu vorgenommenen Korrekturen. Die Korrekturen sind vollständig und transparent nachvollziehbar dokumentiert. Für eine einfache Übersicht der Finanzentwicklung reicht es, die Datensätze des jeweils aktuellsten Reportingjahres zu betrachten.

## Dataset links

[Direct data shop link for dataset](https://www.zh.ch/de/politik-staat/statistik-daten/datenkatalog.html#/datasets/2643@aln-kanton-zuerich)

## Metadata
- **Issued** `2024-07-17T22:00:00`
- **Modified** `2025-03-23T23:00:00`
- **Startdate** `2021-01-01`
- **Enddate** `2024-12-31`
- **Theme** `['http://publications.europa.eu/resource/authority/data-theme/ENVI', 'http://publications.europa.eu/resource/authority/data-theme/GOVE']`
- **Keyword** `['biodiversitaetsfoerderung', 'naturschutz', 'nhf', 'oeffentliche_finanzen', 'ogd', 'staatsfinanzen', 'umwelt']`
- **Publisher** `['Amt für Landschaft und Natur']`
- **Landingpage** `https://www.zh.ch/de/umwelt-tiere/naturschutz/biodiversitaetsfoerderung.html`


## Imports and helper functions

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('ggplot')

params = {
    'text.color': (0.25, 0.25, 0.25),
    'figure.figsize': [18, 6],
   }

plt.rcParams.update(params)

import pandas as pd 

In [None]:
# Helper function for reading datasets with proper separator
def get_dataset(url):
    if url[-3:] != "csv":
        print("The dataset URL has no proper 'CSV' extension. Reading the dataset might not have worked as expected.\nPlease check the dataset link and adjust pandas' read_csv() parameters accordingly.")
    data = pd.read_csv(url, sep=",", on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
    # If dataframe only has one column or less the data is not comma separated, use ";" instead
    if data.shape[1] <= 1:
        data = pd.read_csv(url, sep=';', on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
        if data.shape[1] <= 1:
            print("The data wasn't imported properly. Very likely the correct separator couldn't be found.\nPlease check the dataset manually and adjust the code.")
    return data

## Load data

- The dataset has **`1` distribution(s)** in CSV format.
- All available CSV distributions are listed below and can be read into a pandas dataframe.

In [None]:
# Distribution 0
# Ktzhdistid               : 5443
# Title                    : Entwicklung Finanzen 89120 seit 2021
# Description              : None
# Issued                   : 2024-07-17T22:00:00
# Modified                 : 2025-03-23T23:00:00

df = get_dataset('https://daten.statistik.zh.ch/ogd/daten/ressourcen/KTZH_00002643_00005443.csv')



## Analyze data

In [None]:
# Drop columns that have no values
df.dropna(how='all', axis=1, inplace=True)

In [None]:
print(f'The dataset has {df.shape[0]:,.0f} rows (observations) and {df.shape[1]:,.0f} columns (variables).')
print(f'There seem to be {df.duplicated().sum()} exact duplicates in the data.')

In [None]:
df.info(memory_usage='deep', verbose=True)

In [None]:
df.head()

In [None]:
# Display a small random sample transposed in order to see all variables
df.sample(3).T

In [None]:
# Describe non-numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(exclude='number'))
except:
    print("No categorical data in dataset.")

In [None]:
# Describe numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(include='number'))
except:
    print("No numerical data in dataset.")

In [None]:
# Check missing values with missingno
# https://github.com/ResidentMario/missingno
import missingno as msno
msno.matrix(df, labels=True, sort='descending');

In [None]:
# Plot a histogram for each numerical feature
try:
    df.hist(bins=25, rwidth=.9)
    plt.tight_layout()
    plt.show()
except:
    print("No numerical data to plot.")

In [None]:
# Continue your code here...

**Questions about the data?** Amt für Landschaft und Natur | Fachstelle Naturschutz | naturschutz@bd.zh.ch