## Open Government Data, provided by **opendata.swiss**
*Autogenerated Python starter code for data set with identifier* **737ad27b-e165-406b-8d96-ccea0153e91f@stadt-zurich**

## Dataset
# **Bauminventar**

## Description

Stadtweites Bauminventar basierend auf dem Baumkataster von GSZ und dem Landschaftsmodell von swisstopo (TLM3D)

**Zweck**: Datengrundlage zum städtischen Baumbestand (Baumstandorten und -höhen) für diverse Applikationen (u.a. Züri Virtuell und Züri 4D)

Das Interesse an Daten zum Baumbestand in der Stadt Zürich hat in den letzten Jahren stark zugenommen. Einerseits steigt der Druck auf Grünanlagen und deren Nutzung stetig. Andererseits kann beobachtet werden, dass Geodaten vermehrt in frühe Arbeitsschritte von Projektarbeiten, Forschungen und Arbeitsplanungen einfliessen. Der digitale Fortschritt begünstigt vielfältige Arbeiten zu Baumbestand wie beispielsweise 3D-Visualisierungen und Baumpflanzpotenzialstudien. Der Stadt Zürich fehlt allerdings eine flächendeckende, einheitliche und frei zugängliche Arbeitsgrundlage (Bauminventar). Zum jetzigen Zeitpunkt ist der Baumkataster der einzig vorhandene Datensatz zum Baumbestand in der Stadt Zürich. Jedoch dient er als Kontroll- und Pflegeapplikation und ist limitiert auf die städtisch unterhaltenen Bäume. Zu Baumstandorten auf Privatgrund sind bisher keinerlei Informationen vorhanden. Die Vielzahl an Privatbäumen und die Zutrittsbeschränkungen auf Privatflächen verunmöglichen die manuelle Erfassung jedes einzelnen Baumes auf Gemeindefläche. Diese Limitierung kann mit Hilfe des topographischen Landschaftsmodells der Schweiz von swisstopo umgangen werden. Das Modell beinhaltet aus Laser- und Luftbilddaten automatisch abgeleitete Punktdaten zu Einzelbäumen. Wird das bestehende Baumkataster mit dieser Datenquelle ergänzt, resultiert ein flächendeckendes Bauminventar. Wichtig ist, dass der Datenungenauigkeit genügend Beachtung geschenkt wird. Diese Methodik stellt aber auf Grund fehlender Alternativen die genaueste, mögliche Annäherung an ein städtisches Bauminventar dar.

Der Geschäftsbereich Park- und Grünanlagen sieht sich stellvertretend für Grün Stadt Zürich (GSZ) verantwortlich, eine Datengrundlage zum städtischen Baumbestand zu erarbeiten und zu pflegen. Deshalb soll zur Förderung interdisziplinären und abwechslungsreichen Arbeiten ein aus dem Baumkataster, Lidardaten und Landschaftsmodell kombinierter Open Data Datensatz zum Baumbestand auf der Stadtfläche (excl. Wald) von Zürich erarbeitet werden. Das Ziel ist nicht die Ablösung oder Überarbeitung des bestehenden Baumkasters, sondern ein weiterentwickelter Datensatz unter anderem basierend auf dem Baumkataster.

## Data set links

[Direct link by opendata.swiss for dataset](https://opendata.swiss/de/dataset/bauminventar)<br>
[Direct link by Stadt Zürich for dataset](https://data.stadt-zuerich.ch/dataset/geo_bauminventar)

## Metadata
- **Publisher** `Produkteverantw.  & Unterstützungsfunk., Grün Stadt Zürich, Tiefbau- und Entsorgungsdepartement`
- **Organization.display_name.de** `Stadt Zürich`
- **Organization.url** `http://www.stadt-zuerich.ch/opendata`
- **Maintainer** `None`
- **Maintainer_email** `None`
- **Keywords.de** `['lidar', 'baumstandorte', 'stzh', 'swisstlm3d', 'geodaten', 'vektordaten', 'geoportal', 'stadtbegrunung', 'baumhohe', 'baumkataster', 'punktdaten']`
- **Issued** `nan`
- **Metadata_created** `2022-05-10T01:10:51.125247`
- **Metadata_modified** `2023-01-16T00:53:16.480226`


## Imports and helper functions

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('ggplot')

params = {
    'text.color': (0.25, 0.25, 0.25),
    'figure.figsize': [18, 6],
   }

plt.rcParams.update(params)

import pandas as pd 

In [None]:
# helper function for reading datasets with proper separator
def get_dataset(url):
    if url[-3:] != "csv":
        print("The data set URL has no proper 'csv' extension. Reading the dataset might not have worked as expected.\nPlease check the dataset link and adjust pandas' read_csv() parameters accordingly.")
    data = pd.read_csv(url, sep=",", on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
    # if dataframe only has one column or less the data is not comma separated, use ";" instead
    if data.shape[1] <= 1:
        data = pd.read_csv(url, sep=';', on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
        if data.shape[1] <= 1:
            print("The data wasn't imported properly. Very likely the correct separator couldn't be found.\nPlease check the dataset manually and adjust the code.")
    return data

## Load data

- The dataset has **`1` distribution(s)** in CSV format.
- All available CSV distributions are listed below and can be read into a pandas dataframe.

In [None]:
# Distribution 0
# Package_id               : 5dd41226-4542-473e-bfc8-2af0375c1131
# Description              : 
# Issued                   : 2022-05-09T00:00:00
# Modified                 : None
# Rights                   : NonCommercialAllowed-CommercialAllowed-ReferenceNotRequired

df = get_dataset('https://www.stadt-zuerich.ch/geodaten/download/Bauminventar?format=10008')



## Analyze data

In [None]:
# drop columns that have no values
df.dropna(how='all', axis=1, inplace=True)

In [None]:
print(f'The dataset has {df.shape[0]:,.0f} rows (observations) and {df.shape[1]:,.0f} columns (variables).')
print(f'There seem to be {df.duplicated().sum()} exact duplicates in the data.')

In [None]:
df.info(memory_usage='deep', verbose=True)

In [None]:
df.head()

In [None]:
# display a small random sample transposed in order to see all variables
df.sample(3).T

In [None]:
# describe non-numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(exclude='number'))
except:
    print("No categorical data in dataset.")

In [None]:
# describe numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(include='number'))
except:
    print("No numercial data in dataset.")

In [None]:
# check missing values with missingno
# https://github.com/ResidentMario/missingno
import missingno as msno
msno.matrix(df, labels=True, sort='descending');

In [None]:
# plot a histogram for each numerical feature
try:
    df.hist(bins=25, rwidth=.9)
    plt.tight_layout()
    plt.show()
except:
    print("No numercial data to plot.") 

In [None]:
# continue your code here...

**Contact**: opendata@zuerich.ch | Open Data Zürich