# A - Datensatz Einführung: Baumkataster Frankfurt

Environment für dieses Notebook: `ads-ml-light` (*requirements-py3.11-ads-ml-light.txt*).

## Daten laden & lokales Caching

In [1]:
from pathlib import Path

URL = (
    "https://offenedaten.frankfurt.de/dataset/73c5a6b3-c033-4dad-bb7d-8783427dd233/resource/"
    "3b7617c7-7547-48bb-85d3-0da8731a4d22/download/baumauswahl_veroffentlichung_10.csv"
)
raw_data = Path("../data/baumkataster_frankfurt_2021.parquet")

Die Daten sind unter der Datenlizenz Deutschland, [„dl-de/by-2-0"](http://www.govdata.de/dl-de/by-2-0) veröffentlicht, was vielfältige, kommerzielle und nicht kommerzielle Nutzung zulässt und lediglich eine Namensnennung der Lizenz erfordert.

Zugänglich werden die Daten über das Open Data Portal der Stadt Frankfurt gemacht: [offenedaten.frankfurt.de/dataset/baumkataster-frankfurt-am-main](https://www.offenedaten.frankfurt.de/dataset/baumkataster-frankfurt-am-main). Im Geoportal der Stadt Frankfurt können die Bäume auch graphisch dargestellt werden: [geoportal.frankfurt.de](https://geoportal.frankfurt.de/karte/?layerIds=55037,55033,55035,118,28&visibility=true,true,true,true,true&transparency=0,0,0,0,0&center=477500,5551000&zoomLevel=4). Eine minimale Beschreibung findet sich [auf der Seite](https://frankfurt.de/themen/umwelt-und-gruen/umwelt-und-gruen-a-z/im-gruenen/baeume/baumkataster) der Stadt Frankfurt.

In [2]:
import pandas as pd

if raw_data.exists():
    data = pd.read_parquet(raw_data)
else:
    data = pd.read_csv(URL, sep=";", decimal=",")
    data.to_parquet(raw_data)

## Erste Sichtung der Daten

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159187 entries, 0 to 159186
Data columns (total 16 columns):
 #   Column      Non-Null Count   Dtype  
---  ------      --------------   -----  
 0   BAUMNUMMER  159187 non-null  object 
 1   HOCHWERT    159187 non-null  float64
 2   RECHTSWERT  159187 non-null  float64
 3   GATTUNGART  159182 non-null  object 
 4   GATTUNG     159187 non-null  object 
 5   GA_LANG     159187 non-null  object 
 6   KR_DURCHM   159187 non-null  float64
 7   ST_UMFANG   159187 non-null  float64
 8   GEBIET      159187 non-null  object 
 9   STRASSE     159187 non-null  object 
 10  STANDORT    60122 non-null   object 
 11  BAUMHOEHE   159187 non-null  int64  
 12  ST_DURCHM   159187 non-null  int64  
 13  PFLANZJAHR  159187 non-null  int64  
 14  BAUM_STATU  830 non-null     object 
 15  Kr_r        159187 non-null  float64
dtypes: float64(5), int64(3), object(8)
memory usage: 19.4+ MB


In [4]:
# raw data size in MB
raw_data.stat().st_size / 1024**2

3.8177671432495117

In [5]:
data.head()

Unnamed: 0,BAUMNUMMER,HOCHWERT,RECHTSWERT,GATTUNGART,GATTUNG,GA_LANG,KR_DURCHM,ST_UMFANG,GEBIET,STRASSE,STANDORT,BAUMHOEHE,ST_DURCHM,PFLANZJAHR,BAUM_STATU,Kr_r
0,1,5549510.9,473366.239,G0444,Platanus,"Platanus acerifolia, Gewöhnliche Platane",8.0,141.0,Straßen,Ackermannstrasse,Alte BNr. 1,7,45,1920,,4.0
1,2,5549517.24,473363.459,G0444,Platanus,"Platanus acerifolia, Gewöhnliche Platane",8.0,141.0,Straßen,Ackermannstrasse,Alte BNr. 3,7,45,1920,,4.0
2,3,5549524.39,473360.149,G0444,Platanus,"Platanus acerifolia, Gewöhnliche Platane",8.0,138.0,Straßen,Ackermannstrasse,Alte BNr. 5,7,44,1920,,4.0
3,5,5549537.75,473354.479,G0444,Platanus,"Platanus acerifolia, Gewöhnliche Platane",8.0,141.0,Straßen,Ackermannstrasse,Alte BNr. 9,7,45,1920,,4.0
4,6,5549544.09,473351.429,G0444,Platanus,"Platanus acerifolia, Gewöhnliche Platane",8.0,132.0,Straßen,Ackermannstrasse,Alte BNr. 11,7,42,1920,,4.0


In [6]:
data.isna().sum()

BAUMNUMMER         0
HOCHWERT           0
RECHTSWERT         0
GATTUNGART         5
GATTUNG            0
GA_LANG            0
KR_DURCHM          0
ST_UMFANG          0
GEBIET             0
STRASSE            0
STANDORT       99065
BAUMHOEHE          0
ST_DURCHM          0
PFLANZJAHR         0
BAUM_STATU    158357
Kr_r               0
dtype: int64

In [7]:
data["BAUM_STATU"].value_counts()

BAUM_STATU
W    499
N    166
H    165
Name: count, dtype: int64

In [8]:
data["STANDORT"].value_counts()

STANDORT
-                           3040
Alte BNr. 2                  510
Alte BNr. 1                  509
Alte BNr. 4                  490
Alte BNr. 3                  484
                            ... 
fußweg kgv                     1
Eleonore-Sterling-Straße       1
Alte BNr. 1052                 1
Alte BNr. 1056                 1
5 Stück                        1
Name: count, Length: 6269, dtype: int64

In [9]:
data["GATTUNG"].value_counts()[:10]

GATTUNG
Acer        35539
Tilia       14949
Carpinus    13834
Quercus     13080
Platanus     9168
Fraxinus     7100
Prunus       6510
Aesculus     6389
Taxus        5201
Betula       3955
Name: count, dtype: int64

In [11]:
data.describe()

Unnamed: 0,HOCHWERT,RECHTSWERT,KR_DURCHM,ST_UMFANG,BAUMHOEHE,ST_DURCHM,PFLANZJAHR,Kr_r
count,159187.0,159187.0,159187.0,159187.0,159187.0,159187.0,159187.0,159187.0
mean,5552877.0,475348.654163,7.103404,106.453077,12.742096,33.911877,1979.562018,3.551702
std,3390.366,4185.870533,4.041459,73.507547,6.146677,23.401226,25.554797,2.020729
min,5545113.0,463162.72,2.0,0.0,0.0,0.0,1700.0,1.0
25%,5550354.0,472880.414,4.0,53.0,8.0,17.0,1968.0,2.0
50%,5552681.0,475550.450046,6.0,89.0,12.0,28.0,1982.0,3.0
75%,5554912.0,478147.9845,9.0,141.0,17.0,45.0,1997.0,4.5
max,5563900.0,485429.87691,40.0,4457.0,67.0,1418.0,2090.0,20.0


In [12]:
data.nunique()

BAUMNUMMER      8740
HOCHWERT      139189
RECHTSWERT    143115
GATTUNGART       660
GATTUNG          141
GA_LANG          664
KR_DURCHM         81
ST_UMFANG        551
GEBIET           115
STRASSE         2862
STANDORT        6269
BAUMHOEHE         43
ST_DURCHM        226
PFLANZJAHR       199
BAUM_STATU         3
Kr_r              81
dtype: int64

Zum automatisierten Profiling von Datensätzen gibt es auch verschiedene gute Pakete, beispielsweise ydata_profiling, sweetviz oder d-tale.