In [1]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn 

In [2]:
# There are two parts of the district (two subdistricts): Friedrichshain and Kreuzberg. 
# Data sets are separetly for them and separetly for each year.

#### Steps to prepare data set with cut down trees:
- Importing each file separetly.
- Change names of columns (rename columns)
- Add a column with the subdistrict name (str)
    - "F" for Friedrichshain and "K" for Kreuzberg
- Additional column with year when the tree was cut down (int)
- From column "gefällt" which means if the tree was cut down, substract the info about if the tree was cut down.
    - Dropping rows with null vlaues (meaning the tree was not cut down)
    - Dropping rows with "nein" (meaining the tree was not cut down)

- Output: 14 separete files with trees devided in different years and subdistricts. 

### Trees in subdistrict Kreuzberg

In [None]:
#2022

In [3]:
df = pd.read_excel('../Trees/Fried_Kreuz_Faellung/2022_faellliste_kreuzberg.xlsx')
df

Unnamed: 0,notwendige Baumfällungen im Ortsteil Kreuzberg 2022,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4
0,,,,,
1,Stand:,,,,
2,2023-01-01 00:00:00,,,,
3,,,,,
4,Standort,Baumnr.,Baumart,Ergebnis der Begutachtung/ Notwendigkeit der F...,2022 gefällt
...,...,...,...,...,...
511,Yorckstr. 4-11,33,Italienische Pyramiden-Pappel,gefährdete Bruch- und Standsicherheit,ja
512,Yorckstr. 4-11,36,Italienische Pyramiden-Pappel,gefährdete Bruch- und Standsicherheit,
513,Yorckstr. 4-11,42,Berliner Lorbeer-Pappel,gefährdete Bruch- und Standsicherheit,
514,Yorckstraße,75,Linde,gefährdete Bruch- und Standsicherheit,


In [4]:
def clean_data_k_2022(df, year, subdistrict):
    # Function to clean data
    
    df = df.rename(columns={'notwendige Baumfällungen im Ortsteil Kreuzberg 2022':'Standort',\
                            'Unnamed: 1':'Baumnr',\
                            'Unnamed: 2':'Baumart', \
                            'Unnamed: 3':'Fällgrund',\
                            'Unnamed: 4':'gefällt'})
    df["Jahr"] = year
    df["Ortsteil"] = subdistrict
    df = df.drop(df.index[0:5], axis=0)
     
    # Deleting rows with null values in a chosen column, because we consider only cut down trees
    df = df.dropna(subset=['gefällt'])  
    df = df.reset_index(drop=True)  
    return df

In [6]:
df = clean_data_k_2022(df, 2022, "K")

In [7]:
df

Unnamed: 0,Standort,Baumnr,Baumart,Fällgrund,gefällt,Jahr,Ortsteil
0,"Adalbertstr. 95A, Spiel",3,Vogelbeere,absterbend/ abgestorben,ja,2022,K
1,Alexandrinenstr. 12,79,Blut-Pflaume,gefährdete Bruch- und Standsicherheit,ja,2022,K
2,Alexandrinenstr. 12,92,Silber-Ahorn,gefährdete Bruch- und Standsicherheit,ja,2022,K
3,Alexandrinenstr. 12,102,Trauben-Kirsche,gefährdete Bruch- und Standsicherheit,ja,2022,K
4,Alexandrinenstr. 12,18/5,Weide,absterbend/ abgestorben,ja,2022,K
...,...,...,...,...,...,...,...
442,Wiener Straße,195,Japanische Blütenkirsche,gefährdete Bruch- und Standsicherheit,ja,2022,K
443,Wiener Straße,232,Japanische Zierkirsche 'Kanzan',gefährdete Bruch- und Standsicherheit,ja,2022,K
444,"Wrangelstr. 10, Spiel Bolz",6,Robinie,gefährdete Bruch- und Standsicherheit,ja,2022,K
445,Wrangelstraße,48,Spitz-Ahorn,absterbend/ abgestorben,ja,2022,K


In [8]:
df["gefällt"].value_counts()

gefällt
ja    447
Name: count, dtype: int64

In [9]:
# Here I have encounter the problem with encoding special characters, like öäü so I have decided to export file as .xlsx first

df.to_excel('2022_kreuz_cutdown.xlsx', index=False)

In [10]:
#2023

In [11]:
df = pd.read_excel('../Trees/Fried_Kreuz_Faellung/faellliste-kreuzberg-stand-311223.xlsx')
df

Unnamed: 0,notwendige Baumfällungen im Ortsteil Kreuzberg 2023,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4
0,,,,,
1,,,,,
2,,,,,
3,,,,,
4,Standort,Baumnr.,Baumart,Ergebnis der Begutachtung/ Notwendigkeit der F...,2023 gefällt
...,...,...,...,...,...
478,,,,,
479,,,,,
480,,,,,
481,,,,,


In [12]:
def clean_data_k_2023(df, year, subdistrict):
    # Function to clean data
    
    df = df.rename(columns={'notwendige Baumfällungen im Ortsteil Kreuzberg 2023':'Standort',\
                            'Unnamed: 1':'Baumnr',\
                            'Unnamed: 2':'Baumart', \
                            'Unnamed: 3':'Fällgrund',\
                            'Unnamed: 4':'gefällt'})
    df["Jahr"] = year
    df["Ortsteil"] = subdistrict
    df = df.drop(df.index[0:5], axis=0)
     
    # Deleting rows with null values in a chosen column, because we consider only cut down trees
    df = df.dropna(subset=['gefällt'])  
    df = df.reset_index(drop=True)  
    return df

In [14]:
df = clean_data_k_2023(df, 2023, "K")

In [15]:
df

Unnamed: 0,Standort,Baumnr,Baumart,Fällgrund,gefällt,Jahr,Ortsteil
0,Alexandrinenstr. 12,80,Rotfichte,gefährdete Bruch- und Standsicherheit,ja,2023,K
1,Alexandrinenstr. 12,89/4,Eschen-Ahorn,Wuchsraumregulierung,ja,2023,K
2,Alexandrinenstr./ Prinzenstr. am Landwehrkanal,19,Hainbuche,absterbend/ abgestorben,ja,2023,K
3,Alexandrinenstr./ Prinzenstr. am Landwehrkanal,49/1,"Berg-Ahorn, Weiss-Ahorn",absterbend/ abgestorben,ja,2023,K
4,Alexandrinenstraße,269/2,Berg-Ulme,absterbend/ abgestorben,ja,2023,K
...,...,...,...,...,...,...,...
276,Yorckstraße,136,Silber-Linde,absterbend/ abgestorben,ja,2023,K
277,Yorckstraße,137,Linde,absterbend/ abgestorben,ja,2023,K
278,Yorckstraße,138,Kaiser-Linde,absterbend/ abgestorben,ja,2023,K
279,Yorckstraße,170,Silber-Linde,gefährdete Bruch- und Standsicherheit,ja,2023,K


In [16]:
df["gefällt"].value_counts()

gefällt
ja    281
Name: count, dtype: int64

In [17]:
df.to_excel('2023_kreuz_cutdown.xlsx', index=False)

In [18]:
# 2021

In [19]:
df = pd.read_excel('../Trees/Fried_Kreuz_Faellung/faellliste-kreuzberg-30_06_2021.xlsx')
df

Unnamed: 0,notwendige Baumfällungen im Ortsteil Kreuzberg 2021,Unnamed: 1,Unnamed: 2,gefällt:,105
0,,,,"Fällung verworfen, siehe Text unten:",24
1,Stand:,,,offen:,27
2,2021-06-30 00:00:00,,,gesamt in der Liste,156
3,,,,,
4,Standort,Baumnr.,Baumart,Ergebnis der Begutachtung/ Notwendigkeit der F...,2021 gefällt
...,...,...,...,...,...
478,,,,,
479,,,,,
480,,,,,
481,,,,,


In [21]:
def clean_data_k_2021(df, year, subdistrict):
    # Function to clean data
    
    df = df.rename(columns={'notwendige Baumfällungen im Ortsteil Kreuzberg 2021':'Standort',\
                            'Unnamed: 1':'Baumnr',\
                            'Unnamed: 2':'Baumart', \
                            'gefällt:':'Fällgrund',\
                            105:'gefällt'})
    df["Jahr"] = year
    df["Ortsteil"] = subdistrict
    df = df.drop(df.index[0:5], axis=0)
     
    # Deleting rows with null values in a chosen column, because we consider only cut down trees
    df = df.dropna(subset=['gefällt'])  
    df = df.reset_index(drop=True)  
    return df

In [22]:
df = clean_data_k_2021(df, 2021, "K")

In [23]:
df

Unnamed: 0,Standort,Baumnr,Baumart,Fällgrund,gefällt,Jahr,Ortsteil
0,Alexandrinen/Stallschreiberstr.,9,Ahorn,"Stammschaden, gefährdete Bruch- und Standsiche...",nein,2021,K
1,Reichenberger Straße,259,Robinie,"Stamm Pilzbefall,gefährdete Bruch- und Standsi...",ja,2021,K
2,Stresemannstraße,87,Linde,Baumaßnahme,nein,2021,K
3,Gitschiner Straße 4,33,Platane,Bauvorhaben BWB,nein,2021,K
4,Gitschiner Straße 4,34,Platane,Bauvorhaben BWB,nein,2021,K
...,...,...,...,...,...,...,...
124,Viktoriapark,41,Schwarzpappel,Kampfmittelräumung,ja,2021,K
125,Skalitzer Straße,213,Linde,Bauvorhaben,ja,2021,K
126,Skalitzer Straße,212,Ahorn,Bauvorhaben,ja,2021,K
127,Skalitzer Straße,216,Ahorn,Bauvorhaben,ja,2021,K


In [24]:
df["gefällt"].value_counts()

gefällt
ja      105
nein     24
Name: count, dtype: int64

In [25]:
# I am dropping the rows with value "nein", because those are trees which were finally not cut down
df = df[df['gefällt'] != 'nein']
df

Unnamed: 0,Standort,Baumnr,Baumart,Fällgrund,gefällt,Jahr,Ortsteil
1,Reichenberger Straße,259,Robinie,"Stamm Pilzbefall,gefährdete Bruch- und Standsi...",ja,2021,K
7,Cuvrystrasse,1,Kugelahorn,Vandalismus (Brandschaden),ja,2021,K
8,Wiener Straße,o. Nr. 236,Weide,Gefährdete Bruch- und Standsicherheit,ja,2021,K
9,Böckhstraße,59,Lederhülsen-baum,Gefährdete Bruch- und Standsicherheit,ja,2021,K
10,Hagelberger Str. 30-34/ Großbeerenstr. 40,50\1,Haselnuss,Wuchsraumregulierung,ja,2021,K
...,...,...,...,...,...,...,...
124,Viktoriapark,41,Schwarzpappel,Kampfmittelräumung,ja,2021,K
125,Skalitzer Straße,213,Linde,Bauvorhaben,ja,2021,K
126,Skalitzer Straße,212,Ahorn,Bauvorhaben,ja,2021,K
127,Skalitzer Straße,216,Ahorn,Bauvorhaben,ja,2021,K


In [26]:
df.to_excel('2021_kreuz_cutdown.xlsx', index=False)

In [27]:
# 2020

In [28]:
df = pd.read_excel('../Trees/Fried_Kreuz_Faellung/fallliste_kb_dezember_01_2020.xlsx')
df

Unnamed: 0,notwendige Baumfällungen im Ortsteil Kreuzberg 2020,Unnamed: 1,Unnamed: 2,gefällt:,194
0,,,,"Fällung verworfen, siehe Text unten:",5
1,Stand:,,,offen:,70
2,2020-12-11 00:00:00,,,gesamt in der Liste,269
3,,,,,
4,Standort,Baumnr.,Baumart,Ergebnis der Begutachtung/ Notwendigkeit der F...,2020 gefällt *
...,...,...,...,...,...
269,Schöneberger Str. 23-24,41,Vogelbeere,absterbend/ abgestorben,
270,Viktoriapark,28/1,Pappel,absterbend/ abgestorben,ja
271,Müllenhoffstr. 7,2,Silberahorn,Gefährdete Bruch- und Standsicherheit,
272,Bethanien,186,Amur-Korkbaum,Gefährdete Bruch- und Standsicherheit,ja


In [29]:
def clean_data_k_2020(df, year, subdistrict):
    # Function to clean data
    
    df = df.rename(columns={'notwendige Baumfällungen im Ortsteil Kreuzberg 2020':'Standort',\
                            'Unnamed: 1':'Baumnr',\
                            'Unnamed: 2':'Baumart', \
                            'gefällt:':'Fällgrund',\
                            194:'gefällt'})
    df["Jahr"] = year
    df["Ortsteil"] = subdistrict
    df = df.drop(df.index[0:5], axis=0)
     
    # Deleting rows with null values in a chosen column, because we consider only cut down trees
    df = df.dropna(subset=['gefällt'])  
    # I am dropping the rows with value "nein", because those are trees which were finally not cut down
    df = df[df['gefällt'] != 'nein']
    df = df.reset_index(drop=True)  
    return df

In [30]:
df = clean_data_k_2020(df, 2020, "K")

In [32]:
df

Unnamed: 0,Standort,Baumnr,Baumart,Fällgrund,gefällt,Jahr,Ortsteil
0,Bethanien,388,Robinie,"Stammfuss Pilzbefall, gefährdete Bruch- und St...",ja,2020,K
1,Görlitzer Ufer 2/Taborstr. 12,3,Ahorn,"absterbend/ abgestorben,gefährdete Bruch- und ...",ja,2020,K
2,Kottbusser Straße,62,Kirsche,"absterbend/ abgestorben,gefährdete Bruch- und ...",ja,2020,K
3,Kottbusser Straße,64,Kirsche,"absterbend/ abgestorben,gefährdete Bruch- und ...",ja,2020,K
4,Möckernstraße ggü. 108,56,Linde,"Stammschaden, Neigung,gefährdete Bruch- und St...",ja,2020,K
...,...,...,...,...,...,...,...
189,Ratiborstraße 14b,89,Säulen-Pappel,Gefährdete Bruch- und Standsicherheit,ja,2020,K
190,Muskauer Str.,18,Weißdorn,absterbend/ abgestorben,ja,2020,K
191,Görlitzer Ufer,80,Trauben-Kirsche,Gefährdete Bruch- und Standsicherheit,ja,2020,K
192,Viktoriapark,28/1,Pappel,absterbend/ abgestorben,ja,2020,K


In [33]:
df.to_excel('2020_kreuz_cutdown.xlsx', index=False)

In [34]:
# 2019

In [35]:
df = pd.read_excel('../Trees/Fried_Kreuz_Faellung/kreuzberg-november-2019_1.xlsx')
df

Unnamed: 0.1,Unnamed: 0,notwendige Baumfällungen im Ortsteil Kreuzberg 2019,Unnamed: 2,Unnamed: 3,gefällt:,231
0,,,,,"Fällung verworfen, siehe Text unten:",6
1,,Stand:,,,offen:,151
2,,2019-11-20 00:00:00,,,gesamt in der Liste,388
3,,,,,,
4,,Standort,Baumnr.,Baumart,Fällgrund,2019 gefällt *
...,...,...,...,...,...,...
388,,Theodor-Wolff-Park,37,Robinie,Gefährdete Bruch- und Standsicherheit,
389,,Theodor-Wolff-Park,38,Robinie,Gefährdete Bruch- und Standsicherheit,
390,,Rudi-Dutschke-Str. 23,7,Robinie,absterbend/ abgestorben,
391,,Brachvogelstraße,108,Vogelbeere,absterbend/ abgestorben,


In [36]:
df = df.drop(["Unnamed: 0"], axis=1)
df

Unnamed: 0,notwendige Baumfällungen im Ortsteil Kreuzberg 2019,Unnamed: 2,Unnamed: 3,gefällt:,231
0,,,,"Fällung verworfen, siehe Text unten:",6
1,Stand:,,,offen:,151
2,2019-11-20 00:00:00,,,gesamt in der Liste,388
3,,,,,
4,Standort,Baumnr.,Baumart,Fällgrund,2019 gefällt *
...,...,...,...,...,...
388,Theodor-Wolff-Park,37,Robinie,Gefährdete Bruch- und Standsicherheit,
389,Theodor-Wolff-Park,38,Robinie,Gefährdete Bruch- und Standsicherheit,
390,Rudi-Dutschke-Str. 23,7,Robinie,absterbend/ abgestorben,
391,Brachvogelstraße,108,Vogelbeere,absterbend/ abgestorben,


In [37]:
def clean_data_k_2019(df, year, subdistrict):
    # Function to clean data
    
    df = df.rename(columns={'notwendige Baumfällungen im Ortsteil Kreuzberg 2019':'Standort',\
                            'Unnamed: 2':'Baumnr',\
                            'Unnamed: 3':'Baumart', \
                            'gefällt:':'Fällgrund',\
                            231:'gefällt'})
    df["Jahr"] = year
    df["Ortsteil"] = subdistrict
    df = df.drop(df.index[0:5], axis=0)
     
    # Deleting rows with null values in a chosen column, because we consider only cut down trees
    df = df.dropna(subset=['gefällt'])  
    # I am dropping the rows with value "nein", because those are trees which were finally not cut down
    df = df[df['gefällt'] != 'nein']
    df = df.reset_index(drop=True)  
    return df

In [39]:
df = clean_data_k_2019(df, 2019, "K")
df

Unnamed: 0,Standort,Baumnr,Baumart,Fällgrund,gefällt,Jahr,Ortsteil
0,Großbeerenstraße,68,Linde,Gefährdete Bruch- und Standsicherheit/ Bauvorh...,ja,2019,K
1,Großbeerenstraße,75,Linde,Gefährdete Bruch- und Standsicherheit/ Bauvorh...,ja,2019,K
2,Möckernstraße,63,Linde,Gefährdete Bruch- und Standsicherheit,ja,2019,K
3,Alexandrinen/Stallschreiberstr.,4,Linde,"Krone Zwiesel,gefährdete Bruch- und Standsiche...",ja,2019,K
4,Alexandrinenstraße,507,Pappel,"Höhlung Stammfuss,gefährdete Bruch- und Stands...",ja,2019,K
...,...,...,...,...,...,...,...
221,Besselpark,59,Kastanie,Bauvorhaben,ja,2019,K
222,Besselpark,99,Kastanie,absterbend/ abgestorben,ja,2019,K
223,Besselpark,87,Kastanie,Gefährdete Bruch- und Standsicherheit,ja,2019,K
224,Mehringdamm,19,Hainbuche,absterbend/ abgestorben,ja,2019,K


In [40]:
df.to_excel('2019_kreuz_cutdown.xlsx', index=False)

In [41]:
# 2018

In [42]:
df = pd.read_excel('../Trees/Fried_Kreuz_Faellung/kreuzberg-november-2018_1.xlsx')
df.head()

Unnamed: 0.1,Unnamed: 0,notwendige Baumfällungen im Ortsteil Kreuzberg,Unnamed: 2,Unnamed: 3,gefällt:,60
0,,,,,"Fällung verworfen, siehe Text unten:",0
1,,Stand:,,,offen:,104
2,,2018-11-02 00:00:00,,,gesamt in der Liste,164
3,,,,,,
4,,Standort,Baumnr.,Baumart,Fällgrund,2018 gefällt *


In [43]:
df = df.drop(["Unnamed: 0"], axis=1)

In [44]:
def clean_data_k_2018(df, year, subdistrict):
    # Function to clean data
    
    df = df.rename(columns={'notwendige Baumfällungen im Ortsteil Kreuzberg':'Standort',\
                            'Unnamed: 2':'Baumnr',\
                            'Unnamed: 3':'Baumart', \
                            'gefällt:':'Fällgrund',\
                            60:'gefällt'})
    df["Jahr"] = year
    df["Ortsteil"] = subdistrict
    df = df.drop(df.index[0:5], axis=0)
     
    # Deleting rows with null values in a chosen column, because we consider only cut down trees
    df = df.dropna(subset=['gefällt'])  
    # I am dropping the rows with value "nein", because those are trees which were finally not cut down
    df = df[df['gefällt'] != 'nein']
    df = df.reset_index(drop=True)  
    return df

In [45]:
df = clean_data_k_2018(df, 2018, "K")

In [46]:
df.to_excel('2018_kreuz_cutdown.xlsx', index=False)

In [47]:
# 2017

In [48]:
df = pd.read_excel('../Trees/Fried_Kreuz_Faellung/faellliste-k_dez_2017.xlsx')
df.head()

Unnamed: 0.1,Unnamed: 0,Notwendige Baumfällungen im Ortsteil Kreuzberg 2017,Unnamed: 2,Unnamed: 3,gefällt:,249,Unnamed: 6,Unnamed: 7,Unnamed: 8
0,,,,,"Fällung verworfen, siehe Text unten:",23.0,,,
1,,Stand:,,,offen:,112.0,,,
2,,2024-02-12 00:00:00,,,,384.0,,,
3,,,,,,,,,
4,,,,,,,,,


In [49]:
def clean_data_k_2017(df, year, subdistrict):
    # Function to clean data
    
    df = df.rename(columns={'Notwendige Baumfällungen im Ortsteil Kreuzberg 2017':'Standort',\
                            'Unnamed: 2':'Baumnr',\
                            'Unnamed: 3':'Baumart', \
                            'gefällt:':'Fällgrund',\
                            249:'gefällt'})
    df["Jahr"] = year
    df["Ortsteil"] = subdistrict
    df = df.drop(df.index[0:17], axis=0)
     
    # Deleting rows with null values in a chosen column, because we consider only cut down trees
    df = df.dropna(subset=['gefällt'])  
    # I am dropping the rows with value "nein", because those are trees which were finally not cut down
    df = df[df['gefällt'] != 'nein']
    df = df.reset_index(drop=True)  
    return df

In [50]:
df = df.drop(["Unnamed: 0", "Unnamed: 6", "Unnamed: 7", "Unnamed: 8"], axis=1)

In [51]:
df.head()

Unnamed: 0,Notwendige Baumfällungen im Ortsteil Kreuzberg 2017,Unnamed: 2,Unnamed: 3,gefällt:,249
0,,,,"Fällung verworfen, siehe Text unten:",23.0
1,Stand:,,,offen:,112.0
2,2024-02-12 00:00:00,,,,384.0
3,,,,,
4,,,,,


In [52]:
df = clean_data_k_2017(df, 2017, "K")

In [53]:
df

Unnamed: 0,Standort,Baumnr,Baumart,Fällgrund,gefällt,Jahr,Ortsteil
0,Brachvogelstraße,1,EBERESCHE,"Stammschaden,gefährdete Bruch- und Standsicher...",ja,2017,K
1,ETA-Hoffmann-Promenade,14,Eiche,Baustelleneinrichtung,ja,2017,K
2,Falckensteinstrasse 13,16,Eiche,"abgestorben,gefährdete Bruch- und Standsicherheit",ja,2017,K
3,Falckensteinstrasse 36,47,Eiche,"abgestorben,gefährdete Bruch- und Standsicherheit",ja,2017,K
4,Falckensteinstrasse 9,11,Eiche,"abgestorben,gefährdete Bruch- und Standsicherheit",ja,2017,K
...,...,...,...,...,...,...,...
244,Hasenheide,70,KASTANIE,Umsturz,ja,2017,K
245,Kottbusser Damm,72,Ahorn,Bauvorhaben BVB,ja,2017,K
246,Kottbusser Damm,73,Ahorn,Bauvorhaben BVB,ja,2017,K
247,Wilhelmshöhe,10,BIRKE,"absterbend,abgestorben,gefährdete Bruch- und S...",ja,2017,K


In [54]:
df.to_excel('2017_kreuz_cutdown.xlsx', index=False)

### Trees in subdistrict Friedrichshain

In [55]:
# 2022

In [56]:
df = pd.read_excel('../Trees/Fried_Kreuz_Faellung/2022_faellliste_friedrichshain.xlsx')

In [57]:
df.head()

Unnamed: 0,notwendige Baumfällungen im Ortsteil Friedrichshain 2022,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4
0,,,,,
1,Stand:,,,,
2,2023-01-01 00:00:00,,,,
3,,,,,
4,Standort,Baumnr.,Baumart,Ergebnis der Begutachtung/ Notwendigkeit der F...,2022 gefällt


In [58]:
def clean_data_f_22(df, year, subdistrict):
    # Function to clean data
    
    df = df.rename(columns={'notwendige Baumfällungen im Ortsteil Friedrichshain 2022':'Standort',\
                            'Unnamed: 1':'Baumnr',\
                            'Unnamed: 2':'Baumart', \
                            'Unnamed: 3':'Fällgrund',\
                            'Unnamed: 4':'gefällt'})
    df["Jahr"] = year
    df["Ortsteil"] = subdistrict
    df = df.drop(df.index[0:5], axis=0)
     
    # Deleting rows with null values in a chosen column, because we consider only cut down trees
    df = df.dropna(subset=['gefällt'])  
    df = df.reset_index(drop=True)  
    return df

In [59]:
df = clean_data_f_22(df, 2022, "F")

In [60]:
df.head()

Unnamed: 0,Standort,Baumnr,Baumart,Fällgrund,gefällt,Jahr,Ortsteil
0,Alt-Stralau 20-29,17,Silber-Pappel,gefährdete Bruch- und Standsicherheit,ja,2022,F
1,Alt-Stralau 34,16,Chinesische Wild-Birne,absterbend/ abgestorben,ja,2022,F
2,Alt-Stralau 34,50,Robinie,gefährdete Bruch- und Standsicherheit,ja,2022,F
3,Alt-Stralau 40-43,N 5,Weide,gefährdete Bruch- und Standsicherheit,ja,2022,F
4,Am Containerbahnhof,13,Sal-Weide,Wuchsraumregulierung (nur bei konkurrierenden ...,ja,2022,F


In [61]:
df.to_excel('2022_fried_cutdown.xlsx', index=False)

In [62]:
# 2023

In [63]:
df = pd.read_excel('../Trees/Fried_Kreuz_Faellung/faellliste-fhain-stand-311223.xlsx')

In [64]:
df.head(7)

Unnamed: 0.1,Unnamed: 0,notwendige Baumfällungen im Ortsteil Friedrichshain 2023,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5
0,,,,,,
1,,,,,,
2,,,,,,
3,,,,,,
4,.,Standort,Baumnr.,Baumart,Ergebnis der Begutachtung/ Notwendigkeit der F...,2023 gefällt
5,,"Alt-Stralau 10-12, Spiel",23/1,Pappel,Wuchsraumregulierung,ja
6,,"Alt-Stralau 32A, Tunnelstr. 1-4",1/1,Weide,absterbend/ abgestorben,ja


In [65]:
df = df.drop(["Unnamed: 0"], axis=1)
df.head()

Unnamed: 0,notwendige Baumfällungen im Ortsteil Friedrichshain 2023,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5
0,,,,,
1,,,,,
2,,,,,
3,,,,,
4,Standort,Baumnr.,Baumart,Ergebnis der Begutachtung/ Notwendigkeit der F...,2023 gefällt


In [66]:
def clean_data_f_23(df, year, subdistrict):
    # Function to clean data
    
    df = df.rename(columns={'notwendige Baumfällungen im Ortsteil Friedrichshain 2023':'Standort',\
                            'Unnamed: 2':'Baumnr',\
                            'Unnamed: 3':'Baumart', \
                            'Unnamed: 4':'Fällgrund',\
                            'Unnamed: 5':'gefällt'})
    df["Jahr"] = year
    df["Ortsteil"] = subdistrict
    df = df.drop(df.index[0:5], axis=0)
     
    # Deleting rows with null values in a chosen column, because we consider only cut down trees
    df = df.dropna(subset=['gefällt'])  
    df = df.reset_index(drop=True)  
    return df

In [67]:
df = clean_data_f_23(df, 2023, "F")
df.head()

Unnamed: 0,Standort,Baumnr,Baumart,Fällgrund,gefällt,Jahr,Ortsteil
0,"Alt-Stralau 10-12, Spiel",23/1,Pappel,Wuchsraumregulierung,ja,2023,F
1,"Alt-Stralau 32A, Tunnelstr. 1-4",1/1,Weide,absterbend/ abgestorben,ja,2023,F
2,"Alt-Stralau 32A, Tunnelstr. 1-4",69/1,Silber-Pappel,gefährdete Bruch- und Standsicherheit,ja,2023,F
3,Alt-Stralau 40-43,13,"Hänge-Weide, Trauer-Weide",gefährdete Bruch- und Standsicherheit,ja,2023,F
4,Alt-Stralau 40-43,13/1,Grau-Pappel,gefährdete Bruch- und Standsicherheit,ja,2023,F


In [68]:
df.to_excel('2023_fried_cutdown.xlsx', index=False)

In [69]:
# 2021

In [70]:
df = pd.read_excel('../Trees/Fried_Kreuz_Faellung/faellliste-f-hain-_16_11_2021.xlsx')

In [71]:
df.head()

Unnamed: 0.1,Unnamed: 0,notwendige Baumfällungen im Ortsteil Friedrichshain 2021,Unnamed: 2,Unnamed: 3,gefällt:,320
0,,,,,"Fällung verworfen, siehe Text unten:",14
1,,Stand:,,,offen:,78
2,,2021-11-17 00:00:00,,,gesamt in der Liste,412
3,,,,,,
4,.,Standort,Baumnr.,Baumart,Ergebnis der Begutachtung/ Notwendigkeit der F...,2021 gefällt


In [72]:
df = df.drop(["Unnamed: 0"], axis=1)
df.head()

Unnamed: 0,notwendige Baumfällungen im Ortsteil Friedrichshain 2021,Unnamed: 2,Unnamed: 3,gefällt:,320
0,,,,"Fällung verworfen, siehe Text unten:",14
1,Stand:,,,offen:,78
2,2021-11-17 00:00:00,,,gesamt in der Liste,412
3,,,,,
4,Standort,Baumnr.,Baumart,Ergebnis der Begutachtung/ Notwendigkeit der F...,2021 gefällt


In [73]:
def clean_data_f_2021(df, year, subdistrict):
    # Function to clean data
    
    df = df.rename(columns={'notwendige Baumfällungen im Ortsteil Friedrichshain 2021':'Standort',\
                            'Unnamed: 2':'Baumnr',\
                            'Unnamed: 3':'Baumart', \
                            'gefällt:':'Fällgrund',\
                            320:'gefällt'})
    df["Jahr"] = year
    df["Ortsteil"] = subdistrict
    df = df.drop(df.index[0:5], axis=0)   
    # Deleting rows with null values in a chosen column
    df = df.dropna(subset=['gefällt'])  
    # I am dropping the rows with value "nein", because those are trees which were finally not cut down
    df = df[df['gefällt'] != 'nein']      
    return df

In [74]:
df = clean_data_f_2021(df, 2021, "F")

In [76]:
df

Unnamed: 0,Standort,Baumnr,Baumart,Fällgrund,gefällt,Jahr,Ortsteil
5,Lehmbruckstr. 13,9,Eberesche,absterbend/ abgestorben,ja,2021,F
6,Dirschauer Straße,42,Mehlbeere,absterbend/ abgestorben,ja,2021,F
7,Volkspark Friedrichshain,5013,Feld-Ahorn,absterbend/ abgestorben,ja,2021,F
8,Volkspark Friedrichshain,5054,Birke,Gefährdete Bruch- und Standsicherheit,ja,2021,F
9,Volkspark Friedrichshain,5478,Robinie,Gefährdete Bruch- und Standsicherheit,ja,2021,F
...,...,...,...,...,...,...,...
396,Pettenkoferstraße 20-24,25,Robinie,Gefährdete Bruch- und Standsicherheit,ja,2021,F
397,Pettenkoferstraße 20-24,29,Robinie,Gefährdete Bruch- und Standsicherheit,ja,2021,F
398,Hausburgstraße 20,52,Echter Rotdorn,Gefährdete Bruch- und Standsicherheit,ja,2021,F
399,Hausburgstraße 21,54,Weißdorn,Gefährdete Bruch- und Standsicherheit,ja,2021,F


In [75]:
df.to_excel('2021_fried_cutdown.xlsx', index=False)

In [77]:
# 2020

In [80]:
df = pd.read_excel('../Trees/Fried_Kreuz_Faellung/fallliste_fh_dezember_01_2020.xlsx')

In [81]:
df.head()

Unnamed: 0,notwendige Baumfällungen im Ortsteil Friedrichshain 2020,Unnamed: 1,Unnamed: 2,gefällt:,373
0,,,,"Fällung verworfen, siehe Text unten:",14
1,Stand:,,,offen:,108
2,2020-12-11 00:00:00,,,gesamt in der Liste,495
3,,,,,
4,Standort,Baumnr.,Baumart,Ergebnis der Begutachtung/ Notwendigkeit der F...,2020 gefällt


In [84]:
def clean_data_f_2020(df, year, subdistrict):
    # Function to clean data
    
    df = df.rename(columns={'notwendige Baumfällungen im Ortsteil Friedrichshain 2020':'Standort',\
                            'Unnamed: 1':'Baumnr',\
                            'Unnamed: 2':'Baumart', \
                            'gefällt:':'Fällgrund',\
                            373:'gefällt'})
    df["Jahr"] = year
    df["Ortsteil"] = subdistrict
    df = df.drop(df.index[0:5], axis=0)   
    # Deleting rows with null values in a chosen column
    df = df.dropna(subset=['gefällt'])  
    # I am dropping the rows with value "nein", because those are trees which were finally not cut down
    df = df[df['gefällt'] != 'nein']      
    return df

In [85]:
df = clean_data_f_2020(df, 2020, "F")

In [86]:
df["gefällt"].value_counts()

gefällt
ja    390
6       1
Name: count, dtype: int64

In [87]:
# Value 6 is not defined, we dont know if the tree was cut down or not. 
# This is why I decide to drop this row. 
df = df[df['gefällt'] != 6]

In [89]:
df.to_excel('2020_fried_cutdown.xlsx', index=False)

In [90]:
# 2019

In [91]:
df = pd.read_excel('../Trees/Fried_Kreuz_Faellung/friedrichshain-november-2019_1.xlsx')

In [92]:
df.head()

Unnamed: 0.1,Unnamed: 0,notwendige Baumfällungen im Ortsteil Friedrichshain 2019,Unnamed: 2,Unnamed: 3,gefällt:,163
0,,,,,"Fällung verworfen, siehe Text unten:",10
1,,Stand:,,,offen:,261
2,,2019-11-20 00:00:00,,,gesamt in der Liste,434
3,,,,,,
4,,Standort,Baumnr.,Baumart,Fällgrund,2019 gefällt *


In [93]:
df = df.drop(["Unnamed: 0"], axis=1)

In [94]:
def clean_data_f_2019(df, year, subdistrict):
    # Function to clean data
    
    df = df.rename(columns={'notwendige Baumfällungen im Ortsteil Friedrichshain 2019':'Standort',\
                            'Unnamed: 2':'Baumnr',\
                            'Unnamed: 3':'Baumart', \
                            'gefällt:':'Fällgrund',\
                            163:'gefällt'})
    df["Jahr"] = year
    df["Ortsteil"] = subdistrict
    df = df.drop(df.index[0:5], axis=0)   
    # Deleting rows with null values in a chosen column
    df = df.dropna(subset=['gefällt'])  
    # I am dropping the rows with value "nein", because those are trees which were finally not cut down
    df = df[df['gefällt'] != 'nein']      
    return df

In [95]:
df = clean_data_f_2019(df, 2019, "F")

In [96]:
df

Unnamed: 0,Standort,Baumnr,Baumart,Fällgrund,gefällt,Jahr,Ortsteil
14,Markgrafendamm 20-22,10,Ahorn,Gefährdete Bruch- und Standsicherheit,ja,2019,F
15,Markgrafendamm 24,3,Götterbaum,verursacht Gebäudeschäden,ja,2019,F
25,Karl-Marx-Allee 70a,306,Linde,"Baummaßnahme Wasserbetriebe, 01.12.17",ja,2019,F
26,Langenbeckstraße (hinter Sportplatz Virchowstr...,27,Pappel,Baumaßnahme Sportplatz Virchowstraße,ja,2019,F
33,Grünfläche Tunnelstraße 13-24,10090,Linde,Gefährdete Bruch- und Standsicherheit,ja,2019,F
...,...,...,...,...,...,...,...
334,Kochhannstraße 39,27/1,Säulen-Eberesche,Absterbend/ abgestorben,ja,2019,F
335,Kochhannstraße vor Grünanlage,28/3,Säulen-Eberesche,Absterbend/ abgestorben,ja,2019,F
336,Hausburgstraße 18,66,Winterlinde,Absterbend/ abgestorben,ja,2019,F
337,"Volkspark Friedrichshain, Mächenbrunnen",358/3,Linde,Absterbend/ abgestorben,ja,2019,F


In [97]:
df.to_excel('2019_fried_cutdown.xlsx', index=False)

In [98]:
# 2018

In [99]:
df = pd.read_excel('../Trees/Fried_Kreuz_Faellung/faellliste-friedrichshain-dezember-2018_1.xlsx')
df.head()

Unnamed: 0.1,Unnamed: 0,notwendige Baumfällungen im Ortsteil Friedrichshain 2018,Unnamed: 2,Unnamed: 3,gefällt:,168
0,,,,,"Fällung verworfen, siehe Text unten:",4
1,,Stand:,,,offen:,32
2,,2019-01-03 00:00:00,,,gesamt in der Liste,204
3,,,,,,
4,,Standort,Baumnr.,Baumart,Fällgrund,2018 gefällt *


In [100]:
df = df.drop(["Unnamed: 0"], axis=1)

In [101]:
def clean_data_f_2018(df, year, subdistrict):
    # Function to clean data
    
    df = df.rename(columns={'notwendige Baumfällungen im Ortsteil Friedrichshain 2018':'Standort',\
                            'Unnamed: 2':'Baumnr',\
                            'Unnamed: 3':'Baumart', \
                            'gefällt:':'Fällgrund',\
                            168:'gefällt'})
    df["Jahr"] = year
    df["Ortsteil"] = subdistrict
    df = df.drop(df.index[0:5], axis=0)   
    # Deleting rows with null values in a chosen column
    df = df.dropna(subset=['gefällt'])  
    # I am dropping the rows with value "nein", because those are trees which were finally not cut down
    df = df[df['gefällt'] != 'nein']      
    return df

In [102]:
df = clean_data_f_2018(df, 2018, "F")

In [103]:
df["gefällt"].value_counts()

gefällt
ja    168
Name: count, dtype: int64

In [104]:
df.to_excel('2018_fried_cutdown.xlsx', index=False)

In [105]:
# 2017

In [106]:
df = pd.read_excel('../Trees/Fried_Kreuz_Faellung/friedrichshain-dezember-2017_2.xlsx')
df.head()

Unnamed: 0.1,Unnamed: 0,notwendige Baumfällungen im Ortsteil Friedrichshain 2017,Unnamed: 2,Unnamed: 3,gefällt:,143
0,,,,,"Fällung verworfen, siehe Text unten:",2
1,,Stand:,,,offen:,91
2,,2017-12-19 00:00:00,,,gesamt in der Liste,236
3,,,,,,
4,,Standort,Baumnr.,Baumart,Fällgrund,2017 gefällt *


In [107]:
df = df.drop(["Unnamed: 0"], axis=1)

In [108]:
def clean_data_f_2017(df, year, subdistrict):
    # Function to clean data
    
    df = df.rename(columns={'notwendige Baumfällungen im Ortsteil Friedrichshain 2017':'Standort',\
                            'Unnamed: 2':'Baumnr',\
                            'Unnamed: 3':'Baumart', \
                            'gefällt:':'Fällgrund',\
                            143:'gefällt'})
    df["Jahr"] = year
    df["Ortsteil"] = subdistrict
    df = df.drop(df.index[0:5], axis=0)   
    # Deleting rows with null values in a chosen column
    df = df.dropna(subset=['gefällt'])  
    # I am dropping the rows with value "nein", because those are trees which were finally not cut down
    df = df[df['gefällt'] != 'nein']      
    return df

In [109]:
df = clean_data_f_2017(df, 2017, "F")

In [110]:
df.to_excel('2017_fried_cutdown.xlsx', index=False)