In [85]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn 

import re

# SQL Connection
import pymysql                        
from sqlalchemy import create_engine  
from getpass import getpass  

#### Merging all separete data sets into one data set with all trees

- Concatinating all files into one data frame
- Checking for null values
- Checking if there are only trees, which were cut down (in column "gefällt" should be "ja" as the only value) 
    - If yes the column can be dropped, as it brings no informations (all trees were cut down)
- Deciding which columns could be dropped as well, and doing this here. 
- Checking unique values for reasons for tree felling (column "Fällgrund")
    - Grouping some values, and concentrating on finding reasons, which are connected to the topic 
    (trees being felled because of the problems with vitality, trees which died, etc.)    
    - Grouping small groups of values in "Others"

- Dropping duplicates
- Renaming columns
- translating reasons for cutting down into English


#### Outputs
- Output: xlsx file (because of the problem with encoding special characters öäü I use xlsx instead of csv)
- Output 2: MySQL Database

#### Merging separete files in an one data set (not clean yet)

In [2]:
# Importing all separete files into data frames

f_2017 = pd.read_excel('../Trees/2017_fried_cutdown.xlsx')
k_2017 = pd.read_excel('../Trees/2017_kreuz_cutdown.xlsx')

f_2018 = pd.read_excel('../Trees/2018_fried_cutdown.xlsx')
k_2018 = pd.read_excel('../Trees/2018_kreuz_cutdown.xlsx')

f_2019 = pd.read_excel('../Trees/2019_fried_cutdown.xlsx')
k_2019 = pd.read_excel('../Trees/2019_kreuz_cutdown.xlsx')

f_2020 = pd.read_excel('../Trees/2020_fried_cutdown.xlsx')
k_2020 = pd.read_excel('../Trees/2020_kreuz_cutdown.xlsx')

f_2021 = pd.read_excel('../Trees/2021_fried_cutdown.xlsx')
k_2021 = pd.read_excel('../Trees/2021_kreuz_cutdown.xlsx')

f_2022 = pd.read_excel('../Trees/2022_fried_cutdown.xlsx')
k_2022 = pd.read_excel('../Trees/2022_kreuz_cutdown.xlsx')

f_2023 = pd.read_excel('../Trees/2023_fried_cutdown.xlsx')
k_2023= pd.read_excel('../Trees/2023_kreuz_cutdown.xlsx')

In [3]:
# Concatinating tables

df_all = pd.concat([f_2017, k_2017, f_2018, k_2018, f_2019, k_2019, f_2020, k_2020, f_2021, k_2021,\
                    f_2022, k_2022, f_2023, k_2023], axis=0)  # Tables one under another
df_all.shape

(3562, 7)

In [4]:
df_all.head()

Unnamed: 0,Standort,Baumnr,Baumart,Fällgrund,gefällt,Jahr,Ortsteil
0,Alt-Stralau 30-32,10321,Ahorn,"Umgestürzt infolge Sturm 'Xavier' 5.10.17, dur...",ja,2017,F
1,Alt-Stralau 30-32,10224/1,Weide,Umgestürzt infolge Sturm 'Xavier' 5.10.17,ja,2017,F
2,"Alt-Stralau 34-35, Schule",12,Kirsche,absterbend/ abgestorben,ja,2017,F
3,"Alt-Stralau 34-35, Schule",48,Erle,gefährdete Bruch-/ Standsicherheit,ja,2017,F
4,Alt-Stralau 57,29/1,Ulme,Totalschaden infolge Sturm 'Xavier' 5.10.17,ja,2017,F


In [5]:
df_all = df_all.reset_index(drop=True)  # Here we replace indexing wihtout a new column
df_all

Unnamed: 0,Standort,Baumnr,Baumart,Fällgrund,gefällt,Jahr,Ortsteil
0,Alt-Stralau 30-32,10321,Ahorn,"Umgestürzt infolge Sturm 'Xavier' 5.10.17, dur...",ja,2017,F
1,Alt-Stralau 30-32,10224/1,Weide,Umgestürzt infolge Sturm 'Xavier' 5.10.17,ja,2017,F
2,"Alt-Stralau 34-35, Schule",12,Kirsche,absterbend/ abgestorben,ja,2017,F
3,"Alt-Stralau 34-35, Schule",48,Erle,gefährdete Bruch-/ Standsicherheit,ja,2017,F
4,Alt-Stralau 57,29/1,Ulme,Totalschaden infolge Sturm 'Xavier' 5.10.17,ja,2017,F
...,...,...,...,...,...,...,...
3557,Yorckstraße,136,Silber-Linde,absterbend/ abgestorben,ja,2023,K
3558,Yorckstraße,137,Linde,absterbend/ abgestorben,ja,2023,K
3559,Yorckstraße,138,Kaiser-Linde,absterbend/ abgestorben,ja,2023,K
3560,Yorckstraße,170,Silber-Linde,gefährdete Bruch- und Standsicherheit,ja,2023,K


#### Checking for null values

In [6]:
df_all.isna().sum()

Standort     0
Baumnr       0
Baumart      0
Fällgrund    0
gefällt      0
Jahr         0
Ortsteil     0
dtype: int64

In [7]:
# All good, no null values

#### Checking unique values in a column "gefällt"

In [8]:
df_all["gefällt"].value_counts()

gefällt
ja    3562
Name: count, dtype: int64

In [9]:
# Dropping column
df_all = df_all.drop(["gefällt"], axis=1)

In [10]:
df_all

Unnamed: 0,Standort,Baumnr,Baumart,Fällgrund,Jahr,Ortsteil
0,Alt-Stralau 30-32,10321,Ahorn,"Umgestürzt infolge Sturm 'Xavier' 5.10.17, dur...",2017,F
1,Alt-Stralau 30-32,10224/1,Weide,Umgestürzt infolge Sturm 'Xavier' 5.10.17,2017,F
2,"Alt-Stralau 34-35, Schule",12,Kirsche,absterbend/ abgestorben,2017,F
3,"Alt-Stralau 34-35, Schule",48,Erle,gefährdete Bruch-/ Standsicherheit,2017,F
4,Alt-Stralau 57,29/1,Ulme,Totalschaden infolge Sturm 'Xavier' 5.10.17,2017,F
...,...,...,...,...,...,...
3557,Yorckstraße,136,Silber-Linde,absterbend/ abgestorben,2023,K
3558,Yorckstraße,137,Linde,absterbend/ abgestorben,2023,K
3559,Yorckstraße,138,Kaiser-Linde,absterbend/ abgestorben,2023,K
3560,Yorckstraße,170,Silber-Linde,gefährdete Bruch- und Standsicherheit,2023,K


#### Dropping unnecessary columns

In [11]:
#  Column "Standort" shows the exact address of the tree. The analysis is not focused on the exact locations of trees,
# so the column will be dropped.

df_all = df_all.drop(["Standort"], axis=1)

#### Exporting unclean data

In [12]:
df_all.to_excel('trees_unclean.xlsx', index=False)

#### Checking values in a column "Fällgrund"

In [13]:
df_all.head()

Unnamed: 0,Baumnr,Baumart,Fällgrund,Jahr,Ortsteil
0,10321,Ahorn,"Umgestürzt infolge Sturm 'Xavier' 5.10.17, dur...",2017,F
1,10224/1,Weide,Umgestürzt infolge Sturm 'Xavier' 5.10.17,2017,F
2,12,Kirsche,absterbend/ abgestorben,2017,F
3,48,Erle,gefährdete Bruch-/ Standsicherheit,2017,F
4,29/1,Ulme,Totalschaden infolge Sturm 'Xavier' 5.10.17,2017,F


In [14]:
# pd.set_option('display.max_rows', None) 
df_all["Fällgrund"].value_counts()

Fällgrund
absterbend/ abgestorben                                         1241
gefährdete Bruch- und Standsicherheit                            551
Gefährdete Bruch- und Standsicherheit                            374
Bauvorhaben                                                      247
absterbend,abgestorben,gefährdete Bruch- und Standsicherheit     162
                                                                ... 
Hallimasch,Stammfuss,gefährdete Bruch- und Standsicherheit         1
Höhlung Zwiesel,gefährdete Bruch- und Standsicherheit              1
Stammfuss Schaden,gefährdete Bruch- und Standsicherheit            1
Bauvorhaben,gefährdete Bruch- und Standsicherheit                  1
Bautätigkeit, 06.06.17                                             1
Name: count, Length: 171, dtype: int64

In [15]:
df_all["Fällgrund"].nunique()

171

In [16]:
# Changing/ grouping values

In [17]:
def covert_value_bau(value):
    if "Bau" in value:
        new_value = "BAUVORHABEN"
    elif "bau" in value:
        new_value = "BAUVORHABEN"   
    else:
        new_value = value        
    return new_value


In [18]:
df_test = df_all
df_test['Fällgrund'] = df_all['Fällgrund'].apply(covert_value_bau)

In [19]:
df_test["Fällgrund"].value_counts()

Fällgrund
absterbend/ abgestorben                                                1241
BAUVORHABEN                                                             595
gefährdete Bruch- und Standsicherheit                                   551
Gefährdete Bruch- und Standsicherheit                                   374
absterbend,abgestorben,gefährdete Bruch- und Standsicherheit            162
                                                                       ... 
Zauneinwuchs                                                              1
Faustellen und Pilze (Rußrindenkrankheit)                                 1
Krone Zwiesel,gefährdete Bruch- und Standsicherheit                       1
Habitusmängel                                                             1
Umgestürzt infolge Sturm 'Xavier' 5.10.17, durch Feuerwehr erledigt       1
Name: count, Length: 114, dtype: int64

In [20]:
df_test["Fällgrund"].nunique()

114

In [21]:
def covert_value_sturm(value):
    if "sturm" in value:
        new_value = "STURM"
    elif "Sturm" in value:
        new_value = "STURM"   
    else:
        new_value = value        
    return new_value


In [22]:
df_test['Fällgrund'] = df_all['Fällgrund'].apply(covert_value_sturm)
df_test["Fällgrund"].nunique()

91

In [23]:
df_test["Fällgrund"] = df_test["Fällgrund"].str.lower()

In [24]:
df_test["Fällgrund"].nunique()

89

In [25]:
pd.set_option('display.max_rows', None)
df_test["Fällgrund"].value_counts()

Fällgrund
absterbend/ abgestorben                                                   1262
gefährdete bruch- und standsicherheit                                      925
bauvorhaben                                                                595
sturm                                                                      250
absterbend,abgestorben,gefährdete bruch- und standsicherheit               162
wuchsraumregulierung                                                        53
erkrankung (pseudomonas)                                                    32
wuchsraumregulierung (nur bei konkurrierenden bäumen)                       31
vandalismus                                                                 16
bestandsregulierung                                                         16
stammfäule,gefährdete bruch- und standsicherheit                            13
unfallschaden                                                               13
stammschaden,gefährdete bruch- und standsi

In [26]:
# Pilzkrankheit, Fäule (caused also by Pilzkrankheit)
def covert_value_pilz(value):
    if "pilz" in value:
        new_value = "pilzkrankheit"
    elif "faul" in value:
        new_value = "pilzkrankheit"
    elif "fäule" in value:
        new_value = "pilzkrankheit"
    else:
        new_value = value        
    return new_value

In [27]:
df_test['Fällgrund'] = df_all['Fällgrund'].apply(covert_value_pilz)
df_test["Fällgrund"].nunique()

70

In [28]:
df_test["Fällgrund"].value_counts()

Fällgrund
absterbend/ abgestorben                                          1262
gefährdete bruch- und standsicherheit                             925
bauvorhaben                                                       595
sturm                                                             250
absterbend,abgestorben,gefährdete bruch- und standsicherheit      162
pilzkrankheit                                                      59
wuchsraumregulierung                                               53
erkrankung (pseudomonas)                                           32
wuchsraumregulierung (nur bei konkurrierenden bäumen)              31
bestandsregulierung                                                16
vandalismus                                                        16
unfallschaden                                                      13
stammschaden,gefährdete bruch- und standsicherheit                 12
bestandsentwicklung                                                11
abgestorbe

In [29]:
def covert_value_absterben(value):
    pattern="absterb[\w]+"
    if re.findall(pattern, value):
        new_value = "absterbend/ abgestorben"
    else:
        new_value = value        
    return new_value

In [30]:
df_test['Fällgrund'] = df_all['Fällgrund'].apply(covert_value_absterben)
df_test["Fällgrund"].nunique()

65

In [31]:
def covert_value_standsicherheit(value):
    pattern="\w?standsicherheit[\w]?"
    if re.findall(pattern, value):
        new_value = "gefaerdete standsicherheit"
    else:
        new_value = value        
    return new_value

In [32]:
df_test['Fällgrund'] = df_all['Fällgrund'].apply(covert_value_standsicherheit)
df_test["Fällgrund"].nunique()

39

In [33]:
df_test["Fällgrund"].value_counts()

Fällgrund
absterbend/ abgestorben                                  1436
gefaerdete standsicherheit                                997
bauvorhaben                                               595
sturm                                                     250
pilzkrankheit                                              59
wuchsraumregulierung                                       53
erkrankung (pseudomonas)                                   32
wuchsraumregulierung (nur bei konkurrierenden bäumen)      31
bestandsregulierung                                        16
vandalismus                                                16
unfallschaden                                              13
bestandsentwicklung                                        11
umsturz                                                     9
gefährliche schäden im fahr- und gehwegbereich              6
vandalismus (brandschaden)                                  4
gefährdete stand- und bruchsicherheit                       

In [34]:
def covert_value_unfall(value):
    pattern="\w?unfall[\w]?"
    if re.findall(pattern, value):
        new_value = "unfall"
    else:
        new_value = value        
    return new_value

In [35]:
df_test['Fällgrund'] = df_all['Fällgrund'].apply(covert_value_unfall)
df_test["Fällgrund"].nunique()

35

In [36]:
df_test["Fällgrund"].value_counts()

Fällgrund
absterbend/ abgestorben                                  1436
gefaerdete standsicherheit                                997
bauvorhaben                                               595
sturm                                                     250
pilzkrankheit                                              59
wuchsraumregulierung                                       53
erkrankung (pseudomonas)                                   32
wuchsraumregulierung (nur bei konkurrierenden bäumen)      31
unfall                                                     17
vandalismus                                                16
bestandsregulierung                                        16
bestandsentwicklung                                        11
umsturz                                                     9
gefährliche schäden im fahr- und gehwegbereich              6
gefährdete stand- und bruchsicherheit                       4
gefährdete bruch- und standfestigkeit                       

In [37]:
def covert_value_vandal(value):
    pattern="\w?vandal[\w]?"
    if re.findall(pattern, value):
        new_value = "vandalismus"
    else:
        new_value = value        
    return new_value

In [38]:
df_test['Fällgrund'] = df_all['Fällgrund'].apply(covert_value_vandal)
display(df_test["Fällgrund"].nunique())
df_test["Fällgrund"].value_counts()

32

Fällgrund
absterbend/ abgestorben                                  1436
gefaerdete standsicherheit                                997
bauvorhaben                                               595
sturm                                                     250
pilzkrankheit                                              59
wuchsraumregulierung                                       53
erkrankung (pseudomonas)                                   32
wuchsraumregulierung (nur bei konkurrierenden bäumen)      31
vandalismus                                                22
unfall                                                     17
bestandsregulierung                                        16
bestandsentwicklung                                        11
umsturz                                                     9
gefährliche schäden im fahr- und gehwegbereich              6
gefährdete stand- und bruchsicherheit                       4
gefährdete bruch- und standfestigkeit                       

In [39]:
def covert_value_regulierung(value):
    pattern="\w?regulierung[\w]?"
    if re.findall(pattern, value):
        new_value = "wuchsraumregulierung"
    else:
        new_value = value        
    return new_value

In [40]:
df_test['Fällgrund'] = df_all['Fällgrund'].apply(covert_value_regulierung)
display(df_test["Fällgrund"].nunique())
df_test["Fällgrund"].value_counts()

30

Fällgrund
absterbend/ abgestorben                             1436
gefaerdete standsicherheit                           997
bauvorhaben                                          595
sturm                                                250
wuchsraumregulierung                                 100
pilzkrankheit                                         59
erkrankung (pseudomonas)                              32
vandalismus                                           22
unfall                                                17
bestandsentwicklung                                   11
umsturz                                                9
gefährliche schäden im fahr- und gehwegbereich         6
gefährdete bruch- und standfestigkeit                  4
gefährdete stand- und bruchsicherheit                  4
gefährliche schädem im fahr- und gehwegbereich         3
gefährdetet stand- und bruchsicherheit                 2
kampfmittelräumung                                     2
kronenbruch/ fällung 

In [41]:
# All values with the occurances less than 17 will be replaced with the value "others"

value_occurancy = df_test['Fällgrund'].value_counts()
mask = df_test['Fällgrund'].isin(value_occurancy[value_occurancy < 32].index)
df_test.loc[mask, 'Fällgrund'] = 'others'

In [42]:
display(df_test["Fällgrund"].nunique())
df_test["Fällgrund"].value_counts()

8

Fällgrund
absterbend/ abgestorben       1436
gefaerdete standsicherheit     997
bauvorhaben                    595
sturm                          250
wuchsraumregulierung           100
others                          93
pilzkrankheit                   59
erkrankung (pseudomonas)        32
Name: count, dtype: int64

In [43]:
df = df_test

In [44]:
df.head()

Unnamed: 0,Baumnr,Baumart,Fällgrund,Jahr,Ortsteil
0,10321,Ahorn,sturm,2017,F
1,10224/1,Weide,sturm,2017,F
2,12,Kirsche,absterbend/ abgestorben,2017,F
3,48,Erle,gefaerdete standsicherheit,2017,F
4,29/1,Ulme,sturm,2017,F


#### Dropping duplicates

In [45]:
df.shape

(3562, 5)

In [46]:
df = df.drop_duplicates()

In [47]:
df.shape

(3506, 5)

#### Renaming columns
Optional - translating column names into English 

In [48]:
df = df.rename(columns={'Baumnr':'nr',
                        'Baumart':'species', 
                        'Fällgrund':'felling_reason',
                        'Jahr':'year',
                        'Ortsteil':'subdistrict'})

In [49]:
df.head()

Unnamed: 0,nr,species,felling_reason,year,subdistrict
0,10321,Ahorn,sturm,2017,F
1,10224/1,Weide,sturm,2017,F
2,12,Kirsche,absterbend/ abgestorben,2017,F
3,48,Erle,gefaerdete standsicherheit,2017,F
4,29/1,Ulme,sturm,2017,F


In [50]:
df["felling_reason"].value_counts()

felling_reason
absterbend/ abgestorben       1415
gefaerdete standsicherheit     985
bauvorhaben                    578
sturm                          247
wuchsraumregulierung           100
others                          91
pilzkrankheit                   58
erkrankung (pseudomonas)        32
Name: count, dtype: int64

#### Optional: translating possible reasons for cutting down

In [51]:
df["felling_reason"] = df["felling_reason"].replace({"absterbend/ abgestorben":"dead",
                                                     "gefaerdete standsicherheit": "endangered_stability",
                                                     "bauvorhaben":"construction",
                                                     "sturm":"storm",
                                                     "wuchsraumregulierung":"growth_regulation",
                                                     "pilzkrankheit":"fungal_infection",
                                                     "erkrankung (pseudomonas)":"disease_pseudomonas"})

In [52]:
df["felling_reason"].value_counts()

felling_reason
dead                    1415
endangered_stability     985
construction             578
storm                    247
growth_regulation        100
others                    91
fungal_infection          58
disease_pseudomonas       32
Name: count, dtype: int64

In [53]:
df.shape

(3506, 5)

In [54]:
df.head()

Unnamed: 0,nr,species,felling_reason,year,subdistrict
0,10321,Ahorn,storm,2017,F
1,10224/1,Weide,storm,2017,F
2,12,Kirsche,dead,2017,F
3,48,Erle,endangered_stability,2017,F
4,29/1,Ulme,storm,2017,F


#### Other cleaning

In [57]:
def clean_whitestripe_lowcase(row):
    # Function to clean whitestrips and make all small
    row = row.lower()
    row = row.strip()    
    return row

In [70]:
df["species"] = df["species"].apply(clean_whitestripe_lowcase)
df["subdistrict"] = df["subdistrict"].apply(clean_whitestripe_lowcase)

In [71]:
df.head()

Unnamed: 0,nr,species,felling_reason,year,subdistrict
0,10321,ahorn,storm,2017,f
1,10224/1,weide,storm,2017,f
2,12,kirsche,dead,2017,f
3,48,erle,endangered_stability,2017,f
4,29/1,ulme,storm,2017,f


#### Exporting data set in CSV

In [72]:
# Exporting xlsx file (because of special characters in German I have problems with encoding, which I dont using xlsx format)
df.to_excel('trees_clean.xlsx', index=False)

#### Exporting data set to MySQL

In [86]:
password = getpass()

········


In [88]:
connection_string = 'mysql+pymysql://root:'+password+'@localhost/project_trees'  #Here we put a password to a larger string
engine = create_engine(connection_string)

In [89]:
# new = 'project_trees' # name of my database ill be project_trees

In [90]:
# engine.execute(f"CREATE DATABASE IF NOT EXISTS {new}")   # Create new database

In [91]:
# engine.execute(f"USE {new}")  # Connect to the newly created database

In [92]:
# Export DataFrame to MySQL
table_name = 'trees_felling'
df.to_sql(table_name, engine, index=False, if_exists='replace')

3506