In [1]:
import pandas as pd
import numpy as np
from pygbif import species

# 21: Araneae_and_Opiliones.csv : Arachnida

In [2]:
# Read file into dataframe

df = pd.read_csv('Araneae_and_Opiliones.csv')
df.head()

Unnamed: 0,Species,BE,Bestand,Trend_lang,Trend_kurz,RF,BB,D,GfU,Vorzugs_habitat,Ökolog_Typ,Letzter_Nachweis
0,Dysdera erythrina,0,ex,,,,*,*,"7, 8, 12",7,(h)w,1985
1,Oonops domesticus,0,ex,,,,*,D,"1a, 2a",16,"syn, trog",1983
2,Eresus kollari,0,ex,,,,2,2,"3, 7a, 12a",11,"x, th",1968
3,Dipoena coracina,0,ex,,,,*,G,"7a, 11b",12,"x, th",1971
4,Theonoe minutissima,0,ex,,,,2,3,"2d, 3, 11c",2,h,1908


In [3]:
# Removing columns "Bestand","Trend_lang","Trend_kurz", "RF", "BB", "D", "GS", "GfU"
df.drop(columns = ["Bestand",
                   "Trend_lang",
                   "Trend_kurz",
                   "RF",
                   "BB",
                   "D",
                   "GfU", 
                   "Vorzugs_habitat",
                   "Ökolog_Typ"
                  ], inplace = True)
df

Unnamed: 0,Species,BE,Letzter_Nachweis
0,Dysdera erythrina,0,1985
1,Oonops domesticus,0,1983
2,Eresus kollari,0,1968
3,Dipoena coracina,0,1971
4,Theonoe minutissima,0,1908
5,Agyneta subtilis,0,1981
6,Centromerus capucinus,0,1985
7,Centromerus sellarius,0,1988
8,Dismodicus elevatus,0,1904
9,Glyphesis cottonae,0,1904


In [4]:
# Editing species column based on binomial nomenclature

#df1 = df.Species.str.split(pat=" ", n = 3, expand = True)
#df.Species = df1[0].str.cat(df1[1], sep = " ")
#df.head(10)

In [5]:
# Creating a dictionary and extracting GBIF data
d = {}

for i in df.Species:     
   d[i] = species.name_backbone(name=str(i), kingdom='animals')
print("Complete")

Complete


In [6]:
gbif_data = pd.DataFrame.from_dict(d, orient = "index")
gbif_data.reset_index(inplace = True)
gbif_data.columns
df["Family"] = gbif_data["family"]
df

Unnamed: 0,Species,BE,Letzter_Nachweis,Family
0,Dysdera erythrina,0,1985,Dysderidae
1,Oonops domesticus,0,1983,Oonopidae
2,Eresus kollari,0,1968,Eresidae
3,Dipoena coracina,0,1971,Theridiidae
4,Theonoe minutissima,0,1908,Theridiidae
5,Agyneta subtilis,0,1981,Linyphiidae
6,Centromerus capucinus,0,1985,Linyphiidae
7,Centromerus sellarius,0,1988,Linyphiidae
8,Dismodicus elevatus,0,1904,Linyphiidae
9,Glyphesis cottonae,0,1904,Linyphiidae


In [7]:
# Add common names
df["Deutscher_Name"] = ""
# Add reference column
df["Reference"] = "Rote Liste und Gesamtartenliste der Spinnen (Araneae) und Gesamtartenliste der Weberknechte (Opiliones) von Berlin"
# Adding Letzter_Nachweis column
#df["Letzter_Nachweis"] = ""

In [8]:
# Rearranging the dataframe for uniformity
df = df[["Species",
         "Family", 
         "BE", 
         "Letzter_Nachweis",
         "Deutscher_Name", 
         "Reference"]]

In [9]:
df

Unnamed: 0,Species,Family,BE,Letzter_Nachweis,Deutscher_Name,Reference
0,Dysdera erythrina,Dysderidae,0,1985,,Rote Liste und Gesamtartenliste der Spinnen (A...
1,Oonops domesticus,Oonopidae,0,1983,,Rote Liste und Gesamtartenliste der Spinnen (A...
2,Eresus kollari,Eresidae,0,1968,,Rote Liste und Gesamtartenliste der Spinnen (A...
3,Dipoena coracina,Theridiidae,0,1971,,Rote Liste und Gesamtartenliste der Spinnen (A...
4,Theonoe minutissima,Theridiidae,0,1908,,Rote Liste und Gesamtartenliste der Spinnen (A...
5,Agyneta subtilis,Linyphiidae,0,1981,,Rote Liste und Gesamtartenliste der Spinnen (A...
6,Centromerus capucinus,Linyphiidae,0,1985,,Rote Liste und Gesamtartenliste der Spinnen (A...
7,Centromerus sellarius,Linyphiidae,0,1988,,Rote Liste und Gesamtartenliste der Spinnen (A...
8,Dismodicus elevatus,Linyphiidae,0,1904,,Rote Liste und Gesamtartenliste der Spinnen (A...
9,Glyphesis cottonae,Linyphiidae,0,1904,,Rote Liste und Gesamtartenliste der Spinnen (A...


In [10]:
# Saving the extracted csv to the "Data_cleaning_step1" directory
# export the dataframe as CSV

df.to_csv('../../Transformation/Data_cleaning_step1/21_Araneae_and_Opiliones.csv', 
          index=False)

# 22: Mollusca_Gastropoda_and_Bivalvia.csv : Mollusca

In [242]:
# Read file into dataframe

df = pd.read_csv('22_Mollusca_Gastropoda_and_Bivalvia.csv')
df.head(10)

Unnamed: 0,Species,BE,Bestand,Trend_lang,Trend_kurz,RF,BB,D,GS,GfU,Vorzugs_habitat,Letzter_Nachweis
0,"Gyraulus rossmaessleri (AUERSWALD, 1852)",0,ex,,,,1,1,,14a,"SG, SK",vor 1980
1,"Myxas glutinosa (O. F. MÜLLER, 1774)",0,ex,,,,0,1,,14a,"FF, SG",1954
2,"Chondrula tridens tridens (O. F. MÜLLER, 1774)",0,ex,,,,3,1,,9a,"W, GF",vor 1950
3,"Helicigona lapicida (LINNAEUS, 1758)",0,ex,,,,3,*,,9a,"WB, WC, WE",1886
4,"Platyla polita (W. HARTMANN , 1840)",0,ex,,,,0,3,,"8, 9","WB, WE, WC",1933
5,"Vertigo geyeri LINDHOLM, 1925",0,ex,,,,0,1,II,14a,"SR, ME, GF",vor 1950
6,"Pisidium pulchellum JENYNS, 1832",0,ex,,,,1,1,,14a,"FF, FB, FG",vor 1950
7,"Unio crassus PHILIPSSON, 1788*",0,ex,,,,1,1,"§§, II","14a, 12c",FB,vor 1993


In [243]:
# Removing columns "Bestand","Trend_lang","Trend_kurz", "RF", "BB", "D", "GS", "GfU"
df.drop(columns = ["Bestand",
                   "Trend_lang",
                   "Trend_kurz",
                   "RF",
                   "BB",
                   "D",
                   "GS",
                   "GfU", 
                   "Vorzugs_habitat"
                  ], inplace = True)
df.head()

Unnamed: 0,Species,BE,Letzter_Nachweis
0,"Gyraulus rossmaessleri (AUERSWALD, 1852)",0,vor 1980
1,"Myxas glutinosa (O. F. MÜLLER, 1774)",0,1954
2,"Chondrula tridens tridens (O. F. MÜLLER, 1774)",0,vor 1950
3,"Helicigona lapicida (LINNAEUS, 1758)",0,1886
4,"Platyla polita (W. HARTMANN , 1840)",0,1933


In [244]:
# Editing species column based on binomial nomenclature

df1 = df.Species.str.split(pat=" ", n = 3, expand = True)
df.Species = df1[0].str.cat(df1[1], sep = " ")
df.head(10)

Unnamed: 0,Species,BE,Letzter_Nachweis
0,Gyraulus rossmaessleri,0,vor 1980
1,Myxas glutinosa,0,1954
2,Chondrula tridens,0,vor 1950
3,Helicigona lapicida,0,1886
4,Platyla polita,0,1933
5,Vertigo geyeri,0,vor 1950
6,Pisidium pulchellum,0,vor 1950
7,Unio crassus,0,vor 1993


In [245]:
# Creating a dictionary and extracting GBIF data
d = {}

for i in df.Species:     
   d[i] = species.name_backbone(name=str(i), kingdom='animals')
print("Complete")

Complete


In [246]:
gbif_data = pd.DataFrame.from_dict(d, orient = "index")
gbif_data.reset_index(inplace = True)
gbif_data.columns
df["Family"] = gbif_data["family"]
df

Unnamed: 0,Species,BE,Letzter_Nachweis,Family
0,Gyraulus rossmaessleri,0,vor 1980,Planorbidae
1,Myxas glutinosa,0,1954,Lymnaeidae
2,Chondrula tridens,0,vor 1950,Enidae
3,Helicigona lapicida,0,1886,Helicidae
4,Platyla polita,0,1933,Aciculidae
5,Vertigo geyeri,0,vor 1950,Vertiginidae
6,Pisidium pulchellum,0,vor 1950,Sphaeriidae
7,Unio crassus,0,vor 1993,Unionidae


In [247]:
# Add common names
df["Deutscher_Name"] = ""
# Add reference column
df["Reference"] = "Rote Liste und Gesamtartenliste der Weichtiere (Mollusca: Gastropoda und Bivalvia) von Berlin"
# Adding Letzter_Nachweis column
#df["Letzter_Nachweis"] = ""
df.head()

Unnamed: 0,Species,BE,Letzter_Nachweis,Family,Deutscher_Name,Reference
0,Gyraulus rossmaessleri,0,vor 1980,Planorbidae,,Rote Liste und Gesamtartenliste der Weichtiere...
1,Myxas glutinosa,0,1954,Lymnaeidae,,Rote Liste und Gesamtartenliste der Weichtiere...
2,Chondrula tridens,0,vor 1950,Enidae,,Rote Liste und Gesamtartenliste der Weichtiere...
3,Helicigona lapicida,0,1886,Helicidae,,Rote Liste und Gesamtartenliste der Weichtiere...
4,Platyla polita,0,1933,Aciculidae,,Rote Liste und Gesamtartenliste der Weichtiere...


In [248]:
# Rearranging the dataframe for uniformity
df = df[["Species",
         "Family", 
         "BE", 
         "Letzter_Nachweis",
         "Deutscher_Name", 
         "Reference"]]
df.head(10)

Unnamed: 0,Species,Family,BE,Letzter_Nachweis,Deutscher_Name,Reference
0,Gyraulus rossmaessleri,Planorbidae,0,vor 1980,,Rote Liste und Gesamtartenliste der Weichtiere...
1,Myxas glutinosa,Lymnaeidae,0,1954,,Rote Liste und Gesamtartenliste der Weichtiere...
2,Chondrula tridens,Enidae,0,vor 1950,,Rote Liste und Gesamtartenliste der Weichtiere...
3,Helicigona lapicida,Helicidae,0,1886,,Rote Liste und Gesamtartenliste der Weichtiere...
4,Platyla polita,Aciculidae,0,1933,,Rote Liste und Gesamtartenliste der Weichtiere...
5,Vertigo geyeri,Vertiginidae,0,vor 1950,,Rote Liste und Gesamtartenliste der Weichtiere...
6,Pisidium pulchellum,Sphaeriidae,0,vor 1950,,Rote Liste und Gesamtartenliste der Weichtiere...
7,Unio crassus,Unionidae,0,vor 1993,,Rote Liste und Gesamtartenliste der Weichtiere...


In [249]:
# Saving the extracted csv to the "Data_cleaning_step1" directory
# export the dataframe as CSV

df.to_csv('../../Transformation/Data_cleaning_step1/22_Mollusca_Gastropoda_and_Bivalvia.csv', 
          index=False)

# 23: Pisces.csv : Pisces

In [250]:
# Read file into dataframe

df = pd.read_csv('Pisces.csv')
df.head(10)

Unnamed: 0,Common_name,Species,Redlist_category,Bestand,Trend_lang,Trend_kurz,Riskio
0,Bachneunauge,Lampetra planeri,0,ex,,,
1,Barbe,Barbus barbus,0,ex,,,
2,Europäischer\tStör,Acipenser sturio,0,ex,,,
3,Flussneunauge,Lampetra fluviatilis,0,ex,,,
4,Lachs,Salmo salar,0,ex,,,
5,Meerneunauge,Petromyzon marinus,0,ex,,,
6,Zährte,Vimba vimba,0,ex,,,


In [251]:
# Removing columns "Bestand","Trend_lang","Trend_kurz", "RF", "BB", "D", "GS", "GfU"
df.drop(columns = ["Bestand",
                   "Trend_lang",
                   "Trend_kurz",
                   "Riskio"
                  ], inplace = True)
df.head()

Unnamed: 0,Common_name,Species,Redlist_category
0,Bachneunauge,Lampetra planeri,0
1,Barbe,Barbus barbus,0
2,Europäischer\tStör,Acipenser sturio,0
3,Flussneunauge,Lampetra fluviatilis,0
4,Lachs,Salmo salar,0


In [252]:
# Editing species column based on binomial nomenclature

#df1 = df.Species.str.split(pat=" ", n = 3, expand = True)
#df.Species = df1[0].str.cat(df1[1], sep = " ")
#df.head(10)

In [253]:
# Creating a dictionary and extracting GBIF data
d = {}

for i in df.Species:     
   d[i] = species.name_backbone(name=str(i), kingdom='animals')
print("Complete")

Complete


In [254]:
gbif_data = pd.DataFrame.from_dict(d, orient = "index")
gbif_data.reset_index(inplace = True)
gbif_data.columns
df["Family"] = gbif_data["family"]
df

Unnamed: 0,Common_name,Species,Redlist_category,Family
0,Bachneunauge,Lampetra planeri,0,Petromyzontidae
1,Barbe,Barbus barbus,0,Cyprinidae
2,Europäischer\tStör,Acipenser sturio,0,Acipenseridae
3,Flussneunauge,Lampetra fluviatilis,0,Petromyzontidae
4,Lachs,Salmo salar,0,Salmonidae
5,Meerneunauge,Petromyzon marinus,0,Petromyzontidae
6,Zährte,Vimba vimba,0,Cyprinidae


In [255]:
# renaming columns
df.rename({
    "Common_name": "Deutscher_Name",
    "Redlist_category": "BE"
}, 
    axis='columns',
    inplace = True
)
df

Unnamed: 0,Deutscher_Name,Species,BE,Family
0,Bachneunauge,Lampetra planeri,0,Petromyzontidae
1,Barbe,Barbus barbus,0,Cyprinidae
2,Europäischer\tStör,Acipenser sturio,0,Acipenseridae
3,Flussneunauge,Lampetra fluviatilis,0,Petromyzontidae
4,Lachs,Salmo salar,0,Salmonidae
5,Meerneunauge,Petromyzon marinus,0,Petromyzontidae
6,Zährte,Vimba vimba,0,Cyprinidae


In [256]:
# Add common names
#df["Deutscher_Name"] = ""
# Add reference column
df["Reference"] = "Gesamtartenliste und Rote Liste der Fische und Neunaugen (Pisces et Cyclostomata) von Berlin"
# Adding Letzter_Nachweis column
df["Letzter_Nachweis"] = ""
df.head()

Unnamed: 0,Deutscher_Name,Species,BE,Family,Reference,Letzter_Nachweis
0,Bachneunauge,Lampetra planeri,0,Petromyzontidae,Gesamtartenliste und Rote Liste der Fische und...,
1,Barbe,Barbus barbus,0,Cyprinidae,Gesamtartenliste und Rote Liste der Fische und...,
2,Europäischer\tStör,Acipenser sturio,0,Acipenseridae,Gesamtartenliste und Rote Liste der Fische und...,
3,Flussneunauge,Lampetra fluviatilis,0,Petromyzontidae,Gesamtartenliste und Rote Liste der Fische und...,
4,Lachs,Salmo salar,0,Salmonidae,Gesamtartenliste und Rote Liste der Fische und...,


In [257]:
# Rearranging the dataframe for uniformity
df = df[["Species",
         "Family", 
         "BE", 
         "Letzter_Nachweis",
         "Deutscher_Name", 
         "Reference"]]
df.head(10)

Unnamed: 0,Species,Family,BE,Letzter_Nachweis,Deutscher_Name,Reference
0,Lampetra planeri,Petromyzontidae,0,,Bachneunauge,Gesamtartenliste und Rote Liste der Fische und...
1,Barbus barbus,Cyprinidae,0,,Barbe,Gesamtartenliste und Rote Liste der Fische und...
2,Acipenser sturio,Acipenseridae,0,,Europäischer\tStör,Gesamtartenliste und Rote Liste der Fische und...
3,Lampetra fluviatilis,Petromyzontidae,0,,Flussneunauge,Gesamtartenliste und Rote Liste der Fische und...
4,Salmo salar,Salmonidae,0,,Lachs,Gesamtartenliste und Rote Liste der Fische und...
5,Petromyzon marinus,Petromyzontidae,0,,Meerneunauge,Gesamtartenliste und Rote Liste der Fische und...
6,Vimba vimba,Cyprinidae,0,,Zährte,Gesamtartenliste und Rote Liste der Fische und...


In [258]:
# Replace the \t type space with normal space
df.at[2,"Deutscher_Name"]= "Europäischer Stör"
df

Unnamed: 0,Species,Family,BE,Letzter_Nachweis,Deutscher_Name,Reference
0,Lampetra planeri,Petromyzontidae,0,,Bachneunauge,Gesamtartenliste und Rote Liste der Fische und...
1,Barbus barbus,Cyprinidae,0,,Barbe,Gesamtartenliste und Rote Liste der Fische und...
2,Acipenser sturio,Acipenseridae,0,,Europäischer Stör,Gesamtartenliste und Rote Liste der Fische und...
3,Lampetra fluviatilis,Petromyzontidae,0,,Flussneunauge,Gesamtartenliste und Rote Liste der Fische und...
4,Salmo salar,Salmonidae,0,,Lachs,Gesamtartenliste und Rote Liste der Fische und...
5,Petromyzon marinus,Petromyzontidae,0,,Meerneunauge,Gesamtartenliste und Rote Liste der Fische und...
6,Vimba vimba,Cyprinidae,0,,Zährte,Gesamtartenliste und Rote Liste der Fische und...


In [259]:
# Saving the extracted csv to the "Data_cleaning_step1" directory
# export the dataframe as CSV

df.to_csv('../../Transformation/Data_cleaning_step1/23_Pisces.csv', 
          index=False)

# 24: Reptilia.csv : Reptilia

In [260]:
# Read file into dataframe

df = pd.read_csv('Reptilia.csv')
df.head(10)

Unnamed: 0,Species,BE,Bestand,Trend_lang,Trend_kurz,RF,BB,D,GS,GfU,Common_name
0,"Emys orbicularis (LINNAEUS, 1758)",0,ex,,,,1,1,"§§, II, IV","4a, 5a, 5b, 10c, 12b , 13a, 14b,",Europäische Sumpfschildkröte


In [261]:
# Removing columns "Bestand","Trend_lang","Trend_kurz", "RF", "BB", "D", "GS", "GfU"
df.drop(columns = ["Bestand",
                   "Trend_lang",
                   "Trend_kurz",
                   "RF",
                   "BB",
                   "D",
                   "GS", 
                   "GfU"
                  ], inplace = True)
df.head()

Unnamed: 0,Species,BE,Common_name
0,"Emys orbicularis (LINNAEUS, 1758)",0,Europäische Sumpfschildkröte


In [262]:
# Editing species column based on binomial nomenclature

df1 = df.Species.str.split(pat=" ", n = 3, expand = True)
df.Species = df1[0].str.cat(df1[1], sep = " ")
df.head(10)

Unnamed: 0,Species,BE,Common_name
0,Emys orbicularis,0,Europäische Sumpfschildkröte


In [263]:
# Creating a dictionary and extracting GBIF data
d = {}

for i in df.Species:     
   d[i] = species.name_backbone(name=str(i), kingdom='animals')
print("Complete")

Complete


In [264]:
gbif_data = pd.DataFrame.from_dict(d, orient = "index")
gbif_data.reset_index(inplace = True)
gbif_data.columns
df["Family"] = gbif_data["family"]
df

Unnamed: 0,Species,BE,Common_name,Family
0,Emys orbicularis,0,Europäische Sumpfschildkröte,Emydidae


In [265]:
# renaming columns
df.rename({
    "Common_name": "Deutscher_Name"
}, 
    axis='columns',
    inplace = True
)
df

Unnamed: 0,Species,BE,Deutscher_Name,Family
0,Emys orbicularis,0,Europäische Sumpfschildkröte,Emydidae


In [266]:
# Add common names
#df["Deutscher_Name"] = ""
# Add reference column
df["Reference"] = "Rote Liste und Gesamtartenliste der Kriechtiere (Reptilia) von Berlin"
# Adding Letzter_Nachweis column
df["Letzter_Nachweis"] = ""
df.head()

Unnamed: 0,Species,BE,Deutscher_Name,Family,Reference,Letzter_Nachweis
0,Emys orbicularis,0,Europäische Sumpfschildkröte,Emydidae,Rote Liste und Gesamtartenliste der Kriechtier...,


In [267]:
# Rearranging the dataframe for uniformity
df = df[["Species",
         "Family", 
         "BE", 
         "Letzter_Nachweis",
         "Deutscher_Name", 
         "Reference"]]
df.head(10)

Unnamed: 0,Species,Family,BE,Letzter_Nachweis,Deutscher_Name,Reference
0,Emys orbicularis,Emydidae,0,,Europäische Sumpfschildkröte,Rote Liste und Gesamtartenliste der Kriechtier...


In [268]:
# Saving the extracted csv to the "Data_cleaning_step1" directory
# export the dataframe as CSV

df.to_csv('../../Transformation/Data_cleaning_step1/24_Reptilia.csv', 
          index=False)

# 25: Amphibia.csv : Amphibia

In [269]:
# Read file into dataframe

df = pd.read_csv('Amphibia.csv')
df.head(10)

Unnamed: 0,Species,BE,Bestand,Trend_lang,Trend_kurz,RF,BB,D,GS,GfU,Letzter_Nachweis,Common_name
0,"Hyla arborea (LINNAEUS, 1758)",0,ex,,,,2,3,"§§, IV","1a, 2a, 4a, 6a,10c, 11c,",vor 1960,Mitteleuropäischer
1,"Pelophylax lessonae (CAMERANAO, 1782)",0,ex,,,,G,G,"§, IV","2d, 10c, 11c, 12b",1991,Kleiner Wasserfrosch


In [270]:
# Removing columns "Bestand","Trend_lang","Trend_kurz", "RF", "BB", "D", "GS", "GfU"
df.drop(columns = ["Bestand",
                   "Trend_lang",
                   "Trend_kurz",
                   "RF",
                   "BB",
                   "D",
                   "GS",
                   "GfU"
                  ], inplace = True)
df.head()

Unnamed: 0,Species,BE,Letzter_Nachweis,Common_name
0,"Hyla arborea (LINNAEUS, 1758)",0,vor 1960,Mitteleuropäischer
1,"Pelophylax lessonae (CAMERANAO, 1782)",0,1991,Kleiner Wasserfrosch


In [271]:
# Editing species column based on binomial nomenclature

df1 = df.Species.str.split(pat=" ", n = 3, expand = True)
df.Species = df1[0].str.cat(df1[1], sep = " ")
df.head(10)

Unnamed: 0,Species,BE,Letzter_Nachweis,Common_name
0,Hyla arborea,0,vor 1960,Mitteleuropäischer
1,Pelophylax lessonae,0,1991,Kleiner Wasserfrosch


In [272]:
# Creating a dictionary and extracting GBIF data
d = {}

for i in df.Species:     
   d[i] = species.name_backbone(name=str(i), kingdom='animals')
print("Complete")

Complete


In [273]:
gbif_data = pd.DataFrame.from_dict(d, orient = "index")
gbif_data.reset_index(inplace = True)
gbif_data.columns
df["Family"] = gbif_data["family"]
df

Unnamed: 0,Species,BE,Letzter_Nachweis,Common_name,Family
0,Hyla arborea,0,vor 1960,Mitteleuropäischer,Hylidae
1,Pelophylax lessonae,0,1991,Kleiner Wasserfrosch,Ranidae


In [274]:
# renaming columns
df.rename({
    "Common_name": "Deutscher_Name"
}, 
    axis='columns',
    inplace = True
)
df

Unnamed: 0,Species,BE,Letzter_Nachweis,Deutscher_Name,Family
0,Hyla arborea,0,vor 1960,Mitteleuropäischer,Hylidae
1,Pelophylax lessonae,0,1991,Kleiner Wasserfrosch,Ranidae


In [275]:
# Add common names
#df["Deutscher_Name"] = ""
# Add reference column
df["Reference"] = "Rote Liste und Gesamtartenliste der Lurche (Amphibia) von Berlin"
# Adding Letzter_Nachweis column
#df["Letzter_Nachweis"] = ""
df.head()

Unnamed: 0,Species,BE,Letzter_Nachweis,Deutscher_Name,Family,Reference
0,Hyla arborea,0,vor 1960,Mitteleuropäischer,Hylidae,Rote Liste und Gesamtartenliste der Lurche (Am...
1,Pelophylax lessonae,0,1991,Kleiner Wasserfrosch,Ranidae,Rote Liste und Gesamtartenliste der Lurche (Am...


In [276]:
# Rearranging the dataframe for uniformity
df = df[["Species",
         "Family", 
         "BE", 
         "Letzter_Nachweis",
         "Deutscher_Name", 
         "Reference"]]
df.head(10)

Unnamed: 0,Species,Family,BE,Letzter_Nachweis,Deutscher_Name,Reference
0,Hyla arborea,Hylidae,0,vor 1960,Mitteleuropäischer,Rote Liste und Gesamtartenliste der Lurche (Am...
1,Pelophylax lessonae,Ranidae,0,1991,Kleiner Wasserfrosch,Rote Liste und Gesamtartenliste der Lurche (Am...


In [277]:
# Saving the extracted csv to the "Data_cleaning_step1" directory
# export the dataframe as CSV

df.to_csv('../../Transformation/Data_cleaning_step1/25_Amphibia.csv', 
          index=False)

# 26: Aves.csv : Aves

In [278]:
# Read file into dataframe

df = pd.read_csv('Aves.csv')
df.head(10)

Unnamed: 0,Common_name,Species,Status,BP_Rev,Häufig_keitsklasse,Trend_lang,Trend_kurz,Risik,BE2013,BE2003,BB2008,D2007
0,Löffelente *,Anas clypeata,I ex,"0 – 1, 2012: 1 BP",ex,,,,0,1,2.0,3.0
1,Moorente,Aythya nyroca,I ex,erloschen,ex,,,,0,0,1.0,1.0
2,Gänsesäger,Mergus merganser,I ex,erloschen,ex,,,,0,0,2.0,2.0
3,Rebhuhn *,Perdix perdix,I ex,"erloschen, zuletzt: 1996",ex,,,,0,1,2.0,2.0
4,Birkhuhn,Tetrao terix,I ex,erloschen,ex,,,,0,0,1.0,2.0
5,Schwarzstorch,Ciconia nigra,I ex,erloschen,ex,,,,0,0,3.0,
6,Fischadler,Pandion haliaetus,I ex,erloschen,ex,,,,0,0,,3.0
7,Schreiadler,Aquila pomarina,I ex,erloschen,ex,,,,0,0,1.0,1.0
8,Kornweihe,Circus cyaneus,I ex,erloschen,ex,,,,0,0,0.0,2.0
9,Wiesenweihe,Circus pygargus,I ex,erloschen,ex,,,,0,0,2.0,2.0


In [279]:
# Removing columns "Bestand","Trend_lang","Trend_kurz", "RF", "BB", "D", "GS", "GfU"
df.drop(columns = ["Häufig_keitsklasse",
                   "Trend_lang",
                   "Trend_kurz",
                   "Risik",
                   "BB2008",
                   "D2007"
                  ], inplace = True)
df.head()

Unnamed: 0,Common_name,Species,Status,BP_Rev,BE2013,BE2003
0,Löffelente *,Anas clypeata,I ex,"0 – 1, 2012: 1 BP",0,1
1,Moorente,Aythya nyroca,I ex,erloschen,0,0
2,Gänsesäger,Mergus merganser,I ex,erloschen,0,0
3,Rebhuhn *,Perdix perdix,I ex,"erloschen, zuletzt: 1996",0,1
4,Birkhuhn,Tetrao terix,I ex,erloschen,0,0


In [280]:
# Remove the stars from Common_name

df1 = df.Common_name.str.split(pat="*", n = 1, expand = True)
df.Common_name = df1[0]
#df.head(10)
df

Unnamed: 0,Common_name,Species,Status,BP_Rev,BE2013,BE2003
0,Löffelente,Anas clypeata,I ex,"0 – 1, 2012: 1 BP",0,1
1,Moorente,Aythya nyroca,I ex,erloschen,0,0
2,Gänsesäger,Mergus merganser,I ex,erloschen,0,0
3,Rebhuhn,Perdix perdix,I ex,"erloschen, zuletzt: 1996",0,1
4,Birkhuhn,Tetrao terix,I ex,erloschen,0,0
5,Schwarzstorch,Ciconia nigra,I ex,erloschen,0,0
6,Fischadler,Pandion haliaetus,I ex,erloschen,0,0
7,Schreiadler,Aquila pomarina,I ex,erloschen,0,0
8,Kornweihe,Circus cyaneus,I ex,erloschen,0,0
9,Wiesenweihe,Circus pygargus,I ex,erloschen,0,0


In [281]:
# Creating a dictionary and extracting GBIF data
d = {}

for i in df.Species:     
   d[i] = species.name_backbone(name=str(i), kingdom='animals')
print("Complete")

Complete


In [282]:
gbif_data = pd.DataFrame.from_dict(d, orient = "index")
gbif_data.reset_index(inplace = True)
gbif_data.columns
df["Family"] = gbif_data["family"]
df

Unnamed: 0,Common_name,Species,Status,BP_Rev,BE2013,BE2003,Family
0,Löffelente,Anas clypeata,I ex,"0 – 1, 2012: 1 BP",0,1,Anatidae
1,Moorente,Aythya nyroca,I ex,erloschen,0,0,Anatidae
2,Gänsesäger,Mergus merganser,I ex,erloschen,0,0,Anatidae
3,Rebhuhn,Perdix perdix,I ex,"erloschen, zuletzt: 1996",0,1,Phasianidae
4,Birkhuhn,Tetrao terix,I ex,erloschen,0,0,Phasianidae
5,Schwarzstorch,Ciconia nigra,I ex,erloschen,0,0,Ciconiidae
6,Fischadler,Pandion haliaetus,I ex,erloschen,0,0,Pandionidae
7,Schreiadler,Aquila pomarina,I ex,erloschen,0,0,Accipitridae
8,Kornweihe,Circus cyaneus,I ex,erloschen,0,0,Accipitridae
9,Wiesenweihe,Circus pygargus,I ex,erloschen,0,0,Accipitridae


In [283]:
# renaming columns
df.rename({
    "Common_name": "Deutscher_Name",
    "Status": "BE"
}, 
    axis='columns',
    inplace = True
)
df

Unnamed: 0,Deutscher_Name,Species,BE,BP_Rev,BE2013,BE2003,Family
0,Löffelente,Anas clypeata,I ex,"0 – 1, 2012: 1 BP",0,1,Anatidae
1,Moorente,Aythya nyroca,I ex,erloschen,0,0,Anatidae
2,Gänsesäger,Mergus merganser,I ex,erloschen,0,0,Anatidae
3,Rebhuhn,Perdix perdix,I ex,"erloschen, zuletzt: 1996",0,1,Phasianidae
4,Birkhuhn,Tetrao terix,I ex,erloschen,0,0,Phasianidae
5,Schwarzstorch,Ciconia nigra,I ex,erloschen,0,0,Ciconiidae
6,Fischadler,Pandion haliaetus,I ex,erloschen,0,0,Pandionidae
7,Schreiadler,Aquila pomarina,I ex,erloschen,0,0,Accipitridae
8,Kornweihe,Circus cyaneus,I ex,erloschen,0,0,Accipitridae
9,Wiesenweihe,Circus pygargus,I ex,erloschen,0,0,Accipitridae


In [284]:
# Add common names
#df["Deutscher_Name"] = ""
# Add reference column
df["Reference"] = "Rote Liste und Liste der Brutvögel (Aves) von Berlin"
# Adding Letzter_Nachweis column
df["Letzter_Nachweis"] = ""
df.head()

Unnamed: 0,Deutscher_Name,Species,BE,BP_Rev,BE2013,BE2003,Family,Reference,Letzter_Nachweis
0,Löffelente,Anas clypeata,I ex,"0 – 1, 2012: 1 BP",0,1,Anatidae,Rote Liste und Liste der Brutvögel (Aves) von ...,
1,Moorente,Aythya nyroca,I ex,erloschen,0,0,Anatidae,Rote Liste und Liste der Brutvögel (Aves) von ...,
2,Gänsesäger,Mergus merganser,I ex,erloschen,0,0,Anatidae,Rote Liste und Liste der Brutvögel (Aves) von ...,
3,Rebhuhn,Perdix perdix,I ex,"erloschen, zuletzt: 1996",0,1,Phasianidae,Rote Liste und Liste der Brutvögel (Aves) von ...,
4,Birkhuhn,Tetrao terix,I ex,erloschen,0,0,Phasianidae,Rote Liste und Liste der Brutvögel (Aves) von ...,


In [285]:
# Rearranging the dataframe for uniformity
df = df[["Species",
         "Family", 
         "BE", 
         "Letzter_Nachweis",
         "Deutscher_Name", 
         "Reference"]]
df.head(10)

Unnamed: 0,Species,Family,BE,Letzter_Nachweis,Deutscher_Name,Reference
0,Anas clypeata,Anatidae,I ex,,Löffelente,Rote Liste und Liste der Brutvögel (Aves) von ...
1,Aythya nyroca,Anatidae,I ex,,Moorente,Rote Liste und Liste der Brutvögel (Aves) von ...
2,Mergus merganser,Anatidae,I ex,,Gänsesäger,Rote Liste und Liste der Brutvögel (Aves) von ...
3,Perdix perdix,Phasianidae,I ex,,Rebhuhn,Rote Liste und Liste der Brutvögel (Aves) von ...
4,Tetrao terix,Phasianidae,I ex,,Birkhuhn,Rote Liste und Liste der Brutvögel (Aves) von ...
5,Ciconia nigra,Ciconiidae,I ex,,Schwarzstorch,Rote Liste und Liste der Brutvögel (Aves) von ...
6,Pandion haliaetus,Pandionidae,I ex,,Fischadler,Rote Liste und Liste der Brutvögel (Aves) von ...
7,Aquila pomarina,Accipitridae,I ex,,Schreiadler,Rote Liste und Liste der Brutvögel (Aves) von ...
8,Circus cyaneus,Accipitridae,I ex,,Kornweihe,Rote Liste und Liste der Brutvögel (Aves) von ...
9,Circus pygargus,Accipitridae,I ex,,Wiesenweihe,Rote Liste und Liste der Brutvögel (Aves) von ...


In [286]:
# Replace | ex with 0
df["BE"] = 0
df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["BE"] = 0


Unnamed: 0,Species,Family,BE,Letzter_Nachweis,Deutscher_Name,Reference
0,Anas clypeata,Anatidae,0,,Löffelente,Rote Liste und Liste der Brutvögel (Aves) von ...
1,Aythya nyroca,Anatidae,0,,Moorente,Rote Liste und Liste der Brutvögel (Aves) von ...
2,Mergus merganser,Anatidae,0,,Gänsesäger,Rote Liste und Liste der Brutvögel (Aves) von ...
3,Perdix perdix,Phasianidae,0,,Rebhuhn,Rote Liste und Liste der Brutvögel (Aves) von ...
4,Tetrao terix,Phasianidae,0,,Birkhuhn,Rote Liste und Liste der Brutvögel (Aves) von ...
5,Ciconia nigra,Ciconiidae,0,,Schwarzstorch,Rote Liste und Liste der Brutvögel (Aves) von ...
6,Pandion haliaetus,Pandionidae,0,,Fischadler,Rote Liste und Liste der Brutvögel (Aves) von ...
7,Aquila pomarina,Accipitridae,0,,Schreiadler,Rote Liste und Liste der Brutvögel (Aves) von ...
8,Circus cyaneus,Accipitridae,0,,Kornweihe,Rote Liste und Liste der Brutvögel (Aves) von ...
9,Circus pygargus,Accipitridae,0,,Wiesenweihe,Rote Liste und Liste der Brutvögel (Aves) von ...


In [287]:
# Saving the extracted csv to the "Data_cleaning_step1" directory
# export the dataframe as CSV

df.to_csv('../../Transformation/Data_cleaning_step1/26_Aves.csv', 
          index=False)

# 27: Mammalia.csv : Mammalia

In [288]:
# Read file into dataframe

df = pd.read_csv('Mammalia.csv')
df.head(10)

Unnamed: 0,Common_name,Species,BE,BB,DE,GS,Vorzugshabitate,Gefährdungsursachen
0,Mopsfledermaus,Barbastella barbastellus \n(SCHREBER),0,1,1,"§§, II W, O",,"2c, 9, 14h"
1,Hamster,Cricetus cricetus (LINNAEUS),0,1,2,§§,L,"1a, 6"
2,Hausratte,Rattus rattus (LINNAEUS),0,2,-,,O,"2c, 4d"
3,Rothirsch*,Cervus elaphus LINNAEUS*,0,-,,,W,"4d, 14b"


In [289]:
# Removing columns "Bestand","Trend_lang","Trend_kurz", "RF", "BB", "D", "GS", "GfU"
df.drop(columns = ["BB",
                   "DE",
                   "GS",
                   "Vorzugshabitate",
                   "Gefährdungsursachen"
                  ], inplace = True)
df.head()

Unnamed: 0,Common_name,Species,BE
0,Mopsfledermaus,Barbastella barbastellus \n(SCHREBER),0
1,Hamster,Cricetus cricetus (LINNAEUS),0
2,Hausratte,Rattus rattus (LINNAEUS),0
3,Rothirsch*,Cervus elaphus LINNAEUS*,0


In [290]:
# Editing species column based on binomial nomenclature

df1 = df.Species.str.split(pat=" ", n = 3, expand = True)
df.Species = df1[0].str.cat(df1[1], sep = " ")
df.head(10)

Unnamed: 0,Common_name,Species,BE
0,Mopsfledermaus,Barbastella barbastellus,0
1,Hamster,Cricetus cricetus,0
2,Hausratte,Rattus rattus,0
3,Rothirsch*,Cervus elaphus,0


In [291]:
# Creating a dictionary and extracting GBIF data
d = {}

for i in df.Species:     
   d[i] = species.name_backbone(name=str(i), kingdom='animals')
print("Complete")

Complete


In [292]:
gbif_data = pd.DataFrame.from_dict(d, orient = "index")
gbif_data.reset_index(inplace = True)
gbif_data.columns
df["Family"] = gbif_data["family"]
df

Unnamed: 0,Common_name,Species,BE,Family
0,Mopsfledermaus,Barbastella barbastellus,0,Vespertilionidae
1,Hamster,Cricetus cricetus,0,Cricetidae
2,Hausratte,Rattus rattus,0,Muridae
3,Rothirsch*,Cervus elaphus,0,Cervidae


In [293]:
# renaming columns
df.rename({
    "Common_name": "Deutscher_Name"
}, 
    axis='columns',
    inplace = True
)
df

Unnamed: 0,Deutscher_Name,Species,BE,Family
0,Mopsfledermaus,Barbastella barbastellus,0,Vespertilionidae
1,Hamster,Cricetus cricetus,0,Cricetidae
2,Hausratte,Rattus rattus,0,Muridae
3,Rothirsch*,Cervus elaphus,0,Cervidae


In [294]:
# Add common names
#df["Deutscher_Name"] = ""
# Add reference column
df["Reference"] = "Rote Liste und Gesamtartenliste der Säugetiere (Mammalia) von Berlin"
# Adding Letzter_Nachweis column
df["Letzter_Nachweis"] = ""
df.head()

Unnamed: 0,Deutscher_Name,Species,BE,Family,Reference,Letzter_Nachweis
0,Mopsfledermaus,Barbastella barbastellus,0,Vespertilionidae,Rote Liste und Gesamtartenliste der Säugetiere...,
1,Hamster,Cricetus cricetus,0,Cricetidae,Rote Liste und Gesamtartenliste der Säugetiere...,
2,Hausratte,Rattus rattus,0,Muridae,Rote Liste und Gesamtartenliste der Säugetiere...,
3,Rothirsch*,Cervus elaphus,0,Cervidae,Rote Liste und Gesamtartenliste der Säugetiere...,


In [295]:
# Remove the stars from Deutscher_Name

df1 = df.Deutscher_Name.str.split(pat="*", n = 1, expand = True)
df.Deutscher_Name = df1[0]
#df.head(10)
df

Unnamed: 0,Deutscher_Name,Species,BE,Family,Reference,Letzter_Nachweis
0,Mopsfledermaus,Barbastella barbastellus,0,Vespertilionidae,Rote Liste und Gesamtartenliste der Säugetiere...,
1,Hamster,Cricetus cricetus,0,Cricetidae,Rote Liste und Gesamtartenliste der Säugetiere...,
2,Hausratte,Rattus rattus,0,Muridae,Rote Liste und Gesamtartenliste der Säugetiere...,
3,Rothirsch,Cervus elaphus,0,Cervidae,Rote Liste und Gesamtartenliste der Säugetiere...,


In [296]:
# Rearranging the dataframe for uniformity
df = df[["Species",
         "Family", 
         "BE", 
         "Letzter_Nachweis",
         "Deutscher_Name", 
         "Reference"]]
df.head(10)

Unnamed: 0,Species,Family,BE,Letzter_Nachweis,Deutscher_Name,Reference
0,Barbastella barbastellus,Vespertilionidae,0,,Mopsfledermaus,Rote Liste und Gesamtartenliste der Säugetiere...
1,Cricetus cricetus,Cricetidae,0,,Hamster,Rote Liste und Gesamtartenliste der Säugetiere...
2,Rattus rattus,Muridae,0,,Hausratte,Rote Liste und Gesamtartenliste der Säugetiere...
3,Cervus elaphus,Cervidae,0,,Rothirsch,Rote Liste und Gesamtartenliste der Säugetiere...


In [297]:
# Saving the extracted csv to the "Data_cleaning_step1" directory
# export the dataframe as CSV

df.to_csv('../../Transformation/Data_cleaning_step1/27_Mammalia.csv', 
          index=False)

# 28: Vascular_plants.csv : Vascular Plants

In [154]:
# Read file into dataframe

df = pd.read_csv('Vascular_plants.csv')
df.head(10)

Unnamed: 0,Species,BE,Bestand,Trend_lang,Trend_kurz,RF,BB,D,EU,GS,V,Zielart_2008,Zielart_2017,V.1,Letzter Nachweis,Common_name
0,Achillea salicifolia *,0,ex,,,,G,,,,,,!!,,1999,Weidenblatt-Schafgarbe
1,Agrostemma githago *,0,ex,,,,1,1.0,,,,,,,1989,Korn-Rade
2,Alchemilla plicata *,0,ex,,,,1,2.0,,,,,!!,,1990,Gefalteter Frauenmantel
3,Alchemilla vulgaris s. str.,0,ex,,,,1,,,,,,,,1969,Spitzlappiger Frauenmantel
4,Alisma gramineum,0,ex,,,,2,,3.0,,,,,,1950,Grasblättriger Froschlöffel
5,Allium lusitanicum,0,ex,,,,1,,,§,,,,,1859,Berg-Lauch
6,Alopecurus myosuroides *,0,ex,,,,,,,,,,,,1968,Acker-Fuchsschwanz
7,Althaea officinalis *,0,ex,,,,1,3.0,,§,,,,N,1859,Echter Eibisch
8,Ammophila arenaria *,0,ex,,,,,,,,,,,N,1859,Gemeiner Strandhafer
9,Anagallis minima,0,ex,,,,,3.0,,,,,,,1985,Acker-Kleinling


In [155]:
# Removing columns "Bestand","Trend_lang","Trend_kurz", "RF", "BB", "D", "GS", "GfU"
df.drop(columns = ["Bestand",
                   "Trend_lang",
                   "Trend_kurz",
                   "RF",
                   "BB",
                   "D",
                   "EU",
                   "GS", 
                   "V",
                   "Zielart_2008",
                   "Zielart_2017",
                   "V.1"
                  ], inplace = True)
df.head()

Unnamed: 0,Species,BE,Letzter Nachweis,Common_name
0,Achillea salicifolia *,0,1999,Weidenblatt-Schafgarbe
1,Agrostemma githago *,0,1989,Korn-Rade
2,Alchemilla plicata *,0,1990,Gefalteter Frauenmantel
3,Alchemilla vulgaris s. str.,0,1969,Spitzlappiger Frauenmantel
4,Alisma gramineum,0,1950,Grasblättriger Froschlöffel


In [156]:
# Removing * from Species names
df1 = df.Species.str.split(pat="*", n = 1, expand = True)
df.Species = df1[0]
df

Unnamed: 0,Species,BE,Letzter Nachweis,Common_name
0,Achillea salicifolia,0,1999,Weidenblatt-Schafgarbe
1,Agrostemma githago,0,1989,Korn-Rade
2,Alchemilla plicata,0,1990,Gefalteter Frauenmantel
3,Alchemilla vulgaris s. str.,0,1969,Spitzlappiger Frauenmantel
4,Alisma gramineum,0,1950,Grasblättriger Froschlöffel
...,...,...,...,...
261,Veronica opaca,0,1881,Glanzloser Ehrenpreis
262,Veronica teucrium,0,1881,Großer Ehrenpreis
263,Viola stagnina,0,1984,Gräben-Veilchen
264,Vulpia bromoides,0,1992,Trespen-Federschwingel


In [157]:
# Editing species column based on binomial nomenclature

#df1 = df.Species.str.split(pat=" ", n = 3, expand = True)
#df.Species = df1[0].str.cat(df1[1], sep = " ")
#df.head(10)

In [158]:
df["Species"] = df["Species"].str.replace("\n", '')

df[df["Species"].str.contains("\n")]

Unnamed: 0,Species,BE,Letzter Nachweis,Common_name


In [159]:
df[df["Common_name"].str.contains("\n")]

Unnamed: 0,Species,BE,Letzter Nachweis,Common_name
14,Aphanes australis,0,1985,Südlicher \nAckerfrauenmantel
31,Campanula trachelium,0,1856,Nesselblättrige \nGlockenblume
54,Centaurium littorale subsp. compressum,0,1981,Binnenländisches Strand-\nTausendgüldenkraut
85,Erigeron muralis,0,1901,Gedrehtblättriges \nBerufkraut
91,Festuca heterophylla,0,1864,Verschiedenblättriger \nSchwingel
104,Geranium dissectum,0,2007,Schlitzblättriger \nStorchschnabel
117,Hieracium calodon subsp. tenuiceps,0,1922,Schönhaariges \nHabichtskraut
120,Hieracium levicaule,0,1922,Dünnstängeliges \nHabichtskraut
122,Hieracium maculatum subsp. cruentum,0,1991,"Geflecktes Habichtskraut, \nUnterart"
123,Hieracium maculatum subsp. divisum,0,1922,"Geflecktes Habichtskraut, \nUnterart"


In [160]:
df["Common_name"] = df["Common_name"].str.replace("\n", ' ')

df[df["Common_name"].str.contains("\n")]

Unnamed: 0,Species,BE,Letzter Nachweis,Common_name


In [161]:
df

Unnamed: 0,Species,BE,Letzter Nachweis,Common_name
0,Achillea salicifolia,0,1999,Weidenblatt-Schafgarbe
1,Agrostemma githago,0,1989,Korn-Rade
2,Alchemilla plicata,0,1990,Gefalteter Frauenmantel
3,Alchemilla vulgaris s. str.,0,1969,Spitzlappiger Frauenmantel
4,Alisma gramineum,0,1950,Grasblättriger Froschlöffel
...,...,...,...,...
261,Veronica opaca,0,1881,Glanzloser Ehrenpreis
262,Veronica teucrium,0,1881,Großer Ehrenpreis
263,Viola stagnina,0,1984,Gräben-Veilchen
264,Vulpia bromoides,0,1992,Trespen-Federschwingel


In [162]:
# Creating a dictionary and extracting GBIF data
d = {}

for i in df.Species:     
   d[i] = species.name_backbone(name=str(i), kingdom='plants')
print("Complete")

Complete


In [163]:
gbif_data = pd.DataFrame.from_dict(d, orient = "index")
gbif_data.reset_index(inplace = True)
gbif_data.columns
df["Family"] = gbif_data["family"]
df

Unnamed: 0,Species,BE,Letzter Nachweis,Common_name,Family
0,Achillea salicifolia,0,1999,Weidenblatt-Schafgarbe,Asteraceae
1,Agrostemma githago,0,1989,Korn-Rade,Caryophyllaceae
2,Alchemilla plicata,0,1990,Gefalteter Frauenmantel,Rosaceae
3,Alchemilla vulgaris s. str.,0,1969,Spitzlappiger Frauenmantel,Rosaceae
4,Alisma gramineum,0,1950,Grasblättriger Froschlöffel,Alismataceae
...,...,...,...,...,...
261,Veronica opaca,0,1881,Glanzloser Ehrenpreis,
262,Veronica teucrium,0,1881,Großer Ehrenpreis,
263,Viola stagnina,0,1984,Gräben-Veilchen,
264,Vulpia bromoides,0,1992,Trespen-Federschwingel,


In [164]:
df.loc[df.Family.isna()]

Unnamed: 0,Species,BE,Letzter Nachweis,Common_name,Family
251,Trifolium montanum,0,2004,Berg-Klee,
252,Triglochin maritima,0,1962,Strand-Dreizack,
253,Trollius europaeus,0,1978,Trollblume,
254,Utricularia intermedia,0,1989,Mittlerer Wasserschlauch,
255,Vaccinium × intermedium (V. myrtillus × vitis...,0,2004,Bastard-Heidelbeere,
256,Vaccinium macrocarpon,0,1992,Großfrüchtige Moosbeere,
257,Valeriana excelsa subsp. sambucifolia,0,1974,Holunderblättriger Kriech- Baldrian,
258,Valerianella carinata,0,2005,Gekieltes Rapünzchen,
259,Valerianella dentata,0,1965,Gezähntes Rapünzchen,
260,Valerianella rimosa,0,1900,Gefurchtes Rapünzchen,


In [165]:
missing = {}

for i in df.loc[df["Family"].isna()].Species:     
   missing[i] = species.name_backbone(name=str(i), kingdom='plants')
print("Complete")

Complete


In [166]:
gbif_data_missing = pd.DataFrame.from_dict(missing, orient = "index")
gbif_data_missing.reset_index(inplace = True)
gbif_data_missing.columns

Index(['index', 'usageKey', 'scientificName', 'canonicalName', 'rank',
       'status', 'confidence', 'matchType', 'kingdom', 'phylum', 'order',
       'family', 'genus', 'species', 'kingdomKey', 'phylumKey', 'classKey',
       'orderKey', 'familyKey', 'genusKey', 'speciesKey', 'synonym', 'class',
       'acceptedUsageKey'],
      dtype='object')

In [167]:
gbif_data_missing["family"]

0             Fabaceae
1        Juncaginaceae
2        Ranunculaceae
3     Lentibulariaceae
4            Ericaceae
5       Caprifoliaceae
6       Caprifoliaceae
7       Caprifoliaceae
8       Caprifoliaceae
9       Plantaginaceae
10      Plantaginaceae
11           Violaceae
12             Poaceae
13          Asteraceae
14                 NaN
Name: family, dtype: object

In [168]:
i = 251
j = 0;
while i < 266:
    df.at[i, "Family"] = gbif_data_missing["family"][j]
    i = i + 1
    j = j + 1
print("complete")
df.tail(7)

complete


Unnamed: 0,Species,BE,Letzter Nachweis,Common_name,Family
259,Valerianella dentata,0,1965,Gezähntes Rapünzchen,Caprifoliaceae
260,Valerianella rimosa,0,1900,Gefurchtes Rapünzchen,Plantaginaceae
261,Veronica opaca,0,1881,Glanzloser Ehrenpreis,Plantaginaceae
262,Veronica teucrium,0,1881,Großer Ehrenpreis,Violaceae
263,Viola stagnina,0,1984,Gräben-Veilchen,Poaceae
264,Vulpia bromoides,0,1992,Trespen-Federschwingel,Asteraceae
265,Xanthium strumarium,0,1986,Gemeine Spitzklette,


In [169]:
df.tail(5)

Unnamed: 0,Species,BE,Letzter Nachweis,Common_name,Family
261,Veronica opaca,0,1881,Glanzloser Ehrenpreis,Plantaginaceae
262,Veronica teucrium,0,1881,Großer Ehrenpreis,Violaceae
263,Viola stagnina,0,1984,Gräben-Veilchen,Poaceae
264,Vulpia bromoides,0,1992,Trespen-Federschwingel,Asteraceae
265,Xanthium strumarium,0,1986,Gemeine Spitzklette,


In [170]:
df.Family.isna().sum()

1

In [171]:
# Third parsing

missing_1 = {}

for i in df.loc[df["Family"].isna()].Species:     
   missing_1[i] = species.name_backbone(name=str(i), kingdom='plants')
print("Complete")

Complete


In [172]:
gbif_data_missing_1 = pd.DataFrame.from_dict(missing_1, orient = "index")
gbif_data_missing_1.reset_index(inplace = True)
gbif_data_missing_1.columns

Index(['index', 'usageKey', 'scientificName', 'canonicalName', 'rank',
       'status', 'confidence', 'matchType', 'kingdom', 'phylum', 'order',
       'family', 'genus', 'species', 'kingdomKey', 'phylumKey', 'classKey',
       'orderKey', 'familyKey', 'genusKey', 'speciesKey', 'synonym', 'class'],
      dtype='object')

In [173]:
gbif_data_missing_1["family"]

0    Asteraceae
Name: family, dtype: object

In [174]:

df.at[265, "Family"] = gbif_data_missing_1["family"][0]
print("complete")
df.tail(7)

complete


Unnamed: 0,Species,BE,Letzter Nachweis,Common_name,Family
259,Valerianella dentata,0,1965,Gezähntes Rapünzchen,Caprifoliaceae
260,Valerianella rimosa,0,1900,Gefurchtes Rapünzchen,Plantaginaceae
261,Veronica opaca,0,1881,Glanzloser Ehrenpreis,Plantaginaceae
262,Veronica teucrium,0,1881,Großer Ehrenpreis,Violaceae
263,Viola stagnina,0,1984,Gräben-Veilchen,Poaceae
264,Vulpia bromoides,0,1992,Trespen-Federschwingel,Asteraceae
265,Xanthium strumarium,0,1986,Gemeine Spitzklette,Asteraceae


In [175]:
df.Family.isna().sum()

0

In [176]:
# renaming columns
df.rename({
    "Common_name": "Deutscher_Name",
    "Letzter Nachweis": "Letzter_Nachweis"
}, 
    axis='columns',
    inplace = True
)
df

Unnamed: 0,Species,BE,Letzter_Nachweis,Deutscher_Name,Family
0,Achillea salicifolia,0,1999,Weidenblatt-Schafgarbe,Asteraceae
1,Agrostemma githago,0,1989,Korn-Rade,Caryophyllaceae
2,Alchemilla plicata,0,1990,Gefalteter Frauenmantel,Rosaceae
3,Alchemilla vulgaris s. str.,0,1969,Spitzlappiger Frauenmantel,Rosaceae
4,Alisma gramineum,0,1950,Grasblättriger Froschlöffel,Alismataceae
...,...,...,...,...,...
261,Veronica opaca,0,1881,Glanzloser Ehrenpreis,Plantaginaceae
262,Veronica teucrium,0,1881,Großer Ehrenpreis,Violaceae
263,Viola stagnina,0,1984,Gräben-Veilchen,Poaceae
264,Vulpia bromoides,0,1992,Trespen-Federschwingel,Asteraceae


In [177]:
# Add common names
#df["Deutscher_Name"] = ""
# Add reference column
df["Reference"] = "Rote Liste und Gesamtartenliste der etablierten Farn- und Blütenpflanzen von Berlin"
# Adding Letzter_Nachweis column
#df["Letzter_Nachweis"] = ""
df.head()

Unnamed: 0,Species,BE,Letzter_Nachweis,Deutscher_Name,Family,Reference
0,Achillea salicifolia,0,1999,Weidenblatt-Schafgarbe,Asteraceae,Rote Liste und Gesamtartenliste der etablierte...
1,Agrostemma githago,0,1989,Korn-Rade,Caryophyllaceae,Rote Liste und Gesamtartenliste der etablierte...
2,Alchemilla plicata,0,1990,Gefalteter Frauenmantel,Rosaceae,Rote Liste und Gesamtartenliste der etablierte...
3,Alchemilla vulgaris s. str.,0,1969,Spitzlappiger Frauenmantel,Rosaceae,Rote Liste und Gesamtartenliste der etablierte...
4,Alisma gramineum,0,1950,Grasblättriger Froschlöffel,Alismataceae,Rote Liste und Gesamtartenliste der etablierte...


In [179]:
# Rearranging the dataframe for uniformity
df = df[["Species",
         "Family", 
         "BE", 
         "Letzter_Nachweis",
         "Deutscher_Name", 
         "Reference"]]
df.head(10)

Unnamed: 0,Species,Family,BE,Letzter_Nachweis,Deutscher_Name,Reference
0,Achillea salicifolia,Asteraceae,0,1999,Weidenblatt-Schafgarbe,Rote Liste und Gesamtartenliste der etablierte...
1,Agrostemma githago,Caryophyllaceae,0,1989,Korn-Rade,Rote Liste und Gesamtartenliste der etablierte...
2,Alchemilla plicata,Rosaceae,0,1990,Gefalteter Frauenmantel,Rote Liste und Gesamtartenliste der etablierte...
3,Alchemilla vulgaris s. str.,Rosaceae,0,1969,Spitzlappiger Frauenmantel,Rote Liste und Gesamtartenliste der etablierte...
4,Alisma gramineum,Alismataceae,0,1950,Grasblättriger Froschlöffel,Rote Liste und Gesamtartenliste der etablierte...
5,Allium lusitanicum,Amaryllidaceae,0,1859,Berg-Lauch,Rote Liste und Gesamtartenliste der etablierte...
6,Alopecurus myosuroides,Poaceae,0,1968,Acker-Fuchsschwanz,Rote Liste und Gesamtartenliste der etablierte...
7,Althaea officinalis,Malvaceae,0,1859,Echter Eibisch,Rote Liste und Gesamtartenliste der etablierte...
8,Ammophila arenaria,Poaceae,0,1859,Gemeiner Strandhafer,Rote Liste und Gesamtartenliste der etablierte...
9,Anagallis minima,Primulaceae,0,1985,Acker-Kleinling,Rote Liste und Gesamtartenliste der etablierte...


In [180]:
# Saving the extracted csv to the "Data_cleaning_step1" directory
# export the dataframe as CSV

df.to_csv('../../Transformation/Data_cleaning_step1/28_Vascular_plants.csv', 
          index=False)

# 29: Bryophyta.csv : Bryophyta

In [313]:
# Read file into dataframe

df = pd.read_csv('Bryophyta.csv')
df.head()

Unnamed: 0,Species,BE,Bestand,Trend_lang,Trend_kurz,RF,BB,D,GS,GfU,Vorzugs_habitat,Letzter_Nachweis
0,Amblyodon dealbatus (HEDWIG) BRUCH & SCHIMPER,0,ex,,,,0,2,,"2d, 11",MM,vor 1900
1,Amblystegium subtile (HEDWIG) SCHIMPER,0,ex,,,,1,3,,11,"WC, WQ",vor 1900
2,Anomodon attenuatus (HEDWIG) HUEBENER,0,ex,,,,R,V,,11,W,um 1925
3,Atrichum angustatum (BRIDEL) BRUCH & SCHIMPER,0,ex,,,,R,3,,6e,LAL,vor 1900
4,Atrichum tenellum (RÖHLING) BRUCH & SCHIMPER,0,ex,,,,2,G,,2a,SW,vor 1900


In [314]:
# Removing columns "Bestand","Trend_lang","Trend_kurz", "RF", "BB", "D", "GS", "GfU"
df.drop(columns = ["Bestand",
                   "Trend_lang",
                   "Trend_kurz",
                   "RF",
                   "BB",
                   "D",
                   "GS",
                   "GfU", 
                   "Vorzugs_habitat"
                  ], inplace = True)
df.head()

Unnamed: 0,Species,BE,Letzter_Nachweis
0,Amblyodon dealbatus (HEDWIG) BRUCH & SCHIMPER,0,vor 1900
1,Amblystegium subtile (HEDWIG) SCHIMPER,0,vor 1900
2,Anomodon attenuatus (HEDWIG) HUEBENER,0,um 1925
3,Atrichum angustatum (BRIDEL) BRUCH & SCHIMPER,0,vor 1900
4,Atrichum tenellum (RÖHLING) BRUCH & SCHIMPER,0,vor 1900


In [315]:
# Editing species column based on binomial nomenclature

df1 = df.Species.str.split(pat=" ", n = 3, expand = True)
df.Species = df1[0].str.cat(df1[1], sep = " ")
df.head(10)

Unnamed: 0,Species,BE,Letzter_Nachweis
0,Amblyodon dealbatus,0,vor 1900
1,Amblystegium subtile,0,vor 1900
2,Anomodon attenuatus,0,um 1925
3,Atrichum angustatum,0,vor 1900
4,Atrichum tenellum,0,vor 1900
5,Barbilophozia kunzeana,0,um 1925
6,Bartramia ithyphylla,0,1948
7,Bazzania trilobata,0,1965
8,Blepharostoma trichophyllum,0,vor 1900
9,Brachythecium glareosum,0,um 1900


In [316]:
# Creating a dictionary and extracting GBIF data
d = {}

for i in df.Species:     
   d[i] = species.name_backbone(name=str(i), kingdom='plantae')
print("Complete")

Complete


In [317]:
gbif_data = pd.DataFrame.from_dict(d, orient = "index")
gbif_data.reset_index(inplace = True)
gbif_data.columns
df["Family"] = gbif_data["family"]
df

Unnamed: 0,Species,BE,Letzter_Nachweis,Family
0,Amblyodon dealbatus,0,vor 1900,Meesiaceae
1,Amblystegium subtile,0,vor 1900,Amblystegiaceae
2,Anomodon attenuatus,0,um 1925,Thuidiaceae
3,Atrichum angustatum,0,vor 1900,Polytrichaceae
4,Atrichum tenellum,0,vor 1900,Polytrichaceae
...,...,...,...,...
95,Tortula laevipila,0,vor 1900,Pottiaceae
96,Trematodon ambiguus,0,vor 1900,Bruchiaceae
97,Tritomaria exsectiformis,0,um 1900,Lophoziaceae
98,Warnstorfia exannulata,0,1956,Amblystegiaceae


In [318]:
# Add common names
df["Deutscher_Name"] = ""
# Add reference column
df["Reference"] = "Rote Liste und Gesamtartenliste der Moose (Bryophyta) von Berlin"
# Adding Letzter_Nachweis column
#df["Letzter_Nachweis"] = ""
df.head()

Unnamed: 0,Species,BE,Letzter_Nachweis,Family,Deutscher_Name,Reference
0,Amblyodon dealbatus,0,vor 1900,Meesiaceae,,Rote Liste und Gesamtartenliste der Moose (Bry...
1,Amblystegium subtile,0,vor 1900,Amblystegiaceae,,Rote Liste und Gesamtartenliste der Moose (Bry...
2,Anomodon attenuatus,0,um 1925,Thuidiaceae,,Rote Liste und Gesamtartenliste der Moose (Bry...
3,Atrichum angustatum,0,vor 1900,Polytrichaceae,,Rote Liste und Gesamtartenliste der Moose (Bry...
4,Atrichum tenellum,0,vor 1900,Polytrichaceae,,Rote Liste und Gesamtartenliste der Moose (Bry...


In [319]:
# Rearranging the dataframe for uniformity
df = df[["Species",
         "Family", 
         "BE", 
         "Letzter_Nachweis",
         "Deutscher_Name", 
         "Reference"]]
df.head(10)

Unnamed: 0,Species,Family,BE,Letzter_Nachweis,Deutscher_Name,Reference
0,Amblyodon dealbatus,Meesiaceae,0,vor 1900,,Rote Liste und Gesamtartenliste der Moose (Bry...
1,Amblystegium subtile,Amblystegiaceae,0,vor 1900,,Rote Liste und Gesamtartenliste der Moose (Bry...
2,Anomodon attenuatus,Thuidiaceae,0,um 1925,,Rote Liste und Gesamtartenliste der Moose (Bry...
3,Atrichum angustatum,Polytrichaceae,0,vor 1900,,Rote Liste und Gesamtartenliste der Moose (Bry...
4,Atrichum tenellum,Polytrichaceae,0,vor 1900,,Rote Liste und Gesamtartenliste der Moose (Bry...
5,Barbilophozia kunzeana,Anastrophyllaceae,0,um 1925,,Rote Liste und Gesamtartenliste der Moose (Bry...
6,Bartramia ithyphylla,Bartramiaceae,0,1948,,Rote Liste und Gesamtartenliste der Moose (Bry...
7,Bazzania trilobata,Lepidoziaceae,0,1965,,Rote Liste und Gesamtartenliste der Moose (Bry...
8,Blepharostoma trichophyllum,Blepharostomataceae,0,vor 1900,,Rote Liste und Gesamtartenliste der Moose (Bry...
9,Brachythecium glareosum,Brachytheciaceae,0,um 1900,,Rote Liste und Gesamtartenliste der Moose (Bry...


In [320]:
# Saving the extracted csv to the "Data_cleaning_step1" directory
# export the dataframe as CSV

df.to_csv('../../Transformation/Data_cleaning_step1/29_Bryophyta.csv', 
          index=False)

# 30: Lichens.csv : Lichens

In [51]:
# Read file into dataframe

df = pd.read_csv('Lichens.csv')
df.head(2)

Unnamed: 0,Species,BE,Bestand,Trend_lang,Trend_kurz,RF,BB,D,GS,GfU,Vorzugs_habitat,Ökologischer_Typ
0,Anaptychia ciliaris (L.) KÖRB.,0,ex,,,,1,2,,11d,,epi
1,Bacidia rosella (PERS.) DE NOT.,0,ex,,,,1,1,,11d,,"epi, neu"


In [52]:
# Removing columns "Bestand","Trend_lang","Trend_kurz", "RF", "BB", "D", "GS", "GfU"
df.drop(columns = ["Bestand",
                   "Trend_lang",
                   "Trend_kurz",
                   "RF",
                   "BB",
                   "D",
                   "GS",
                   "GfU", 
                   "Vorzugs_habitat",
                   "Ökologischer_Typ"
                  ], inplace = True)
df.head()

Unnamed: 0,Species,BE
0,Anaptychia ciliaris (L.) KÖRB.,0
1,Bacidia rosella (PERS.) DE NOT.,0
2,Bactrospora dryina (ACH.) A. MASSAL.,0
3,Baeomyces carneus FLÖRKE,0
4,Bryoria fuscescens (GYELN.) BRODO & D. HAWKSW.,0


In [53]:
df[df["Species"].str.contains("Tephromela atra")]

Unnamed: 0,Species,BE
53,Tephromela atra (HUDS.) HAFELLNER,0
54,Tephromela atra (HUDS.) HAFELLNER var. torulosa,0


In [54]:
# Editing species column based on binomial nomenclature

df1 = df.Species.str.split(pat=" ", n = 3, expand = True)
# For those with var
df2 = df.Species.str.split(pat=" ", n = 4, expand = True)
df.Species = df1[0].str.cat(df1[1], sep = " ")
df

Unnamed: 0,Species,BE
0,Anaptychia ciliaris,0
1,Bacidia rosella,0
2,Bactrospora dryina,0
3,Baeomyces carneus,0
4,Bryoria fuscescens,0
5,Caloplaca lobulata,0
6,Cetraria ericetorum,0
7,Cetraria islandica,0
8,Chaenotheca chlorella,0
9,Chaenotheca furfuracea,0


In [55]:
df2.iloc[[50,53,54]]

Unnamed: 0,0,1,2,3,4
50,Stereocaulon,PASCHALE,(L.),HOFFM.,
53,Tephromela,atra,(HUDS.),HAFELLNER,
54,Tephromela,atra,(HUDS.),HAFELLNER,var. torulosa


In [61]:
df.at[54,"Species"] = (df.iloc[54].Species + " " + df2.iloc[54][4])

In [62]:
df

Unnamed: 0,Species,BE
0,Anaptychia ciliaris,0
1,Bacidia rosella,0
2,Bactrospora dryina,0
3,Baeomyces carneus,0
4,Bryoria fuscescens,0
5,Caloplaca lobulata,0
6,Cetraria ericetorum,0
7,Cetraria islandica,0
8,Chaenotheca chlorella,0
9,Chaenotheca furfuracea,0


In [65]:
# Creating a dictionary and extracting GBIF data
d = {}

for i in df.Species:     
   d[i] = species.name_backbone(name=str(i), kingdom='fungi')
print("Complete")

Complete


In [66]:
gbif_data = pd.DataFrame.from_dict(d, orient = "index")
gbif_data.reset_index(inplace = True)
gbif_data.columns
df["Family"] = gbif_data["family"]
df

Unnamed: 0,Species,BE,Family
0,Anaptychia ciliaris,0,Physciaceae
1,Bacidia rosella,0,Ramalinaceae
2,Bactrospora dryina,0,Roccellaceae
3,Baeomyces carneus,0,Baeomycetaceae
4,Bryoria fuscescens,0,Parmeliaceae
5,Caloplaca lobulata,0,Teloschistaceae
6,Cetraria ericetorum,0,Parmeliaceae
7,Cetraria islandica,0,Parmeliaceae
8,Chaenotheca chlorella,0,Coniocybaceae
9,Chaenotheca furfuracea,0,Coniocybaceae


In [76]:
df.loc[df.Family.isna()]

Unnamed: 0,Species,BE,Family
50,Stereocaulon PASCHALE,0,


In [77]:
'''
missing = {}

for i in df.loc[df["Family"].isna()].Species:     
   missing[i] = species.name_backbone(name=str(i))
print("Complete")
'''

'\nmissing = {}\n\nfor i in df.loc[df["Family"].isna()].Species:     \n   missing[i] = species.name_backbone(name=str(i))\nprint("Complete")\n'

In [78]:
'''
gbif_data_missing = pd.DataFrame.from_dict(missing, orient = "index")
gbif_data_missing.reset_index(inplace = True)
gbif_data_missing.columns
'''

'\ngbif_data_missing = pd.DataFrame.from_dict(missing, orient = "index")\ngbif_data_missing.reset_index(inplace = True)\ngbif_data_missing.columns\n'

In [79]:
#gbif_data_missing["family"]

In [80]:
#gbif_data_missing

In [81]:
#df.at[58, "Family"] = gbif_data_missing["family"][1]

In [82]:
df.head()

Unnamed: 0,Species,BE,Family
0,Anaptychia ciliaris,0,Physciaceae
1,Bacidia rosella,0,Ramalinaceae
2,Bactrospora dryina,0,Roccellaceae
3,Baeomyces carneus,0,Baeomycetaceae
4,Bryoria fuscescens,0,Parmeliaceae


In [83]:
# Add common names
df["Deutscher_Name"] = ""
# Add reference column
df["Reference"] = "Rote Liste und Gesamtartenliste der Flechten (Lichenes) von Berlin"
# Adding Letzter_Nachweis column
df["Letzter_Nachweis"] = ""
df.head()

Unnamed: 0,Species,BE,Family,Deutscher_Name,Reference,Letzter_Nachweis
0,Anaptychia ciliaris,0,Physciaceae,,Rote Liste und Gesamtartenliste der Flechten (...,
1,Bacidia rosella,0,Ramalinaceae,,Rote Liste und Gesamtartenliste der Flechten (...,
2,Bactrospora dryina,0,Roccellaceae,,Rote Liste und Gesamtartenliste der Flechten (...,
3,Baeomyces carneus,0,Baeomycetaceae,,Rote Liste und Gesamtartenliste der Flechten (...,
4,Bryoria fuscescens,0,Parmeliaceae,,Rote Liste und Gesamtartenliste der Flechten (...,


In [84]:
# Rearranging the dataframe for uniformity
df = df[["Species",
         "Family", 
         "BE", 
         "Letzter_Nachweis",
         "Deutscher_Name", 
         "Reference"]]
df.head(10)

Unnamed: 0,Species,Family,BE,Letzter_Nachweis,Deutscher_Name,Reference
0,Anaptychia ciliaris,Physciaceae,0,,,Rote Liste und Gesamtartenliste der Flechten (...
1,Bacidia rosella,Ramalinaceae,0,,,Rote Liste und Gesamtartenliste der Flechten (...
2,Bactrospora dryina,Roccellaceae,0,,,Rote Liste und Gesamtartenliste der Flechten (...
3,Baeomyces carneus,Baeomycetaceae,0,,,Rote Liste und Gesamtartenliste der Flechten (...
4,Bryoria fuscescens,Parmeliaceae,0,,,Rote Liste und Gesamtartenliste der Flechten (...
5,Caloplaca lobulata,Teloschistaceae,0,,,Rote Liste und Gesamtartenliste der Flechten (...
6,Cetraria ericetorum,Parmeliaceae,0,,,Rote Liste und Gesamtartenliste der Flechten (...
7,Cetraria islandica,Parmeliaceae,0,,,Rote Liste und Gesamtartenliste der Flechten (...
8,Chaenotheca chlorella,Coniocybaceae,0,,,Rote Liste und Gesamtartenliste der Flechten (...
9,Chaenotheca furfuracea,Coniocybaceae,0,,,Rote Liste und Gesamtartenliste der Flechten (...


In [85]:
# Saving the extracted csv to the "Data_cleaning_step1" directory
# export the dataframe as CSV

df.to_csv('../../Transformation/Data_cleaning_step1/30_Lichens.csv', 
          index=False)

# 31: Fungi_lichenicolen : Fungi

In [336]:
# Read file into dataframe

df = pd.read_csv('Fungi_lichenicolen.csv')
df.head(10)

Unnamed: 0,Species,BE,Bestand,Trend_lang,Trend_kurz,RF,BB,D
0,Abrothallus parmeliarum (SOMMERF.) ARNOLD,0,ex,,,,0,*
1,Scutula miliaris (WALLR.) TREVISAN,0,ex,,,,0,1


In [337]:
# Removing columns "Bestand","Trend_lang","Trend_kurz", "RF", "BB", "D", "GS", "GfU"
df.drop(columns = ["Bestand",
                   "Trend_lang",
                   "Trend_kurz",
                   "RF",
                   "BB",
                   "D"
                  ], inplace = True)
df.head()

Unnamed: 0,Species,BE
0,Abrothallus parmeliarum (SOMMERF.) ARNOLD,0
1,Scutula miliaris (WALLR.) TREVISAN,0


In [338]:
# Editing species column based on binomial nomenclature

df1 = df.Species.str.split(pat=" ", n = 3, expand = True)
df.Species = df1[0].str.cat(df1[1], sep = " ")
df.head(10)

Unnamed: 0,Species,BE
0,Abrothallus parmeliarum,0
1,Scutula miliaris,0


In [339]:
# Creating a dictionary and extracting GBIF data
d = {}

for i in df.Species:     
   d[i] = species.name_backbone(name=str(i), kingdom='fungi')
print("Complete")

Complete


In [340]:
gbif_data = pd.DataFrame.from_dict(d, orient = "index")
gbif_data.reset_index(inplace = True)
gbif_data.columns
df["Family"] = gbif_data["family"]
df

Unnamed: 0,Species,BE,Family
0,Abrothallus parmeliarum,0,Abrothallaceae
1,Scutula miliaris,0,Pilocarpaceae


In [341]:
# Add common names
df["Deutscher_Name"] = ""
# Add reference column
df["Reference"] = "Rote Liste und Gesamtartenliste der flechtenbewohnenden (lichenicolen) Pilze von Berlin"
# Adding Letzter_Nachweis column
df["Letzter_Nachweis"] = ""
df.head()

Unnamed: 0,Species,BE,Family,Deutscher_Name,Reference,Letzter_Nachweis
0,Abrothallus parmeliarum,0,Abrothallaceae,,Rote Liste und Gesamtartenliste der flechtenbe...,
1,Scutula miliaris,0,Pilocarpaceae,,Rote Liste und Gesamtartenliste der flechtenbe...,


In [342]:
# Rearranging the dataframe for uniformity
df = df[["Species",
         "Family", 
         "BE", 
         "Letzter_Nachweis",
         "Deutscher_Name", 
         "Reference"]]
df.head(10)

Unnamed: 0,Species,Family,BE,Letzter_Nachweis,Deutscher_Name,Reference
0,Abrothallus parmeliarum,Abrothallaceae,0,,,Rote Liste und Gesamtartenliste der flechtenbe...
1,Scutula miliaris,Pilocarpaceae,0,,,Rote Liste und Gesamtartenliste der flechtenbe...


In [343]:
# Saving the extracted csv to the "Data_cleaning_step1" directory
# export the dataframe as CSV

df.to_csv('../../Transformation/Data_cleaning_step1/31_Fungi_lichenicolen.csv', 
          index=False)

# 32: Fungi_Ustilaginales.csv : Fungi

In [344]:
# Read file into dataframe

df = pd.read_csv('Fungi_Ustilaginales.csv')
df.head(10)

Unnamed: 0,Species,BE,Wirtsart,Anzahl_Fundorte_vor1945,Anzahl_Fundorte_1945_1990,Anzahl_Fundorte_1991_2001
0,Anthracoidea angulata (H. SYDOW) \nBOIDOL & POELT,0,Carex hirta,3,-,-
1,Anthracoidea caricis (PERSOON) \nBREFELD,0,Carex pilulifera,2,-,-
2,Anthracoidea caryophylleae KUKKO-\nNEN,0,Carex supina,5,-,-
3,Anthracoidea limosa (H. SYDOW) \nKUKKONEN,0,Carex limosa,1,-,-
4,Doassansia alismatis (NEES) CORNU,0,Alisma plantago-aquatica,4,-,-
5,Doassansia niesslii DE TONI,0,Butomus umbellatus (cult.),1,-,-
6,Doassansia sagittariae (FUCKEL) C. \nFISCH,0,Sagittaraia sagittifolia,5,-,-
7,Doassansiopsis hydrophila (A. DIET-\nRICH) LAVROV,0,Potamogeton natans,1,-,-
8,Entorrhiza aschersoniana (MAGNUS) \nLAGERHEIM,0,Juncus bufonius,3,-,-
9,Entorrhiza cypericola (MAGNUS) C. \nWEBER,0,Cyperus flavescens,3,-,-


In [345]:
# Removing columns "Bestand","Trend_lang","Trend_kurz", "RF", "BB", "D", "GS", "GfU"
df.drop(columns = ["Wirtsart"
                  ], inplace = True)
df.head()

Unnamed: 0,Species,BE,Anzahl_Fundorte_vor1945,Anzahl_Fundorte_1945_1990,Anzahl_Fundorte_1991_2001
0,Anthracoidea angulata (H. SYDOW) \nBOIDOL & POELT,0,3,-,-
1,Anthracoidea caricis (PERSOON) \nBREFELD,0,2,-,-
2,Anthracoidea caryophylleae KUKKO-\nNEN,0,5,-,-
3,Anthracoidea limosa (H. SYDOW) \nKUKKONEN,0,1,-,-
4,Doassansia alismatis (NEES) CORNU,0,4,-,-


In [346]:
# Editing species column based on binomial nomenclature

df1 = df.Species.str.split(pat=" ", n = 3, expand = True)
df.Species = df1[0].str.cat(df1[1], sep = " ")
df.head(10)

Unnamed: 0,Species,BE,Anzahl_Fundorte_vor1945,Anzahl_Fundorte_1945_1990,Anzahl_Fundorte_1991_2001
0,Anthracoidea angulata,0,3,-,-
1,Anthracoidea caricis,0,2,-,-
2,Anthracoidea caryophylleae,0,5,-,-
3,Anthracoidea limosa,0,1,-,-
4,Doassansia alismatis,0,4,-,-
5,Doassansia niesslii,0,1,-,-
6,Doassansia sagittariae,0,5,-,-
7,Doassansiopsis hydrophila,0,1,-,-
8,Entorrhiza aschersoniana,0,3,-,-
9,Entorrhiza cypericola,0,3,-,-


In [347]:
# Creating a dictionary and extracting GBIF data
d = {}

for i in df.Species:     
   d[i] = species.name_backbone(name=str(i), kingdom='fungi')
print("Complete")

Complete


In [348]:
gbif_data = pd.DataFrame.from_dict(d, orient = "index")
gbif_data.reset_index(inplace = True)
gbif_data.columns
df["Family"] = gbif_data["family"]
df

Unnamed: 0,Species,BE,Anzahl_Fundorte_vor1945,Anzahl_Fundorte_1945_1990,Anzahl_Fundorte_1991_2001,Family
0,Anthracoidea angulata,0,3,-,-,Anthracoideaceae
1,Anthracoidea caricis,0,2,-,-,Anthracoideaceae
2,Anthracoidea caryophylleae,0,5,-,-,Anthracoideaceae
3,Anthracoidea limosa,0,1,-,-,Anthracoideaceae
4,Doassansia alismatis,0,4,-,-,Doassansiaceae
5,Doassansia niesslii,0,1,-,-,Doassansiaceae
6,Doassansia sagittariae,0,5,-,-,Doassansiaceae
7,Doassansiopsis hydrophila,0,1,-,-,Doassansiopsidaceae
8,Entorrhiza aschersoniana,0,3,-,-,Entorrhizaceae
9,Entorrhiza cypericola,0,3,-,-,Entorrhizaceae


In [349]:
df.columns

Index(['Species', 'BE', 'Anzahl_Fundorte_vor1945', 'Anzahl_Fundorte_1945_1990',
       'Anzahl_Fundorte_1991_2001', 'Family'],
      dtype='object')

In [350]:
df.head()

Unnamed: 0,Species,BE,Anzahl_Fundorte_vor1945,Anzahl_Fundorte_1945_1990,Anzahl_Fundorte_1991_2001,Family
0,Anthracoidea angulata,0,3,-,-,Anthracoideaceae
1,Anthracoidea caricis,0,2,-,-,Anthracoideaceae
2,Anthracoidea caryophylleae,0,5,-,-,Anthracoideaceae
3,Anthracoidea limosa,0,1,-,-,Anthracoideaceae
4,Doassansia alismatis,0,4,-,-,Doassansiaceae


In [351]:
# Add common names
df["Deutscher_Name"] = ""
# Add reference column
df["Reference"] = "Rote Liste und Gesamtartenliste der Brandpilze (Ustilaginales) von Berlin"
# Adding Letzter_Nachweis column
df["Letzter_Nachweis"] = ""
df.head()

Unnamed: 0,Species,BE,Anzahl_Fundorte_vor1945,Anzahl_Fundorte_1945_1990,Anzahl_Fundorte_1991_2001,Family,Deutscher_Name,Reference,Letzter_Nachweis
0,Anthracoidea angulata,0,3,-,-,Anthracoideaceae,,Rote Liste und Gesamtartenliste der Brandpilze...,
1,Anthracoidea caricis,0,2,-,-,Anthracoideaceae,,Rote Liste und Gesamtartenliste der Brandpilze...,
2,Anthracoidea caryophylleae,0,5,-,-,Anthracoideaceae,,Rote Liste und Gesamtartenliste der Brandpilze...,
3,Anthracoidea limosa,0,1,-,-,Anthracoideaceae,,Rote Liste und Gesamtartenliste der Brandpilze...,
4,Doassansia alismatis,0,4,-,-,Doassansiaceae,,Rote Liste und Gesamtartenliste der Brandpilze...,


In [352]:
# Rearranging the dataframe for uniformity
df = df[["Species",
         "Family", 
         "BE", 
         "Letzter_Nachweis",
         "Deutscher_Name", 
         "Reference"]]
df.head(10)

Unnamed: 0,Species,Family,BE,Letzter_Nachweis,Deutscher_Name,Reference
0,Anthracoidea angulata,Anthracoideaceae,0,,,Rote Liste und Gesamtartenliste der Brandpilze...
1,Anthracoidea caricis,Anthracoideaceae,0,,,Rote Liste und Gesamtartenliste der Brandpilze...
2,Anthracoidea caryophylleae,Anthracoideaceae,0,,,Rote Liste und Gesamtartenliste der Brandpilze...
3,Anthracoidea limosa,Anthracoideaceae,0,,,Rote Liste und Gesamtartenliste der Brandpilze...
4,Doassansia alismatis,Doassansiaceae,0,,,Rote Liste und Gesamtartenliste der Brandpilze...
5,Doassansia niesslii,Doassansiaceae,0,,,Rote Liste und Gesamtartenliste der Brandpilze...
6,Doassansia sagittariae,Doassansiaceae,0,,,Rote Liste und Gesamtartenliste der Brandpilze...
7,Doassansiopsis hydrophila,Doassansiopsidaceae,0,,,Rote Liste und Gesamtartenliste der Brandpilze...
8,Entorrhiza aschersoniana,Entorrhizaceae,0,,,Rote Liste und Gesamtartenliste der Brandpilze...
9,Entorrhiza cypericola,Entorrhizaceae,0,,,Rote Liste und Gesamtartenliste der Brandpilze...


In [353]:
# Saving the extracted csv to the "Data_cleaning_step1" directory
# export the dataframe as CSV

df.to_csv('../../Transformation/Data_cleaning_step1/32_Fungi_Ustilaginales.csv', 
          index=False)

# 33: Algae_Phaeophyceae.csv : Algae

In [354]:
# Read file into dataframe

df = pd.read_csv('Algae_Phaeophyceae.csv')
df.head(10)

Unnamed: 0,Species,BE,Bestand,Trend_lang,Trend_kurz,RF,BB,D,GfU
0,Pleurocladia lacustris A. BRAUN,0,ex,,,,D,R,


In [355]:
# Removing columns "Bestand","Trend_lang","Trend_kurz", "RF", "BB", "D", "GS", "GfU"
df.drop(columns = ["Bestand",
                   "Trend_lang",
                   "Trend_kurz",
                   "RF",
                   "BB",
                   "D",
                   "GfU"
                  ], inplace = True)
df.head()

Unnamed: 0,Species,BE
0,Pleurocladia lacustris A. BRAUN,0


In [356]:
# Editing species column based on binomial nomenclature

df1 = df.Species.str.split(pat=" ", n = 3, expand = True)
df.Species = df1[0].str.cat(df1[1], sep = " ")
df.head(10)

Unnamed: 0,Species,BE
0,Pleurocladia lacustris,0


In [357]:
# Creating a dictionary and extracting GBIF data
d = {}

for i in df.Species:     
   d[i] = species.name_backbone(name=str(i), kingdom='algae')
print("Complete")

Complete


In [358]:
gbif_data = pd.DataFrame.from_dict(d, orient = "index")
gbif_data.reset_index(inplace = True)
gbif_data.columns
df["Family"] = gbif_data["family"]
df

Unnamed: 0,Species,BE,Family
0,Pleurocladia lacustris,0,Ectocarpaceae


In [359]:
# Add common names
df["Deutscher_Name"] = ""
# Add reference column
df["Reference"] = "Rote Liste und Gesamtartenliste der limnischen Rotalgen (Rhodophyta) und Braunalgen (Phaeophyceae) von Berlin"
# Adding Letzter_Nachweis column
df["Letzter_Nachweis"] = ""
df.head()

Unnamed: 0,Species,BE,Family,Deutscher_Name,Reference,Letzter_Nachweis
0,Pleurocladia lacustris,0,Ectocarpaceae,,Rote Liste und Gesamtartenliste der limnischen...,


In [360]:
# Rearranging the dataframe for uniformity
df = df[["Species",
         "Family", 
         "BE", 
         "Letzter_Nachweis",
         "Deutscher_Name", 
         "Reference"]]
df.head(10)

Unnamed: 0,Species,Family,BE,Letzter_Nachweis,Deutscher_Name,Reference
0,Pleurocladia lacustris,Ectocarpaceae,0,,,Rote Liste und Gesamtartenliste der limnischen...


In [361]:
# Saving the extracted csv to the "Data_cleaning_step1" directory
# export the dataframe as CSV

df.to_csv('../../Transformation/Data_cleaning_step1/33_Algae_Phaeophyceae.csv', 
          index=False)

# 34: Algae_ Characeae.csv : Algae

In [362]:
# Read file into dataframe

df = pd.read_csv('Algae_Characeae.csv')
df.head(10)

Unnamed: 0,Species,BE,Bestand,Trend_lang,Trend_kurz,RF,BB,D,GfU
0,Chara aspera WILLDENOW,0,ex,,,,2,3,
1,Chara baueri A BRAUN,0,ex,,,,1,2,
2,Chara papillosa KÜTZING,0,ex,,,,3,3,
3,Chara tenuispina A BRAUN,0,ex,,,,1,1,
4,Lychnothamnus barbatus (MEYEN) LEONHARDI,0,ex,,,,0,2,
5,Nitella capillaris (KROCKER) J GROVES & BULLO...,0,ex,,,,G,2,
6,Nitella confervacea (BRÉBISSON) A BRAUN,0,ex,,,,1,3,
7,Nitella gracilis (JE SMITH) C AGARDH,0,ex,,,,1,2,
8,Nitella opaca (C AGARDH ex BRUZELIUS) C AGARDH,0,ex,,,,G,3,
9,Nitella tenuissima (DESVAUX) KÜTZING,0,ex,,,,0,3,


In [363]:
# Removing columns "Bestand","Trend_lang","Trend_kurz", "RF", "BB", "D", "GS", "GfU"
df.drop(columns = ["Bestand",
                   "Trend_lang",
                   "Trend_kurz",
                   "RF",
                   "BB",
                   "D",
                   "GfU"
                  ], inplace = True)
df.head()

Unnamed: 0,Species,BE
0,Chara aspera WILLDENOW,0
1,Chara baueri A BRAUN,0
2,Chara papillosa KÜTZING,0
3,Chara tenuispina A BRAUN,0
4,Lychnothamnus barbatus (MEYEN) LEONHARDI,0


In [364]:
# Editing species column based on binomial nomenclature

df1 = df.Species.str.split(pat=" ", n = 3, expand = True)
df.Species = df1[0].str.cat(df1[1], sep = " ")
df.head(10)

Unnamed: 0,Species,BE
0,Chara aspera,0
1,Chara baueri,0
2,Chara papillosa,0
3,Chara tenuispina,0
4,Lychnothamnus barbatus,0
5,Nitella capillaris,0
6,Nitella confervacea,0
7,Nitella gracilis,0
8,Nitella opaca,0
9,Nitella tenuissima,0


In [365]:
# Creating a dictionary and extracting GBIF data
d = {}

for i in df.Species:     
   d[i] = species.name_backbone(name=str(i), kingdom='algae')
print("Complete")

Complete


In [366]:
gbif_data = pd.DataFrame.from_dict(d, orient = "index")
gbif_data.reset_index(inplace = True)
gbif_data.columns
df["Family"] = gbif_data["family"]
df

Unnamed: 0,Species,BE,Family
0,Chara aspera,0,Characeae
1,Chara baueri,0,Characeae
2,Chara papillosa,0,Characeae
3,Chara tenuispina,0,Characeae
4,Lychnothamnus barbatus,0,Characeae
5,Nitella capillaris,0,Characeae
6,Nitella confervacea,0,Characeae
7,Nitella gracilis,0,Characeae
8,Nitella opaca,0,Characeae
9,Nitella tenuissima,0,Characeae


In [367]:
# Add common names
df["Deutscher_Name"] = ""
# Add reference column
df["Reference"] = "Rote Liste und Gesamtartenliste der Armleuchteralgen (Characeae) von Berlin"
# Adding Letzter_Nachweis column
df["Letzter_Nachweis"] = ""
df.head()

Unnamed: 0,Species,BE,Family,Deutscher_Name,Reference,Letzter_Nachweis
0,Chara aspera,0,Characeae,,Rote Liste und Gesamtartenliste der Armleuchte...,
1,Chara baueri,0,Characeae,,Rote Liste und Gesamtartenliste der Armleuchte...,
2,Chara papillosa,0,Characeae,,Rote Liste und Gesamtartenliste der Armleuchte...,
3,Chara tenuispina,0,Characeae,,Rote Liste und Gesamtartenliste der Armleuchte...,
4,Lychnothamnus barbatus,0,Characeae,,Rote Liste und Gesamtartenliste der Armleuchte...,


In [368]:
# Rearranging the dataframe for uniformity
df = df[["Species",
         "Family", 
         "BE", 
         "Letzter_Nachweis",
         "Deutscher_Name", 
         "Reference"]]
df.head(10)

Unnamed: 0,Species,Family,BE,Letzter_Nachweis,Deutscher_Name,Reference
0,Chara aspera,Characeae,0,,,Rote Liste und Gesamtartenliste der Armleuchte...
1,Chara baueri,Characeae,0,,,Rote Liste und Gesamtartenliste der Armleuchte...
2,Chara papillosa,Characeae,0,,,Rote Liste und Gesamtartenliste der Armleuchte...
3,Chara tenuispina,Characeae,0,,,Rote Liste und Gesamtartenliste der Armleuchte...
4,Lychnothamnus barbatus,Characeae,0,,,Rote Liste und Gesamtartenliste der Armleuchte...
5,Nitella capillaris,Characeae,0,,,Rote Liste und Gesamtartenliste der Armleuchte...
6,Nitella confervacea,Characeae,0,,,Rote Liste und Gesamtartenliste der Armleuchte...
7,Nitella gracilis,Characeae,0,,,Rote Liste und Gesamtartenliste der Armleuchte...
8,Nitella opaca,Characeae,0,,,Rote Liste und Gesamtartenliste der Armleuchte...
9,Nitella tenuissima,Characeae,0,,,Rote Liste und Gesamtartenliste der Armleuchte...


In [369]:
# Saving the extracted csv to the "Data_cleaning_step1" directory
# export the dataframe as CSV

df.to_csv('../../Transformation/Data_cleaning_step1/34_Algae_Characeae.csv', 
          index=False)