In [159]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import warnings

warnings.simplefilter(action='ignore', category=FutureWarning) # ignores warnings from pd.append()

In [160]:
# column names
col_names = ['Titel', 'Bevilliget beløb', 'Modtager', 'Institution', 'Virkemidler', 'Område', 'År']

# create an Empty DataFrame object
df = pd.DataFrame(columns = col_names)

In [161]:
URL = "https://dff.dk/forskningsprojekter?b_start:int="

for i in range(0, 3770, 10):

    print("Scraping page: "+ str(int(float(i/10)))) # prints page being scraped at the moment

    page = requests.get(URL+str(i))
    soup = BeautifulSoup(page.text, "html.parser")

    # Load page as html
    bevillinger = soup.find_all("div", class_ = "result-item")

    # Retrieve all grants from first page
    for bevilling in bevillinger:
        titel = bevilling.find("h2", class_ = "result-title").text.strip()
        beløb = bevilling.find("div", class_ = "col-sm-2 text-right result-amount").text.replace("Bevilget beløb", "").strip()
        
        modtager_liste = bevilling.find("div", class_ = "col-xs-6 col-sm-12").text.strip().split(sep="\n\n") # remove whitespaces and split based on "\n\n"
        modtager_liste = [s.strip() for s in modtager_liste] # strip whitespace for both Modtager and Institution

        try:
            modtager = modtager_liste[0]
            institution = modtager_liste[1]
        except IndexError:
            modtager = modtager_liste[0]
            institution = ""
        
        info_liste = bevilling.find("ul", class_ = "listing-horizontal").text.strip().split(sep="\n\n") # remove whitespaces and split based on "\n\n"
        info_liste = [s.strip() for s in info_liste] # strip whitespace for both Virkemiddel, Område and År

        virkemidler = info_liste[0]
        område = info_liste[1]
        periode = info_liste[2]

        # append rows to an empty DataFrame
        df = df.append({'Titel'             : titel,
                        'Bevilliget beløb'  : beløb,
                        'Modtager'          : modtager,
                        'Institution'       : institution,
                        'Virkemidler'       : virkemidler,
                        'Område'            : område,
                        'År'                : periode},
                        ignore_index = True)

Scraping page: 0
Scraping page: 1
Scraping page: 2
Scraping page: 3
Scraping page: 4
Scraping page: 5
Scraping page: 6
Scraping page: 7
Scraping page: 8
Scraping page: 9
Scraping page: 10
Scraping page: 11
Scraping page: 12
Scraping page: 13
Scraping page: 14
Scraping page: 15
Scraping page: 16
Scraping page: 17
Scraping page: 18
Scraping page: 19
Scraping page: 20
Scraping page: 21
Scraping page: 22
Scraping page: 23
Scraping page: 24
Scraping page: 25
Scraping page: 26
Scraping page: 27
Scraping page: 28
Scraping page: 29
Scraping page: 30
Scraping page: 31
Scraping page: 32
Scraping page: 33
Scraping page: 34
Scraping page: 35
Scraping page: 36
Scraping page: 37
Scraping page: 38
Scraping page: 39
Scraping page: 40
Scraping page: 41
Scraping page: 42
Scraping page: 43
Scraping page: 44
Scraping page: 45
Scraping page: 46
Scraping page: 47
Scraping page: 48
Scraping page: 49
Scraping page: 50
Scraping page: 51
Scraping page: 52
Scraping page: 53
Scraping page: 54
Scraping page: 55
Sc

In [163]:
# print dataframe
df

Unnamed: 0,Titel,Bevilliget beløb,Modtager,Institution,Virkemidler,Område,År
0,Are healthy protein-rich termite fungal crops ...,2.879.086 kr,Michael Poulsen,Københavns Universitet,DFF-Forskningsprojekt 1 (tematisk forskning),Tematisk » Grøn forskning,2022
1,BioHyPro: Bioproduction of CO2-free hydrogen &...,2.783.155 kr,Hamidreza Maghami Nick,Danmarks Tekniske Universitet,DFF-Forskningsprojekt 1 (tematisk forskning),Tematisk » Grøn forskning,2022
2,Catalytic pyrolysis of biogas (CapBo),2.875.849 kr,Patrick Biller,Aarhus Universitet,DFF-Forskningsprojekt 1 (tematisk forskning),Tematisk » Grøn forskning,2022
3,Children’s green transition citizenship,2.877.843 kr,Hanne Warming,Roskilde Universitet,DFF-Forskningsprojekt 1 (tematisk forskning),Tematisk » Grøn forskning,2022
4,Coastal Conflicts: Mapping Storm Surge Protect...,2.879.959 kr,Frederik Kristoffer Albris,Københavns Universitet,DFF-Forskningsprojekt 1 (tematisk forskning),Tematisk » Grøn forskning,2022
...,...,...,...,...,...,...,...
3761,Enabling Ultra Deep Hydrodesulphurization by N...,10.781.874 kr,Ib Chorkendorff,Danmarks Tekniske Universitet,Øvrige forskningsprojekter,Teknologi og Produktion,2013
3762,Acute stroke research,717.359 kr,Hanne Krarup Christensen,"Bispebjerg Hospital, Neurologisk Afdeling",Delestillinger,Sundhed og Sygdom,2013
3763,Atherosclerotic cardiovascular disease in HIV-...,764.683 kr,Anne-Mette Lebech,"Hvidovre Hospital, Infektionsmedicinsk Afdeling",Delestillinger,Sundhed og Sygdom,2013
3764,Epigenetic modulation of mechanisms involved i...,829.294 kr,Ole Schmeltz Søgaard,"Aarhus Universitetshospital, Infektionsmedicin...",Delestillinger,Sundhed og Sygdom,2013


In [164]:
# convert column År to numeric
df["År"] = pd.to_numeric(df["År"])

# convert column Bevilliget beløb to numeric
df["Bevilliget beløb"] = df["Bevilliget beløb"].str.replace("kr", "").str.strip()
df["Bevilliget beløb"] = df["Bevilliget beløb"].str.replace(".", "")
df["Bevilliget beløb"] = pd.to_numeric(df["Bevilliget beløb"])


In [165]:
# save to csv
df.to_csv('dff.csv', sep=',', header=True, index=False)

# import csv
df_new = pd.read_csv('dff.csv')
df_new

Unnamed: 0,Titel,Bevilliget beløb,Modtager,Institution,Virkemidler,Område,År
0,Are healthy protein-rich termite fungal crops ...,2879086,Michael Poulsen,Københavns Universitet,DFF-Forskningsprojekt 1 (tematisk forskning),Tematisk » Grøn forskning,2022
1,BioHyPro: Bioproduction of CO2-free hydrogen &...,2783155,Hamidreza Maghami Nick,Danmarks Tekniske Universitet,DFF-Forskningsprojekt 1 (tematisk forskning),Tematisk » Grøn forskning,2022
2,Catalytic pyrolysis of biogas (CapBo),2875849,Patrick Biller,Aarhus Universitet,DFF-Forskningsprojekt 1 (tematisk forskning),Tematisk » Grøn forskning,2022
3,Children’s green transition citizenship,2877843,Hanne Warming,Roskilde Universitet,DFF-Forskningsprojekt 1 (tematisk forskning),Tematisk » Grøn forskning,2022
4,Coastal Conflicts: Mapping Storm Surge Protect...,2879959,Frederik Kristoffer Albris,Københavns Universitet,DFF-Forskningsprojekt 1 (tematisk forskning),Tematisk » Grøn forskning,2022
...,...,...,...,...,...,...,...
3761,Enabling Ultra Deep Hydrodesulphurization by N...,10781874,Ib Chorkendorff,Danmarks Tekniske Universitet,Øvrige forskningsprojekter,Teknologi og Produktion,2013
3762,Acute stroke research,717359,Hanne Krarup Christensen,"Bispebjerg Hospital, Neurologisk Afdeling",Delestillinger,Sundhed og Sygdom,2013
3763,Atherosclerotic cardiovascular disease in HIV-...,764683,Anne-Mette Lebech,"Hvidovre Hospital, Infektionsmedicinsk Afdeling",Delestillinger,Sundhed og Sygdom,2013
3764,Epigenetic modulation of mechanisms involved i...,829294,Ole Schmeltz Søgaard,"Aarhus Universitetshospital, Infektionsmedicin...",Delestillinger,Sundhed og Sygdom,2013
