In [1]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
import re

# Gathering data

In [2]:
url = 'https://www.boliga.dk/resultat?propertyType=3&zipCodes=2720'
r = requests.get(url)
content=r.content
soup=BeautifulSoup(content)

In [3]:
tag_list=soup.find("app-housing-list-results").find("div").find("div").next_sibling.find_all("app-housing-list-item")

In [32]:
data_list = []
for tag in tag_list:
    # checking skuffesag i.e. hidden listings - they won't be used
    if tag.find("app-listing-information-hidden"):
        #print("skuffesag")
        continue
        
    # diving listing container in top, middle and bottom parts for readability
    top_info = tag.find("app-listing-information-lg").div.div
    middle_info = top_info.parent.contents[3].div.div
    bottom_info = middle_info.parent.contents[2].div
    
    # information scraping
    address=top_info.div.div.span.string
    #print(address)
    city=address.parent.next_sibling.string
    #print(city)
    price=top_info.div.next_sibling.div.contents[1]
    #print(price)
    price_m2=price.parent.next_sibling.string
    #print(pricePerM2)
    housing_type = middle_info.contents[1].label.contents[1].string
    date = middle_info.contents[2].p.contents[0]
    rooms = bottom_info.contents[0].span.string
    area = bottom_info.contents[1].span.string
    energy = bottom_info.contents[2].span.string
    year_built = bottom_info.contents[3].span.string
    ground = bottom_info.contents[4].span.string
    monthly_cost = bottom_info.contents[5].span.string
    
    # appending data dictionnary to data_list. BeautifulSoup converts HTML non-breaking spaces (&nbsp) to \xa0 (unicode),
    # so we need to remove them.
    data_list.append({
        "address": str(address).replace(u'\xa0', u' '),
        "city": city,
        "housing_type": housing_type,
        "price": str(price).replace(u'\xa0', u' '),
        "price_m2": str(price_m2).replace(u'\xa0', u' '),
        "area": area,
        "rooms": rooms,
        "ground": ground,
        "energy": energy,
        "year_built": year_built,
        "monthly_cost": monthly_cost,
        "date": date
    })
    

In [33]:
data_list

[{'address': 'Grønnehøj 9, 2. th., ',
  'city': '2720 Vanløse',
  'housing_type': 'Ejerlejlighed',
  'price': ' 2.195.000 kr. ',
  'price_m2': ' 34.841 kr. / m² ',
  'area': ' 63 m² ',
  'rooms': ' Værelser: 2 ',
  'ground': ' 0 m² ',
  'energy': ' Energimærke: D ',
  'year_built': ' 1936 ',
  'monthly_cost': ' Ejerudgift: 3.163 kr. / md. ',
  'date': ' Oprettet 9. jul. 2021 '},
 {'address': 'Arnestedet 21, ST. TH, ',
  'city': '2720 Vanløse',
  'housing_type': 'Ejerlejlighed',
  'price': ' 2.750.000 kr. ',
  'price_m2': ' 47.413 kr. / m² ',
  'area': ' 58 m² ',
  'rooms': ' Værelser: 2 ',
  'ground': ' 0 m² ',
  'energy': ' Energimærke: D ',
  'year_built': ' 1935 ',
  'monthly_cost': ' Ejerudgift: 2.608 kr. / md. ',
  'date': ' Oprettet 9. jul. 2021 '},
 {'address': 'Markskellet 11, 2. tv., ',
  'city': '2720 Vanløse',
  'housing_type': 'Ejerlejlighed',
  'price': ' 3.095.000 kr. ',
  'price_m2': ' 40.194 kr. / m² ',
  'area': ' 77 m² ',
  'rooms': ' Værelser: 2 ',
  'ground': ' 0 m²

In [23]:
df = pd.DataFrame(data_list)
df

Unnamed: 0,address,city,housing_type,price,price_m2,area,rooms,ground,energy,year_built,monthly_cost,date
0,"Grønnehøj 9, 2. th.,",2720 Vanløse,Ejerlejlighed,2.195.000 kr.,34.841 kr. / m²,63 m²,Værelser: 2,0 m²,Energimærke: D,1936,Ejerudgift: 3.163 kr. / md.,Oprettet 9. jul. 2021
1,"Arnestedet 21, ST. TH,",2720 Vanløse,Ejerlejlighed,2.750.000 kr.,47.413 kr. / m²,58 m²,Værelser: 2,0 m²,Energimærke: D,1935,Ejerudgift: 2.608 kr. / md.,Oprettet 9. jul. 2021
2,"Markskellet 11, 2. tv.,",2720 Vanløse,Ejerlejlighed,3.095.000 kr.,40.194 kr. / m²,77 m²,Værelser: 2,0 m²,Energimærke: C,1936,Ejerudgift: 3.628 kr. / md.,Oprettet 9. jul. 2021
3,"Ålekistevej 110B, 1. th.,",2720 Vanløse,Ejerlejlighed,2.450.000 kr.,45.370 kr. / m²,54 m²,Værelser: 2,0 m²,Energimærke: D,1937,Ejerudgift: 2.240 kr. / md.,Oprettet 8. jul. 2021
4,"Flakholmen 10, 1 th,",2720 Vanløse,Ejerlejlighed,2.595.000 kr.,40.546 kr. / m²,64 m²,Værelser: 3,0 m²,Energimærke: D,1938,Ejerudgift: 3.094 kr. / md.,Oprettet 8. jul. 2021
5,"Ådalsvej 63, 2. th.,",2720 Vanløse,Ejerlejlighed,1.750.000 kr.,44.871 kr. / m²,39 m²,1 værelse,0 m²,Energimærke: D,1937,Ejerudgift: 1.602 kr. / md.,Oprettet 7. jul. 2021
6,"A.F. Beyers Vej 8, st.. th.,",2720 Vanløse,Ejerlejlighed,2.298.000 kr.,39.620 kr. / m²,58 m²,Værelser: 2,0 m²,Energimærke: E,1933,Ejerudgift: 2.328 kr. / md.,Oprettet 7. jul. 2021
7,"Helga Larsens Plads 10, 4. th.,",2720 Vanløse,Ejerlejlighed,3.098.000 kr.,40.763 kr. / m²,76 m²,Værelser: 3,0 m²,Energimærke: D,1958,Ejerudgift: 3.636 kr. / md.,Oprettet 7. jul. 2021
8,"Bogholder Allé 48A, 3 tv,",2720 Vanløse,Ejerlejlighed,3.475.000 kr.,44.551 kr. / m²,78 m²,Værelser: 2,0 m²,Energimærke: D,1966,Ejerudgift: 3.196 kr. / md.,Oprettet 7. jul. 2021
9,"Vinkelager 27 1. th.,",2720 Vanløse,Ejerlejlighed,4.595.000 kr.,45.049 kr. / m²,102 m²,Værelser: 4,0 m²,Energimærke: C,1970,Ejerudgift: 2.698 kr. / md.,Oprettet 7. jul. 2021


# Cleaning data

- remove comma at the end of address values
- extract only relevant numbers from combined values
- remove spaces at start and end of strings
- transform date into format that can be converted to DateTime datatype
- put floor and side to lowercase in address
- fix data types

In [45]:
df_clean = df.copy()

In [46]:
# remove comma and space at the end of address values
df_clean.address = df_clean.address.str.rstrip(", ")

In [50]:
# extract numbers from strings for relevant columns
df_clean.price = df_clean.price.str.strip().str.rstrip(" kr.").str.replace(".","")

  df_clean.price = df_clean.price.str.strip().str.rstrip(" kr.").str.replace(".","")


In [52]:
df_clean.price_m2 = df_clean.price_m2.str.strip().str.rstrip(" kr. / m²").str.replace(".","")

  df_clean.price_m2 = df_clean.price_m2.str.strip().str.rstrip(" kr. / m²").str.replace(".","")


In [54]:
df_clean.area = df_clean.area.str.strip().str.rstrip(" m²")

In [57]:
df_clean.monthly_cost = df_clean.monthly_cost.str.strip().str.rstrip(" kr. / md.").str.lstrip("Ejerudgift: ")\
                                                                                    .str.replace(".","")

  df_clean.monthly_cost = df_clean.monthly_cost.str.strip().str.rstrip(" kr. / md.").str.lstrip("Ejerudgift: ")\


In [58]:
df_clean.head()

Unnamed: 0,address,city,housing_type,price,price_m2,area,rooms,ground,energy,year_built,monthly_cost,date
0,"Grønnehøj 9, 2. th.",2720 Vanløse,Ejerlejlighed,2195000,34841,63,Værelser: 2,0 m²,Energimærke: D,1936,3163,Oprettet 9. jul. 2021
1,"Arnestedet 21, ST. TH",2720 Vanløse,Ejerlejlighed,2750000,47413,58,Værelser: 2,0 m²,Energimærke: D,1935,2608,Oprettet 9. jul. 2021
2,"Markskellet 11, 2. tv.",2720 Vanløse,Ejerlejlighed,3095000,40194,77,Værelser: 2,0 m²,Energimærke: C,1936,3628,Oprettet 9. jul. 2021
3,"Ålekistevej 110B, 1. th.",2720 Vanløse,Ejerlejlighed,2450000,45370,54,Værelser: 2,0 m²,Energimærke: D,1937,2240,Oprettet 8. jul. 2021
4,"Flakholmen 10, 1 th",2720 Vanløse,Ejerlejlighed,2595000,40546,64,Værelser: 3,0 m²,Energimærke: D,1938,3094,Oprettet 8. jul. 2021
