<a href="https://colab.research.google.com/github/Omarnot2far/Web_Scraping_Data/blob/main/WebScrapping_Bostadportal.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introduction

Web scraping is a powerful technique used to extract and analyze data from websites. In this example, we will use Panda and BeautifulSoup to scrape apartment listings from the Bostadsportal website https://bostadsportal.se/ and organize the data into a tabular format by cleaning the data.

# Install and import the Libraries

In [177]:
pip install beautifulsoup4


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [178]:
pip install requests

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [179]:
from bs4 import BeautifulSoup
import requests
import pandas as pd

In [180]:
# url from Hemnet website
url = 'https://bostadsportal.se/hyra-l%C3%A4genhet,hyra-rum,hyra-hus,hyra-stuga/stockholm/'

In [181]:
# get a request to the url 
page = requests.get(url)


In [182]:
# parse the html page content into the Beautifull soup
soup = BeautifulSoup(page.content, 'html.parser')

In [183]:
# now, find all the content from the html page
lists = soup.find_all('div', class_= 'css-1jf5j4m')

In [184]:
# Initialize an empty list to store the data
data = []

# Extract the data from each listing
for list in lists:
    title_elem = list.find('div', class_='css-uom1tl')
    title = title_elem.text[7:] if title_elem else ''

    location_elem = list.find('div', class_='css-22506a')
    location = location_elem.text if location_elem else ''

    room_elem = list.find('span', class_="css-1ynu4tx")
    room = room_elem.text if room_elem else ''

    price_elem = list.find('span', class_="css-1wltohh")
    price = price_elem.text if price_elem else ''

    # Add the data to the list
    data.append([title, location, room, price])

# Convert the list of data into a DataFrame
df = pd.DataFrame(data, columns=['Size', 'Location', 'Room', 'Price'])

# Print the DataFrame
print(df)

                                                 Size  \
0                 Lägenhet · 79 m²Rinkeby, Almbygatan   
1   Lägenhet · 56 m²Hägersten-Liljeholmen, Bryggvägen   
2             Lägenhet · 28 m²Spånga-Tensta, Nekvägen   
3   Lägenhet · 26 m²Hässelby-Vällingby, Enspännarg...   
4             Lägenhet · 58 m²Östermalm, Madängsgatan   
5                 Lägenhet · 60 m²Norrmalm, Hagagatan   
6    Lägenhet · 41 m²Hässelby-Vällingby, Persikogatan   
7   Lägenhet · 104 m²Hässelby-Vällingby, Skattegår...   
8           Lägenhet · 53 m²Kungsholmen, Polhemsgatan   
9                 Rum · 18 m²Östermalm, Forskarbacken   
10                Rum · 18 m²Östermalm, Körsbärsvägen   
11               Lägenhet · 29 m²Södermalm, Maltgatan   
12           Lägenhet · 42 m²Norrmalm, Holländargatan   
13  Lägenhet · 194 m²Hässelby-Vällingby, Sjötorpsb...   
14   Lägenhet · 65 m²Hässelby-Vällingby, Ormängsgatan   
15   Lägenhet · 69 m²Hässelby-Vällingby, Spiralbacken   
16             Lägenhet · 45 m²

In [185]:
df.head()

Unnamed: 0,Size,Location,Room,Price
0,"Lägenhet · 79 m²Rinkeby, Almbygatan","Rinkeby, Almbygatan",5 rums lägenhet i Spånga,13 960 kr
1,"Lägenhet · 56 m²Hägersten-Liljeholmen, Bryggvägen","Hägersten-Liljeholmen, Bryggvägen",2 rums lägenhet i Stockholm,13 306 kr
2,"Lägenhet · 28 m²Spånga-Tensta, Nekvägen","Spånga-Tensta, Nekvägen",1 rums lägenhet i Stockholm,7 429 kr
3,"Lägenhet · 26 m²Hässelby-Vällingby, Enspännarg...","Hässelby-Vällingby, Enspännargatan",1 rums lägenhet i Hässelby,4 299 kr
4,"Lägenhet · 58 m²Östermalm, Madängsgatan","Östermalm, Madängsgatan",2 rums lägenhet i Stockholm,12 239 kr


# Data Cleaning

In [186]:
# Split the 'Size' column by '·' and extract the second part
# str.strip() method to remove any leading or trailing whitespace from the size value.
df['type'] = df['Size'].str.split('·').str[0].str.strip()

# Split the 'Size' column by '·' and extract the second part
df['size'] = df['Size'].str.split('·').str[1].str.strip()





In [187]:
df.head()

Unnamed: 0,Size,Location,Room,Price,type,size
0,"Lägenhet · 79 m²Rinkeby, Almbygatan","Rinkeby, Almbygatan",5 rums lägenhet i Spånga,13 960 kr,Lägenhet,"79 m²Rinkeby, Almbygatan"
1,"Lägenhet · 56 m²Hägersten-Liljeholmen, Bryggvägen","Hägersten-Liljeholmen, Bryggvägen",2 rums lägenhet i Stockholm,13 306 kr,Lägenhet,"56 m²Hägersten-Liljeholmen, Bryggvägen"
2,"Lägenhet · 28 m²Spånga-Tensta, Nekvägen","Spånga-Tensta, Nekvägen",1 rums lägenhet i Stockholm,7 429 kr,Lägenhet,"28 m²Spånga-Tensta, Nekvägen"
3,"Lägenhet · 26 m²Hässelby-Vällingby, Enspännarg...","Hässelby-Vällingby, Enspännargatan",1 rums lägenhet i Hässelby,4 299 kr,Lägenhet,"26 m²Hässelby-Vällingby, Enspännargatan"
4,"Lägenhet · 58 m²Östermalm, Madängsgatan","Östermalm, Madängsgatan",2 rums lägenhet i Stockholm,12 239 kr,Lägenhet,"58 m²Östermalm, Madängsgatan"


In [188]:
df.drop(columns='Size', inplace=True)

In [195]:
df.head(24)

Unnamed: 0,Location,Room,Price,type,Sq_m
0,"Rinkeby, Almbygatan",5 rums lägenhet i Spånga,13 960 kr,Lägenhet,79 m²
1,"Hägersten-Liljeholmen, Bryggvägen",2 rums lägenhet i Stockholm,13 306 kr,Lägenhet,56 m²
2,"Spånga-Tensta, Nekvägen",1 rums lägenhet i Stockholm,7 429 kr,Lägenhet,28 m²
3,"Hässelby-Vällingby, Enspännargatan",1 rums lägenhet i Hässelby,4 299 kr,Lägenhet,26 m²
4,"Östermalm, Madängsgatan",2 rums lägenhet i Stockholm,12 239 kr,Lägenhet,58 m²
5,"Norrmalm, Hagagatan","Hagagatan välkomnar er till en exklusiv, total...",24 500 kr,Lägenhet,60 m²
6,"Hässelby-Vällingby, Persikogatan",1 rums lägenhet i Strand,5 006 kr,Lägenhet,41 m²
7,"Hässelby-Vällingby, Skattegårdsvägen",4 rums lägenhet i Stockholm,16 940 kr,Lägenhet,104 m²
8,"Kungsholmen, Polhemsgatan",Lägenhet i Kungsholmen,17 000 kr,Lägenhet,53 m²
9,"Östermalm, Forskarbacken",1 rums lägenhet i Stockholm,4 086 kr,Rum,18 m²


In [191]:

# Extract the size value as a separate column
# \d+ capture the digits as a group
df['Sq_m'] = df['size'].str.extract(r'(\d+ m²)')

# remove size column
df.drop(columns='size', inplace=True)

In [201]:
# Extract the number of rooms as a separate column
df['Rooms'] = df['Room'].str.extract(r'(\d+) rums')

# remove the Room column
df.drop(columns='Room', inplace=True)

In [207]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Location  25 non-null     object
 1   Price     25 non-null     object
 2   type      25 non-null     object
 3   Sq_m      23 non-null     object
 4   Rooms     17 non-null     object
dtypes: object(5)
memory usage: 1.1+ KB
