### Simple scraping project

This is a scraper written in Python using Beautiful Soup and Requests modules.
It retrieves the pricing information from the website [kb.pl](https://kb.pl/) about various construction costs (materials and labor).

- Most datapoints consist of 3 prices: low / medium / high.
- Pricing info only for Poland, can vary depending on specific region (this can be controlled by providing session IDs)

Let's start by checking the robots.txt:

In [1]:
import requests

robots = requests.get('https://kb.pl/robots.txt')
print(robots.text)

User-agent: *
Disallow: /admin
Disallow: /captcha/

User-agent: bingbot
Crawl-delay: 30

Sitemap: https://kb.pl/sitemap.xml


The site only restricts the `/admin` and `/captcha/` directories, which we don't scrape - so it's all ok.

Now let me demonstrate the scraper in action by retrieving data from a single url.

In [2]:
from scrape_kbpl import *

url = 'https://kb.pl/budowa/parterowy-bez-piwnicy/tynki-i-gips/'

single_data = scrape_single(url)

single_data

[('Tynkowanie - materiały gipsowy', 17.49),
 ('Tynkowanie - materiały gipsowy', 19.77),
 ('Tynkowanie - materiały gipsowy', 25.06),
 ('Tynkowanie - materiały cementowo-wapienny', 20.41),
 ('Tynkowanie - materiały cementowo-wapienny', 22.75),
 ('Tynkowanie - materiały cementowo-wapienny', 26.48),
 ('Tynkowanie - robocizna gipsowy', 19.06),
 ('Tynkowanie - robocizna gipsowy', 25.1),
 ('Tynkowanie - robocizna gipsowy', 31.89),
 ('Tynkowanie - robocizna cementowo-wapienny', 17.74),
 ('Tynkowanie - robocizna cementowo-wapienny', 25.0),
 ('Tynkowanie - robocizna cementowo-wapienny', 31.11),
 ('Gładź gipsowa',),
 ('Robocizna - gipsowanie', 18.38),
 ('Robocizna - gipsowanie', 24.35),
 ('Robocizna - gipsowanie', 43.39)]

The function above returned the data as a list of tuples. There is another function that groups the rows by their names. Grouped data can be saved to a file and imported into Excel for further analysis.

In [3]:
group_by_name(single_data)

# data_to_csv(single_data) # saves the data to dump.txt file in the current directory

[('Tynkowanie - materiały gipsowy', 17.49, 19.77, 25.06),
 ('Tynkowanie - materiały cementowo-wapienny', 20.41, 22.75, 26.48),
 ('Tynkowanie - robocizna gipsowy', 19.06, 25.1, 31.89),
 ('Tynkowanie - robocizna cementowo-wapienny', 17.74, 25.0, 31.11),
 ('Gładź gipsowa',),
 ('Robocizna - gipsowanie', 18.38, 24.35, 43.39)]

And now onto scraping the entire site:

In [4]:
data = scrape_all()

In [7]:
data

[('Fundamenty - potrzebne materiały', 110.48),
 ('Fundamenty - potrzebne materiały', 127.48),
 ('Fundamenty - potrzebne materiały', 166.84),
 ('Robocizna - wykonanie fundamentów', 76.18),
 ('Robocizna - wykonanie fundamentów', 80.72),
 ('Robocizna - wykonanie fundamentów', 92.7),
 ('Ściany fundamentowe piwnicy - materiały', 53.32),
 ('Ściany fundamentowe piwnicy - materiały', 70.49),
 ('Ściany fundamentowe piwnicy - materiały', 97.49),
 ('Robocizna - wykonanie ścian fundamentowych', 35.56),
 ('Robocizna - wykonanie ścian fundamentowych', 52.27),
 ('Robocizna - wykonanie ścian fundamentowych', 97.04),
 ('Izolacja ścian piwnicy - materiały', 60.9),
 ('Izolacja ścian piwnicy - materiały', 86.26),
 ('Izolacja ścian piwnicy - materiały', 111.06),
 ('Robocizna - izolacja ścian piwnicy', 43.62),
 ('Robocizna - izolacja ścian piwnicy', 65.12),
 ('Robocizna - izolacja ścian piwnicy', 116.09),
 ('Ściany nośne - materiały beton komórkowy Ytong Energo+ 36,5 cm', 108.68),
 ('Ściany nośne - materiał

It runs relatively long (~15 minutes), but not to flood the server with too many requests at once I used a respectful wait period between each request (10 - 20 seconds) - still beats doing it manually.

I run this script monthly in order to build a better understanding on how the prices in the polish construction sector develop over time (reasons).