Webscraping

Web scraping (někdy také psaný jako WebScraping) je počítačová technika pro extrakci informací z obsahu, který byl původně určen pro lidi – nikoli skripty.

Naše skripty tedy budou simulovat člověka, který navštěvuje webové stránky a čte na nich informace.

Existují dva hlavní způsoby webscrapingu webu:

1. Vytváření požadavků HTTP pomocí knihovny pro takové dotazy a analyzování kódu HTML v Pythonu,
2. Ovládání celého prohlížeče pro co nejlepší simulaci uživatele.

HTTP requesty
Tento způsob funguje dobře, když je stránka statická, vygenerovaná výhradně serverem.

Je to velmi podobné čtení dat přes API – hlavním rozdílem je formát dat:

Data ve formátu JSON jsou uspořádaná a mají specifickou strukturu,
Data ve formátu HTML jsou plná zbytečných doplňků, prvků, které mají pouze zlepšit estetiku; struktura HTML dokumentu málokdy odráží strukturu dat – hlavním cílem HTML dokumentů je jen pěkně prezentovat data na obrazovce.

Ovládání celého prohlížeče
Tato metoda funguje dobře, když je web dynamický, data se načítají za běhu pomocí JavaScriptu a reverzní inženýrství takového webu by přineslo jen malý zisk.

Data jsou nám stále k dispozici ve formě HTML dokumentu a mají nevýhody uvedené v předchozím snímku.

Výhodou webového scrapingu v prohlížeči je, že můžeme se stránkou interagovat – můžeme kliknout na odkaz nebo vyplnit a odeslat formulář.

HTML basics

<!doctype html>
<html>
  <head>
    <title>Haiku</title>
    <meta charset="UTF-8">
  </head>
  <body>
    <article id="haiku" class="poem short">
     At a fishmonger's<br>
     Brackish seawater breams' gums<br>
     Are icily cold.
    </article>
    <footer>CodersLab</footer>
  </body>
</html>
We can distinguish one <html> tag that contains the entire document. It has two children: <head> and <body>.

The <head> tag contains two children: <title> and <meta>. The content of <title> is the text - the title that is displayed in the browser tab and in history and bookmarks, while <meta> with the charset attribute tells the browser what character encoding the page uses.

The <body> tag contains two children: <article> and <footer>. The first one contains <br> tags in its text content - in the HTML document they are needed to start the next line of text.

<hr>
The simplest tag – a horizontal line: consists of < and > only; and its names.

This tag represents a change of subject between paragraphs. In previous versions of HTML (before HTML5), the <hr> tag represented a horizontal line.



<p>Paragraph</p>
The <p> tag represents the beginning of a paragraph - it needs a matching </p> to indicate where the paragraph ends.



<p class="article main" id="intro" title="Tooltip">Paragraph</p>
It's still a <p> tag, therefore - a paragraph.

This time it got three attributes - class, id and title.

These attributes define:

class – indicates the class of the element. Classes are used to style elements with CSS. Multiple elements on a page can have the same class.
id – indicates the unique identifier of the element. It is usually used when we want to influence this particular element. There should not be more than one element with any given id on the page.
title – defines the title of the item. It is shown when you hover the mouse cursor over the element.


<ul>
  <li>This is <span>the first</span> line</li>
  <li>This is <span>the second</span> line</li>
</ul>
The <ul> tag represents an unordered (bulleted) list, and <li> the individual items of the list.

It is a very simple example of HTML tags hierarchy. <ul> can be called the parent of <li> tags, while <li> tags are children of <ul> - and also parents of <span> tags.

Webscraping with requests and beautiful soup

BeautifulSoup je knihovna Pythonu používaná pro web scraping. Stojí za připomenutí, že samotný BeautifulSoup žádná data nenačítá, pouze je zpracovává. Data pro BeautifulSoup musíme poskytnout sami – pomocí knihovny požadavků.

Můžeme říci, že BeautifulSoup je knihovna pro práci s XML přizpůsobená k analýze webových stránek

In [4]:
import requests
from bs4 import BeautifulSoup
r = requests.get("https://www.music-to-scrape.org/")
soup = BeautifulSoup(r.text, 'html.parser')

In [5]:
soup

<!DOCTYPE html>

<html lang="en">
<!-- Head -->
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>We love being scraped | music-to-scrape</title>
<link href="https://maxcdn.bootstrapcdn.com/bootstrap/4.0.0/css/bootstrap.min.css" rel="stylesheet"/>
<link href="https://unpkg.com/swiper/swiper-bundle.min.css" rel="stylesheet">
<link href="https://fonts.googleapis.com/css?family=Rubik" rel="stylesheet"/>
<script crossorigin="anonymous" src="https://kit.fontawesome.com/4e7776d591.js"></script>
<link href="/static/css/style.css" rel="stylesheet"/>
<script src="/static/js/cookies.js"></script>
</link></head>
<body>
<div id="cookie-banner">
<p>This website uses <a href="/privacy_terms">cookies</a> to improve your experience on our website.</p>
<button class="btn btn-primary mr-2" id="accept-cookies">Accept</button>
<button class="btn btn-secondary mr-2" id="reject-cookies">Deny</button>
<button class="btn btn-secondary" id="cookie-pre

Dosud jsme knihovnu requests používali ke komunikaci s externími API, ale lze ji použít i ke stažení obsahu webu, protože obě úlohy využívají protokol http.

Obsah stránky pak předáme jako argument konstruktoru třídy BeautifulSoup. Druhým parametrem konstruktoru je řetězec html.parser. Znamená to, že budeme analyzovat html kód.

Můžeme použít jiné parsery, jako je xml (pro XML). Je také možné přidat analyzátory specializované na různé úkoly. Nyní se však zabýváme analýzou webových stránek a s ničím jiným se nezatěžujeme.

Vytvořili jsme objekt soup, který obsahuje data celé stránky.

K tomu budou použity čtyři metody:

.find() - vyhledá a vrátí jeden prvek odpovídající vyhledávacímu vzoru.
.find_all() - je totéž jako .find(), ale vrací seznam odpovídajících prvků.
.select_one() - vyhledá jeden prvek odpovídající selektoru CSS.
.select() – stejné jako .select_one(), ale vrací seznam odpovídajících prvků.
V následujících příkladech si ukážeme, jak vyhledávat prvky na stránce pomocí metod .find() a .select_one(). Stejná pravidla platí pro .find_all() a .select().

In [None]:
BeautifulSoup.find()
BeautifulSoup.find_all()
BeautifulSoup.select_one()
BeautifulSoup.select()

Hledání prvku podle tagu

Abychom našli prvek s konkrétní značkou, předáme název této značky jako parametr metody .find().

result = soup.find('div')
Najde na stránce prvek se značkou div.

Selektor CSS v tomto případě vypadá takto:

result = soup.select_one('div')
V případě, že metody .find() nebo .select_one() nenajdou na stránce žádný prvek, který by odpovídal našemu hledání, měly by vrátit Žádný.

Prvek webu může mít svůj atribut id. Chcete-li jej extrahovat, musíte provést .find() s parametrem id.
result = soup.find(id='cookie-banner')

Případně můžete použít selektor CSS:
result = soup.select_one('#cookie-banner')

Hledání prvku podle třídy:
Prvek webu může mít atribut class. Chcete-li jej extrahovat, musíte provést .find() s parametrem class_.
result = soup.find(class_='swiper-slide')

Případně můžete použít selektor CSS:
result = soup.select_one('.swiper-slide')

Prvky mohou mít více tříd oddělených mezerou: <span class="swiper-container swiper-initialized">. Při psaní selektoru CSS stačí zadat pouze jeden z nich, ale můžete použít i oba:
result = soup.select_one('.btn.btn-primary')

Prvky lze kombinovat podle více parametrů, například:
result = soup.find('button', id='reject-cookies')
Alternatively, you can use a CSS selector:

result = soup.select_one('button#reject-cookies')

In [6]:
result = soup.find(class_='swiper-slide')
result = soup.select_one('.swiper-slide')
result

<div class="swiper-slide">
<a href="song?song-id=SORZIBX12CF546516B" style="color:rgb(1, 51, 101) !important;text-decoration:none">
<div class="card" style="border:none;">
<img alt="..." class="card-img-top" src="https://api.dicebear.com/8.x/shapes/svg?seed=SORZIBX12CF546516B&amp;backgroundColor=0a5b83,1c799f,69d2e7,f1f4dc&amp;shape1Color[]&amp;shape2Color=f1f4dc&amp;shape3Color=f1f4dc,69d2e7,1c799f"/>
<div class="card-body center-text">
<h5 class="card-title">Greatest X</h5>
<p class="card-text">Janet Jackson</p>
</div>
</div>
</a>
</div>

In [7]:
result = soup.find(id='cookie-banner')
result = soup.select_one('#cookie-banner')

In [8]:
result = soup.find('div')
result


<div id="cookie-banner">
<p>This website uses <a href="/privacy_terms">cookies</a> to improve your experience on our website.</p>
<button class="btn btn-primary mr-2" id="accept-cookies">Accept</button>
<button class="btn btn-secondary mr-2" id="reject-cookies">Deny</button>
<button class="btn btn-secondary" id="cookie-preferences" onclick="showCookiePreferences()">Manage Consent</button>
</div>

In [1]:
result = soup.select_one('div')
result

NameError: name 'soup' is not defined

In [None]:
result = soup.find('button', id='reject-cookies')

In [None]:
result = soup.select_one('button#reject-cookies')
result

In [None]:
banner = soup.find(id='cookie-banner')
btn = banner.find(id='cookie-preferences')

In [None]:
result = soup.find_all('span')
for r in result:
    print(r)

In [21]:
result = soup.find('p')
print(result)

<p>This website uses <a href="/privacy_terms">cookies</a> to improve your experience on our website.</p>


In [16]:
result = soup.find('p')
print(result.text)

This website uses cookies to improve your experience on our website.


Hledání prvku v jiném prvku
Můžete vyhledat prvek v prvku, který jste již našli. Pamatujte, že HTML, stejně jako XML, je stromová struktura.

banner = soup.find(id='cookie-banner')
btn = banner.find(id='cookie-preferences')
- Výše uvedený kód hledá na stránce prvek s id cookie-banner a poté na stránce hledá id cookie-preference.

Metody .select() a .select_one() fungují analogicky.

Metody: .find(), .select_one(), .select() a .find_all() vracejí objekt (nebo více objektů) představující prvek webové stránky. Tento objekt má několik vlastností, které se nám budou hodit:
.name - název značky,
[...] - hodnota atributu tag, (např. link['href'] - adresa, na kterou odkaz vede),
.attrs - atributy jako slovník,
.text - textový obsah značky.

Předchozí příklad vytiskne nalezený prvek tak, jak byl odeslán ze serveru. Někdy je to těžké přečíst. K jeho formátování můžeme použít metodu .prettify():
result = soup.find('p')
print(result.prettify())
<p>This website uses
  <a href="/privacy_terms" target="_blank">
    cookies
  </a>
    to improve your experience on our website.
  </p>

Načítání hodnoty prvku

Hodnota prvku jsou data, která chceme načíst (obvykle je vidíme na obrazovce). K jejich zobrazení můžeme použít vlastnost .text nebo .string:
result = soup.find('p')
print(result.text)

Tento web používá soubory cookie ke zlepšení vašeho zážitku na našich webových stránkách.

Case study
Na začátku prezentace jsme se rozhodli získat informace. Předpokládejme, že chceme získat aktuálních 15 nejlepších a poté je zobrazit jako "Artist: {artist} | track: {track}"
Úkol lze rozdělit na menší:

Nalezení místa, kde je zobrazeno 15 nejlepších skladeb,
Nalezení seznamu skladeb,
Správné zobrazení dat jednotlivých skladeb.
požadavky na import
z bs4 importujte BeautifulSoup

container =soup.select_one("[name='weekly_15']")
tracks = container.select('div.list-group-item')

Ze získaných tracků variabilních s 15 prvky uvnitř bereme to, co je pro nás zajímavé. Nejjednodušším řešením v takových případech je opakovat každou stopu a vzít požadované informace.

In [9]:
import requests
from bs4 import BeautifulSoup
 
container = soup.select_one("[name='weekly_15']")
tracks = container.select('div.list-group-item')

In [32]:
def get_categories_urls():
    data = requests.get("https://prod-kurs.coderslab.pl/index.php")
    soup = BeautifulSoup(data.text,"html.parser")
    soups = (
        soup
        .find(attrs= {"id":"top-menu"})
        .find_all("a", attrs= {"data-depth":"0"}))
    categories = [{
        "url": x.attrs["href"],
        "name": x.text.replace("\ue313\n\ue316\n\n\n" , "").strip()}
        for x in soups]
    return categories


In [33]:
categories_urls = get_categories_urls()
print(categories_urls)


[{'url': 'https://mystore-testlab.coderslab.pl/index.php?id_category=3&controller=category', 'name': 'Clothes'}, {'url': 'https://mystore-testlab.coderslab.pl/index.php?id_category=6&controller=category', 'name': 'Accessories'}, {'url': 'https://mystore-testlab.coderslab.pl/index.php?id_category=9&controller=category', 'name': 'Art'}]


In [11]:

 
for track in tracks:
    artist = track.select_one('b').text
    track_name = track.select_one('p').text
    
    msg = f"Artist: {artist} | track: {track_name}"
    print(msg)

Artist: Tito Puente | track: China
Artist: DJ Quik | track: Pacific Coast Remix
Artist: Babylon Disco | track: Funk You
Artist: Billie Jo Spears | track: It Makes No Difference Now
Artist: Stevie Ray Vaughan And Double Trouble | track: Tin Pan Alley (aka Roughest Place In Town)
Artist: Charlie McCoy | track: Blue Yodel No. 1(T For Texas)
Artist: Muse | track: Exogenesis: Symphony Part 1 [Overture]
Artist: Les Bonapartes | track: Welcome
Artist: Little Joe & The Thrillers | track: Peanuts
Artist: Spectra Soul | track: The Tube
Artist: Bare Jr. | track: Snippet 15
Artist: Charlie Byrd Trio | track: Travellin' On
Artist: Stevie Ray Vaughan And Double Trouble | track: Couldn't Stand The Weather
Artist: Johnny Pearson | track: Purple Haze
Artist: Chris Farlowe | track: Paint It Black


Selenium
Selenium je sada nástrojů, které umožňují automatizaci prohlížeče. Používá se především pro testování aplikací, ale jeho aplikace nejsou omezeny na takové úkoly.

V této části kurzu probereme fungování dalšího nástroje obsaženého v Selenium – konkrétně frameworku Selenium WebDriver.

Selenium WebDriver podporuje automatizaci všech hlavních prohlížečů (Firefox, Internet Explorer, Google Chrome, Safari, Opera).

In [35]:
product_url = 'https://mystore-testlab.coderslab.pl/index.php?id_product=1&id_product_attribute=1&rewrite=hummingbird-printed-t-shirt&controller=product#/1-size-s/8-color-white'
product_data = download_product_data(product_url)

print(product_data)

{'name': 'Hummingbird printed t-shirt', 'price': '€19.12', 'description_short': 'Regular fit, round neckline, short sleeves. Made of extra long staple pima cotton.', 'qty': 'In stock\n0'}


In [34]:
import requests
from bs4 import BeautifulSoup

def download_product_data(product_url):
    html = requests.get(product_url)
    soup = BeautifulSoup(html.text, "html.parser")

    data = (
        soup
        .find(id = "main" )
        .find_all("div", class_ = "col-md-6")[1]
    )

    name = data.find("h1").text
    price = data.find("span", class_ = "current-price-value").text.strip()
    description_short = data.find(class_ = "product-description").text.strip()

    try: 
        qty = (
            data
            .find("div", class_ = "product-quantities")
            .text
            .replace("Items", "")
            .replace("In Stock", "")
            .strip()
        )
    except AttributeError:
        qty = 0

    result = {
        "name": name, 
        "price": price, 
        "description_short": description_short, 
        "qty": qty 
    }

    return result

In [1]:
!pip install selenium

Looking in indexes: https://pypi.org/simple, https://pip.repos.neuron.amazonaws.com


In [15]:
!pip install chromedriver-py

Collecting chromedriver-py
  Downloading chromedriver_py-129.0.6668.100-py3-none-any.whl.metadata (1.8 kB)
Downloading chromedriver_py-129.0.6668.100-py3-none-any.whl (44.2 MB)
   ---------------------------------------- 0.0/44.2 MB ? eta -:--:--
   ---------------------------------------- 0.0/44.2 MB ? eta -:--:--
   ---------------------------------------- 0.0/44.2 MB ? eta -:--:--
   ---------------------------------------- 0.0/44.2 MB ? eta -:--:--
   ---------------------------------------- 0.0/44.2 MB 259.2 kB/s eta 0:02:51
   ---------------------------------------- 0.1/44.2 MB 363.1 kB/s eta 0:02:02
   ---------------------------------------- 0.1/44.2 MB 599.1 kB/s eta 0:01:14
   ---------------------------------------- 0.3/44.2 MB 817.9 kB/s eta 0:00:54
   ---------------------------------------- 0.3/44.2 MB 938.7 kB/s eta 0:00:47
   ---------------------------------------- 0.4/44.2 MB 981.2 kB/s eta 0:00:45
   ---------------------------------------- 0.5/44.2 MB 1.0 MB/s eta 

In [16]:
!pip install webdriver-manager

Collecting webdriver-manager
  Downloading webdriver_manager-4.0.2-py2.py3-none-any.whl.metadata (12 kB)
Downloading webdriver_manager-4.0.2-py2.py3-none-any.whl (27 kB)
Installing collected packages: webdriver-manager
Successfully installed webdriver-manager-4.0.2


In [43]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# Set up the Chrome driver
service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service)

# Now you can use the driver to open a webpage, etc.
driver.get('https://www.google.com')
print(driver.title)

# Don't forget to close the driver when you're done
driver.quit()


Google


For the browser to access the page, you need to pass the full URL (along with http:// or https://) to its .get() method.

In [6]:
browser = Chrome(service=service)
browser.get('https://www.amazon.com/')
browser.quit()

Searching for elements (1/3)

Once the page is loaded, we can search for its individual tags or entire lists of them. To do this, specify the type of element you want to search for.
And then use the method:

In [None]:
browser.find_element('id', 'some_id')

In [None]:
browser.find_element() #vrací více elementů

which will return the first search result.

If we want to search for all elements, then we can use:

In [None]:
browser.find_elements()

In both cases, you need to indicate what type of element you want to search for. To do this, you need to specify how you are searching for the element, and then specify the value you are looking for.
For example, trying to find an element with id='some_id' in a document:

In [None]:
browser.find_element('id', 'some_id')

Below is a list of all the possibilities you have to search for elements:

In [None]:
'id'
'xpath'
'link text'
'partial link text'
'name'
'tag name'
'class name'
'css selector'

The following example searches for one element - the top navigation panel, and then, only within it, searches for a list of links - categories.

In [None]:
sidebar = browser.find_element('id', 'nav-xshop')
links = sidebar.find_elements('css selector', '.nav-a')

Extracting information
We can query each element for its textual content, attributes, etc. using:

.text - returns the entire textual content of the element (including the content of nested elements)
.tag_name - returns the name of the tag (e.g. "h1" or "div")
.get_attribute - returns the value of an HTML tag attribute

In [None]:
sidebar = browser.find_element('id', 'nav-xshop')
print(sidebar.text)  # Title of the first, second, third category...
print(sidebar.tag_name)  # div
print(sidebar.get_attribute('id'))  # 'nav-xshop'

The interaction with elements on the page
The most commonly used interaction will be clicking on selected elements.

The .click() method is used for this:

In [None]:
navbar = browser.find_element('id', 'nav-xshop')
links = navbar.find_elements('css selector', '.nav-a a')
 
#first category link:
link = links[0]
 
link.click()

The next interaction will be to type text into the form field. The .send_keys('text') method is used for this:

In [None]:
search_query_input = browser.find_element('id', 'twotabsearchtextbox')
search_query_input.send_keys('Iphone 14')
search_button = browser.find_element('id', 'nav-search-submit-button')
search_button.click()

Awaiting elements

Not all elements will be available on the page immediately - some content is loaded dynamically with JavaScript and the .get method does not wait for it. Other ones will appear a while after clicking some button.

The easiest way to handle this is to use the .implicitly_wait(time_in_seconds) method on the object representing the browser.

Thanks to this, the browser will continue trying to find the item for the given duration. Only when that time has passed will the .find_element method throw an exception (more about that on the next slide), and .find_elements will return an empty list.

In [None]:
browser.implicitly_wait(15)
 
# for 15 seconds the browser is trying to find this element
no_such_element = browser.find_element('id', 'no_such_element')
 
# if after 15 seconds it is still not available, the method will throw an exception

Sometimes the element that the script is waiting for simply won't appear on the page. To make sure the script doesn't then end with an error, it's a good idea to catch the exception and handle it accordingly.

In [None]:
from selenium.common.exceptions import NoSuchElementException
try:
    no_such_element = browser.find_element('id', 'no_such_element')
except NoSuchElementException:
    print('Element not found')

Selenium and BeautifulSoup

Of course, it is possible to use both technologies you have learned: Selenium as well as BeautifulSoup. To do this, we need to use Selenium to load the page, and then download all the HTML code. We pass this code to BeautifulSoup and process it in the same way as before.

For example, to download the source code from Amazon homepage:

In [None]:
browser.get('https://www.amazon.com')  # open the page
html = browser.page_source  # retrieve the HTML code
soup = BeautifulSoup(html, 'html.parser')  # parse with BeautifulSoup

In [7]:
browser.quit()

In [37]:
import requests
from bs4 import BeautifulSoup

def download_product_data(product_url):
    html = requests.get(product_url)
    soup = BeautifulSoup(html.text, "html.parser")

    data = (
        soup
        .find(id = "main" )
        .find_all("div", class_ = "col-md-6")[1]
    )

    name = data.find("h1").text
    price = data.find("span", class_ = "current-price-value").text.strip()
    description_short = data.find(class_ = "product-description").text.strip()

    try: 
        qty = (
            data
            .find("div", class_ = "product-quantities")
            .text
            .replace("Items", "")
            .replace("In Stock", "")
            .strip()
        )
    except AttributeError:
        qty = 0

    result = {
        "name": name, 
        "price": price, 
        "description_short": description_short, 
        "qty": qty 
    }

    return result

In [39]:
product_url = 'https://mystore-testlab.coderslab.pl/index.php?id_product=1&id_product_attribute=1&rewrite=hummingbird-printed-t-shirt&controller=product#/1-size-s/8-color-white'
product_data = download_product_data(product_url)

print(product_data)

{'name': 'Hummingbird printed t-shirt', 'price': '€19.12', 'description_short': 'Regular fit, round neckline, short sleeves. Made of extra long staple pima cotton.', 'qty': 'In stock\n0'}


In [42]:
!pip install selenium
from selenium import webdriverfrom 

Collecting selenium
  Downloading selenium-4.25.0-py3-none-any.whl.metadata (7.1 kB)
Collecting trio~=0.17 (from selenium)
  Downloading trio-0.27.0-py3-none-any.whl.metadata (8.6 kB)
Collecting trio-websocket~=0.9 (from selenium)
  Downloading trio_websocket-0.11.1-py3-none-any.whl.metadata (4.7 kB)
Collecting attrs>=23.2.0 (from trio~=0.17->selenium)
  Downloading attrs-24.2.0-py3-none-any.whl.metadata (11 kB)
Collecting outcome (from trio~=0.17->selenium)
  Downloading outcome-1.3.0.post0-py2.py3-none-any.whl.metadata (2.6 kB)
Collecting wsproto>=0.14 (from trio-websocket~=0.9->selenium)
  Downloading wsproto-1.2.0-py3-none-any.whl.metadata (5.6 kB)
Downloading selenium-4.25.0-py3-none-any.whl (9.7 MB)
   ---------------------------------------- 0.0/9.7 MB ? eta -:--:--
   ---------------------------------------- 0.0/9.7 MB ? eta -:--:--
   ---------------------------------------- 0.1/9.7 MB 991.0 kB/s eta 0:00:10
    --------------------------------------- 0.1/9.7 MB 1.0 MB/s eta 0

In [40]:
# import required libraries here
import requests
import csv

from bs4 import BeautifulSoup
from tqdm import tqdm

categories = get_categories_urls()

# get product information here
records = []
for category in tqdm(categories):
    category_url, category_name = category.values()

    items = download_category_items(category_url)

    for item in items:
        record = download_product_data(item)
        record['category'] = category_name
        records.append(record)

headers = [
    "name",
    "price",
    "description_short",
    "qty",
    "category"
]

# save results to CSV file here
with open(
        'coderslab-shop-data.csv', 
        'w', 
        newline='', 
        encoding='UTF-8'
    ) as f:
    
    csv_file = csv.writer(
        f, 
        delimiter='|')
    csv_file.writerow(headers)

    for record in records:
        csv_file.writerow(record.values())

  0%|          | 0/3 [00:00<?, ?it/s]


NameError: name 'download_category_items' is not defined