# BeautifulSoup - Parsování webových stránek

## Co je BeautifulSoup?

**BeautifulSoup** je Python knihovna používaná pro web scraping. Je důležité si zapamatovat, že BeautifulSoup sám o sobě nezískává žádná data - pouze je zpracovává. Data musíme do BeautifulSoup dodat sami - pomocí knihovny `requests`.

Můžeme říci, že BeautifulSoup je knihovna pro práci s XML přizpůsobená pro parsování webových stránek.

---
## Praktické cvičení - Web Scraping e-shopu

Na adrese https://prod-kurs.coderslab.pl/index.php se nachází online obchod CodersLab, který prodává různé doplňky: trička, hrnky atd.

Vžijte se do role analytika z konkurenční firmy, který chce porovnat svůj sortiment s trhem. Analýza se zaměřuje na obsah tří kategorií produktů:
- clothes (oblečení)
- accessories (doplňky)
- art (umění)

### Cvičení 1: Získání URL kategorií

Dokončete implementaci funkce `get_categories_urls`, která pomocí `requests` a `bs4` získá dostupné kategorie produktů (`clothes`, `accessories`, `art`) a vrátí URL vedoucí k nim spolu s názvy kategorií jako seznam slovníků.

**Příklad výstupu:**
```python
[
    {
        "url": "https://mystore-testlab.coderslab.pl/index.php?id_category=3&controller=category",
        "name": "Clothes"
    },
    {
        "url": "https://mystore-testlab.coderslab.pl/index.php?id_category=6&controller=category",
        "name": "Accessories"
    },
    {
        "url": "https://mystore-testlab.coderslab.pl/index.php?id_category=9&controller=category",
        "name": "Art"
    }
]
```

**Nápověda:**
- Použijte DevTools prohlížeče k nalezení panelu s názvy kategorií
- Panel najděte pomocí jeho `id`
- Může být užitečné použít atribut `data-depth` k nalezení odkazu v tagu `a`
- Pro získání názvu kategorie může být potřeba odstranit řetězec: `'\ue313\n\ue316\n\n\n'` z textu

In [1]:
# Importujte potřebné knihovny
import requests
from bs4 import BeautifulSoup

In [2]:
# Dokončete definici funkce get_categories_urls
def get_categories_urls():
    pass

In [5]:
r = requests.get('https://prod-kurs.coderslab.pl/index.php')
r.ok

True

In [6]:
# if r == True
soup = BeautifulSoup(r.text, 'html.parser')

In [7]:
topmenu = soup.find(id = '_desktop_top_menu')
bool(topmenu)

True

In [9]:
print(topmenu.prettify())

<div class="menu js-top-menu position-static hidden-sm-down" id="_desktop_top_menu">
 <ul class="top-menu" data-depth="0" id="top-menu">
  <li class="category" id="category-3">
   <a class="dropdown-item" data-depth="0" href="https://mystore-testlab.coderslab.pl/index.php?id_category=3&amp;controller=category">
    <span class="float-xs-right hidden-md-up">
     <span class="navbar-toggler collapse-icons" data-target="#top_sub_menu_99019" data-toggle="collapse">
      <i class="material-icons add">
       
      </i>
      <i class="material-icons remove">
       
      </i>
     </span>
    </span>
    Clothes
   </a>
   <div class="popover sub-menu js-sub-menu collapse" id="top_sub_menu_99019">
    <ul class="top-menu" data-depth="1">
     <li class="category" id="category-4">
      <a class="dropdown-item dropdown-submenu" data-depth="1" href="https://mystore-testlab.coderslab.pl/index.php?id_category=4&amp;controller=category">
       Men
      </a>
     </li>
     <li class="cat

In [13]:
# data-depth="0"
items = topmenu.find_all('a', attrs = {'data-depth' : '0'})
items

[<a class="dropdown-item" data-depth="0" href="https://mystore-testlab.coderslab.pl/index.php?id_category=3&amp;controller=category">
 <span class="float-xs-right hidden-md-up">
 <span class="navbar-toggler collapse-icons" data-target="#top_sub_menu_99019" data-toggle="collapse">
 <i class="material-icons add"></i>
 <i class="material-icons remove"></i>
 </span>
 </span>
                                 Clothes
               </a>,
 <a class="dropdown-item" data-depth="0" href="https://mystore-testlab.coderslab.pl/index.php?id_category=6&amp;controller=category">
 <span class="float-xs-right hidden-md-up">
 <span class="navbar-toggler collapse-icons" data-target="#top_sub_menu_4680" data-toggle="collapse">
 <i class="material-icons add"></i>
 <i class="material-icons remove"></i>
 </span>
 </span>
                                 Accessories
               </a>,
 <a class="dropdown-item" data-depth="0" href="https://mystore-testlab.coderslab.pl/index.php?id_category=9&amp;controlle

In [16]:
items[0]

<a class="dropdown-item" data-depth="0" href="https://mystore-testlab.coderslab.pl/index.php?id_category=3&amp;controller=category">
<span class="float-xs-right hidden-md-up">
<span class="navbar-toggler collapse-icons" data-target="#top_sub_menu_99019" data-toggle="collapse">
<i class="material-icons add"></i>
<i class="material-icons remove"></i>
</span>
</span>
                                Clothes
              </a>

In [17]:
items[0]['href']

'https://mystore-testlab.coderslab.pl/index.php?id_category=3&controller=category'

In [21]:
items[0].text

'\n\n\n\ue313\n\ue316\n\n\n                                Clothes\n              '

In [23]:
items[0].text.replace('\n\n\n\ue313\n\ue316\n\n\n', '')

'                                Clothes\n              '

In [27]:
items[0].text.replace('\ue313', '').replace('\ue316', '').strip()

'Clothes'

In [29]:
[it['href'] for it in items]

['https://mystore-testlab.coderslab.pl/index.php?id_category=3&controller=category',
 'https://mystore-testlab.coderslab.pl/index.php?id_category=6&controller=category',
 'https://mystore-testlab.coderslab.pl/index.php?id_category=9&controller=category']

In [32]:
[{'url' : it['href'],
  'name' : it.text.replace('\ue313', '').replace('\ue316', '').strip()
 } for it in items]

[{'url': 'https://mystore-testlab.coderslab.pl/index.php?id_category=3&controller=category',
  'name': 'Clothes'},
 {'url': 'https://mystore-testlab.coderslab.pl/index.php?id_category=6&controller=category',
  'name': 'Accessories'},
 {'url': 'https://mystore-testlab.coderslab.pl/index.php?id_category=9&controller=category',
  'name': 'Art'}]

In [37]:
# Dokončete definici funkce get_categories_urls
def get_categories_urls():
    r = requests.get('https://prod-kurs.coderslab.pl/index.php')
    if (not r.ok):
        return None
    soup = BeautifulSoup(r.text, 'html.parser')
    topmenu = soup.find(id = '_desktop_top_menu')
    items = topmenu.find_all('a', attrs = {'data-depth' : '0'})
    lst = [{'url' : it['href'],
            'name' : it.text.replace('\ue313', '').replace('\ue316', '').strip()
           } for it in items]
    return lst

In [38]:
categories_urls = get_categories_urls()
print(categories_urls)

[{'url': 'https://mystore-testlab.coderslab.pl/index.php?id_category=3&controller=category', 'name': 'Clothes'}, {'url': 'https://mystore-testlab.coderslab.pl/index.php?id_category=6&controller=category', 'name': 'Accessories'}, {'url': 'https://mystore-testlab.coderslab.pl/index.php?id_category=9&controller=category', 'name': 'Art'}]


In [43]:
categories_urls = get_categories_urls()
print(categories_urls)

[{'url': 'https://mystore-testlab.coderslab.pl/index.php?id_category=3&controller=category', 'name': 'Clothes'}, {'url': 'https://mystore-testlab.coderslab.pl/index.php?id_category=6&controller=category', 'name': 'Accessories'}, {'url': 'https://mystore-testlab.coderslab.pl/index.php?id_category=9&controller=category', 'name': 'Art'}]


### Cvičení 2: Získání produktů z kategorie

Dokončete implementaci funkce `download_category_items`, která přijímá URL kategorie jako parametr a vrací seznam produktů z ní.

Pro zjednodušení se zaměřte pouze na výsledky z první stránky.

**Příklad:**
```python
url = 'https://mystore-testlab.coderslab.pl/index.php?id_category=3&controller=category'
products = download_category_items(url)

print(products)
```

**Výsledek:**
```python
[
    "https://mystore-testlab.coderslab.pl/index.php?id_product=1&id_product_attribute=1&rewrite=hummingbird-printed-t-shirt&controller=product#/1-size-s/8-color-white",
    "https://mystore-testlab.coderslab.pl/index.php?id_product=2&id_product_attribute=9&rewrite=brown-bear-printed-sweater&controller=product#/1-size-s",
    ...
]
```

**Nápověda:** Zkuste přejít na stránku libovolného produktu a najít jeho adresu v obsahu stránky.

In [None]:
# Importujte potřebné knihovny


In [None]:
# Dokončete definici funkce download_category_items
def download_category_items(category_url):
    pass

In [57]:
url = 'https://mystore-testlab.coderslab.pl/index.php?id_category=3&controller=category'
products = download_category_items(url)

print(products)

['https://prod-course.coderslab.com/index.php?id_product=1&id_product_attribute=1&rewrite=hummingbird-printed-t-shirt&controller=product#/1-size-s/8-color-white', 'https://prod-course.coderslab.com/index.php?id_product=2&id_product_attribute=9&rewrite=brown-bear-printed-sweater&controller=product#/1-size-s', 'https://prod-course.coderslab.com/index.php?id_product=21&id_product_attribute=40&rewrite=hummingbird-printed-t-shirt&controller=product#/1-size-s/8-color-white', 'https://prod-course.coderslab.com/index.php?id_product=22&id_product_attribute=51&rewrite=brown-bear-printed-sweater&controller=product#/1-size-s', 'https://prod-course.coderslab.com/index.php?id_product=26&id_product_attribute=76&rewrite=test-kolorow&controller=product#/1-size-s/7-color-beige']


### Cvičení 3: Získání dat produktu

Dokončete implementaci funkce `download_product_data(product_url)`, která přijímá URL produktu a vrací slovník s následujícími informacemi:

- `name` - název produktu
- `price` - cena se symbolem měny
- `description_short` - krátký popis
- `qty` - množství

**Příklad:**
```python
product_url = 'https://mystore-testlab.coderslab.pl/index.php?id_product=1&id_product_attribute=1&rewrite=hummingbird-printed-t-shirt&controller=product#/1-size-s/8-color-white'

download_product_data(product_url)
```

**Výsledek:**
```python
{'name': 'Hummingbird printed t-shirt',
 'price': '€19.12',
 'description_short': 'Regular fit, round neckline, short sleeves. Made of extra long staple pima cotton.',
 'qty': '999970'}
```

**Nápověda:**
- Pokud nenajdete atribut pro množství produktu, předpokládejte hodnotu 0
- Nezapomeňte ošetřit výjimku, když očekávaný tag v dokumentu není

In [None]:
# Importujte potřebné knihovny


In [None]:
# Dokončete definici funkce download_product_data
def download_product_data(product_url):
    pass

In [59]:
product_url = 'https://mystore-testlab.coderslab.pl/index.php?id_product=1&id_product_attribute=1&rewrite=hummingbird-printed-t-shirt&controller=product#/1-size-s/8-color-white'
product_data = download_product_data(product_url)

print(product_data)

{'name': 'Hummingbird printed t-shirt', 'price': '€19.12', 'description_short': 'Regular fit, round neckline, short sleeves. Made of extra long staple pima cotton.', 'qty': '0'}


### Cvičení 4: Generování dat do CSV

S využitím řešení z předchozích cvičení napište skript, který získá data ze všech kategorií a uloží je do CSV souboru s názvem `coderslab-shop-data.csv`.

Soubor by měl být tabulka s následujícími záhlavími:
```
name | price | description_short | qty | category
```

Nastavte `|` jako oddělovač sloupců.

**Nápověda:**
- Pro sledování průběhu stahování dat kategorie můžete použít knihovnu `tqdm`
- Změňte výchozí kódování souboru pro správný zápis symbolu měny (UTF-8)
- Může být užitečné nastavit vhodný znak nového řádku při otevírání souboru

In [None]:
# Importujte potřebné knihovny


In [None]:
# Zkopírujte sem definice předchozích funkcí

def get_categories_urls():
    pass

def download_category_items(category_url):
    pass

def download_product_data(product_url):
    pass

In [None]:
# Získejte seznam dostupných kategorií
categories = get_categories_urls()

In [None]:
# Získejte informace o produktech


In [None]:
# Uložte výsledky do CSV souboru


---
## Dokumentace

BeautifulSoup má velmi dobrou dokumentaci dostupnou na:
https://www.crummy.com/software/BeautifulSoup/bs4/doc/