# Úvod do web scrapingu s BeautifulSoup

**BeautifulSoup** je Python knihovna pro web scraping. Sama o sobě nestahuje žádná data - pouze je zpracovává. Data musíme získat pomocí knihovny `requests`.

BeautifulSoup je knihovna pro práci s XML, přizpůsobená pro parsování webových stránek.

## Import knihoven

Knihovna BeautifulSoup se nachází v modulu `bs4`.

In [1]:
import requests
from bs4 import BeautifulSoup

## Základní použití BeautifulSoup

Nejprve stáhneme obsah webové stránky pomocí `requests.get()`, poté předáme text stránky konstruktoru `BeautifulSoup`.

In [3]:
# Velmi zjednoduseny kod stranky
minit = """<!doctype html>
<html>
  <head>
    <title>Haiku</title>
    <meta charset="UTF-8">
  </head>
  <body>
    <div id="haiku" class="tiny">
     At a fishmonger's<br>
     Brackish seawater breams' gums<br>
     Are icily cold.
     <ul>
         <li>the end</li>
         <li><a href = "http://wiki.org">Wiki</a></li>
     <ul>
    </div>
    <div id="something">
        <ul class="tiny">
            <li>Something</li>
            <li>Other</li>
            <li>Written.</li>
        </ul>
    </div>

    <footer>CodersLab</footer>
  </body>
</html>"""

minis = BeautifulSoup(minit, 'html.parser')

Parametr `'html.parser'` říká, že budeme parsovat HTML kód. Existují i jiné parsery (např. `xml` pro XML soubory).

Nyní máme objekt `soup`, který obsahuje data celé stránky.

In [6]:
minit.__class__

str

In [7]:
minis.__class__

bs4.BeautifulSoup

## Metody pro extrakci dat

Pro vyhledávání elementů používáme čtyři hlavní metody:

- `.find()` - vrátí jeden element odpovídající vzoru
- `.find_all()` - vrátí seznam všech odpovídajících elementů
- `.select_one()` - vrátí jeden element podle CSS selektoru
- `.select()` - vrátí seznam elementů podle CSS selektoru

### Vyhledávání podle tagu

Nejjednodušší způsob - hledáme element podle názvu HTML tagu.

In [8]:
minis.find('div')

<div class="tiny" id="haiku">
     At a fishmonger's<br/>
     Brackish seawater breams' gums<br/>
     Are icily cold.
     <ul>
<li>the end</li>
<li><a href="http://wiki.org">Wiki</a></li>
<ul>
</ul></ul></div>

In [14]:
minis.find('br')

<br/>

In [12]:
minis.select_one('div')

<div class="tiny" id="haiku">
     At a fishmonger's<br/>
     Brackish seawater breams' gums<br/>
     Are icily cold.
     <ul>
<li>the end</li>
<li><a href="http://wiki.org">Wiki</a></li>
<ul>
</ul></ul></div>

Pokud metody `.find()` nebo `.select_one()` nenajdou žádný element, vrátí `None`.

### Vyhledávání podle id

Atribut `id` by měl být na stránce unikátní.

In [16]:
# Pomocí metody find() s parametrem id
minis.find(id = 'something')

<div id="something">
<ul class="tiny">
<li>Something</li>
<li>Other</li>
<li>Written.</li>
</ul>
</div>

In [17]:
# Pomocí CSS selektoru - znak # označuje id
minis.select_one('#something')

<div id="something">
<ul class="tiny">
<li>Something</li>
<li>Other</li>
<li>Written.</li>
</ul>
</div>

### Vyhledávání podle třídy (class)

Pozor: v Pythonu je `class` rezervované slovo, proto používáme `class_` s podtržítkem.

In [19]:
# Pomocí metody find() s parametrem class_
minis.find(class_ = 'tiny')

<div class="tiny" id="haiku">
     At a fishmonger's<br/>
     Brackish seawater breams' gums<br/>
     Are icily cold.
     <ul>
<li>the end</li>
<li><a href="http://wiki.org">Wiki</a></li>
<ul>
</ul></ul></div>

In [20]:
# Pomocí CSS selektoru - tečka označuje třídu
minis.select_one('.tiny')

<div class="tiny" id="haiku">
     At a fishmonger's<br/>
     Brackish seawater breams' gums<br/>
     Are icily cold.
     <ul>
<li>the end</li>
<li><a href="http://wiki.org">Wiki</a></li>
<ul>
</ul></ul></div>

### Kombinace více parametrů

Můžeme kombinovat tag, id a třídu pro přesnější vyhledávání.

In [21]:
minis

<!DOCTYPE html>

<html>
<head>
<title>Haiku</title>
<meta charset="utf-8"/>
</head>
<body>
<div class="tiny" id="haiku">
     At a fishmonger's<br/>
     Brackish seawater breams' gums<br/>
     Are icily cold.
     <ul>
<li>the end</li>
<li><a href="http://wiki.org">Wiki</a></li>
<ul>
</ul></ul></div>
<div id="something">
<ul class="tiny">
<li>Something</li>
<li>Other</li>
<li>Written.</li>
</ul>
</div>
<footer>CodersLab</footer>
</body>
</html>

In [22]:
# Hledání tlačítka s konkrétním id
minis.find('ul', class_= 'tiny')

<ul class="tiny">
<li>Something</li>
<li>Other</li>
<li>Written.</li>
</ul>

In [26]:
# Stejný výsledek pomocí CSS selektoru
minis.select_one('ul.tiny')

<ul class="tiny">
<li>Something</li>
<li>Other</li>
<li>Written.</li>
</ul>

### Vyhledávání v nalezeném elementu

HTML má stromovou strukturu. Můžeme nejprve najít nadřazený element a pak v něm hledat.

In [24]:
minis

<!DOCTYPE html>

<html>
<head>
<title>Haiku</title>
<meta charset="utf-8"/>
</head>
<body>
<div class="tiny" id="haiku">
     At a fishmonger's<br/>
     Brackish seawater breams' gums<br/>
     Are icily cold.
     <ul>
<li>the end</li>
<li><a href="http://wiki.org">Wiki</a></li>
<ul>
</ul></ul></div>
<div id="something">
<ul class="tiny">
<li>Something</li>
<li>Other</li>
<li>Written.</li>
</ul>
</div>
<footer>CodersLab</footer>
</body>
</html>

In [27]:
# Nejprve vybereme "article"
article = minis.find('div')

In [28]:
article.__class__

bs4.element.Tag

In [29]:
type(article)

bs4.element.Tag

In [30]:
bool(article)

True

In [33]:
bool(minis.find('x'))

False

In [36]:
# Pak v něm hledáme položky seznamu
if article:
    print(article.find('li'))

<li>the end</li>


### Získání více elementů najednou

Metody `.find_all()` a `.select()` vrací seznam všech nalezených elementů.

Pokud `.find_all()` nebo `.select()` nic nenajdou, vrátí prázdný seznam `[]`.

In [37]:
# Najděte všechny li elementy a vypište je
minis.find_all('li')

[<li>the end</li>,
 <li><a href="http://wiki.org">Wiki</a></li>,
 <li>Something</li>,
 <li>Other</li>,
 <li>Written.</li>]

In [39]:
minis.find_all('li').__class__

bs4.element.ResultSet

In [46]:
# Vypište jenom jejich text
rs = minis.find_all('li')
rs[0].text

'the end'

In [47]:
rs[1].text

'Wiki'

In [48]:
for t in rs:
    print(t.text)

the end
Wiki
Something
Other
Written.


In [49]:
for t in minis.find_all('li'):
    print(t.text)

the end
Wiki
Something
Other
Written.


In [52]:
[t.text for t in minis.find_all('li')]

['the end', 'Wiki', 'Something', 'Other', 'Written.']

In [53]:
', '.join([t.text for t in minis.find_all('li')])

'the end, Wiki, Something, Other, Written.'

### Úloha

In [None]:
# Hledání prvního elementu s tagem <div>


In [None]:
# Najděte element s id = 'cookie-banner'


In [None]:
# Najděte první element třídy 'swiper-slide'


Element může mít více tříd oddělených mezerou: `<span class="btn btn-primary">`. 
V CSS selektoru stačí uvést jednu, nebo můžeme obě: `.btn.btn-primary`

In [None]:
# Najděte první element, který má obě třídy 'btn-primary' i 'btn'


In [None]:
# Najděte tlačítko (ne libovolný element) s id 'reject-cookies'


In [None]:
# Najděte element s id 'cookie-banner' Pak v tom elementu najděte tlačítko s id 'cookie-preferences'



In [None]:
# Najděte všechny <span> elementy z webu, zobrazte jenom prvních 5. Kolik jich je?


## Vlastnosti nalezeného elementu

Metody `.find()`, `.select_one()`, `.select()` a `.find_all()` vrací objekt (nebo více objektů) reprezentující element webové stránky. Tento objekt má několik užitečných vlastností:

- `.name` - název tagu
- `[...]` - hodnota atributu tagu (např. `link['href']` - adresa, na kterou odkaz vede)
- `.attrs` - atributy jako slovník
- `.text` - textový obsah tagu

In [None]:
minis

In [None]:
# Najdeme první div


In [None]:
# Název tagu


In [None]:
# Textový obsah


In [None]:
# Všechny atributy jako slovník


### Získání hodnoty odkazu
U odkazů často potřebujeme získat atribut `href`.

In [None]:
# Najdeme první odkaz
link = minis.find('a')

if link:
    print("Text odkazu:", link.text)
    print("URL:", link['href'])

### Formátovaný výpis - prettify()

Metoda `.prettify()` vrátí HTML kód s pěkným odsazením pro lepší čitelnost.

In [None]:
print(result)

In [None]:
print(result.prettify())

---

## Praktický příklad: Top 15 skladeb

Na stránce music-to-scrape.org chceme získat aktuální top 15 skladeb a vypsat je ve formátu "Artist: {artist} | track: {track}".

Postup:
1. Najdeme kontejner se seznamem skladeb
2. Najdeme jednotlivé skladby
3. Z každé skladby vytáhneme interpreta a název

In [None]:
#import requests
#from bs4 import BeautifulSoup

# Stáhneme stránku
r = requests.get("https://www.music-to-scrape.org/")
soup = BeautifulSoup(r.text, 'html.parser')

In [None]:
# Najdeme sekci s name = 'weekly_15'


In [None]:
# Najdeme všechny skladby v té sekci
tracks = 

In [None]:
print(f"Nalezeno {len(tracks)} skladeb")

In [None]:
# Projdeme všechny skladby a vypíšeme informace
for track in tracks:


---

## Otázky k zamyšlení

**Otázka 1:** Jaký je rozdíl mezi `.find()` a `.find_all()`?

In [None]:
# Vaše odpověď:
# 

**Otázka 2:** Co vrátí `.find()`, pokud element nenajde? A co vrátí `.find_all()`?

In [None]:
# Vaše odpověď:
# 

**Otázka 3:** Proč používáme `class_` místo `class` v metodě `.find()`?

In [None]:
# Vaše odpověď:
# 

---

## Oprav chyby v kódu

**Úloha 1:** Následující kód obsahuje chybu. Opravte ji.

In [None]:
# Chybný kód - opravte
from bs4 import BeautifulSoup
import requests

r = requests.get("https://www.music-to-scrape.org/")
soup = BeautifulSoup(r.text)  

**Úloha 2:** Následující kód hledá element podle třídy, ale obsahuje chybu. Opravte ji.

In [None]:
# Chybný kód - opravte
result = soup.find(class='swiper-slide') 

**Úloha 3:** Tento kód má vracet text elementu, ale nefunguje správně. Co je špatně?

In [None]:
# Chybný kód - opravte
result = soup.find_all('p')
print(result)  

---

## Úloha: Prozkoumejte webovou stránku

Otevřete stránku [https://quotes.toscrape.com/](https://quotes.toscrape.com/) a pomocí nástrojů pro vývojáře (F12 nebo pravé tlačítko myši -> Prozkoumat element) najděte:

1. Element, který obsahuje první citát na stránce
2. Napište CSS selektor pro nalezení textu citátu
3. Napište CSS selektor pro nalezení autora citátu

In [None]:
# import requests
# from bs4 import BeautifulSoup

# Vaše řešení zde:
# ..

# Najděte první citát a vypište jeho text a autora
# ...


---

## Úloha: Stáhněte všechny citáty

Na stránce [https://quotes.toscrape.com/](https://quotes.toscrape.com/) najděte všechny citáty a vypište je ve formátu:

```
"Text citátu" - Autor
```

In [None]:
# import requests
# from bs4 import BeautifulSoup

# Vaše řešení zde:
# ..

# Najděte všechny citáty a vypište je


---

## Přehled použitých metod a funkcí

| Metoda/Funkce | Popis |
|--------------|-------|
| `requests.get(url)` | Stáhne obsah webové stránky |
| `BeautifulSoup(text, 'html.parser')` | Vytvoří objekt pro parsování HTML |
| `.find(tag, id=, class_=)` | Najde první element odpovídající kritériím |
| `.find_all(tag, id=, class_=)` | Najde všechny elementy odpovídající kritériím |
| `.select_one(css_selector)` | Najde první element podle CSS selektoru |
| `.select(css_selector)` | Najde všechny elementy podle CSS selektoru |
| `.text` | Vrátí textový obsah elementu |
| `.name` | Vrátí název HTML tagu |
| `.attrs` | Vrátí slovník všech atributů elementu |
| `element['atribut']` | Vrátí hodnotu konkrétního atributu |
| `.prettify()` | Vrátí formátovaný HTML kód pro lepší čitelnost |

### CSS selektory - rychlý přehled

| Selektor | Význam |
|----------|--------|
| `div` | Element s tagem div |
| `#id` | Element s daným id |
| `.trida` | Element s danou třídou |
| `.trida1.trida2` | Element s oběma třídami |
| `[name='hodnota']` | Element s atributem name="hodnota" |

---
## Dokumentace

BeautifulSoup má velmi dobrou dokumentaci dostupnou na:
https://www.crummy.com/software/BeautifulSoup/bs4/doc/