# Python akademie

---

<br>

## Obsah lekce
---

1. [Představení](https://www.matousholinka.com),
2. [Úvod do problematiky](#Úvod-do-problematiky),
3. [Nastavení prostředí](#Nastavení-prostředí),
4. [HTML](#HTML),
5. [Postup web scrapování](#Obecný-postup-web-scrapování),
6. [Pokročilé scrapování](),

---

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse2.mm.bing.net%2Fth%3Fid%3DOIP.E7biPUYoI-y9G-YFp3eq8wHaHa%26pid%3DApi&f=1" width="200" style="margin-left:auto; margin-right:auto">

## Úvod do problematiky

---

<br>

Co je *skrejpování webu*?

Jde **o získávání dat**, které najdeš uložené na webu.

Obecně se tento proces označuje jako *web scraping*, ale jindy jej můžeš najít označený jako *data mining*, *web harvesting* atd.

<br>

###  Proč web scraping

---

Jako běžný uživatel jsi zvyklý, prohlížet obsah na webu **pomocí prohlížeče**.

Tento postup je velmi **pohodlný** a dovolí ti, nechat si vykreslovat různé obrázky, videa, texty, aj.

Ale, pokud tě **zajímají spíše data**, kterými web disponuje a ne jejich *vyrenderovaná* (vykreslená) podoba, potom je **web scraping** přesně pro tebe:
- umožňuje ti **rychle stahovat** zdrojová data,
- umožňuje ti stahovat **větší množství dat** současně,
- umožňuje ti vyhnout se **grafickému rozhraní**.

<br>

### Code sample

---

<a href="https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html" target="_blank">Odkaz pro demo</a>

```python
import requests
from bs4 import BeautifulSoup

url = "..."
```

Postup je relativně rychlý, opakovatelný.

In [1]:
import requests
from bs4 import BeautifulSoup

url = 'https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html'

odpoved_serveru = requests.get(url)

In [2]:
soup = BeautifulSoup(odpoved_serveru.text, features="html.parser")

In [3]:
vsechny_p_tagy = soup.find_all('p')

In [4]:
vsechny_p_tagy[-1].text

"It's hard to imagine a world without A Light in the Attic. This now-classic collection of poetry and drawings from Shel Silverstein celebrates its 20th anniversary with this special edition. Silverstein's humorous and creative verse can amuse the dowdiest of readers. Lemon-faced adults and fidgety kids sit still and read these rhythmic words and laugh and smile and love th It's hard to imagine a world without A Light in the Attic. This now-classic collection of poetry and drawings from Shel Silverstein celebrates its 20th anniversary with this special edition. Silverstein's humorous and creative verse can amuse the dowdiest of readers. Lemon-faced adults and fidgety kids sit still and read these rhythmic words and laugh and smile and love that Silverstein. Need proof of his genius? RockabyeRockabye baby, in the treetopDon't you know a treetopIs no safe place to rock?And who put you up there,And your cradle, too?Baby, I think someone down here'sGot it in for you. Shel, you never sounde

<br>

Co je to za knihovny `requests` a `bs4`? Máš je také k dispozici? Jak je můžeš nahrát a používat?

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse2.mm.bing.net%2Fth%3Fid%3DOIP.EvE0cAsK9bHMbis8Ki5YPQHaHa%26pid%3DApi&f=1" width="200" style="margin-left:auto; margin-right:auto">

## Nastavení prostředí

---
Nejprve potřebuješ vyřešit, co všechno pro svůj projekt potřebuješ.

Na začátku již zaznělo, že budeš potřebovat **knihovny**. Jaké knihovny to budou, jaký typ knihoven to bude a jak s ním zacházet?
<br>

### Knihovny

---

*Knihovny*  můžeš získat v podstatě dvěma způsoby:
1. **V rámci instalace**, (knihovny *zabudované*),
2. **nainstalovat ručně**, (knihovny *třetích stran*).

V podstatě jde o rozdělení, **podle původu** knihovny.

<br>

#### Zabudované knihovny

---

Tyto knihovny máš k dispozici ihned po nainstalování *interpreta* Pythonu.

Jejich **obsah** a **verze** se mohou lišit průběhem času.

Seznam těchto knihoven najdeš v <a href="https://docs.python.org/3/library/index.html" target="_blank">oficiální dokumentaci</a> (na odkaze je seznam pro verzi interpreta **3.10.4**).

<br>

#### Knihovny třetích stran

---

Zatímco některé knihovny můžeš snadno nahrát přímo na místě:

In [5]:
import uuid
import typing
import itertools

Jiné knihovny ti **přímo nahrát nepůjdou**:

In [6]:
import flask
import pandas

ModuleNotFoundError: No module named 'flask'

##### **Demo**: knihovny třetích stran v prostředí *interaktivního interpreta*.

<br>

Pokud jsi právě dostal výjimku `ModuleNotFoundError`, tak je všechno v pořádku.

<br>

Právě tyto knihovny (a mnoho dalších) jsou označovány jako *knihovny třetích stran*.

Tyto knihovny **nejsou součástí nainstalovaných** knihoven, a proto je nelze nahrát takhle jednodušše.

Je potřeba následujících kroků:
1. Nejprve je musíš **vyhledat**,
2. následně **správně nainstalovat**,
3. a **konečně používat**.

<br>

Kde je ale hledat a jak je řádně a správně nainstalovat?

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.1jYNqFlZEyuhm3apMFgIPwHaHa%26pid%3DApi&f=1" width="200" style="margin-left:auto; margin-right:auto">

## Virtuální prostředí

---

Pro **každý projekt**, který budeš v Pythonu tvořit, budeš obvykle potřebovat **různé knihovny** (jak *zabudované*, tak *třetích stran*).

```
projekty/
   ├─projekt01/  # requests
   ├─projekt02/  # requests, pandas
   ├─projekt03/  # pandas
   ├─...
   └─projektXY/
```

<br>

Nejenom různé knihovny, ale dokonce i **různé verze stejných knihoven**.
```
projekty/
   ├─projekt01/  # requests==2.21.0
   ├─projekt02/  # requests==2.19.1, pandas==1.9.0
   ├─projekt03/  # pandas==2.0.0.
   ├─...
   └─projektXY/
```

<br>

Je proto vhodné, osvojit si zdravé navýky pro práci **s různými projekty** (úlohami) a pracovat s pomocí oddělených tzv. *virtuálních prostředí*.

### Proč oddělené prostředí

---

Můžu přece všechny **knihovny nainstalovat na jedno (globální) místo**, a každý projekt bude moci využít společnou knihovnu.

**Do jisté míry** ano, **ALE**... nese s sebou spoustu komplikací.

<br>

Ty nejdůležitější jsou:
1. Problémy **s OS**,
2. Rozdílné **verze knihoven**.

<br>

### Problémy s OS

---

*Linux* a *MacOS* jsou *operační systémy*, které již předinstalovaný Python obsahují.

Ten potom pracuje s některými interními procesy, takže o nich často ani jako uživatel netušíš.

Pokud nainstaluješ knihovnu **bez virtuálního prostředí**, hrozí, že nahradíš **původní verze** těchto knihoven **novějšími verzemi** (se kterými neumí pracovat), což může vést k neočekávanému chování.

Ukázka:
```
# výpis z příkazu 'python3 -m pip list'
# tvůj OS potřebuje tyto verze knihoven

pycairo                1.16.2              
pycodestyle            2.9.0               
```

Pokud nainstaluješ novější verze těchto knihoven (*upgraduješ* je), dostaneš něco podobného:
```
pycairo                1.19.0              
pycodestyle            3.1.1               
```

Novější verze mohou často postrádat některé starší funkce a jiné objekty. Případně je jejich funkcionalita přemapována na jiné objekty.

Potom ti hrozí **neočekávané chování** běžných procesů (výjimky, logy,..), které tyto objekty potřebují.

<br>

### Rozdílné verze knihoven

---

Dalším problémem, před kterým tě *virtuální prostředí* brání, je kolize **verzí knihoven**, mezi **jednotlivými projekty**.

Ukázka:
```
   ├─projekt01/  # requests==2.21.0
   ├─projekt02/  # requests==2.19.1, ...
```

<br>

Pokud nainstaluješ (*globálně*) novější verzi knihovny `2.21.0`, můžeš ztratit některou funkcionalitu z předchozích verzí (*funkce*, *třídy*, *proměnné*, atd.)

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.3RX0BJUjo1iEcyFBi59JWQHaHa%26pid%3DApi&f=1" width="200" style="margin-left:auto; margin-right:auto" />


## Práce v příkazovém řádku

---

Vytvořit virtuální prostředí můžeš jednoduše **v příkazovém řádku**.

Často totiž **nemáš přístup ke grafickému rozhraní** (*virtuálka*, *kontejner*, *remote server*), a potom se hodí, řídit celý proces **v příkazovém řádku**.

Python disponuje knihovnou `venv`, která ti takové prostředí umožní nachystat.

<br>

### Sada příkazů

---

Nejprve zkontroluj, jestli máš nainstalovaný základní manažer balíčků **pip** a můžeš pracovat s **pythonem**:
```
python3 --version         # ověřím verzi Pythonu
python3 -m pip --version  # ověřím verzi manažera knihoven, novější zápis
pip --version             # ..starší zápis
```

<br>

Výstup ti vrátí číslo verze manažera a jeho umístění:
```
Python 3.8.10
pip 21.0.1 from ...
```

##### **Demo**: kontrola manažeru a Pythonu

<br>

Pokud máš manažer v pořádku, můžeš si **vytvořit nové virtuální prostředí**:
```
python3 -m venv moje_prvni_prostredi  # env, dev
```

<br>

Po krátké odmlce jej můžeš **aktivovat**:
```
source moje_prvni_prostredi/bin/activate   # aktivace pro Linux a MacOS
moje_prvni_prostredi\Scripts\Activate.ps1  # aktivace pro Windows
```

<br>

Aktivované virtuální prostředí poznáš podle **předepsané kulaté závorky se jménem projektu**:
```
$ source moje_prvni_prostredi/bin/activate
(moje_prvni_prostredi) $
```

##### **Demo**: aktivace prostředí

<br>

Pokud si nyní budeš chtít zkontrolovat, které **knihovny máš v nově vytvořeném prostředí**, zapiš:
```
python3 -m pip list
python3 -m pip freeze
```

<br>

Aktivní prostředí potom ukončíš příkazem:
```
deactivate
```

##### **Demo**: manipulace s manažerem

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.FNPYtWpZ9XRY2yf9Z1LqXgHaHa%26pid%3DApi&f=1" width="200" style="margin-left:auto; margin-right:auto">

### Hledání balíčků

---

Teď, když máš nachystané zázemí, můžeš začít vyhledávat jednotlivé knihovny, které ti usnadní práci.

Seznam **většiny knihoven** najdeš na <a href="https://pypi.org/" target="_blank">pypi.org</a>, což je místo, kde si komunita *Pythonistů* sdílí svoje knihovny.

#### Demo: Vyhledej knihovnu `requests`

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.1hTm5TmhnE0ctqZd13VcQAHaHa%26pid%3DApi&f=1" width="200" style="margin-left:auto; margin-right:auto"/>


### Instalace vyhledané a ověřené knihovny

---

Pokud dohledáš knihovnu, obvykle najdeš i **příkaz pro instalaci**.

Nezapomeň aktivovat virtuální prostředí a můžeš zapsat příkaz:
```
python3 -m pip install requests
```

##### **Demo**: Zobrazit knihovnu

<br>

Nyní si můžeš řádně nainstalovat knihovny z počáteční ukázky (`requests` a `bs4`).

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.U7nMjACQdKtNeiHzfc3ClwAAAA%26pid%3DApi&f=1&ipt=640454cd32d73e5ce88ac8e813def67c685f139df3f380c7c370e382947375a0&ipo=images" width="200" style="margin-left:auto; margin-right:auto" />

## Úvod do HTML

---

Než se pustíš do *scrapování* dat, potřebuješ se zorientovat v následujících krocích:
1. Jak **vyhledat data**,
2. jak **identifikovat jejich zdrojový soubor**,
3. jak **přečíst zdroj**.

### Vyhledání dat

---

Nejlepší je, rozkoukat se **pomocí prohlížeče**, ten má totiž k dispozici každý.

Zajímají tě ceny na e-shopech, ubytování, nové články?

Zapni *prohlížeč*, vyber tebou preferovaný *vyhledávací engine* a začni hledat.

<br>

### Identifikuj zdroj dat

---

Jakmile najdeš, co potřebuješ, potřebuješ pochopit, **v jaké struktuře** jsou všechna tato data poskládaná.


Většina prohlížečů disponuje schopností nahlédnout *do struktury* dat, která zobrazují.

U prohlížeče Mozilla je postup následující:
1. **Přejdeš na stránku**, která tě zajímá,
2. **pravým tlačítkem myši** klikneš kamkoliv do prostoru v okně,
3. vybereš možnost **View page source** (tedy *zobrazit zdrojový kód*).

```html
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
...
```

Následně můžeš vyčíst, že *zdrojový kód* stránky je uložený ve formátu `html`aj.

### Získání zdrojového kódu s Pythonem

---

Na začátku, stejně jako v rámci tvého prohlížeče, musíš **znát adresu**:
```python
url = "https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html"
```

Potom potřebuješ, stejně jako v prohlížeči, odeslat **správný typ požadavku**.

Jak jej ale najít?

<br>

##### **Demo**: najít, identifikovat a zobrazit požadavek v prohlížeči

In [7]:
import requests

In [8]:
url = "https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html"

In [9]:
odpoved_serveru = requests.get(url)

In [10]:
print(odpoved_serveru.status_code)

200


In [11]:
type(odpoved_serveru)

requests.models.Response

In [None]:
# dir(odpoved_serveru) --> TEXT

In [None]:
print(odpoved_serveru.text)

In [12]:
print(odpoved_serveru.text[:100])



<!DOCTYPE html>
<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![e


##### **Demo**: Odeslat požadavek v Pythonu

Jak se ale v takovém zdrojovém souboru orientovat?

Ve stavu jako je nyní, je velmi nepraktické jakkoliv **údaje uvnitř uchopit**.

<br>

### Co je to HTML

---

Tento typ souborů je opět varianta **zjednodušeného textového formátu**, který je hierarchicky uspořádný pomocí tzv. *tagů* nebo také *elementů*:
```html
<body>
<div id="menu">
    <li>
        <a href="http://XXXXXXX.cz" title="">Homepage</a>
    </li>
</div>
</body>
```
Formát `html` je velmi často používaný pro tvorbu **struktury webových stránek**

<br>

### Tagy

---

Na každém řádku si jsou nachystané prvky `html` formátu. `<div></div>` nebo `<li></li>`.

Všimni si, že jsou nachystané v párech. Jeden objekt je **otevírající** a druhý **zavírající** (většinou s lomítkem).

<br>

Takový pár, otevírající a zavírající element, často obsahují nějaký údaj:
```html
<div>   ..otevírací_tag
    Obsah
</div>  ..uzavírací_tag
```

<br>

Některé tagy jsou **zarovnané** a jiné **odsazené**:
```html
<div id="menu">
    <li>
        <a href="XYZ">Homepage</a>
        <a href="MNO">Source</a>
    </li>
</div>
```
Z toho pak vyplývá **rozdělení tagů** na:
1. **Rodičovské**, nebo také nadřazený tag `<div>`,
2. **potomky**, odsazené tagy `<li>` a `<a>`,
3. **sourozence**, tagy na stejné úrovni odsazení jako oba tagy `<a>`.

<br>

### Atributy

---

Dalším detailem, kterého si můžeš v `html` strutuře všimnout, jsou tzv. *atributy tagů*.
```html
 <!-- atribut "id"-->
<div id="menu">                    
    <li>
        <!-- atribut "href"-->
        <a href="XYZ">Homepage</a>  
        <!-- atribut "href"-->
        <a href="MNO">Source</a>    
    </li>
</div>
```
*Atributy* jsou velice podobné *mapování* u slovníků v Pythonu.

Jejich účelem je tedy přidat nějaké rozšiřující, nebo doplňující chování pro stávající **HTML tag**.

Jsou tvořené páry **klíč** a **hodnota**, spojené pomocí `=`.

<br>

Je jich celá řada, ale co se ukázky týče, vidíš:
1. `id` atribut, který slouží jako **pomocný identifikátor** v rámci celého `html`.
2. `href` atribut, který **upřesňuje odkaz**, na který tě přesune (jinam na stejné stránce, na jinou stránku, atd.).

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.TN81-g4eMnBNUlf5aVFluAHaHa%26pid%3DApi&f=1&ipt=a5e2423fe957746320e88d55fcd89d7151480ef058b6f90ce6be4ea0e781a6d3&ipo=images" width="200" style="margin-left:auto; margin-right:auto" />

## Obecný postup web scrapování
---


Celý postup **web scrapování** potom obecně rozložíš do těchto kroků:
1. ✅ Získání **zdrojového souboru** z webové adresy,
2. ❌ **rozdělení a procházení** takového zdrojového souboru (*parsování*),
3. ❌ **zpřístupnění a výběr dat** ve zdrojovém souboru, která potřebuješ,
4. ❌ (volitelné) **přesun na další stránku** a zopakovat první tři kroky.

### Rozdělení zdrojového souboru

---

*Zdrojový soubor* už získáš, ale co teď s ním?

<br>

Na první pohled je patrné, že s takovým objektem, je práce **velmi náročná**:

In [13]:
type(odpoved_serveru.text)

str

In [14]:
print(odpoved_serveru.text[:200])



<!DOCTYPE html>
<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->
<!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]-->
<!--[if


Definitivně není reálné, takový objekt *indexovat*, *slicovat*, *stridovat*.

Jak tedy obsah zdrojového souboru pohodlně **rozdělit**?

<br>

### Rozdělení dat zdrojového souboru

---

Jestli chceš soubor pohodlně procházet, budeš muset najít **další pomůcku**.

Hledáš takovou, která umí rozdělovat, nebo jinak řečeno *parsovat*, obsah `html` souborů.

In [15]:
from bs4 import BeautifulSoup as bs

In [16]:
polivka = bs(odpoved_serveru.text, "html.parser")

In [19]:
# print(polivka.prettify())

In [17]:
type(polivka)  # --> AttributeError

bs4.BeautifulSoup

Nyní, pokud máš *zdrojový soubor* rozdělený, můžeš se zaměřit **na vyhledávání konkrétních dat**.


##### **Demo**: Hledat knihovnu pro rozdělení HTML souborů

<br>

### Hledám TENTO element

---

Vzorové `html` uložené jako *string*:

In [20]:
html_doc = """
<div class="mainpage-headline">
    <a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneI"
        title="Wikipedie:Článek týdne I.">Článek týdne I.</a>
    <a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneII"
        title="Wikipedie:Článek týdne II.">Článek týdne II.</a>
</div>
"""

Jak z takového zdrojového `str` získat obsah informace **z druhého tagu** `<a>`?

`<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneII"
title="Wikipedie:Článek týdne II.">Článek týdne II.</a>`

<br>

#### Vyhledat **jménem tagu**

---

In [21]:
polivka = BeautifulSoup(html_doc, features="html.parser")

In [22]:
type(polivka)  # --> AttributeError

bs4.BeautifulSoup

In [23]:
print(polivka.div)

<div class="mainpage-headline">
<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneI" title="Wikipedie:Článek týdne I.">Článek týdne I.</a>
<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneII" title="Wikipedie:Článek týdne II.">Článek týdne II.</a>
</div>


In [24]:
print(polivka.div.text)


Článek týdne I.
Článek týdne II.



In [25]:
print(polivka.a)

<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneI" title="Wikipedie:Článek týdne I.">Článek týdne I.</a>


V takovém případě ale mohu pracovat **velice neobratně** s dalšími výskytu tohoto *elementu*.

Pokud ale stále hledáš jen **konkrétní** (druhý) **element**, může být nepříjemné, indexovat k němu nepřímo.


<br>

#### Vyhledat pomocí atributů tagů metodou `find`

---

Pokud má element doplňující atributy, můžeš vyhledávat právě pomocí jejich **jmen a hodnot**

```html
<div class="mainpage-headline">
<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneI" title="Wikipedie:Článek týdne I.">Článek týdne I.</a>
<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneII" title="Wikipedie:Článek týdne II.">Článek týdne II.</a>
</div>
```

In [None]:
# help(polivka.find)

In [26]:
print(polivka.find('a'))  # Ekvivalent: polivka.a

<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneI" title="Wikipedie:Článek týdne I.">Článek týdne I.</a>


In [31]:
# polivka.find?

In [30]:
print(polivka.find("a", attrs={"title": "Wikipedie:Článek týdne II."}))

<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneII" title="Wikipedie:Článek týdne II.">Článek týdne II.</a>


In [33]:
hledany_tag_a = polivka.find("a", {"title": "Wikipedie:Článek týdne II.",
                                   "href": "/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneII"})

In [34]:
type(hledany_tag_a)

bs4.element.Tag

<br>

#### Vyhledat pomocí metody `select`

---

Metoda `select` ti umožňuje vyhledávat pomocí tzv. **CSS selektoru**:

In [None]:
# Nakopíruj CSS Selector

#### [Demo: Selekce hlavního článku, Kinobox](https://www.kinobox.cz/)

In [35]:
import requests
from bs4 import BeautifulSoup

In [36]:
odpoved_serveru = requests.get("https://www.kinobox.cz/")

In [37]:
soup_kinobox = BeautifulSoup(odpoved_serveru.text, features="html.parser")

In [None]:
#__next > div.Container_container__n_f3b.BaseLayout_content__oMGnj > div.BaseLayout_wrap__mYZGo > div.index_mainArticle__PzsmR > a > article > div > strong

In [38]:
strong_tag_uvodni_clanek = soup_kinobox.select(".index_mainArticle__PzsmR > a:nth-child(1) > article:nth-child(1) > div:nth-child(2) > strong:nth-child(2)")

In [40]:
copy_strong_tag_uvodni_clanek_ = soup_kinobox.select("#__next > div.Container_container__n_f3b.BaseLayout_content__oMGnj > div.BaseLayout_wrap__mYZGo > div.index_mainArticle__PzsmR > a > article > div > strong")

In [None]:
print(type(strong_tag_uvodni_clanek))  # ResultSet ~ list

In [39]:
print(strong_tag_uvodni_clanek)        # ResultSet ~ list

[<strong>Kathleen Turner byste dnes nepoznali. Nezkrotná diva s hlubokým hlasem je stále unikátní osobností</strong>]


In [43]:
print(copy_strong_tag_uvodni_clanek_[0].text)

Kathleen Turner byste dnes nepoznali. Nezkrotná diva s hlubokým hlasem je stále unikátní osobností


In [None]:
print(strong_tag_uvodni_clanek[0])

In [None]:
print(type(strong_tag_uvodni_clanek[0]))

In [None]:
print(strong_tag_uvodni_clanek[0].text)

<br>

### Souhrn prohledávání HTML struktury

Jaké jsou tedy způsoby, jak vyhledat jednotlivé tagy:
1. Vyhledat **jménem tagu**,  `print(soup.div)`
2. Vyhledat pomocí *atributů tagů* metodou **find**, `print(soup.find("a"))`
3. Vyhledat pomocí metody **select**. `print(soup.select("#unikatni > html > prvek"))`

<br>

### Hledám TYTO elementy

---

Metoda `find_all` ti také pomáhá projít zdrojový kód.

Třeba pokud potřebuješ najít **všechny elementy s určitým atributem** (případně pomocí *XPath*)

V ukázce prohledej HTML string a najdi všechny tagy s atributem `class=topic_main`:

In [44]:
html_doc_2 = """
<div class="mainpage-left">
    <a class="topic">Tady je první článek...</a>
</div>
<div class="mainpage-block aow-container">
    <a class="topic">Tady je druhý článek...</a>
</div>
<div class="mainpage-headline">
    <a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdne" title="Wikipedie:Článek týdne">Článek týdne</a>
    <a class="topic_main">XXXXX...</a>
</div>
<div class="mainpage-content">
     <a class="topic_main">Příjmení Ugandského trenéra ženského lakrosu je...</a>
</div>
<div class="mainpage-footer">
    <a title="Wikipedie:Nejlepší články">Nejlepší články</a>
    <a title="Wikipedie:Dobré články">Dobré články</a>
    <a title="Wikipedie:Článek týdne/2022">Další články týdne…</a>
</div>
"""

In [45]:
polivka = BeautifulSoup(html_doc_2, features="html.parser")

In [47]:
vsechny_a_tagy = polivka.find_all("a")

In [49]:
from pprint import pprint
pprint(vsechny_a_tagy)

[<a class="topic">Tady je první článek...</a>,
 <a class="topic">Tady je druhý článek...</a>,
 <a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdne" title="Wikipedie:Článek týdne">Článek týdne</a>,
 <a class="topic_main">XXXXX...</a>,
 <a class="topic_main">Příjmení Ugandského trenéra ženského lakrosu je...</a>,
 <a title="Wikipedie:Nejlepší články">Nejlepší články</a>,
 <a title="Wikipedie:Dobré články">Dobré články</a>,
 <a title="Wikipedie:Článek týdne/2022">Další články týdne…</a>]


In [50]:
vsechny_a_tagy_topic_main = polivka.find_all("a", attrs={"class": "topic_main"})

In [52]:
pprint(vsechny_a_tagy_topic_main)

[<a class="topic_main">XXXXX...</a>,
 <a class="topic_main">Příjmení Ugandského trenéra ženského lakrosu je...</a>]


In [53]:
type(vsechny_a_tagy_topic_main)

bs4.element.ResultSet

In [55]:
# vsechny_a_tagy_topic_main.text

In [56]:
vsechny_clanky = frozenset([clanek.text for clanek in vsechny_a_tagy_topic_main])

In [57]:
print(vsechny_clanky)

frozenset({'XXXXX...', 'Příjmení Ugandského trenéra ženského lakrosu je...'})


<br>

#### Prozkoumání vyhledaného elementu

---

Pokud najdeš element, který potřebuješ, můžeš je **důkladněji prozkoumat**:

In [59]:
potomek_a = vsechny_a_tagy_topic_main[0]

In [60]:
potomek_a

<a class="topic_main">XXXXX...</a>

In [61]:
vsichni_potomci_a = potomek_a.findChildren()

In [63]:
posledni_div_footer = polivka.find('div', attrs={"class": "mainpage-footer"})

In [65]:
print(posledni_div_footer.prettify())

<div class="mainpage-footer">
 <a title="Wikipedie:Nejlepší články">
  Nejlepší články
 </a>
 <a title="Wikipedie:Dobré články">
  Dobré články
 </a>
 <a title="Wikipedie:Článek týdne/2022">
  Další články týdne…
 </a>
</div>



In [67]:
pprint(posledni_div_footer.findChildren())

[<a title="Wikipedie:Nejlepší články">Nejlepší články</a>,
 <a title="Wikipedie:Dobré články">Dobré články</a>,
 <a title="Wikipedie:Článek týdne/2022">Další články týdne…</a>]


In [69]:
prvni_tag_footer_a = posledni_div_footer.findChildren()[0]

In [70]:
prvni_tag_footer_a

<a title="Wikipedie:Nejlepší články">Nejlepší články</a>

In [72]:
prvni_tag_footer_a.attrs            # slovník jmen a hodnot všech atributů

{'title': 'Wikipedie:Nejlepší články'}

In [75]:
prvni_tag_footer_a.attrs['title'].startswith('Wikipedie')            # slovník jmen a hodnot všech atributů

True

In [76]:
prvni_tag_footer_a.get("title")     # metoda "get", hledáš atribut "href"

'Wikipedie:Nejlepší články'

In [77]:
prvni_tag_footer_a.get("class")     # metoda "get", hledáš atribut "href"

In [78]:
prvni_tag_footer_a.get_text()       # metoda "get_text" ti přečte obsah text elementu --> text

'Nejlepší články'

<br>

### 🧠 CVIČENÍ 🧠, Vyzkoušej si práci s *scrapováním*:

Pro zadané URL vyscrapuj tabulku s detaily o knize.

Extrahuj informace jako cena s daní, cena bez daně, množství skladem atd.

In [106]:
import bs4
import requests
from typing import Dict

In [88]:
url = 'https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html'
urls = (
    'https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html',
    'https://books.toscrape.com/catalogue/.../index.html'
)

In [125]:
def fetch_raw_html(url: str) -> requests.Response:
    return requests.get(url)


def parse_raw_html(response: requests.Response,
                   selected_parser: str = 'html.parser') -> bs4.BeautifulSoup:
    if not response:
        return None

    return bs4.BeautifulSoup(response.text, features=selected_parser)


def find_table_element(soup: bs4.BeautifulSoup,
                       tag_name: str = 'table',
                       tag_attributes: Dict[str, str] = {"class":"table table-striped"}
                      ) -> bs4.element.Tag:
    return soup.find(tag_name, attrs=tag_attributes)


# process tag_table
# def ...


def fetch_book_set(seq: List[str]) -> bs4.BeautifulSoup:
    for url in seq:
        url_response = fetch_raw_html(url=url)
        url_soup = parse_raw_html(response=url_response)
        # ...

In [95]:
response_with_book_details = fetch_raw_html(url=url)

In [99]:
response_with_book_details.ok  # 200, 201, 202

True

In [100]:
soup = parse_raw_html(response=response_with_book_details)

In [117]:
tag_table = soup.find('table', attrs={"class":"table table-striped"})

In [122]:
book_details = dict()

In [123]:
for tag_tr in tag_table.find_all('tr'):
    try:
        th_value = 
        td_value = 
    except:
        pass
    else:
        book_details[tag_tr.th.text] = tag_tr.td.text

In [124]:
book_details

{'UPC': 'a897fe39b1053632',
 'Product Type': 'Books',
 'Price (excl. tax)': 'Â£51.77',
 'Price (incl. tax)': 'Â£51.77',
 'Tax': 'Â£0.00',
 'Availability': 'In stock (22 available)',
 'Number of reviews': '0'}

<details>
  <summary>▶️ Klikni zde pro zobrazení řešení</summary>
   
```python
url = 'https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html'

response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
tbody = soup.select('.table')
for element in tbody[0].find_all('td'):
    print(element.get_text())
```
</details>

<br>

## Pokročilé scrapování

---

Doposud tedy umíš práci s jedním odkazem:

In [79]:
import time

import requests
from bs4 import BeautifulSoup

In [80]:
def ziskej_odpoved_serveru(url: str) -> requests.models.Response:
    return requests.get(url)

In [81]:
odpoved_1 = ziskej_odpoved_serveru('http://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html')

In [82]:
odpoved_1.status_code

200

In [None]:
# odpoved_1.text

<br>

Pokud potřebuješ *scrapovat* několik různých adres, můžeš si vypomoct smyčkou:

In [83]:
def ziskej_odpoved_serveru() -> list:
    urls = [
        'http://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html',
        'http://books.toscrape.com/catalogue/tipping-the-velvet_999/index.html',
        'http://books.toscrape.com/catalogue/soumission_998/index.html',
        'http://books.toscrape.com/catalogue/sharp-objects_997/index.html',
        'http://books.toscrape.com/catalogue/sapiens-a-brief-history-of-humankind_996/index.html',
        'http://books.toscrape.com/catalogue/the-requiem-red_995/index.html',
        'http://books.toscrape.com/catalogue/the-dirty-little-secrets-of-getting-your-dream-job_994/index.html',
        'http://books.toscrape.com/catalogue/the-coming-woman-a-novel-based-on-the-life-of-the-infamous-feminist-victoria-woodhull_993/index.html'
    ]
    return [requests.get(url) for url in urls]

<br>

Při takové dávce je vhodné měřit si dobu běhu skriptu, příp. evidovat úspěšné a neúspěšné *scrapování*.

In [84]:
def main(fce: callable) -> None:
    start = time.perf_counter()
    fce()
    stop = time.perf_counter()
    print(f"Celkem: {stop - start:.2f} sek")

In [85]:
main(ziskej_odpoved_serveru)

Celkem: 2.56 sek


To ti později může prozradit, jestli všechno doběhlo úspěšně.

Případně pokud některý z pokusů o dotazování serveru selhal, dozvíš se to.

<br>

### Pseu-paralelní zpracování
---

V této situaci ale probíhá dotazování *sériově*.

Tvůj skript tedy čeká, jakmile skončí první dotaz a následně pošle další.

Práce se soubory, práce s packety, interpret vždy čeká.

Je jedno **jak rychlý skriptovací jazyk** použiješ, webový server se musí nejprve vyjádřit.

In [None]:
import time
import asyncio

import httpx

In [None]:
async def ziskej_odpoved_serveru():
    urls = [
        'http://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html',
        'http://books.toscrape.com/catalogue/tipping-the-velvet_999/index.html',
        'http://books.toscrape.com/catalogue/soumission_998/index.html',
        'http://books.toscrape.com/catalogue/sharp-objects_997/index.html',
        'http://books.toscrape.com/catalogue/sapiens-a-brief-history-of-humankind_996/index.html',
        'http://books.toscrape.com/catalogue/the-requiem-red_995/index.html',
        'http://books.toscrape.com/catalogue/the-dirty-little-secrets-of-getting-your-dream-job_994/index.html',
        'http://books.toscrape.com/catalogue/the-coming-woman-a-novel-based-on-the-life-of-the-infamous-feminist-victoria-woodhull_993/index.html'
    ]

    async with httpx.AsyncClient() as client:
        requests_ = [client.get(url) for url in urls]  # requests.get()
        response = await asyncio.gather(*requests_)

Knihovna `asyncio` nabízí v kombinaci s knihovnou `httpx` šikovné řešení:
1. Definuješ funkci s `async def`, tím interpretu oznámíš, že chceš vytvořit uživatelskou funkci, která musí umět běžet paralelně,
2. pomocí `async with` vytvoříš dočasnou *session*, během které dojde ke sbírání odpovědi serveru/serverů,
3. lze řešení dopsat i pomocí knihovny `requests`, to ale není tak čitelné,
4. vytvoříš objekt s `await`, který čeká, než všechny paralelní procesy doběhnou.

In [None]:
if __name__ == '__main__':
    start = time.perf_counter()
    asyncio.run(ziskej_odpoved_serveru())
    stop = time.perf_counter()
    print(f"Celkem: {stop - start:.2f} sek")

In [86]:
%%file ../onsite/async_scrape.py

import time
import asyncio

import httpx


async def ziskej_odpoved_serveru():
    urls = [
        'http://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html',
        'http://books.toscrape.com/catalogue/tipping-the-velvet_999/index.html',
        'http://books.toscrape.com/catalogue/soumission_998/index.html',
        'http://books.toscrape.com/catalogue/sharp-objects_997/index.html',
        'http://books.toscrape.com/catalogue/sapiens-a-brief-history-of-humankind_996/index.html',
        'http://books.toscrape.com/catalogue/the-requiem-red_995/index.html',
        'http://books.toscrape.com/catalogue/the-dirty-little-secrets-of-getting-your-dream-job_994/index.html',
        'http://books.toscrape.com/catalogue/the-coming-woman-a-novel-based-on-the-life-of-the-infamous-feminist-victoria-woodhull_993/index.html'
    ]

    async with httpx.AsyncClient() as client:
        requests_ = [client.get(url) for url in urls]  # requests.get()
        response = await asyncio.gather(*requests_)


if __name__ == '__main__':
    start = time.perf_counter()
    asyncio.run(ziskej_odpoved_serveru())
    stop = time.perf_counter()
    print(f"Celkem: {stop - start:.2f} sek")

Overwriting ../onsite/async_scrape.py


Skript můžeš spustit pomocí funkce, nebo v globálním rámci.

Nezapomeň, že **nemůžeš funkci pouze zavolat** `ziskej_odpoved_serveru()`.

Potřebuješ speciální objekt, který funkce spustí paralelně, proto `asyncio.run(ziskej_odpoved_serveru())`.

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.BBYDDcyo1BO9TxZqxzZX6gHaHa%26pid%3DApi&f=1&ipt=5edc01f667235b4af7098001788646bd7f3be32a4c0fe5ddd409f4c431acc546&ipo=images" width="200" style="margin-left:auto; margin-right:auto" />

## Domácí úloha

---

#### Pokémoni

---

In [None]:
import requests
from bs4 import BeautifulSoup


def ziskej_odpoved_serveru(jmeno: str, defaultni_adresa: str = 'https://pokemondb.net/pokedex/'):
    return requests.get(f"{defaultni_adresa}{jmeno}")


def ziskej_uvodni_text(odpoved_serveru: str, hledany_tag: str):
    polivka = BeautifulSoup(odpoved_serveru, features='html.parser')
    return polivka.find_all(hledany_tag)


def spoj_texty(rozdelene_texty) -> str:
    spojene_texty = [obsah_tagu.text for obsah_tagu in rozdelene_texty[:2]]
    return ' '.join(spojene_texty)

In [None]:
def main(*args):
    for jmeno in args:
        odpoved = ziskej_odpoved_serveru(jmeno.lower())
        texty = ziskej_uvodni_text(odpoved.text, 'p')
        print(spoj_texty(texty))

In [None]:
main('Bulbasaur')

In [None]:
main('Squirtle', 'Bulbasaur', 'Charmander')

<br>

### Články IDNES
---

Napiš skript, který postahuje všechny aktuální články na zadané *webové adrese*.

Ukázka po spuštění:
```
python ukol_lekce09.py
 1. Ukrajinci plánovali větší ofenzivu. Ale Američané je vyzvali, aby ji omezili
 2. Učitel: Kázeň, dřina a dril na školy patří. Řád je efektivní, nejde si jen hrát
 3. Generálu Pavlovi radí s krizí nový tým expertů. Vede ho exguvernér ČNB Tůma
 ...
```

**Poznámka,** texty článků se mohou samozřejmě lišit.

In [None]:
import requests
from bs4 import BeautifulSoup

url = "https://www.idnes.cz/"

# získat zdrojový soubor HTML
odpoved_idnes = requests.get(url)  # "models.Response"

# rozdělit zdrojový soubor
soup = BeautifulSoup(odpoved_idnes.text, features="html.parser")

# najít hledané články
vsechny_a_tagy_artlink = soup.find_all("a", {"class": "art-link"})

# zpracovat: print(), csv, href
for index, clanek in enumerate(vsechny_a_tagy_artlink, 1):
    print(index,
          # clanek.attrs.get("href"),
          clanek.get_text().strip())

<br>

<a href='https://forms.gle/8mTwQZWpUwLDd4a49' target='_blank'>Rychlý dotazníček po lekci</a>

---