# Python akademie, pokročilí

<br>

## Obsah

---


1. [Představení](https://www.matousholinka.com),
1. [Úvod do problematiky](#Úvod-do-problematiky),
2. [Nastavení prostředí](#Nastavení-prostředí),
4. [HTML](#HTML),
5. [Postup web scrapování](#Obecný-postup-web-scrapování),
6. [Pokročilé scrapování](),
7. [Domácí úloha](#Domácí-úloha).

---

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse2.mm.bing.net%2Fth%3Fid%3DOIP.E7biPUYoI-y9G-YFp3eq8wHaHa%26pid%3DApi&f=1" width="200" style="margin-left:auto; margin-right:auto">

## Úvod do problematiky

---

<br>

Co je *skrejpování webu*?

Jde **o získávání dat**, které najdeš uložené na webu.

Obecně se tento proces označuje jako *web scraping*, ale jindy jej můžeš najít označený jako *data mining*, *web harvesting* atd.

<br>

###  Proč web scraping

---

Jako běžný uživatel jsi zvyklý, prohlížet obsah na webu **pomocí prohlížeče**.

Tento postup je velmi **pohodlný** a dovolí ti, nechat si vykreslovat různé obrázky, videa, texty, aj.

Ale, pokud tě **zajímají spíše data**, kterými web disponuje a ne jejich *vyrenderovaná* (vykreslená) podoba, potom je **web scraping** přesně pro tebe:
- umožňuje ti **rychle stahovat** zdrojová data,
- umožňuje ti stahovat **větší množství dat** současně,
- umožňuje ti vyhnout se **grafickému rozhraní**.

<br>

### Code sample

---

<a href="https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html" target="_blank">Odkaz pro demo</a>

```python
import requests
from bs4 import BeautifulSoup

url = "..."
```

Postup je relativně rychlý, opakovatelný.

In [1]:
%pip install requests beautifulsoup4

Note: you may need to restart the kernel to use updated packages.


In [2]:
import requests
from bs4 import BeautifulSoup

url = 'https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html'

odpoved_serveru = requests.get(url)

In [3]:
print(odpoved_serveru)

<Response [200]>


In [4]:
print(type(odpoved_serveru))

<class 'requests.models.Response'>


In [5]:
print(dir(odpoved_serveru))

['__attrs__', '__bool__', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__nonzero__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_content', '_content_consumed', '_next', 'apparent_encoding', 'close', 'connection', 'content', 'cookies', 'elapsed', 'encoding', 'headers', 'history', 'is_permanent_redirect', 'is_redirect', 'iter_content', 'iter_lines', 'json', 'links', 'next', 'ok', 'raise_for_status', 'raw', 'reason', 'request', 'status_code', 'text', 'url']


In [6]:
print(odpoved_serveru.text)



<!DOCTYPE html>
<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->
<!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]-->
<!--[if IE 8]>         <html lang="en-us" class="no-js lt-ie9"> <![endif]-->
<!--[if gt IE 8]><!--> <html lang="en-us" class="no-js"> <!--<![endif]-->
    <head>
        <title>
    A Light in the Attic | Books to Scrape - Sandbox
</title>

        <meta http-equiv="content-type" content="text/html; charset=UTF-8" />
        <meta name="created" content="24th Jun 2016 09:29" />
        <meta name="description" content="
    It&#39;s hard to imagine a world without A Light in the Attic. This now-classic collection of poetry and drawings from Shel Silverstein celebrates its 20th anniversary with this special edition. Silverstein&#39;s humorous and creative verse can amuse the dowdiest of readers. Lemon-faced adults and fidgety kids sit still and read these rhythmic words and laugh and smile and lov

In [8]:
soup = BeautifulSoup(odpoved_serveru.text, features="html.parser")

In [9]:
print(soup)


<!DOCTYPE html>

<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->
<!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]-->
<!--[if IE 8]>         <html lang="en-us" class="no-js lt-ie9"> <![endif]-->
<!--[if gt IE 8]><!--> <html class="no-js" lang="en-us"> <!--<![endif]-->
<head>
<title>
    A Light in the Attic | Books to Scrape - Sandbox
</title>
<meta content="text/html; charset=utf-8" http-equiv="content-type"/>
<meta content="24th Jun 2016 09:29" name="created"/>
<meta content="
    It's hard to imagine a world without A Light in the Attic. This now-classic collection of poetry and drawings from Shel Silverstein celebrates its 20th anniversary with this special edition. Silverstein's humorous and creative verse can amuse the dowdiest of readers. Lemon-faced adults and fidgety kids sit still and read these rhythmic words and laugh and smile and love th It's hard to imagine a world without A Light in the Attic. Th

In [10]:
vsechny_p_tagy = soup.find_all('p')

In [11]:
vsechny_p_tagy[-1].text

"It's hard to imagine a world without A Light in the Attic. This now-classic collection of poetry and drawings from Shel Silverstein celebrates its 20th anniversary with this special edition. Silverstein's humorous and creative verse can amuse the dowdiest of readers. Lemon-faced adults and fidgety kids sit still and read these rhythmic words and laugh and smile and love th It's hard to imagine a world without A Light in the Attic. This now-classic collection of poetry and drawings from Shel Silverstein celebrates its 20th anniversary with this special edition. Silverstein's humorous and creative verse can amuse the dowdiest of readers. Lemon-faced adults and fidgety kids sit still and read these rhythmic words and laugh and smile and love that Silverstein. Need proof of his genius? RockabyeRockabye baby, in the treetopDon't you know a treetopIs no safe place to rock?And who put you up there,And your cradle, too?Baby, I think someone down here'sGot it in for you. Shel, you never sounde

<br>

Co je to za knihovny `requests` a `bs4`? Máš je také k dispozici? Jak je můžeš nahrát a používat?

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse2.mm.bing.net%2Fth%3Fid%3DOIP.EvE0cAsK9bHMbis8Ki5YPQHaHa%26pid%3DApi&f=1" width="200" style="margin-left:auto; margin-right:auto">

## Nastavení prostředí

---
Nejprve potřebuješ vyřešit, co všechno pro svůj projekt potřebuješ.

Na začátku již zaznělo, že budeš potřebovat **knihovny**. Jaké knihovny to budou, jaký typ knihoven to bude a jak s ním zacházet?
<br>

### Knihovny

---

*Knihovny*  můžeš získat v podstatě dvěma způsoby:
1. **V rámci instalace**, (knihovny *zabudované*),
2. **nainstalovat ručně**, (knihovny *třetích stran*).

V podstatě jde o rozdělení, **podle původu** knihovny.

<br>

#### Zabudované knihovny

---

Tyto knihovny máš k dispozici ihned po nainstalování *interpreta* Pythonu.

Jejich **obsah** a **verze** se mohou lišit průběhem času.

Seznam těchto knihoven najdeš v <a href="https://docs.python.org/3/library/index.html" target="_blank">oficiální dokumentaci</a> (na odkaze je seznam pro verzi interpreta **3.10.4**).

<br>

#### Knihovny třetích stran

---

Zatímco některé knihovny můžeš snadno nahrát přímo na místě:

In [12]:
import uuid
import typing
import itertools

Jiné knihovny ti **přímo nahrát nepůjdou**:

In [13]:
import flask
import pandas

ModuleNotFoundError: No module named 'flask'

##### **Demo**: knihovny třetích stran v prostředí *interaktivního interpreta*.

<br>

Pokud jsi právě dostal výjimku `ModuleNotFoundError`, tak je všechno v pořádku.

<br>

Právě tyto knihovny (a mnoho dalších) jsou označovány jako *knihovny třetích stran*.

Tyto knihovny **nejsou součástí nainstalovaných** knihoven, a proto je nelze nahrát takhle jednodušše.

Je potřeba následujících kroků:
1. Nejprve je musíš **vyhledat**,
2. následně **správně nainstalovat**,
3. a **konečně používat**.

<br>

Kde je ale hledat a jak je řádně a správně nainstalovat?

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.1jYNqFlZEyuhm3apMFgIPwHaHa%26pid%3DApi&f=1" width="200" style="margin-left:auto; margin-right:auto">

## Virtuální prostředí

---

Pro **každý projekt**, který budeš v Pythonu tvořit, budeš obvykle potřebovat **různé knihovny** (jak *zabudované*, tak *třetích stran*).

```
projekty/
   ├─projekt01/  # requests
   ├─projekt02/  # requests, pandas
   ├─projekt03/  # pandas
   ├─...
   └─projektXY/
```

<br>

Nejenom různé knihovny, ale dokonce i **různé verze stejných knihoven**.
```
projekty/
   ├─projekt01/  # requests==2.21.0
   ├─projekt02/  # requests==2.19.1, pandas==1.9.0
   ├─projekt03/  # pandas==2.0.0.
   ├─...
   └─projektXY/
```

<br>

Je proto vhodné, osvojit si zdravé navýky pro práci **s různými projekty** (úlohami) a pracovat s pomocí oddělených tzv. *virtuálních prostředí*.

### Proč oddělené prostředí

---

Můžu přece všechny **knihovny nainstalovat na jedno (globální) místo**, a každý projekt bude moci využít společnou knihovnu.

**Do jisté míry** ano, **ALE**... nese s sebou spoustu komplikací.

<br>

Ty nejdůležitější jsou:
1. Problémy **s OS**,
2. Rozdílné **verze knihoven**.

<br>

### Problémy s OS

---

*Linux* a *MacOS* jsou *operační systémy*, které již předinstalovaný Python obsahují.

Ten potom pracuje s některými interními procesy, takže o nich často ani jako uživatel netušíš.

Pokud nainstaluješ knihovnu **bez virtuálního prostředí**, hrozí, že nahradíš **původní verze** těchto knihoven **novějšími verzemi** (se kterými neumí pracovat), což může vést k neočekávanému chování.

Ukázka:
```
# výpis z příkazu 'python3 -m pip list'
# tvůj OS potřebuje tyto verze knihoven

pycairo                1.16.2              
pycodestyle            2.9.0               
```

Pokud nainstaluješ novější verze těchto knihoven (*upgraduješ* je), dostaneš něco podobného:
```
pycairo                1.19.0              
pycodestyle            3.1.1               
```

Novější verze mohou často postrádat některé starší funkce a jiné objekty. Případně je jejich funkcionalita přemapována na jiné objekty.

Potom ti hrozí **neočekávané chování** běžných procesů (výjimky, logy,..), které tyto objekty potřebují.

<br>

### Rozdílné verze knihoven

---

Dalším problémem, před kterým tě *virtuální prostředí* chrání, je kolize **verzí knihoven**, mezi **jednotlivými projekty**.

Ukázka:
```
   ├─projekt01/  # requests==2.21.0
   ├─projekt02/  # requests==2.19.1, ...
```

<br>

Pokud nainstaluješ (*globálně*) novější verzi knihovny `2.21.0`, můžeš ztratit některou funkcionalitu z předchozích verzí (*funkce*, *třídy*, *proměnné*, atd.)

### Verzování

---

1. **Co je sémantické verzování (Semantic Versioning, SemVer)?**  
   Standardní způsob označování verzí softwaru, který jasně komunikuje typ provedených změn. Formát verzí je: **<span style="color:red;">MAJOR</span>.<span style="color:blue;">MINOR</span>.<span style="color:green;">PATCH</span>**.

2. **Formát verzí:**
   - **<span style="color:red;">MAJOR</span>**: Zvyšuje se při změnách, které nejsou zpětně kompatibilní.
   - **<span style="color:blue;">MINOR</span>**: Zvyšuje se při přidání nových funkcionalit, které jsou zpětně kompatibilní.
   - **<span style="color:green;">PATCH</span>**: Zvyšuje se při opravě chyb nebo drobných změnách, které nemění funkcionalitu.

3. **Hlavní výhody:**
   - Jasná komunikace o typu změn.
   - Snadnější správa závislostí v projektech.
   - Podpora automatizace při nasazování verzí.

4. **Pravidla sémantického verzování:**
   - Počáteční verze `0.x.y` označuje vývojovou fázi, kdy není garantována stabilita API.
   - Verze `1.0.0` a vyšší už musí dodržovat zpětnou kompatibilitu podle definovaných pravidel.
   - S verzí je možné použít doplňující metadata (např. `1.0.0-beta` pro označení předběžné verze).

5. **Použití v praxi:**
   - Sémantické verzování se běžně využívá v balíčkovacích systémech (např. npm, pip).
   - Umožňuje vývojářům efektivně spravovat a aktualizovat závislosti.

6. **Klíčové zásady:**
   - Pokud měníte API nekompatibilním způsobem → zvýšit **<span style="color:red;">MAJOR</span>**.
   - Pokud přidáváte nové funkce bez porušení kompatibility → zvýšit **<span style="color:blue;">MINOR</span>**.
   - Pokud opravujete chyby → zvýšit **<span style="color:green;">PATCH</span>**.


7. **Metadata verzí v sémantickém verzování**

   Kromě hlavní verze **<span style="color:red;">MAJOR</span>.<span style="color:blue;">MINOR</span>.<span style="color:green;">PATCH</span>** může sémantické verzování obsahovat další metadata, která označují stav vývoje verze. Tato metadata se zapisují za číslo verze oddělené pomlčkou (`-`) nebo pluskem (`+`).

   **Běžné typy metadat**

      1. **Alpha (`-alpha`)**  
         - Označuje **ranou verzi**, která je obvykle velmi nestabilní a může obsahovat mnoho chyb.  
         - Verze alpha je určená převážně pro interní testování a základní kontrolu funkcí.  
         - Například: `1.0.0-alpha`, `1.0.0-alpha.1`.

      2. **Beta (`-beta`)**  
         - Označuje **pokročilejší fázi vývoje**, která je stále nestabilní, ale obsahuje většinu zamýšlených funkcí.  
         - Verze beta je obvykle sdílena s testery nebo komunitou pro širší zpětnou vazbu.  
         - Například: `1.0.0-beta`, `1.0.0-beta.2`.

      3. **Release Candidate (RC, `-rc`)**  
         - Označuje **verzi připravenou k vydání**, která je již stabilní a po odstranění drobných problémů bude vydána jako finální.  
         - Vhodné pro finální testování před veřejným uvedením.  
         - Například: `1.0.0-rc`, `1.0.0-rc.3`.

      4. **Final (`-`)**  
         - Pokud verze nemá žádné speciální označení, jedná se o **stabilní vydání**, určené pro široké použití.  
         - Například: `1.0.0`.

   **Doplňková metadata**

      5. **Build metadata (`+build`)**  
         - Metadata označená znaménkem `+` slouží k popisu sestavení. Nemají vliv na řazení verzí.  
         - Například: `1.0.0+001`, `1.0.0+exp.sha.5114f85`.

      6. **Experimental (`-exp`)**  
         - Používá se pro verze, které obsahují experimentální funkce, neověřené nebo dočasné změny.  
         - Například: `1.0.0-exp.1`.

      7. **Hotfix (`-hotfix`)**  
         - Označuje opravy provedené na finální stabilní verzi.  
         - Například: `1.0.0-hotfix.1`.

      **Řazení verzí s metadaty**

      - Předběžné verze (alpha, beta, rc) mají **nižší prioritu** než finální verze.  
      - Příklad pořadí verzí:  
      `1.0.0-alpha` < `1.0.0-alpha.1` < `1.0.0-beta` < `1.0.0-beta.2` < `1.0.0-rc` < `1.0.0`.


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.3RX0BJUjo1iEcyFBi59JWQHaHa%26pid%3DApi&f=1" width="200" style="margin-left:auto; margin-right:auto" />


## Práce v příkazovém řádku

---

Vytvořit virtuální prostředí můžeš jednoduše **v příkazovém řádku**.

Často totiž **nemáš přístup ke grafickému rozhraní** (*virtuálka*, *kontejner*, *remote server*), a potom se hodí, řídit celý proces **v příkazovém řádku**.

Python disponuje knihovnou `venv`, která ti takové prostředí umožní nachystat.

<br>

### Sada příkazů

---

Nejprve zkontroluj, jestli máš nainstalovaný základní manažer balíčků **pip** a můžeš pracovat s **pythonem**:
```
python3 --version         # ověřím verzi Pythonu
python3 -m pip --version  # ověřím verzi manažera knihoven, novější zápis
pip --version             # ..starší zápis
```

<br>

Výstup ti vrátí číslo verze manažera a jeho umístění:
```
Python 3.8.10
pip 21.0.1 from ...
```

##### **Demo**: kontrola manažeru a Pythonu

<br>

Pokud máš manažer v pořádku, můžeš si **vytvořit nové virtuální prostředí**:
```
python3 -m venv moje_prvni_prostredi  # env, dev
```

<br>

Po krátké odmlce jej můžeš **aktivovat**:
```
source moje_prvni_prostredi/bin/activate   # aktivace pro Linux a MacOS
moje_prvni_prostredi\Scripts\Activate.ps1  # aktivace pro Windows
```

<br>

Aktivované virtuální prostředí poznáš podle **předepsané kulaté závorky se jménem projektu**:
```
$ source moje_prvni_prostredi/bin/activate
(moje_prvni_prostredi) $
```

##### **Demo**: aktivace prostředí

<br>

Pokud si nyní budeš chtít zkontrolovat, které **knihovny máš v nově vytvořeném prostředí**, zapiš:
```
python3 -m pip list
python3 -m pip freeze
```

<br>

Aktivní prostředí potom ukončíš příkazem:
```
deactivate
```

##### **Demo**: manipulace s manažerem

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.FNPYtWpZ9XRY2yf9Z1LqXgHaHa%26pid%3DApi&f=1" width="200" style="margin-left:auto; margin-right:auto">

### Hledání balíčků

---

Teď, když máš nachystané zázemí, můžeš začít vyhledávat jednotlivé knihovny, které ti usnadní práci.

Seznam **většiny knihoven** najdeš na <a href="https://pypi.org/" target="_blank">pypi.org</a>, což je místo, kde si komunita *Pythonistů* sdílí svoje knihovny.

#### Demo: Vyhledej knihovnu `requests`

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.1hTm5TmhnE0ctqZd13VcQAHaHa%26pid%3DApi&f=1" width="200" style="margin-left:auto; margin-right:auto"/>


### Instalace vyhledané a ověřené knihovny

---

Pokud dohledáš knihovnu, obvykle najdeš i **příkaz pro instalaci**.

Nezapomeň aktivovat virtuální prostředí a můžeš zapsat příkaz:
```
python3 -m pip install requests beautifulsoup4
```

##### **Demo**: Zobrazit knihovnu

<br>

Nyní si můžeš řádně nainstalovat knihovny z počáteční ukázky (`requests` a `bs4`).

### Nástroje pro správu Python projektů

---

Větší projekty je potřeba dobře spravovat, protože obsahují mnoho knihoven (balíčků) a každá knihovna má své závislosti (knihovny, na kterých závisí).

Může se stát, že dvě různé knihovny budou záviset na stejné knihovně (např. `requests`), ale budou požadovat jinou verzi knihovny. Tomuto chaosu se říká **🔥 Dependency hell 🔥**.

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Fi.imgflip.com%2F6paqgr.jpg&f=1&nofb=1&ipt=52bc466725b38a4e05c2a87a1c7bfe1195ddfb6cf0a719809e1b5a60b10e668d&ipo=images" style="width:400px">

Se správou projektů nám pomáhají již hotové nástroje. Zde zmíním dva.

1. [**Poetry**](https://python-poetry.org/)
2. [**uv**](https://docs.astral.sh/uv/)

Účelem těchto nástrojů je především spravovat závislosti, abyste se vyhnuli **Dependency hell** a mohli balíček sdílet s jinými vývojáři, kteří se ho pomocí jednoho příkazu nainstalují.

**Postup vytvoření projektu**

1. **Nainstaluj Poetry**  
   https://python-poetry.org/docs/#installation

2. **Inicializace nového projektu**  
   Vytvoř složku pro projekt a inicializuj nový Poetry projekt:  
   
   ```bash
   mkdir muj_projekt
   cd muj_projekt
   poetry init
   ```

   Během inicializace odpověz na otázky, nebo použij `--no-interaction` pro rychlé vytvoření základního `pyproject.toml`.

3. **Nastavení umístění venv do složky projektu**  
   Přidej do konfiguračního souboru Poetry nastavení, aby venv byl uložen v projektu:  
   ```bash
   poetry config virtualenvs.in-project true
   ```
   (Tímto se vytvoří venv ve složce `.venv` uvnitř projektu.)

4. **Vytvoření a aktivace venv**  
   Spusť příkaz pro instalaci venv a aktivaci prostředí:  
   ```bash
   poetry install
   source .venv/bin/activate
   ```

5. **Přidávání závislostí**  
   - Pro přidání běžné závislosti (např. `requests`):  
     ```bash
     poetry add requests
     ```
   - Pro přidání konkrétní verze balíčku:  
     ```bash
     poetry add requests@^2.0
     ```

6. **Přidávání vývojářských závislostí**  
   - Vývojářské závislosti (např. testovací framework `pytest`) přidej s přepínačem `--group dev`:  
     ```bash
     poetry add --group dev pytest
     ```

7. **Správa závislostí a zamknutí verzí**  
   - Pokud potřebuješ aktualizovat závislosti podle novějších verzí v rámci definovaných pravidel:  
     ```bash
     poetry update
     ```
   - Zkontroluj zamčené verze v `poetry.lock`.

8. **Spouštění skriptů ve venv**  
   Poetry automaticky používá prostředí v projektu, takže příkazy spustíš takto:  
   ```bash
   poetry run python script.py
   ```

9. **Export závislostí (např. pro Docker)**  
   Pokud potřebuješ seznam závislostí pro `pip` (`requirements.txt`):  
   ```bash
   poetry export -f requirements.txt --output requirements.txt
   ```

10. **Odstranění venv nebo závislostí**  
    - Pro odstranění venv:  
      ```bash
      poetry env remove python
      ```
    - Pro odstranění konkrétní závislosti:  
      ```bash
      poetry remove requests
      ```

### Další užitečné příkazy:
- Zobrazení aktuálního nastavení:  
  ```bash
  poetry config --list
  ```
- Zobrazení seznamu nainstalovaných závislostí:  
  ```bash
  poetry show --tree
  ```

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.U7nMjACQdKtNeiHzfc3ClwAAAA%26pid%3DApi&f=1&ipt=640454cd32d73e5ce88ac8e813def67c685f139df3f380c7c370e382947375a0&ipo=images" width="200" style="margin-left:auto; margin-right:auto" />

## Úvod do HTML

---

Než se pustíš do *scrapování* dat, potřebuješ se zorientovat v následujících krocích:
1. Jak **vyhledat data**,
2. jak **identifikovat jejich zdrojový soubor**,
3. jak **přečíst zdroj**.

### Vyhledání dat

---

Nejlepší je, rozkoukat se **pomocí prohlížeče**, ten má totiž k dispozici každý.

Zajímají tě ceny na e-shopech, ubytování, nové články?

Zapni *prohlížeč*, vyber tebou preferovaný *vyhledávací engine* a začni hledat.

<br>

### Identifikuj zdroj dat

---

Jakmile najdeš, co potřebuješ, potřebuješ pochopit, **v jaké struktuře** jsou všechna tato data poskládaná.


Většina prohlížečů disponuje schopností nahlédnout *do struktury* dat, která zobrazují.

U prohlížeče Mozilla je postup následující:
1. **Přejdeš na stránku**, která tě zajímá,
2. **pravým tlačítkem myši** klikneš kamkoliv do prostoru v okně,
3. vybereš možnost **View page source** (tedy *zobrazit zdrojový kód*).

```html
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
...
```

Následně můžeš vyčíst, že *zdrojový kód* stránky je uložený ve formátu `html`aj.

### Získání zdrojového kódu s Pythonem

---

Na začátku, stejně jako v rámci tvého prohlížeče, musíš **znát adresu**:
```python
url = "https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html"
```

Potom potřebuješ, stejně jako v prohlížeči, odeslat **správný typ požadavku**.

Jak jej ale najít?

<br>

##### **Demo**: najít, identifikovat a zobrazit požadavek v prohlížeči

In [14]:
import requests

In [15]:
url = "https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html"

In [16]:
odpoved_serveru = requests.get(url)

In [17]:
print(odpoved_serveru.status_code)

200


In [18]:
type(odpoved_serveru)

requests.models.Response

In [None]:
# dir(odpoved_serveru) --> TEXT

In [19]:
print(odpoved_serveru.text[:100])



<!DOCTYPE html>
<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![e


##### **Demo**: Odeslat požadavek v Pythonu

Jak se ale v takovém zdrojovém souboru orientovat?

Ve stavu jako je nyní, je velmi nepraktické jakkoliv **údaje uvnitř uchopit**.

### HTTP protokol

---

1. **Zkratka a definice**:  
   HTTP (Hypertext Transfer Protocol) je protokol pro komunikaci mezi klientem (např. webový prohlížeč) a serverem. Používá se primárně pro přenos webových stránek a dat na internetu.

2. **Založení na textu**:  
   HTTP je textově orientovaný protokol, což znamená, že požadavky a odpovědi se skládají z čitelných textových zpráv.

3. **Model klient-server**:  
   - Klient (např. prohlížeč) posílá **požadavek** (request).  
   - Server odpovídá **odpovědí** (response).  

4. **Metody HTTP**:  
   - **GET**: Získání dat (např. webové stránky).  
   - **POST**: Odeslání dat na server (např. formuláře).  
   - **PUT**: Aktualizace nebo nahrání dat.  
   - **DELETE**: Smazání dat.  
   - **HEAD, OPTIONS, PATCH**: Další specializované metody.

5. **Stavové kódy odpovědí**:  
   - **2xx**: Úspěch (např. 200 OK).  
   - **3xx**: Přesměrování (např. 301 Moved Permanently).  
   - **4xx**: Chyby klienta (např. 404 Not Found).  
   - **5xx**: Chyby serveru (např. 500 Internal Server Error). 
   
   Stavové kódy: [psi](https://httpstatusdogs.com/) nebo [kočky](https://http.cat/) 

6. **Bezstavový protokol**:  
   HTTP neudržuje informace mezi požadavky. Každý požadavek je nezávislý. Řešením je používání **cookies**, **session** a dalších technologií.

7. **Šifrování (HTTPS)**:  
   HTTPS je zabezpečená verze HTTP, která využívá SSL/TLS k šifrování komunikace mezi klientem a serverem.

8. **HTTP/1.1 vs. HTTP/2 vs. HTTP/3**:  
   - **HTTP/1.1**: Nejrozšířenější, ale pomalejší.  
   - **HTTP/2**: Rychlejší díky multiplexingu (současné přenosy).  
   - **HTTP/3**: Novější verze založená na QUIC (rychlejší a stabilnější).  

9. **Klíčové hlavičky HTTP**:  
   - **Host**: Identifikace serveru.  
   - **Content-Type**: Typ přenášeného obsahu (např. `text/html`).  
   - **Authorization**: Ověření uživatele.  
   - **User-Agent**: Informace o klientu (např. prohlížeči). 



<figure>
    <img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Fstatic.packt-cdn.com%2Fproducts%2F9781789349863%2Fgraphics%2F358eefdc-2ded-4bc5-bc44-cb8699bea2b3.png&f=1&nofb=1&ipt=052c9f7f216bb64048278d34e72ee813247d6255e750a8733f2205d851fe3d12&ipo=images" style="width:600px">
    <figcaption style="font-size:10px"><a href="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Fstatic.packt-cdn.com%2Fproducts%2F9781789349863%2Fgraphics%2F358eefdc-2ded-4bc5-bc44-cb8699bea2b3.png&f=1&nofb=1&ipt=052c9f7f216bb64048278d34e72ee813247d6255e750a8733f2205d851fe3d12&ipo=images">URL obrázku</a></figcaption>
</figure>

#### Ukázka požadavků (HTTP Request)

**GET Request (např. požadavek na stažení webové stránky):**

```http
GET /index.html HTTP/1.1
Host: www.example.com
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.5
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
```

- **První řádek**: 
  - `GET`: HTTP metoda.
  - `/index.html`: Cesta k požadovanému zdroji.
  - `HTTP/1.1`: Verze protokolu.

- **Hlavičky**:
  - `Host`: Specifikuje server (např. www.example.com).
  - `User-Agent`: Informace o klientovi (např. prohlížeči).
  - `Accept`: Typy obsahu, které klient akceptuje.
  - `Connection`: Typ spojení (např. `keep-alive` pro udržení spojení).

---

**POST Request (např. odeslání formulářových dat):**

```http
POST /submit-form HTTP/1.1
Host: www.example.com
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36
Accept: application/json
Content-Type: application/x-www-form-urlencoded
Content-Length: 27
Connection: keep-alive

name=Batman&age=30&city=Gotham
```

- **První řádek**: 
  - `POST`: HTTP metoda.
  - `/submit-form`: Cesta k požadovanému zdroji.
  - `HTTP/1.1`: Verze protokolu.

- **Hlavičky**:
  - `Content-Type`: Specifikuje formát dat (např. `application/x-www-form-urlencoded`).
  - `Content-Length`: Délka těla požadavku.

- **Tělo požadavku**: 
  - Data, která se posílají na server (např. formulářová data `name=Daniel&age=30&city=Brno`). 


#### Ukázka odpovědi (HTTP Response)

**Response na GET request:**

```http
HTTP/1.1 200 OK
Date: Sun, 25 Nov 2024 12:00:00 GMT
Server: Apache/2.4.41 (Ubuntu)
Last-Modified: Tue, 24 Nov 2024 15:00:00 GMT
Content-Length: 1256
Content-Type: text/html; charset=UTF-8
Connection: keep-alive

<!DOCTYPE html>
<html>
<head>
    <title>Example Page</title>
</head>
<body>
    <h1>Welcome to Example.com</h1>
    <p>This is a sample HTTP response.</p>
</body>
</html>
```

- **První řádek**: 
  - `HTTP/1.1`: Verze protokolu.
  - `200 OK`: Stavový kód a zpráva (200 znamená, že vše proběhlo v pořádku).

- **Hlavičky**:
  - `Date`: Datum a čas vytvoření odpovědi.
  - `Server`: Software běžící na serveru (např. Apache).
  - `Last-Modified`: Poslední změna zdroje.
  - `Content-Length`: Velikost těla odpovědi v bajtech.
  - `Content-Type`: Typ obsahu a kódování znaků.
  - `Connection`: Typ spojení (např. `keep-alive` pro udržení spojení).

- **Tělo odpovědi**: 
  - HTML kód webové stránky.

---

**Response na POST request s chybou:**

```http
HTTP/1.1 400 Bad Request
Date: Sun, 25 Nov 2024 12:00:00 GMT
Server: nginx/1.18.0
Content-Type: application/json
Content-Length: 75
Connection: close

{
    "error": "Invalid data format",
    "message": "Field 'age' is required"
}
```

- **První řádek**: 
  - `HTTP/1.1`: Verze protokolu.
  - `400 Bad Request`: Stavový kód a zpráva (400 znamená, že klient poslal chybný požadavek).

- **Hlavičky**:
  - `Content-Type`: Odpověď je ve formátu JSON.
  - `Content-Length`: Délka těla odpovědi v bajtech.

- **Tělo odpovědi**:
  - JSON obsahující detaily o chybě.


<br>

### Co je to HTML

---

Tento typ souborů je opět varianta **zjednodušeného textového formátu**, který je hierarchicky uspořádný pomocí tzv. *tagů* nebo také *elementů*:
```html
<body>
<div id="menu">
    <li>
        <a href="http://XXXXXXX.cz" title="">Homepage</a>
    </li>
</div>
</body>
```
Formát `html` je velmi často používaný pro tvorbu **struktury webových stránek**

### HTML strom

---

<figure>
    <img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Fupload.wikimedia.org%2Fwikipedia%2Fcommons%2Fthumb%2F5%2F5a%2FDOM-model.svg%2F1200px-DOM-model.svg.png&f=1&nofb=1&ipt=c73f59380517ce76851ecae3594003830b0e7a6791816671af75f3aa135f4619&ipo=images" style="width:400px">
    <figcaption>
       <a href="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Fupload.wikimedia.org%2Fwikipedia%2Fcommons%2Fthumb%2F5%2F5a%2FDOM-model.svg%2F1200px-DOM-model.svg.png&f=1&nofb=1&ipt=c73f59380517ce76851ecae3594003830b0e7a6791816671af75f3aa135f4619&ipo=images">Zdroj obrázku</a>
    </figcaption>
</figure>

<br>

### Tagy

---

Na každém řádku jsou nachystané prvky `html` formátu. `<div></div>` nebo `<li></li>`.

Všimni si, že jsou nachystané v párech. Jeden objekt je **otevírající** a druhý **zavírající** (většinou s lomítkem).

<br>

Takový pár, otevírající a zavírající element, často obsahují nějaký údaj:
```html
<div>   ..otevírací_tag
    Obsah
</div>  ..uzavírací_tag
```

<br>

Některé tagy jsou **zarovnané** a jiné **odsazené**:
```html
<div id="menu">
    <li>
        <a href="XYZ">Homepage</a>
        <a href="MNO">Source</a>
    </li>
</div>
```
Z toho pak vyplývá **rozdělení tagů** na:
1. **Rodičovské**, nebo také nadřazený tag `<div>`,
2. **potomky**, odsazené tagy `<li>` a `<a>`,
3. **sourozence**, tagy na stejné úrovni odsazení jako oba tagy `<a>`.

<br>

### Atributy

---

Dalším detailem, kterého si můžeš v `html` strutuře všimnout, jsou tzv. *atributy tagů*.
```html
 <!-- atribut "id"-->
<div id="menu">                    
    <li>
        <!-- atribut "href"-->
        <a href="XYZ">Homepage</a>  
        <!-- atribut "href"-->
        <a href="MNO">Source</a>    
    </li>
</div>
```
*Atributy* jsou velice podobné *mapování* u slovníků v Pythonu.

Jejich účelem je tedy přidat nějaké rozšiřující, nebo doplňující chování pro stávající **HTML tag**.

Jsou tvořené páry **klíč** a **hodnota**, spojené pomocí `=`.

<br>

Je jich celá řada, ale co se ukázky týče, vidíš:
1. `id` atribut, který slouží jako **pomocný identifikátor** v rámci celého `html`.
2. `href` atribut, který **upřesňuje odkaz**, na který tě přesune (jinam na stejné stránce, na jinou stránku, atd.).

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.TN81-g4eMnBNUlf5aVFluAHaHa%26pid%3DApi&f=1&ipt=a5e2423fe957746320e88d55fcd89d7151480ef058b6f90ce6be4ea0e781a6d3&ipo=images" width="200" style="margin-left:auto; margin-right:auto" />

## Obecný postup web scrapování
---


Celý postup **web scrapování** potom obecně rozložíš do těchto kroků:
1. ✅ Získání **zdrojového souboru** z webové adresy,
2. ❌ **rozdělení a procházení** takového zdrojového souboru (*parsování*),
3. ❌ **zpřístupnění a výběr dat** ve zdrojovém souboru, která potřebuješ,
4. ❌ (volitelné) **přesun na další stránku** a zopakovat první tři kroky.

selector: #default > div > div
XPath: //*[@id="default"]/div/div
XPath (absolutní): /html/body/div/div

### Nástroje pro vývojáře v prohlížeči (Developer tools)

---

**1. Přístup k Developer Tools**
- Jak otevřít Developer Tools (např. `F12`, pravé tlačítko → "Prozkoumat").
- Přehled hlavních panelů: Elements, Console, Network, Sources.

**2. Panel Elements**
- **HTML struktura**: Navigace v DOM stromu, identifikace tagů a atributů.
- **Selektory**: Hledání prvků pomocí ID, tříd a atributů (např. `div.class`, `#id`).
- **Kopírování selektorů**: Kontextová nabídka → "Copy" → "Copy selector" nebo "Copy XPath".
- **Vyhledávání v DOM**: Klávesová zkratka `Ctrl+F` pro hledání textu, ID nebo tříd.

**3. Inspekce a úprava prvků**
- **Highlighting**: Zvýraznění vybraného prvku na stránce.
- **Změna obsahu**: Úprava textu nebo atributů přímo v DOM stromu.

**4. Panel Network**
- **Sledování požadavků**: Identifikace volání HTTP (GET, POST) a jejich odpovědí.
- **Filtrování požadavků**: Např. pouze `XHR` nebo obrázky.
- **Headers**: Prohlížení záhlaví požadavků (např. User-Agent, Cookies, Referer).
- **Response**: Zobrazení odpovědi serveru (např. JSON, HTML, XML).
- **Kopírování požadavků**: Kontextová nabídka → "Copy" → "Copy as cURL".

**5. Panel Console**
- **Testování selektorů**: Použití `document.querySelector` nebo `document.querySelectorAll`.
- **Manipulace s DOM**: Úprava obsahu nebo stylů přes konzoli.
- **Debugování kódu**: Použití `console.log()`.

**6. Identifikace dynamického obsahu**
- **Shadow DOM**: Hledání prvků ukrytých ve Shadow DOM.
- **AJAX požadavky**: Identifikace dynamicky načítaného obsahu.
- **Asynchronní načítání dat**: Rozpoznání potřeby čekání na načtení obsahu.

**7. Panel Sources**
- **Přehled zdrojových souborů**: Hledání JavaScriptových a CSS souborů.
- **Pauzování a krokování kódu**: Nastavení breakpointů pro sledování běhu JavaScriptu.
- **Vyhledávání ve zdrojových kódech**: Klávesová zkratka `Ctrl+Shift+F`.

**8. Panel Application**
- **Cookies**: Sledování a manipulace s cookies.
- **Local Storage a Session Storage**: Kontrola uložených dat a jejich možné využití.
- **Cache**: Jak vyprázdnit cache, pokud stránka načítá starý obsah.


### Rozdělení zdrojového souboru

---

*Zdrojový soubor* už získáš, ale co teď s ním?

<br>

Na první pohled je patrné, že s takovým objektem, je práce **velmi náročná**:

In [20]:
type(odpoved_serveru.text)

str

In [21]:
print(odpoved_serveru.text[:200])



<!DOCTYPE html>
<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->
<!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]-->
<!--[if


Definitivně není reálné, takový objekt *indexovat*, *slicovat*, *stridovat*.

Jak tedy obsah zdrojového souboru pohodlně **rozdělit**?

<br>

### Rozdělní dat zdrojového souboru

---

Jestli chceš soubor pohodlně procházet, budeš muset najít **další pomůcku**.

Hledáš takovou, která umí rozdělovat, nebo jinak řečeno *parsovat*, obsah `html` souborů.

In [22]:
from bs4 import BeautifulSoup as bs

In [23]:
polivka = bs(odpoved_serveru.text, "html.parser")

In [24]:
print(polivka)


<!DOCTYPE html>

<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->
<!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]-->
<!--[if IE 8]>         <html lang="en-us" class="no-js lt-ie9"> <![endif]-->
<!--[if gt IE 8]><!--> <html class="no-js" lang="en-us"> <!--<![endif]-->
<head>
<title>
    A Light in the Attic | Books to Scrape - Sandbox
</title>
<meta content="text/html; charset=utf-8" http-equiv="content-type"/>
<meta content="24th Jun 2016 09:29" name="created"/>
<meta content="
    It's hard to imagine a world without A Light in the Attic. This now-classic collection of poetry and drawings from Shel Silverstein celebrates its 20th anniversary with this special edition. Silverstein's humorous and creative verse can amuse the dowdiest of readers. Lemon-faced adults and fidgety kids sit still and read these rhythmic words and laugh and smile and love th It's hard to imagine a world without A Light in the Attic. Th

In [27]:
print(polivka.prettify())

<!DOCTYPE html>
<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->
<!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]-->
<!--[if IE 8]>         <html lang="en-us" class="no-js lt-ie9"> <![endif]-->
<!--[if gt IE 8]><!-->
<html class="no-js" lang="en-us">
 <!--<![endif]-->
 <head>
  <title>
   A Light in the Attic | Books to Scrape - Sandbox
  </title>
  <meta content="text/html; charset=utf-8" http-equiv="content-type"/>
  <meta content="24th Jun 2016 09:29" name="created"/>
  <meta content="
    It's hard to imagine a world without A Light in the Attic. This now-classic collection of poetry and drawings from Shel Silverstein celebrates its 20th anniversary with this special edition. Silverstein's humorous and creative verse can amuse the dowdiest of readers. Lemon-faced adults and fidgety kids sit still and read these rhythmic words and laugh and smile and love th It's hard to imagine a world without A Light in the 

In [28]:
type(polivka)  # --> AttributeError

bs4.BeautifulSoup

Nyní, pokud máš *zdrojový soubor* rozdělený, můžeš se zaměřit **na vyhledávání konkrétních dat**.


##### **Demo**: Hledat knihovnu pro rozdělení HTML souborů

<br>

#### Přehled metod knihovny Beautifulsoup 🍜



| **Funkce**               | **Popis**                                                                                                   | **Ukázka použití**                                                                                         |
|---------------------------|-----------------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------------|
| `BeautifulSoup(html, parser)` | Vytvoření objektu BeautifulSoup pro analýzu HTML nebo XML.                                               | `soup = BeautifulSoup(html, 'html.parser')`                                                                |
| `.find(name, attrs)`      | Najde první element podle názvu a atributů.                                                               | `soup.find('a', {'class': 'link'})`                                                                        |
| `.find_all(name, attrs)`  | Najde všechny elementy podle názvu a atributů.                                                            | `soup.find_all('div', {'class': 'content'})`                                                               |
| `.select(css_selector)`   | Najde elementy podle CSS selektoru.                                                                       | `soup.select('.menu > li > a')`                                                                            |
| `.get_text()`             | Získání textového obsahu elementu.                                                                        | `element.get_text()`                                                                                       |
| `.get(attr_name)`         | Získání hodnoty atributu z elementu.                                                                      | `link.get('href')`                                                                                         |
| `.find_parent()`          | Najde rodičovský element aktuálního elementu.                                                             | `element.find_parent()`                                                                                    |
| `.find_next_sibling()`    | Najde další sourozenecký element.                                                                         | `element.find_next_sibling()`                                                                              |
| `.find_previous_sibling()`| Najde předchozí sourozenecký element.                                                                     | `element.find_previous_sibling()`                                                                          |
| `.contents`               | Vrátí seznam přímých potomků elementu.                                                                   | `element.contents`                                                                                         |
| `.children`               | Iterátor přímých potomků elementu.                                                                        | `for child in element.children:`                                                                           |
| `.descendants`            | Iterátor všech potomků elementu.                                                                         | `for desc in element.descendants:`                                                                         |
| `.decompose()`            | Odstraní element z DOM a uvolní paměť.                                                                    | `element.decompose()`                                                                                      |
| `.replace_with(new_tag)`  | Nahradí aktuální element novým elementem.                                                                 | `element.replace_with(new_element)`                                                                        |
| `.string`                 | Vrátí text, pokud je element jednoduchý a neobsahuje jiné elementy.                                       | `element.string`                                                                                           |
| `.prettify()`             | Vrátí krásně formátovaný HTML kód elementu nebo dokumentu.                                                | `print(soup.prettify())`                                                                                   |
| `.attrs`                  | Vrátí slovník atributů elementu.                                                                         | `element.attrs`                                                                                            |
| `.select_one(css_selector)` | Najde první element podle CSS selektoru.                                                                 | `soup.select_one('div#header')`                                                                            |
| `.find_all_next()`        | Najde všechny následující elementy odpovídající kritériím.                                                | `element.find_all_next('p')`                                                                               |
| `.find_all_previous()`    | Najde všechny předchozí elementy odpovídající kritériím.                                                  | `element.find_all_previous('p')`                                                                           |
| `.parent`                 | Najde přímo rodičovský element aktuálního elementu.                                                      | `element.parent`                                                                                           |

Pokud máš specifický dotaz k některé z funkcí nebo příklad, jak ji použít, dej vědět!

### Hledám TENTO element

---

Vzorové `html` uložené jako *string*:

In [29]:
html_doc = """
<div class="mainpage-headline">
    <a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneI"
        title="Wikipedie:Článek týdne I.">Článek týdne I.</a>
    <a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneII"
        title="Wikipedie:Článek týdne II.">Článek týdne II.</a>
</div>
"""

Jak z takového zdrojového `str` získat obsah informace **z druhého tagu** `<a>`?

`<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneII"
title="Wikipedie:Článek týdne II.">Článek týdne II.</a>`

<br>

#### Vyhledat **jménem tagu**

---

In [30]:
polivka = BeautifulSoup(html_doc, features="html.parser")

In [31]:
type(polivka)  # --> AttributeError

bs4.BeautifulSoup

In [32]:
print(polivka.div)

<div class="mainpage-headline">
<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneI" title="Wikipedie:Článek týdne I.">Článek týdne I.</a>
<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneII" title="Wikipedie:Článek týdne II.">Článek týdne II.</a>
</div>


In [33]:
print(polivka.div.text)


Článek týdne I.
Článek týdne II.



In [34]:
print(polivka.a)

<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneI" title="Wikipedie:Článek týdne I.">Článek týdne I.</a>


V takovém případě ale mohu pracovat **velice neobratně** s dalšími výskytu tohoto *elementu*.

Pokud ale stále hledáš jen **konkrétní** (druhý) **element**, může být nepříjemné, indexovat k němu nepřímo.


<br>

#### Vyhledat pomocí atributů tagů metodou `find`

---

Pokud má element doplňující atributy, můžeš vyhledávat právě pomocí jejich **jmen a hodnot**

```html
<div class="mainpage-headline">
<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneI" title="Wikipedie:Článek týdne I.">Článek týdne I.</a>
<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneII" title="Wikipedie:Článek týdne II.">Článek týdne II.</a>
</div>
```

In [35]:
help(polivka.find)

Help on method find in module bs4.element:

find(name=None, attrs={}, recursive=True, string=None, **kwargs) method of bs4.BeautifulSoup instance
    Look in the children of this PageElement and find the first
    PageElement that matches the given criteria.

    All find_* methods take a common set of arguments. See the online
    documentation for detailed explanations.

    :param name: A filter on tag name.
    :param attrs: A dictionary of filters on attribute values.
    :param recursive: If this is True, find() will perform a
        recursive search of this PageElement's children. Otherwise,
        only the direct children will be considered.
    :param limit: Stop looking after finding this many results.
    :kwargs: A dictionary of filters on attribute values.
    :return: A PageElement.
    :rtype: bs4.element.Tag | bs4.element.NavigableString



In [36]:
print(polivka.find('a'))  # Ekvivalent: polivka.a

<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneI" title="Wikipedie:Článek týdne I.">Článek týdne I.</a>


In [37]:
print(polivka.find("a", {"title": "Wikipedie:Článek týdne II."}))

<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneII" title="Wikipedie:Článek týdne II.">Článek týdne II.</a>


In [38]:
hledany_tag_a = polivka.find("a", {"title": "Wikipedie:Článek týdne II.", "href": "/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneII"})

In [39]:
type(hledany_tag_a)

bs4.element.Tag

In [41]:
print(hledany_tag_a.text)

Článek týdne II.


<br>

#### Vyhledat pomocí metody `select`

---

Metoda `select` ti umožňuje vyhledávat pomocí tzv. **CSS selektoru**:

**Co je to CSS selektor?:**


- **Definice CSS selektoru**:  
  CSS selektor je výraz, který umožňuje vybrat konkrétní elementy na webové stránce podle jejich typu, třídy, ID, atributů nebo hierarchie v DOM (Document Object Model).

- **Použití ve web scrapingu**:  
  - Slouží k vyhledání specifických prvků na webové stránce (např. nadpisů, obrázků, tabulek).  
  - Je základním nástrojem pro navigaci a extrakci dat ze strukturovaného HTML.

- **Druhy CSS selektorů**:  
  - **Jednoduché selektory**:  
    - Typový selektor (`div`, `h1`, `p`) – vybere všechny prvky určitého typu.  
    - Třídní selektor (`.class-name`) – vybere prvky s danou třídou.  
    - ID selektor (`#id-name`) – vybere prvek s konkrétním ID.  

  - **Kombinované selektory**:  
    - Dědičnost (`div p`) – vybere všechny `<p>` uvnitř `<div>`.  
    - Přímé potomstvo (`div > p`) – vybere `<p>` přímo uvnitř `<div>`.  

  - **Atributové selektory**:  
    - `[attribute="value"]` – vybere prvky s atributem o specifické hodnotě.  
    - `[attribute*="value"]` – vybere prvky, jejichž atribut obsahuje řetězec „value“.  

  - **Pseudo-třídy a pseudo-elementy**:  
    - `:nth-child(n)` – vybere n-té dítě v pořadí.  
    - `::text` (neoficiální v Python knihovnách) – vybere textový obsah.

- **Výhody CSS selektorů pro scraping**:  
  - Rychlá a přesná identifikace prvků.  
  - Snadno čitelné a modifikovatelné.  
  - Fungují ve většině Python knihoven pro web scraping (např. Beautiful Soup, Scrapy).


In [None]:
# Nakopíruj CSS Selector
selector = "#content_inner > article > div.row > div.col-sm-6.product_main > h1"

In [46]:
selector = "#__next > div.Container_container__n_f3b.BaseLayout_content__oMGnj.index_HomepageContainer__ZqPGi > div > header > div > div > aside > ol > li:nth-child(1) > a > article > div > strong"

In [59]:
selector = "aside strong"

#### [Demo: Selekce hlavního článku, Kinobox](https://www.kinobox.cz/)

In [60]:
import requests
from bs4 import BeautifulSoup

In [61]:
odpoved_serveru = requests.get("https://www.kinobox.cz/")

In [62]:
soup_kinobox = BeautifulSoup(odpoved_serveru.text, features="html.parser")

In [63]:
# strong_tag_uvodni_clanek = soup_kinobox.select(".index_mainArticle__PzsmR > a:nth-child(1) > article:nth-child(1) > div:nth-child(2) > strong:nth-child(2)")
strong_tag_uvodni_clanek = soup_kinobox.select(selector)

In [64]:
print(strong_tag_uvodni_clanek)

[<strong>Zemřel král parodií Jim Abrahams. Tvůrci Žhavých výstřelů a Bláznivé střely bylo 80 let</strong>, <strong>Klaunovy Vánoce jsou jen pro otrlé. Brutálnější horor tu nebyl už desítky let</strong>, <strong>Doručí Prima před Vánoci seriálový dárek? Náhradníci lákají na skvělé obsazení i citlivé téma</strong>, <strong>Jeden z nejlepších akčních filmů od Netflixu se vrátí. Nečekaný spin-off uvidíme už brzy</strong>, <strong>Interstellar s příměsí Top Gunu. Austin Butler zazáří v nejambicióznější sci-fi Hollywoodu</strong>]


In [65]:
print(type(strong_tag_uvodni_clanek))

<class 'bs4.element.ResultSet'>


In [66]:
print(strong_tag_uvodni_clanek)        # ResultSet ~ list

[<strong>Zemřel král parodií Jim Abrahams. Tvůrci Žhavých výstřelů a Bláznivé střely bylo 80 let</strong>, <strong>Klaunovy Vánoce jsou jen pro otrlé. Brutálnější horor tu nebyl už desítky let</strong>, <strong>Doručí Prima před Vánoci seriálový dárek? Náhradníci lákají na skvělé obsazení i citlivé téma</strong>, <strong>Jeden z nejlepších akčních filmů od Netflixu se vrátí. Nečekaný spin-off uvidíme už brzy</strong>, <strong>Interstellar s příměsí Top Gunu. Austin Butler zazáří v nejambicióznější sci-fi Hollywoodu</strong>]


In [68]:
print(strong_tag_uvodni_clanek[1])

<strong>Klaunovy Vánoce jsou jen pro otrlé. Brutálnější horor tu nebyl už desítky let</strong>


In [69]:
print(type(strong_tag_uvodni_clanek[0]))

<class 'bs4.element.Tag'>


In [70]:
print(strong_tag_uvodni_clanek[0].text)

Zemřel král parodií Jim Abrahams. Tvůrci Žhavých výstřelů a Bláznivé střely bylo 80 let


<br>

### Souhrn prohledávání HTML struktury

Jaké jsou tedy způsoby, jak vyhledat jednotlivé tagy:
1. Vyhledat **jménem tagu**,  `print(soup.div)`
2. Vyhledat pomocí *atributů tagů* metodou **find**, `print(soup.find_all("a", {"class":"article"}))`
3. Vyhledat pomocí metody **select**. `print(soup.select_one("#unikatni > html > prvek")`

<br>

### Hledám TYTO elementy

---

Metoda `find_all` ti také pomáhá projít zdrojový kód.

Třeba pokud potřebuješ najít **všechny elementy s určitým atributem** (případně pomocí *XPath*):

In [71]:
html_doc_2 = """
<div class="mainpage-left">
    <a class="topic">Tady je první článek...</a>
</div>
<div class="mainpage-block aow-container">
    <a class="topic">Tady je druhý článek...</a>
</div>
<div class="mainpage-headline">
    <a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdne" title="Wikipedie:Článek týdne">Článek týdne</a>
    <a class="topic_main">XXXXX...</a>
</div>
<div class="mainpage-content">
     <a class="topic_main">Příjmení Ugandského trenéra ženského lakrosu je...</a>
</div>
<div class="mainpage-footer">
    <a title="Wikipedie:Nejlepší články">Nejlepší články</a>
    <a title="Wikipedie:Dobré články">Dobré články</a>
    <a title="Wikipedie:Článek týdne/2022">Další články týdne…</a>
</div>
"""

In [72]:
polivka = BeautifulSoup(html_doc_2, features="html.parser")

In [73]:
vsechny_a_tagy_topic_main = polivka.find_all("a", {"class": "topic_main"})

In [74]:
print(vsechny_a_tagy_topic_main)

[<a class="topic_main">XXXXX...</a>, <a class="topic_main">Příjmení Ugandského trenéra ženského lakrosu je...</a>]


In [75]:
print(polivka.find_all("a"))

[<a class="topic">Tady je první článek...</a>, <a class="topic">Tady je druhý článek...</a>, <a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdne" title="Wikipedie:Článek týdne">Článek týdne</a>, <a class="topic_main">XXXXX...</a>, <a class="topic_main">Příjmení Ugandského trenéra ženského lakrosu je...</a>, <a title="Wikipedie:Nejlepší články">Nejlepší články</a>, <a title="Wikipedie:Dobré články">Dobré články</a>, <a title="Wikipedie:Článek týdne/2022">Další články týdne…</a>]


In [76]:
print(type(polivka.find_all("a")))

<class 'bs4.element.ResultSet'>


In [77]:
vsechny_clanky = [clanek.text for clanek in vsechny_a_tagy_topic_main]

In [78]:
print(vsechny_clanky)

['XXXXX...', 'Příjmení Ugandského trenéra ženského lakrosu je...']


In [79]:
div_tag_mainpage_footer = polivka.find("div", {"class": "mainpage-footer"})

In [80]:
print(div_tag_mainpage_footer.prettify())

<div class="mainpage-footer">
 <a title="Wikipedie:Nejlepší články">
  Nejlepší články
 </a>
 <a title="Wikipedie:Dobré články">
  Dobré články
 </a>
 <a title="Wikipedie:Článek týdne/2022">
  Další články týdne…
 </a>
</div>



<br>

#### Prozkoumání vyhledaného elementu

---

Pokud najdeš element, který potřebuješ, můžeš je **důkladněji prozkoumat**:

In [81]:
potomek_a = div_tag_mainpage_footer.findChild()

In [82]:
vsichni_potomci_a = div_tag_mainpage_footer.findChildren()

In [83]:
print(potomek_a)

<a title="Wikipedie:Nejlepší články">Nejlepší články</a>


In [84]:
print(vsichni_potomci_a)

[<a title="Wikipedie:Nejlepší články">Nejlepší články</a>, <a title="Wikipedie:Dobré články">Dobré články</a>, <a title="Wikipedie:Článek týdne/2022">Další články týdne…</a>]


In [85]:
dobre_clanky = vsichni_potomci_a[1]

In [86]:
dobre_clanky.attrs            # slovník jmen a hodnot všech atributů

{'title': 'Wikipedie:Dobré články'}

In [87]:
dobre_clanky.get("title")     # metoda "get", hledáš atribut "href"

'Wikipedie:Dobré články'

In [89]:
print(dobre_clanky.get("neexistuje"))

None


In [90]:
dobre_clanky.get_text()       # metoda "get_text" ti přečte obsah text elementu --> text

'Dobré články'

<br>

## Pokročilé scrapování

---

Doposud tedy umíš práci s jedním odkazem:

In [None]:
import time

import requests
from bs4 import BeautifulSoup

In [None]:
def ziskej_odpoved_serveru(url: str) -> requests.models.Response:
    return requests.get(url)

In [None]:
odpoved_1 = ziskej_odpoved_serveru('http://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html')

In [None]:
odpoved_1.status_code

In [None]:
# odpoved_1.text

<br>

Pokud potřebuješ *scrapovat* několik různých adres, můžeš si vypomoct smyčkou:

In [None]:
def ziskej_odpoved_serveru() -> list:
    urls = [
        'http://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html',
        'http://books.toscrape.com/catalogue/tipping-the-velvet_999/index.html',
        'http://books.toscrape.com/catalogue/soumission_998/index.html',
        'http://books.toscrape.com/catalogue/sharp-objects_997/index.html',
        'http://books.toscrape.com/catalogue/sapiens-a-brief-history-of-humankind_996/index.html',
        'http://books.toscrape.com/catalogue/the-requiem-red_995/index.html',
        'http://books.toscrape.com/catalogue/the-dirty-little-secrets-of-getting-your-dream-job_994/index.html',
        'http://books.toscrape.com/catalogue/the-coming-woman-a-novel-based-on-the-life-of-the-infamous-feminist-victoria-woodhull_993/index.html'
    ]
    return [requests.get(url) for url in urls]

<br>

Při takové dávce je vhodné měřit si dobu běhu skriptu, příp. evidovat úspěšné a neúspěšné *scrapování*.

In [None]:
#def main(fce: callable) -> None:
    start = time.perf_counter()
    fce()
    stop = time.perf_counter()
    print(f"Celkem: {stop - start:.2f} sek")

In [None]:
main(ziskej_odpoved_serveru)

To ti později může prozradit, jestli všechno doběhlo úspěšně.

Případně pokud některý z pokusů o dotazování serveru selhal, dozvíš se to.

<br>

### Pseudo-paralelní zpracování
---

V této situaci ale probíhá dotazování *sériově*.

Tvůj skript tedy čeká, jakmile skončí první dotaz a následně pošle další.

Práce se soubory, práce s packety, interpret vždy čeká.

Je jedno **jak rychlý skriptovací jazyk** použiješ, webový server se musí nejprve vyjádřit.

<figure>
<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Fcdn.buttercms.com%2FhmirWTF7TBCsX6mncY0P&f=1&nofb=1&ipt=64c5e6e364ede54132a6ff19ca7def10d89f31268b03dd847e0d97ae9ba2002d&ipo=images" style="width:800px">
    <figcaption>
        <a href="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Fcdn.buttercms.com%2FhmirWTF7TBCsX6mncY0P&f=1&nofb=1&ipt=64c5e6e364ede54132a6ff19ca7def10d89f31268b03dd847e0d97ae9ba2002d&ipo=images">URL obrázku</a>
    </figcaption>
<figure>

In [None]:
import time
import asyncio

import httpx

In [None]:
async def ziskej_odpoved_serveru():
    urls = [
        'http://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html',
        'http://books.toscrape.com/catalogue/tipping-the-velvet_999/index.html',
        'http://books.toscrape.com/catalogue/soumission_998/index.html',
        'http://books.toscrape.com/catalogue/sharp-objects_997/index.html',
        'http://books.toscrape.com/catalogue/sapiens-a-brief-history-of-humankind_996/index.html',
        'http://books.toscrape.com/catalogue/the-requiem-red_995/index.html',
        'http://books.toscrape.com/catalogue/the-dirty-little-secrets-of-getting-your-dream-job_994/index.html',
        'http://books.toscrape.com/catalogue/the-coming-woman-a-novel-based-on-the-life-of-the-infamous-feminist-victoria-woodhull_993/index.html'
    ]

    async with httpx.AsyncClient() as client:
        requests_ = [client.get(url) for url in urls]  # requests.get()
        response = await asyncio.gather(*requests_)

Knihovna `asyncio` nabízí v kombinaci s knihovnou `httpx` šikovné řešení:
1. Definuješ funkci s `async def`, tím interpretu oznámíš, že chceš vytvořit uživatelskou funkci, která musí umět běžet paralelně,
2. pomocí `async with` vytvoříš dočasnou *session*, během které dojde ke sbírání odpovědi serveru/serverů,
3. lze řešení dopsat i pomocí knihovny `requests`, to ale není tak čitelné,
4. vytvoříš objekt s `await`, který čeká, než všechny paralelní procesy doběhnou.

In [None]:
if __name__ == '__main__':
    start = time.perf_counter()
    asyncio.run(ziskej_odpoved_serveru())
    stop = time.perf_counter()
    print(f"Celkem: {stop - start:.2f} sek")

In [None]:
%%file async_scrape.py
import time
import asyncio
import httpx


async def ziskej_odpoved_serveru():
    urls = [
        'http://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html',
        'http://books.toscrape.com/catalogue/tipping-the-velvet_999/index.html',
        'http://books.toscrape.com/catalogue/soumission_998/index.html',
        'http://books.toscrape.com/catalogue/sharp-objects_997/index.html',
        'http://books.toscrape.com/catalogue/sapiens-a-brief-history-of-humankind_996/index.html',
        'http://books.toscrape.com/catalogue/the-requiem-red_995/index.html',
        'http://books.toscrape.com/catalogue/the-dirty-little-secrets-of-getting-your-dream-job_994/index.html',
        'http://books.toscrape.com/catalogue/the-coming-woman-a-novel-based-on-the-life-of-the-infamous-feminist-victoria-woodhull_993/index.html'
    ]

    async with httpx.AsyncClient() as client:
        tasks = [client.get(url) for url in urls]
        responses = await asyncio.gather(*tasks)

        for i, response in enumerate(responses):
            print(f"URL {i + 1}: {response.url} - Status: {response.status_code}")
            # print(f"Content:\n{response.text[:200]}...\n")


if __name__ == '__main__':
    start = time.perf_counter()
    asyncio.run(ziskej_odpoved_serveru())
    stop = time.perf_counter()
    print(f"Celkem: {stop - start:.2f} sek")


In [None]:
!python async_scrape.py

Skript můžeš spustit pomocí funkce, nebo v globálním rámci.

Nezapomeň, že **nemůžeš funkci pouze zavolat** `ziskej_odpoved_serveru()`.

Potřebuješ speciální objekt, který funkce spustí paralelně, proto `asyncio.run(ziskej_odpoved_serveru())`.

**Synchronní varianta pro porovnání času**

In [None]:
%%file sync_scrape.py

import time
import requests


def ziskej_odpoved_serveru():
    urls = [
        'http://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html',
        'http://books.toscrape.com/catalogue/tipping-the-velvet_999/index.html',
        'http://books.toscrape.com/catalogue/soumission_998/index.html',
        'http://books.toscrape.com/catalogue/sharp-objects_997/index.html',
        'http://books.toscrape.com/catalogue/sapiens-a-brief-history-of-humankind_996/index.html',
        'http://books.toscrape.com/catalogue/the-requiem-red_995/index.html',
        'http://books.toscrape.com/catalogue/the-dirty-little-secrets-of-getting-your-dream-job_994/index.html',
        'http://books.toscrape.com/catalogue/the-coming-woman-a-novel-based-on-the-life-of-the-infamous-feminist-victoria-woodhull_993/index.html'
    ]

    for i, url in enumerate(urls):
        response = requests.get(url)
        print(f"URL {i + 1}: {response.url} - Status: {response.status_code}")
        # Volitelně: Tisk obsahu odpovědi
        # print(f"Content:\n{response.text[:200]}...\n")


if __name__ == '__main__':
    start = time.perf_counter()
    ziskej_odpoved_serveru()
    stop = time.perf_counter()
    print(f"Celkem: {stop - start:.2f} sek")


In [None]:
!python sync_scrape.py

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.XxURlbi8RZ3SMPoMRj91VwAAAA%26pid%3DApi&f=1" width="200">

## Domácí úloha

---

#### Pokémoni

---

1. Načtěte informace o jakémkoli Pokémonovi z webu https://pokemondb.net/pokedex/ pomocí funkce `ziskej_odpoved_serveru`.

2. Použijte funkci ziskej_uvodni_text k nalezení všech odstavců `(<p>)`.

3. Spojte texty prvních dvou odstavců a vypište je na obrazovku.

In [None]:
import requests
from bs4 import BeautifulSoup


def ziskej_odpoved_serveru(jmeno: str, defaultni_adresa: str = 'https://pokemondb.net/pokedex/'):
    return requests.get(f"{defaultni_adresa}{jmeno}")


def ziskej_uvodni_text(odpoved_serveru: str, hledany_tag: str):
    polivka = BeautifulSoup(odpoved_serveru, features='html.parser')
    return polivka.find_all(hledany_tag)


def spoj_texty(rozdelene_texty) -> str:
    spojene_texty = [obsah_tagu.text for obsah_tagu in rozdelene_texty[:2]]
    return ' '.join(spojene_texty)

In [None]:
def main(*args):
    for jmeno in args:
        odpoved = ziskej_odpoved_serveru(jmeno.lower())
        texty = ziskej_uvodni_text(odpoved.text, 'p')
        print(spoj_texty(texty))

In [None]:
main('Bulbasaur')

In [None]:
main('Squirtle', 'Bulbasaur', 'Charmander')

<br>

### Články iRozhlas
---

In [None]:
import requests
from bs4 import BeautifulSoup

url = "https://www.irozhlas.cz/"

odpoved_irozhlas = requests.get(url)

soup = BeautifulSoup(odpoved_irozhlas.text, features="html.parser")

vsechny_clanky = soup.find_all("article", {"role": "article"})

for index, clanek in enumerate(vsechny_clanky):
    # print(clanek.find("a", {"class": "b-article__link"}).get_text().strip())
    print(index, clanek.get_text().strip())

Napiš skript, který postahuje všechny aktuální články na zadané *webové adrese*.

Ukázka po spuštění:
```
python ukol_lekce09.py
 1. Ukrajinci plánovali větší ofenzivu. Ale Američané je vyzvali, aby ji omezili
 2. Učitel: Kázeň, dřina a dril na školy patří. Řád je efektivní, nejde si jen hrát
 3. Generálu Pavlovi radí s krizí nový tým expertů. Vede ho exguvernér ČNB Tůma
 ...
```

**Poznámka,** texty článků se mohou samozřejmě lišit.

In [None]:
import requests
from bs4 import BeautifulSoup

url = "https://www.idnes.cz/"

# získat zdrojový soubor HTML
odpoved_idnes = requests.get(url)  # "models.Response"

# rozdělit zdrojový soubor
soup = BeautifulSoup(odpoved_idnes.text, features="html.parser")

# najít hledané články
vsechny_a_tagy_artlink = soup.find_all("a", {"class": "art-link"})

# zpracovat: print(), csv, href
for index, clanek in enumerate(vsechny_a_tagy_artlink, 1):
    print(index,
          # clanek.attrs.get("href"),
          clanek.get_text().strip())

<br>

<a href='https://forms.gle/w3zjiuQTWhBV5oyx6' target='_blank'>Rychlý dotazníček po lekci</a>

---