# Python akademie, pokročilí

<br>

## Obsah

---


1. [Představení](https://www.matousholinka.com),
1. [Úvod do problematiky](#Úvod-do-problematiky),
2. [Nastavení prostředí](#Nastavení-prostředí),
4. [HTML](#HTML),
5. [Postup web scrapování](#Obecný-postup-web-scrapování),
6. [Pokročilé scrapování](),
7. [Domácí úloha](#Domácí-úloha).

---

### Nápady

- Poetry (uv, pdm)
- HTTP protokol (OSI model)
- HTTP statusy (kočky, psi) - https://httpstatusdogs.com/
- reklama na frontend: https://engeto.cz/webova-akademie/
- ukázat práci s developer tools
- zmínit SPA - nedodává HTML (Selenium, Playwright)
- HTML - podmnožina XML
- Vysvětlit CSS selektory

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse2.mm.bing.net%2Fth%3Fid%3DOIP.E7biPUYoI-y9G-YFp3eq8wHaHa%26pid%3DApi&f=1" width="200" style="margin-left:auto; margin-right:auto">

## Úvod do problematiky

---

<br>

Co je *skrejpování webu*?

Jde **o získávání dat**, které najdeš uložené na webu.

Obecně se tento proces označuje jako *web scraping*, ale jindy jej můžeš najít označený jako *data mining*, *web harvesting* atd.

<br>

###  Proč web scraping

---

Jako běžný uživatel jsi zvyklý, prohlížet obsah na webu **pomocí prohlížeče**.

Tento postup je velmi **pohodlný** a dovolí ti, nechat si vykreslovat různé obrázky, videa, texty, aj.

Ale, pokud tě **zajímají spíše data**, kterými web disponuje a ne jejich *vyrenderovaná* (vykreslená) podoba, potom je **web scraping** přesně pro tebe:
- umožňuje ti **rychle stahovat** zdrojová data,
- umožňuje ti stahovat **větší množství dat** současně,
- umožňuje ti vyhnout se **grafickému rozhraní**.

<br>

### Code sample

---

<a href="https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html" target="_blank">Odkaz pro demo</a>

```python
import requests
from bs4 import BeautifulSoup

url = "..."
```

Postup je relativně rychlý, opakovatelný.

In [1]:
%pip install requests beautifulsoup4

Note: you may need to restart the kernel to use updated packages.


In [2]:
import requests
from bs4 import BeautifulSoup

url = 'https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html'

odpoved_serveru = requests.get(url)

In [3]:
print(odpoved_serveru)

<Response [200]>


In [4]:
print(type(odpoved_serveru))

<class 'requests.models.Response'>


In [5]:
print(dir(odpoved_serveru))

['__attrs__', '__bool__', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__nonzero__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_content', '_content_consumed', '_next', 'apparent_encoding', 'close', 'connection', 'content', 'cookies', 'elapsed', 'encoding', 'headers', 'history', 'is_permanent_redirect', 'is_redirect', 'iter_content', 'iter_lines', 'json', 'links', 'next', 'ok', 'raise_for_status', 'raw', 'reason', 'request', 'status_code', 'text', 'url']


In [6]:
print(odpoved_serveru.text)



<!DOCTYPE html>
<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->
<!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]-->
<!--[if IE 8]>         <html lang="en-us" class="no-js lt-ie9"> <![endif]-->
<!--[if gt IE 8]><!--> <html lang="en-us" class="no-js"> <!--<![endif]-->
    <head>
        <title>
    A Light in the Attic | Books to Scrape - Sandbox
</title>

        <meta http-equiv="content-type" content="text/html; charset=UTF-8" />
        <meta name="created" content="24th Jun 2016 09:29" />
        <meta name="description" content="
    It&#39;s hard to imagine a world without A Light in the Attic. This now-classic collection of poetry and drawings from Shel Silverstein celebrates its 20th anniversary with this special edition. Silverstein&#39;s humorous and creative verse can amuse the dowdiest of readers. Lemon-faced adults and fidgety kids sit still and read these rhythmic words and laugh and smile and lov

In [7]:
soup = BeautifulSoup(odpoved_serveru.text, features="html.parser")

In [8]:
print(soup)


<!DOCTYPE html>

<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->
<!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]-->
<!--[if IE 8]>         <html lang="en-us" class="no-js lt-ie9"> <![endif]-->
<!--[if gt IE 8]><!--> <html class="no-js" lang="en-us"> <!--<![endif]-->
<head>
<title>
    A Light in the Attic | Books to Scrape - Sandbox
</title>
<meta content="text/html; charset=utf-8" http-equiv="content-type"/>
<meta content="24th Jun 2016 09:29" name="created"/>
<meta content="
    It's hard to imagine a world without A Light in the Attic. This now-classic collection of poetry and drawings from Shel Silverstein celebrates its 20th anniversary with this special edition. Silverstein's humorous and creative verse can amuse the dowdiest of readers. Lemon-faced adults and fidgety kids sit still and read these rhythmic words and laugh and smile and love th It's hard to imagine a world without A Light in the Attic. Th

In [9]:
vsechny_p_tagy = soup.find_all('p')

In [10]:
vsechny_p_tagy[-1].text

"It's hard to imagine a world without A Light in the Attic. This now-classic collection of poetry and drawings from Shel Silverstein celebrates its 20th anniversary with this special edition. Silverstein's humorous and creative verse can amuse the dowdiest of readers. Lemon-faced adults and fidgety kids sit still and read these rhythmic words and laugh and smile and love th It's hard to imagine a world without A Light in the Attic. This now-classic collection of poetry and drawings from Shel Silverstein celebrates its 20th anniversary with this special edition. Silverstein's humorous and creative verse can amuse the dowdiest of readers. Lemon-faced adults and fidgety kids sit still and read these rhythmic words and laugh and smile and love that Silverstein. Need proof of his genius? RockabyeRockabye baby, in the treetopDon't you know a treetopIs no safe place to rock?And who put you up there,And your cradle, too?Baby, I think someone down here'sGot it in for you. Shel, you never sounde

<br>

Co je to za knihovny `requests` a `bs4`? Máš je také k dispozici? Jak je můžeš nahrát a používat?

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse2.mm.bing.net%2Fth%3Fid%3DOIP.EvE0cAsK9bHMbis8Ki5YPQHaHa%26pid%3DApi&f=1" width="200" style="margin-left:auto; margin-right:auto">

## Nastavení prostředí

---
Nejprve potřebuješ vyřešit, co všechno pro svůj projekt potřebuješ.

Na začátku již zaznělo, že budeš potřebovat **knihovny**. Jaké knihovny to budou, jaký typ knihoven to bude a jak s ním zacházet?
<br>

### Knihovny

---

*Knihovny*  můžeš získat v podstatě dvěma způsoby:
1. **V rámci instalace**, (knihovny *zabudované*),
2. **nainstalovat ručně**, (knihovny *třetích stran*).

V podstatě jde o rozdělení, **podle původu** knihovny.

<br>

#### Zabudované knihovny

---

Tyto knihovny máš k dispozici ihned po nainstalování *interpreta* Pythonu.

Jejich **obsah** a **verze** se mohou lišit průběhem času.

Seznam těchto knihoven najdeš v <a href="https://docs.python.org/3/library/index.html" target="_blank">oficiální dokumentaci</a> (na odkaze je seznam pro verzi interpreta **3.10.4**).

<br>

#### Knihovny třetích stran

---

Zatímco některé knihovny můžeš snadno nahrát přímo na místě:

In [11]:
import uuid
import typing
import itertools

Jiné knihovny ti **přímo nahrát nepůjdou**:

In [12]:
import flask
import pandas

ModuleNotFoundError: No module named 'flask'

##### **Demo**: knihovny třetích stran v prostředí *interaktivního interpreta*.

<br>

Pokud jsi právě dostal výjimku `ModuleNotFoundError`, tak je všechno v pořádku.

<br>

Právě tyto knihovny (a mnoho dalších) jsou označovány jako *knihovny třetích stran*.

Tyto knihovny **nejsou součástí nainstalovaných** knihoven, a proto je nelze nahrát takhle jednodušše.

Je potřeba následujících kroků:
1. Nejprve je musíš **vyhledat**,
2. následně **správně nainstalovat**,
3. a **konečně používat**.

<br>

Kde je ale hledat a jak je řádně a správně nainstalovat?

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.1jYNqFlZEyuhm3apMFgIPwHaHa%26pid%3DApi&f=1" width="200" style="margin-left:auto; margin-right:auto">

## Virtuální prostředí

---

Pro **každý projekt**, který budeš v Pythonu tvořit, budeš obvykle potřebovat **různé knihovny** (jak *zabudované*, tak *třetích stran*).

```
projekty/
   ├─projekt01/  # requests
   ├─projekt02/  # requests, pandas
   ├─projekt03/  # pandas
   ├─...
   └─projektXY/
```

<br>

Nejenom různé knihovny, ale dokonce i **různé verze stejných knihoven**.
```
projekty/
   ├─projekt01/  # requests==2.21.0
   ├─projekt02/  # requests==2.19.1, pandas==1.9.0
   ├─projekt03/  # pandas==2.0.0.
   ├─...
   └─projektXY/
```

<br>

Je proto vhodné, osvojit si zdravé navýky pro práci **s různými projekty** (úlohami) a pracovat s pomocí oddělených tzv. *virtuálních prostředí*.

### Proč oddělené prostředí

---

Můžu přece všechny **knihovny nainstalovat na jedno (globální) místo**, a každý projekt bude moci využít společnou knihovnu.

**Do jisté míry** ano, **ALE**... nese s sebou spoustu komplikací.

<br>

Ty nejdůležitější jsou:
1. Problémy **s OS**,
2. Rozdílné **verze knihoven**.

<br>

### Problémy s OS

---

*Linux* a *MacOS* jsou *operační systémy*, které již předinstalovaný Python obsahují.

Ten potom pracuje s některými interními procesy, takže o nich často ani jako uživatel netušíš.

Pokud nainstaluješ knihovnu **bez virtuálního prostředí**, hrozí, že nahradíš **původní verze** těchto knihoven **novějšími verzemi** (se kterými neumí pracovat), což může vést k neočekávanému chování.

Ukázka:
```
# výpis z příkazu 'python3 -m pip list'
# tvůj OS potřebuje tyto verze knihoven

pycairo                1.16.2              
pycodestyle            2.9.0               
```

Pokud nainstaluješ novější verze těchto knihoven (*upgraduješ* je), dostaneš něco podobného:
```
pycairo                1.19.0              
pycodestyle            3.1.1               
```

Novější verze mohou často postrádat některé starší funkce a jiné objekty. Případně je jejich funkcionalita přemapována na jiné objekty.

Potom ti hrozí **neočekávané chování** běžných procesů (výjimky, logy,..), které tyto objekty potřebují.

<br>

### Rozdílné verze knihoven

---

Dalším problémem, před kterým tě *virtuální prostředí* chrání, je kolize **verzí knihoven**, mezi **jednotlivými projekty**.

Ukázka:
```
   ├─projekt01/  # requests==2.21.0
   ├─projekt02/  # requests==2.19.1, ...
```

<br>

Pokud nainstaluješ (*globálně*) novější verzi knihovny `2.21.0`, můžeš ztratit některou funkcionalitu z předchozích verzí (*funkce*, *třídy*, *proměnné*, atd.)

### Verzování

---

1. **Co je sémantické verzování (Semantic Versioning, SemVer)?**  
   Standardní způsob označování verzí softwaru, který jasně komunikuje typ provedených změn. Formát verzí je: **<span style="color:red;">MAJOR</span>.<span style="color:blue;">MINOR</span>.<span style="color:green;">PATCH</span>**.

2. **Formát verzí:**
   - **<span style="color:red;">MAJOR</span>**: Zvyšuje se při změnách, které nejsou zpětně kompatibilní.
   - **<span style="color:blue;">MINOR</span>**: Zvyšuje se při přidání nových funkcionalit, které jsou zpětně kompatibilní.
   - **<span style="color:green;">PATCH</span>**: Zvyšuje se při opravě chyb nebo drobných změnách, které nemění funkcionalitu.

3. **Hlavní výhody:**
   - Jasná komunikace o typu změn.
   - Snadnější správa závislostí v projektech.
   - Podpora automatizace při nasazování verzí.

4. **Pravidla sémantického verzování:**
   - Počáteční verze `0.x.y` označuje vývojovou fázi, kdy není garantována stabilita API.
   - Verze `1.0.0` a vyšší už musí dodržovat zpětnou kompatibilitu podle definovaných pravidel.
   - S verzí je možné použít doplňující metadata (např. `1.0.0-beta` pro označení předběžné verze).

5. **Použití v praxi:**
   - Sémantické verzování se běžně využívá v balíčkovacích systémech (např. npm, pip).
   - Umožňuje vývojářům efektivně spravovat a aktualizovat závislosti.

6. **Klíčové zásady:**
   - Pokud měníte API nekompatibilním způsobem → zvýšit **<span style="color:red;">MAJOR</span>**.
   - Pokud přidáváte nové funkce bez porušení kompatibility → zvýšit **<span style="color:blue;">MINOR</span>**.
   - Pokud opravujete chyby → zvýšit **<span style="color:green;">PATCH</span>**.


7. **Metadata verzí v sémantickém verzování**

   Kromě hlavní verze **<span style="color:red;">MAJOR</span>.<span style="color:blue;">MINOR</span>.<span style="color:green;">PATCH</span>** může sémantické verzování obsahovat další metadata, která označují stav vývoje verze. Tato metadata se zapisují za číslo verze oddělené pomlčkou (`-`) nebo pluskem (`+`).

   **Běžné typy metadat**

      1. **Alpha (`-alpha`)**  
         - Označuje **ranou verzi**, která je obvykle velmi nestabilní a může obsahovat mnoho chyb.  
         - Verze alpha je určená převážně pro interní testování a základní kontrolu funkcí.  
         - Například: `1.0.0-alpha`, `1.0.0-alpha.1`.

      2. **Beta (`-beta`)**  
         - Označuje **pokročilejší fázi vývoje**, která je stále nestabilní, ale obsahuje většinu zamýšlených funkcí.  
         - Verze beta je obvykle sdílena s testery nebo komunitou pro širší zpětnou vazbu.  
         - Například: `1.0.0-beta`, `1.0.0-beta.2`.

      3. **Release Candidate (RC, `-rc`)**  
         - Označuje **verzi připravenou k vydání**, která je již stabilní a po odstranění drobných problémů bude vydána jako finální.  
         - Vhodné pro finální testování před veřejným uvedením.  
         - Například: `1.0.0-rc`, `1.0.0-rc.3`.

      4. **Final (`-`)**  
         - Pokud verze nemá žádné speciální označení, jedná se o **stabilní vydání**, určené pro široké použití.  
         - Například: `1.0.0`.

   **Doplňková metadata**

      5. **Build metadata (`+build`)**  
         - Metadata označená znaménkem `+` slouží k popisu sestavení. Nemají vliv na řazení verzí.  
         - Například: `1.0.0+001`, `1.0.0+exp.sha.5114f85`.

      6. **Experimental (`-exp`)**  
         - Používá se pro verze, které obsahují experimentální funkce, neověřené nebo dočasné změny.  
         - Například: `1.0.0-exp.1`.

      7. **Hotfix (`-hotfix`)**  
         - Označuje opravy provedené na finální stabilní verzi.  
         - Například: `1.0.0-hotfix.1`.

      **Řazení verzí s metadaty**

      - Předběžné verze (alpha, beta, rc) mají **nižší prioritu** než finální verze.  
      - Příklad pořadí verzí:  
      `1.0.0-alpha` < `1.0.0-alpha.1` < `1.0.0-beta` < `1.0.0-beta.2` < `1.0.0-rc` < `1.0.0`.


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.3RX0BJUjo1iEcyFBi59JWQHaHa%26pid%3DApi&f=1" width="200" style="margin-left:auto; margin-right:auto" />


## Práce v příkazovém řádku

---

Vytvořit virtuální prostředí můžeš jednoduše **v příkazovém řádku**.

Často totiž **nemáš přístup ke grafickému rozhraní** (*virtuálka*, *kontejner*, *remote server*), a potom se hodí, řídit celý proces **v příkazovém řádku**.

Python disponuje knihovnou `venv`, která ti takové prostředí umožní nachystat.

<br>

### Sada příkazů

---

Nejprve zkontroluj, jestli máš nainstalovaný základní manažer balíčků **pip** a můžeš pracovat s **pythonem**:
```
python3 --version         # ověřím verzi Pythonu
python3 -m pip --version  # ověřím verzi manažera knihoven, novější zápis
pip --version             # ..starší zápis
```

<br>

Výstup ti vrátí číslo verze manažera a jeho umístění:
```
Python 3.8.10
pip 21.0.1 from ...
```

##### **Demo**: kontrola manažeru a Pythonu

<br>

Pokud máš manažer v pořádku, můžeš si **vytvořit nové virtuální prostředí**:
```
python3 -m venv moje_prvni_prostredi  # env, dev
```

<br>

Po krátké odmlce jej můžeš **aktivovat**:
```
source moje_prvni_prostredi/bin/activate   # aktivace pro Linux a MacOS
moje_prvni_prostredi\Scripts\Activate.ps1  # aktivace pro Windows
```

<br>

Aktivované virtuální prostředí poznáš podle **předepsané kulaté závorky se jménem projektu**:
```
$ source moje_prvni_prostredi/bin/activate
(moje_prvni_prostredi) $
```

##### **Demo**: aktivace prostředí

<br>

Pokud si nyní budeš chtít zkontrolovat, které **knihovny máš v nově vytvořeném prostředí**, zapiš:
```
python3 -m pip list
python3 -m pip freeze
```

<br>

Aktivní prostředí potom ukončíš příkazem:
```
deactivate
```

##### **Demo**: manipulace s manažerem

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.FNPYtWpZ9XRY2yf9Z1LqXgHaHa%26pid%3DApi&f=1" width="200" style="margin-left:auto; margin-right:auto">

### Hledání balíčků

---

Teď, když máš nachystané zázemí, můžeš začít vyhledávat jednotlivé knihovny, které ti usnadní práci.

Seznam **většiny knihoven** najdeš na <a href="https://pypi.org/" target="_blank">pypi.org</a>, což je místo, kde si komunita *Pythonistů* sdílí svoje knihovny.

#### Demo: Vyhledej knihovnu `requests`

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.1hTm5TmhnE0ctqZd13VcQAHaHa%26pid%3DApi&f=1" width="200" style="margin-left:auto; margin-right:auto"/>


### Instalace vyhledané a ověřené knihovny

---

Pokud dohledáš knihovnu, obvykle najdeš i **příkaz pro instalaci**.

Nezapomeň aktivovat virtuální prostředí a můžeš zapsat příkaz:
```
python3 -m pip install requests beautifulsoup4
```

##### **Demo**: Zobrazit knihovnu

<br>

Nyní si můžeš řádně nainstalovat knihovny z počáteční ukázky (`requests` a `bs4`).

### Nástroje pro správu Python projektů

---

Větší projekty je potřeba dobře spravovat, protože obsahují mnoho knihoven (balíčků) a každá knihovna má své závislosti (knihovny, na kterých závisí).

Může se stát, že dvě různé knihovny budou záviset na stejné knihovně (např. `requests`), ale budou požadovat jinou verzi knihovny. Tomuto chaosu se říká **🔥 Dependency hell 🔥**.

Se správou projektů nám pomáhají již hotové nástroje. Zde zmíním dva.

1. [**Poetry**](https://python-poetry.org/)
2. [**uv**](https://docs.astral.sh/uv/)

Účelem těchto nástrojů je především spravovat závislosti, abyste se vyhnuli **Dependency hell** a mohli balíček sdílet s jinými vývojáři, kteří se ho pomocí jednoho příkazu nainstalují.

**Postup vytvoření projektu**

### Postup při vytvoření Python projektu pomocí **Poetry** s nastavením venv ve složce projektu:

1. **Nainstaluj Poetry**  
   https://python-poetry.org/docs/#installation

2. **Inicializace nového projektu**  
   Vytvoř složku pro projekt a inicializuj nový Poetry projekt:  
   
```bash
   mkdir muj_projekt
   cd muj_projekt
   poetry init
```

   Během inicializace odpověz na otázky, nebo použij `--no-interaction` pro rychlé vytvoření základního `pyproject.toml`.

3. **Nastavení umístění venv do složky projektu**  
   Přidej do konfiguračního souboru Poetry nastavení, aby venv byl uložen v projektu:  
   ```bash
   poetry config virtualenvs.in-project true
   ```
   (Tímto se vytvoří venv ve složce `.venv` uvnitř projektu.)

4. **Vytvoření a aktivace venv**  
   Spusť příkaz pro instalaci venv a aktivaci prostředí:  
   ```bash
   poetry install
   source .venv/bin/activate
   ```

5. **Přidávání závislostí**  
   - Pro přidání běžné závislosti (např. `requests`):  
     ```bash
     poetry add requests
     ```
   - Pro přidání konkrétní verze balíčku:  
     ```bash
     poetry add requests@^2.0
     ```

6. **Přidávání vývojářských závislostí**  
   - Vývojářské závislosti (např. testovací framework `pytest`) přidej s přepínačem `--group dev`:  
     ```bash
     poetry add --group dev pytest
     ```

7. **Správa závislostí a zamknutí verzí**  
   - Pokud potřebuješ aktualizovat závislosti podle novějších verzí v rámci definovaných pravidel:  
     ```bash
     poetry update
     ```
   - Zkontroluj zamčené verze v `poetry.lock`.

8. **Spouštění skriptů ve venv**  
   Poetry automaticky používá prostředí v projektu, takže příkazy spustíš takto:  
   ```bash
   poetry run python script.py
   ```

9. **Export závislostí (např. pro Docker)**  
   Pokud potřebuješ seznam závislostí pro `pip` (`requirements.txt`):  
   ```bash
   poetry export -f requirements.txt --output requirements.txt
   ```

10. **Odstranění venv nebo závislostí**  
    - Pro odstranění venv:  
      ```bash
      poetry env remove python
      ```
    - Pro odstranění konkrétní závislosti:  
      ```bash
      poetry remove requests
      ```

### Další užitečné příkazy:
- Zobrazení aktuálního nastavení:  
  ```bash
  poetry config --list
  ```
- Zobrazení seznamu nainstalovaných závislostí:  
  ```bash
  poetry show
  ```

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.U7nMjACQdKtNeiHzfc3ClwAAAA%26pid%3DApi&f=1&ipt=640454cd32d73e5ce88ac8e813def67c685f139df3f380c7c370e382947375a0&ipo=images" width="200" style="margin-left:auto; margin-right:auto" />

## Úvod do HTML

---

Než se pustíš do *scrapování* dat, potřebuješ se zorientovat v následujících krocích:
1. Jak **vyhledat data**,
2. jak **identifikovat jejich zdrojový soubor**,
3. jak **přečíst zdroj**.

### Vyhledání dat

---

Nejlepší je, rozkoukat se **pomocí prohlížeče**, ten má totiž k dispozici každý.

Zajímají tě ceny na e-shopech, ubytování, nové články?

Zapni *prohlížeč*, vyber tebou preferovaný *vyhledávací engine* a začni hledat.

<br>

### Identifikuj zdroj dat

---

Jakmile najdeš, co potřebuješ, potřebuješ pochopit, **v jaké struktuře** jsou všechna tato data poskládaná.


Většina prohlížečů disponuje schopností nahlédnout *do struktury* dat, která zobrazují.

U prohlížeče Mozilla je postup následující:
1. **Přejdeš na stránku**, která tě zajímá,
2. **pravým tlačítkem myši** klikneš kamkoliv do prostoru v okně,
3. vybereš možnost **View page source** (tedy *zobrazit zdrojový kód*).

```html
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
...
```

Následně můžeš vyčíst, že *zdrojový kód* stránky je uložený ve formátu `html`aj.

### Získání zdrojového kódu s Pythonem

---

Na začátku, stejně jako v rámci tvého prohlížeče, musíš **znát adresu**:
```python
url = "https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html"
```

Potom potřebuješ, stejně jako v prohlížeči, odeslat **správný typ požadavku**.

Jak jej ale najít?

<br>

##### **Demo**: najít, identifikovat a zobrazit požadavek v prohlížeči

In [None]:
import requests

In [None]:
url = "https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html"

In [None]:
odpoved_serveru = requests.get(url)

In [None]:
print(odpoved_serveru.status_code)

In [None]:
type(odpoved_serveru)

In [None]:
# dir(odpoved_serveru) --> TEXT

In [None]:
print(odpoved_serveru.text[:100])

##### **Demo**: Odeslat požadavek v Pythonu

Jak se ale v takovém zdrojovém souboru orientovat?

Ve stavu jako je nyní, je velmi nepraktické jakkoliv **údaje uvnitř uchopit**.

<br>

### Co je to HTML

---

Tento typ souborů je opět varianta **zjednodušeného textového formátu**, který je hierarchicky uspořádný pomocí tzv. *tagů* nebo také *elementů*:
```html
<body>
<div id="menu">
    <li>
        <a href="http://XXXXXXX.cz" title="">Homepage</a>
    </li>
</div>
</body>
```
Formát `html` je velmi často používaný pro tvorbu **struktury webových stránek**

<br>

### Tagy

---

Na každém řádku si jsou nachystané prvky `html` formátu. `<div></div>` nebo `<li></li>`.

Všimni si, že jsou nachystané v párech. Jeden objekt je **otevírající** a druhý **zavírající** (většinou s lomítkem).

<br>

Takový pár, otevírající a zavírající element, často obsahují nějaký údaj:
```html
<div>   ..otevírací_tag
    Obsah
</div>  ..uzavírací_tag
```

<br>

Některé tagy jsou **zarovnané** a jiné **odsazené**:
```html
<div id="menu">
    <li>
        <a href="XYZ">Homepage</a>
        <a href="MNO">Source</a>
    </li>
</div>
```
Z toho pak vyplývá **rozdělení tagů** na:
1. **Rodičovské**, nebo také nadřazený tag `<div>`,
2. **potomky**, odsazené tagy `<li>` a `<a>`,
3. **sourozence**, tagy na stejné úrovni odsazení jako oba tagy `<a>`.

<br>

### Atributy

---

Dalším detailem, kterého si můžeš v `html` strutuře všimnout, jsou tzv. *atributy tagů*.
```html
 <!-- atribut "id"-->
<div id="menu">                    
    <li>
        <!-- atribut "href"-->
        <a href="XYZ">Homepage</a>  
        <!-- atribut "href"-->
        <a href="MNO">Source</a>    
    </li>
</div>
```
*Atributy* jsou velice podobné *mapování* u slovníků v Pythonu.

Jejich účelem je tedy přidat nějaké rozšiřující, nebo doplňující chování pro stávající **HTML tag**.

Jsou tvořené páry **klíč** a **hodnota**, spojené pomocí `=`.

<br>

Je jich celá řada, ale co se ukázky týče, vidíš:
1. `id` atribut, který slouží jako **pomocný identifikátor** v rámci celého `html`.
2. `href` atribut, který **upřesňuje odkaz**, na který tě přesune (jinam na stejné stránce, na jinou stránku, atd.).

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.TN81-g4eMnBNUlf5aVFluAHaHa%26pid%3DApi&f=1&ipt=a5e2423fe957746320e88d55fcd89d7151480ef058b6f90ce6be4ea0e781a6d3&ipo=images" width="200" style="margin-left:auto; margin-right:auto" />

## Obecný postup web scrapování
---


Celý postup **web scrapování** potom obecně rozložíš do těchto kroků:
1. ✅ Získání **zdrojového souboru** z webové adresy,
2. ❌ **rozdělení a procházení** takového zdrojového souboru (*parsování*),
3. ❌ **zpřístupnění a výběr dat** ve zdrojovém souboru, která potřebuješ,
4. ❌ (volitelné) **přesun na další stránku** a zopakovat první tři kroky.

### Rozdělení zdrojového souboru

---

*Zdrojový soubor* už získáš, ale co teď s ním?

<br>

Na první pohled je patrné, že s takovým objektem, je práce **velmi náročná**:

In [None]:
type(odpoved_serveru.text)

In [None]:
print(odpoved_serveru.text[:200])

Definitivně není reálné, takový objekt *indexovat*, *slicovat*, *stridovat*.

Jak tedy obsah zdrojového souboru pohodlně **rozdělit**?

<br>

### Rozdělní dat zdrojového souboru

---

Jestli chceš soubor pohodlně procházet, budeš muset najít **další pomůcku**.

Hledáš takovou, která umí rozdělovat, nebo jinak řečeno *parsovat*, obsah `html` souborů.

In [None]:
from bs4 import BeautifulSoup as bs

In [None]:
polivka = bs(odpoved_serveru.text, "html.parser")

In [None]:
# print(polivka.prettify())

In [None]:
type(polivka)  # --> AttributeError

Nyní, pokud máš *zdrojový soubor* rozdělený, můžeš se zaměřit **na vyhledávání konkrétních dat**.


##### **Demo**: Hledat knihovnu pro rozdělení HTML souborů

<br>

### Hledám TENTO element

---

Vzorové `html` uložené jako *string*:

In [None]:
html_doc = """
<div class="mainpage-headline">
    <a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneI"
        title="Wikipedie:Článek týdne I.">Článek týdne I.</a>
    <a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneII"
        title="Wikipedie:Článek týdne II.">Článek týdne II.</a>
</div>
"""

Jak z takového zdrojového `str` získat obsah informace **z druhého tagu** `<a>`?

`<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneII"
title="Wikipedie:Článek týdne II.">Článek týdne II.</a>`

<br>

#### Vyhledat **jménem tagu**

---

In [None]:
polivka = BeautifulSoup(html_doc, features="html.parser")

In [None]:
type(polivka)  # --> AttributeError

In [None]:
print(polivka.div)

In [None]:
print(polivka.div.text)

In [None]:
print(polivka.a)

V takovém případě ale mohu pracovat **velice neobratně** s dalšími výskytu tohoto *elementu*.

Pokud ale stále hledáš jen **konkrétní** (druhý) **element**, může být nepříjemné, indexovat k němu nepřímo.


<br>

#### Vyhledat pomocí atributů tagů metodou `find`

---

Pokud má element doplňující atributy, můžeš vyhledávat právě pomocí jejich **jmen a hodnot**

```html
<div class="mainpage-headline">
<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneI" title="Wikipedie:Článek týdne I.">Článek týdne I.</a>
<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneII" title="Wikipedie:Článek týdne II.">Článek týdne II.</a>
</div>
```

In [None]:
# help(polivka.find)

In [None]:
print(polivka.find('a'))  # Ekvivalent: polivka.a

In [None]:
print(polivka.find("a", {"title": "Wikipedie:Článek týdne II."}))

In [None]:
hledany_tag_a = polivka.find("a", {"title": "Wikipedie:Článek týdne II.", "href": "/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneII"})

In [None]:
type(hledany_tag_a)

<br>

#### Vyhledat pomocí metody `select`

---

Metoda `select` ti umožňuje vyhledávat pomocí tzv. **CSS selektoru**:

In [None]:
# Nakopíruj CSS Selector

#### [Demo: Selekce hlavního článku, Kinobox](https://www.kinobox.cz/)

In [None]:
import requests
from bs4 import BeautifulSoup

In [None]:
odpoved_serveru = requests.get("https://www.kinobox.cz/")

In [None]:
soup_kinobox = BeautifulSoup(odpoved_serveru.text, features="html.parser")

In [None]:
strong_tag_uvodni_clanek = soup_kinobox.select(".index_mainArticle__PzsmR > a:nth-child(1) > article:nth-child(1) > div:nth-child(2) > strong:nth-child(2)")

In [None]:
print(type(strong_tag_uvodni_clanek))  # ResultSet ~ list

In [None]:
print(strong_tag_uvodni_clanek)        # ResultSet ~ list

In [None]:
print(strong_tag_uvodni_clanek[0])

In [None]:
print(type(strong_tag_uvodni_clanek[0]))

In [None]:
print(strong_tag_uvodni_clanek[0].text)

<br>

### Souhrn prohledávání HTML struktury

Jaké jsou tedy způsoby, jak vyhledat jednotlivé tagy:
1. Vyhledat **jménem tagu**,  `print(soup.div)`
2. Vyhledat pomocí *atributů tagů* metodou **find**, `print(soup.find_all("a"))`
3. Vyhledat pomocí metody **select**. `print(soup.select_one("#unikatni > html > prvek")`

<br>

### Hledám TYTO elementy

---

Metoda `find_all` ti také pomáhá projít zdrojový kód.

Třeba pokud potřebuješ najít **všechny elementy s určitým atributem** (případně pomocí *XPath*):

In [None]:
html_doc_2 = """
<div class="mainpage-left">
    <a class="topic">Tady je první článek...</a>
</div>
<div class="mainpage-block aow-container">
    <a class="topic">Tady je druhý článek...</a>
</div>
<div class="mainpage-headline">
    <a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdne" title="Wikipedie:Článek týdne">Článek týdne</a>
    <a class="topic_main">XXXXX...</a>
</div>
<div class="mainpage-content">
     <a class="topic_main">Příjmení Ugandského trenéra ženského lakrosu je...</a>
</div>
<div class="mainpage-footer">
    <a title="Wikipedie:Nejlepší články">Nejlepší články</a>
    <a title="Wikipedie:Dobré články">Dobré články</a>
    <a title="Wikipedie:Článek týdne/2022">Další články týdne…</a>
</div>
"""

In [None]:
polivka = BeautifulSoup(html_doc_2, features="html.parser")

In [None]:
vsechny_a_tagy_topic_main = polivka.find_all("a", {"class": "topic_main"})

In [None]:
print(vsechny_a_tagy_topic_main)

In [None]:
# print(polivka.find_all("a"))

In [None]:
vsechny_clanky = [clanek.text for clanek in vsechny_a_tagy_topic_main]

In [None]:
print(vsechny_clanky)

In [None]:
div_tag_mainpage_footer = polivka.find("div", {"class": "mainpage-footer"})

In [None]:
print(div_tag_mainpage_footer.prettify())

<br>

#### Prozkoumání vyhledaného elementu

---

Pokud najdeš element, který potřebuješ, můžeš je **důkladněji prozkoumat**:

In [None]:
potomek_a = div_tag_mainpage_footer.findChild()

In [None]:
vsichni_potomci_a = div_tag_mainpage_footer.findChildren()

In [None]:
print(potomek_a)

In [None]:
print(vsichni_potomci_a)

In [None]:
dobre_clanky = vsichni_potomci_a[1]

In [None]:
dobre_clanky.attrs            # slovník jmen a hodnot všech atributů

In [None]:
dobre_clanky.get("title")     # metoda "get", hledáš atribut "href"

In [None]:
dobre_clanky.get_text()       # metoda "get_text" ti přečte obsah text elementu --> text

<br>

## Pokročilé scrapování

---

Doposud tedy umíš práci s jedním odkazem:

In [None]:
import time

import requests
from bs4 import BeautifulSoup

In [None]:
def ziskej_odpoved_serveru(url: str) -> requests.models.Response:
    return requests.get(url)

In [None]:
odpoved_1 = ziskej_odpoved_serveru('http://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html')

In [None]:
odpoved_1.status_code

In [None]:
# odpoved_1.text

<br>

Pokud potřebuješ *scrapovat* několik různých adres, můžeš si vypomoct smyčkou:

In [None]:
def ziskej_odpoved_serveru() -> list:
    urls = [
        'http://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html',
        'http://books.toscrape.com/catalogue/tipping-the-velvet_999/index.html',
        'http://books.toscrape.com/catalogue/soumission_998/index.html',
        'http://books.toscrape.com/catalogue/sharp-objects_997/index.html',
        'http://books.toscrape.com/catalogue/sapiens-a-brief-history-of-humankind_996/index.html',
        'http://books.toscrape.com/catalogue/the-requiem-red_995/index.html',
        'http://books.toscrape.com/catalogue/the-dirty-little-secrets-of-getting-your-dream-job_994/index.html',
        'http://books.toscrape.com/catalogue/the-coming-woman-a-novel-based-on-the-life-of-the-infamous-feminist-victoria-woodhull_993/index.html'
    ]
    return [requests.get(url) for url in urls]

<br>

Při takové dávce je vhodné měřit si dobu běhu skriptu, příp. evidovat úspěšné a neúspěšné *scrapování*.

In [None]:
#def main(fce: callable) -> None:
    start = time.perf_counter()
    fce()
    stop = time.perf_counter()
    print(f"Celkem: {stop - start:.2f} sek")

In [None]:
main(ziskej_odpoved_serveru)

To ti později může prozradit, jestli všechno doběhlo úspěšně.

Případně pokud některý z pokusů o dotazování serveru selhal, dozvíš se to.

<br>

### Pseudo-paralelní zpracování
---

V této situaci ale probíhá dotazování *sériově*.

Tvůj skript tedy čeká, jakmile skončí první dotaz a následně pošle další.

Práce se soubory, práce s packety, interpret vždy čeká.

Je jedno **jak rychlý skriptovací jazyk** použiješ, webový server se musí nejprve vyjádřit.

In [None]:
import time
import asyncio

import httpx

In [None]:
async def ziskej_odpoved_serveru():
    urls = [
        'http://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html',
        'http://books.toscrape.com/catalogue/tipping-the-velvet_999/index.html',
        'http://books.toscrape.com/catalogue/soumission_998/index.html',
        'http://books.toscrape.com/catalogue/sharp-objects_997/index.html',
        'http://books.toscrape.com/catalogue/sapiens-a-brief-history-of-humankind_996/index.html',
        'http://books.toscrape.com/catalogue/the-requiem-red_995/index.html',
        'http://books.toscrape.com/catalogue/the-dirty-little-secrets-of-getting-your-dream-job_994/index.html',
        'http://books.toscrape.com/catalogue/the-coming-woman-a-novel-based-on-the-life-of-the-infamous-feminist-victoria-woodhull_993/index.html'
    ]

    async with httpx.AsyncClient() as client:
        requests_ = [client.get(url) for url in urls]  # requests.get()
        response = await asyncio.gather(*requests_)

Knihovna `asyncio` nabízí v kombinaci s knihovnou `httpx` šikovné řešení:
1. Definuješ funkci s `async def`, tím interpretu oznámíš, že chceš vytvořit uživatelskou funkci, která musí umět běžet paralelně,
2. pomocí `async with` vytvoříš dočasnou *session*, během které dojde ke sbírání odpovědi serveru/serverů,
3. lze řešení dopsat i pomocí knihovny `requests`, to ale není tak čitelné,
4. vytvoříš objekt s `await`, který čeká, než všechny paralelní procesy doběhnou.

In [None]:
if __name__ == '__main__':
    start = time.perf_counter()
    asyncio.run(ziskej_odpoved_serveru())
    stop = time.perf_counter()
    print(f"Celkem: {stop - start:.2f} sek")

In [None]:
%%file async_scrape.py
import time
import asyncio

import httpx


async def ziskej_odpoved_serveru():
    urls = [
        'http://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html',
        'http://books.toscrape.com/catalogue/tipping-the-velvet_999/index.html',
        'http://books.toscrape.com/catalogue/soumission_998/index.html',
        'http://books.toscrape.com/catalogue/sharp-objects_997/index.html',
        'http://books.toscrape.com/catalogue/sapiens-a-brief-history-of-humankind_996/index.html',
        'http://books.toscrape.com/catalogue/the-requiem-red_995/index.html',
        'http://books.toscrape.com/catalogue/the-dirty-little-secrets-of-getting-your-dream-job_994/index.html',
        'http://books.toscrape.com/catalogue/the-coming-woman-a-novel-based-on-the-life-of-the-infamous-feminist-victoria-woodhull_993/index.html'
    ]

    async with httpx.AsyncClient() as client:
        requests_ = [client.get(url) for url in urls]  # requests.get()
        response = await asyncio.gather(*requests_)


if __name__ == '__main__':
    start = time.perf_counter()
    asyncio.run(ziskej_odpoved_serveru())
    stop = time.perf_counter()
    print(f"Celkem: {stop - start:.2f} sek")

Skript můžeš spustit pomocí funkce, nebo v globálním rámci.

Nezapomeň, že **nemůžeš funkci pouze zavolat** `ziskej_odpoved_serveru()`.

Potřebuješ speciální objekt, který funkce spustí paralelně, proto `asyncio.run(ziskej_odpoved_serveru())`.

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.XxURlbi8RZ3SMPoMRj91VwAAAA%26pid%3DApi&f=1" width="200">

## Domácí úloha

---

#### Pokémoni

---

In [4]:
import requests
from bs4 import BeautifulSoup


def ziskej_odpoved_serveru(jmeno: str, defaultni_adresa: str = 'https://pokemondb.net/pokedex/'):
    return requests.get(f"{defaultni_adresa}{jmeno}")


def ziskej_uvodni_text(odpoved_serveru: str, hledany_tag: str):
    polivka = BeautifulSoup(odpoved_serveru, features='html.parser')
    return polivka.find_all(hledany_tag)


def spoj_texty(rozdelene_texty) -> str:
    spojene_texty = [obsah_tagu.text for obsah_tagu in rozdelene_texty[:2]]
    return ' '.join(spojene_texty)

In [5]:
def main(*args):
    for jmeno in args:
        odpoved = ziskej_odpoved_serveru(jmeno.lower())
        texty = ziskej_uvodni_text(odpoved.text, 'p')
        print(spoj_texty(texty))

In [9]:
main('Bulbasaur')

Bulbasaur is a Grass/Poison type Pokémon introduced in Generation 1. Bulbasaur is a small, mainly turquoise amphibian Pokémon with red eyes and a green bulb on its back. It is based on a frog/toad, with the bulb resembling a plant bulb that grows into a flower as it evolves.


In [8]:
main('Squirtle', 'Bulbasaur', 'Charmander')

Squirtle is a Water type Pokémon introduced in Generation 1. Squirtle is a bipedal, reptilian Pokémon. It has a blue body with purple eyes, a light brown belly, and a tough red-brown shell on its back. It has a long tail that curls into a spiral.
Bulbasaur is a Grass/Poison type Pokémon introduced in Generation 1. Bulbasaur is a small, mainly turquoise amphibian Pokémon with red eyes and a green bulb on its back. It is based on a frog/toad, with the bulb resembling a plant bulb that grows into a flower as it evolves.
Charmander is a Fire type Pokémon introduced in Generation 1. Charmander is a bipedal, reptilian Pokémon. Most of its body is colored orange, while its underbelly is light yellow and it has blue eyes. It has a flame at the end of its tail, which is said to signify its health.


<br>

### Články IDNES
---

Napiš skript, který postahuje všechny aktuální články na zadané *webové adrese*.

Ukázka po spuštění:
```
python ukol_lekce09.py
 1. Ukrajinci plánovali větší ofenzivu. Ale Američané je vyzvali, aby ji omezili
 2. Učitel: Kázeň, dřina a dril na školy patří. Řád je efektivní, nejde si jen hrát
 3. Generálu Pavlovi radí s krizí nový tým expertů. Vede ho exguvernér ČNB Tůma
 ...
```

**Poznámka,** texty článků se mohou samozřejmě lišit.

In [11]:
import requests
from bs4 import BeautifulSoup

url = "https://www.idnes.cz/"

# získat zdrojový soubor HTML
odpoved_idnes = requests.get(url)  # "models.Response"

# rozdělit zdrojový soubor
soup = BeautifulSoup(odpoved_idnes.text, features="html.parser")

# najít hledané články
vsechny_a_tagy_artlink = soup.find_all("a", {"class": "art-link"})

# zpracovat: print(), csv, href
for index, clanek in enumerate(vsechny_a_tagy_artlink, 1):
    print(index,
          # clanek.attrs.get("href"),
          clanek.get_text().strip())

1 Čas letí a už je bohužel pozdě, říká o návratu Golden Kids Vondráčková
2 Dědečkovi spadl lék do dortu. Tak se Valijevová hájila u arbitráže
3 Bahbouh, dveře k vlivným. Kdo je podnikatel z „Fialovy“ kampeličky
4 Ruskou továrnou na rakety otřásla obří exploze. Plánovaný test, tvrdí úřady
5 Cuká to se mnou. Soukalová o soše Sebelásce, lekcích zpěvu i velké škole
6 {NADPIS reklamního článku dlouhý přes dva řádky}
7 Sex scény? Podzimková měla dublérku, říká Měcháček o seriálu Sedm schodů k moci
8 Tajná dovolená prezidenta Pavla. Hrad mlčí, měl by být s ochrankou ve Španělsku
9 OBRAZEM: Déšť, plné tribuny, zlato Francie i české zklamání. Jak začalo MS v biatlonu
10 KLDR ruší ekonomickou spolupráci s Jižní Koreou. Usmíření je nemožné, řekl Kim
11 Za nižšími cenami do Tamdy. Ve vietnamském obchoďáku nakupuje stále víc Ústečanů
12 Osudoví muži Věry Křesadlové. Forman mého nového partnera ocenil, vzpomíná
13 Jednoduchý dům si rodina postavila v Dobříši. Je neuvěřitelně prostorný
14 Nenápadné c

<br>

<a href='https://forms.gle/w3zjiuQTWhBV5oyx6' target='_blank'>Rychlý dotazníček po lekci</a>

---