## Úvod

---

1. [Úvod do problematiky](#Úvod-do-problematiky),
2. [Nastavení prostředí](#Nastavení-prostředí),
4. [HTML](#HTML),
5. [Postup web scrapování](#Obecný-postup-web-scrapování),
6. [Domácí úloha](#Domácí-úloha).

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse2.mm.bing.net%2Fth%3Fid%3DOIP.E7biPUYoI-y9G-YFp3eq8wHaHa%26pid%3DApi&f=1" width="200">

## Úvod do problematiky

---

Co je *skrejpování webu*?

Jde **o získávání dat**, které najdeš uložené na webu.

Obecně se tento proces označuje jako *web scraping*, ale jindy jej můžeš najít označený jako *data mining*, *web harvesting* atd.

<br>

###  Proč web scraping

Jako běžný uživatel jsi zvyklý, prohlížet obsah na webu **pomocí prohlížeče**.

Tento postup je velmi **pohodlný** a dovolí ti, nechat si vykreslovat různé obrázky, videa, texty, aj.

Ale, pokud tě **zajímají spíše data**, kterými web disponuje a ne jejich *vyrenderovaná* (vykreslená) podoba, potom je **web scraping** přesně pro tebe:
- umožňuje ti **rychle stahovat** zdrojová data,
- umožňuje ti stahovat **větší množství dat** současně,
- umožňuje ti vyhnout se **grafickému rozhraní**.

<br>

### Ukázka

<a href="https://www.idnes.cz" target="_blank">odkaz</a>

```python
import requests
from bs4 import BeautifulSoup

url = "..."
```

Postup je relativně rychlý, opakovatelný.

Co je to za knihovny `requests` a `bs4`? Máš je také k dispozici? Jak je můžeš nahrát a používat?

In [1]:
import requests

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse2.mm.bing.net%2Fth%3Fid%3DOIP.EvE0cAsK9bHMbis8Ki5YPQHaHa%26pid%3DApi&f=1" width="200">

## Nastavení prostředí

---
Nejprve potřebuješ vyřešit, co všechno pro svůj projekt potřebuješ.

### Knihovny
*Knihovny*  můžeš získat v podstatě dvěma způsoby:
1. **V rámci instalace**, (knihovny *zabudované*),
2. **nainstalovat ručně**, (knihovny *třetích stran*).

### Zabudované knihovny


Tyto knihovny máš k dispozici ihned po nainstalování *interpreta* Pythonu.

Jejich **obsah** a **verze** se mohou lišit průběhem času.

Seznam těchto knihoven najdeš v <a href="https://docs.python.org/3/library/index.html" target="_blank">oficiální dokumentaci</a> (na odkaze je seznam pro verzi interpreta **3.10.4**).

<br>

### Knihovny třetích stran

Zatímco některé knihovny můžeš snadno nahrát přímo na místě:

In [2]:
import typing
import uuid
import itertools

In [3]:
help(typing)

Help on module typing:

NAME
    typing - The typing module: Support for gradual typing as defined by PEP 484.

MODULE REFERENCE
    https://docs.python.org/3.8/library/typing
    
    The following documentation is automatically generated from the Python
    source files.  It may be incomplete, incorrect or include features that
    are considered implementation detail and may vary between Python
    implementations.  When in doubt, consult the module reference at the
    location listed above.

DESCRIPTION
    At large scale, the structure of the module is following:
    * Imports and exports, all public names should be explicitly added to __all__.
    * Internal helper functions: these should never be used in code outside this module.
    * _SpecialForm and its instances (special forms): Any, NoReturn, ClassVar, Union, Optional
    * Two classes whose instances can be type arguments in addition to types: ForwardRef and TypeVar
    * The core of internal generics API: _GenericAlias a

Jiné knihovny ti **přímo nahrát nepůjdou**:

In [4]:
import flask
import pandas

ModuleNotFoundError: No module named 'flask'

##### Demo: built-in vs. third sites packs.

Pokud jsi právě dostal výjimku `ModuleNotFoundError`, tak je všechno v pořádku.

<br>

Právě tyto knihovny (a mnoho dalších) jsou označovány jako *knihovny třetích stran*.

Tyto knihovny **nejsou součástí nainstalovaných** knihoven, a proto je nelze nahrát takhle jednodušše.

Je potřeba následujících kroků:
1. Nejprve je musíš **vyhledat**,
2. následně **správně nainstalovat**.

<br>

Kde je ale hledat a jak je řádně a správně nainstalovat?

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.1jYNqFlZEyuhm3apMFgIPwHaHa%26pid%3DApi&f=1" width="170">

## Virtuální prostředí

---

Pro **každý projekt**, který budeš v Pythonu tvořit, budeš obvykle potřebovat **různé knihovny** (jak *zabudované*, tak *třetích stran*).

```
projekty/
   ├─projekt01/  # requests
   ├─projekt02/  # requests, pandas
   ├─projekt03/  # pandas
   ├─...
   └─projektXY/
```

<br>

Nejenom různé knihovny, ale dokonce i **různé verze stejných knihoven**.
```
projekty/
   ├─projekt01/  # requests==2.21.0
   ├─projekt02/  # requests==2.19.1, pandas==1.9.0
   ├─projekt03/  # pandas==2.0.0.
   ├─...
   └─projektXY/
```

<br>

Je proto vhodné, osvojit si zdravé navýky pro práci **s různými projekty** (úlohami) a pracovat s pomocí oddělených tzv. *virtuálních prostředí*.

<br>

##### Demo: virt. prostředí

### Proč oddělené prostředí

Nač ale oddělovat prostředí?

Můžu přece všechny **knihovny nainstalovat na jedno místo**, a každý projekt bude moci využít společnou knihovnu.

**Do jisté míry** ano, **ALE**... nese s sebou spoustu komplikací.

<br>

Ty nejdůležitější jsou:
1. Problémy s OS,
2. Rozdílné verze knihoven.

<br>

### Problémy s OS

*Linux* a *MacOS* jsou *operační systémy*, které již předinstalovaný Python obsahují.

Ten potom pracuje s některými interními procesy, takže o nich často ani jako uživatel netušíš.

Pokud nainstaluješ knihovnu **bez virtuálního prostředí**, hrozí, že nahradíš **původní verze** těchto knihoven **novějšími verzemi** (se kterými neumí pracovat), což může vést k neočekávanému chování.

Ukázka:
```
# výpis z příkazu 'python3 -m pip list'
# tvůj OS potřebuje tyto verze knihoven

pycairo                1.16.2              
pycodestyle            2.9.0               
```

Pokud nainstaluješ novější verze těchto knihoven (*upgraduješ* je), dostaneš něco podobného:
```
pycairo                1.19.0              
pycodestyle            3.1.1               
```

Novější verze mohou často postrádat některé starší funkce a jiné objekty. Případně je jejich funkcionalita přemapována na jiné objekty.

Potom ti hrozí **neočekávané chování** běžných procesů (výjimky, logy,..), které tyto objekty potřebují.

<br>

### Rozdílné verze knihoven

Dalším problémem, před kterým tě *virtuální prostředí* brání, je kolize **verzí knihoven**, mezi **jednotlivými projekty**.

Ukázka:
```
   ├─projekt01/  # requests==2.21.0
   ├─projekt02/  # requests==2.19.1, ...
```

<br>

Pokud nainstaluješ (*globálně*) novější verzi knihovny `2.21.0`, můžeš ztratit některou funkcionalitu z předchozích verzí (funkce, třídy, proměnné, atd.)

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.3RX0BJUjo1iEcyFBi59JWQHaHa%26pid%3DApi&f=1" width="180">


### Práce v příkazovém řádku

---

Vytvořit virtuální prostředí můžeš jednoduše **v příkazovém řádku**.

Často totiž **nemáš přístup ke grafickému rozhraní** (virtuál, kontejner, server), a potom se hodí, řídit celý proces **v příkazovém řádku**.

Python disponuje knihovnou `venv`, která ti takové prostředí umožní nachystat.

<br>

### Sada příkazů

Nejprve zkontroluj, jestli máš nainstalovaný základní manažer balíčků **pip**:
```
python3 -m pip --version  # novější zápis
pip --version             # starší zápis
```

<br>

Výstup ti vrátí číslo verze manažera a jeho umístění:
```
pip 21.0.1 from ...
```

##### Demo: kontrola manažeru

Pokud máš manažer v pořádku, můžeš si **vytvořit nové virtuální prostředí**:
```
python3 -m venv moje_prvni_prostredi
```

<br>

Po krátké odmlce jej můžeš **aktivovat**:
```
source moje_prvni_prostredi/bin/activate   # aktivace pro Linux a MacOS
moje_prvni_prostredi\Scripts\Activate.ps1  # aktivace pro Windows
```

<br>

Aktivované virtuální prostředí poznáš podle **předepsané kulaté závorky se jménem projektu**:
```
$ source moje_prvni_prostredi/bin/activate
(moje_prvni_prostredi) $
```

##### Demo: aktivace prostředí

<br>

Pokud si nyní budeš chtít zkontrolovat, které **knihovny máš v nově vytvořeném prostředí**, zapiš:
```
python3 -m pip list
python3 -m pip freeze
```

<br>

Aktivní prostředí potom ukončíš příkazem:
```
deactivate
```

##### Demo: manipulace s manažerem

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.FNPYtWpZ9XRY2yf9Z1LqXgHaHa%26pid%3DApi&f=1" width="200">

### Hledání balíčků

---

Teď, když máš nachystané zázemí, můžeš začít vyhledávat jednotlivé knihovny, které ti usnadní práci.

Seznam **většiny knihoven** najdeš na <a href="https://pypi.org/" target="_blank">pypi.org</a>, což je místo, kde si komunita *Pythonistů* sdílí svoje knihovny.

##### Demo: Vyhledej knihovnu `requests`

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.1hTm5TmhnE0ctqZd13VcQAHaHa%26pid%3DApi&f=1" width="170">


### Instalace vyhledané a ověřené knihovny

---

Pokud dohledáš knihovnu, obvykle najdeš i **příkaz pro instalaci**.

Nezapomeň aktivovat virtuální prostředí a můžeš zapsat příkaz:
```
python3 -m pip install requests
```

##### Demo: Zobrazit knihovnu

### Práce s Pycharm

---

Pokud pracuješ s PyCharmem, ten ti v podstatě *virtuální prostředí* naservíruje sám.

##### Demo: Ukázka v PyCharm

Nyní si můžeš řádně nainstalovat knihovny z počáteční ukázky (`requests` a `bs4`).

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse2.mm.bing.net%2Fth%3Fid%3DOIP.VLTvH1ymQZkq7L3jnBJJ4AHaHa%26pid%3DApi&f=1" width="170">

## HTML

---

Než se pustíš do *scrapování* dat, potřebuješ se zorientovat v následujících krocích:
1. Jak **vyhledat data**,
2. jak **identifikovat jejich zdroj**,
3. jak **přečíst zdroj**.

### Vyhledání dat

Nejlepší je, rozkoukat se **pomocí prohlížeče**, ten má totiž k dispozici každý.

Zajímají tě ceny na e-shopech, ubytování, nové články?

Zapni *prohlížeč*, vyber tebou preferovaný *vyhledávací engine* a začni hledat.

### Identifikuj zdroj dat

Jakmile najdeš, co potřebuješ, potřebuješ pochopit, **v jaké struktuře** jsou všechna tato data poskládaná.


Většina prohlížečů disponuje schopností nahlédnout *do struktury* dat, která zobrazují.

U prohlížeče Mozilla je postup následující:
1. **Přejdeš na stránku**, která tě zajímá,
2. **pravým tlačítkem myši** klikneš kamkoliv do prostoru v okně,
3. vybereš možnost **View page source** (tedy *zobrazit zdrojový kód*).

```html
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<head>
...
```

Následně můžeš vyčíst, že *zdrojový kód* stránky je uložený ve formátu `html`aj.

### Získání zdrojového kódu s Pythonem

Na začátku, stejně jako v rámci tvého prohlížeče, musíš **znát adresu**:
```python
url = "https://www.idnes.cz/"
```

Potom potřebuješ, stejně jako v prohlížeči, odeslat **správný typ požadavku**.

Jak jej ale najít?

<br>

##### Demo: najít, identifikovat a zobrazit požadavek v prohlížeči

##### Demo: Odeslat požadavek v Pythonu

In [5]:
# Vhodný objekt
import requests

In [6]:
# Jeho průzkum
help(requests)

Help on package requests:

NAME
    requests

DESCRIPTION
    Requests HTTP Library
    ~~~~~~~~~~~~~~~~~~~~~
    
    Requests is an HTTP library, written in Python, for human beings.
    Basic GET usage:
    
       >>> import requests
       >>> r = requests.get('https://www.python.org')
       >>> r.status_code
       200
       >>> b'Python is a programming language' in r.content
       True
    
    ... or POST:
    
       >>> payload = dict(key1='value1', key2='value2')
       >>> r = requests.post('https://httpbin.org/post', data=payload)
       >>> print(r.text)
       {
         ...
         "form": {
           "key1": "value1",
           "key2": "value2"
         },
         ...
       }
    
    The other HTTP methods are supported - see `requests.api`. Full documentation
    is at <https://requests.readthedocs.io>.
    
    :copyright: (c) 2017 by Kenneth Reitz.
    :license: Apache 2.0, see LICENSE for more details.

PACKAGE CONTENTS
    __version__
    _internal_utils

In [8]:
# Nápověda
help(requests.get)

Help on function get in module requests.api:

get(url, params=None, **kwargs)
    Sends a GET request.
    
    :param url: URL for the new :class:`Request` object.
    :param params: (optional) Dictionary, list of tuples or bytes to send
        in the query string for the :class:`Request`.
    :param \*\*kwargs: Optional arguments that ``request`` takes.
    :return: :class:`Response <Response>` object
    :rtype: requests.Response



In [9]:
# Demo
odpoved_serveru = requests.get("https://www.idnes.cz/")

In [10]:
# Zobrazit výstup
print(odpoved_serveru)

<Response [200]>


In [12]:
print(odpoved_serveru.text)

<!doctype html>
<html lang="cs">
<head>
    
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    

<script>var Unidata = { "exdomena": "www.idnes.cz", "ostrov": "sph", "rubrika": "sph", "zobrazeni": "home", "verze": "B", "reklama": true, "timestamp": 1671025170278.0, "webtype": "full", "section": "ostatni", "subSection": "", "pageType": "main", "authors": [""], "keywords": [5003], "lidskost": 240902018759621
    }
        var pp_gemius_extraparameters = new Array('content=free', 'premium=false', 'verze=B', 'webtype=full');

</script>

    
<script>   Unidata.prebidConfig = [
{"halfpagead_rubrika_spodni":{"code":"halfpagead_rubrika_spodni","mediaTypes":{"banner":{"sizes":[[300,600],[300,300],[250,250],[300,250],[160,600],[120,600],[240,400],[120,240],[210,210]]}}},"widesquare":{"code":"widesquare","mediaTypes":{"banner":{"sizes":[[480,300],[300,300],[250,250],[300,250],[336,280],[480,480]]}}},"halfpagead_rubrika":{"code":"halfpagead_rubrika","mediaTypes":{"banne

Jak se ale v takovém zdrojovém souboru orientovat?

## Úvod do HTML

---

Tento typ souborů je opět varianta **zjednodušeného textového formátu**, který je hierarchicky uspořádný pomocí tzv. *tagů* nebo také *elementů*:
```html
<body>
<div id="menu">
    <li>
        <a href="http://XXXXXXX.cz" title="">Homepage</a>
    </li>
</div>
</body>
```
Formát `html` je velmi často používaný pro tvorbu **struktury webových stránek**

### Tagy

Na každém řádku si jsou nachystané prvky `html` formátu. `<div></div>` nebo `<li></li>`.

Všimni si, že jsou nachystané v párech. Jeden objekt je **otevírající** a druhý **zavírající** (většinou s lomítkem).

Takový pár, otevírající a zavírající element, často obsahují nějaký údaj:
```html
<div>   ..otevírací_tag
    Obsah
</div>  ..uzavírací_tag
```

<br>

Některé tagy jsou zarovnané a jiné odsazené:
```html
<div id="menu">
    <li>
        <a href="XYZ">Homepage</a>
        <a href="MNO">Source</a>
    </li>
</div>
```
Z toho pak vyplývá **rozdělení tagů** na:
1. **Rodičovské**, nebo také nadřazený tag `<div>`,
2. **potomky**, odsazené tagy `<li>` a `<a>`,
3. **sourozence**, tagy na stejné úrovni odsazení jako oba tagy `<a>`.

### Atributy

Dalším detailem, kterého si můžeš v `html` strutuře všimnout, jsou tzv. *atributy tagů*.
```html
 <!-- atribut "id"-->
<div id="menu">                    
    <li>
        <!-- atribut "href"-->
        <a href="XYZ">Homepage</a>  
        <!-- atribut "href"-->
        <a href="MNO">Source</a>    
    </li>
</div>
```
*Atributy* jsou velice podobné *mapování* u slovníků v Pythonu.

Jejich účelem je tedy přidat nějaké rozšiřující, nebo doplňující chování pro stávající **HTML tag**.

Jsou tvořené páry **klíč** a **hodnota**, spojené pomocí `=`.

<br>

Je jich celá řada, ale co se ukázky týče, vidíš:
1. `id` atribut, který slouží jako **pomocný identifikátor** v rámci celého `html`.
2. `href` atribut, který **upřesňuje odkaz**, na který tě přesune (jinam na stejné stránce, na jinou stránku, atd.).

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.VivD3FqxBcHWl5Od9E9UDgHaHa%26pid%3DApi&f=1" width="170">

### Obecný postup web scrapování
---


Celý postup **web scrapování** potom obecně rozložíš do těchto kroků:
1. ✅ Získání **zdrojového souboru** z webové adresy,
2. ❌ **rozdělení a procházení** takového zdrojového souboru,
3. ❌ **zpřístupnění a uložení dat** ve zdrojovém souboru, která potřebuješ,
4. ❌ (volitelné) **přesun na další stránku** a zopakovat první tři kroky.

### Rozdělení zdrojového souboru

*Zdrojový soubor* už získáš, ale co teď s ním?

In [12]:
from requests import get

odpoved_serveru = get("https://cs.wikipedia.org/wiki/Hlavn%C3%AD_strana")

In [13]:
odpoved_serveru.text

'<!DOCTYPE html>\n<html class="client-nojs" lang="cs" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title>Wikipedie, otevřená encyklopedie</title>\n<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\\t.","\xa0\\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"ČSN basic dt","wgMonthNames":["","leden","únor","březen","duben","květen","červen","červenec","srpen","září","říjen","listopad","prosinec"],"wgRequestId":"fff3e436-bea1-48ad-9d39-912ef5d4b61b","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Hlavní_strana","wgTitle":"Hlavní strana","wgCurRevisionId":21091310,"wgRevisionId":21091310,"wgArticleId":4,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":[],"wgPageContentLanguage":"cs","wgPageContentModel":"wikitext","wgRelevantPageName":"Hlavní_strana","wgRelevantArticleId":4,"wgIsProb

<br>

Na první pohled je patrné, že s takovým objektem, je práce **velmi náročná**:

In [None]:
odpoved_serveru.text

In [13]:
odpoved_serveru.text[:20]

'<!doctype html>\r\n<ht'

In [14]:
odpoved_serveru.text[:30]

'<!doctype html>\r\n<html lang="c'

In [15]:
odpoved_serveru.text[94:141]

't="IE=edge">\r\n    \r\n\r\n<script>var Unidata = { "'

Definitivně není reálné, takový objekt *indexovat*, *slicovat*, *stridovat*.

Jak tedy obsah zdrojového souboru pohodlně **rozdělit**?

### Procházení v rozděleném souboru

Jestli chceš soubor pohodlně procházet, budeš muset najít **další pomůcku**.

Hledáš takovou, která umí rozdělovat, nebo jinak řečeno *parsovat*, obsah `html` souborů.

##### Demo: Hledat knihovnu pro rozdělení HTML souborů

In [16]:
# knihovna
from bs4 import BeautifulSoup

In [17]:
# nápověda
help(BeautifulSoup)

Help on class BeautifulSoup in module bs4:

class BeautifulSoup(bs4.element.Tag)
 |  BeautifulSoup(markup='', features=None, builder=None, parse_only=None, from_encoding=None, exclude_encodings=None, element_classes=None, **kwargs)
 |  
 |  A data structure representing a parsed HTML or XML document.
 |  
 |  Most of the methods you'll call on a BeautifulSoup object are inherited from
 |  PageElement or Tag.
 |  
 |  Internally, this class defines the basic interface called by the
 |  tree builders when converting an HTML/XML document into a data
 |  structure. The interface abstracts away the differences between
 |  parsers. To write a new tree builder, you'll need to understand
 |  these methods as a whole.
 |  
 |  These methods will be called by the BeautifulSoup constructor:
 |    * reset()
 |    * feed(markup)
 |  
 |  The tree builder may call these methods from its feed() implementation:
 |    * handle_starttag(name, attrs) # See note about return value
 |    * handle_endtag(na

In [19]:
soup = BeautifulSoup(
    odpoved_serveru.text,
    features="html.parser"
)

In [20]:
soup

<!DOCTYPE html>

<html lang="cs">
<head>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<script>var Unidata = { "exdomena": "www.idnes.cz", "ostrov": "sph", "rubrika": "sph", "zobrazeni": "home", "verze": "B", "reklama": true, "timestamp": 1671025170278.0, "webtype": "full", "section": "ostatni", "subSection": "", "pageType": "main", "authors": [""], "keywords": [5003], "lidskost": 240902018759621
    }
        var pp_gemius_extraparameters = new Array('content=free', 'premium=false', 'verze=B', 'webtype=full');

</script>
<script>   Unidata.prebidConfig = [
{"halfpagead_rubrika_spodni":{"code":"halfpagead_rubrika_spodni","mediaTypes":{"banner":{"sizes":[[300,600],[300,300],[250,250],[300,250],[160,600],[120,600],[240,400],[120,240],[210,210]]}}},"widesquare":{"code":"widesquare","mediaTypes":{"banner":{"sizes":[[480,300],[300,300],[250,250],[300,250],[336,280],[480,480]]}}},"halfpagead_rubrika":{"code":"halfpagead_rubrika","mediaTypes":{"banner":{"sizes":[[300,600],[300,300],[

In [17]:
print(soup.prettify())

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="cs">
 <head>
  <meta charset="utf-8"/>
  <title>
   Wikipedie, otevřená encyklopedie
  </title>
  <script>
   document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"ČSN basic dt","wgMonthNames":["","leden","únor","březen","duben","květen","červen","červenec","srpen","září","říjen","listopad","prosinec"],"wgRequestId":"fff3e436-bea1-48ad-9d39-912ef5d4b61b","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Hlavní_strana","wgTitle":"Hlavní strana","wgCurRevisionId":21091310,"wgRevisionId":21091310,"wgArticleId":4,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":[],"wgPageContentLanguage":"cs","wgPageContentModel":"wikitext","wgRelevantPageName":"Hlavní_strana","wgRelevantArticleId":4,"w

Nyní, pokud máš *zdrojový soubor* rozdělený, můžeš se zaměřit **na vyhledávání konkrétních dat**.

### Hledám TENTO element

Vzorové `html` uložené jako *string*:

In [21]:
html_doc = """
<div class="mainpage-headline">
<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneI"
title="Wikipedie:Článek týdne I.">Článek týdne</a>
<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneII"
title="Wikipedie:Článek týdne II.">Článek týdne II.</a>
</div>
"""

Jak z takového zdrojového `str` získat obsah informace **z druhého tagu** `<a>`?

`<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneII"
title="Wikipedie:Článek týdne II.">Článek týdne II.</a>`

<br>

##### Vyhledat **jménem tagu**

In [22]:
rozdelene_html = BeautifulSoup(html_doc, features="html.parser")

In [23]:
type(rozdelene_html)

bs4.BeautifulSoup

In [24]:
print(rozdelene_html.div)

<div class="mainpage-headline">
<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneI" title="Wikipedie:Článek týdne I.">Článek týdne</a>
<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneII" title="Wikipedie:Článek týdne II.">Článek týdne II.</a>
</div>


In [25]:
print(rozdelene_html.a)

<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneI" title="Wikipedie:Článek týdne I.">Článek týdne</a>


V takovém případě ale mohu pracovat **velice neobratně** s dalšími výskytu tohoto *elementu*.

Pokud ale stále hledáš jen **konkrétní** (druhý) **element**, může být nepříjemné, indexovat k němu nepřímo.


<br>

##### Vyhledat pomocí atributů tagů metodou `find`

Pokud má element doplňující atributy, můžeš vyhledávat právě pomocí jejich **jmen a hodnot**

In [None]:
help(rozdelene_html.find)

In [28]:
print(rozdelene_html.find("a", {"title": "Wikipedie:Článek týdne II."}))

<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneII" title="Wikipedie:Článek týdne II.">Článek týdne II.</a>


In [29]:
print(rozdelene_html.find("a", {"href": "/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneII"}))

<a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdneII" title="Wikipedie:Článek týdne II.">Článek týdne II.</a>


<br>

#### Vyhledat pomocí metody `select`

Metoda `select` ti umožňuje vyhledávat pomocí tzv. **CSS selektoru**:

In [None]:
help(rozdelene_html.select_one)

##### [Demo: Selekce hlavního článku, Kinobox](https://www.kinobox.cz/)

In [30]:
import requests

In [31]:
odpoved_s = requests.get("https://www.kinobox.cz/")

In [32]:
soup_kinobox = BeautifulSoup(odpoved_s.text, features="html.parser")

In [33]:
a_tag_uvodni_cl = soup_kinobox.select_one("#nejnovejsi > div:nth-child(1) > a:nth-child(1)")

In [34]:
print(type(a_tag_uvodni_cl))

<class 'bs4.element.Tag'>


In [39]:
print(a_tag_uvodni_cl.getText())

Dwayne Johnson se jde rvát s Krampusem a novinář ze Spider-Mana předvádí muskulaturu ve vánočním akčňáku Red One


<br>

Jaké jsou tedy způsoby, jak vyhledat jednotlivé tagy:
1. Vyhledat **jménem tagu**,
2. Vyhledat pomocí *atributů tagů* metodou **find**,
3. Vyhledat pomocí metody **select_one**.

<br>

### Hledám TYTO elementy

Metoda `find_all` ti také pomáhá projít zdrojový kód.

Třeba pokud potřebuješ najít **všechny elementy s určitým atributem** (případně pomocí *XPath*):

In [41]:
html_doc_2 = """
<div class="mainpage-left">
    <a class="topic">Tady je první článek...</a>
</div>
<div class="mainpage-block aow-container">
    <a class="topic">Tady je druhý článek...</a>
</div>
<div class="mainpage-headline">
    <a href="/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdne" title="Wikipedie:Článek týdne">Článek týdne</a>
    <a class="topic_main">XXXXX...</a>
</div>
<div class="mainpage-content">
     <a class="topic_main">Příjmení Ugandského trenéra ženského lakrosu je...</a>
</div>
<div class="mainpage-footer">
    <a title="Wikipedie:Nejlepší články">Nejlepší články</a>
    <a title="Wikipedie:Dobré články">Dobré články</a>
    <a title="Wikipedie:Článek týdne/2022">Další články týdne…</a>
</div>
"""

In [42]:
soup_2 = BeautifulSoup(html_doc_2, features="html.parser")

In [47]:
vsechny_a_topic = soup_2.find_all("a", {"class": "topic_main"})

In [48]:
vsechny_a_topic

[<a class="topic_main">XXXXX...</a>,
 <a class="topic_main">Příjmení Ugandského trenéra ženského lakrosu je...</a>]

In [45]:
jeden_a_topic = soup_2.find("a", {"class": "topic"})

In [46]:
print(jeden_a_topic)

<a class="topic">Tady je první článek...</a>


<br>

#### Prozkoumání vyhledaného elementu

Pokud najdeš element, který potřebuješ, můžeš je **důkladněji prozkoumat**:

In [49]:
treti_div = soup_2.find("div", {"class": "mainpage-headline"})

In [None]:
dir(treti_div)

In [50]:
potomek_a = treti_div.findChild()

In [51]:
type(potomek_a)

bs4.element.Tag

In [52]:
potomek_a.attrs        # slovník jmen a hodnot všech atributů

{'href': '/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdne',
 'title': 'Wikipedie:Článek týdne'}

In [53]:
potomek_a.get("href")  # metoda "get", hledáš atribut "href"

'/wiki/Wikipedie:%C4%8Cl%C3%A1nek_t%C3%BDdne'

In [54]:
potomek_a.get_text()   # metoda "get_text" ti přečte obsah text elementu

'Článek týdne'

In [None]:
print(soup_2.find(
    "div", {"class": "mainpage-headline"}).find(
        "a", {"class": "topic_main"}).get_text()
)

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.XxURlbi8RZ3SMPoMRj91VwAAAA%26pid%3DApi&f=1" width="200">

## Domácí úloha

---

Napiš skript, který postahuje všechny aktuální články na zadané *webové adrese*.

Ukázka po spuštění:
```
python ukol_lekce09.py
 1. Ukrajinci plánovali větší ofenzivu. Ale Američané je vyzvali, aby ji omezili
 2. Učitel: Kázeň, dřina a dril na školy patří. Řád je efektivní, nejde si jen hrát
 3. Generálu Pavlovi radí s krizí nový tým expertů. Vede ho exguvernér ČNB Tůma
 ...
```

**Poznámka,** texty článků se mohou samozřejmě lišit.

---