<h6 align=right> 🐍 Python akademie - lekce 12 - 16.01.2024</h6>

---



<br>

# <h1 align=center><font size=24><b> 12_02: Webscraping</font></h1>

<br>


<br>

---

### **Zajímavé odkazy z této lekce:**

* [Oficiální dokumentace pro balíček **requests** (requests.readthedocs.io)](https://requests.readthedocs.io/en/master/)
* [Oficiální dokumentace pro balíček **beautifulsoup** (crummy.com)](https://www.crummy.com/software/BeautifulSoup/)

---

<br>

<br>

## **Průzkum webu**

---


Nejprve si společně odpovězme na otázku, pokud byste byli vy majitelé webu, chtěli byste, aby **ostatní uživatele mohli volně pracovat s vašimi daty**?

<br>

Na takovou otázku je někdy jednoduché odpovědět, jindy ne. Pokud chcete vědět, jestli web umožňuje uživatelům poskytnout konkrétní data. Jednoduše doplňte za konkrétní adresu `robots.txt`.
```bash
https://www.idnes.cz/robots.txt
https://www.airbnb.ca/robots.txt
```

<br>

Tento dokument v podstatě oznamuje všem crawlerům, botům, scraperům, co mohou nebo nemohou procházet-indexovat.

<br>

## **Náš cíl**

---

Pojďme se společně podívat na webovou stránku [Heroes3](https://heroes3.cz/hraci/index.php?page=1&order=&razeni=DESC).

<br>

Pomocí Pythonu se budeme snažit získat (*scrapovat*) tabulku hráčů. Tedy všechna jména v tabulce a k nim příslušné údaje (společně vybereme).

<br>

Postup vypadá většinou následovně:
- Získání HTML souborů z konkrétního webu,
- rozdělení dat, pro snadnější vyhledávání,
- uložení dat,
- možné celý proces zopakovat na další stránce, nebo ukončit.

<br>

<br>

## **Jaká data máme k dispozici?**

---

Prvním krokem je vyšetřit, jakým způsobem jsou data, která chceme získat, uložená.

<br>

Proto v našem prohlížeči použijeme pravé tlačítko myši a vybereme možnost `zobrazit zdrojový kód stránky` (příp. *view source page*).

<br>

Na následném zdroji uvidíme něco podobného:
```html
<!DOCTYPE html>
<html lang ="cs">
    <head> ... </head>
```

Na úplně prvním řádku vidíme, jaký má zdroj formát. Jde o `html`.

<br>

<br>

## **HTML**

---

Jde opět o typ textového souboru, který je zorganizovaný pomocí tzv. _tagů/elementů_ (proto ~markup), který nejčastěji tvoří strukturu webových stránek.

```html
<!-- pouze vzorovy zapis -->
<div id="menu">
    <li>
        <a href="http://XXXXXXX.cz" title="">Homepage</a>
    </li>
    <li>
        ...
    </li>
</div> 
```

<br>

### **Tagy**

Tagy jsou nápadné svojí hierarchickou strukturou. Nicméně tuto strukturu často vůbec nevnímáme, protože se uchovaná někde na pozadí.

<br>

Prohlížeče nám často představují až vyrenderovanou grafickou podobu, kterou známe z každodenního používání/vyhledávání.

<br>

Všimněte si, že některé tagy jsou zarovnané a jiné odsazené.

<br>

Díky zarovnání můžeme vyšetřit strukturu hierarchie:

- **rodičovský** tag `<div>`,
- **potomek** tag `<li>`, `<a>`,
- **sourozenec**, pokud je několiv potomků společně odsazených

<br>

### **Atributy**

Kromě toho, že tvoří samotnou strukturu html, můžou obsahovat doplňující atributy:

```html
<div id="menu">
    <a href="http://XXXXXXX.cz"></a>
<div class="sloupec">
```

<br>

Pomocí těchto atributů můžeme jednotlivé tagy lépe najít. Dále mohou obsahovat různé odkazy, identifikátory, případně text, který hledáme.

<br>

Formát jaký dodržují je podobný slovníkům v Pythonu:
```html
<div id="menu">  <!--id(klic)="menu"(hodnota)-->
```

<br>

## **Dotazování na server**

---

Abychom mohli s údaji, které jsou k dispozici na webu, pracovat, je potřeba získat konkretní `html` soubor.

<br>

Tento proces za nás obyčejně obstarává prohlížeč, protože vzdálený server o příslušné `html` (`css` + `js` soubory) požádá.

<br>

## **Python odesílá požadavky**

---

Stejně jako náš prohlížeč, tak můžeme Python instruovat, aby pro nás provedl to stejné, co prohlížeč.

<br>

Tedy vytvořil požadavek na serveru a obratem získal odpověď obsahující data.

<br>

Pomocí knihovny `requests` (příp. i dalších jiných) můžeme posílat požadavky typu:
1. **post**
2. **get**
3. **put**

<br>

Který budete používat vy záleží na webu, se kterým pracujete. Opět si ukážeme přímo v prohlížeči.


<br>

## **Requests, funkce `get`**

---
Nejprve však musíme na žádoucí stránce opět kliknout pravým tlačítkem myši a vybrat v prohlížeči `inspect element`.


Následně se objeví na spodu stránky lišta, ve které najdeme v záhlaví možnost `network` (tady sledujeme jakou metodu prohlížeč používá při komunikaci se serverem):

V rámci prohlížeče zkontrolujeme, o který typ požadavku jde nyní:

In [None]:
# pip install requests

In [28]:
import requests       # nejprve nutne nainstalovat balicek

In [29]:
dir(requests)

['ConnectTimeout',
 'ConnectionError',
 'HTTPError',
 'JSONDecodeError',
 'NullHandler',
 'PreparedRequest',
 'ReadTimeout',
 'Request',
 'RequestException',
 'Response',
 'Session',
 'Timeout',
 'TooManyRedirects',
 'URLRequired',
 '__author__',
 '__author_email__',
 '__build__',
 '__builtins__',
 '__cached__',
 '__cake__',
 '__copyright__',
 '__description__',
 '__doc__',
 '__file__',
 '__license__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 '__title__',
 '__url__',
 '__version__',
 '_check_cryptography',
 '_internal_utils',
 'adapters',
 'api',
 'auth',
 'certs',
 'chardet_version',
 'charset_normalizer_version',
 'check_compatibility',
 'codes',
 'compat',
 'cookies',
 'delete',
 'exceptions',
 'get',
 'head',
 'hooks',
 'logging',
 'models',
 'options',
 'packages',
 'patch',
 'post',
 'put',
 'request',
 'session',
 'sessions',
 'ssl',
 'status_codes',
 'structures',
 'urllib3',
 'utils',

In [30]:
help(requests.get)   # zobrazime si napovedu

Help on function get in module requests.api:

get(url, params=None, **kwargs)
    Sends a GET request.
    
    :param url: URL for the new :class:`Request` object.
    :param params: (optional) Dictionary, list of tuples or bytes to send
        in the query string for the :class:`Request`.
    :param \*\*kwargs: Optional arguments that ``request`` takes.
    :return: :class:`Response <Response>` object
    :rtype: requests.Response



### Vstupní hodnoty:

In [31]:
url = "https://heroes3.cz/hraci/index.php?page=1&order=&razeni=DESC"
vystupni_soubor = "vystup_tab_1.csv"

### Odeslání požadavku:

In [32]:
odp_serveru = requests.get(url)

In [33]:
type(odp_serveru)

requests.models.Response

In [34]:
odp_serveru.text

'<!DOCTYPE html>\n<html lang ="cs">\n<head>\n<meta charset="UTF-8" />\n<meta name="description" content="Liga a turnaje v počítačové hře Heroes of Might and Magic III." />\n<meta name="keywords" content="Heroes of Might and Magic 3, Heroes 3, liga, turnaje, online, hra, HoMaM, HMM, Hamachi, GameRanger" />\n<title>Liga Heroes 3 - Hráči</title>\n<link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.0.10/css/all.css" integrity="sha384-+d0P83n9kaQMCwj8F4RJB66tzIwOKmrdb46+porD/OvrJ+37WqIM7UoBtwHO6Nlg" crossorigin="anonymous"><link rel="Stylesheet" type="text/css" href="https://heroes3.cz/_include/css/common.css" />\n<link rel="Stylesheet" type="text/css" href="https://heroes3.cz/_include/css/menu.css" />\n<link rel="Stylesheet" type="text/css" href="https://heroes3.cz/_include/css/footer.css" />\n<link rel="Stylesheet" type="text/css" href="https://heroes3.cz/_include/css/ramecky.css" />\n<link rel="Stylesheet" type="text/css" href="https://heroes3.cz/_include/css/nova_hra.cs

In [35]:
odp_serveru.text[1:16]

'!DOCTYPE html>\n'

#### Raw html

Vidíme, že podoba, kterou nyní `html` získalo, neni moc užitečná. Protože s `html` budeme chtít podrobně pracovat a vyhledávat v něm, musíme vrácené údaje zpracovat (rozdělit~parsovat).<br />

Toho dosáhneme opět použitím vhodné knihovny, která nám práci usnadní. Mrkněte na [pypi.org](https://pypi.org/).

<br>

## **Beautifulsoup**

---

Asi jeden z těch nejznámějších parserů určených k rozdělování `html`, `xml` atd. Opět musíme nejprve nainstalovat (jedná se o balíček třetí strany).

<br>

V našem virtuálním pracovním prostředí:
```bash
$ pip3 install beautifulsoup
$ pip3 freeze > requirements.txt
```

<br>

### **Vstupní hodnoty**

In [36]:
import requests
from bs4 import BeautifulSoup

In [37]:
url_1 = "https://heroes3.cz/hraci/index.php?page=1&order=&razeni=DESC"
url_2 = "https://heroes3.cz/hraci/index.php?page=2&order=&razeni=DESC"

<br>

### **Odeslání požadavku:**


In [38]:
odp_serveru = requests.get(url_1)

In [39]:
print(odp_serveru)

<Response [200]>


In [40]:
type(odp_serveru.text)

str

In [41]:
print(odp_serveru.text)

<!DOCTYPE html>
<html lang ="cs">
<head>
<meta charset="UTF-8" />
<meta name="description" content="Liga a turnaje v počítačové hře Heroes of Might and Magic III." />
<meta name="keywords" content="Heroes of Might and Magic 3, Heroes 3, liga, turnaje, online, hra, HoMaM, HMM, Hamachi, GameRanger" />
<title>Liga Heroes 3 - Hráči</title>
<link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.0.10/css/all.css" integrity="sha384-+d0P83n9kaQMCwj8F4RJB66tzIwOKmrdb46+porD/OvrJ+37WqIM7UoBtwHO6Nlg" crossorigin="anonymous"><link rel="Stylesheet" type="text/css" href="https://heroes3.cz/_include/css/common.css" />
<link rel="Stylesheet" type="text/css" href="https://heroes3.cz/_include/css/menu.css" />
<link rel="Stylesheet" type="text/css" href="https://heroes3.cz/_include/css/footer.css" />
<link rel="Stylesheet" type="text/css" href="https://heroes3.cz/_include/css/ramecky.css" />
<link rel="Stylesheet" type="text/css" href="https://heroes3.cz/_include/css/nova_hra.css" />
<link 

In [42]:
print(odp_serveru.text[:16])

<!DOCTYPE html>



<br>

### **Parsování html**


In [None]:
help(BeautifulSoup)

In [43]:
soup = BeautifulSoup(odp_serveru.text, 'html.parser')   # promenna + typ parseru
print(soup)

<!DOCTYPE html>

<html lang="cs">
<head>
<meta charset="utf-8"/>
<meta content="Liga a turnaje v počítačové hře Heroes of Might and Magic III." name="description"/>
<meta content="Heroes of Might and Magic 3, Heroes 3, liga, turnaje, online, hra, HoMaM, HMM, Hamachi, GameRanger" name="keywords"/>
<title>Liga Heroes 3 - Hráči</title>
<link crossorigin="anonymous" href="https://use.fontawesome.com/releases/v5.0.10/css/all.css" integrity="sha384-+d0P83n9kaQMCwj8F4RJB66tzIwOKmrdb46+porD/OvrJ+37WqIM7UoBtwHO6Nlg" rel="stylesheet"/><link href="https://heroes3.cz/_include/css/common.css" rel="Stylesheet" type="text/css">
<link href="https://heroes3.cz/_include/css/menu.css" rel="Stylesheet" type="text/css"/>
<link href="https://heroes3.cz/_include/css/footer.css" rel="Stylesheet" type="text/css"/>
<link href="https://heroes3.cz/_include/css/ramecky.css" rel="Stylesheet" type="text/css"/>
<link href="https://heroes3.cz/_include/css/nova_hra.css" rel="Stylesheet" type="text/css"/>
<link href="ht

In [44]:
print(type(soup))

<class 'bs4.BeautifulSoup'>


In [45]:
dir(soup)

['ASCII_SPACES',
 'DEFAULT_BUILDER_FEATURES',
 'DEFAULT_INTERESTING_STRING_TYPES',
 'ROOT_TAG_NAME',
 '__bool__',
 '__call__',
 '__class__',
 '__contains__',
 '__copy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setitem__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__unicode__',
 '__weakref__',
 '_all_strings',
 '_check_markup_is_url',
 '_decode_markup',
 '_feed',
 '_find_all',
 '_find_one',
 '_is_xml',
 '_lastRecursiveChild',
 '_last_descendant',
 '_linkage_fixer',
 '_most_recent_element',
 '_namespaces',
 '_popToTag',
 '_should_pretty_print',
 'append',
 'attrs',
 'builder',
 'can_be_empty_element',
 'cdata_list_attributes',
 'childGener

In [46]:
isinstance(soup, BeautifulSoup)

True

In [47]:
print(soup.prettify())

<!DOCTYPE html>
<html lang="cs">
 <head>
  <meta charset="utf-8"/>
  <meta content="Liga a turnaje v počítačové hře Heroes of Might and Magic III." name="description"/>
  <meta content="Heroes of Might and Magic 3, Heroes 3, liga, turnaje, online, hra, HoMaM, HMM, Hamachi, GameRanger" name="keywords"/>
  <title>
   Liga Heroes 3 - Hráči
  </title>
  <link crossorigin="anonymous" href="https://use.fontawesome.com/releases/v5.0.10/css/all.css" integrity="sha384-+d0P83n9kaQMCwj8F4RJB66tzIwOKmrdb46+porD/OvrJ+37WqIM7UoBtwHO6Nlg" rel="stylesheet"/>
  <link href="https://heroes3.cz/_include/css/common.css" rel="Stylesheet" type="text/css">
   <link href="https://heroes3.cz/_include/css/menu.css" rel="Stylesheet" type="text/css"/>
   <link href="https://heroes3.cz/_include/css/footer.css" rel="Stylesheet" type="text/css"/>
   <link href="https://heroes3.cz/_include/css/ramecky.css" rel="Stylesheet" type="text/css"/>
   <link href="https://heroes3.cz/_include/css/nova_hra.css" rel="Stylesheet" 

<br>

### **Rozdělené html podle tagů**


Nyní máme sice `html` soubor rozdělený, ale potřebujeme vybrat jen ta data, která nás zajímají. Tedy vybrat z tabulky hráčů tyto sloupečky:
1. pořadí
2. jméno
3. body
4. celkem her
5. vítězství
6. úspěšnost

<br>

Abychom správně dohledali obsah těchto tagů, budeme je muset najít ve struktuře zdrojového kódu, v prohlížeči (režim `inspect`).

<br>

### **Hledání rodičovského tagu**


Jakmile najdeme rodičovský tag, můžeme jej ověřit u jednotlivých údajů (`CSS path`):
```html
form > table.tab_top > tbody > tr > td
```

<br>

Protože nás zajímají všichni hráči v tabulce, použijeme celý element `table`. Jakmile jej najdeme, můžeme si dále ověřit jestli nemá nějaký atribut, který by nám jej pomohl selektovat:
```html
<table class="tab_top">
    ...
</table>
```

<br>

### **Tagy potomků**


Postupně procházíme všechny dědičné tagy a odpovíme společně na tyto otázky:
1. Co představuje tag: `<td></td>`?
2. Co představuje tag: `<tr></tr>`?
3. Co představuje tag: `<tbody></tbody>`?
4. Co představuje tag: `<table></table>`?

<br>

### **Selekce vhodných elementů**


Nejprve potřebujeme získat takový element, který obsahuje celou tabulku se všemi hráči. Projdeme tedy dostupné metody a zkusíme nějakou vybrat:

In [None]:
dir(BeautifulSoup)

In [None]:
help(BeautifulSoup.select)

In [None]:
help(BeautifulSoup.find)

In [None]:
help(BeautifulSoup.find_all)

<br>

### **Selekce tabulky s atributem `tab_top`**


In [48]:
table_tag_top = soup.find("table", {"class": "tab_top"})

In [49]:
print(table_tag_top.prettify())

<table class="tab_top">
 <tr>
  <th>
   <a href="/hraci/index.php?page=1&amp;order=0&amp;razeni=DESC">
    POŘADÍ
   </a>
  </th>
  <th>
   <a href="/hraci/index.php?page=1&amp;order=0&amp;razeni=DESC">
    SKUPINA
   </a>
  </th>
  <th>
   <a href="/hraci/index.php?page=1&amp;order=jmeno&amp;razeni=DESC">
    JMÉNO
   </a>
  </th>
  <th>
   <a href="/hraci/index.php?page=1&amp;order=0&amp;razeni=DESC">
    BODY
   </a>
  </th>
  <th>
   <a href="/hraci/index.php?page=1&amp;order=elo&amp;razeni=DESC">
    ELO
   </a>
  </th>
  <th>
   <a href="/hraci/index.php?page=1&amp;order=vitezstvi&amp;razeni=DESC">
    VÍTĚZSTVÍ
   </a>
  </th>
  <th>
   <a href="/hraci/index.php?page=1&amp;order=celkem_her&amp;razeni=DESC">
    CELKEM HER
   </a>
  </th>
  <th>
   <a href="/hraci/index.php?page=1&amp;order=uspesnost&amp;razeni=DESC">
    ÚSPĚŠNOST
   </a>
  </th>
  <th>
   <a href="/hraci/index.php?page=1&amp;order=registrace&amp;razeni=DESC">
    REGISTRACE
   </a>
  </th>
  <th>
   <a href="/h

In [None]:
dir(table_tag_top)

Jakmile máme celou tabulku, snažíme se rozptyl zmenšit a najít pouze tagy s jednotlivými hráči. Vidíme, že každý hráč je na řádku. Dále, že každý řádek je schovaný za tagem `tr`.


<br>

### **Selekce elementů `tr`, řádků**


In [56]:
vsechny_tr = table_tag_top.find_all("tr")

In [None]:
dir(vsechny_tr)

In [57]:
print(vsechny_tr)

[<tr>
<th><a href="/hraci/index.php?page=1&amp;order=0&amp;razeni=DESC">POŘADÍ</a></th>
<th><a href="/hraci/index.php?page=1&amp;order=0&amp;razeni=DESC">SKUPINA</a></th>
<th><a href="/hraci/index.php?page=1&amp;order=jmeno&amp;razeni=DESC">JMÉNO</a></th>
<th><a href="/hraci/index.php?page=1&amp;order=0&amp;razeni=DESC">BODY</a></th>
<th><a href="/hraci/index.php?page=1&amp;order=elo&amp;razeni=DESC">ELO</a></th>
<th><a href="/hraci/index.php?page=1&amp;order=vitezstvi&amp;razeni=DESC">VÍTĚZSTVÍ</a></th>
<th><a href="/hraci/index.php?page=1&amp;order=celkem_her&amp;razeni=DESC">CELKEM HER</a></th>
<th><a href="/hraci/index.php?page=1&amp;order=uspesnost&amp;razeni=DESC">ÚSPĚŠNOST</a></th>
<th><a href="/hraci/index.php?page=1&amp;order=registrace&amp;razeni=DESC">REGISTRACE</a></th>
<th><a href="/hraci/index.php?page=1&amp;order=karma&amp;razeni=DESC">KARMA</a></th>
<th><a href="/hraci/index.php?page=1&amp;order=prispevky&amp;razeni=DESC">PŘÍSPĚVKY</a></th>
</tr>, <tr>
<td class="right"

In [52]:
vsechny_tr[1]

<tr>
<td class="right">1.</td>
<td class="right"><div style="margin-top: -3px; margin-bottom: -3px; margin-right: 1px;"><img alt="Šampion" src="https://heroes3.cz/_include/img/skupiny/1.png" style="cursor: help;" title="Šampion"/></div></td>
<td><a href="https://heroes3.cz/hraci/detail.php?id=3113">Scooby</a></td>
<td class="right">0</td>
<td class="right">2004</td>
<td class="right">303</td>
<td class="right">439</td>
<td class="right">69%</td>
<td class="right">29. 12. 2012</td>
<td class="right">122</td>
<td class="right">1280</td>
</tr>

In [53]:
type(vsechny_tr)

bs4.element.ResultSet

In [54]:
type(vsechny_tr[1])

bs4.element.Tag

Na začátku máme **záhlaví** (index `0`), bez toho se obejdeme, stačí aplikovat _slicování_, které datový typ `ResultSet` podporuje.

<br>

Nyní, když umíme rozdělit html na jednotlivé řádky (s jednotlivými hráči), potřebujeme konečně izolovat jednotlivé buňky, které obsahují konkrétní údaje.

<br>

### **Selekce jednotlivých buněk `td`**


In [63]:
for tr in vsechny_tr[1:]:             # vynechame zahlavi, budeme mit vlastni
    td_na_radku = tr.find_all("td")
    print(td_na_radku[0].get_text())  # Pozor, seznam bunek
    break                             # po prvnim cyklu ukoncime

1.


In [64]:
from pprint import pprint
pprint(td_na_radku)

[<td class="right">1.</td>,
 <td class="right"><div style="margin-top: -3px; margin-bottom: -3px; margin-right: 1px;"><img alt="Šampion" src="https://heroes3.cz/_include/img/skupiny/1.png" style="cursor: help;" title="Šampion"/></div></td>,
 <td><a href="https://heroes3.cz/hraci/detail.php?id=3113">Scooby</a></td>,
 <td class="right">0</td>,
 <td class="right">2004</td>,
 <td class="right">303</td>,
 <td class="right">439</td>,
 <td class="right">69%</td>,
 <td class="right">29. 12. 2012</td>,
 <td class="right">122</td>,
 <td class="right">1280</td>]


In [65]:
print(td_na_radku[0].get_text())

1.


In [66]:
print(td_na_radku[2].text)

Scooby


In [67]:
print(td_na_radku[2].string)

Scooby


In [70]:
print(type(td_na_radku[2].text))
print(type(td_na_radku[2].string))
print(type(td_na_radku[2].getText()))

<class 'str'>
<class 'bs4.element.NavigableString'>
<class 'str'>


In [69]:
print(td_na_radku[2].getText())

Scooby


In [71]:
def vyber_atributy_z_radku(tr_tag: "bs4.element.ResultSet"):
    """
    Z kazdeho radku (tr) vyber urcite bunky (td)[index])
    a zabal je do slovniku
    """
    return {
        "poradi": tr_tag[0].getText(),
        "jmeno": tr_tag[2].getText(),
        "vitezstvi": tr_tag[5].getText(),
        "celkem_her": tr_tag[6].getText()
    }


In [72]:
vysledky = []

for tr in vsechny_tr[1:]:
    td_na_radku = tr.find_all("td")
    data_hrace = vyber_atributy_z_radku(td_na_radku)
    vysledky.append(data_hrace)

In [73]:
from pprint import pprint
pprint(vysledky)

[{'celkem_her': '439', 'jmeno': 'Scooby', 'poradi': '1.', 'vitezstvi': '303'},
 {'celkem_her': '427', 'jmeno': 'karcma', 'poradi': '2.', 'vitezstvi': '242'},
 {'celkem_her': '159', 'jmeno': 'siska96', 'poradi': '3.', 'vitezstvi': '90'},
 {'celkem_her': '244', 'jmeno': 'Pepix', 'poradi': '4.', 'vitezstvi': '139'},
 {'celkem_her': '433',
  'jmeno': 'Lord Slayer',
  'poradi': '5.',
  'vitezstvi': '149'},
 {'celkem_her': '737', 'jmeno': 'SD', 'poradi': '6.', 'vitezstvi': '514'},
 {'celkem_her': '404',
  'jmeno': 'KekelZpekel',
  'poradi': '7.',
  'vitezstvi': '308'},
 {'celkem_her': '381', 'jmeno': 'Unreal', 'poradi': '8.', 'vitezstvi': '295'},
 {'celkem_her': '273',
  'jmeno': 'DavidHakl',
  'poradi': '9.',
  'vitezstvi': '161'},
 {'celkem_her': '317',
  'jmeno': 'naoblaku',
  'poradi': '10.',
  'vitezstvi': '127'},
 {'celkem_her': '229', 'jmeno': 'Kacer', 'poradi': '11.', 'vitezstvi': '146'},
 {'celkem_her': '563', 'jmeno': 'H34D', 'poradi': '12.', 'vitezstvi': '413'},
 {'celkem_her': '4

kratší zápis

In [None]:
data_o_hracich: list = list()

for tr in vsechny_tr[1:]:
    data_o_hracich.append(vyber_atributy_z_radku(tr.find_all("td")))

In [None]:
pprint(data_o_hracich)

<br>

Nyní umíme sbírat jednotlivé položky u všech hráčů, takže můžeme aplikovat stejný postup na celý `ResultSet` s použitím *list comprehension*.

In [None]:
data_o_hracich = [
    vyber_atributy_z_radku(tr.find_all("td"))
    for tr in vsechny_tr[1:]
]

In [None]:
print(data_o_hracich)

<br>

### **Ukládání údajů do souboru**


Úplně nakonec chceme námi posbírané údaje uložit ve formátu `csv` do příslušného souboru:

In [None]:
import csv
import traceback

def zapis_data(data: list, jmeno_souboru: str) -> str:
    """
    Zkus zapsat udaje z par. 'data' do souboru formatu .csv.
    """
    try:
        csv_soubor = open(jmeno_souboru, mode="w", encoding="utf-8")
        sloupce = data[0].keys()
        
    except FileExistsError:
        return traceback.format_exc()
    except IndexError:
        return traceback.format_exc()
    else:
        zapis = csv.DictWriter(csv_soubor, fieldnames=sloupce)
        zapis.writeheader()
        zapis.writerows(data)
        return "Saved"
    finally:
        csv_soubor.close()

In [None]:
vysledek = zapis_data(data_o_hracich, f"samples/tabulka_1.csv")

In [None]:
print(vysledek)

<br>

### **Vyzkoušíme další tabulky**

Pokud vám správně funguje varianta pro první tabulku, zkuste vkládat odkazy pro další tabulky, resp. tabulky další v pořadí.

<br>

Případně můžete zapsat tento proces pomocí programu v Pythonu, který lze spouštět s různými argumenty (první pro číslo tabulky, druhý pro jméno výstupu v `csv`).

In [None]:
jmeno_csv = sys.argv[2]  # vystup_tab_1.csv
cislo_tab = sys.argv[1]  # 1

In [None]:
cislo_tab = "2"
url = f"https://heroes3.cz/hraci/index.php?page={cislo_tab}&order=&razeni=DESC"

<br>

## **S velkou mocí příchází velká zodpovědnost**

---

1. Než se pustíme do scrapingu, zkontolujeme `robots.txt` (allow/disallow)
2. Zkontrolujeme, jestli služba nenabízí API (není třeba scrapovat, ale využít endpoint)
3. Nezatěžujeme server velkým množstvím dotazů v krátkém časovém horizontu (pád->blokování)
4. Nepoužívám cizí data ke komerčním účelům (_pravidla&podmínky_)
5. requests, bs4, urllib.requests, htmlparser, requests-html, scrapy, selenium, aj.

---

<br>