# Engeto, Python akademie 2021, lekce#12

<p align="center">
  <img src="https://media.giphy.com/media/TdiGSPC3P6QXvCBdWx/giphy.gif" width="300" height="300">
</p>

### Obsah lekce
1. Důležité odkazy
2. Průzkum webu
3. HTML
4. Requesty na server
5. Funkce `get`
6. Funkce `post`
7. BeautifulSoup
---

<br />

### Důležité odkazy
- [Oficiální web, česko-slovenksá liga heroes III (heroes3.cz)](heroes3.cz)
- [Oficiální dokumentace pro balíček **requests** (requests.readthedocs.io)](https://requests.readthedocs.io/en/master/)
- [Oficiální dokumentace pro **url** (~uniform resource locator)(wikipedia.org)](https://en.wikipedia.org/wiki/URL)
- [Oficiální dokumentace pro balíček **beautifulsoup** (crummy.com)](https://www.crummy.com/software/BeautifulSoup/)

---

<br />

### Průzkum webu
Pojďme se společně podívat na webovou stránku (*viz.vzor*). V navigačním poli se přepněte do sekce `Hráči`.<br />

Pomocí Pythonu se budeme snažit stáhnout (*scrapovat*) tabulku nejlepších hráčů.<br />
Prvním krokem je vyšetřit, jakým způsobem jsou data, která chceme získat, na webu uložená. Proto si nejprve zobrazíme zdrojový kód stránky.<br />

Obvykle stačí kliknout pravým tlačítkem myši někam na stránku ve vašem prohlížeči a označit `view page source`.<br />

Na následném zdroji uvidíme něco podobného:
```html
<!DOCTYPE html>
<html lang ="cs">
    <head> ... </head>
```

Nyní víme, jaký má zdroj formát. Jde o `html`.

### HTML
Jde opět o typ textového souboru, který je zorganizovaný pomocí tzv. _tagů/elementů_ (proto ~markup elements).<br />

Nejčastěji tvoří strukturu webových stránek (viz. naše stránka z úlohy).<br />

Tagy jsou nápadné svojí hierarchickou strukturou. Tuto strukturu často vůbec nevnímáme, protože se uchovaná někde na pozadí za vyrenderovanou grafickou podobou, kterou nám zprostředkuje náš prohlížeč:
```html
<!-- pouze vzorovy zapis -->
<div id="menu"><ul>
    <li>
        <a href="http://XXXXXXX.cz" title="">Homepage</a>
    </li>
</div>
```
Všimněte si, že některé tagy jsou zarovnané a jiné odsazené. Ty zarovnané označujeme jako **rodičovské** tagy, zatímco ty odsazené jako jejich **potomky**.

#### Tagy
Kromě toho, že tvoří samotnou strukturu html, můžou obsahovat doplňující atributy:
```html
<div id="menu">
    <a href="http://XXXXXXX.cz"></a>
<div class="sloupec">
```
Pomocí těchto atributů můžeme jednotlivé tagy lépe najít, mohou obsahovat různé odkazy a identifikátory.<br />

Formát jaký dodržují je podobný slovníkům v Pythonu:
```html
<div id="menu">  <!--id(klic)="menu"(hodnota)-->
```

### Requesty na server
Abychom mohli s údaji, které jsou k dispozici na webu, pracovat, je potřeba získat konkretní `html` soubor (v našem případě tabulky hráčů).<br />

Proto, abychom mohli získat konkrétní html soubor od serveru, budeme muset poslat požadavek (~request).<br />

#### Python odesílá požadavky
Stejně jako můžeme pomocí programu v Pythonu vytvořit složku nebo soubor, můžeme vytvořit také požadavek na server.<br />

Pomocí knihovny `requests` (příp. i dalších jiných) můžeme posílat požadavky typu:
1. **post**
2. **get**

Který budete používat vy záleží na webu, se kterým pracujete.

### Instalování knihoven třetích stran
#### 🆑 Pomocí příkazového řádku
1. Vytvoříme virtualní pracovní prostředí:
```bash
$ python3 -m venv <jmeno_prostredi>
```

2. Aktivujeme virtualní pracovní prostředí pomocí jeho jmena. Po aktivaci dostaneme na začátku dotazovacího řádku závorku se jménem prostředí (př. `(env)`):
```bash
$ source <jmeno_prostredi>/bin/activate
```
3. Ověříme dostupnost správce balíčků `pip3 --version`
4. Pokud máme, instalujeme balíčky (náhled [pypi.org](https://pypi.org/)):
```bash
pip3 install <jmeno_balicku>         # instalace
pip3 uninstall <jmeno_balicku>       # odstraneni
pip3 --help                          # napoveda
```
5. Vytvoříme soubor `requirements.txt`, který obsahuje jména a verze knihoven, aby mohli i ostatní uživatele nainstalovat externí knihovny, které používáme nyní v našich souborech:
```bash
pip3 freeze > requirements.txt
```
6. Pokud někdy na takový soubor narazíte, opět vytvořte nové virtuální pracovní prostředí a nainstalujte vše, co je zmíněné uvnitř souboru `requirements.txt`:
```bash
pip3 install -r requirements.txt
```

<br />
<p align="center">
  <img alt="pycharm-icon" width="80px" src="https://caktus-website-production-2015.s3.amazonaws.com/media/blog-images/logo.png" />
</p>

#### 🐍 Pomocí PyCharm
1. Spustíme Pycharm a otevřeme náš projekt
2. `ctrl + alt + s` -> Settings
3. -> `Project: <jmeno_projektu>`
4. -> vedle `Project interpreter` ⚙ -> `Add...` -> vybereme buď nové/existující
5. ve složce `bin` najdeme interpret Pythonu `python3`/`python` a potvrdíme
6. Dále vybereme `Apply` + `Ok`
7. ➕ Instalovat knihovny pomoci symbolu `+` dole pod nabidkou
8. `Terminal` dole na liste pro export zavislosti (`pip3 freeze > requirements.txt`)

### Requests, funkce `post`
Vyzkoušíme si odeslání požadavku na tento [server](https://www.bezrealitky.cz/). Nejprve však na žádoucí stránce opět kliknout pravým tlačítkem myši a vybrat v prohlížeči `inspect element`. Následně se objeví na spodu stránky lišta, ve které najdeme v záhlaví možnost `network` (tady sledujeme jakou metodu prohlížeč používá při komunikaci se serverem):

In [None]:
import requests  # nejprve nutne nainstalovat balicek

In [None]:
help(requests)   # zobrazime si napovedu

In [60]:
URL = "https://www.bezrealitky.cz/api/record/markers"
params = {'offerType': 'prodej', 'estateType': 'byt, dum', 'locationInput': 'Praha, Hlavní město Praha, Česko'}

In [None]:
odp_serveru = requests.post(URL, params=params)
odp_serveru.status_code
odp_serveru.encoding
odp_serveru.text

### Requests, funkce `get`
V podstatě jde o velmi podobné použití (jako u funkce `post`). Opět v rámci prohlížeče zkontrolujeme, o který typ požadavku jde nyní:


In [1]:
import sys
import requests

In [2]:
dir(requests)

['ConnectTimeout',
 'ConnectionError',
 'HTTPError',
 'NullHandler',
 'PreparedRequest',
 'ReadTimeout',
 'Request',
 'RequestException',
 'Response',
 'Session',
 'Timeout',
 'TooManyRedirects',
 'URLRequired',
 '__author__',
 '__author_email__',
 '__build__',
 '__builtins__',
 '__cached__',
 '__cake__',
 '__copyright__',
 '__description__',
 '__doc__',
 '__file__',
 '__license__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 '__title__',
 '__url__',
 '__version__',
 '_check_cryptography',
 '_internal_utils',
 'adapters',
 'api',
 'auth',
 'certs',
 'chardet',
 'check_compatibility',
 'codes',
 'compat',
 'cookies',
 'cryptography_version',
 'delete',
 'exceptions',
 'get',
 'head',
 'hooks',
 'logging',
 'models',
 'options',
 'packages',
 'patch',
 'post',
 'put',
 'pyopenssl',
 'request',
 'session',
 'sessions',
 'status_codes',
 'structures',
 'urllib3',
 'utils',

In [None]:
url = sys.argv[1]              # prvni tabulka: 'https://heroes3.cz/hraci/index.php?page=1&order=&razeni=DESC'
vystupni_soubor = sys.argv[2]  # jmeno souboru

In [2]:
url = "https://heroes3.cz/hraci/index.php?page=1&order=&razeni=DESC"
vystupni_soubor = "vystup_1.csv"

In [3]:
with requests.Session() as req:
    html = req.get(url)

In [5]:
print(html.text)

﻿<!DOCTYPE html>
<html lang ="cs">
<head>
<meta charset="UTF-8" />
<meta name="description" content="Liga a turnaje v počítačové hře Heroes of Might and Magic III." />
<meta name="keywords" content="Heroes of Might and Magic 3, Heroes 3, liga, turnaje, online, hra, HoMaM, HMM, Hamachi, GameRanger" />
<title>Liga Heroes 3 - Hráči</title>
<link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.0.10/css/all.css" integrity="sha384-+d0P83n9kaQMCwj8F4RJB66tzIwOKmrdb46+porD/OvrJ+37WqIM7UoBtwHO6Nlg" crossorigin="anonymous"><link rel="Stylesheet" type="text/css" href="https://heroes3.cz/_include/css/common.css" />
<link rel="Stylesheet" type="text/css" href="https://heroes3.cz/_include/css/menu.css" />
<link rel="Stylesheet" type="text/css" href="https://heroes3.cz/_include/css/footer.css" />
<link rel="Stylesheet" type="text/css" href="https://heroes3.cz/_include/css/ramecky.css" />
<link rel="Stylesheet" type="text/css" href="https://heroes3.cz/_include/css/nova_hra.css" />
<link

In [13]:
print(html.text[:16])

﻿<!DOCTYPE html>


## Raw html
Vidíme, že podoba, kterou nyní `html` získalo, neni moc užitečná. Protože s `html` budeme chtít podrobně pracovat a vyhledávat v něm, musíme vrácené údaje zpracovat (rozdělit~parsovat).<br />

Toho dosáhneme opět použitím vhodné knihovny, která nám práci usnadní. Mrkněte na [pypi.org](https://pypi.org/).

### Bs4 a.k.a beautifulsoup
Asi jeden z těch nejznámějších parserů určených k rozdělování `html`, `xml` atd. Opět musíme nejprve nainstalovat (jedná se o balíček třetí strany).<br />

V našem virtuálním pracovním prostředí:
```bash
$ pip3 install beautifulsoup
$ pip3 freeze > requirements.txt
```

In [14]:
import sys

import requests                # oddeleni ruznych knihoven (pep8)
from bs4 import BeautifulSoup  # viz. documentation

In [2]:
url = "https://heroes3.cz/hraci/index.php?page=1&order=&razeni=DESC"

In [3]:
with requests.Session() as req:
    html = req.get(url)

In [17]:
soup = BeautifulSoup(html.text, 'html.parser')   # promenna + typ parseru

In [None]:
help(BeautifulSoup)     # napoveda pro tridu BeautifulSoup

In [18]:
print(type(soup))       # novy datovy typ
isinstance(soup, BeautifulSoup)

<class 'bs4.BeautifulSoup'>


In [None]:
print(soup.prettify())

### Rozdělené html podle tagů
Nyní máme sice html soubor rozdělený, ale my potřebujeme vybrat jen ta data, která nás zajímají. Tedy vybrat z tabulky hráčů tyto sloupečky:
1. pořadí
2. jméno
3. body
4. celkem her
5. vítězství
6. úspěšnost

Abychom správně dohledali obsah těchto tagů, budeme je muset najít ve struktuře zdrojového kódu, v prohlížeči (režim inspect).

###  Hledání rodičovského tagu
Jakmile najdeme rodičovský tag, můžeme jej ověřit u jednotlivých údajů (`CSS path`):
```html
form table.tab_top tbody tr td a
```
Protože nás zajímají všichni hráči v tabulce, použijeme celý element `table`. Jakmile jej najdeme, můžeme si dále ověřit jestli nemá nějaký atribut, který by nám jej pomohl selektovat:
```html
<table class="tab_top">
    ...
</table>
```

### Tagy potomků
Postupně procházíme všechny dědičné tagy a odpovíme společně na tyto otázky:
1. Co představuje tag: `<td></td>`?
2. Co představuje tag: `<tr></tr>`?
3. Co představuje tag: `<tbody></tbody>`?
4. Co představuje tag: `<table></table>`?

### Hledáme způsob jak najít tagy
Nejprve potřebujeme získat takový element, která obsahuje celou tabulku se všemi hráči:

In [22]:
dir(BeautifulSoup)

['ASCII_SPACES',
 'DEFAULT_BUILDER_FEATURES',
 'ROOT_TAG_NAME',
 '__bool__',
 '__call__',
 '__class__',
 '__contains__',
 '__copy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setitem__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__unicode__',
 '__weakref__',
 '_all_strings',
 '_check_markup_is_url',
 '_decode_markup',
 '_feed',
 '_find_all',
 '_find_one',
 '_is_xml',
 '_lastRecursiveChild',
 '_last_descendant',
 '_linkage_fixer',
 '_popToTag',
 '_should_pretty_print',
 'append',
 'childGenerator',
 'children',
 'clear',
 'decode',
 'decode_contents',
 'decompose',
 'decomposed',
 'descendants',
 'encode',
 'encode_contents',
 'endData',
 '

In [None]:
table = soup.find("table", {"class": "tab_top"})
print(table.prettify())

Jakmile máme celou tabulku, snažíme se rozptyl zmenšit a najít pouze tagy s jednotlivými hráči. Vidíme, že každý hráč je na řádku. Dále, že každý řádek je schovaný za tagem `tr`:

In [30]:
vsechny_tr = table.find_all("tr")
print(vsechny_tr[0])
type(vsechny_tr)

<tr>
<th><a href="/hraci/index.php?page=1&amp;order=0&amp;razeni=DESC">POŘADÍ</a></th>
<th><a href="/hraci/index.php?page=1&amp;order=0&amp;razeni=DESC">SKUPINA</a></th>
<th><a href="/hraci/index.php?page=1&amp;order=jmeno&amp;razeni=DESC">JMÉNO</a></th>
<th><a href="/hraci/index.php?page=1&amp;order=0&amp;razeni=DESC">BODY</a></th>
<th><a href="/hraci/index.php?page=1&amp;order=elo&amp;razeni=DESC">ELO</a></th>
<th><a href="/hraci/index.php?page=1&amp;order=vitezstvi&amp;razeni=DESC">VÍTĚZSTVÍ</a></th>
<th><a href="/hraci/index.php?page=1&amp;order=celkem_her&amp;razeni=DESC">CELKEM HER</a></th>
<th><a href="/hraci/index.php?page=1&amp;order=uspesnost&amp;razeni=DESC">ÚSPĚŠNOST</a></th>
<th><a href="/hraci/index.php?page=1&amp;order=registrace&amp;razeni=DESC">REGISTRACE</a></th>
<th><a href="/hraci/index.php?page=1&amp;order=karma&amp;razeni=DESC">KARMA</a></th>
<th><a href="/hraci/index.php?page=1&amp;order=prispevky&amp;razeni=DESC">PŘÍSPĚVKY</a></th>
</tr>


bs4.element.ResultSet

In [29]:
print(vsechny_tr[1])

<tr>
<td class="right">1.</td>
<td class="right"><div style="margin-top: -3px; margin-bottom: -3px; margin-right: 1px;"><img alt="Šampion" src="https://heroes3.cz/_include/img/skupiny/1.png" style="cursor: help;" title="Šampion"/></div></td>
<td><a href="https://heroes3.cz/hraci/detail.php?id=222">H34D</a></td>
<td class="right">0</td>
<td class="right">2226</td>
<td class="right">376</td>
<td class="right">517</td>
<td class="right">73%</td>
<td class="right">8. 5. 2009</td>
<td class="right">261</td>
<td class="right">1289</td>
</tr>


Na začátku máme záhlaví (index `0`), bez toho se obejdeme, stačí aplikovat _slicování_, které datový typ `ResultSet` podporuje.<br />

Nyní, když umíme rozdělit html na jednotlivé řádky (s jednotlivými hráči), potřebujeme konečně izolovat jednotlivé buňky, které obsahují konkrétní údaje:

In [31]:
vsechny_td = vsechny_tr[1].find_all("td")

In [47]:
help(BeautifulSoup.ResultSet)

AttributeError: type object 'BeautifulSoup' has no attribute 'ResultSet'

In [46]:
print(vsechny_td[0])         # poradi
print(vsechny_td[2].text)    # jmeno
print(vsechny_td[3].string)  # body

type(vsechny_td)

<td class="right">1.</td>
H34D
0


bs4.element.ResultSet

Nyní umíme sbírat jednotlivé položky u konkrétního hráče, takže můžeme aplikovat stejný postup na celý `ResultSet` se všemi hráči.

In [56]:
data_hraci = [vyber_udaje(tr.find_all("td")) for tr in vsechny_tr[1:]]

In [52]:
def vyber_udaje(zdroj) -> str:
    return {
        "poradi": zdroj[0].string,
        "jmeno": zdroj[2].string,
        "body": zdroj[3].string,
        "vitezstvi": zdroj[5].string,
        "celkem_her": zdroj[6].string,
        "uspesnost": zdroj[7].string,
    }

### Ukládání údajů do souboru
Úplně nakonec chceme námi posbírané údaje uložit ve formátu `csv` do příslušného souboru:

In [58]:
from pprint import pprint
pprint(data_hraci)

[{'body': '0',
  'celkem_her': '517',
  'jmeno': 'H34D',
  'poradi': '1.',
  'uspesnost': '73%',
  'vitezstvi': '376'},
 {'body': '5',
  'celkem_her': '364',
  'jmeno': 'Scooby',
  'poradi': '2.',
  'uspesnost': '70%',
  'vitezstvi': '253'},
 {'body': '5',
  'celkem_her': '131',
  'jmeno': 'siska96',
  'poradi': '3.',
  'uspesnost': '58%',
  'vitezstvi': '76'},
 {'body': '0',
  'celkem_her': '414',
  'jmeno': 'karcma',
  'poradi': '4.',
  'uspesnost': '57%',
  'vitezstvi': '238'},
 {'body': '0',
  'celkem_her': '407',
  'jmeno': 'Lord Slayer',
  'poradi': '5.',
  'uspesnost': '34%',
  'vitezstvi': '137'},
 {'body': '1',
  'celkem_her': '198',
  'jmeno': 'gabo',
  'poradi': '6.',
  'uspesnost': '45%',
  'vitezstvi': '90'},
 {'body': '0',
  'celkem_her': '312',
  'jmeno': 'maGe',
  'poradi': '7.',
  'uspesnost': '61%',
  'vitezstvi': '190'},
 {'body': '0',
  'celkem_her': '3234',
  'jmeno': 'Lord.Alex',
  'poradi': '8.',
  'uspesnost': '45%',
  'vitezstvi': '1463'},
 {'body': '0',
  'cel

In [63]:
import csv

with open(vystupni_soubor, "w", encoding="utf-8") as csv_s:
    zahlavi = data_hraci[0].keys()
    zapis = csv.DictWriter(csv_s, fieldnames=zahlavi)
    zapis.writeheader()
    zapis.writerows(data_hraci)

### Vyzkoušíme další tabulky
Pokud vám běží varianta pro první tabulku, zkuste vkládat odkazy pro další tabulky, resp. tabulky další v pořadí.

### Důležité upozornění
Než se doopravdy pustíte do scrapovani údajů z cizího webu, přečtěte si sekci _pravidla&podmínky_, abyste věděli, jak legálně a (hlavně) s rozumem data stahovat. Ve většině případech je zakázáno používat údaje pro komerční účely.<br />

Ujistěte se, že server nezatěžujete velkým množstvím dotazů (dlouho a velké množství). To může mít za následek pád serveru a přinejmenším Vaše zablokování.