# Web scraping

Naučíte se jak ve vašich Python programech vytáhnout data z webových stránek.

https://kodim.cz/kurzy/python-data-1/ziskavani-dat/webscraping/html

## HTML

Webové stránky jsou textové soubory psané ve speciálním jazyce zvaném `HTML` (_HyperText Markup Language_). 

`HTML` není jazyk programovací, nýbrž takzvaně značkovací. 

Pomocí `HTML` tvůrci webů definují samotný obsah stránek, tedy texty, obrázky, odkazy apod. 

Samotný vzhled stránky (barvičky, styl písma, rozmístění prvků na stránce apod.) se vytváří v jazyce zvaném `CSS`.

### HTML značky (tagy)

HTML elements reference:  https://developer.mozilla.org/en-US/docs/Web/HTML/Element

```html
<html>
<head>
  <meta charset="UTF-8">
  <title>Ukázka</title>
</head>
<body>
  <h1>Nadpis první úrovně</h1>
  <p>
    Text nějakého odstavce, který obsahuje
    <em>zvýrazněný text</em> a také <strong>
    důležitý text.</strong>
  </p>

  <h2>Nadpis druhé úrovně</h2>
  <div class="sekce1">
    <p>
      Druhý odstavec je v takzvaném divu, což je
      značka, která nemá sama o sobě žádný význam.
      Také zde máme
      <a href="http;://www.czechitas.cz"> odkaz na
      stránky Czechitas</a>.
    </p>

    <ol type="a">
      <li>První položka seznamu</li>
      <li>Druhá položka seznamu</li>
      <li>Třetí položka seznamu</li>
    </ol>
  </div>
</body>
</html>
```

<html>
<head>
  <meta charset="UTF-8">
  <title>Ukázka</title>
</head>
<body>
  <h1>Nadpis první úrovně</h1>
  <p>
    Text nějakého odstavce, který obsahuje
    <em>zvýrazněný text</em> a také <strong>
    důležitý text.</strong>
  </p>

  <h2>Nadpis druhé úrovně</h2>
  <div class="sekce1">
    <p>
      Druhý odstavec je v takzvaném divu, což je
      značka, která nemá sama o sobě žádný význam.
      Také zde máme
      <a href="http;://www.czechitas.cz"> odkaz na
      stránky Czechitas</a>.
    </p>

   <ol type=a>
      <li>První položka seznamu</li>
      <li>Druhá položka seznamu</li>
      <li>Třetí položka seznamu</li>
    </ol>
  </div>
</body>
</html>

## Web scraping v Pythonu

Potřebujeme nainstalovat modul, který umí číst HTML značky a pomocí těchto značek v HTML souborech vyhledávat. 

`pip3 install requests-html`

`pip install requests-html # pro Windows`

In [4]:
# !pip3 install requests-html

from requests_html import HTML

# obsah textového souboru už do proměnné načíst umíme
with open("assets/dhmo/ukazka-html/ukazka.html", encoding="utf-8") as soubor:
    obsah = soubor.read()

# použijeme náš nový modul, aby si tento obsah přečetl a umožnil v něm vyhledávat
html = HTML(html=obsah)

HTML značky můžeme vyhledávat podle jména. 

In [5]:
for odstavec in html.find("p"):
    print(odstavec.text)

Text nějakého odstavce, který obsahuje zvýrazněný text a také důležitý text.
Druhý odstavec je v takzvaném divu, což je značka, která nemá sama o sobě žádný význam. Také zde máme odkaz na stránky Czechitas.


Můžeme vyhledávání podle třídy (atribut class). Třídy se vyhledávají tak, že jejich název začneme tečkou.



In [6]:
for i in html.find(".sekce1"):
    print(i.text)

Druhý odstavec je v takzvaném divu, což je značka, která nemá sama o sobě žádný význam. Také zde máme odkaz na stránky Czechitas.
První položka seznamu
Druhá položka seznamu
Třetí položka seznamu


Můžeme přistupovat k atributům nalezených značek. 

In [7]:
# najít adresy všech odkazů na naší stránce.
for odkaz in html.find("a"):
    print(odkaz.attrs["href"])

http://www.czechitas.cz


### Složitější pravidla vyhledávání

Můžeme vyhledávat podle více značek najednou.

In [8]:
for nadpis in html.find("h1, h2"):
    print(nadpis.text)

Nadpis první úrovně
Nadpis druhé úrovně


Můžeme vyhledávat podle atributů. 

In [9]:
# najít všechny seznamy, kde atribut type je roven a.

html.find('ol[type="a"]')

[<Element 'ol' type='a'>]

Můžeme vyhledávat podle zanoření. 

Mezera ve vyhledávacím řetězci znamená libovolně hluboké zanoření. 

In [10]:
# najít všechny odstavce, které jsou uvnitř značky s třídou sekce1

html.find(".sekce1 p")

[<Element 'p' >]

In [11]:
# Pokud bychom chtěli pouze odstavce, které jsou přímým potomkem značky s třídou sekce1,
# použijeme symbol zobáčku.

html.find(".sekce1 > p")

[<Element 'p' >]

In [12]:
# Pokud tyto techniky zkombinujeme,
# můžeme například najít všechny položky (<li>) ve všech seznamech (<ol>),
# jejichž atribut type je roven a.

html.find('ol[type="a"] li')

[<Element 'li' >, <Element 'li' >, <Element 'li' >]

## Scraping přes internet

Na adrese https://apps.kodim.cz/python-data/scrape najdete naši malou ukázkovou stránku z úvodu. 


Na adrese https://apps.kodim.cz/python-data/dhmo najdete také finální verzi stránky šířící poplach ohledně DHMO.

In [13]:
from requests_html import HTMLSession

session = HTMLSession()
stranka = session.get("https://apps.kodim.cz/python-data/scrape")
for odstavec in stranka.html.find("p"):
    print(odstavec.text)

# session.close()

Text nějakého odstavce, který obsahuje zvýrazněný text a také důležitý text.
Druhý odstavec je v takzvaném divu, což je značka, která nemá sama o sobě žádný význam. Také zde máme odkaz na stránky Czechitas.


Pokud chcete vidět celý stažený zdrojový kód stránky jako text, napište:

In [14]:
print(stranka.html.html)

<html>
<head>
  <meta charset="UTF-8">
  <title>Ukázka</title>
</head>
<body>
  <h1>Nadpis první úrovně</h1>
  <p>Text nějakého odstavce, který obsahuje <em>zvýrazněný text</em> a také  <strong>důležitý text.</strong></p>

  <h2>Nadpis druhé úrovně</h2>
  <div class="sekce1">
    <p>Druhý odstavec je v takzvaném divu, což je značka, která nemá sama o sobě žádný význam. Také zde máme <a href="https://www.czechitas.cz/">odkaz na stránky Czechitas</a>.</p>

    <ol type="a">
      <li>První položka seznamu</li>
      <li>Druhá položka seznamu</li>
      <li>Třetí položka seznamu</li>
    </ol>
  </div>
</body>
</html>


## Web scraping vs JavaScript

Velkým trendem v dnešní době je nepsat HTML kód stránky přímo, jako jsme to viděli výše. 

Místo toho se použije jazyk JavaScript, který kód stránky sám vygeneruje. 

Tím může být stránka mnohem flexibilnější a interaktivnější, což je hezké pro uživatele. 

Pro nás to však znamená, že když stránku stahujeme v Pythonu, neobdržíme značky HTML, ale JavaScriptový program. 

Ten nejdříve musíme v Pythonu spustit a nechat si výsledné HTML vygenerovat.

Podívejte se například na tuto stránku, která je psána přesně tímto způsobem. 

https://react-shopping-cart-67954.firebaseapp.com/

Pokud chceme takovou stránku scrapovat, musíme použít takovýto kód.



In [15]:
from requests_html import HTMLSession

session = HTMLSession()
stranka = session.get("https://react-shopping-cart-67954.firebaseapp.com/")
stranka.html.render(sleep=5)

# print(stranka.html.html)

# session.close()

RuntimeError: Cannot use HTMLSession within an existing event loop. Use AsyncHTMLSession instead.

Notes:

- https://pypi.org/project/beautifulsoup4/
- https://pypi.org/project/requests/