# Web scraping

Naučíte se jak ve vašich Python programech vytáhnout data z webových stránek.

## HTML

Webové stránky jsou textové soubory psané ve speciálním jazyce zvaném `HTML` (_HyperText Markup Language_). 

`HTML` není jazyk programovací, nýbrž takzvaně značkovací. 

Pomocí `HTML` tvůrci webů definují samotný obsah stránek, tedy texty, obrázky, odkazy apod. 

Samotný vzhled stránky (barvičky, styl písma, rozmístění prvků na stránce apod.) se vytváří v jazyce zvaném `CSS`.

### HTML značky (tagy)

HTML elements reference:  https://developer.mozilla.org/en-US/docs/Web/HTML/Element

```html
<html>
<head>
  <meta charset="UTF-8">
  <title>Ukázka</title>
</head>
<body>
  <h1>Nadpis první úrovně</h1>
  <p>
    Text nějakého odstavce, který obsahuje
    <em>zvýrazněný text</em> a také <strong>
    důležitý text.</strong>
  </p>

  <h2>Nadpis druhé úrovně</h2>
  <div class="sekce1">
    <p>
      Druhý odstavec je v takzvaném divu, což je
      značka, která nemá sama o sobě žádný význam.
      Také zde máme
      <a href="http;://www.czechitas.cz"> odkaz na
      stránky Czechitas</a>.
    </p>

    <ol type="a">
      <li>První položka seznamu</li>
      <li>Druhá položka seznamu</li>
      <li>Třetí položka seznamu</li>
    </ol>
  </div>
</body>
</html>
```

<html>
<head>
  <meta charset="UTF-8">
  <title>Ukázka</title>
</head>
<body>
  <h1>Nadpis první úrovně</h1>
  <p>
    Text nějakého odstavce, který obsahuje
    <em>zvýrazněný text</em> a také <strong>
    důležitý text.</strong>
  </p>

  <h2>Nadpis druhé úrovně</h2>
  <div class="sekce1">
    <p>
      Druhý odstavec je v takzvaném divu, což je
      značka, která nemá sama o sobě žádný význam.
      Také zde máme
      <a href="http;://www.czechitas.cz"> odkaz na
      stránky Czechitas</a>.
    </p>

   <ol type=a>
      <li>První položka seznamu</li>
      <li>Druhá položka seznamu</li>
      <li>Třetí položka seznamu</li>
    </ol>
  </div>
</body>
</html>

## Web scraping v Pythonu

Potřebujeme nainstalovat modul, který umí číst HTML značky a pomocí těchto značek v HTML souborech vyhledávat. 

`pip3 install requests-html`

`pip install requests-html # pro Windows`

In [None]:
# !pip3 install requests-html

from requests_html import HTML
# obsah textového souboru už do proměnné načíst umíme
with open('ukazka-html/ukazka.html', encoding='utf-8') as soubor:
    obsah = soubor.read()

# použijeme náš nový modul, aby si tento obsah přečetl a umožnil v něm vyhledávat
html = HTML(html=obsah)

HTML značky můžeme vyhledávat podle jména. 

In [None]:
for odstavec in html.find('p'):
    print(odstavec.text)

Můžeme vyhledávání podle třídy (atribut class). Třídy se vyhledávají tak, že jejich název začneme tečkou.



In [None]:
for i in html.find('.sekce1'):
    print(i.text)

Můžeme přistupovat k atributům nalezených značek. 

In [None]:
# najít adresy všech odkazů na naší stránce.
for odkaz in html.find('a'):
    print(odkaz.attrs['href'])

### Složitější pravidla vyhledávání

Můžeme vyhledávat podle více značek najednou.

In [None]:
for nadpis in html.find('h1, h2'):
    print(nadpis.text)

Můžeme vyhledávat podle atributů. 

In [None]:
# najít všechny seznamy, kde atribut type je roven a.

html.find('ol[type="a"]')

Můžeme vyhledávat podle zanoření. 

Mezera ve vyhledávacím řetězci znamená libovolně hluboké zanoření. 

In [None]:
# najít všechny odstavce, které jsou uvnitř značky s třídou sekce1

html.find('.sekce1 p')

In [None]:
# Pokud bychom chtěli pouze odstavce, které jsou přímým potomkem značky s třídou sekce1, 
# použijeme symbol zobáčku.

html.find('.sekce1 > p')

In [None]:
# Pokud tyto techniky zkombinujeme, 
# můžeme například najít všechny položky (<li>) ve všech seznamech (<ol>), 
# jejichž atribut type je roven a.

html.find('ol[type="a"] li')

## Scraping přes internet

Na adrese https://apps.kodim.cz/python-data/scrape najdete naši malou ukázkovou stránku z úvodu. 


Na adrese https://apps.kodim.cz/python-data/dhmo najdete také finální verzi stránky šířící poplach ohledně DHMO.

In [None]:
from requests_html import HTMLSession

session = HTMLSession()
stranka = session.get('https://apps.kodim.cz/python-data/scrape')
for odstavec in stranka.html.find('p'):
    print(odstavec.text)

#session.close()

Pokud chcete vidět celý stažený zdrojový kód stránky jako text, napište:

In [None]:
print(stranka.html.html)

## Web scraping vs JavaScript

Velkým trendem v dnešní době je nepsat HTML kód stránky přímo, jako jsme to viděli výše. 

Místo toho se použije jazyk JavaScript, který kód stránky sám vygeneruje. 

Tím může být stránka mnohem flexibilnější a interaktivnější, což je hezké pro uživatele. 

Pro nás to však znamená, že když stránku stahujeme v Pythonu, neobdržíme značky HTML, ale JavaScriptový program. 

Ten nejdříve musíme v Pythonu spustit a nechat si výsledné HTML vygenerovat.

Podívejte se například na tuto stránku, která je psána přesně tímto způsobem. 

https://react-shopping-cart-67954.firebaseapp.com/

Pokud chceme takovou stránku scrapovat, musíme použít takovýto kód.



In [None]:
from requests_html import HTMLSession

session = HTMLSession()
stranka = session.get('https://react-shopping-cart-67954.firebaseapp.com/')
stranka.html.render(sleep=5)

# print(stranka.html.html)

# session.close()

Notes:

- https://pypi.org/project/beautifulsoup4/
- https://pypi.org/project/requests/