 # Webscraping
 Odkaz na lekci: https://kodim.cz/kurzy/python-data-1/ziskavani-dat/webscraping

Dokumentace modulu `requests-html`: https://requests.readthedocs.io/projects/requests-html/en/latest/

In [3]:
from requests_html import HTML
from requests_html import HTMLSession

In [None]:
with open('ukazka.html', encoding='utf-8') as soubor:
    obsah = soubor.read()

html = HTML(html=obsah)
# html.html

Vyhledávání v HTML podle jména značky:

In [None]:
html.find('p')

[<Element 'p' >, <Element 'p' >]

Vyhledávání v HTML podle více značek:

In [None]:
html.find('h1, h2')

[<Element 'h1' >, <Element 'h2' >]

Každý objekt typu `Element` má atribut `.text`:

In [None]:
for odstavec in html.find('p'):
    print(odstavec.text)

Text nějakého odstavce, který obsahuje zvýrazněný text a také důležitý text.
Druhý odstavec je v takzvaném divu, což je značka, která nemá sama o sobě žádný význam. Také zde máme odkaz na stránky Czechitas.


Vyhledávání v HTML podle třídy (atribut `class`):

In [None]:
html.find('.sekce1')

[<Element 'div' class=('sekce1',)>]

Přístup k atributům - jak najít adresy všech odkazů na naší stránce?

In [None]:
for odkaz in html.find('a'):
    print(odkaz.attrs['href'])

"http;://www.czechitas.cz"


Vyhledávání podle hodnoty atributu

In [None]:
html.find('ol[type="a"]')


[<Element 'ol' type='a'>]

In [None]:
html.find('ol[type="a"] li')

[<Element 'li' >, <Element 'li' >, <Element 'li' >]

## Scraping z internetu

In [None]:
session = HTMLSession()

stranka = session.get('https://apps.kodim.cz/python-data/scrape')

In [None]:
for odstavec in stranka.html.find('p'):
    print(odstavec.text)

Text nějakého odstavce, který obsahuje zvýrazněný text a také důležitý text.
Druhý odstavec je v takzvaném divu, což je značka, která nemá sama o sobě žádný význam. Také zde máme odkaz na stránky Czechitas.


## Webscraping pomocí `pandas.read_html`

Nainstalujte si ještě jeden balíček, který se jmenuje `html5lib`:

Windows: 
```
pip install html5lib
```

Mac/Linux:
```
pip3 install html5lib
```

In [None]:
import pandas

Data: "Děti, žáci, studenti podle státního občanství" (ČSÚ)

In [None]:
url = "https://vdb.czso.cz/vdbvo2/faces/cs/index.jsf?page=vystup-objekt&z=T&f=TABULKA&skupId=1127&katalog=30848&pvo=VZD13b&pvo=VZD13b&u=v4__VUZEMI__97__19"
dfs = pandas.read_html(url)
# dfs

In [None]:
# Tabulka na indexu 6 obsahuje data, která nás zajímají
df = dfs[6]

In [None]:
staty_eu = df.iloc[3, 4:]
staty_eu = staty_eu.reset_index(level=0)
staty_eu = staty_eu.drop(columns=['level_0'])
staty_eu = staty_eu.rename(columns={3: 'pocet'})
staty_eu

Unnamed: 0,pocet
2006/ 2007,2 815
2007/ 2008,3 306
2008/ 2009,3 691
2009/ 2010,3 781
2010/ 2011,3 914
2011/ 2012,4 237
2012/ 2013,4 471
2013/ 2014,4 852
2014/ 2015,5 334
2015/ 2016,5 865


In [None]:
ostatni_evropske_staty = df.iloc[4, 4:]
ostatni_evropske_staty = ostatni_evropske_staty.reset_index(level=0)
ostatni_evropske_staty = ostatni_evropske_staty.drop(columns=['level_0'])
ostatni_evropske_staty = ostatni_evropske_staty.rename(columns={4: 'pocet'})
ostatni_evropske_staty

Unnamed: 0,pocet
2006/ 2007,4 769
2007/ 2008,4 703
2008/ 2009,4 945
2009/ 2010,5 233
2010/ 2011,5 418
2011/ 2012,5 565
2012/ 2013,5 627
2013/ 2014,5 702
2014/ 2015,6 256
2015/ 2016,7 027


In [None]:
data =  pandas.DataFrame(index=ostatni_evropske_staty.index)
data['pocet_ostatni_evropske_staty'] = ostatni_evropske_staty['pocet'].str.split().str.join('').astype(int)
data['pocet_EU'] = staty_eu['pocet'].str.split().str.join('').astype(int)
data

Unnamed: 0,pocet_ostatni_evropske_staty,pocet_EU
2006/ 2007,4769,2815
2007/ 2008,4703,3306
2008/ 2009,4945,3691
2009/ 2010,5233,3781
2010/ 2011,5418,3914
2011/ 2012,5565,4237
2012/ 2013,5627,4471
2013/ 2014,5702,4852
2014/ 2015,6256,5334
2015/ 2016,7027,5865


In [None]:
data.plot(figsize=(15,5))

ImportError: matplotlib is required for plotting when the default backend "matplotlib" is selected.