# Pracujeme s webem

Aneb – co lze najít ve standardních knihovnách...

## HTTP server

```
python -m http.server
```

## [XML-RPC](https://cs.wikipedia.org/wiki/XML-RPC) klient

In [None]:
import xmlrpc.client  

with xmlrpc.client.ServerProxy("http://www.advogato.org/XMLRPC") as remote:
    print(remote.test.capitalize("Hello World!"))

Dnes nahrazován [SOAPem](https://cs.wikipedia.org/wiki/SOAP) = Simple Object Access Protocol.

Láďa Hruška doporučuje: na SOAP použijte [Zeep](http://docs.python-zeep.org/en/latest/).

## Kódování

In [None]:
import codecs

In [None]:
# base64
zakodovano = codecs.encode(b"surova data", "base64")
print(zakodovano)
codecs.decode(zakodovano, "base64")

# Stahujeme webové stránky

Standardní modul `urllib.request` – NE.

- problémy s kódováním
- ukecaný
- horší dokumentace

## [Requests](http://docs.python-requests.org/en/master/)

```
pip3 install requests
```

In [None]:
import requests

In [None]:
# stažení XML vzorové EET zprávy
url = "https://www.etrzby.cz/assets/cs/prilohy/CZ00000019.v3.valid.v3.1.1.xml"
response = requests.get(url)
print(response.text[:100])  # zkráceno

# TODO parsování pomocí modulu xml.etree

In [None]:
# stažení CSV rušení radarů
response = requests.get("http://radar4ctu.bourky.cz/parse_ruseni.php")
print(response.text[:200])  # zkráceno

# TODO parsování pomocí modulu csv, delimiter=";"

In [None]:
# JSON, parametry
r = requests.get("https://httpbin.org/get", params={"non": "sense"})
r_dict = r.json()
print(r_dict)
r_dict["origin"]

In [None]:
# POST (DELETE, OPTION, ...)
r = requests.post("http://httpbin.org/post", data={"key": "value"})
r.json()

In [None]:
# stažení obrázku
from datetime import date, time, datetime, timedelta

# sestavit URL
yesterday = date.today() - timedelta(days=1)
yesterday_noon = datetime.combine(yesterday, time(12))
url_suffix = "pacz23.z_max3d.{:%Y%m%d.%H%M}.0.png".format(yesterday_noon)
url = "http://portal.chmi.cz/files/portal/docs/meteo/rad/data_tr_png_1km/{}".format(url_suffix)

# HTTP dotaz
r = requests.get(url, stream=True)

# vyvolat výjimku pokud selze
r.raise_for_status()

# uložit do souboru
with open("data/radar.png", mode="wb") as f:
    for chunk in r.iter_content():
        f.write(chunk)
        
print("downloaded radar image from {:%d.%m.%Y %H:%M}".format(yesterday_noon))

# Příklad 1

- Vypiště nějaké zajímavé informace z http://numbersapi.com/ (použijte `requests`).
- Vyzkoušejte si doplnit do URL `?json` a zpracovat data (použijte argument `params` a metodu `json()`).
- Vypněte si internet a zpracujte výjimky, které vzniknou.

[Řešení k dispozici zde](https://github.com/tomasbedrich/web-scraping-in-python/blob/master/en/level0.py).

In [None]:
import requests

# TODO

# Příklad 2

Vypište kolik lidí ve vybraném okrese bylo obviněno ze přijetí úplatku.

https://mapakriminality.cz/api/

"Crime type" pro úplatky je 821

[Řešení k dispozici zde](https://github.com/tomasbedrich/web-scraping-in-python/blob/master/cs/level0.py).

In [None]:
import requests

# TODO

# Parsujeme webové stránky

## [BeautifulSoup4](https://beautiful-soup-4.readthedocs.io/en/latest/#quick-start)

```
pip3 install bs4
```

**Metody:**

- `find(html_atributy="hodnota")`
- `find_all(html_atributy="hodnota")`
- `select("css-selektor")`

**Parsery:**

- `html.parser`, součástí Pythonu
- `html5lib`, externí Python knihovna, shovívavý parser stejně jako prohlížeč
- `lxml`, Externí knihovna implementovaná v jazyce C, velice rychlá
- `lxml-xml`, stejné jako předchozí, jen pro parsovaní XML

In [None]:
import bs4

In [None]:
# stažení stránky
r = requests.get("http://www.svatek.org/")
r.encoding = "utf8"

# parsování HTML
soup = bs4.BeautifulSoup(r.text, "html.parser")

# hledání elementu
svatek = soup.find(class_="svatek-head").text
print(svatek)

# Příklad 1

Stáhněte nejnovějších 5 obrázků z archivu [NASA Astronomy Picture of the Day](http://apod.nasa.gov/apod/archivepix.html).

[Řešení k dispozici zde](https://github.com/tomasbedrich/web-scraping-in-python/blob/master/en/level1.py).

In [None]:
import bs4
import requests

# TODO

# Příklad 2

Uložte [přednášející na LinuxDays](https://www.linuxdays.cz/2015/lide/) do CSV a JSONu

[Řešení k dispozici zde](https://github.com/tomasbedrich/web-scraping-in-python/blob/master/cs/level1.py).

In [None]:
import bs4
import requests

# TODO