# HTTP requests
Doporučené podklady k dalšímu studiu:
* <a href="https://en.wikipedia.org/wiki/Hypertext_Transfer_Protocol">Hypertext Transfer Protocol (HTTP)</a>
* <a href="https://en.wikipedia.org/wiki/JSON">JavaScript Object Notation (JSON)</a>
* <a href="https://en.wikipedia.org/wiki/HTML">HyperText Markup Language (HTML)</a>

V tomto tutoriálu se pracuje pouze se statickým obsahem webových stránek. Pokud potřebujete získat z webu obsah rednerovaný pomocí javascriptu, podívejte se na: <a href="http://selenium-python.readthedocs.io/">Selenium Python Bindings</a>.

## Získání HTML obsahu pomocí HTTP
### Urlib knihovna
<a href="https://docs.python.org/3.4/library/urllib.html?highlight=urllib">Urllib</a> je standardní knihovna obsažená v Pythonu. Příklad následuje:

In [1]:
from urllib.request import urlopen

r = urlopen('http://www.python.org/')
data = r.read()

print("Status code:", r.getcode())

Status code: 200


Kompletní html data (jako string) je obsažené v proměnné `data`.

### Knihovna Requests
<a href="http://docs.python-requests.org/en/master/">Requests</a> je knihovna instalovatelná pomocí PIP:

`pip install requests`


In [2]:
import requests

r = requests.get("http://www.python.org/")
data = r.text

print("Status code:", r.status_code)

Status code: 200


## Získání JSON dat z API
Následuje příklad stažení dat z open-notify ve formátu JSON.

In [3]:
import requests

r = requests.get("http://api.open-notify.org/iss-now.json")
obj = r.json()

print(obj)

{'iss_position': {'latitude': '-4.1696', 'longitude': '-155.3349'}, 'timestamp': 1556198770, 'message': 'success'}


## Session pomocí requests
Requests umožňují vytvořit Session, v ktré mohou být uloženy cookies pro pozdější requesty.

In [4]:
s = requests.Session()
print("No cookies on start: ")
print(dict(s.cookies))
r = s.get('http://google.cz/')
print("\nA cookie from google: ")
print(dict(s.cookies))
r = s.get('http://google.cz/?q=cat')
print("\nThe cookie is perstent:")
print(dict(s.cookies))

No cookies on start: 
{}

A cookie from google: 
{'1P_JAR': '2019-04-25-13', 'NID': '182=dLL-JNQ2WaKhXOzGZEpy0bNpT1NJSjqNUemcEuRRZ6OrQoht0HzlPcN9bcBl8RTfH21J1AmM2iTAZdKnESWEPQY6iEVpSzCTvGM_trGk5qSVLHMFcQxgVo61ncdCK8IzRIq3ylsjLHNn512nQvb4UqNRQQ6Ab3IBVkebvVpLHDQ'}

The cookie is perstent:
{'1P_JAR': '2019-04-25-13', 'NID': '182=p7MO7QkX3MsIJkB45aDbM5nljDsTweAiVCsSc_ljljEY_1FrTxCAqx6Mwr2iYF01bHXF2p4rQYmdy_8vZtLc-CacB2P4ddAOlEBCrtU4JE_UdxUPnMpBgXWfgJi1J8FUE9dJsyr-DEhgT2FkUVWM_wMTzXFgirqTfgURJAmBSUM'}


Pro srovnání stejný příklad bez Session následuje.

In [5]:
r = requests.get('http://google.cz/')
print("\nA cookie from google: ")
print(dict(r.cookies))
r = requests.get('http://google.cz/?q=cat')
print("\nDifferent cookie:")
print(dict(r.cookies))


A cookie from google: 
{'1P_JAR': '2019-04-25-13', 'NID': '182=LSmyhvvteZVKn5hNTbAV76-BKAuSgRVKkkr0TYSqTqtWTRNCs44KQsNZvWRgLDEUWmgroU7fc7OU_pIFYGU_bUfx3Wy8VdE7j6umCBnNJnXqSOQYTxFACNUnudXmwQxZliUPaM6YITQDUkIJFoOwRttd9VV7d8LUWAMiy1YQeSw'}

Different cookie:
{'1P_JAR': '2019-04-25-13', 'NID': '182=CPoffdfMNxHds8CBApwDkeASPq0Y6JmaLrYRUf9NoOoJ4Nx-4ghghmX6aA8TOPWBedxE3z6MmGoj2-SkfNRxvJTSBBrekog46OyjpmjU4DEuukO596TV6OWU1ph8umJs_Raw_ftWB-Rm2A8rf63VQ3PdzKn4s3_8528WBUyKBuk'}


## Nastavení vlastních headers

In [None]:
r = requests.get("http://www.python.org/")
print(r.headers)

In [7]:
headers = {
    "Accept": "text/plain",
}

r = requests.get("http://www.python.org/", headers=headers)
print(r.status_code)

200


Více informací o HTTP headers: <a href="https://en.wikipedia.org/wiki/List_of_HTTP_header_fields">List of HTTP header fields wikipedia page</a>.

## Stažení a uložení obrázku

In [None]:
url = "https://upload.wikimedia.org/wikipedia/commons/thumb/0/08/South_Shetland-2016-Deception_Island%E2%80%93Chinstrap_penguin_%28Pygoscelis_antarctica%29_04.jpg/220px-South_Shetland-2016-Deception_Island%E2%80%93Chinstrap_penguin_%28Pygoscelis_antarctica%29_04.jpg"

r = requests.get(url)

# with open("image.jpg", "wb") as f:
#     f.write(r.content)