# Einzelne Dateien herunterladen

In diesem Notebook wirst du lernen, einzelne Dateien mit dem *HTTP-* bzw. *HTTPS-Protokoll* herunterzuladen. In Python gibt es einige Möglichkeiten, das zu erledigen.

## Das HTTP-Protokoll

HTTP ist ein zustandsloses TCP-Protokoll. Eine gute Beschreibung findest du bei [Wikipedia](https://de.wikipedia.org/wiki/Hypertext_Transfer_Protocol), von der uns besonders das [Protokoll selbst](https://de.wikipedia.org/wiki/Hypertext_Transfer_Protocol#/media/Datei:HTTP-Anfrage.svg) interessiert.

## Die `requests` Bibliothek

Als Standard hat sich das `requests`-Paket durchgesetzt. Es wird gut gepflegt, es gibt öfter neue Versionen und es kann eigentlich alles, was du im Laufe des Kurses benötigen wirst. So kann `requests` gut mit Cookies umgehen, aber auch mit Authentisierung. Außerdem ist ein *Session-Management* eingebaut, dass du evtl. für zugangsbeschränkte Websites benötigst.

In vielen Python-Installationen ist es schon enthalten, sonst kannst du es schnell mit `pip` installieren und importieren:

In [None]:
!pip install requests

In [None]:
import requests

Das `requests`-Paket hat viele Methoden, wir benötigen am häufigst die `get`-Methode. Diese Methode wird auch aufgerufen, wenn du im Browser eine Seite aufrufst.

Passenderweise laden wir mit `requests` die Homepage von Heise herunter:

In [None]:
r = requests.get('https://www.heise.de') 

`requests` kann dir mitteilen, welches die *echte URL* der Seite ist. Oben fehlte z.B. der `/` am Ende, den du jetzt in der URL siehst:

In [None]:
r.url

Du kannst den Status-Code des Servers ganz einfach abfragen:

In [None]:
r.status_code

`200` bedeutet, dass alles OK war. `404` würde der Server antworten, wenn die du eine falsche URL aufgerufen hast (ein sog. *Client error*, die alle die Form `4xx` haben). Solltest du einem Fehler in der Form `5xx` begegnen, hat der Server selbst ein Problem.

Wie oben schon angesprochen, besteht die Antwort des Servers aus Header und Rumpf. Die Header hat `requests` schon in einem `dict` für dich organisiert:

In [None]:
r.headers

Offenbar wurden die Daten bereits gepackt (`gzip`) übermittelt, das hat `requests` für dich erledigt und dabei Bandbreite eingespart.

Der Rumpf kannst du mit der Methode `.content` ermitteln:

In [None]:
r.content

Wenn du mehr Requests zum gleichen Server durchführen möchtest, ist eine `Session` eine sinnvolle Optimierung, da dann die TCP-Verbindung weiterverwendet werden kann und im Falle von HTTPS auch der Session-Key. Die Zeitersparnis kann ganz erheblich sein.

Ohne `Session`:

In [None]:
%%time
for i in range(100):
    r = requests.get('https://www.heise.de/') 

Mit `Session`:

In [None]:
%%time
s = requests.Session() 
for i in range(100):
    r = s.get('https://www.heise.de/') 

## `requests` kann noch viel mehr

Auch hier gilt: bisher hast du nur einen kleinen Teil der Möglichkeiten gesehen, über die `requests` verfügt. Neben *Client-Side-Zertifikaten*, *Prepared Requests* usw. schöpft `requests` schon viele Möglichkeiten des HTTP(S)-Protokolls aus. 

Deshalb solltest du bei Gelegenheit mal einen Blick auf die ganz ausgezeichnete [Dokumentation](https://requests.readthedocs.io/en/master/) werfen. Dort sind auch sehr viele Beispiele enthalten für häufige Anforderungen.

## Nicht immer `requests`

Für den extremen Massendownload von Seiten kann es sinnvoll sein, auf CLI-Programme wie `wget` auszuweichen.