# 1. Webseiten aufrufen mit der *requests*-Bibliothek

Webscraping besteht im Wesentlichen aus zwei Schritten:
1. Webseite aufrufen und den HTML-Code der Seite herunterladen
2. gesuchte Informationen aus dem HTML-Code auslesen.

Für den ersten Schritt wird in Python meist die [*requests*](https://docs.python-requests.org/en/latest/)-Bibliothek verwendet. Mittels *requests* ist es möglich, über Python HTTP-Anfragen zu stellen. [HTTP](https://de.wikipedia.org/wiki/Hypertext_Transfer_Protocol) ist das Protokoll, das beim Aufrufen von Internetseiten verwendet wird. Python kann so anstelle eines Webbrowsers Anfragen zum Aufrufen einer Webseite an einen Webserver stellen. Diese Anfragen an einen Webserver werden im HTTP-Protokoll als *request* bezeichnet. Der Webserver reagiert darauf mit einer *response*. Die folgende Abbildung verdeutlicht das grafisch:<br>

![HTTP](https://www.researchgate.net/profile/Michail-Michalos/publication/298171500/figure/fig1/AS:654808562294784@1533129935133/HTTP-Request-Response-scheme.png)

## Installieren und importieren der *requests*-Bibliothek

Die Python-Bibliothek *requests* muss vor der ersten Verwendung installiert werden. Die Installation geht folgendermaßen:

In [7]:
! python -m pip install requests



Mit `! python -m pip install --upgrade requests` ist es möglich, die *requests*-Bibliothek zu aktualisieren.<br>
Beide Codezeilen setzen voraus, dass das sowohl Python als auch das Paketverwaltungsprogramm *pip* installiert sind. Beides kann wie folgt überprüft werden:

In [2]:
! python --version
! python -m pip --version

Python 3.9.7
pip 21.2.4 from C:\ProgramData\Anaconda3\lib\site-packages\pip (python 3.9)



Da *requests* eine Bibliothek ist und nicht zu den Kernbefehlen von Python gehört, muss sie erst *importiert* werden, bevor man sie verwenden kann:

In [3]:
import requests

## Aufrufen einer Webseite mit *requests*

Im Folgenden soll die Webseite der deutschen Wikipedia für Hamburg aufgerufen werden. Dazu wird die entsprechende Internetadresse in der Variablen *url* gespeichert:

In [4]:
url = 'https://de.wikipedia.org/wiki/Hamburg'

Nun kann ein *get-request* zum Aufruf der Webseite an den Webserver gestellt werden. Unsere Anfrage und die Antwort des Webservers werden von *requests* in einem sog. Response-Objekt gespeichert. Dieses Response-Objekt wird dann der [Variablen](https://www.w3schools.com/python/python_variables.asp) *r* zugewiesen, damit wir im weiteren Verlauf damit arbeiten können.

In [5]:
r = requests.get(url)
print(type(r)) # Abfrage: Was für einen Datentyp liefert uns request eigentlich? Was befindet sich in r? Antwort: ein Response-Objekt! 

<class 'requests.models.Response'>


Das Response-Objekt, das in der Variable *r* gespeichert wurde, enthält zahlreiche Informationen. Die Funktion `dir()` gibt eine [Liste](https://www.w3schools.com/python/python_lists.asp) aller Eigenschaften und Methoden des Response-Objektes aus. Die Funktion `dir()` wird im Folgenden auf die Variable *r* angewendet. Um die Liste am Bildschirm auszugeben, muss das Ganze noch in die Funktion `print()` eingesetzt werden.

## Informationen zum Webseiten-Aufruf abfragen

In [6]:
print(dir(r))

['__attrs__', '__bool__', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__nonzero__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_content', '_content_consumed', '_next', 'apparent_encoding', 'close', 'connection', 'content', 'cookies', 'elapsed', 'encoding', 'headers', 'history', 'is_permanent_redirect', 'is_redirect', 'iter_content', 'iter_lines', 'json', 'links', 'next', 'ok', 'raise_for_status', 'raw', 'reason', 'request', 'status_code', 'text', 'url']


Aus dieser Liste sollen nun einige Methoden angewendet werden. Mit `.request` kann man sich ausgeben lassen, welcher *request* an den Webserver gesendet wurde. Die Methode muss folgendermaßen auf die Variable *r* angewendet werden:

In [6]:
print(r.request)

<PreparedRequest [GET]>


Wie man an der Ausgabe erkennt, wurde ein *get-request* gesendet.

Mit Hilfe von `.request.url` lässt sich die URL anzeigen, an die der *request* gesendet wurde:

In [7]:
print(r.request.url)

https://de.wikipedia.org/wiki/Hamburg


Mit `.request.headers` kann man die HTTP-Anfragekopfzeilen (*request headers*) sehen, die wir an den Webserver gesendet haben. Die Ausgabe erfolgt in Form eines Python-[Dictionaries](https://www.w3schools.com/python/python_dictionaries.asp):

In [8]:
print(r.request.headers)

{'User-Agent': 'python-requests/2.27.1', 'Accept-Encoding': 'gzip, deflate, br', 'Accept': '*/*', 'Connection': 'keep-alive'}


Die HTTP-Antwortkopfzeilen des Webservers (*response headers*) können über `.headers` eingesehen werden. Auch diese Ausgabe erfolgt in Form eines [Dictionaries](https://www.w3schools.com/python/python_dictionaries.asp):

In [9]:
print(r.headers)

{'date': 'Tue, 17 May 2022 18:10:06 GMT', 'server': 'mw1330.eqiad.wmnet', 'x-content-type-options': 'nosniff', 'p3p': 'CP="See https://de.wikipedia.org/wiki/Special:CentralAutoLogin/P3P for more info."', 'content-language': 'de', 'vary': 'Accept-Encoding,Cookie,Authorization', 'last-modified': 'Tue, 17 May 2022 18:06:34 GMT', 'content-type': 'text/html; charset=UTF-8', 'content-encoding': 'gzip', 'age': '63596', 'x-cache': 'cp3054 miss, cp3056 hit/94', 'x-cache-status': 'hit-front', 'server-timing': 'cache;desc="hit-front", host;desc="cp3056"', 'strict-transport-security': 'max-age=106384710; includeSubDomains; preload', 'report-to': '{ "group": "wm_nel", "max_age": 86400, "endpoints": [{ "url": "https://intake-logging.wikimedia.org/v1/events?stream=w3c.reportingapi.network_error&schema_uri=/w3c/reportingapi/network_error/1.0.0" }] }', 'nel': '{ "report_to": "wm_nel", "max_age": 86400, "failure_fraction": 0.05, "success_fraction": 0.0}', 'set-cookie': 'WMF-Last-Access=18-May-2022;Path=

Ob der *Get-Request* der angeforderten URL erfolgreich war, lässt sich am [HTTP-Statuscode](https://de.wikipedia.org/wiki/HTTP-Statuscode) erkennen, den der Webserver auf unsere Anfrage zurückgibt. Den Statuscode unserer Anfrage kann man mit der Methode `.status_code` und den dazugehörigen Text mit `.reason` ausgeben. 

In [18]:
print(r.status_code)
print(r.reason)

200
OK


<div class="alert alert-block alert-info">
<b>Tipp:</b> Die HTTP-Kommunikation zwischen Webbrowser und Webserver kann über die <a href="https://www.youtube.com/watch?v=WUArM-7NFIo"><i>Entwickler-Tools</i></a> des jeweiligen Browsers nachvollzogen werden. In den meisten Browsern kann man mit <kbd>Strg</kbd>+<kbd>UMSCHALTTASTE</kbd>+<kbd>I</kbd> oder <kbd>F12</kbd> die Entwicklertools öffnen.
Über den Reiter <b>Netzwerk</b> bzw. <b>Netzwerkanalyse</b> kann der aktuelle Austausch zwischen Browser und Server nachvollzogen werden. 
</div>

## Anzeigen und abspeichern des HTML-Quellcodes

Webseiten bestehen im Wesentlichen aus [HTML](https://de.wikipedia.org/wiki/Hypertext_Markup_Language)-Code. Der Quellcode der angeforderten Seite ist das, was - neben den *response headers* - auf unsere Anfrage hin vom Webserver an uns geschickt wird.<br>
Der übermittelte HTML-Quellcode der angeforderten Webseite kann über die Methode `.text` als [Unicode](https://de.wikipedia.org/wiki/Unicode)-Text aus dem Response-Objekt *r* extrahiert werden:

In [10]:
print(r.text)

<!DOCTYPE html>
<html class="client-nojs" lang="de" dir="ltr">
<head>
<meta charset="UTF-8"/>
<title>Hamburg – Wikipedia</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t.",".\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","Januar","Februar","März","April","Mai","Juni","Juli","August","September","Oktober","November","Dezember"],"wgRequestId":"6bbc0f81-d93e-4644-92db-ae54ccac4b01","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Hamburg","wgTitle":"Hamburg","wgCurRevisionId":222922636,"wgRevisionId":222922636,"wgArticleId":2129,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Wikipedia:Weblink offline","Wikipedia:Veraltet in zwei bis drei Jahren","Wikipedia:Veraltet in drei bis vier Jahren","Wikipedia:Lesenswert","Hamburg","Bundesland (Deutschl

Da wir aus diesem HTML-Code noch die von uns benötigten Informationen auslesen wollen, speichern wir den extrahierten HTML-Code in einer Variablen namens *html*:

In [12]:
html = r.text

Damit wir mit dieser Variablen im Notebook "2. BeautifulSoup-Bibliothek" weiterarbeiten können, muss diese Variable dort auch zur Verfügung stehen. Mit folgendem sog. [*magic command*](https://ipython.readthedocs.io/en/stable/interactive/magics.html) kann man die Variable *html* in der programmeigenen IPython-Datenbank speichern und sie dann in Notebook 2 wieder aufrufen:

In [13]:
%store html

Stored 'html' (str)


## Komplikationen beim Aufruf von Webseiten

Das obige Beispiel stellt den einfachsten Fall dar, eine Webseite aufzurufen und den HTML-Quellcode herunterzuladen. Es gibt viele weitere Aspekte, die das Aufrufen von Webseiten komplexer gestalten können. Dazu gehören:
+ **Internetadressen mit Parametern ([query strings](https://de.wikipedia.org/wiki/Query-String))**  
Mit *query strings* kann man über die URL Informationen an den Webserver senden, die dieser dann verarbeitet. *query strings* werden an das Ende der URL angehängt. Sie beginnen mit einem ? und bestehen aus einem oder mehreren Schlüssel=Wert-Paaren, die mit einem & verbunden werden wie im folgenden Beispiel: https://www.google.com/search?client=firefox-b-e&q=web+scraping
+ **Webseiten mit Forumlaren**  
Sollen umfangreichere Daten an den Webserver gesendet werden, sind *query strings* meist nicht ausreichend. Dann kommen üblicherweise Webformulare zum Einsatz (etwa Address- oder Kontaktdaten). Hier wird dann ein *post request* mit den entsprechenden Informationen anstelle eines *get requests* an den Webserver geschickt.
+ **Referer header**  
Im *referer header* der HTTP-Anfrage ist die URL hinterlegt, von der aus die aktuelle Seite aufgerufen wurde. Manche Webserver nutzen diese Information, um den direkten Zugriff auf Unterseiten ([deep links](https://de.wikipedia.org/wiki/Surface_Links_und_Deep_Links)) zu verhindern.
+ **Weiterleitungen**  
Bei dem Aufruf mancher Internetadressen wird man sofort an eine andere URL weitergleitet ([redirects](https://de.wikipedia.org/wiki/Weiterleitung)). Das ist dann ein Problem, wenn Inhalte der eigentlichen Zieladresse (etwa Cookies) benötigt werden, um auf die Weiterleitung über ein Python-Skript zuzugreifen.
+ **Authentifizierungen**  
Auf manche Webseiteninhalte hat man erst nach Authentifizierung mit Benutzername und Passwort Zugriff.
+ **Cookies**  
Viele Webserver setzen sitzungsspezifische Cookies, deren Inhalte für das Aufrufen von Unterseiten nötig sind.
+ **JavaScript**  
Mit JavaScript werden Webseiteninhalte dynamisch verändert, ohne dass der gesamte Quellcode der Webseite neu geladen werden muss.
+ **u.v.m.**

Der Umgang mit diesen und weiteren Komplikationen wird im folgenden Buch (über die SUB elektronisch verfügbar) angerissen:  
> Broucke, Seppe vanden und Bart Baesens (2018): *Practical Web Scraping for Data Science. Best Practices and Examples with Python*. New York: Apress. https://dx.doi.org/10.1007/978-1-4842-3582-9