# Web Scraping von Hsozkult

Als erstes binden wir die benötigten Bibliotheken ein: 

In [1]:
import re
from urllib.request import urlopen
from bs4 import BeautifulSoup

`re` stellt Funktionen für sogenannte 'Reguläre Ausdrücke' zur Verfügung. `urllib` ist eine Standardbibliothek für den Umgang mit dem Internetprotokoll `http`. `bs4` steht für *BeautifulSoup* – die beste Bibliothek, um HTML zu parsen.

Anschließend bauen wir uns eine URL zusammen: Sie besteht aus der eigentlichen Domain, aus dem Query-String, über den sich Suchanfragen ausführen lassen, und aus den eigentlichen Suchbegriffen.

In [2]:
base_url = "http://www.hsozkult.de"
query_string = "/searching/page?q="
search_string = "rezension grundwissenschaft"
search_string = search_string.replace(" ", "+")
url = base_url + query_string + search_string

Da keine Leerzeichen in einer URL vorhanden sein dürfen, müssen wir im Such-String alle Leerzeichen durch '+' ersetzen. Danach wird die URL aus den einzelnen Bestandteilen zusammengesetzt.

Als nächstes senden wir mithilfe von `urlopen` eine Anfrage an Hsozkult. Die Antwort des Servers übergeben wir an *BeautifulSoup*, lassen es durch einen HTML-Parser verarbeiten und speichern das Ergebnis in der Variable `bs` ab.

In [3]:
search = urlopen(url)
bs = BeautifulSoup(search, 'html.parser')

Daraufhin müssen wir einen Blick auf eine entsprechende Seite von Hsozkult werfen. Dabei stellen wir fest, dass die Tabelle mit den einzelnen Suchergebnissen sich in einem `div`-Kontainer der `class` "hfn-list-itemtitle" befindet. Aus der Ergebnis-Liste nehmen wir uns den ersten Treffern vor.

In [4]:
results = bs.find_all('div', {'class': 'hfn-list-itemtitle'})

first_hit = results[0].find('a')['href']
first_hit

'/searching/id/rezbuecher-28479?title=t-kahlert-unternehmungen-grossen-stils&q=rezension grundwissenschaft&sort=&fq=&total=19&recno=1&subType=reb'

Wir suchen in diesem ersten Treffer nach einem Link `<a>` mit dem Attribut `href`, lesen das aus und speichern es in der Variable `first_hit` ab. Damit wissen wir, hinter welchem Link sich die erste gefundene Rezension verbirgt.

Wir bauen daher anschließend erneut eine URL zusammen, diesmal aus der `base_url` und unserem `first_hit`. Da sich darin aber ein Leerzeichen befindet, müssen wir es wieder durch ein den entsprechenden Escape-Code '%20' ersetzen.

Haben wir das erledigt, schicken wir erneute eine Anfrage an Hsozkult, diesmal für die Rezension, und parsen das Ganze mit *BeautifulSoup*.

In [5]:
link_url = base_url + first_hit
link_url = link_url.replace(" ", "%20")

review_html = urlopen(link_url)
bs_review = BeautifulSoup(review_html, 'html.parser')