# 3. HTML-Code verarbeiten mit der BeautifulSoup-Bibliothek

Wie bereits erwähnt, besteht Webscraping im Wesentlichen aus zwei Schritten:
1. Webseite aufrufen und den HTML-Code der Seite herunterladen
2. gesuchte Informationen aus dem HTML-Code auslesen.

Für den zweiten Schritt wird in Python häufig die [*BeautifulSoup*](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)-Bibliothek verwendet. Mit *BeautifulSoup* wird [HTML](https://de.wikipedia.org/wiki/Hypertext_Markup_Language)-Code (der Quellcode der jeweiligen Webseite) in Objekte umgewandelt, die es erlauben, durch diesen Code zu navigieren, in diesem Code nach spezifischen Inhalten zu suchen und diese Inhalte zu extrahieren. Diesen Prozess, bei dem der Quellcode in seine strukturellen Einzelteile zerlegt und analysiert wird, nennt man auch [*Parsen*](https://de.wikipedia.org/wiki/Parser).<br>

Die Python-Bibliothek *BeautifulSoup* muss vor der ersten Verwendung installiert werden. Zur Installation unter Windows muss folgender Code in die [Eingabeaufforderung](https://www.youtube.com/watch?v=Bmt3n9RczeU) eingegeben werden (Code für die Eingabeaufforderung beginnt `$`, um zu verdeutlichen, dass es kein Python-Code ist; `$` ist aber kein Bestandteil des Codes): `$ python -m pip install bs4`. Um *BeautifulSoup* zu aktualisieren, muss folgende Zeile in die Eingabeaufforderung eingegeben werden: `$ python -m pip install --upgrade bs4`. Beide Codezeilen setzen voraus, dass das sowohl Python als auch das Paketverwaltungsprogramm *pip* installiert sind. Beides kann in der Eingabeaufforderung mit `$ python` und `$ python -m pip --version` getestet werden.

Da *BeautifulSoup* eine Bibliothek ist und nicht zu den Kernbefehlen von Python gehört, muss sie erst *importiert* werden, bevor man sie verwenden kann:

In [1]:
from bs4 import BeautifulSoup

Im vorherigen Notebook haben wir mit Hilfe der *requests*-Bibliothek den HTML-Quellcode der Startseite der Tagesschau aus dem Internet geladen und in die Variable *html* gespeichert. Diese Variable haben wir dann mit Hilfe eines [*magic commands*](https://ipython.readthedocs.io/en/stable/interactive/magics.html) in die programmeigene IPython-Datenbank gespeichert, damit die Variable über verschiedene Notebooks hinweg verfügbar ist.<br>
Mit folgendem *magic command* können wir die Variable wieder für dieses Notebook aus der IPython-Datenbank abrufen:

In [26]:
%store -r html

Diese Variable wird nun als Input an *BeautifulSoup* übergeben und von *BeautifulSoup* in ein *BeautifulSoup*-Objekt umgewandelt. Dieses *BeautifulSoup*-Objekt wird dann der Variable *bs* zugewiesen:

In [27]:
bs = BeautifulSoup(html)

In [28]:
print(type(bs)) # Abfrage: Was für einen Datentyp liefert uns BeautifulSoup eigentlich? Was befindet sich in bs? Antwort: ein BeautifulSoup-Objekt! 

<class 'bs4.BeautifulSoup'>


Mit Hilfe des *BeautifulSoup*-Objekts ist es nun möglich, die gesuchten Informationen aus dem HTML-Code (bzw. der HTML-Suppe, deshalb der Name *BeautifulSoup*) zu extrahieren. Um dieses Vorgehen zu verstehen, ist es hilfreich, rudimentäre Kenntnisse von HTML und [CSS](https://de.wikipedia.org/wiki/Cascading_Style_Sheets) zu haben. Während HTML die *Struktur* einer Webseite definiert (HTML ist eine [Auszeichnungssprache](https://de.wikipedia.org/wiki/Auszeichnungssprache)), wird mit CSS die *Darstellung* der Webseite festgelegt (CSS ist eine [Stylesheetsprache](https://de.wikipedia.org/wiki/Stylesheet-Sprache)). Tutorials zu HTML und CSS findet man zahlreich im Netz, wie etwa diese hier:
+ [knappes HTML-Tutorial](https://htmldog.com/guides/html/) oder [ausführlicheres HTML-Tutorial](https://www.w3schools.com/html/default.asp)
+ [knappes CSS-Tutorial](https://htmldog.com/guides/css/) oder [ausführlicheres CSS-Tutorial](https://www.w3schools.com/css/default.asp)

HTML beschreibt die Struktur einer Webseite mit Hilfe sog. [*HTML-Elemente*](https://en.wikipedia.org/wiki/HTML_element). Diese Elemente bestehen in der Regel aus einem *Start-Tag*, einem *Inhalt* und einem *End-Tag*. Innerhalb des Start-Tags können darüber hinaus [Attribute](https://de.wikipedia.org/wiki/Attribut_(Auszeichnungssprache) über Attributname und Attributwert angegeben werden, die Eigenschaften des HTML-Elements beschreiben. Ein HTML-Element hat somit folgende Komponenten:

![HTML-Element](https://wikimedia.org/api/rest_v1/media/math/render/svg/37506127f0730d9b6035530f46c706af4e2319d4)

Beispiele für HTML-Elemente:

```html
<h1>Dies ist eine große Überschrift</h1>
<h3>Dies ist eine kleinere Überschrift</h3>
<p>Dies ist ein Absatz</p>
<a href="https://www.wiso.uni-hamburg.de/fachbereich-sozoek.html">Das ist ein Link</a> 
```

<h1>Dies ist eine große Überschrift</h1>
<h3>Dies ist eine kleinere Überschrift</h3>
<p>Dies ist ein Absatz</p>
<a href="https://www.wiso.uni-hamburg.de/fachbereich-sozoek.html">Das ist ein Link</a> 

<div class="alert alert-block alert-info">
<b>Tipp:</b> Auch im Webbrowser kann man sich den HTLM-Quellcode jeder Webseite folgendermaßen anzeigen lassen:
<ol>
  <li>Rechtsklick in einen freien Bereich der jeweiligen Webseite</li>
  <li>"Seitenquelltext anzeigen" (oder ähnliches - je nach Browser) aus dem Kontextmenü auswählen.</li>
</ol>
</div>

Mit *BeautifulSoup* kann man nun Inhalte aus dem HTML-Quellcode extrahieren. Hierbei macht man es sich zu nutze, dass HTML-Quellcode üblicherweise eine gewisse Struktur aufweist. Gleichartige Informationen sind meist in gleichen HTML-Elementen zu finden oder sind über entsprechende CSS-Definitionen gleich gestaltet. Aus diesem Grund werden HTML-Dateien auch als [semi-strukturierte Daten](https://de.wikipedia.org/wiki/Semistrukturierte_Daten) bezeichnet. Diese Struktur- bzw. Gestaltungsinformationen kann man beim Webscraping nutzen, indem man die Informationen in genau diesen Elementen extrahiert.

<div class="alert alert-block alert-info">
<b>Tipp:</b> Wenn man die HTML-Elemente oder CSS-Definitionen im Quellcode identifizieren möchte, welche die Informationen beinhalten, die wir extrahieren möchten, sind die <a href="https://www.youtube.com/watch?v=WUArM-7NFIo">Entwickler-Tools</a> des jeweiligen Browsers hilfreich.
</div>

Dazu bietet *BeautifulSoup* unter anderem die Funktionen `find()` und `find_all()` an. In den Klammern gibt man z.B. HTML-Tags, Text, Attribute oder CSS-Selektoren an, die man extrahieren möchte. `find()` liefert nur die *erste* Instanz im Quellcode. `find_all()` liefert eine Liste aller Übereinstimmungen.<br>

### Anwendungsbeispiel

Im Tagesschau-Beispiel gibt es nur ein h1-Tag, das die Hauptüberschrift der Webseite beeinhaltet. Somit ist die Funktion `find()` ausreichend, um diese Information aus dem Quellcode zu extrahieren. Die Funktion `find()` muss auf die Variable *bs* angewendet werden, die das *BeautifulSoup*-Objekt beinhaltet. Um das h1-Tag zu suchen und zu extrahieren, muss "h1" in `find()` als Argument angegeben werden. Das Ergebnis wird in die Variable *h1_tag* gespeichert.

In [29]:
h1_tag = bs.find("h1")

Die Inhalte der Variable *h1_tag* bzw. Teile davon können dann über die Funktion `print()` ausgegeben werden:

In [30]:
print(h1_tag) # vollständiges HTML-Element ausgeben
print(type(h1_tag)) # Datentyp: BeautifulSoup-Tag-Objekt
print(100*'-')
print(h1_tag.attrs) # Tag-Attribute ausgeben
print(type(h1_tag.attrs)) # Datentyp: Python dictionary
print(100*'-')
print(h1_tag.string) # Element-Text ausgeben
print(type(h1_tag.string)) # Datentyp: BeautifulSoup-NavigableString-Objekt und kein normaler String!

<h1 class="hidden">Aktuelle Nachrichten - Inland Ausland Wirtschaft Kultur Sport - ARD Tagesschau</h1>
<class 'bs4.element.Tag'>
----------------------------------------------------------------------------------------------------
{'class': ['hidden']}
<class 'dict'>
----------------------------------------------------------------------------------------------------
Aktuelle Nachrichten - Inland Ausland Wirtschaft Kultur Sport - ARD Tagesschau
<class 'bs4.element.NavigableString'>


Benötigt man den Element-Text für die Weiterverarbeitung als normalen String, kann der Text mit der Funktion `get_text()` aus dem HTML-Element extrahiert werden:

In [31]:
string_h1 = h1_tag.get_text()
print(string_h1)
print(type(string_h1)) # Datentyp: string

Aktuelle Nachrichten - Inland Ausland Wirtschaft Kultur Sport - ARD Tagesschau
<class 'str'>


Möchte man alle HTML-Tags der gleichen Art extrahieren, muss die Funktion `find_all()` verwendet werden. Im Folgenden werden alle h2-Tags extrahiert.

In [32]:
h2_tag = bs.find_all("h2")

Da es nun mehrere Inhalte gibt, legt *BeautifulSoup* eine [Liste](https://www.w3schools.com/python/python_lists.asp) an. Eine Liste ist eine Art Datencontainer der mehrere Elemente in einer festgelegten Reihenfolge beinhaltet.

In [33]:
print(h2_tag)

[<h2>Corona-Pandemie</h2>, <h2>Bundesliga</h2>, <h2>Sendungen</h2>, <h2>INLAND</h2>, <h2>Bundestagswahl</h2>, <h2>Ausland</h2>, <h2>Wirtschaft</h2>, <h2>Marktbericht</h2>, <h2>Börsenkurse</h2>, <h2>Weltmärkte</h2>, <h2>Investigativ</h2>, <h2>Sport</h2>, <h2>Das Wetter</h2>, <h2 class="teaser-xs__headline">Regenradar</h2>, <h2 class="teaser-xs__headline">Mittlere <span class="hyphenate">Sonnenscheindauer</span></h2>, <h2 class="teaser-xs__headline"><span class="hyphenate">Wetterstationen</span></h2>, <h2>Blickpunkte</h2>, <h2>Top Ten</h2>, <h2>Podcasts</h2>]


Listen kann man mit einer [for-Schleife](https://www.w3schools.com/python/python_for_loops.asp) elementweise bearbeiten. Hier wird jedes Element in *h2_tag* nacheinander der Indexvariable *h2* zugewiesen und dann der entsprechende Inhalt ausgegeben:

In [34]:
for h2 in h2_tag:
    print(h2.string)
    print(100*'-')

Corona-Pandemie
----------------------------------------------------------------------------------------------------
Bundesliga
----------------------------------------------------------------------------------------------------
Sendungen
----------------------------------------------------------------------------------------------------
INLAND
----------------------------------------------------------------------------------------------------
Bundestagswahl
----------------------------------------------------------------------------------------------------
Ausland
----------------------------------------------------------------------------------------------------
Wirtschaft
----------------------------------------------------------------------------------------------------
Marktbericht
----------------------------------------------------------------------------------------------------
Börsenkurse
-----------------------------------------------------------------------------------------

Möchte man alle Links auf der Startseite der Tagesschau extrahieren geht das folgendermaßen:

In [35]:
links = bs.find_all('a', class_="teaser__link")

In [41]:
for l in links:
    print(l['href'])

https://www.tagesschau.de/inland/btw21/triell-kanzlerkandidaten-105.html
https://www.tagesschau.de/inland/btw21/triell-reaktionen-101.html
https://www.tagesschau.de/inland/btw21/triell-blitzumfrage-101.html
https://www.tagesschau.de/inland/btw21/triell-kanzlerkandidaten-kommentar-101.html
https://www.tagesschau.de/inland/corona-impfaktionswoche-101.html
https://www.tagesschau.de/newsticker/liveblog-coronavirus-montag-225.html
https://www.tagesschau.de/wirtschaft/impfstoff-booster-corona-101.html
https://www.tagesschau.de/multimedia/livestreams/livestream-3-107.html
https://www.tagesschau.de/ausland/iaea-iran-111.html
https://www.tagesschau.de/ausland/asien/nordkorea-raketentest-191.html
https://www.tagesschau.de/ausland/afrika/amnesty-niger-101.html
https://www.tagesschau.de/ausland/asien/mueller-afghanistan-humanitaere-krise-101.html
https://www.mdr.de/nachrichten/deutschland/politik/umwelthilfe-klimaklage-gegen-sachsen-und-sachsen-anhalt-100.html
https://www.tagesschau.de/ausland/eur