# 3. HTML-Code verarbeiten mit der BeautifulSoup-Bibliothek

Wie bereits erwähnt, besteht Webscraping im Wesentlichen aus zwei Schritten:
1. Webseite aufrufen und den HTML-Code der Seite herunterladen
2. gesuchte Informationen aus dem HTML-Code auslesen.

Für den zweiten Schritt wird in Python häufig die [*BeautifulSoup*](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)-Bibliothek verwendet. Mit *BeautifulSoup* wird [HTML](https://de.wikipedia.org/wiki/Hypertext_Markup_Language)-Code (der Quellcode der jeweiligen Webseite) in Objekte umgewandelt, die es erlauben, durch diesen Code zu navigieren, in diesem Code nach spezifischen Inhalten zu suchen und diese Inhalte zu extrahieren. Diesen Prozess, bei dem der Quellcode in seine strukturellen Einzelteile zerlegt und analysiert wird, nennt man auch [*Parsen*](https://de.wikipedia.org/wiki/Parser).<br>

Die Python-Bibliothek *BeautifulSoup* muss vor der ersten Verwendung installiert werden. Zur Installation unter Windows muss folgender Code in die [Eingabeaufforderung](https://www.youtube.com/watch?v=Bmt3n9RczeU) eingegeben werden (Code für die Eingabeaufforderung beginnt `$`, um zu verdeutlichen, dass es kein Python-Code ist; `$` ist aber kein Bestandteil des Codes): `$ python -m pip install bs4`. Um *BeautifulSoup* upzudaten, muss folgende Zeile in die Eingabeaufforderung eingegeben werden: `$ python -m pip install --upgrade bs4`. Beide Codezeilen setzen voraus, dass das sowohl Python als auch das Paketverwaltungsprogramm *pip* installiert sind. Beides kann in der Eingabeaufforderung mit `$ python` und `$ python -m pip --version` getestet werden.

Da *BeautifulSoup* eine Bibliothek ist und nicht zu den Kernbefehlen von Python gehört, muss sie erst *importiert* werden, bevor man sie verwenden kann:

In [84]:
from bs4 import BeautifulSoup

#### Zusammenfassung
Im vorherigen Notebook haben wir mit Hilfe der *requests*-Bibliothek den HTML-Quellcode der Startseite der Tagesschau aus dem Internet geladen und in die Variable *html* gespeichert. Diese Variable haben wir dann mit Hilfe eines [*magic commands*](https://ipython.readthedocs.io/en/stable/interactive/magics.html) in die programmeigene IPython-Datenbank gespeichert, damit die Variable über verschiedene Notebooks hinweg verfügbar ist.<br>
Mit folgendem *magic command* können wir die Variable wieder aus der IPython-Datenbank abrufen:

In [85]:
%store -r html

Diese Variable wird nun als Input an *BeautifulSoup* übergeben und von *BeautifulSoup* in ein BeautifulSoup-Objekt umgewandelt. Dieses BeautifulSoup-Objekt wird dann der Variable *bs* zugewiesen:

In [86]:
bs = BeautifulSoup(html)

In [106]:
print(type(bs)) # Abfrage: Was für einen Datentyp liefert uns BeautifulSoup eigentlich? Was befindet sich in bs? Antwort: ein BeautifulSoup-Objekt! 

<class 'bs4.BeautifulSoup'>


Mit Hilfe des *BeautifulSoup*-Objekts ist es nun möglich, die gesuchten Informationen aus dem HTML-Code (bzw. der HTML-Suppe, deshalb der Name *BeautifulSoup*) zu extrahieren. Um dieses Vorgehen zu verstehen, ist es hilfreich, rudimentäre Kenntnisse von HTML und [CSS](https://de.wikipedia.org/wiki/Cascading_Style_Sheets) (Cascading Style Sheets) zu haben. Während HTML die *Struktur* einer Webseite definiert, wird mit CSS die *Darstellung* der Webseite festgelegt. Tutorials zu HTML und CSS findet man zahlreich im Netz, wie etwa diese hier:
+ [knappes HTML-Tutorial](https://htmldog.com/guides/html/) oder [ausführlicheres HTML-Tutorial](https://www.w3schools.com/html/default.asp)
+ [knappes CSS-Tutorial](https://htmldog.com/guides/css/) oder [ausführlicheres CSS-Tutorial](https://www.w3schools.com/css/default.asp)

HTML beschreibt die Struktur einer Webseite mit Hilfe sog. [*HTML-Elemente*](https://en.wikipedia.org/wiki/HTML_element). Diese Elemente bestehen in der Regel aus einem *Start-Tag*, einem *Inhalt* und einem *End-Tag*. Innerhalb des Start-Tags können darüber hinaus [Attribute](https://de.wikipedia.org/wiki/Attribut_(Auszeichnungssprache) über Attributname und Attributwert angegeben werden, die Eigenschaften des HTML-Elements beschreiben. Ein HTML-Element hat somit folgende Komponenten:

![HTML-Element](https://wikimedia.org/api/rest_v1/media/math/render/svg/37506127f0730d9b6035530f46c706af4e2319d4)

Beispiele:

```html
<h1>Dies ist eine große Überschrift</h1>
<p>Dies ist ein Absatz</p>
<a href="https://www.wiso.uni-hamburg.de/fachbereich-sozoek.html">Das ist ein Link</a> 
```

Mit *BeautifulSoup* kann man nun Inhalte aus dem HTML-Quellcode extrahieren. Hierbei macht man es sich zu nutze, dass HTML-Quellcode eine klare Struktur

Informationen, die wir auslesen wollen, sind in den gleichen HTML-Elementen zu finden oder sind über entsprechende CSS-Definitionen gleich gestaltet. Diese Struktur- bzw. Gestaltungsinformationen kann man bei Webscraping nutzen.

habendie interessierenden Informationen



Dazu bietet *BeautifulSoup* unter anderem die Funktionen `find()` und `find_all()` an. In den Klammern gibt man z.B. HTML-Tags, Text oder Attribute an, die man zum Extrahieren verwenden möchte. `find()` liefert nur die *erste* Instanz im Quellcode. `find_all()` liefert eine Liste aller Übereinstimmungen.<br>

Im Tagesschau-Beispiel gibt es nur ein h1-Tag, das die Hauptüberschrift der Webseite beeinhaltet. Somit ist die Funktion `find()` ausreichend, um diese Information aus dem Quellcode zu extrahieren. Die Funktion `find()` muss auf die Variable *bs* angewendet werden, die das *BeautifulSoup*-Objekt beinhaltet. Um das h1-Tag zu suchen und zu extrahieren, muss "h1" in `find()` als Argument angegeben werden. Das Ergebnis wird in die Variable *h1_tag* gespeichert.

In [88]:
h1_tag = bs.find("h1")

Die Inhalte der Variable *h1_tag* bzw. Teile davon können dann über die Funktion `print()` ausgegeben werden:

In [105]:
print(h1_tag) # vollständiges HTML-Element ausgeben
print(type(h1_tag)) # Datentyp: BeautifulSoup-Tag-Objekt
print(100*'-')
print(h1_tag.attrs) # Tag-Attribute ausgeben
print(type(h1_tag.attrs)) # Datentyp: Python dictionary
print(100*'-')
print(h1_tag.string) # Element-Text ausgeben
print(type(h1_tag.string)) # Datentyp: BeautifulSoup-NavigableString-Objekt und kein normaler String!

<h1 class="hidden">Aktuelle Nachrichten - Inland Ausland Wirtschaft Kultur Sport - ARD Tagesschau</h1>
<class 'bs4.element.Tag'>
----------------------------------------------------------------------------------------------------
{'class': ['hidden']}
<class 'dict'>
----------------------------------------------------------------------------------------------------
Aktuelle Nachrichten - Inland Ausland Wirtschaft Kultur Sport - ARD Tagesschau
<class 'bs4.element.NavigableString'>


Benötigt man den Element-Text für die Weiterverarbeitung als normalen String, kann der Text mit der Funktion `get_text()` aus dem HTML-Element extrahiert werden:

In [108]:
string_h1 = h1_tag.get_text()
print(string_h1)
print(type(string_h1)) # Datentyp: string

Aktuelle Nachrichten - Inland Ausland Wirtschaft Kultur Sport - ARD Tagesschau
<class 'str'>


Möchte man alle HTML-Tags der gleichen Art extrahieren, muss die Funktion `find_all()` verwendet werden. Im Folgenden werden alle h2-Tags extrahiert.

In [90]:
h2_tag = bs.find_all("h2")

Da es nun mehrere Inhalte gibt, legt *BeautifulSoup* eine [Liste](https://www.w3schools.com/python/python_lists.asp) an:

In [91]:
print(h2_tag)

[<h2>Corona-Pandemie</h2>, <h2>Bundesliga</h2>, <h2>Sendungen</h2>, <h2>INLAND</h2>, <h2>Bundestagswahl</h2>, <h2>Ausland</h2>, <h2>Wirtschaft</h2>, <h2>Marktbericht</h2>, <h2>Börsenkurse</h2>, <h2>Weltmärkte</h2>, <h2>Investigativ</h2>, <h2>Sport</h2>, <h2>Das Wetter</h2>, <h2 class="teaser-xs__headline">Regenradar</h2>, <h2 class="teaser-xs__headline">Mittlere <span class="hyphenate">Sonnenscheindauer</span></h2>, <h2 class="teaser-xs__headline"><span class="hyphenate">Wetterstationen</span></h2>, <h2>Blickpunkte</h2>, <h2>Top Ten</h2>, <h2>Podcasts</h2>]


In [97]:
for h2 in h2_tag:
    print(h2.string)
    print(100*'-')

Corona-Pandemie
----------------------------------------------------------------------------------------------------
Bundesliga
----------------------------------------------------------------------------------------------------
Sendungen
----------------------------------------------------------------------------------------------------
INLAND
----------------------------------------------------------------------------------------------------
Bundestagswahl
----------------------------------------------------------------------------------------------------
Ausland
----------------------------------------------------------------------------------------------------
Wirtschaft
----------------------------------------------------------------------------------------------------
Marktbericht
----------------------------------------------------------------------------------------------------
Börsenkurse
-----------------------------------------------------------------------------------------

Durch Listen kann man mit einer `for`-Schleife schrittweise 

In [None]:
search_string = bs.find_all(text = "Bundesliga")

In [None]:
print(search_string)

In [None]:
head_tag = bs.find("head")

In [None]:
print(head_tag.prettify)

In [109]:
links = bs.find_all('a')

In [114]:
link_dict = {}
for l in links:
    text = l.get_text().strip()
    link_dict[text] = l['href']

In [116]:
for key, value in link_dict.items():
    print('{} {}'.format(key, value))

Tagesschau Logo








































































































































Tagesschau https://www.tagesschau.de
Inland /inland/
Pfeil runter #
Startseite Inland https://www.tagesschau.de/inland/
Bundestagswahl https://www.tagesschau.de/inland/btw21/
Innenpolitik https://www.tagesschau.de/inland/innenpolitik/
Gesellschaft https://www.tagesschau.de/inland/gesellschaft/
Regional /regional/
DeutschlandTrend https://www.tagesschau.de/inland/deutschlandtrend/
Wahlen /wahlarchiv/
Mittendrin https://www.tagesschau.de/inland/mittendrin/
Ausland /ausland/
Startseite Ausland https://www.tagesschau.de/ausland/
Europa https://www.tagesschau.de/ausland/europa/
Amerika https://www.tagesschau.de/ausland/amerika/
Afrika https://www.tagesschau.de/ausland/afrika/
Asien https://www.tagesschau.de/ausland/asien/
Ozeanien https://www.tagesschau.de/ausland/ozeanien/
Wirtschaft /wirtschaft/
Startseite Wirtschaft https://www.tagesschau