# HTML Parser
Gelegentlich kommt es vor, dass eine Datenquelle weder herunterladbare Datensätze noch eine (geeignete) API bereitstellt, jedoch über einen Webbrowser erreichbar ist. In diesem Fall ist es manchmal der Weg des geringsten Widerstands, eine Website herunterzuladen und zu verarbeiten. Dabei benötigen Sie einige Vorkenntnisse im Umgang mit HTML-Dokumenten.

**Achtung:** Einige Anbieter bieten keine *öffentliche* API an, da sie explizit nicht wollen, dass ihre Daten heruntergeladen und gespeichert werden. Sie sollten im Allgemeinen den Wunsch des Anbieters respektieren oder zumindest Rücksprache halten.

## Inhaltsverzeichnis
- [Abrufen](#Abrufen)
- [Suchen von Elementen](#Suchen-von-Elementen)
- [Komplexe Selektoren](#Komplexe-Selektoren)

## Abrufen
Eine der einfachsten Bibliotheken zum Verarbeiten von HTML-Dokumenten nennt sich `beautifulsoup4`. Außerdem wird erneut `requests` zur Kommunikation mit dem Server benötigt.

In [None]:
import requests
from bs4 import BeautifulSoup

Wie zuvor wird die Website mit einer GET-Anfrage abgerufen. Der zurückgegebene Text dient BeautifulSoup als Ausgangspunkt zum Erstellen einer Baumstruktur. Im nachfolgenden Beispiel wird die [Wikipedia Seite zum Thema Kino](https://de.wikipedia.org/wiki/Kino) abgerufen.

In [None]:
text = requests.get('https://de.wikipedia.org/wiki/Kino').text
page = BeautifulSoup(text)

## Suchen von Elementen
Innerhalb der Website kann nach Elementen mit bestimmten Eigenschaften gesucht werden. Das Inhaltsverzeichnis eines Artikels beispielsweise ist immer ein Container (`div`) und besitzt als `id` immer `toc`.

```html
<div id="toc" class="toc" role="navigation" aria-labelledby="mw-toc-heading">
    ...
</div>
```

BeautifulSoup erlaubt es, nach spezifischen Elementen zu suchen und diese anhand von Attributen zu filtern.

In [None]:
table_of_contents = page.find('div', id='toc')

Anschließend können weitere Eigenschaften und Kind-Knoten verarbeitet werden. Alle Einträge des Inhaltsverzeichnis sind Links (`a`). Der Zugriff auf Attribute der HTML Elemente erfolgt wie bei einem Dictionary, während für den enthaltenen Text das Attribut `text` vorhanden ist.

In [None]:
toc_entries = table_of_contents.find_all('a')
[(entry['href'], entry.text) for entry in toc_entries]

## Komplexe Selektoren
BeautifulSoup unterstützt auch komplexe Selektoren.

In [None]:
toc_entries = page.select('#toc a')
[(entry['href'], entry.text) for entry in toc_entries]