# Webscraping

**Web Scraping** (von *to scrape* = *schürfen*) bezeichnet die Extraktion von Daten aus Websites.

Websites werden in der **Hypertext Markup Language** (kurz: **HTML**) beschrieben und vom **Client** über das **Hypertext Transfer Protocol** (kurz: **HTTP**) angefragt. 
Der Client erhält von einem **Server** (von *to serve* = *servieren, bedienen*) via HTTP ein HTML-Dokument als Antwort. 
Jede Antwort beinhaltet auch einige Meta-Informationen, u.a. einen **HTTP Status Code**. 
Wenn der Server die angefragte Website liefern kann, lautet der HTTP Status Code **200 OK**; 
kann die Website nicht gefunden werden, lautet der Code **404 Not Found** (es gibt noch viele [weitere HTTP Status Codes](https://www.iana.org/assignments/http-status-codes/http-status-codes.xhtml)).
Wenn wir im Web surfen, kümmert sich unser **Webbrowser** als Client im Hintergrund um den Datenaustausch mit den einzelnen Servern und führt dabei das HTTP aus.

Die Sprache HTML basiert auf der **Standard Generalized Markup Language** (**SGML**), auf der auch die **Extensible Markup Language** (**XML**) aufbaut. 
Beide Sprachen bestehen aus **Elementen** (auch: **Tags**), die wieder andere Elemente enthalten können. 
Es gibt in der Regel ein **Wurzelelement** (*root*), sodass ein **Baum** (*tree*) aus Elementen entsteht.
Dokumente, welche die allgemeinen Strukturvorgaben einhalten, heißen **wohlgeformt** (**well-formed**).

### Beispiel für HTML
Eine Einführung in die Sprache findet sich [hier](https://www.w3schools.com/html/default.asp). 
Die verfügbaren Elemente sind fest vorgegeben:

In [None]:
<html>
<body>
    <h1>I am displayed as a Heading</h1>
    <p>I am a paragraph.</p>
</body>
</html>

In Jupyter können wir uns den zu erwarteten Output von HTML-Code über ein Cell Magic anzeigen lassen:

In [None]:
%%html
<html>
<body>
    <h1>I am displayed as a Heading</h1>
    <p>I am a paragraph.</p>
</body>
</html>

### Beispiel für XML
Eine Einführung in die Sprache findet sich [hier](https://www.w3schools.com/xml/default.asp).
Es können beliebige Elemente verwendet werden. 
Die Struktur wird in einer **Document Type Definition** (kurz: **DTD**, Einführung [hier](https://www.w3schools.com/xml/xml_dtd_intro.asp)) oder mittels **XML-Schema** (Einführung [hier](https://www.w3schools.com/xml/schema_intro.asp)) festgelegt.
Auf diese Weise lassen sich eigene Sprachen für die Struktur von Daten erzeugen.
Dokumente, die diese festgelegte Struktur verletzen, heißen **nicht valide** (**not valid**).

In [None]:
<email>
    <to>A nice person</to>
    <from>Anonymous</from>
    <subject>Foo</heading>
    <content>Bar</body>
</email>

## Beautiful Soup

Eine bekannte Python-Bibliothek für Scraping ist **Beautiful Soup**.
Sie enthält u.a. **Parser** für XML- und HTML-Dokumente.
Parser sind Programmteile, die aus einem einfachen Text eine bestimmte *Struktur* ermitteln.
Bei der Einarbeitung hilft die umfangreiche [Dokumentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) mit vielen Beispielen.

> **Technischer Hinweis:** 
>
> Falls du das Untenstehende in einer virtuellen Umgebung ausführst und dabei eine Fehlermeldung bekommst, die darauf hindeutet, dass der XML-Parser nicht gefunden werden kann, versuche es mit der Ausführung im *Root Environment*.

In [None]:
from bs4 import BeautifulSoup

dokument = """
<buecher>
    <buch>
        <autor>Georg Jellinek</autor>
        <titel>System der subjektiven öffentlichen Rechte</titel>
    </buch>
    <buch>
        <autor>Karl Larenz</autor>
        <titel>Methodenlehre der Rechtswissenschaft</titel>
    </buch>
</buecher>
"""

soup = BeautifulSoup(dokument, 'xml') 
# dokument kann ein string oder ein filehandle sein
# der zweite Parameter gibt den Parser an: Gängig sind 'xml' und 'html'

books = soup.find_all('buch')
# gibt eine Liste mit allen 'buch'-Elementen zurück

print(books[0].titel)
print(books[0].find('titel'))
# mehrere Möglichkeiten, auf die Kindelemente zuzugreifen
# es wird dabei das vollständige Element ausgegeben

print(books[0].titel.get_text())
# Methode .get_text() liefert nur den Text des Elements