**Web Scraping und Data Mining in Python**

# Webscraping and Webcrawling


Jan Riebling, *Universität Wuppertal*

# Einführung ins web scraping

## Screen scraping

Daten vom Bildschirm „abkratzen“, d.h. Daten die dem Nutzer angezeigt werden. Da von Browsern dargestellte HTML-Dokumente eine der meistgenutzten Datenquellen sind, spricht man auch vom „web scraping“.

## Downloading

Python 3's `urllib` Modul stellt Funktionen und Klassen für das Öffnen und Herunterladen von Online-Ressourcen bereit. Ein tieferer Einblick findet sich in der Python Dokumentation und dem darin enthaltenen [How To](https://docs.python.org/3/howto/urllib2.html). 

In [3]:
import urllib

url = 'https://www.uni-mainz.de/'

# To be on the safe side:
with urllib.request.urlopen(url) as response:
    html = response.read()

In [9]:
print(html[:1500])

b'<!DOCTYPE html>\r\n<html dir="ltr" lang="de">\r\n   <head>\r\n      <meta charset="utf-8">\r\n      <meta http-equiv="X-UA-Compatible" content="IE=edge">\r\n      <meta name="viewport" content="width=device-width, initial-scale=1.0">      <meta name="author" content="Johannes Gutenberg-Universit\xc3\xa4t Mainz">\r\n      <meta name="description" content="Die Johannes Gutenberg-Universit\xc3\xa4t Mainz z\xc3\xa4hlt mit rund 33.000 Studierenden aus \xc3\xbcber 130 Nationen zu den zehn gr\xc3\xb6\xc3\x9ften Universit\xc3\xa4ten Deutschlands. Als einzige Volluniversit\xc3\xa4t in Rheinland-Pfalz vereint sie nahezu alle akademischen Disziplinen.">\r\n      <meta name="page_id" content="2">\r\n      <meta name="copyright" content="Johannes Gutenberg-Universit\xc3\xa4t Mainz">\r\n      <meta name="Linktitle" content="">\r\n      <meta name="keywords" content="">\r\n      <meta name="robots" content="index, follow, noarchive">\r\n      <meta name="generator" content="">\r\n      <title>\r\n 

## Hypertext Markup Language

Beschreibt die Semantik eines HTML-Dokuments. Besteht aus einem *Baum* einzelner HTML-Elemente. Jedes Element besteht aus drei Teilen:

```html
<a href="https://www.wikipedia.org/">A link to Wikipedia!</a>
```

1. Die *Tags*, die das Element eröffnen und schließen.
2. Die *Attribute* des Elements, die sich innerhalb des eröffnenden Tags finden.
3. Der *Text* der „marked up“ werden soll. 

<a href="https://www.wikipedia.org/">A link to Wikipedia!</a>

# BeautifulSoup

## Parsing HTML

Der Vorgang des Analysierens und Prozessierens einer Zeichenkette nach den Regeln einer formalen Grammatik. Das resultierende Objekt ist meistens eine hierarchische Repräsentation des Strings in Form eines Baumgraphens.

## Wie?

BeautifulSoup ist ein Python Paket, welches es erlaubt HTML und XML-Strings zu parsen und auf diese als native Python-Typen zuzugreifen. Die Dokumentation fimndet sich [hier](http://www.crummy.com/software/BeautifulSoup/bs4/doc/#).

In [10]:
from bs4 import BeautifulSoup

# Parsen des HTMLs der Universitäts-Webseite
soup = BeautifulSoup(html, 'html5lib')

## Den Wald vor lauter Bäumen...

Bei Baum-Graphen handelt es sich um gerichtete Graphen, d.h. Knoten die mit Kantenzügen verbunden sind die eine Richtung aufweisen. Sie gehen von einem Ursprung aus (Root) und dürfen keine Kreise, im graphtheoretischen Sinne des Wortes enthalten. Ausführlichere Informationen finden sich [hier](https://en.wikipedia.org/wiki/Tree_%28data_structure%29).

## Ein Baum:

![A tree](https://upload.wikimedia.org/wikipedia/commons/thumb/f/f7/Binary_tree.svg/300px-Binary_tree.svg.png)

## Kein Baum:

![Not a tree](https://upload.wikimedia.org/wikipedia/commons/thumb/1/1c/Directed_graph%2C_cyclic.svg/320px-Directed_graph%2C_cyclic.svg.png)

## Terminologie

* **Root**: the top parent node.
* **Parent**: node with outgoing edge relative to the child.
* **Child**: node with incoming edge relative to the parent.
* **Siblings**: nodes with the same parent.
* **Descendants**: all nodes reachable from a parent node.
* **Ancestors**: all parents of a specific child node.

![A tree](https://upload.wikimedia.org/wikipedia/commons/thumb/f/f7/Binary_tree.svg/300px-Binary_tree.svg.png)

## Bäume navigieren

In [17]:
soup

<!DOCTYPE html>
<html dir="ltr" lang="de"><head>
      <meta charset="utf-8"/>
      <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
      <meta content="width=device-width, initial-scale=1.0" name="viewport"/>      <meta content="Johannes Gutenberg-Universität Mainz" name="author"/>
      <meta content="Die Johannes Gutenberg-Universität Mainz zählt mit rund 33.000 Studierenden aus über 130 Nationen zu den zehn größten Universitäten Deutschlands. Als einzige Volluniversität in Rheinland-Pfalz vereint sie nahezu alle akademischen Disziplinen." name="description"/>
      <meta content="2" name="page_id"/>
      <meta content="Johannes Gutenberg-Universität Mainz" name="copyright"/>
      <meta content="" name="Linktitle"/>
      <meta content="" name="keywords"/>
      <meta content="index, follow, noarchive" name="robots"/>
      <meta content="" name="generator"/>
      <title>
         Willkommen an der JGU!
      </title>
      <link href="/Illustrationen/favicon.ico" rel="sh

In [18]:
soup('meta')

[<meta charset="utf-8"/>,
 <meta content="IE=edge" http-equiv="X-UA-Compatible"/>,
 <meta content="width=device-width, initial-scale=1.0" name="viewport"/>,
 <meta content="Johannes Gutenberg-Universität Mainz" name="author"/>,
 <meta content="Die Johannes Gutenberg-Universität Mainz zählt mit rund 33.000 Studierenden aus über 130 Nationen zu den zehn größten Universitäten Deutschlands. Als einzige Volluniversität in Rheinland-Pfalz vereint sie nahezu alle akademischen Disziplinen." name="description"/>,
 <meta content="2" name="page_id"/>,
 <meta content="Johannes Gutenberg-Universität Mainz" name="copyright"/>,
 <meta content="" name="Linktitle"/>,
 <meta content="" name="keywords"/>,
 <meta content="index, follow, noarchive" name="robots"/>,
 <meta content="" name="generator"/>]

In [19]:
for element in soup('meta'):
    if 'content' in element.attrs:
        print(element['content'])

IE=edge
width=device-width, initial-scale=1.0
Johannes Gutenberg-Universität Mainz
Die Johannes Gutenberg-Universität Mainz zählt mit rund 33.000 Studierenden aus über 130 Nationen zu den zehn größten Universitäten Deutschlands. Als einzige Volluniversität in Rheinland-Pfalz vereint sie nahezu alle akademischen Disziplinen.
2
Johannes Gutenberg-Universität Mainz


index, follow, noarchive



## Repräsentation von HTML durch BS4

* *Tag* $\rightarrow$ Attribute eines Python-Objekts.
* *Attribute* $\rightarrow$ Python `dict` mit dem Namen des Attributs als Schlüssel.
* *Text* $\rightarrow$ als Attribut `.text`.

In [32]:
soup.ul.a

<a accesskey="1" href="/index.php" target="_top" title="Startseite dieser Website">Home</a>

# Den Baum durchsuchen

## `.find()` und`.find_all()`

Diese Methoden wenden [Filter](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#kinds-of-filters) auf den Baum-Graphen oder Teile davon an um bestimmte Teile des Baums als Ausgabe zu erhalten. Folgende Objekte können als Filter verwendet werden:

* Strings
* Reguläre Ausdrücke
* Listen (Elemente mit logischem ODER verknüpft)
* `True`
* Funktionen

## Keyword Arguments

Per Standard werden Keyword (benannte Argumente) als Filter für entsprechende bennante HTML-Attribute verwendet. Der Filter gibt dann Elemente zurück bei denen das entsprechende Attribut den spezifizierten Wert aufweist. 

Hinweis: Das HTML-Attribut `class` kann nur über das keyword `class_` angesprochen werden!

In [33]:
## Beispiel alle Tags finden

set([tag.name for tag in soup.find_all(True)])

{'a',
 'article',
 'body',
 'br',
 'button',
 'dfn',
 'div',
 'fieldset',
 'footer',
 'form',
 'h2',
 'h3',
 'h4',
 'h5',
 'head',
 'header',
 'html',
 'img',
 'input',
 'label',
 'legend',
 'li',
 'link',
 'main',
 'meta',
 'nav',
 'nobr',
 'noscript',
 'ol',
 'p',
 'script',
 'span',
 'strong',
 'title',
 'ul'}

In [34]:
## Übung: Alle Hyperlinks finden

[element['href'] for element in soup.find_all(href=True)]

['/Illustrationen/favicon.ico',
 '/Illustrationen/favicon.ico',
 'http://www.uni-mainz.de/index.php',
 '//css.uni-mainz.de/css/jgu_style.min.css?v=1571842591',
 '/32.php',
 '//www.uni-mainz.de',
 '//www.uni-mainz.de',
 '//www.uni-mainz.de',
 '/index.php',
 '//www.uni-mainz.de',
 '//www.uni-mainz.de',
 '//www.uni-mainz.de',
 '#',
 '/index.php',
 'http://www.uni-mainz.de/suche',
 'http://www.uni-mainz.de/kontakt',
 '/eng/index.php',
 'https://universitaet.uni-mainz.de',
 'https://organisation.uni-mainz.de',
 'https://fachbereiche.uni-mainz.de/',
 'https://www.studium.uni-mainz.de/',
 'https://lehre.uni-mainz.de',
 'https://forschungsprofil.uni-mainz.de',
 'https://wissenschaftliche-weiterbildung.uni-mainz.de',
 '/index.php',
 'http://www.uni-mainz.de/suche',
 'http://www.uni-mainz.de/kontakt',
 '/eng/index.php',
 '#menu2',
 'https://universitaet.uni-mainz.de',
 'https://organisation.uni-mainz.de',
 'https://fachbereiche.uni-mainz.de/',
 'https://www.studium.uni-mainz.de/',
 'https://lehr

# Markup Probleme

![Tags](http://imgs.xkcd.com/comics/tags.png )

## Unterschiedliche Parsing Bibliotheken

BeautifulSoup unterstützt verschiedene parsing libraries, diese unterscheiden sich sowohl in der Geschwindigkeit als auch in der Art und Weise in der sie Fehler behandeln. Ein Vergleich verschiedener Parser findet sich [hier](http://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser). 

In [33]:
# Default html.parser
# (On my machine lxml is the default setting)

BeautifulSoup('<a></p>', 'html.parser')

<a></a>

In [34]:
# lxml
BeautifulSoup('<a></p>', 'lxml')

<html><body><a></a></body></html>

In [35]:
# lxml xml
BeautifulSoup('<a></p>', 'xml')

<?xml version="1.0" encoding="utf-8"?>
<a/>

In [36]:
# html5lib (parses like a webbrowser)
BeautifulSoup('<a></p>', 'html5lib')

<html><head></head><body><a><p></p></a></body></html>

## Beispiel

Liste der Mitglieder im Verein der Bayrischen Landtagspresse: [https://landtagspresse.de/mitglieder/](https://landtagspresse.de/mitglieder/)

In [39]:
from urllib.request import urlopen

def soupify(url, features='html5lib'):
    """Takes a URL, requests it and parses it through BeautifulSoup."""
    with urlopen('https://blog.soziologie.de/') as response:
        html = response.read()
    soup = BeautifulSoup(html, features=features)
    return soup

# Webcrawling

## Kriechen, aber richtig

1. Basis-URL festlegen (*seed*).
2. Weiterführende Links identifizieren (*crawl frontier*).
3. Regeln zur Auswahl spezifischer Hyperlinks (*policies*).

Dieser Vorgang wird rekursiv gemacht indem die ausgewählten Links als Ausgangslage für den nächsten Crawlvorgang herangezogen werden.

## Benimmregeln

Immer mit der Rechtslage des jeweiligen Landes (eigener Standort und Server) vertraut sein! Unbedingt die Terms of Service beachten!

Zusätzlich:

* Nur so viel, wie man braucht!
* Crawlzeiten sollten möglichst an die Bedürfnisse des Servers und der jeweiligen Community angepasst sein. Ruhezeiten sollten eingeplant werden.
* Reduktion der Serverlast soweit wie möglich!
* Anständig bleiben! Belästigung oder Schaden für die Nutzer des Webdienstes sollten unbedingt vermieden werden.
* Privatsphäre achten!

## Beispiel

[SozBlog Archiv](https://blog.soziologie.de/archiv/) crawlen oder ...?