# Webscraping mit Scrapy


## 1. Theoretische Grundlagen

Webscraping bezeichnet verschiedene Methoden, um Informationen aus dem Internet zu sammeln. Im Allgemeinen wird dies mit einer Software durchgeführt, die menschliches Websurfen simuliert, um bestimmte Informationen von verschiedenen Webseiten zu sammeln. Diese Programme werden Webscraper genannt. Weiterhin wird Webscraping auch als Web Data Extraction, Screen Scraping oder Web Harvesting bezeichnet[1]. Ziel ist die Informationsgewinnung und das Extrahieren von Daten[12].

Webscraper laden Webseiten in den Arbeitsspeicher, suchen dort nach bestimmten Mustern und Informationen und „kratzen“ diese aus dem Quelltext heraus. Damit ähnelt die Funktionsweise der von Webcrawlern für Suchmaschinen. Im Unterschied zu diesen ist das Ziel eines Webscrapers nicht die Relevanz einer Webseite zu beurteilen, sondern nach bestimmten Informationen zu suchen und diese in ein strukturiertes Format zu übersetzen. Scraper nutzen für die Lokalisierung von Informationen die hierarchische Struktur von HTML-Dokumenten[8]. Das Grundgerüst eines HTML-Dokumente zeigt Abildung eins.

![](img/html.jpg) <center> Abbildung 1: HTML-Grundgerüst [9] </center>

Über standardisierte Abfragesprachen, wie XPath und CSS-Selektoren, kann das Skript dann auf einzelne Elemente zugreifen und diese weiterverarbeiten[8]. Den Ablauf einer Extraktion von Informationen einer Webseite zeigt Abbildung 2.

<img src="img/scraping.jpg">
<center> Abbildung 2: Funktionsweise  eines einfachen Webscrapers[8] </center>

Jetzt kennen wir also den Ablauf eines Scrapers. Doch was sind nun die bereits erwähnten CSS-Selektoren und XPaths?

### CSS-Selectoren

CSS-Selektoren sind Muster, die zum Auswählen von Elementen verwendet werden. Hier sind einige Beispiele für übliche Selektoren[2]:

- Select any tag: *
- Select by tag a: a
- Select by class of "link": .link
- Select by tag a with class "link": a.link
- Select by tag a with ID "home": a#home
- Select by child span of tag a: a > span

### XPath

Die XML Path Language (XPath) dient dem Adressieren von Knoten in XML-Dokumenten und benutzt hierzu pfadähnliche Ausdrücke[10]. Neben XML kann sie auch für HTML verwendet werden[11]. Weiterhin können mit XPath sowohl Element- als auch Attributknoten adressiert werden[10].

<img src="img/elementknoten.jpg">
<center> Abbildung 3: Adressierung des Elementknotens[10] </center>



<img src="img/attributknoten.jpg">
<center> Abbildung 4: Adressierung des Attributknotens[10] </center>

### Vorteile

Durch Scraping müssen Informationen nicht mehr umständlich von mehreren Seiten vom Nutzer selber zusammengetragen und verglichen werden. Besonders Google setzt auf Scraping, um Informationen übersichtlich für den Nutzer darzustellen. So lassen sich zum Beispiel Preise auf einen Blick bei Google Shopping vergleichen. Weiterhin ist es bei einigen Suchanfragen möglich, seine Antwort zu bekommen, ohne auf ein einziges Suchergebnis zu klicken. Sucht man beispielsweise nach “Wetter” so erscheinen alle notwendigen Informationen bei Google selber, wodurch dem User der Besuch einer Webseite erspart wird [13].

### Gefahren

Eine Gefahr im Scraping besteht im Auslesen von sensiblen Daten, wie Telefonnummern, Adressen oder E-Mail Adressen, die dann zu Spamzwecken ausgenutzt werden[13].

## Verwendung

Scraping wird für viele Einsatzwecke verwendet[14]:
- Web-Analyse-Tools rufen Platzierungen bei Google und anderen Suchmaschinen ab und bereiten diese Daten für ihre Kunden auf.
- RSS-Dienste: hierbei werden über RSS-Feeds bereitgestellte Inhalte auf anderen Websites verwendet
- Wetterdaten: viele Websites wie Reiseportale nutzen Wetterdaten von großen Meteo-Seiten, um ihre eigene Funktionalität zu erhöhen
- Fahr- und Flugpläne: so nutzt u.a. Google relevante Daten von der Bahn, um die Reiseplanfunktion in Google Maps zu ergänzen
- Vergleichsportale
- Vergleich der Preise mit denen der Konkurenz[2].

### Rechtliches

- Datenbanken sind nach den §§ 87b Abs. 1 Satz 2 UrhG gegen die öffentliche Wiedergabe eines wesentlichen Teils geschützt. Doch wann extrahiert und veröffentlicht die Vergleichsseite einen „wesentlichen Teil“?
- Hinsichtlich der Inhalte der ausgelesenen Webseite könnte darüber hinaus sogar ein Urheberrecht bestehen – so zum Beispiel bei der individuellen Bewertung von Restaurants. In dieses würde eingegriffen werden, wenn man tatsächlich urheberschutzfähige Texte extrahiert und als solche in die eigene Seite einbindet[15].

#### Urteile zu Webscraping

Fall 1: Flugtickets

Das OLG Frankfurt a.M. (Urteil vom 5.3.09 – 6 U 221/08) und das OLG Hamburg (Urteil vom 24.10.12 – 5 U 38/10) haben entschieden, dass die Vermittlung von Flugtickets durch das Screen Scraping keine unzulässige Nutzung nach § 87 b Abs. 1 Satz 2 UrhG ist, da die Nutzung von Datensätzen einzelner Flugverbindungen sich im Rahmen der normalen Auswertung der Datenbank halte und keine „wesentlichen Teile“ der Datenbank veröffentlicht werden.


Fall 2: Automobilbörsen

In diesen Fällen ging es um den Vertrieb einer Software, die es ermöglicht innerhalb von kurzen Zeitabständen Suchanfragen bei mehreren Internet-Autobörsen gleichzeitig durchzuführen um nach bestimmten Angeboten zu suchen, ohne dass die Nutzer noch auf die Seiten der Autobörsen selbst gehen müssen.

- Das OLG Hamburg hat dazu entschieden (Urteil vom 16.4.09 – 5 U 101/08), dass der Suchdienst keine unzumutbare Beeinträchtigung der berechtigten Interessen der Autobörsenbetreiber darstellt.
- Der BGH hat in dieselbe Richtung argumentiert (Urteil vom 22.6.11 – I ZR 159/10)

## 2. Webscraping mit Scrapy

Eine Möglichkeit für das webscraping bietet das Python-Framework Scrapy, welches über den folgenden Befehl installiert werden kann[2]:

Nach der Installation können wir mit dem Befehl startprojekt ein neues Projekt anlegen.
Dazu navigiert man in der Komandozeile in das Verzeichnis, in dem das Projekt angelegt werden soll[2]. 

Die wichtigsten Dateien sind:
- items.py: Diese Datei definiert ein Modell der Felder, die gescraped werden.
- settings.py: Diese Datei definiert Einstellungen wie den Benutzeragenten und die Verzögerung zwischen den Downloadanfragen.
- spiders: In diesem Ordner wird der eigentliche Scraping- und Crawling-Code gespeichert.

Die jeweiligen Klassen können aber auch manuel in einem Notebook angelegt werden.

Sehen wir uns zunächst die Datei items an. Diese sieht standartmäßig so aus[2]:

In [1]:
import scrapy

class ExampleItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
    pass

Für unser Beispiel sollen Daten der Seite [example.webscraping.com](http://example.webscraping.com) gesammelt werden.

<img src="img/website.png">
<center> Abbildung 5: Beispielseite[16] </center>

Die Klasse Items könnte daher beispielsweise so aussehen: 

In [2]:
import scrapy

class ExampleItem(scrapy.Item):
# define the fields for your item here like:
    name = scrapy.Field()
    area = scrapy.Field()
    population = scrapy.Field()
    capital = scrapy.Field()
    

Sehen wir uns als nächstes den Ordner Spiders an. Spider sind Klassen, die Scrapy verwendet, um Informationen von Webseiten zu scrappen. Sie werden von der Klasse scrapy.Spider abgeleitet und definieren die Anforderungen[2]. Für unser Beispiel wird die Klasse CountrySpider angelegt und die Tabelle mit den Ländern extrahiert. Zum Verständnis sollen die Daten nicht gespeichert sondern einfach ausgegeben werden. Dazu haben wir die in der Theorie genannten Möglichkeiten:
- CSS
- XPath

### Möglichkeit 1: CSS

In [3]:
import scrapy
from scrapy.crawler import CrawlerRunner
from twisted.internet import reactor

class CountrySpider(scrapy.Spider):
    name = 'country'
    start_urls = ['http://example.webscraping.com/']
    allowed_domains = ['example.webscraping.com']
    
    def parse(self, response):
        # Ausgabe der SelectorList
        print(response.css('div#results div a'))
        print('')
        # Ausgabe der SelectorList mit Text
        print(response.css('div#results div a::text'))
        print('')
        # Ausgabe der Tabelle als Liste
        print(response.css('div#results div a::text').extract())
        print('')
        # Ausgabe des ersten Elements
        print(response.css('div#results div a::text')[0].extract())
        print('')
        print(response.css('div#results div a::text').extract_first())
   

runner = CrawlerRunner()
d = runner.crawl(CountrySpider)
d.addBoth(lambda _: reactor.stop())
reactor.run()

[<Selector xpath="descendant-or-self::div[@id = 'results']/descendant-or-self::*/div/descendant-or-self::*/a" data='<a href="/places/default/view/Afghanista'>, <Selector xpath="descendant-or-self::div[@id = 'results']/descendant-or-self::*/div/descendant-or-self::*/a" data='<a href="/places/default/view/Aland-Isla'>, <Selector xpath="descendant-or-self::div[@id = 'results']/descendant-or-self::*/div/descendant-or-self::*/a" data='<a href="/places/default/view/Albania-3"'>, <Selector xpath="descendant-or-self::div[@id = 'results']/descendant-or-self::*/div/descendant-or-self::*/a" data='<a href="/places/default/view/Algeria-4"'>, <Selector xpath="descendant-or-self::div[@id = 'results']/descendant-or-self::*/div/descendant-or-self::*/a" data='<a href="/places/default/view/American-S'>, <Selector xpath="descendant-or-self::div[@id = 'results']/descendant-or-self::*/div/descendant-or-self::*/a" data='<a href="/places/default/view/Andorra-6"'>, <Selector xpath="descendant-or-self::div[@id 

Erläuterungen:
- name: String zur Identifizierung der Spider[2].
- start_urls: Dieses Attribut ist eine Liste von URLs zum Starten des Spiders[2].
- allowed_domains: Dieses Attribut ist eine Liste der Domänen, die gecrawlt werden können. Wenn dies nicht definiert ist, kann jede Domäne gecrawlt werden[2].
- parse: Dies ist die Standardmethode, die von Scrapy verwendet wird, um heruntergeladene Daten zu verarbeiten[4].
- CrawlerRunner:Diese Klasse ist ein dünner Wrapper, der einige einfache Helfer kapselt, um mehrere Crawler laufen zu lassen [5].
- reactor: Der Reaktor ist der Kern der Ereignisschleife. Die Ereignisschleife ist ein Programmierkonstrukt, das auf Ereignisse oder Nachrichten in einem Programm wartet und diese versendet[7]. Leider kann er nur einmal gestartet werden sonst erhält man den Fehler "ReactorNotRestartable".

Der Crawler kann aber auch über die Konsole mit fogendem Befehl gestartet werden

Möchte man die Ergebnisse in einer Datei speichern startet man den Crawler folgendermaßen[3]:

Die Ergebnisse werden also in einer json-Datei gespeichert.

Das Programm gibt jedoch nur die Länder der ersten Seite aus. Möchte man die Länder aller Seiten ausgeben. Muss das Programm folgendermaßen ergänzt werden.

In [1]:
import scrapy
from scrapy.crawler import CrawlerRunner
from twisted.internet import reactor

class CountrySpider(scrapy.Spider):
    name = 'country'
    start_urls = ['http://example.webscraping.com/']
    allowed_domains = ['example.webscraping.com']
    
    # Wartezeit zwischen den Downloadanfragen
    def __init__(self):
        self.download_delay = 5
    
    def parse(self, response):
        print(response.css('div#results div a::text').extract())
        print('')
        
        # Bei der ersten Seite ist der Link zur nächsten seite der Erste,
        # auf den weiteren Seiten das zweite Element und der erste Link führt zur vorherigen Seite
        if response.css('div#pagination a::text').extract_first() == "Next >":
            next_page = response.css('div#pagination a::attr(href)').extract_first()
        else:
            next_page = response.css('div#pagination a::attr(href)')[1].extract()
        
        # Hier wird überprüft, ob es eine nächste Seite gibt, falls ja wird sie aufgerufen um die dortigen Daten zu sammeln.
        if next_page is not None:
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, callback=self.parse)
   

runner = CrawlerRunner()
d = runner.crawl(CountrySpider)
d.addBoth(lambda _: reactor.stop())
reactor.run()

[' Afghanistan', ' Aland Islands', ' Albania', ' Algeria', ' American Samoa', ' Andorra', ' Angola', ' Anguilla', ' Antarctica', ' Antigua and Barbuda']

[' Argentina', ' Armenia', ' Aruba', ' Australia', ' Austria', ' Azerbaijan', ' Bahamas', ' Bahrain', ' Bangladesh', ' Barbados']

[' Belarus', ' Belgium', ' Belize', ' Benin', ' Bermuda', ' Bhutan', ' Bolivia', ' Bonaire, Saint Eustatius and Saba', ' Bosnia and Herzegovina', ' Botswana']

[' Bouvet Island', ' Brazil', ' British Indian Ocean Territory', ' British Virgin Islands', ' Brunei', ' Bulgaria', ' Burkina Faso', ' Burundi', ' Cambodia', ' Cameroon']

[' Canada', ' Cape Verde', ' Cayman Islands', ' Central African Republic', ' Chad', ' Chile', ' China', ' Christmas Island', ' Cocos Islands', ' Colombia']

[' Comoros', ' Cook Islands', ' Costa Rica', ' Croatia', ' Cuba', ' Curacao', ' Cyprus', ' Czech Republic', ' Democratic Republic of the Congo', ' Denmark']

[' Djibouti', ' Dominica', ' Dominican Republic', ' East Timor', ' E

Als nächstes soll neben dem Namen der Länder auch die Fläche, Einwohnerzahl und die Hauptstadt zu den Ländern der ersten Seite ausgegeben werden. Dazu muss das obere Programm folgendermaßen abgeändert werden. Natürlich könnten wir auch die Informationen der Länder aller Seiten ausgeben, indem wir dem "next >"-Link folgen. Wegen der Übersicht lassen wir dies.

In [1]:
import scrapy
from scrapy.crawler import CrawlerRunner
from twisted.internet import reactor

class CountrySpider(scrapy.Spider):
    name = 'country'
    start_urls = ['http://example.webscraping.com/']
    allowed_domains = ['example.webscraping.com']
    
    def __init__(self):
        self.download_delay = 5
    
    def parse(self, response):
        # Links zu den Seiten der jeweiligen Länder
        urls = response.css('div#results div a::attr(href)').extract()
        for url in urls:
            url = response.urljoin(url)
            # Aufruf der Methode zur Extraktion der Details
            yield scrapy.Request(url=url, callback=self.parse_details)
    
    # Methode zum Extrahieren der aufgerufenen Seiten mit den Informationen der Länder
    def parse_details(self, response):
        
        print("Land:", response.css('td.w2p_fw::text')[3].extract())
        print("Fläche:", response.css('td.w2p_fw::text')[0].extract())
        print("Einwohner:", response.css('td.w2p_fw::text')[1].extract())
        print("Hauptstadt:", response.css('td.w2p_fw::text')[4].extract())
        print('')
        
runner = CrawlerRunner()
d = runner.crawl(CountrySpider)
d.addBoth(lambda _: reactor.stop())
reactor.run()

Land: Antigua and Barbuda
Fläche: 443 square kilometres
Einwohner: 86,754
Hauptstadt: St. John's

Land: Antarctica
Fläche: 14,000,000 square kilometres
Einwohner: 0
Hauptstadt: .aq

Land: Anguilla
Fläche: 102 square kilometres
Einwohner: 13,254
Hauptstadt: The Valley

Land: Angola
Fläche: 1,246,700 square kilometres
Einwohner: 13,068,161
Hauptstadt: Luanda

Land: Andorra
Fläche: 468 square kilometres
Einwohner: 84,000
Hauptstadt: Andorra la Vella

Land: American Samoa
Fläche: 199 square kilometres
Einwohner: 57,881
Hauptstadt: Pago Pago

Land: Algeria
Fläche: 2,381,740 square kilometres
Einwohner: 34,586,184
Hauptstadt: Algiers

Land: Albania
Fläche: 28,748 square kilometres
Einwohner: 2,986,952
Hauptstadt: Tirana

Land: Aland Islands
Fläche: 1,580 square kilometres
Einwohner: 26,711
Hauptstadt: Mariehamn

Land: Afghanistan
Fläche: 647,500 square kilometres
Einwohner: 29,121,286
Hauptstadt: Kabul



### Möglichkeit 2: XPath

XPaths bieten mehr Leistungen als CSS-Selektoren, da sie neben dem Navigieren der Struktur auch den Inhalt betrachten können. Mit XPath kann zum Beispiel der Link ausgewählt werden, der den Text "Nächste Seite" enthält. Dadurch wird das Scraping viel einfacher[3]. Sehen wir uns unser Beispiel noch einmal an. Diesmal soll aber XPath statt CSS genutzt werden.

In [1]:
import scrapy
from scrapy.crawler import CrawlerRunner
from twisted.internet import reactor

class CountrySpider(scrapy.Spider):
    name = 'country'
    start_urls = ['http://example.webscraping.com/']
    allowed_domains = ['example.webscraping.com']
    
    def __init__(self):
        self.download_delay = 5
    
    def parse(self, response):
        urls = response.xpath('//div[@id="results"]//a/@href').extract()
        for url in urls:
            url = response.urljoin(url)
            yield scrapy.Request(url=url, callback=self.parse_details)
            
    def parse_details(self, response):
        
        print("Land:", response.xpath('//td[@class="w2p_fw"]/text()')[3].extract())
        print("Fläche:", response.xpath('//*[@class="w2p_fw"]/text()')[0].extract())
        print("Einwohner:", response.xpath('//td[contains(@class, "w2p_fw")]/text()')[1].extract())
        print("Hauptstadt:", response.xpath('//td[contains(@class, "fw")]/text()')[4].extract())
        print('')
        
runner = CrawlerRunner()
d = runner.crawl(CountrySpider)
d.addBoth(lambda _: reactor.stop())
reactor.run()

Land: Antigua and Barbuda
Fläche: 443 square kilometres
Einwohner: 86,754
Hauptstadt: St. John's

Land: Antarctica
Fläche: 14,000,000 square kilometres
Einwohner: 0
Hauptstadt: .aq

Land: Anguilla
Fläche: 102 square kilometres
Einwohner: 13,254
Hauptstadt: The Valley

Land: Angola
Fläche: 1,246,700 square kilometres
Einwohner: 13,068,161
Hauptstadt: Luanda

Land: Andorra
Fläche: 468 square kilometres
Einwohner: 84,000
Hauptstadt: Andorra la Vella

Land: American Samoa
Fläche: 199 square kilometres
Einwohner: 57,881
Hauptstadt: Pago Pago

Land: Algeria
Fläche: 2,381,740 square kilometres
Einwohner: 34,586,184
Hauptstadt: Algiers

Land: Albania
Fläche: 28,748 square kilometres
Einwohner: 2,986,952
Hauptstadt: Tirana

Land: Aland Islands
Fläche: 1,580 square kilometres
Einwohner: 26,711
Hauptstadt: Mariehamn

Land: Afghanistan
Fläche: 647,500 square kilometres
Einwohner: 29,121,286
Hauptstadt: Kabul



Zu Sehen ist, dass man Tags bestimmter Klassen und ids suchen kann. Mit `text()` wird der Text zwischen den Tags extrahiert.

Eine weitere Fähigkeit von Scrapy ist die Interaktion mit Suchfunktionen und Extrahieren von Daten aus Dateien im json-Format[2]. Das folgende Beispiel sucht die ersten zehn Länder mit einem G im Namen und gibt die Ergebnisse im json-Format aus. Dazu nutzt es die Suchfunktion der Seite [example.webscraping.com](http://example.webscraping.com/places/default/search)

In [1]:
import scrapy
from scrapy.crawler import CrawlerRunner
from twisted.internet import reactor

class CountrySpider(scrapy.Spider):
    name = 'country'
    api_url = 'http://example.webscraping.com/places/ajax/search.json?page={}&page_size=10&search_term={}'
    start_urls = [api_url.format(1, 'G')]
    allowed_domains = ['example.webscraping.com']
    
    def __init__(self):
        self.download_delay = 5
    
    def parse(self, response):
        print(response.text)
        
        
        
runner = CrawlerRunner()
d = runner.crawl(CountrySpider)
d.addBoth(lambda _: reactor.stop())
reactor.run()

{"records": [{"pretty_link": "<div><a href=\"/places/default/view/Bulgaria-36\"><img src=\"/places/static/images/flags/bg.png\" /> Bulgaria</a></div>", "country": "Bulgaria", "id": 2185884}, {"pretty_link": "<div><a href=\"/places/default/view/Democratic-Republic-of-the-Congo-59\"><img src=\"/places/static/images/flags/cd.png\" /> Democratic Republic of the Congo</a></div>", "country": "Democratic Republic of the Congo", "id": 2185907}, {"pretty_link": "<div><a href=\"/places/default/view/Egypt-66\"><img src=\"/places/static/images/flags/eg.png\" /> Egypt</a></div>", "country": "Egypt", "id": 2185914}, {"pretty_link": "<div><a href=\"/places/default/view/Equatorial-Guinea-68\"><img src=\"/places/static/images/flags/gq.png\" /> Equatorial Guinea</a></div>", "country": "Equatorial Guinea", "id": 2185916}, {"pretty_link": "<div><a href=\"/places/default/view/French-Guiana-77\"><img src=\"/places/static/images/flags/gf.png\" /> French Guiana</a></div>", "country": "French Guiana", "id": 21

Um die gewünschten Daten daraus zu extrahieren muss json importiert werden und in der parse-Methode extrahiert werden.

In [1]:
import scrapy
from scrapy.crawler import CrawlerRunner
from twisted.internet import reactor
import json

class CountrySpider(scrapy.Spider):
    name = 'country'
    api_url = 'http://example.webscraping.com/places/ajax/search.json?page={}&page_size=10&search_term={}'
    start_urls = [api_url.format(1, 'G')]
    allowed_domains = ['example.webscraping.com']
    
    def __init__(self):
        self.download_delay = 5
    
    def parse(self, response):
        data = json.loads(response.text)
        
        for country in data['records']:
            print(country['country'])
        
        
runner = CrawlerRunner()
d = runner.crawl(CountrySpider)
d.addBoth(lambda _: reactor.stop())
reactor.run()

Bulgaria
Democratic Republic of the Congo
Egypt
Equatorial Guinea
French Guiana
Gabon
Gambia
Georgia
Germany
Ghana


## Quellen:
- [1] https://www.techopedia.com/definition/5212/web-scraping Letzter Aufruf am 04.06.2018
- [2] Richard Lawson. Web Scraping with Python. 2015.
- [3] https://doc.scrapy.org/en/latest/intro/tutorial.html letzter Aufruf am 04.06.2018
- [4] https://doc.scrapy.org/en/latest/topics/spiders.html#topics-spiders letzter Aufruf 05.06.2018
- [5] https://doc.scrapy.org/en/latest/topics/practices.html?highlight=crawlerRunner letzter Aufruf 05.06.2018
- [6] https://doc.scrapy.org/en/latest/topics/selectors.html#topics-selectors letzter Aufruf 05.06.2018
- [7] https://twistedmatrix.com/documents/current/core/howto/reactor-basics.html letzter Aufruf 05.06.2018
- [8] http://www.vfm-online.de/weblog/wp-content/uploads/2014/01/info7-2016-2_S15-17.pdf
- [9] https://wiki.selfhtml.org/wiki/HTML/Tutorials/HTML5-Grundgerüst
- [10] https://wiki.selfhtml.org/wiki/XML/XSL/XPath
- [11] https://doc.scrapy.org/en/latest/topics/selectors.html?highlight=XPath
- [12] https://www.seo-analyse.com/seo-lexikon/s/scraping/
- [13] https://www.advidera.com/glossar/web-scraping/#Verwendung
- [14] https://de.ryte.com/wiki/Scraping
- [15] https://www.wbs-law.de/urheberrecht/ist-screen-scraping-legal-39848/
- [16] http://example.webscraping.com/