# Website Scraping
Prof. Dr. Mike Espig, WHZ – University of Applied Sciences Zwickau

In this lesson we will consolidate the basic material from the lecture by practical exercises.

We'll learn about the following topics:
    
    1.) Rechtliche Grundlagen
    2.) Practicum

## Rechtliche Grundlagen

Beim Scraping von Webseiten fremder Anbieter muss auf die Einhaltung der Urheberrechte geachtet werden, vor allem wenn die Inhalte über ein eigenes Angebot eingebunden werden. Eine rechtliche Grauzone ist dagegen das Anbieten von Programmen, die ein clientseitiges Screen Scraping ermöglichen. Einige Anbieter verbieten das automatische Auslesen von Daten auch explizit in den Nutzungsbedingungen.

Ein weiteres Problem stellt unter Umständen das Ausblenden von Informationen dar, etwa von Werbung oder rechtlich relevanten Informationen wie Disclaimer, Warnungen oder gar die automatische Bestätigung der AGB durch den Screen Scraper, ohne dass der Nutzer diese zu Gesicht bekommt.


Zunächst ist festzustellen, dass das Auslesen fremder Daten und die Veröffentlichung auf einer eigenen Internetplattform nicht schon grundsätzlich unzulässig ist.

Unter Berücksichtigung früherer Entscheidungen zum Datenbankschutz ist bei der Frage nach der Zulässigkeit von Screen Scraping aber sehr genau zu differenzieren. Dabei kommt es maßgeblich auf zwei Kriterien an.

Zum einen in welchem Umfang und welche Art von Daten aus der fremden Webseite ‘herausgezogen’ und anderweitig verwendet werden. Soweit die extrahierten Daten urheberrechtlichen Schutz genießen, dürfte die anderweitige Veröffentlichung in aller Regel unzulässig sein. Soweit die Daten aber – z.B. wegen mangelnder Schöpfungshöhe – keinen Urheberrechtsschutz genießen, so ist für die Beurteilung der Rechtswidrigkeit maßgebend, ob wesentliche Teile der Datenbank extrahiert werden oder nur einzelne – nicht die Rechte des Datenbankherstellers tangierende – (Teil-)datensätze.

Weiterhin kommt es nicht nur nach dem oben dargestellten Urteils, sondern auch auf Grundlage der sogenannten Paperboy-Entscheidung des Bundesgerichtshofs (BGH) darauf an, ob der Betreiber der betroffenen Datenbank technische Maßnahmen ergriffen hat, um ein solches Auslesen der Daten durch Dritte zu verhindern. Wenn nämlich solche Mechanismen umgangen werden, kann man zumindest im Regelfall von einer Rechtsverletzung ausgehen. Andernfalls müsse – wenn kein Urheber- oder Datenbankrechte eingreife – die Datenextraktion eben geduldet werden.

Die Zulässigkeit des Screen Scrapings wird auch in anderen Rechtsordnungen in ähnlichen Kategorien diskutiert.

### Praxistipps

Aus den vorgenannten Grundsätzen ergeben sich folgende Empfehlungen für Unternehmen die eine Extraktion und Aggregation fremder Webseiten zu ihrem Geschäftsmodell haben:

- extrahierte Daten dürfen nur dann veröffentlicht werden, wenn sie nicht über das Urheberrecht geschützt sind
- Daten dürfen ausgelesen und verwendet werden, wenn es sich dabei um unwesentliche Teile der Datenbank handelt
- technische Vorkehrungen gegen Screen-Scraping dürfen nicht umgangen werden

Seitenbetreiber, die zum Schutz ihrer Daten unabhängig davon, ob diese urheberrechtlich oder im Sinne einer Datenbank gemäß § 87 b UrhG geschützt sind, einen weiteren rechtlichen Ansatzpunkt begründen wollen, um bei der Aggregation ihrer Daten Unterlassung oder auch Schadenersatz begründen zu können, ist zu raten,

- technische Vorkehrungen gegen das Auslesen zu installieren
- die Nutzung der Daten allgemein von einer Anmeldung und damit einem Nutzungsvertrag abhängig macht (natürlich nur wenn das auch ansonsten für das Geschäftsmodell passt). Einseitige Hinweise auf der Webseite, dass das Auslesen nicht erlaubt wird, dürften nach dem Urteil des OLG Frankfurt insoweit nicht weiterhelfen.

Wenn die ausgelesenen Daten urheberrechtlich oder als Datenbank geschützt sind, müssen betroffene Webseitenbetreiber die Extraktion keinesfalls dulden und haben entsprechende Unterlassungs- und Schadenersatzansprüche.

Aggregatoren stellen – unabhängig von der rechtlichen Zulässigkeit des konkreten Geschäftsmodells – eine gewisse Gefahr für die Anbieter der „originalen“ Inhalte. Diese ziehen Besucher und Page Impressions (PI) ab und versichen of selbst sich als Plattform für Werbung zu etablieren. Demgemäß geht Facebook in den USA bereits gerichtlich gegen Social Networking Aggregator Power www.power.com vor.

Aufgrund der interessanten Perspektiven, die das Internet gerade für Aggregatoren bietet, wird dies aber sicher nicht das letzte Urteil zu dieser Thematik gewesen sein. Betroffene Unternehmen sowohl der einen als auch der anderen „Seite“ sollten insofern die Rechtsprechung weiter beobachten… 

## Quellen und weitere Informationen

### Lage in Deutschland

[http://www.rechtzweinull.de/](http://www.rechtzweinull.de/archives/100-screen-scraping-wann-ist-das-auslesen-und-die-veroeffentlichung-fremder-daten-zulaessig.html)

[https://www.ra-plutte.de](https://www.ra-plutte.de/bgh-zum-automatisierten-auslesen-fremder-websites-via-screen-scraping/)

[https://de.wikipedia.org](https://de.wikipedia.org/wiki/Screen_Scraping#Rechtliche_Probleme)

[https://www.lto.de](https://www.lto.de/recht/hintergruende/h/bgh-urteil-izr22412-screen-scraping-flugdaten-automatisiert-auslesen-ryanair-reiseportal/)

### EU

[https://blog.scrapinghub.com](https://blog.scrapinghub.com/web-scraping-gdpr-compliance-guide)

### USA

[https://en.wikipedia.org](https://en.wikipedia.org/wiki/Web_scraping#Legal_issues)

<a id="install"></a>
    
## [Additional packages](#Content) 

In [None]:
!pip install requests
!pip install google
!pip install lxml
!pip install bs4

## Practicum

**Problem 1: Please write a module called WHZWebScraper and implement the functions from Problem 2, Problem 3, and Problem 4 in it. Call the functions later in your Jupyter Notebook.**

**Problem 2: Write a function to get a list of all headlines from https://www.fh-zwickau.de/hochschule/rektorat/stabsstellen/kommunikation-marketing/presse/pressemitteilungen/.**

**Output:**
List of all headlines.

**Problem 3: Write a function to get a list of all teaser from https://www.fh-zwickau.de/hochschule/rektorat/stabsstellen/kommunikation-marketing/presse/pressemitteilungen/.**

**Output:**
List of all teasers.

**Problem 4: Write a function to get the current price of the NVIDIA DGX A100 320GB server from https://www.deltacomputer.com/nvidia-dgx-a100-320gb-3ys.html.**

**Output:**
the price

**Hint:** Please use `#some_id` and have a look at `product-price-4409`. 
<table>

<thead >
<tr>
<th>
<p>Syntax to pass to the .select() method</p>
</th>
<th>
<p>Match Results</p>
</th>
</tr>
</thead>
<tbody>
<tr>
<td>
<p><code>soup.select('div')</code></p>
</td>
<td>
<p>All elements with the <code>&lt;div&gt;</code> tag</p>
</td>
</tr>
<tr>
<td>
<p><code>soup.select('#some_id')</code></p>
</td>
<td>
<p>The HTML element containing the <code>id</code> attribute of <code>some_id</code></p>
</td>
</tr>
<tr>
<td>
<p><code>soup.select('.notice')</code></p>
</td>
<td>
<p>All the HTML elements with the CSS <code>class</code> named <code>notice</code></p>
</td>
</tr>
<tr>
<td>
<p><code>soup.select('div span')</code></p>
</td>
<td>
<p>Any elements named <code>&lt;span&gt;</code> that are within an element named <code>&lt;div&gt;</code></p>
</td>
</tr>
<tr>
<td>
<p><code>soup.select('div &gt; span')</code></p>
</td>
<td>
<p>Any elements named <code class="literal2">&lt;span&gt;</code> that are <span><em >directly</em></span> within an element named <code class="literal2">&lt;div&gt;</code>, with no other element in between</p>
</td>
</tr>
<tr>

</tr>
</tbody>
</table>

In [None]:
url = 'https://www.deltacomputer.com/nvidia-dgx-a100-320gb-3ys.html'
