<a href="https://colab.research.google.com/github/xvariable/rvest_tutorial/blob/master/scraping_demo_seminar_odaia_ss2020.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Web Scraping in R

Dr. Julia Niemann-Lenz

Hochschule für Musik, Theater & Medien Hannover, Institut für Journalistik & Kommunikationswissenschaft


# Worum geht es beim Web Scraping?
Nicht alle Webseiten haben eine API, im Prinzip ist dennoch jeder Inhalt, den man im Internet ansehen kann, auch downloadbar. Das systematische und maschinelle Herunterladen wird als Web Scraping (engl. „schlürfen“) bezeichnet.

WWW-Content ist in erster Linie Text: Die Textstruktur wird in HTML (= Hypertext Markup Language) geschrieben und mittels CCS (= Cascading Style Sheets) formatiert.

# Woraus Webseiten gemacht sind: HTML


<b>HTML (Hypertext Markup Language)</b> <br /> 
<li>Textbasierte Auszeichnungssprache zur Strukturierung elektronischer Dokumente wie Texte mit Hyperlinks oder Bildern</li> 
<li>Basiert auf XML</li> 
<li>Nutzt < tags > für die Strukturierung</li>
<li>Zur besseren Übersichtlichkeit werden HTML-Tags eingerückt</li><br /> 

Beispiel HTML:
```
<html>
    <body>
        <h1>Star Wars Intro</h1>
        <p>A long time ago in a galaxy far, far away....</p>
...
```

Beachten Sie bitte, dass HTML-Tags in der Regel erst mit einem öffnenden < tag > und einen schließenden < /tag > komplett sind. Davon gibt es nur wenige Ausnahmen, wie bspw. den Tag < br >, der einen Zeilenumbruch beschreibt.

Manche Tags haben auch noch zusätzliche Attribute, die dem Tag übergeben werden müssen. So braucht bspw. der Img-Tag (Tag zum einfügen eines Bildes) den Pfad zur Bilddatei (src = source), die aufgerufen werden soll.

Beispiel:
```
<img src="files/picture.png">
```


# Zeit für eine Übung!

Probieren Sie es aus! Kopieren Sie sich den folgenden Code in einen Editor auf Ihrem Rechner. Als Windows-Nuter können Sie z.B. den ganz schlichten "Editor" von Windows benutzen. Auf dem Mac müssen Sie zunächst einen Editor installieren (Für diese Demo habe ich die Open Source-Software Brackets benutzt).

```
<table>
    <tr>
        <td>
            <img src="yoda.png">
        </td>
	      <td>
            <h1>Yoda</h1>
            <p><b>Yoda</b> (* 896 VSY; † 4 NSY auf Dagobah) gehörte einer unbekannten Spezies an, war 66 cm groß und war am Ende seines Lebens 900 Jahre alt. Er hatte in über 800 Jahren als <b>Jedi-(Groß-)Meister</b> zahlreiche Schüler in der Macht ausgebildet, darunter u. a. Luke Skywalker und Count Dooku, und war ein Meister im Umgang mit dem Lichtschwert. 
            </p>
            <a href="https://de.wikipedia.org/wiki/Figuren_aus_Star_Wars#Yoda">Link zur Wikipedia-Seite</a>
	      </td>
     </tr>
</table>
```

Bearbeiten Sie bitte die folgenden Aufgaben:
*   Speichern Sie den Code ab und zwar mit der Dateiendung ".html" (Achtung, vergewissern Sie sich, dass Sie nicht aus Versehen eine doppelte Dateiendung ".html.txt" vergeben wen Sie mit dem Windows-Editor arbeiten). Doppelklicken Sie auf die Datei, um Sie sich im Browser anzusehen.
*   Googeln Sie die Tags, die Sie noch nicht kennen. Was bedeuten sie?
*   Versuchen Sie die Textstellen, die in "fett" formatiert sind, zusätzlich auch kursiv zu formatieren (ggf. googeln).  
*   Passen Sie den Text so an, dass er eine Selbstbeschreibung Ihrer Person enthält. 
*   Warum lädt das Bild nicht? Können Sie das ändern?

Wenn Sie die Datei mit einem Doppelklick öffnen, wird sie im Browser angezeigt. Dort können Sie sie nicht mehr editieren. Zum Editieren müssen Sie es wieder im Editor öffnen (Rechtsklick und "Öffnen mit...").



# Cascading Style Sheets

Die Website, die Sie in der vorigen Übung angelegt haben, funktioniert. Aber sie sieht wahrscheinlich nicht besonders schön aus.

HTML beschreibt vorrangig die Struktur eines Textes. Standardmäßig sind auch Layouts für die unterschiedlichen Elemente festgelegt, so dass alle Browser ein reines HTML-Dokument in etwa gleich darstellen. Die Schrift ist z.B. Times oder eine andere Serifenschrift und eine Überschrift (H1) wird größer dargestellt als der Text (p). 

Um eine HTML-Datei jedoch zu layouten wird auf CSS (= Cascading Style Sheets) zurückgegriffen. CSS ist eine zusätzliche Sprache, die sich nur damit beschäftigt, wie Text oder andere Inhalte formatiert werden sollen. 

Man kann in CSS auch Klassen festlegen. Der Vorteil ist: Wenn etwas am Layout geändert werden soll, muss dies nur an einer Stelle in der .css-Datei geändert werden. - So ähnlich wie bei einer Formatvorlage in MS-Word.

Beispiel CSS-Klasse "error" innerhalb des HTML-p-Tags:
```
p.error {
  font-family: courier;
  color: red;
  font-size: 160%;
}
```

# Komplexere HTML-Seiten
Das obrige Beispiel einer Website ist zum Einstieg bewusst einfach gehalten. Es ist auch gar nicht das Ziel dieses Kurses, dass Sie HTML und CCS lernen und hinterher fließend coden können. Sie sollen lediglich grob verstehen, wie HTML und CCS aufgebaut sind. Denn das kann man nutzen, wenn man eine Webseite scrapen will.

Schauen wir uns zunächst eine etwas komplexere Website an, bspw. https://www.europarl.europa.eu/meps/en/full-list. 

Auf dieser Seite werden die Abgeordneten des EU-Parlaments der aktuellen Wahlperiode aufgeführt. Wenn wir diese Seite scrapen, könnten wir eine Liste aller Abgeordneten mit ihrer Partei, ihrem Land und weiteren Informationen erstellen. Genau das wollen wir im Folgenden tun. Im ersten Schritt scrapen wir die Namen der Abgeordneten von der Seite.

Doch zunächst schauen wir uns dazu das HTML der Seite an.

Dazu klicken Sie im Browser mit Rechts auf die Seite und wählen "Seitenquelltext anzeigen" (oder ähnlich, je nach Browser). Im Browser öffnet sich ein neuer Tab, der den gesammten HTML-Code anzeigt.

Die erste Abgeordnete heisst "Magdalena ADAMOWICZ" suchen Sie nach ihr! Sie müssten einen ähnlichen Quelltextausschnitt finden wie ich:

![Bild vom Quellcode](http://julia-niemann.de/quellcode.png)


Man kann hier sehen, dass unterschiedliche Klassen verwendet werden, um den Text zu formatieren. Vor dem Namen (in gelb gehighlighted), wird bspw. die Klasse "erpl_title-h5" aufgerufen. 

# Warum ist es wichtig die CSS-Klasse zu kennen?

Eine berechtigte Frage, schließlich wollen wir ja keine Website formatieren und uns das Design abschauen (so schön ist das Layout der EU-Parlaments-Site auch nicht...). Es ist wichtig, weil wir über die Formatierung die <b>Inhalte identifizieren, die wir scrapen</b> wollen. Alle Abgeordneten Namen sind gleich formatiert. Wir müssen also aus dem HTML-Dokument nur die Tags herausziehen, die mit der von uns identifizierten Klasse "erpl_title-h5" formatiert wurden!

Genau das macht das folgende R-Script. Es ist an dieser Stelle **nicht wichtig, dass Sie das Script im Detail verstehen**. Es geht hier nur darum zu demonstrieren was möglich ist. Der Output des Codes wird direkt darunter angezeigt.

Beachten Sie, dass in Zeile 12 die von uns identifizierte CSS-Klasse eingefügt wurde.


In [0]:
# load libraries
library(rvest)
library(tidyverse)

# Store the URL you want to scrape as a new object 
# This is only the first page. To scrape all parlamentarians replace with: 
# https://www.europarl.europa.eu/meps/en/full-list/all
eu_url <- "https://www.europarl.europa.eu/meps/en/full-list" 

# Download HTML code from that URL and save it in a new object
eu_html <- read_html(eu_url, encoding = "UTF-8")

eu_names <- html_nodes(eu_html,".erpl_title-h5") %>%
            html_text()

#Viewing list of names:
eu_names

# Selector Gadget: Ein einfacherer Weg die Klasse herauszufinden

Um nur die Klasse eine bestimmten Elements herauszufinden, muss man sich zum Glück nicht durch HTML-Wüsten wühlen. Es gibt dafür ein einfaches Tool, nämlich eine Browsererweiterung in Google Chrome: "Selector Gadget".

Tutorial z.B. unter: https://www.youtube.com/watch?v=oqNTfWrGdbk

Der Vorteil von Selector Gadget ist, dass man grafisch sehen kann, welche Inhalte auf einer Website mit einer CCS-Klasse formatiert wurden. Mann kann Inhalte anwählen und abwählen und das Selectorgadget gibt eine Kombination aus HTML-Tags und CCS-Classes zurück, die den interessierenden Inhalt eindeutig identfizieren.

Für das obrige Beispiel gibt das Selector Gadget den folgenden Code zurück: 
"#docMembersList .t-item". Das ist nicht das gleiche wie ".erpl_title-h5", liefert beim scraping aber ein ähnliches Ergebnis. Tatsächlich ist das Ergebnis sogar besser, weil der letzte Eintrag nicht "Share this page" lautet, sondern nur die Namen zurück gegeben werden:


In [0]:
eu_names <- html_nodes(eu_html,"#docMembersList .t-item") %>%
            html_text()

#Viewing list of names:
eu_names

Genauso können auch die Länder der Parlamentarier von der Seite gescrapt werden. Wir müssen dazu nur den richtigen "Identifier" aus Tags und classes mit dem Selector Gadget herausfinden und in den Code einsetzen:

In [0]:
#Fill in your code (you can copy the code from above and simply change the specific elements)
eu_countries <- html_nodes(eu_html,".mb-25+ .mb-25") %>%
                html_text()

# We can now combine the two variables together and have a nice little dataset:
data <- cbind(eu_names, eu_countries)
head(data)

eu_names,eu_countries
Magdalena ADAMOWICZ,Poland
Asim ADEMOV,Bulgaria
Isabella ADINOLFI,Italy
Matteo ADINOLFI,Italy
Alex AGIUS SALIBA,Malta
Mazaly AGUILAR,Spain


# Zeit für eine Übung!

Versuchen Sie mal über den Quellcode oder mit dem Selector Gadget herauszufinden, wie die CSS-Klasse bzw. der Identifier für die Fraktion eines Parlamentariers lautet.

Also z.B. bei Magdalena ADAMOWICZ:
"Group of the European People's Party (Christian Democrats)"

Was fällt ihnen auf?

# Crawling

Beim Crawling scraped man sich von einer Seite auf die nächste und versucht über verschiedene Einzelseiten (oder Webseiten) hinweg relevante Inhalte zu extrahieren. Das können wir selbstverständlich auch machen. Wir können bspw. von den Unterseiten der einzelnen Abgeordneten ihr Geburtsdatum extrahieren. Dazu brauchen wir aber zunächst eine Liste mit den Links von den einzelnen Abgeordneten-Seiten:  

In [0]:
# We nee a slightly different node this time:
eu_links <- html_nodes(eu_html,"#docMembersList div a") %>%
            html_attr("href") 

# View the list of links:
head(eu_links)

Die Links können nun nacheinander besucht werden um von den einzelnen Unterseiten auch die Geburtsdaten der Parlamentarier*innen zu scrapen:

In [0]:
# Before we start our for loop, we have to create an empty container object. 
# This empty container can be filled with specific content (in our case the dates of birth) through our for loop.
eu_birthdates <- as.character()

# In our for loop, we must define how often the element i of the link list is passed through. 
for (i in 1:length(eu_links)){

  # Download html of current eu parlamentarian subpage
  html_i <- read_html(eu_links[i], encoding = "UTF-8")

  # Find the birth date node (inspector gadget)
  birth_node_i <- html_nodes(html_i, "#birthDate")

  # Now we extract the text of our specific node
  birth_i <- html_text(birth_node_i)

  # Not every parlamentarian has a birth date on their website. Therefore we need to check
  if (length(birth_i) == 0) {
    birth_i <- NA
  }

  # We append the new birth date to our previously empty container object
  eu_birthdates <- append(eu_birthdates, birth_i)
}

# We now have a list of names and a list of birth dates. 
# Let´s bind them to our data set
data <- cbind(data, eu_birthdates)

# Outputting content to our console
head(data)

# Within a for loop you can include multiple nodes from which you want to extract content. 
# For each content you want to scrape, you only need to create an empty container variable first, which is then filled in the for loop. 

eu_names,eu_countries,eu_birthdates
Magdalena ADAMOWICZ,Poland,
Asim ADEMOV,Bulgaria,03-12-1968
Isabella ADINOLFI,Italy,
Matteo ADINOLFI,Italy,24-12-1963
Alex AGIUS SALIBA,Malta,31-01-1989
Mazaly AGUILAR,Spain,20-09-1949


# Ausblick

**Scraping bleibt eine wichtige Technik, gerade in der Post-API-Ära**
*   Einzusetzen, wenn keine API zur Verfügung steht
*   Besonders hilfreich wenn die Webseite immer gleich strukturierte Inhalte enthält 
*   Datenbereinigung ist der halbe Aufwand (wenn nicht mehr)!

<br />

**Ethische und rechtliche Aspekte**

*   Ethische Grundsätze beachten, verantwortungsvoll Handeln (Privatsphäre!)
*   Legalität: Vor dem Scrapen die Terms & Conditions der Website checken.
*   Rechtliche Lage im Wissenschaftsbereich unklar (EU-Richtlinie).
*   Keine Inhalte hiner einem Log-In oder einer Paywall scrapen (auch wenn das technisch kein Problem wäre).
*   Achtung, auch Scraping ist Traffic auf der Seite.

<br />

**Advanced Scraping**

Scraping bietet viele weitere Möglichkeiten, wenn die Webseiten komplexer werden. Bspw:
*   Webformulare ausfüllen und senden
*   Download von Bildern/Videos
*   Auswahl der Inhalte über X-Path 
*   Dynamische Webseiten (javascript)
*   ...

<br />

**Weiterführende Literatur**

Munzert, S., Ruoba, C., Meiboner, P., & Nyhuis, D. (2015). *Automated Data Collection with R: A practical Guide to Web Scraping and Text Mining.* Chichester, United Kingdom: John Wiley & Sons. 
