# Web Scraping mit R

*Hinweis: Um diese Lektion vollständig zu verstehen sind Kenntnisse von HTML und CSS notwendig. Außerdem solltest du den Pipe Operator in R (%>%) kennen. Komme ggf. zu dieser Lektion zurück, sobald du das Material kennst.*

Web Scraping ist generell immer sehr vom einzelnen Use Case abhängig. Das liegt daran, dass jede Webseite indiviudell aufgebaut und gestalltet ist, Updates durchgeführt werden und sich Dinge verändern. Um Web Scraping mit R komplett zu verstehen ist ein Grundwissen von HTML und CSS notwendig. Dadurch können wir verstehen, was wir uns von der Webseite holen wollen.

Falls ihr HTML und CSS nicht kennt, könnt ihr ein Auto-Web-Scrape Tool wie [import.io](https://www.import.io/) nutzen.

## rvest library

Hier findet ihr ein Beispiel der nutzung von `rvest`. Der beste Weg zum Lernen ist die Nutzung der bereitgestellten Demos, auf die man wie folgt zugreift:

In [1]:
demo(package='rvest')

Sofern du mit HTML und CSS vertraut bist ist `rvest` eine sehr nützliche Library.  Wir gehen jetzt ein Beispiel aus dem R Studio durch:

In [2]:
# Will also install dependencies
install.packages('rvest')

package 'rvest' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\dm_78\AppData\Local\Temp\RtmpuIPWjh\downloaded_packages


Stellen wir uns vor, wir würden Informationen über den Lego Film von IMDB auslesen wollen. Wir beginnen dazu mit dem Download der [HTML-Datei von LEGO-Film](http://www.imdb.com/title/tt1490017/) mit `html()`:

In [26]:
library(rvest)
lego_film <- read_html("http://www.imdb.com/title/tt1490017/")
lego_film

{xml_document}
<html xmlns:og="http://ogp.me/ns#" xmlns:fb="http://www.facebook.com/2008/fbml">
[1] <head>\n<meta http-equiv="Content-Type" content="text/html; charset=UTF-8 ...
[2] <body id="styleguide-v2" class="fixed">\n            <img height="1" widt ...

Um im nächsten Schritt die Bewertung zu erhalten nutzen wir das "Selector Gadget". Dadurch finden wir heraus welcher CSS-Selektor mit den Daten übereinstimmt, die wir möchten. Falls ihr das Gadget nicht kennt, dann lest euch ["SelectorGadget"](https://cran.r-project.org/web/packages/rvest/vignettes/selectorgadget.html) durch – es ist der einfachste Weg, um zu bestimmen, welcher Selektor die Daten extrahiert, die uns interesieren. Wir nutzen `html_node()` um den ersten Node zu finden, der mit dem Selektor übereinstimmt. Dann extrahieren wir seinen Inhalt mit `html_text()` und konvertiren den Inhalt mit `as.numeric()`:

In [27]:
lego_film %>% 
  html_node("strong span") %>%
  html_text() %>%
  as.numeric()

Auf dem Bild unten wird die Daten-Selektion veranschaulicht:

![WebScr1.png](attachment:WebScr1.png)

Ein anderes Beispiel für [IMDB-Filmrating 2019](https://www.imdb.com/search/title/?count=100&release_date=2019,2019&title_type=feature)

In [29]:
library('rvest')

# scraping URL
url <- 'http://www.imdb.com/search/title?count=100&release_date=2016,2016&title_type=feature'

#HTML Code lesen
webpage <- read_html(url)
webpage

{xml_document}
<html xmlns:og="http://ogp.me/ns#" xmlns:fb="http://www.facebook.com/2008/fbml">
[1] <head>\n<meta http-equiv="Content-Type" content="text/html; charset=UTF-8 ...
[2] <body id="styleguide-v2" class="fixed">\n            <img height="1" widt ...

In [32]:
# Verwenden von CSS-Selektoren, um den Ranglistenbereich zu durchsuchen
rank_data_html <- html_nodes(webpage,'.text-primary')
head(rank_data_html)

# Konvertieren der Ranglistendaten in Text
rank_data <- html_text(rank_data_html)

# Werfen wir einen Blick auf die Rangliste
head(rank_data)

{xml_nodeset (6)}
[1] <span class="lister-item-index unbold text-primary">1.</span>
[2] <span class="lister-item-index unbold text-primary">2.</span>
[3] <span class="lister-item-index unbold text-primary">3.</span>
[4] <span class="lister-item-index unbold text-primary">4.</span>
[5] <span class="lister-item-index unbold text-primary">5.</span>
[6] <span class="lister-item-index unbold text-primary">6.</span>

Weitere Details sind sehr gut im [Artikel Beginner’s Guide on Web Scraping in R](https://www.analyticsvidhya.com/blog/2017/03/beginners-guide-on-web-scraping-in-r-using-rvest-with-hands-on-knowledge/) 

Auf dem Bild unten wird die Daten-Selektion veranschaulicht:

![WebScr2.png](attachment:WebScr2.png)


Soweit so gut! Hoffentlich konntet ihr einen ersten Eindruck des Web Scrapings mit R gewinnen.