# Zugriff über eine API

Als Beispiel benutzen wir die Seite [TVmaze](https://www.tvmaze.com/). Auf TVmaze aknn man sich Informationen zu TV-Serien und ihr Ausstrahlungstermine ansehen.

## Ein GET()-Request über HTTP

Wenn man auf der Seite z.B. nach dem Begriff "Love" sucht, bekommt man alle Serien angezeigt die diesen Begriff im Titel tragen und darunter eine Liste mit den Personen, die diesen Namen tragen. Aber noch etwas zweites passiert: Die URL im Brwoser verändert sich. Die URL ist die Adresse, die der Browser benötigt um uns eine Repräsentation der gewünschten Inhalte zu liefern, also eine GET()-Anfrage. Sie lautet jetzt [https://www.tvmaze.com/search?q=Love](https://www.tvmaze.com/search?q=Love). 

Schauen wir uns im Detail an, wie die URL jetzt aufgebaut ist.
- `https://` Den erste Teil bildet das Protokoll, mit dem wir die Anfrage gestartet haben. Wie beim Besuch von Webseiten üblich handelt es sich um HTTP (**H**yper**t**ext **T**ransfer **P**rotocol), hier in seiner sicheren Variante, gekennzeichnet durch das *s*.
- `www`: Ist die Subdomain
- `tvmaze`: Der Name der Domain (die Adresse).
- `com`: Die Toplevel-Domain
- `/search`: Das Verzeichnis/der Pfad, in dem die Inhalte auf dem Server zu finden sind.
- `?q=Love`: Die Suchanfrage, eingeleitet durch ein `?`, dann folgt eine Kennzeichnung für das Feld, in dem gesucht haben. Die Webentwickler der Seite haben es hier `q` benannt, das steht vermutlich für *querry*. Dan folgt ein `=` und der eingegebene Suchbegriff.


## Ein GET()-Request über die API
 

Wenn man nach ganz unten auf die Website scrollt, findet man den Link zur Dokumentation der API (oder [hier](https://www.tvmaze.com/api)). Dort wird beschreiben welche `GET()`-Anfragen man über die API machen kann und wie die Syntax dafür lautet. 

Man kann z.B. nach Shows oder Personen suchen, ganz ähnlich, wie wir das soeben schon gemacht haben. Allerdings kann man nicht beides gleichzeitig tun und sie URL dafür sieht ganz leicht anders aus. Für die Suche nach Shows lautet sie beispielhaft: 
- URL: `/search/shows?q=:query`
- Beispiel: `http://api.tvmaze.com/search/shows?q=Love`

Eigentlich sieht die URL derjenigen, die wir vorhin im Browser gesehen haben sehr ähnlich. nur das `www` (die Subdomain) wurde durch ein `api` ausgetauscht.
Die Beispiel-URL können Sie testweise auch in den Browser eingeben. Sie bekommen dann im Prinzip die gleichen Daten angezeigt wie auch in der Suche, die Sie über das Suchfeld ausgeführt haben. Allerdings sind sie nicht so schön formatiert, dass wir sie gut lesen könnten. 

## JSON-Format
Die API liefert Datensätze zurück die im **JSON**-Format formatiert sind. JSON (gesprochen wie der englische Vorname Jason) steht für **J**ava**s**cript **O**bject **N**otation und ist ein übliches Austauschformat im Web. Die Struktur ist sehr simpel, an einem formatierten Beispiel ist sie leicht zu verstehen:
```
{
  "Titel": "Risiken und Nutzen der Kommunikation auf Social Networking Sites",
  "Herausgeber": "von Halem",
  "ISBN": "978-3-86962-217-0",
  "Seiten": 424
  "Autorin":
  {
    "Name": "Niemann",
    "Vorname": "Julia",
    "maennlich": false,
  }
}

```
Das Format besteht aus einer ineinander verschachtelten Struktur, die duch geschweifte Klammern gekennzeichnet ist. (`{`und `}`). Diese Klammern enthalten verschiedene, frei definierbare, Key-Value-Paare (z. B. `"Vorname": "Julia"`).

Wenn Sie die URL oben in den Browser eingegeben haben ist das ganze leider nicht so schön formatiert wie im Beispiel oben. Die Einrückungen hat der Browser einfach weggelassen. Für Computer ist das JSON-Format natürlich trotzdem gut lesbar und R hat ein paar Tools, mit denen man ein JSON in Datensätze umwandeln kann. Deshalb schauen wir uns als nächstes an, wie wir das JSON über die API direkt in R laden können.

## Auf APIs zugreifen über R

### Vorbereitung
Um eine Anfrage an eine REST-API zu stellen eignet sich in das Paket `httr`. Wie oben im Browser berits gesehen liefert die API eine JSON-Datei zurück. Die JSON-Datei in einen schön formatierten Datensatz umzuwandeln geht am einfachsten mit dem `jsonlite`-Paket. Beide Pakete gehören zum Tidyverse. Sie sollten also installiert sein, sofern das `tidyverse`-Paket bereits installiert wurde. Sie müssen aber dennoch separat geladen werden, das Laden des tidyverse-Paketes alleine reicht nicht aus. Außerdem installiere ich hier noch das Paket `janitor`, mit dem wir den Datensatz später noch schöner, nämlich mit Variablennamen im *snake_case* formatieren können.


In [None]:
# OPTIONAL! Benötigte Pakete vorab installieren
#install.packages("tidyverse")
#install.packages("janitor")

In [None]:
#Pakete laden
library(tidyverse)
library(httr)
library(jsonlite)
library(janitor)

### Mit httr auf eine API zugreifen
Um den Output klein zu halten lade ich im folgenden Beispiel das JSON-File für nur eine Serie herunter, also nur einen einzelnen Datensatz. Ich habe mich für die Sesamstraße, auf Englisch "sesame street" entschieden. Die URL für den API-Zugriff lautet analog zum obigen Beispiel: ```"http://api.tvmaze.com/search/shows?q=sesame%20street"```

Vielleicht fällt Ihnen das `%20` in der URL auf. Da URLs keine Leerzeichen enthalten dürfen, muss das Leerzeichen in "sesame street" encodiert werden. Die Zeichenfolge `%20` wird ersatzweise für das Leerzeichen eingesetzt. Auch viele andere Sonderzeichen dürfen nicht in URLs enthalten sein und müssten in so einer Anfrage encodiert werden. Weitere Infos zum URL-Encoding finden Sie auf [Wikipedia](https://de.wikipedia.org/wiki/URL-Encoding). Dort wird auch nochmaleinmal die Bedeutung der Steuerungszeichen `?`und `=`erläutert.

In [None]:
# GET-Request mit httr
my_response <- GET("http://api.tvmaze.com/search/shows?q=sesame%20street")
print(my_response)

Führt man das Beispiel aus, ist das Ergebnis zunächst etwas enttäuschend. Mit `print()` kann man zwar einige Informationen über die GET()-Anfrage anzeigen lassen, nämlich die Adresse, Datum & Uhrzeit, den Statuscode, Art und Encoding des Ergebnisses und die Größe. Die eigentlichen Inhalte/Daten werden jedoch nicht direkt ausgegeben.

Dennoch, diese Informationen sind ja auch schon einmal ganz interessant. Man kann aus ihnen schließen, dass offenbar alles in Ordnung ist, denn der Content-Typ ist der den wir erwarten (JSON) und die Größe ist nicht 0. Es sind also irgendwelche Daten bei uns angekommen. Zusätzlich gibt der HTTP-Statuscode einen Hinweis darauf, das alles glatt gelaufen ist: "200" bedeutet "OK". 

Falls es mal nicht so gut läuft: Eine Übersicht über die verschiedenen Statuscodes finden Sie ebenfalls auf [Wikipedia](https://de.wikipedia.org/wiki/HTTP-Statuscode).

Um aus der Response die Ergebnisse auszugeben, kann man den Befehl `content()` benutzen. Er extrahiert den Inhalt des Objekts `my_response`, die Daten im JSON-Format. Man kann auf diese Weise Daten als RAW oder im Text-Format-extrahieren. JSON-Daten sind Textdaten, also spezifizieren wir dies hier.

In [None]:
# Den Inhalt der Response ausgeben
my_content <- content(my_response, as = "text")
my_content

Die Ausgabe sieht so aus wie wir das schon aus dem Browser kennen. Eine ziemliche Textwüste mit einigen Verschachtelungen und Key-Value-Paaren. Auch hier handelt es sich um JSON.

### Die Response in einen Datensatz umwandeln
Zum Glück ist es mit dem Paket `jsonlite` sehr einfach, einen Datensatz daraus zu erzeugen. Der Befehl `fromJSON()` wandelt die Datei in eine Matrix um. Das zusätzliche Attribut `flatten = TRUE` sorgt dabei dafür, die Verschachtelungen im JSON-File aufzulösen. In der zwiten Zeile der Pipe wird die Matrix direkt in einen Datensatz bzw. Tibble umgewandelt. Der Zusatz `.name_repair = janitor::make_clean_names` sorgt dabei dafür, die Variablennamen tidyverse-konform in snake_case zu ändern. 

In [None]:
# Mit jsonlite in einen Tibble umwandeln
df <- fromJSON(my_content, flatten = TRUE) %>%
  as_tibble(.name_repair = janitor::make_clean_names) 

# Datensatz anzeigen
head(df)

## Zusammenfassung

In sehr wenigen Zeilen Code haben wir auf die API zugegriffen und einen schön formatierten Datensatz erzeugt. Natürlich wäre an dieser Stelle in einem normalen Forschungsprojekt noch nicht Schluss. Sicher interessiert es Sie, den Datensatz zu erkunden und nachzusehen, welche Informationen wir nun eigentlich erhalten haben. Eine Variablen enthalten vielleicht Texte, die noch formatiert oder aus denen die Relevanten Informationen extrahiert werden müssen.

Außerdem ist unser Datensatz etwas albern. Er hat ja nur eine Zeile! Die Informationen über die Sesamstraße hätten wir schneller erhalten können indem wir einfach über die Website gesucht hätten. Kommen wir deshalb nochmal auf unser erstes Beispiel zurück. Die Suche nach allen Serien die "Love" im Titel haben.

In der folgenden Zusammenfassung des Codes erzeuge ich einen entsprechenden Datensatz, der die "Love"-Serien enthält. Ich habe außerdem die `GET()`-Funktion noch einmal ein wenig umgeschrieben. Auf diese Weise muss man nicht selbst die Request für formulieren und alle URL-Encodings kennen. 

In [None]:
# GET-Request mit httr
love_response <- GET(url = "http://api.tvmaze.com/",
                    path = "search/shows",
                    query = list(
                      q = "Love"
                    ))

# Mit jsonlite in einen Tibble umwandeln
df_love <- content(love_response, as = "text") %>%
      fromJSON(flatten = TRUE) %>%
      as_tibble(.name_repair = janitor::make_clean_names) 

# Ergebnisdatensatz anzeigen
head(df_love, 10)

**Hinweis:** Leider hat der API-Provider den Zugriff über die search-API auf maximal 10 Serien beschränkt (siehe [Forumseintrag](https://www.tvmaze.com/threads/365/show-search-is-restricted)). Aber Sie bekommen hier trotzdem einen Eindruck, wie es aussehen könnte...

## Übungsaufgabe

Jetzt sind Sie an der Reihe. Aus der [Dokumentation der TVmaze-API](https://www.tvmaze.com/api) wissen Sie, dass man damit sehr viel mehr machen kann, als nur nach Serien zu suchen. Man kann sich z. B. auch die Episoden einer Serie ausgeben lassen.  

**Genau das ist jetzt Ihre Aufgabe. Suchen Sie sich Ihre Lieblingsserie heraus und laden Sie alle Episoden in einen Datensatz!**

**Hinweis 1:** Sie müssen zunächst herausfinden, welche ID Ihre Serie hat.

**Hinweis 2:** Um wirklich *alle* Episoden (die in TVmaze gelistet sind) zu bekommen, müssen Sie Ihrer Suchanfrage den Parameter `all=1` mitgeben.


In [None]:
# Ihr Code hier!
# GET-Request mit httr
response_sesame <- GET(url = "http://api.tvmaze.com/",
                    path = "shows/6544/episodes",
                    query = list(
                      all = 1
                    ))

# Mit jsonlite in einen Tibble umwandeln
df_sesame <- content(response_sesame, as = "text") %>%
      fromJSON(flatten = TRUE) %>%
      as_tibble(.name_repair = janitor::make_clean_names) 

# Anzahl der Fälle ausgeben
print(str_c("Der Datensatz hat ", nrow(df_sesame), " Einträge."))

# Ergebnisdatensatz anzeigen
head(df_sesame, 10)

## Authentifizierung

Die API, die wir uns gerade angeschaut haben, ist frei und kostenlos verfügbar. Jeder kann sie benutzen, man muss sich gegenüber dem Server nicht einmal ausweisen. Das ist nicht bei allen APIs so. Im Gegenteil, die meisten Provider interessanter APIs möchten, dass man sich registiert und bei jedem API-Zugriff authentifiziert. Auch bei TVmaze gibt es zusätzlich zur freien API eine "Premium"-API für registirierte Nutzer und sogar einen Zugang für Geschäftskunden.
Über die Authentifizierung kann der API-Provider den Zugriff regeln und limitieren (z.B. den Abruf von nur X Datensätzen pro Monat erlauben) und auch den Datentransfer abrechnen, wenn dieser kostenpflichtig ist. 

Eine übliche Beschränkung ist bspw. auch das so genannte **Rate Limiting**. Dabei wird die Menge der möglichen Anfragen pro Zeiteinheit eingeschränkt. Twitter limitiert z.B. den Zugriff auf Timelines mit 75 Request pro 15 Minuten. Damit wird verhindert, dass der Server unter der Last zuvieler Anfragen zusammenbricht und eine missbräuchliche "übermäßige" Nutzung wird eingedämmt. Beim Zugriff auf APIs sollte man deshalb auf eine faire Nutzung achten und darauf, dass man das Rate Limit keinesfalls überschreitet. Im R-Code kann man dazu mit der Funktion `Sys.sleep()` die Ausführung von Code um ein selbst gewähltes Zeitintervall verzögern. Die Funktion ist in base R verfügbar.

## Aufgaben

1. Finden Sie in der [Dokumentation](https://www.tvmaze.com/api) heraus, was das Rate Limit für die TVmaze-API ist.

2. Schauen Sie auf [Wikipedia](https://de.wikipedia.org/wiki/HTTP-Statuscode) nach, welchen HTTP-Fehler-Code eine Request zurückliefert, wenn das Rate Limit überschritten wurde.



## OAuth
In der Regel ist die Authentifizierung für eine Web-API komplizierter als ein Login auf eine Website, die nur einen Usernamen und ein Passwort verlangt. Sie erfolgt über OAuth (**O**pen **Auth**orization). OAuth unterscheidet zwischen verscheidenen Rollen und ist in 2 verscheidenen Protokollen verfügbar, welche sich in Nutzungsweise und Sicherheit unterscheiden (OAuth 1.0 und OAuth 2.0). Wie OAuth im Detail funktioniert ist an dieser Stelle nicht wichtig. Es reicht zu wissen das zwischen verschiedenen Rollen (z. B. Provider und Client) und verschiedenen Anmeldedaten (s. g. *Credentials*) unterschieden wird. Man benötigt mehr als ein Passwort, nämlich (mindestens) einen *Key* und ein zugehöriges *Secret*. Dieses erhalt man normalerweise direkt nach erfolgter Registrierung beim API-Provider. In jeder Session wird zudem ein *Token* erzeugt, der den Zugang zur API regelt.

Mehr zu OAuth findet sich aber bei Munzert, Rubba, Meißner und Nyhuis 2015 (S. 266-270). Im nächsten Abschnitt werden wir eine Authentifizierung mit OAuth durchführen, allerdings benutzen wir dazu einen API-Wrapper. Das ist eine Software, die die Details des API-Abrufs und auch der Authentifizierung für uns regelt. Aber auch über das `httr`-Paket können Sie sich via OAuth authentifizieren. 
