# API-Wrapper in R
Ein API-Wrapper ist ein Stück Software, das den Zugriff auf eine API nochmal vereinfacht. Die API, die wir bis jetzt kennengelernt haben ist ja recht schlicht, aber es kann sehr schnell komplexer werden. - Beispielsweise, wenn Authentifizierung und Rate-Limits im Spiel sind.  

Wenn ein API-Wrapper zur Verfügung steht, ist es praktisch damit zu arbeiten, weil ein Programm oder in unserem Fall die Programmiersprache R nicht direkt oder nur sehr umständlich in der API-Sprache kommunizieren kann. Da die API im Detail vom API-Provider festgelegt wird, wäre es auch etwas viel verlangt jede API zu kennen. Bei Wrappern handelt es sich um Funktionen, die die Details des API-Zugriffs regeln, zugeschnitten auf die jeweilige API.

Für viele wichtige APIs gibt es bereits Wrapper in R. Dazu gehören bspw.:
- rtweet
- googleAuthR
- rzeit2
- tuber
- rcrossref
- WikipediR
- WikidataR
- wordpressr
- RedditExtractoR
- vosonSML
- rtimes
- covid19nytimes
- ...

Manche dieser Pakete bezeichnen sich auch als "inofizielle" API, da sie nicht vom Daten-Anbieter selbst bereitgestellt wurden, sondern die HTTP-Request lediglich nachbauen.

## Aufgabe
Finden Sie in [MetaCRAN](https://www.r-pkg.org/) mindestens einen API-Wrapper, der noch nicht auf der Liste ist!

## Mit rtweet Twitter-Daten herunterladen

Einer der API-Wrapper der in der Kommunikationswissenschaft momentan vielleicht am häufigsten genutzt wird ist das Paket `rtweet`. Das Paket bietet umfangreiche Funktionen zum Download verschiedener Twitterdaten und ist im Einsatz sehr komfortabel. 

In [2]:
# Das Paket ggf. installieren
#install.packages("rtweet")

# Das Pakt laden
library(rtweet)

Für die Nutzung der Twitter-API muss man sich über OAuth authentifizieren. Dafür benötigt man Credentials, die man nur über einen Developer-Account bei Twitter und die Registierung der eigenen App erhält.

## Einen Developer-Account bei Twitter registrieren

Um eine APP für Twitter zu erstellen benötigt man einen Developer-Account bei twitter, ein normaler Nutzer-Account reicht nicht aus. Auf der folgenden Website können Sie den Account anlegen: [https://developer.twitter.com/en](https://developer.twitter.com/en)

Die Registrierung für so einen Account kann eine Weile (mehrere Tage) dauern. 

Nach erfolgter Registrierung kann man unter *Apps > Crate an App* eine neue App anlegung und erhält dann unter *Keys and tokens* alle Details, die für den Zugriff über OAuth benötigt werden. 

Den selbstgewählten Namen der App, Consumer Key und Secret sowie Access Token und Secret muss man nun an `rtweet`übergeben, damit der Wrapper einen Token für die aktuelle R-Session erstellen kann. In `rtweet` geht dies über die Funktion `create_token`.

In [1]:
# Twitter Token erstellen (enthält ungültige Beispieldaten)
#twitter_token <- create_token(
#    app             = "Name meiner Twitter APP",
#    consumer_key    = "sd7Z48...",
#    consumer_secret = "M96fc3...",
#    access_token    = "251475...",
#    access_secret   = "bgtrfS...")

Nach dem Ausführen dieses Codes ist der Token in der Environment verfügbar, solange die Session dauert. In einer neuen Session muss der Code erneut ausgeführt werden.

Selbstverständlich sollte man seine **Credentials niemals mit anderen Personen teilen**! Es ist deshalb möglicherweise eine gute Idee die eigenen Credentials nicht in einem R-Projekt abzulegen, gerade, wenn es sich um gemeinsame Projkete oder gar Lehrforschungsprojekte handelt. Stattdessen kann man sie in einem separaten R-Skript, dass man zentral auf der eigenen Festplatte ablegen. Bei Bedarf, kann man die Daten dann über den `source()`-Befehl nachladen. 

Meine Twitter-Credentials liegen z.B. in meinem Benutzerordner in einem Unterordner "api_credentials", in dem ich auch noch die Zugangsdaten zu anderen APIs gespeichert habe. Dies hat den Vorteil, das ich die Daten selbst dann nicht mit anderen teile, wenn das R-Projekt in einer Cloud liegt. Außerdem kann ich so in unterschiedlichen R-Projekten mit den gleichen Credentials arbeiten.



## Eine `search_tweets()`-Anfrage an die Twitter-API stellen

Der Token, den wir im letzten Schritt erstellt haben muss bei jedem Neustart von R erneut erstellt werden. Zudem muss bei jeder Suchanfrage an die API übergeben werden, damit sich der Client (unser R-Skript) gegenüber dem Server ausweisen kann.

Mit `rtweet`kann man sehr viele unterschiedliche Daten von Twitter herunterladen. Der einfachste Anwendungsfall ist die Suche nach Hashtags. Dabei ist allerdings zu beachten, dass natürlich nur Tweets gefunden werden können, die nicht in der Zwischenzeit vom User oder von Twitter gelöscht wurden. Außerdem funktioniert die Suche auch nur eine gewisse Zeit rückwärts. Twitter stellt die Daten nur ca. 7 bis 10 Tage lang über die API zur Verfügung.

In einem ersten Schritt möchten wir Twitter nach einem bestimmten Schlagwort durchsuchen. Im Beispiel habe ich "BLM" gewählt. Dazu übergebe ich der Funktion `search_tweets()` den Such-String (in diesem Fall nur die Zeichenfolge "BLM). `n = 1000`beschränkt das Ergebnis auf maximal 1000 Tweets. Ich habe dieses Attribut zu Übungszwecken hier eingebaut, da sonst das Rate-Limit sehr schnell erreicht wäre.



In [None]:
# Tweets über eine Stichwortsuche herunterladen
#df_tweets <- search_tweets("BLM", n = 1000, lang = "de")

# Den Datensatz anzeigen
#head(df_tweets, 5)

Man kann der Funktion `search_tweets()` noch weitere Attribute mitgeben um -- gerade bei so weit verbreiteten Hashtags wie #BLM -- das Ergebnis weiter einzuschränken. In der [Hilfe](https://www.rdocumentation.org/packages/rtweet/versions/0.4.0/topics/search_tweets) sieht man, welche das sind. An dieser Stelle möchte ich einige davon hervorheben.
- Mit `type`kann man einstellen ob die aktuellsten oder die populärsten Tweets im Ergebniss enthalten sein sollen.
- Mit `include_rts`kann man bestimmen, dass das Ergebnis auch Re-Tweets enthalten soll.
- Mit `geocode` kann man eine Geolocation angeben die den geographischen Ort der Tweets festlegt.
- Mit `lang = "de"` kann man das Ergebnis auf deutsche Tweets einschränken.
- `retryonratelimit = TRUE` sorgt dafür, dass `rtweet` in einer Anfrage, die das Rate Limit überschreitet, automatisch die erforderliche Zeitspanne (15 Minuten) wartet und die Anfrage danach fortsetzt. So erhält man alle verfügbaren Tweets zur Suchanfrage. Achtung, das kann sehr lange dauern und in der zwischenzeit ist R beschäftigt!

Neben den unterschiedlichen Parametern der Funktion, kann man natürlich auch den Such-String anpassen und z.B. mit `"BLM | Blacklivesmatter"` nach allen Tweets suchen die entweder den einen oder den anderen Begriff enthalten. Die Suchstrings sind übrigens nicht case sensitiv.

## Weitere Typen von Anfragen
 Neben `search_tweets` beinhaltet das `rtweet`-Paket noch viele weitere Funktionen zum Download von Daten und sogar Funktionen um etwas auf Twitter zu posten. Z.B.:
- Mit `get_trends()` hat man zugriff auf die aktuellen Twitter-Trends
- Mit `get_timeline` auf die Timeline bestimmter Nutzer.

Für Netzwerkanalysen sind die folgenden Funktionen interessant:
- `get_followers()`
- `get_friends()`
- `get_favorites()`

## Aufgaben

1. Schauen Sie sich den Datensatz, den wir eben heruntergeladen haben genau an. Er enthält sehr viele Variablen. Welche finden Sie interessant?

2. Verschaffen Sie sich einen Überblick über die Funktionen im Paket `rtweet`. Achtung, einige sind nur Hilfsfunktionen, die bei der Kommunikation mit der API unterstützen. 

3. Beschreiben Sie was das folgende Skript tut (unten unter Aufgabe 3). Ist es das was Sie erwarten?

4. Schreiben Sie ein kurzes R-Skript, dass 
a) die populärsten 10 Tweets von Donald Trump (@realDonaldTrump) zurückliefert und
b) alle Twitter-Accounts ausgibt, denen Donald Trump selbst folgt. (also 2 Datensätze)



In [None]:
# Code für Aufgabe 3
#df_users <- search_users("#Kommunikationswissenschaft", n = 25)
#head(df_users)

In [None]:
# Ihr Code für Aufgabe 4a
#df_top10_trump <- ""

#head(df_top10_trump )

In [None]:
# Ihr Code für Aufgabe 4b
#df_trump_following <- ""

#head(df_trump_following)