# Sammeln von Daten aus Twitter / X


Dieses Tutorial führt in das Konzept einer [Programmierschnittstelle](https://de.wikipedia.org/wiki/Programmierschnittstelle) (*engl. Application Programming Interface (API)*) ein und beschreibt den Prozess der Nutzung der [Twitter API v2 – von der Beantragung des API-Zugangs über die Verbindung zu einem Such-Endpunkt bis hin zum Sammeln von Daten zu bestimmten interessierenden Schlüsselwörtern.
Dieses Tutorial führt in das Konzept einer [Programmierschnittstelle](https://de.wikipedia.org/wiki/Programmierschnittstelle) (*engl. Application Programming Interface (API)*) ein und beschreibt den Prozess der Nutzung der [X API](https://developer.x.com/en/docs/x-api) (ehemals Twitter API v2, die Namen **X** und **Twitter** werden im Folgenden synonym verwendet) – von der Beantragung des API-Zugangs über die Verbindung zu einem Such-Endpunkt bis hin zum Sammeln von Daten zu bestimmten interessierenden Schlüsselwörtern.

### Was ist eine API

Ein Application Programming Interface (API) ist eine Software-Schnittstelle, die es zwei Anwendungen ermöglicht, miteinander zu kommunizieren, z.B. um auf Daten zuzugreifen. Unser Fokus liegt auf der X- bzw. Twitter API, einer gut dokumentierten API, die es Programmierern ermöglicht, auf erweiterte Weise auf Twitter zuzugreifen. Sie kann verwendet werden, um Tweets zu analysieren, daraus zu lernen und sogar mit ihnen zu interagieren.

### Einrichtung eines Accounts


Bevor die Twitter API genutzt werden kann, muss man bereits ein Twitter-Konto besitzen. Anschließend ist es erforderlich, den Zugang zur Twitter API zu beantragen, um die entsprechenden Zugangsdaten zu erhalten.


To go about this, one must set up an app by opening the developer portal and choosing ‘create a new project’, filling out the required details, and lastly giving the new app a name.

Um dauf Twitter Daten zuzugreifen, muss man eine App einrichten, indem man das [X Entwicklerportal](https://developer.x.com/de/docs/x-api) öffnet, „Neues Projekt erstellen“ auswählt, die erforderlichen Details ausfüllt und der neuen App schließlich einen Namen gibt.

Sobald dies erledigt ist, gelangt man zu einer Seite mit Schlüsseln und Tokens. Nachdem man der App einen Namen gegeben hat, erhält man die API Keys und das Bearer Token (im Screenshot unten ausgeblendet). Diese sind erforderlich, um eine Verbindung zu den Endpunkten der Twitter API v2 herzustellen.

In [None]:
# Import the libraries
import pandas as pd
import requests
import os
import json

Wir verwenden einen **Bearer Token**, um uns bei der Twitter API zu authentifizieren. Der Bearer Token ist ein spezieller API-Schlüssel, der der API signalisiert, dass die Anfragen von einem berechtigten Benutzer oder einer berechtigten App stammen. Mit diesem Token können wir auf die Endpunkte der API zugreifen, um beispielsweise Tweets zu suchen oder Daten zu sammeln.

Um ein Bearer Token zu erhalten, benötigt man ein Twitter-Konto und muss das [Twitter Developer Portal](https://developer.twitter.com/) öffnen. Standardmäßig hat man dort bereits ein **Standardprojekt**. Auf dem Dashboard klickt man auf **„Keys and Tokens“** und navigiert zum Bereich **„Authentication Tokens“**. Dort kann man dann den **Bearer Token** erstellen, der für den Zugriff auf die Twitter API notwendig ist.

<img src="twitter_doc/twitter_1.png" alt="Twitter Developer Portal" width="400"><br>
<img src="twitter_doc/twitter_2.png" alt="Keys and Tokens Bereich" width="400"><br>
<img src="twitter_doc/twitter_3.png" alt="Authentication Tokens" width="400">

Setzen Sie nun das Bearer-Token, das Sie beim Einrichten des Entwicklerportals erhalten hast:



In [None]:
os.environ["BEARER_TOKEN"] = "PUT_YOUR_OWN_TOKEN_HERE"

### Verbindung herstellen


Wir erstellen eine Funktion `connect_to_twitter()`, die das Bearer-Token aus der Umgebungsvariable abruft und Header zurückgibt, die zum Zugriff auf die API verwendet werden.


In [None]:
def connect_to_twitter():
    bearer_token = os.environ.get("BEARER_TOKEN")

    return {"Authorization": "Bearer {}".format(bearer_token)}

headers = connect_to_twitter()
print(headers)

Wenn alles korrekt eingerichtet ist, sollte die Verbindung zur Twitter API nun funktionieren. Mit der Funktion `connect_to_twitter()` wird das Bearer Token aus den Umgebungsvariablen ausgelesen und in den Headern gesetzt.

Erwartete Ausgabe:

```
{'Authorization': 'Bearer DEIN_BEARER_TOKEN_HIER'}
```

Wenn du diese Ausgabe siehst, bedeutet das, dass die **Authorization** erfolgreich gesetzt wurde und du nun Anfragen an die Twitter API stellen kannst.


Twitter hat kürzlich eine neue „ExtremeWeather Mini-Site“ eingeführt. Dies gibt einen guten Einblick in die auf Twitter verfügbaren Daten. Daher werden wir in diesem Beispiel einige aktuelle Tweets zum Thema #ExtremeWeather auf Twitter abrufen.


### Abrufen von Daten


Nun rufen wir die Twitter API auf, indem wir die Abfrageparameter auf „Extreme Weather“ setzen.


In [None]:
def make_request(headers):
    url = "https://api.twitter.com/2/tweets/search/recent"
    query_params = {'query': 'ExtremeWeather'}
    return requests.request("GET", url, params=query_params, headers=headers).json()
response = make_request(headers)
print(response)

Wir werden die im JSON-Format vorliegenden Daten in ein DataFrame umwandeln.


In [None]:
def make_dataset(response):
    return pd.DataFrame(response['data'])
extreme_weather_tweets = make_dataset(response)
extreme_weather_tweets

In [None]:
extreme_weather_tweets.info()

### Mehr Daten

In [None]:
def make_request(headers):
    url = "https://api.twitter.com/2/tweets/search/recent"
    query_params = {'query': 'ExtremeWeather -is:retweet',
    'max_results': 100,
    'tweet.fields': 'id,text,geo,conversation_id,created_at',
    'user.fields': 'id,name,username,location',
    'place.fields': 'full_name,country',
    'next_token': {}}
    return requests.request("GET", url, params=query_params, headers=headers).json()

response = make_request(headers)
print(response)

Es kann sein, dass die Twitter API v2 pro Token nur eine begrenzte Anzahl an Anfragen akzeptiert, weshalb Requests vermutlich nur alle **15 Minuten** erfolgreich verarbeitet werden.


Der Endpoint für die „recent search“ kann bis zu `max_results=100` Tweets pro Anfrage in umgekehrt chronologischer Reihenfolge liefern. Pagination Tokens werden verwendet, wenn mehr als die `max_results` passenden Tweets vorhanden sind. Die nächste Seite der Ergebnisse kann abgerufen werden, indem man die Anfrage anpasst und das Feld `next_token` aus dem vorherigen Ergebnis in das `next_token`-Feld der neuen Anfrage einfügt, anstatt es leer zu lassen. Es kann eine Schleife erstellt werden, um wiederholt Anfragen zu stellen, bis alle passenden Tweets gesammelt wurden.


In [None]:
def make_request_all(headers, nt):
    url = "https://api.twitter.com/2/tweets/search/recent"
    query_params = {'query': 'ExtremeWeather -is:retweet',
    'max_results': 100,
    'tweet.fields': 'id,text,geo,conversation_id,created_at',
    'user.fields': 'id,name,username,location',
    'place.fields': 'full_name,country',
    'next_token': nt}
    return requests.request("GET", url, params=query_params, headers=headers).json()

if 'data' in response:
    extreme_weather_tweets = pd.DataFrame(response['data'])
else:
    extreme_weather_tweets = pd.DataFrame()

for i in range(3):
    nt = response.get('meta', {}).get('next_token')
    if not nt:
        break
    response = make_request_all(headers, nt)
    print(response)
    extreme_weather_tweets = pd.concat([extreme_weather_tweets, pd.DataFrame(response.get('data', []))], ignore_index=True)


In [None]:
extreme_weather_tweets

In [None]:
extreme_weather_tweets.info()

### Daten sichern

In [None]:
extreme_weather_tweets.to_csv('data/extreme_weather_tweets.csv')

### Referenzen und Quellenangabe


References:

1) https://towardsdatascience.com/getting-started-with-data-collection-using-twitter-api-v2-in-less-than-an-hour-600fbd5b5558

2) https://towardsdatascience.com/collect-data-from-twitter-a-step-by-step-implementation-using-tweepy-7526fff2cb31

Collecting Data from Twitter by Bhawneet Singh is licensed under [CC BY NC SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/).