# Einführung in Python für die Computational Social Science (CSS)

## Jonas Volle
Wissenschaftlicher Mitarbeiter  
Chair of Methodology and Empirical Social Research  
Otto-von-Guericke-Universität

[jonas.volle@ovgu.de](mailto:jonas.volle@ovgu.de)

**Sprechstunde**: individuell nach vorheriger Anmeldung per [Mail](mailto:jonas.volle@ovgu.de)

Donnerstag, 20.06.2024

**Quelle:** Ich orientiere mich für diese Sitzung teils an den Kapiteln 4 und 5 aus dem Buch:  

McLevey, John. 2021. Doing Computational Social Science: A Practical Introduction. 1st ed. Thousand Oaks: SAGE Publications.

# Session 5: APIs

## Inhalt

- Besprechung der Übung 2 von letzter Woche
- API

## Application Programming Interfaces

### Was ist ein API?

- **I**nterface (Benutzeroberfläche): Interaktion zwischen Mensch und Computer, um bestimmte Aufgaben zu erledigen, ohne dass er verstehen muss, wie diese Aufgabe tatsächlich ausgeführt wird.  
- Wie Benutzeroberflächen machen APIs schwierige Dinge einfacher, indem sie eine Menge von Prozessen auf niedriger Ebene abstrahieren. APIs bündeln Funktionen damit diese besonders leicht zu verstehen und zu verwenden sind.

### RESTful APIs
- Besondere Art von APIs, die auf dem REST (Representational State Transfer) Prinzip basieren.
- RESTful APIs ermöglichen die Kommunikation und den Datenaustausch zwischen verschiedenen Anwendungen über das Internet.
- RESTful APIs arbeiten nach dem Client-Server-Modell, wobei der Client Anfragen (Requests) an den Server sendet und der Server entsprechend antwortet.
- Die Daten werden normalerweise im JSON- oder XML-Format übertragen.
- RESTful APIs sind zustandslos, was bedeutet, dass jede Anfrage unabhängig ist und der Server keine Informationen über vergangene Anfragen speichert.
- Zugriff über Endpunkte (Endpoints)

### Requests mit Python
- Requests werden an einen bestimmten Endpunkt (Endpoint) gesendet in Form einer URL (APIs können verschiedene Enpoints haben!)
- Diese URL besteht aus verschiedenen Teilen, die wir so spezifizieren können (Suchbegriffe, Filter, Parameter etc.), sodass wir den gewünschten Inhalt zurück bekommen.
- Die meisten APIs haben *rate limits*, also Obergrenzen für Anfragen in einer bestimmten Zeitspanne. 

### API keys oder tokens
- Um Anfragen an einen API zu senden, benötigen wir in den meisten Fällen einen API key oder API token.
- API keys oder tokens funktionieren wie Benutzername und Passwort die uns identifizieren.
- Diese keys können auf der jeweiligen Webseite des APIs beantragt werden und werden uns dann zugewiesen.
- Es ist wichtig, dass wir diese Zugangsdaten nicht teilen, das heißt auch nicht direkt in unser Script schreiben.

### Responses
- Wenn wir eine GET-Anfrage an den API senden, bekommen wir im Gegenzug eine Antwort (response)
- In den meisten Fällen bekommen wir die Daten im `json`-Format zurück. Das steht für *JavaScript Object Notation*.
- `json` ist eine genestete Datenstruktur, die aussieht wie ein *dictionary* in Python und in der die Daten in *key-value* Paaren gespeichert sind.
- Mit dem Python Paket `json` können wir diese Datenstrukturen wie ein `dictionary` behandeln.
- Mit `pandas` Methode `.read_json()` können wir dieses Datenformat auch direkt in einen Dataframe umwandeln.

## The Guardian API

Die Zeitung 'The Guardian' bietet fünf verschiedene Endpunkte:

1. Der content-Endpoint liefert den Text und die Metadaten für veröffentlichte Artikel. Es ist möglich, die Ergebnisse mittels Suchanfragen abzufragen und zu filtern. Dieser Endpunkt ist wahrscheinlich der nützlichste für Forscher:innen. 
2. Der tags-Endpunkt liefert API-Tags für mehr als 50.000 Ergebnisse, die in anderen API-Abfragen verwendet werden können. 
3. Der sections-Emdpunkt liefert Informationen über die Gruppierung veröffentlichter Artikel in Sektionen. 
4. Der editions-Endpunkt liefert Inhalte für jede der regionalen Hauptseiten: USA UK, Australien und International. 
5. Der single-Endpunkt Punkt liefert Daten für einzelne Elemente, einschließlich Inhalt, Tags und Abschnitte.

In vielen Fällen gibt es in Python schon Clients für einschlägige APIs. Diese Clients sind Pakete und beinhalten eine Reihe an Funktionen, die die Arbeit mit dem API erleichtert. In diesem Fall arbeiten wir aber mit dem `requests` Paket direkt mit dem API um die Logik hinter den API-Anfragen und Antworten zu verstehen.

### Zugriff auf den Guardian API

Zunächst müssen wir uns für einen API-key registrieren. Das geht hier: https://bonobo.capi.gutools.co.uk/register/developer

Nach der erfolgreichen Registrierung bekommen wir einen key zugesendet, den wir speichern müssen. Dafür erstellen wir eine Datei mit dem Namen `cred.py` im gleichen Ordner wie dieses Notebook. In dieser Datei weisen wir der Variable `GUARDIAN_KEY` den zugesendeten Key zu. Wenn wir git zur Versionskontrolle nutzen, können wir diese Datei der `.gitignore` Liste hinzufügen. Dann wird unser Key nicht synchronisiert.

In [None]:
GUARDIAN_KEY = 'paste_your_key_here'

Diese Datei können wir dann in unser Script importieren:

Wir verwenden ein Paket namens `requests`, um unsere API-Anfragen zu stellen. Sobald das Paket importiert wurde, können wir dies tun, indem wir die Methode `.get()` mit der Basis-API-URL für den Inhaltsendpunkt versehen. Außerdem erstellen wir ein Wörterbuch namens `PARAMS`, das ein Key-Values-Paar für unseren API-Schlüssel enthält. Später werden wir diesem Wörterbuch weitere Key-Values-Paare hinzufügen, um zu ändern, was die API zurückgibt.

In [None]:
# API Endpoint
API_ENDPOINT = 'http://content.guardianapis.com/search' 

# API Parameter
PARAMS = 

In [None]:
# GET request


# json Datei als dictionary speichern


In [None]:
# Unsere Anfrage besteht aus dieser URL:


In [None]:
pp.pprint(response_dict)

In [None]:
# Was sind die keys des dictionaries?


Die Ergebnisse sind dem key `'results'` zugewiesen. Results besteht aus einem dictionary je Eintrag. Diese dictonaries befinden sich in einer Liste.

### Ergebnisse filtern
Wir können unserer API Anfrage noch weitere Parameter hinzufügen. Diese Parameter können wir der Dokumentation entnehmen: https://open-platform.theguardian.com/documentation/search

In [None]:
PARAMS = { 
    'api-key': GUARDIAN_KEY
}

In [None]:
response = requests.get(API_ENDPOINT, params=PARAMS)
response_dict = response.json()['response']

Unsere Anfrage besteht aus dieser URL. Die Antwort können wir uns auch im Browser anschauen. Hierbei bietet sich eine json Erweiterung an, die das Ergebnis schön formatiert. Für Chrome z.B. JSONVue (https://chrome.google.com/webstore/detail/jsonvue/chklaanhfefbnpoihckbnefhakgolnmc)

In [None]:
# Unsere Anfrage besteht aus dieser URL.
response.url

Damit wir auch die Texte der Artikel mit ausgegeben bekommen, müssen wir unsere Parameter ändern und Felder hinzufügen:

In [None]:
PARAMS = {
    'api-key': GUARDIAN_KEY,
    'from-date': '2024-06-14',
    'to-date': '2024-06-19',
    'lang': 'en',
    'production-office': 'uk',
    'q': 'germany'
} 

In [None]:
response = requests.get(API_ENDPOINT, params=PARAMS) 
response_dict = response.json()['response']

In [None]:
# response.url

In [None]:
response_dict['results']

### Größere Anfragen senden

Bis jetzt haben wir nur Daten für 10 Artikel erhalten. Wenn wir mehr Artikel bekommen wollen, müssen wir ein weiteres Konzept von APIs verstehen:  
Jede Antwort enhält neben den results auch Metadaten:
- `response_dict['total']` --> Anzahl der Artikel
- `response_dict['pages']` --> Anzahl der Seiten
- `response_dict['pageSize']` --> Anzahl der Artikel je Seite
- `response_dict['currentPage']` --> Aktuelle Seite

APIs funktionieren wie Suchmaschinen, sie geben die Ergebnisse auf verschiedenen Seiten zurück. Wir können die oben genannten Parameter mit in unsere API-Anfrage aufnehmen, um etwa auf eine bestimmte Seite zu navigieren, oder die Größe der jeweiligen Seiten zu bestimmen. Wenn wir alle Ergebnisse haben möchten, müssen wir mit einem Loop über alle Seiten loopen.

Wir vergrößern die Anzahl der Artikel je Seite, indem wir den Parameter `page-size` erhöhen:

In [None]:
PARAMS = {
    'api-key': GUARDIAN_KEY,
    'from-date': '2024-06-14',
    'to-date': '2024-06-19',
    'lang': 'en',
    'production-office': 'uk',
    'q': 'germany',
    'show-fields': 'wordcount,body,byline'
} 

response = requests.get(API_ENDPOINT, params=PARAMS) 
response_dict = response.json()['response']

Mit einem `while`-Loop können wir uns jede Seite des Ergbisses anzeigen lassen. Die Ergebnisse jeder Seite speichern wir in der List `all_results`. Damit wir nicht über die `rate-limits` des APIs kommen, können wir `time.sleep()` benutzen um, in jeder Runde ein bisschen zu warten.

In [None]:
import time

### Ergebnisse speichern

Nun sollten wir unsere Daten auf unserer Festplatte speichern, um später auf sie zurückgreifen zu können, ohne den API überflüssig benutzen zu müssen. Es bietet sich auch an den Code für die Datenerhebung und Analyse zu trennen.  

Wir können unsere Daten mit dem `json` Modul auf unsere Festplatte schreiben:

In [None]:
import json

In [None]:
FILE_PATH = '../data/guardian_api_results.json'

with open(FILE_PATH, 'w') as outfile:
    json.dump(all_results, outfile)

So können wir die Daten dann wieder lesen:

In [None]:
FILE_PATH = '../data/guardian_api_results.json'

with open(FILE_PATH) as f:
    guardian_results = json.load(f)

In [None]:
guardian_results[0:5]

### Ergebnisse in einem DataFrame speichern:

In [None]:
import pandas as pd

### Dataframe aufräumen

Mit dem Paket `BeautifulSoup` können wir aus dem html-body den reinen Text extrahieren.

In [None]:
from bs4 import BeautifulSoup

In [None]:
all_results_df['text'] = [BeautifulSoup(i, "html.parser").text for i in all_results_df['fields.body']]

In [None]:
all_results_df[['webTitle','fields.body', 'text']].head()

In [None]:
all_results_df['text'][0]

Die Date Variabel können wir in eine Pandas Datumsvariable verwandeln.

Wir können Spalten umbenennen:

In [None]:
# rename columns


... und Spalten auswählen.

In [None]:
all_results_df_f = all_results_df[['id', 'article_date', 'section_name', 'pillar_name',
                                   'article_title', 'article_url', 
                                   'article_author', 'text']].copy()

In [None]:
all_results_df_f.head()

### Arbeiten mit Zeireihendaten

In [None]:
all_results_df_f[['article_title', 'article_author', 'article_date']].head()

Die Felder des Datetime-Objekts lauten der Reihe nach wie folgt: Jahr-Monat-Tag Stunde:Minute: Sekunde:Mikrosekunde. Zum Abrufen einer ganzen Zahl, die dem Monat entspricht, in dem der Artikel veröffentlicht wurde:

Erstellen wir neue Variablen für das Jahr, den Monat und den Tag, an dem die einzelnen Tweets erstellt wurden. Dazu können wir die Attribute "Jahr", "Monat" und "Tag" des datetime-Objekts verwenden:

In [None]:
all_results_df_f['Year'] = 
all_results_df_f['Month'] = 
all_results_df_f['Day'] = 

Wenn unsere Datums- und Zeitvariablen als datetime-Objekte gespeichert werden, können wir auf viele zeitspezifische Attribute mit der Punktnotation zugreifen. Die Pandas-Dokumentation enthält viele Beispiele für die Arten von zeitlichen Einheiten und andere Funktionen. Wir können unseren dataframe auch auf der Grundlage von publish_date sortieren, da Pandas weiß, dass es mit datetime-Objekten arbeitet:

Pandas bietet spezielle Werkzeuge für die Gruppierung von Daten in verschiedene Zeitsegmente. Dies beinhaltet die Konvertierung einer Zeitserie von einer Ebene in eine andere (z. B. von Tagen in Wochen) und wird als Resampling bezeichnet. Im Rahmen des Resamplings aggregiert das Upsampling Daten/Zeiten und das Downsampling disaggregiert Daten/Zeiten. Nehmen wir ein Upsampling unserer Daten vor, um die Anzahl der Artikel pro Tag darzustellen.  

Als Erstes verwenden wir das datetime-Objekt article_date als Index. Auf diese Weise können wir die Beobachtungen leicht nach dem Datumgruppieren.

Wir können nun die Methode .resample() mit dem Argument D verwenden, um anzugeben, dass wir nach Tagen gruppieren wollen. Tabelle 6.2 enthält einige weitere Optionen, die Sie bei der erneuten Stichprobenziehung von Daten verwenden können.

In [None]:
# B         business day frequency
# C         custom business day frequency (experimental)
# D         calendar day frequency
# W         weekly frequency
# M         month end frequency
# SM        semi-month end frequency (15th and end of month)
# BM        business month end frequency
# CBM       custom business month end frequency
# MS        month start frequency
# SMS       semi-month start frequency (1st and 15th)
# BMS       business month start frequency
# CBMS      custom business month start frequency
# Q         quarter end frequency
# BQ        business quarter endfrequency
# QS        quarter start frequency
# BQS       business quarter start frequency
# A         year end frequency
# BA, BY    business year end frequency
# AS, YS    year start frequency
# BAS, BYS  business year start frequency
# BH        business hour frequency
# H         hourly frequency
# T, min    minutely frequency
# S         secondly frequency
# L, ms     milliseconds
# U, us     microseconds
# N         nanoseconds

Wir werden auch die Methode .size() verwenden, um die Anzahl der Artikel zu bestimmen, die jeden Tag veröffentlicht wurden:

An dieser Stelle werden wir die Ergebnisse unserer Arbeit mit einem Liniendiagramm visualisieren. Dazu verwenden wir die Pakete Seaborn und Matplotlib.

### Wie können wir die Daten noch analysieren?

### Zum Schluss: Daten exportieren