# Einführung in Python für die Computational Social Science (CSS)

## Jonas Volle
Wissenschaftlicher Mitarbeiter  
Chair of Methodology and Empirical Social Research  
Otto-von-Guericke-Universität

[jonas.volle@ovgu.de](mailto:jonas.volle@ovgu.de)

**Sprechstunde**: individuell nach vorheriger Anmeldung per [Mail](mailto:jonas.volle@ovgu.de)

Freitag, 07.07.2023

**Quelle:** Ich orientiere mich für diese Sitzung teils an den Kapiteln 4 und 5 aus dem Buch:  

McLevey, John. 2021. Doing Computational Social Science: A Practical Introduction. 1st ed. Thousand Oaks: SAGE Publications.

# Tag 3: APIs und Webscraping

## Inhalt

- API
- Webscraping


## Application Programming Interfaces

### Was ist ein API?

- **I**nterface (Benutzeroberfläche): Interaktion zwischen Mensch und Computer, um bestimmte Aufgaben zu erledigen, ohne dass er verstehen muss, wie diese Aufgabe tatsächlich ausgeführt wird.  
- Wie Benutzeroberflächen machen APIs schwierige Dinge einfacher, indem sie eine Menge von Prozessen auf niedriger Ebene abstrahieren. APIs bündeln Funktionen damit diese besonders leicht zu verstehen und zu verwenden sind.

### RESTful APIs
- Besondere Art von APIs, die auf dem REST (Representational State Transfer) Prinzip basieren.
- RESTful APIs ermöglichen die Kommunikation und den Datenaustausch zwischen verschiedenen Anwendungen über das Internet.
- RESTful APIs arbeiten nach dem Client-Server-Modell, wobei der Client Anfragen (Requests) an den Server sendet und der Server entsprechend antwortet.
- Die Daten werden normalerweise im JSON- oder XML-Format übertragen.
- RESTful APIs sind zustandslos, was bedeutet, dass jede Anfrage unabhängig ist und der Server keine Informationen über vergangene Anfragen speichert.
- Zugriff über Endpunkte (Endpoints)

### Requests mit Python
- Requests werden an einen bestimmten Endpunkt (Endpoint) gesendet in Form einer URL (APIs können verschiedene Enpoints haben!)
- Diese URL besteht aus verschiedenen Teilen, die wir so spezifizieren können (Suchbegriffe, Filter, Parameter etc.), sodass wir den gewünschten Inhalt zurück bekommen.
- Die meisten APIs haben *rate limits*, also Obergrenzen für Anfragen in einer bestimmten Zeitspanne. 

### API keys oder tokens
- Um Anfragen an einen API zu senden, benötigen wir in den meisten Fällen einen API key oder API token.
- API keys oder tokens funktionieren wie Benutzername und Passwort die uns identifizieren.
- Diese keys können auf der jeweiligen Webseite des APIs beantragt werden und werden uns dann zugewiesen.
- Es ist wichtig, dass wir diese Zugangsdaten nicht teilen, das heißt auch nicht direkt in unser Script schreiben.

### Responses
- Wenn wir eine GET-Anfrage an den API senden, bekommen wir im Gegenzug eine Antwort (response)
- In den meisten Fällen bekommen wir die Daten im `json`-Format zurück. Das steht für *JavaScript Object Notation*.
- `json` ist eine genestete Datenstruktur, die aussieht wie ein *dictionary* in Python und in der die Daten in *key-value* Paaren gespeichert sind.
- Mit dem Python Paket `json` können wir diese Datenstrukturen wie ein `dictionary` behandeln.
- Mit `pandas` Methode `.read_json()` können wir dieses Datenformat auch direkt in einen Dataframe umwandeln.

## The Guardian API

Die Zeitung 'The Guardian' bietet fünf verschiedene Endpunkte:

1. Der content-Endpoint liefert den Text und die Metadaten für veröffentlichte Artikel. Es ist möglich, die Ergebnisse mittels Suchanfragen abzufragen und zu filtern. Dieser Endpunkt ist wahrscheinlich der nützlichste für Forscher. 
2. Der tags-Endpunkt liefert API-Tags für mehr als 50.000 Ergebnisse, die in anderen API-Abfragen verwendet werden können. 
3. Der sections-ENdpunkt liefert Informationen über die Gruppierung veröffentlichter Artikel in Sektionen. 
4. Der editions-Endpunkt liefert Inhalte für jede der regionalen Hauptseiten: USA UK, Australien und International. 
5. Der single-Endpunkt Punkt liefert Daten für einzelne Elemente, einschließlich Inhalt, Tags und Abschnitte.

In vielen Fällen gibt es in Python schon Clients für einschlägige APIs. Diese Clients sind Pakete und beinhalten eine Reihe an Funktionen, die die Arbeit mit dem API erleichtert. In diesem Fall arbeiten wir aber mit dem `requests` Paket direkt mit dem API um die Logik hinter den API-Anfragen und Antworten zu verstehen.

### Zugriff auf den Guardian API

Zunächst müssen wir uns für einen API-key registrieren. Das geht hier: https://bonobo.capi.gutools.co.uk/register/developer

Nach der erfolgreichen Registrierung bekommen wir einen key zugesendet, den wir speichern müssen. Dafür erstellen wir eine Datei mit dem Namen `cred.py` im gleichen Ordner wie dieses Notebook. In dieser Datei weisen wir der Variable `GUARDIAN_KEY` den zugesendeten Key zu. Wenn wir git zur Versionskontrolle nutzen, können wir diese Datei der `.gitignore` Liste hinzufügen. Dann wird unser Key nicht synchronisiert.

In [None]:
GUARDIAN_KEY = 'paste_your_key_here'

Diese Datei können wir dann in unser Script importieren:

Wir verwenden ein Paket namens `requests`, um unsere API-Anfragen zu stellen. Sobald das Paket importiert wurde, können wir dies tun, indem wir die Methode `.get()` mit der Basis-API-URL für den Inhaltsendpunkt versehen. Außerdem erstellen wir ein Wörterbuch namens `PARAMS`, das ein Key-Values-Paar für unseren API-Schlüssel enthält. Später werden wir diesem Wörterbuch weitere Key-Values-Paare hinzufügen, um zu ändern, was die API zurückgibt.

In [None]:
# API Endpoint
API_ENDPOINT = 'http://content.guardianapis.com/search' 

# API Parameter
PARAMS = {} 

In [None]:
# GET request


# json Datei als dictionary speichern


In [None]:
# Unsere Anfrage besteht aus dieser URL:


In [None]:
# Was sind die keys des dictionaries?


Die Ergebnisse sind dem key `'results'` zugewiesen. Results besteht aus einem dictionary je Eintrag. Diese dictonaries befinden sich in einer Liste.

### Ergebnisse filtern
Wir können unserer API Anfrage noch weitere Parameter hinzufügen. Diese Parameter können wir der Dokumentation entnehmen: https://open-platform.theguardian.com/documentation/search

In [None]:
PARAMS = { 
    'api-key': GUARDIAN_KEY
}

Unsere Anfrage besteht aus dieser URL. Die Antwort können wir uns auch im Browser anschauen. Hierbei bietet sich eine json Erweiterung an, die das Ergebnis schön formatiert. Für Chrome z.B. JSONVue (https://chrome.google.com/webstore/detail/jsonvue/chklaanhfefbnpoihckbnefhakgolnmc)

In [None]:
# Unsere Anfrage besteht aus dieser URL.


Damit wir auch die Texte der Artikel mit ausgegeben bekommen, müssen wir unsere Parameter ändern und Felder hinzufügen:

In [None]:
PARAMS = {
    'api-key': GUARDIAN_KEY
} 

### Größere Anfragen senden

Bis jetzt haben wir nur Daten für 10 Artikel erhalten. Wenn wir mehr Artikel bekommen wollen, müssen wir ein weiteres Konzept von APIs verstehen:  
Jede Antwort enhält neben den results auch Metadaten:
- `response_dict['total']` --> Anzahl der Artikel
- `response_dict['pages']` --> Anzahl der Seiten
- `response_dict['pageSize']` --> Anzahl der Artikel je Seite
- `response_dict['currentPage']` --> Aktuelle Seite

APIs funktionieren wie Suchmaschinen, sie geben die Ergebnisse auf verschiedenen Seiten zurück. Wir können die oben genannten Parameter mit in unsere API-Anfrage aufnehmen, um etwa auf eine bestimmte Seite zu navigieren, oder die Größe der jeweiligen Seiten zu bestimmen. Wenn wir alle Ergebnisse haben möchten, müssen wir mit einem Loop über alle Seiten loopen.

Wir vergrößern die Anzahl der Artikel je Seite, indem wir den Parameter `page-size` erhöhen:

In [None]:
PARAMS = {
    'api-key': GUARDIAN_KEY
} 

response = requests.get(API_ENDPOINT, params=PARAMS) 
response_dict = response.json()['response']

Mit einem `while`-Loop können wir uns jede Seite des Ergbisses anzeigen lassen. Die Ergebnisse jeder Seite speichern wir in der List `all_results`. Damit wir nicht über die `rate-limits` des APIs kommen, können wir `time.sleep()` benutzen um, in jeder Runde ein bisschen zu warten.

### Ergebnisse speichern

Nun sollten wir unsere Daten auf unserer Festplatte speichern, um später auf sie zurückgreifen zu können, ohne den API überflüssig benutzen zu müssen. Es bietet sich auch an den Code für die Datenerhebung und Analyse zu trennen.  

Wir können unsere Daten mit dem `json` Modul auf unsere Festplatte schreiben:

In [None]:
import json

FILE_PATH = '../data/guardian_api_results.json'

with open(FILE_PATH, 'w') as outfile:
    json.dump(all_results, outfile)

So können wir die Daten dann wieder lesen:

In [None]:
FILE_PATH = '../data/guardian_api_results.json'

with open(FILE_PATH) as f:
    guardian_results = json.load(f)

### Ergebnisse in einem DataFrame speichern:

Mit dem Paket `BeautifulSoup` können wir aus dem html-body den reinen Text extrahieren. Das `beautifulSoup` Paket lernen wir im nächsten Abschnitt zum Webscraping geanuer kennen.

Die Date Variabel können wir in eine Pandas Datumsvariable verwandeln.

Wir können Spalten umbenennen:

In [None]:
# rename columns


... und eine Auswahl an Spalten als csv Datei speichern. Diese csv Datei können wir dann später wieder in einen Pandas DataFrame laden und analysieren.

## Twitter API

- Twitter bietet einen kostenlosen Zugang auf 1.500 Tweets im Monat an
- Für den Zugang ist ein Twitter Account nötig und die Registrierung im Developer Portal
- In Python gibt es verschiedene Pakete, die den API-Zugang erleichtern: `Tweepy` und `twarc`
- Sie finden bspw. hier ein Tutorial für `twarc`: https://melaniewalsh.github.io/Intro-Cultural-Analytics/04-Data-Collection/11-Twitter-API-Setup.html

## Web Scraping

- Webscraping Techniken benutzen wir, wenn wir keinen direkten Zugriff auf die Daten einer Webseite z.B. durch eine API haben
- Für Webscraping benötigen wir Grundkenntnisse in HTML und CSS
- Mit Webscraping Techniken ist es möglich von quasi jeder Webseite Daten zu extrahieren
- Beim Scrapen sollte sich aber immer an Ethische Standards gehalten werden!

In [None]:
'''
<html> 
    <head> 
    <title>This is a minimal example</title> 
    </head> 
    <body> 
        <h1>This is a first-level heading</h1> 
        <p>A paragraph with some <emph>italicized</emph> text. </p> 
        <p lang="en-us">American English sentence here...</p>
        <img src="image.pdf" alt=""> <p>A paragraph with some <strong>bold</strong> text. </p>
        <h2>This is a second-level heading</h2> 
        <ul> 
            <li>first list item</li> 
            <li>second list item</li> 
        </ul> 
    </body> 
</html>
'''

### div
Das Divisions-Tag div ist ein allgemeiner Container, der eine Website in kleinere Abschnitte unterteilt.

In [None]:
'''
<div>

</div>
'''

### css
- Die meisten Webseite trennen den Inhalt der Webseite von der Struktur und dem Style
- HTML sagt dem Browser, was ein bestimmter Text ist (z. B. eine Überschrift, ein Listenelement, eine Zeile in einer Tabelle, ein Absatz)
- CSS teilt dem Browser mit, wie der Text aussehen soll, wenn er im Browser gerendert wird (z. B. welche Schriftart für Zwischenüberschriften zu verwenden ist, wie groß der Text sein soll, welche Farbe der Text haben soll usw.)


In [None]:
'''
<div id='content' class='dcr1'>

</div>
'''

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np

In [None]:
url = 'https://www.theguardian.com/world/2020/apr/10/coronavirus-latest-at-a-glance-summary'

Mit dem `requests` Paket stellen wir eine `GET` Anfrage an die Webseite.

In [None]:
r = requests.get(url)

Mit der `BeautifulSoup` Funktion aus dem gleichnamigen Paket lesen wir das html.

In [None]:
soup = BeautifulSoup(r.content, 'html.parser')

In [None]:
print(soup.prettify())

In unserem Browser können wir die Webseite *untersuchen* und nach den Elementen suchen, die wir extrahieren möchten. Mit den Funktionen `.findAll()` oder `.find()` können wir nach den Elementen suchen.

Wir können uns eine Funktion bauen, um verschiedene Elemente auf der Webseite zu extrahieren:

Diese Funktion können wir auf eine Liste an urls anwenden. Hier auf die Liste der guardian urls:

Diese Liste aus Listen können wir ganz einfach in einen DataFrame umwandeln:

... und als csv Datei speichern

### Elemente auswählen

Jetzt möchten wir nicht immer nur Titel und Texte scrapen, sondern auch spezifische Felder auf einer Webseite. Mit Beautifulsoup können wir jedes html-Feld finden mit einem bestimmten Locator. Wir benutzen dafür die Funktion: `soup.find("html-container", {"class/id etc.": "class/id etc. name"})` oder `soup.find_all()`  

Beispielhaft schauen wir uns diese Webseite an: https://www.unimagazin.ovgu.de/Beitr%C3%A4ge/2022/Januar/F%C3%BCr+eine+starke+Gemeinschaft+brauchen+wir+vielf%C3%A4ltige+Talente.html

In [None]:
url = 'https://www.unimagazin.ovgu.de/Beitr%C3%A4ge/2022/Januar/F%C3%BCr+eine+starke+Gemeinschaft+brauchen+wir+vielf%C3%A4ltige+Talente.html'

In [None]:
soup = BeautifulSoup(requests.get(url).content, 'html.parser')

In [None]:
# Datum


In [None]:
# Titel des Beitrags


In [None]:
# Schlagwörter


In [None]:
# Autor


### Tabellen

- Tabellen sind in einem `<table> </table>` Container gespeichert
- Tabellen können Spaltennamen haben. Diese sind in `<thead> </thead>` gespeichert.
- Der Inhalt der Tabelle befindet sich in `<tbody> </tbody>`
- Zeilen befinden sich in `<tr> </tr>`
- Spalten in `<th> </th>`

In [None]:
table_html ='''
<table>
    <thead>
        <tr>
            <th>Überschrift 1</th>
            <th>Überschrift 2</th>
            <th>Überschrift 3</th>
        </tr>
    </thead>

    <tbody>
    <tr>
      <td><p>R1 - S1</p></td>
      <td><p>R1 - S2</p></td>
      <td><p>R1 - S3</p></td>
    </tr>
    
    <tr>
      <td><p>R2 - S1</p></td>
      <td><p>R2 - S2</p></td>
      <td><p>R2 - S3</p></td>
    </tr>
    
    <tr>
      <td><p>R3 - S1</p></td>
      <td><p>R3 - S2</p></td>
      <td><p>R3 - S3</p></td>
    </tr>

    </tbody>

</table>
'''

Manche Tabellen haben keine Überschrift im `thead`, sondern haben ihre `keys` in der ersten Spalte und die `values` in der zweiten Spalte. Das Datenformat ist dann ähnlich eines `dictionaries`. Genau so extrahieren wir die Informationen dann auch:

In [None]:
table_html_2 ='''
<table>
    <tbody>
    <tr>
      <td><p>Name</p></td>
      <td><p>Jonas</p></td>
    </tr>
    
    <tr>
      <td><p>Größe</p></td>
      <td><p>190</p></td>
    </tr>

    </tbody>

</table>
'''

**Beispiel**: Scopus Journal Classification Codes

In [None]:
url = 'https://service.elsevier.com/app/answers/detail/a_id/15181/supporthub/scopus/'

**Zeit für Übung 2**

### Webscraping mehrerer Seiten

Oft sind die Inhalte auf einer Webseite die wir extrahieren möchten auf unterschiedlichen Seiten gespeichert. Beispielhaft scrapen wir nun alle Artikel auf der Webseite: https://www.cyclingnews.com/

Zunächst lesen wir das html ein:

In [None]:
url = 'https://www.cyclingnews.com/news/'

In [None]:
soup = BeautifulSoup(requests.get(url).content, 'html.parser')

In [None]:
pp.pprint(soup)

Wir schauen uns nun als erstes die erste Seite an und erstellen eine Routine, die wir dann für jede Seite mittels eines Loops anwenden können.

Die Artikel sind in diesem Fall in einem `div` Container gespeichert. Mit der Funktion `.find_all()` finden wir alle `div` Container mit der gleichen Klasse.

Nun schauen wir uns den **ersten** div-Container an und entwickeln eine Routine, die wir dann auf alle Container anwenden können. Wir such in diesem Container nach den Informationen, die wir extrahieren möchten. Diese Elemente können wir in unserem Browser mit der 'untersuchen' Funktion lokalisieren und deren Indtifier in die `.find()` Funktion eintragen.

In [None]:
# link 


In [None]:
# title


In [None]:
# author


In [None]:
# time


Alle gewünschten Informationen sammeln wir nun in einer Funktion, die wir dann auf alle div-Container loslassen können. Hier verwenden wir try/except Blöcke um mit möglichen Fehlern umgehen zu können.

Jetzt versuchen wir nicht nur eine Seite zu scrapen, sondern mehrere Seite mit Hilfe eines Loops:

In [None]:
# Liste mit allen Seiten:

In [None]:
# Loop über jede Seite:


Da wir nun eine List von Listen von Listen haben, müssen wir diese Liste flacher machen, d.h. in eine Liste aus Listen verwandeln. Das geht mit diesem kleinen Code-Schnipsel:

In [None]:
# flatten list
all_results_flat = [i for s in all_results for i in s]
all_results_flat

Diese Liste aus Listen können wir nun in einen DataFrame umwandeln.

In [None]:
# list to DataFrame


Nun haben wir eine Tabelle mit allen Artikeln auf der Webseite. Der Text ist aber noch nicht enthalten, da dieser auf einer eigenen Webseite ist. Wir haben aber alle urls dieser Unterwebseiten. Das heißt wir können mit einem Loop über alle Webseiten loopen und dort den entsprechenden Text extrahieren. hierzu schreiben wir zunächst eine Funktion, die wir dann auf alle webseiten anwenden können.

In [None]:
# scrape text for every article

In [None]:
url = 'https://www.cyclingnews.com/news/tour-de-france-femmes-to-start-in-rotterdam-in-2024/'

Diese Funktion wenden wir nun auf alle urls an. Dafür benutzen wir einen for-Loop:

Nun haben wir einen DataFrame mit den Metadaten (url, titel, author etc.) und einen DataFrame mit den jeweiligen Texten und der url. Beide DataFrames können wir nun anhand der url mergen:

In [None]:
# export


**Zeit für Übung 3**

### Ethische und rechtliche Einschränkungen beim Webscrapen

- Auch wenn es möglich ist jeden Part einer Webseite automatisiert zu extrahieren, heißt das NICHT, dass wir das auch dürfen!
- Manche Webseiten verbieten webscraping in ihren Nutzungsbedingungen, und in einigen Fällen können diese Webseits rechtliche Schritte einleiten, wenn wir diese Daten irgendwo verwenden
- Wir wollen auf jeden Fall vermeiden, dass uns beim Web Scraping rechtliche Schritte drohen
- Bitte Prüfen Sie immer die Nutzungsbedingungen der Websites, die Sie scrapen.
- Als allgemeine Regel gilt: Wenn Websites den Zugang zu Daten in großem Umfang ermöglichen wollen, werden sie eine API einrichten, um sie bereitzustellen
- Wenn dies nicht der Fall ist, sollten Sie darauf verzichten, Daten in großem Umfang zu sammeln, und Ihre Datenerfassung auf das beschränken, was Sie benötigen, anstatt alle Daten zu sammeln und später zu filtern
- Manche Websites verweigern den Dienst, wenn wir zu viele Anfragen stellen

Die am weitesten verbreitete Position in der Wissenschaft zu Webscraping scheint zu sein, dass öffentliche Online-Inhalte mit denselben Standards behandelt werden sollten, die man auch bei der Beobachtung von Menschen in öffentlichen Umgebungen anwenden würde, wie es z.B. Ethnographen tun (vgl. McLLevey 2021).