<a href="https://colab.research.google.com/github/redadmiral/python-for-journalists/blob/main/Scraper_REST_APIs.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Scraper: Offene REST-APIs nutzen

Die bequemste Art Informationen aus dem Internet zu beziehen, die nicht direkt als Download bereitgestellt werden, ist es herauszufinden, ob die Seite von der wir Informationen brauchen direkt auf eine Schnittstelle zugreift, die wir auch benutzen können.

Die Schnittstellen nennen sich auch APIs (Application Programming Interfaces) und sind der Weg, wie Computer im Internet miteinander reden. Die meisten Schnittstellen sind heute nach dem REST-Prinzip gestaltet - das heißt dass sie Daten in maschinenlesbarer Form übermittelt werden und die Antwort der API stabil bleibt.

Wahrscheinlich ohne es zu wissen, benutzt ihr ständig eine solche API: Auch euer Browser arbeitet mit Requests zu REST-APIs. Jede Webseite, die ihr aufruft wird über einen sogenannten GET-Request angefordert und übermittelt. 

## GET-Requests

Ganz einfach gesprochen ruft der Browser beim Server an, sagt was dem Server anhand der URL was er haben will und der Server schickt es ihm dann zurück.

Solche GET-Requests sind die einfachsten, weil alle Informationen direkt in der URL angegeben werden. Ein Beispiel dafür findest du auf meiner Homepage unter [api.marco-lehner.de](http://api.marco-lehner.de).

Die GET-Requests werden benutzt, um Internetseiten aufrufen zu können, aber auch von Computern bzw. Programmen, um Informationen auszutauschen. 

Hier ein kleines Beispiel:

Wenn ihr die folgende URL in eurem Browser aufruft:

[http://api.marco-lehner.de/get_json?number=1&multiplier=3](http://api.marco-lehner.de/get_json?number=1&multiplier=3)

Bekommt ihr folgende Antwort:

```
{"result":3}
```

Die API multipliziert einfach die beiden Zahlen die ihr in der URL angebt:

[http://api.marco-lehner.de/get_json?number=2&multiplier=3](http://api.marco-lehner.de/get_json?number=2&multiplier=3)

Bekommt ihr folgende Antwort:

```
{"result":6}
```

Diese Anfrage könnt ihr nicht nur mit eurem Browser machen, sondern auch mit Python. Dafür gibt es die `requests`-Bibliothek.


In [42]:
import requests

Und Requests stellt uns die Funktion `get()` zur Verfügung um damit solche GET-Requests ausführen zu können.

In [43]:
response = requests.get("http://api.marco-lehner.de/get_json?number=2&multiplier=3")
response

<Response [200]>

Die Antwort ist nicht sehr vielsagend. Wir erfahren dass ein Response-Objekt zurückkommt und die Zahl 200.

Die 200 ist der Status-Code. [Hier](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status) findet ihr eine Liste mit allen möglichen Status-Codes. Die wichtisten sind folgende:

- 200: Alles okay, der Request hat geklappt.
- 404: Die Seite konnte nicht gefunden werden.
- 500: Server kaputt.

Die Zahl 200 im Request sagt uns also dass alles geklappt hat.+

Wenn wir sehen wollen, was die API uns eigentlich zurückgegeben hat, müssen wir den Response mit der `.json()`-Methode aufrufen:

In [44]:
response.json()

{'result': 6}

Wenn der GET-Request kein JSON zurückliefert, wie in dem Fall wenn wir den folgenden Endpunkt ansprechen, wirft die `.json()`-Methode einen Fehler.

Hier rufen wir einen anderen Endpunkt auf, der uns ein kleines HTML-Dokument zurückgibt. Kopier den Link gerne in deinen Browser.

[http://api.marco-lehner.de/get_html?number=2](http://api.marco-lehner.de/get_html?number=2)

In [45]:
response = requests.get("http://api.marco-lehner.de/get_html?number=2&multiplier=3")
response.json()

JSONDecodeError: ignored

Dann können wir direkt auf das `.content`-Attribut zugreifen:

In [46]:
response.content

b'<h1>Result</h1> <p> 3 times 2 is 6</p>'

Der Response ist jetzt noch als Bytestring formatiert:

In [47]:
type(response.content)

bytes

Um mit ihm als normalem String arbeiten zu können, müssen wir ihn noch mit der `.decode()`-Methode decodieren. 

Dafür müssen wir den Zeichensatz angeben in dem der String decodiert ist. Meistens ist das `utf-8`.

In [48]:
response.content.decode("utf-8")

'<h1>Result</h1> <p> 3 times 2 is 6</p>'

Ein Indiz dafür, dass wir den falschen Zeichensatz gewählt haben ist es, wenn Umlaute falsch dargestellt werden. Meistens ist der String dann in `iso-8859-1` encodiert.

## POST-Requests

Ein bisschen schwerer zu verstehen sind POST-Requests. Diese Requests können nicht direkt über den Browser ausgeführt werden. 

Ein Beispiel dazu findest du unter dieser URL: [http://api.marco-lehner.de/post_json](http://api.marco-lehner.de/post_json).

Hier zeigt uns der Browser nur an:

```
{"detail":"Method Not Allowed"}
```

Das liegt daran, dass der Browser einen GET-Request an einen Endpunkt macht, der einen POST-Request erwartet.

In Python können wir aber einfach selbst festlegen, welche Art von Request wir ausführen wollen. POST-Requests können wir über die `post()`-Methode ausführen.

In [49]:
response = requests.post("http://api.marco-lehner.de/post_json")
response

<Response [422]>

Hier gibt uns requests einen `422`-Fehler zurück. Das liegt daran, dass POST-Requests eine sogenannte Payload erwarten. 

Das was wir vorher noch über die URL angegeben haben, schicken wir jetzt in einem JSON-Dokument mit. 

Dieser Endpunkt erwartet ein JSON-Dokument (oder ein `dict` in Python) mit folgender Struktur:

```json
{
  "number": int,
  "multiplier": int
}
```

Diese payload müssen wir zuerst festlegen und können sie dann der POST-Funktion mitgeben.

In [50]:
payload = {"number": 2, "multiplier": 3}

response = requests.post("http://api.marco-lehner.de/post_json", json=payload)
response.json()

{'result': 6}

Das mag jetzt erstmal umständlich erscheinen, aber mit POST-Requests können viel mehr Daten an den Server übermittelt werden als mit einem GET-Request, weil URLs nicht unendlich lang werden können. Deshalb werden sie häufig für komplexere Anfragen verwendet.

Es gibt noch eine Reihe weiterer Request-Arten (v.a. PUT und DELETE) aber diese sind für unsere Arbeit nicht sehr wichtig. Im Prinzip funktionieren sie genauso wie POST-Requests, also dass immer ein JSON mitgeschickt werden muss.

Man verwendet sie aber für andere Sachen, mit PUT-Requests werden normalerweise Dinge auf den Server hochgeladen und mit DELETE-Requests werden sie vom Server gelöscht.

## Finding Open APIs

Jetzt wissen wir wie wir REST-APIs ansprechen können, aber wie finden wir offene REST-APIs?

Dafür haben wir die Entwickler-Werkzeuge in unserem Browser, diese tauchen auf wenn ihr die F12-Taste in Chrome drückt. 

Hier könnt ihr euch anzeigen lassen, was beim Laden der Seite alles vom Server nachgeladen wird. Diese Einträge findet ihr im Reiter Network (Netzwerk).

Wenn ihr oben auf "Fetch/XHR" klickt, dann bekommt ihr nur noch die Requests angezeigt, bei denen strukturierte Daten über das XHR-Protokoll übertragen wurden. Das ist der für uns interessante Reiter.

Hier könnt ihr euch den richtigen Request raussuchen und mit rechts auf "Copy > Copy as cURL" klicken.

Das Ergebnis könnt ihr dann auf der Seite [https://curlconverter.com/](https://curlconverter.com/) in einen Python-Request umwandeln. 

In diesem Request ist dann alles enthalten, was auch der Browser an den Server geschickt hat und in den meisten Fällen bekommt ihr so auch die gleiche Antwort wie euer Browser.

Ein Beispiel für ein solches kopiertes cURL-Kommando seht ihr hier:

In [52]:
headers = {
    'Accept': 'application/json, text/plain, */*',
    'Accept-Language': 'en-US,en;q=0.9,de;q=0.8',
    'Authorization': 'Basic ZnJvbnRlbmQ6ZnJvbnRlbmQ=',
    'Connection': 'keep-alive',
    'Origin': 'https://xn--strungsauskunft-9sb.de',
    'Referer': 'https://xn--strungsauskunft-9sb.de/',
    'Sec-Fetch-Dest': 'empty',
    'Sec-Fetch-Mode': 'cors',
    'Sec-Fetch-Site': 'cross-site',
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36',
    'sec-ch-ua': '"Not A(Brand";v="24", "Chromium";v="110"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Linux"',
}

params = {
    'SectorType': '1',
}

response = requests.get('https://api-public.stoerungsauskunft.de/api/v1/public/outages', params=params, headers=headers)

content = response.json()

Das JSON-Objekt (bzw. das dict) können wir dann, solange es nicht zu verschachtelt ist, mit der funktion `.json_normalize()` in pandas laden und weiter bearbeiten:

In [53]:
import pandas as pd

stromausfaelle = pd.json_normalize(content)
stromausfaelle

Unnamed: 0,id,operatorId,subsection,type,origin,geoType,dateStart,dateEnd,lastUpdate,postalCode,...,internal,houseNr,photo,containerShape.coordinates,containerShape.envelope,containerShape.envelopeInternal.minX,containerShape.envelopeInternal.minY,containerShape.envelopeInternal.MaxX,containerShape.envelopeInternal.MaxY,containerShape.centerCoordinates
0,3644311,180,,2,5,2,02/27/2023 09:09:57,02/27/2023 09:54:15,02/27/2023 09:54:15,27580,...,0,,,,,,,,,
1,3644358,180,,2,5,2,02/27/2023 09:09:57,02/27/2023 09:56:14,02/27/2023 09:54:15,27580,...,0,,,,,,,,,
2,3644669,402,,1,1,2,02/27/2023 14:12:57,02/27/2023 17:31:47,02/27/2023 17:31:47,84371,...,0,,,,,,,,,
3,3644563,182,,2,5,2,02/27/2023 10:36:07,02/27/2023 15:48:54,02/27/2023 15:48:54,28201,...,0,,,,,,,,,
4,3644600,182,,2,5,2,02/27/2023 09:00:07,02/27/2023 15:48:54,02/27/2023 15:48:54,28205,...,0,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
447,3644554,42,,1,1,2,02/27/2023 12:50:14,02/27/2023 17:35:12,02/27/2023 17:35:12,14715,...,0,,,,,,,,,
448,3644558,402,,2,1,2,02/27/2023 13:00:00,02/27/2023 17:31:47,02/27/2023 17:31:47,86938,...,0,,,,,,,,,
449,3644559,402,,1,1,2,02/27/2023 12:46:00,02/27/2023 17:31:47,02/27/2023 17:31:47,94496,...,0,,,,,,,,,
450,3644546,402,,2,1,2,02/27/2023 12:30:00,02/27/2023 17:31:47,02/27/2023 17:31:47,94158,...,0,,,,,,,,,
