# Datenjournalismus in Python - 
# Eine praktische Einführung in die Programmierung


### Natalie Widmann




Wintersemester 2022 / 2023


Universität Leipzig





## Organisation

![Timeline](../imgs/kursplan.png)

## Organisation

- Aufzeichnung der Veranstaltung


# Teil III - APIs und Webscraping


## Ein API bietet im Vergleich zu Dateien folgende Vorteile:


- **Schnellere Datenübertragung**: API's ermöglichen es, direkt auf die Daten zuzugreifen und sie in Echtzeit abzurufen, während bei Datendateien die Daten zunächst heruntergeladen und dann verarbeitet werden müssen.


- **Flexibilität**: API's erlauben es, Daten in verschiedenen Formaten abzurufen und anzupassen, während Datendateien oft in einem festen Format vorliegen und nicht so leicht verändert werden können.


- **Integration**: API's können leicht in bestehende Systeme integriert werden, während Datendateien oft manuell importiert und verarbeitet werden müssen.


- **Sicherheit**: API's bieten oft zusätzliche Sicherheitsfunktionen wie Authentifizierung und Verschlüsselung, um die Daten vor unbefugtem Zugriff zu schützen.


- **Skalierbarkeit**: API's ermöglichen es, Daten in großen Mengen abzurufen und zu verarbeiten, ohne dass die Leistung des Systems beeinträchtigt wird.




## Vorlesung 8 - Inhalte

- Was sind APIs?
- Wie können wir Daten mit APIs abrufen und verarbeiten?
- Wie und wo können wir Daten speichern?


## Twitter Demo


In [51]:
import requests

# Lade Twitter API Token und erstelle den Header
with open('.env', 'r') as f:
    TOKEN = f.readline()
headers = {"Authorization": "Bearer {}".format(TOKEN)}

# Suchterm und Parameter
keyword = "Musk lang:de"
params = {'query': keyword,
          'max_results': 10
         }

# API request
url = "https://api.twitter.com/2/tweets/search/recent"
response = requests.request('GET', url, headers=headers, params=params)
data = response.json()['data']

# Ausgabe der Tweets
for tweet in data:
    print(tweet['text'] + '\n')

RT @Rot_Okt: Elon Musk hat dem Journalisten Matt Taibbi kürzlich Tausende Twitter-Dokumente übergeben, damit er sie auswertet. Das bisherig…

@realTomBohn @MpStephanWeil Er hat allerdings Recht. Elon Musk hat die Schleusen geöffnet.

RT @maltewelding: Ich bin nicht etwa nicht sauer, sondern nur enttäuscht, ich bin so wütend wie Böhmermann auf Terfs, wie Twitter auf Musk,…

RT @OGwanKeemobi: Guten Morgen an alle außer elon musk dich werde ich 🔪🔪 du weist schon

elon musk fans überweisen ihren vermietern 10% mehr als freiwilligen inflationsausgleich

RT @Dennis_Hohloch: Elon #Musk legt interne Dokumente zur #Zensur bei #Twitter offen und vergleicht die Veröffentlichung mit der der #Stasi…

RT @reitschuster: Interne-Twitter Dokumente belegen politische Zensur.
Elon Musk räumt auf: Was er jetzt über die Zensurpraxis  der „Linken…

Immer mehr wird klar, wie Twitter ganz gezielt demokratische Wahlen beeinflusst hat. Die damalig Verantwortlichen sind vor Gericht zu stellen! 

https://t.co/P6m

## Was ist eine API?

Eine API (Application Programming Interface) ist eine Schnittstelle, die es Software-Programmen ermöglicht, miteinander zu kommunizieren und Daten auszutauschen. Sie stellt eine spezifizierte Menge von Funktionen und Protokollen bereit, die von anderen Programmen genutzt werden können, um zum Beispiel auf bestimmte Daten zuzugreifen oder bestimmte Funktionen auszuführen.

Ein einfaches Beispiel für die Nutzung einer API ist die Integration von Wetterdaten in eine App. Die App nutzt dabei die Funktionen und Protokolle der Wetter-API, um aktuelle Wetterdaten von einer Wetter-Website abzurufen und in der App anzuzeigen.


![API](../imgs/API.png)

### Unser erster API Request in Python

Wir testen die [Open Notify API](http://open-notify.org/) die anzeigt wie viele Menschen gerade im All sind.



Dafür benutzen wir das `requests` python package.

Dokumentation: https://requests.readthedocs.io/en/latest/

In [55]:
!pip install requests

Defaulting to user installation because normal site-packages is not writeable


In [56]:
import requests

Um Daten einer API abzufragen verwendet man einen sogenannten `GET` request.
Dafür hat das `request` package die Funktion `requests.get()`.
Diese nimmt als Argument die url entgegen.



In [57]:
url = 'http://api.open-notify.org/astros.json'
response = requests.get(url)

In [59]:
response

<Response [200]>

In [58]:
dir(response)

['__attrs__',
 '__bool__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__enter__',
 '__eq__',
 '__exit__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__nonzero__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_content',
 '_content_consumed',
 '_next',
 'apparent_encoding',
 'close',
 'connection',
 'content',
 'cookies',
 'elapsed',
 'encoding',
 'headers',
 'history',
 'is_permanent_redirect',
 'is_redirect',
 'iter_content',
 'iter_lines',
 'json',
 'links',
 'next',
 'ok',
 'raise_for_status',
 'raw',
 'reason',
 'request',
 'status_code',
 'text',
 'url']

### Status Codes

Die Antwort eines request, enthält einen response Code der sagt ob die Anfrage erfolgreich war.

Der Status Code wird über `.status_code` abgerufen.

In [60]:
response.status_code

200

### Die häufigsten HTTP-API-Statuscodes


- **200 OK**: Der Server hat die Anfrage erfolgreich verarbeitet und die gewünschte Ressource zurückgegeben.


- **301 Moved Permanently**: Die angeforderte Ressource wurde permanent an eine andere URL umgeleitet.


- **400 Bad Request**: Die Anfrage konnte aufgrund eines Syntaxfehlers oder ungültiger Anfrageparameter nicht verarbeitet werden.


- **401 Unauthorized**: Der Server konnte die Anfrage nicht authentifizieren und fordert daher eine gültige Anmeldung.


- **403 Access Forbidden**: Die Zugansdaten sind für die Abfrage nicht ausreichend.


- **404 Not Found**: Die angeforderte Ressource wurde vom Server nicht gefunden.


- **500 Internal Server Error**: Der Server hat einen internen Fehler und kann die Anfrage nicht verarbeiten.



### API Data

Die Daten der API können über `.json()` abgerufen werden.

In [61]:
data = response.json()

In [62]:
data

{'people': [{'craft': 'Tiangong', 'name': 'Cai Xuzhe'},
  {'craft': 'Tiangong', 'name': 'Chen Dong'},
  {'craft': 'Tiangong', 'name': 'Liu Yang'},
  {'craft': 'ISS', 'name': 'Sergey Prokopyev'},
  {'craft': 'ISS', 'name': 'Dmitry Petelin'},
  {'craft': 'ISS', 'name': 'Frank Rubio'},
  {'craft': 'ISS', 'name': 'Nicole Mann'},
  {'craft': 'ISS', 'name': 'Josh Cassada'},
  {'craft': 'ISS', 'name': 'Koichi Wakata'},
  {'craft': 'ISS', 'name': 'Anna Kikina'},
  {'craft': 'Shenzhou 15', 'name': 'Fei Junlong'},
  {'craft': 'Shenzhou 15', 'name': 'Deng Qingming'},
  {'craft': 'Shenzhou 15', 'name': 'Zhang Lu'}],
 'number': 13,
 'message': 'success'}

In [63]:
type(data)

dict

#### Welche Daten sind verfügbar?

Zeige alle Keys im Dictionary an.

dict_keys(['people', 'number', 'message'])

Zeige die Anzahl an Menschen an, die gerade im All ist

Drucke die Namen aller Menschen im All aus

## Daten speichern & Laden

In [35]:
# Daten speichern
import json
with open("astronauts.json", "w") as outfile:
    json.dump(data, outfile)

In [65]:
# Daten laden
with open("astronauts.json", "r") as openfile:
    new_data = json.load(openfile)

In [None]:
new_data

## Dateipfade


In Python, es gibt zwei Arten von Dateipfaden: **relative Pfade** und **absolute Pfade**.


**Absolute Pfade** sind Pfade, die von der Wurzel des Dateisystems ausgehen. Zum Beispiel, wenn die Datei "data.txt" in dem Ordner `C:\users\meinname` gespeichert ist, würde der absolute Pfad zu dieser Datei `C:\users\meinname\data.txt` lauten.


**Relative Pfade** sind Pfade, die sich auf einen Pfad beziehen, der von dem aktuellen Verzeichnis des Programms ausgeht. Zum Beispiel, wenn Sie eine Datei namens `data.txt` in demselben Ordner speichern, in dem Ihr Python-Skript liegt, würde der relative Pfad zu dieser Datei `data.txt` lauten.



In [68]:
relativer_pfad = 'data.txt'
with open(relativer_pfad, "w") as f:
    f.write('Das ist ein Testtext.')

### Anzeigen des aktuellen Dateipfades

In [73]:
import os
os.getcwd()

'/home/natalie/Documents/Datenjournalismus in Python/Code/vorlesung'

In [69]:
absoluter_pfad = '/home/natalie/Documents/Datenjournalismus in Python/Code/vorlesung/'
filename = 'data.txt'

pfad = ab
with open(absoluter_pfad, "r") as f:
    test = f.read()

In [70]:
test

'Das ist ein Testtext.'

#### Relative Pfade

Bei relativen Dateipfaden können wir mit `..` eine Ebene höher navigieren.

`./` bedeutet im aktuellen Verzeichnis.



In [77]:
# Erstelle einen Ordner eine Ebene höher als das aktuelle Arbeitsverzeichnis
import os
os.mkdir('../testdata')

In [78]:
# Speichere eine Datei in dem neuen Ordner
relativer_pfad = '../testdata/data.txt'
with open(relativer_pfad, "w") as f:
    f.write('Das ist ein Testtext 2.')

# Zeit für Feedback



Link: https://ahaslides.com/JQFRG

![Feedback QR Code](../imgs/qrcode_vl8.png)

