# REQUESTS EINFÜHRUNG / PEER MENTORING DAY 22.06.2021

## Task:
"Für die Vorbereitung möchten wir euch bitten, dass jede von euch sich einem der Python-Pakete widmet und eine kurze, 15-minütige Einführung dazu vorbereitet. Das Ziel des Peer-Mentorings ist es, dass wir uns gemeinsam im Hinblick auf den Workshop mit allen benötigen Paketen vertraut machen."

***
![image-4.png](attachment:image-4.png)

# 0. Was ist Python Requests? 

* "HTTP for Humans": Anwenderfreundliche HTTP (Hypertext Transfer Protocol) Library
* Hilfsfunktion in Python
* Ein Modul, das dafür verwendet wird, HTTP Requests zu senden, das heisst, Informationen von Websiten zu erhalten, insbesondere dazu, wie sich Daten innerhalb dieser bewegen)
* Eine der am meisten heruntergeladeten Libraries in Python
* Apache 2.0 lizensiert

# 1. Wofür wid das Paket benötigt? 
## 1.1 Allgemein

- Tätigen von HTTP (HyperText Transfer Protocol) Anfragen (Requests)
> "Unter einem HTTP-Request versteht man die Anfrage eines HTTP-Clients (z. B. dem Browser) an den HTTP-Server. Jeder Request wird durch die Angabe einer Methode eingeleitet, um dem Server zu sagen, was er mit dem Request machen soll." (Quelle: https://kulturbanause.de/faq/http-request/, 21.6.21)
- Wenn eine Website besucht wird, dann stellt der Browser mehrere Anfragen (Requests) an den Server. Dies sind HTTP-Anfragen. Und der Server antwortet mit allen notwendigen Daten, die für die Darstellung der Website notwendig sind. Der Browser empfängt diese Daten, und stellt sie dann dar. 
-  Anstatt dem Browser kann auch ein Python-Skript eine Anfrage senden.
- Browser, Pythonskript werden in dem Fall beide als Client verstanden. 
- Die angefragten Daten werden via URL abgerufen und dem Client als Antwort (Response) zurückgegeben, der entscheiden kann, was mit den Daten zu tun ist. 
![image-2.png](attachment:image-2.png) 
- Die häufigsten verwendeten Request Methoden sind »GET« und »POST«.
- GET-Anfragen dienen normalerweise nur zum Lesen von Daten, ohne dass eine Änderung an etwas vorgenommen wird, während POST- und PUT-Anfragen im Allgemeinen dazu dienen, Daten auf dem Server zu ändern. 

### Wichtigste HTTP-Methoden: 

* GET ... wird verwendet, um Daten von einem Teil eines Servers abzurufen ("Retrieve")
* POST ... wird verwendet, um Daten an einen Server zu senden, um einen Teil davon zu erschaffen oder zu ergänzen.
* PUT ... wird verwendet, um Daten in einem Teilbereich des Servers zu ersetzen  
* DELETE ... wird verwendet, um Daten in einem Teilbereich des Servers zu löschen

## 1.2 Spezifische Beispiele

* Source Code einer Website erhaschen
* Bilderdownloads
* Senden von Formulardaten, inkl. Authentifikation
* Lesen von JSON Responses
* Filtern von Antworten an Anfragen an eine API gemäss bestimmten Parametern

# 2. Was sind Vorteile und Nachteile?

## 2.1 Vorteile
### User können... 
* Einfache, begrenzte, kurze Befehle senden 
* Damit Scripts schreiben, um gewisse Interaktionen mit dem Web zu automatisieren
* API Requests senden (um Infos zu Interaktionen zwischen Webapplikationen zu erhalten, API ist hierbei ein Intermediary, das hilft, die Kommunikation zwischen Applikationen zu streamlinen) --> inkl. PUT, GET, POST, DELETE
* Access Tokens zur Authentifikation senden
* Multiple Files hochladen
* Formulare automatisiert vervollständigen

### Requests garantiert...
* Zugang zu internationalen Domains und URLs
* Parameter (die Variablen in den `()` einer Funktion) werden automatisch encoded (= als Unicode String) 
* SSL Verschlüsselung als Default 
* Automatisiertes JSON Decoding `response.json()`
* Decodierung des Body der Response in Unicode
* Ein Pooling von Verbindungsanfragen  

***

## 2.2 Nachteile?
* Um gezielt Webscraping nach Texten (Inhalten, HTML, im Gegensatz zu HTTP) zu machen, sind zusätzliche Libraries nötig, z.B. BeautifulSoup
- Kommunikation via HTTP: Webserver vergisst nach jedem Request, wer ihn besucht hat ('Zustandslosigkeit' zwischen Client und Server). 
* Fehlender Datenschutz: GET-Anfragen können gehackt werden!
* Requests hat Mühe mit ausschliesslich in JavaScript geschriebenen Websiten
* nur statische Bestandteile der Webpage werden erfasst

# 3. Anwendungsbeispiele 

Die folgenden Schritte sind nötig, um einen HTTP Request an eine Website zu senden: 

### Syntax: 
```
import requests
response = requests.get('URL')
print(response)
```
* Schritt 1: Import der Requests Library 
* Schritt 2: Definieren von 'response' als Variable für die Response (Antwort), auf die die GET-Methode bezüglich URL der Website, hierbei als String, angewendet wird. 
* Schritt 3: Print der Response (Antwort) )

In [23]:
import requests

Um Attribute und Methods verfügbar für ein spezifisches Objekt zu sehen, Anwendung der "dir"-Funktion. Dies bringt alle Attributes und Methods zum Vorschein, die innerhalb dieses Response Objects angewendet werden können. 

In [24]:
print(dir(requests))



Um detaillierte Erklärungen der Attribute und Methoden eines Objekts zu erhalten, wird die "help"-Funktion verwendet. 

In [18]:
print(help(requests))

Help on package requests:

NAME
    requests

DESCRIPTION
    Requests HTTP Library
    ~~~~~~~~~~~~~~~~~~~~~
    
    Requests is an HTTP library, written in Python, for human beings.
    Basic GET usage:
    
       >>> import requests
       >>> r = requests.get('https://www.python.org')
       >>> r.status_code
       200
       >>> b'Python is a programming language' in r.content
       True
    
    ... or POST:
    
       >>> payload = dict(key1='value1', key2='value2')
       >>> r = requests.post('https://httpbin.org/post', data=payload)
       >>> print(r.text)
       {
         ...
         "form": {
           "key1": "value1",
           "key2": "value2"
         },
         ...
       }
    
    The other HTTP methods are supported - see `requests.api`. Full documentation
    is at <https://requests.readthedocs.io>.
    
    :copyright: (c) 2017 by Kenneth Reitz.
    :license: Apache 2.0, see LICENSE for more details.

PACKAGE CONTENTS
    __version__
    _internal_utils

## USE CASE 1: GET REQUEST UM INHALTE EINER WEBSITE ANZUZEIGEN 

Als erster Schritt definieren wir die Response als Antwort auf die `get()` Anfrage an die angegebene URL.
Das erwartete Resultat, welches den Erfolg der Anfrage anzeigt, ist `<Response [200]>` ("HTTP 200 OK Success Status Response Code zeigt an dass die Anfrage erfolgreich war"). 

### Syntax:
```
r = requests.get('URL')
print(r)
```
* Schritt 1: Definieren der Response `r` als Antwort auf die GET Anfrage an die URL.
* Schritt 2: Ausgeben der Response

In [25]:
r = requests.get('https://www.humans-and-data.uzh.ch/de/Speakers.html')
print(r)

<Response [200]>


Wir können den Inhalt einer Webpage erhalten, indem wir die "text"-Funktion anwenden. Folgend erhalten wir den Inhalt der Response (die "Payload", als String Representation, in Unicode). Darin enthalten sind verschiedene Headers, die verschiedene Infos enthalten. 

In [27]:
print(r.text)

<!DOCTYPE html>

<html xml:lang="de" lang="de" class="mod mod-layout skin-layout-nav skin-layout-content skin-layout-related">

<!--
 - UZH 1.9.1 (2021-03-04_09-08-39, 40, master, e88958bb74a6902dd7228e9a9793bcc827befa43)
-->

<head>
    <!--[if IE]>
    <meta http-equiv="X-UA-Compatible" content="IE=Edge,chrome=IE7" />
    <![endif]-->
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>


<meta content="width=device-width, initial-scale=1.0" name="viewport" id="meta-viewport">
<script>
    if (screen && (screen.width >= 813 || screen.height >= 813)) {
        // force devices as ipad etc. to scale the viewport
        document.getElementById("meta-viewport").setAttribute("content", "width=1024,initial-scale=1,user-scalable=yes");
    }
</script>

<link rel="schema.dc" href="http://purl.org/dc/elements/1.1/" />
<link rel="schema.dcterms" href="http://purl.org/dc/terms/" />

<meta name="keywords" content="Speakers"/>
<meta name="description" content=""/>

<meta name="og

Wenn wir nur einen gewissen Teil dieser Website haben wollen, können wir zuerst alle Headers anzeigen lassen (diese zeigen die Überschriften der Struktur an): 

In [28]:
print(r.headers)

{'Date': 'Tue, 22 Jun 2021 05:51:20 GMT', 'Server': 'Apache', 'X-Magnolia-Registration': 'Registered', 'Cache-Control': 'no-cache, no-store, must-revalidate, max-age=0', 'Content-Encoding': 'gzip', 'Vary': 'Accept-Encoding', 'Pragma': 'no-cache', 'Expires': 'Thu, 01 Jan 1970 00:00:00 GMT', 'Content-Type': 'text/html;charset=UTF-8', 'Set-Cookie': 'JSESSIONID=5487E9A5C8AA43281068D8DD1E59CD2F; Path=/; HttpOnly', 'Keep-Alive': 'timeout=5, max=100', 'Connection': 'Keep-Alive', 'Transfer-Encoding': 'chunked'}


Und dann einen bestimmten rausfiltern, in dem wir zwischen eckigen Klammern den Parameter definieren: 

In [29]:
r.headers['Content-Type']

'text/html;charset=UTF-8'

Das geht auch als Print-Funktion: 

In [30]:
print(r.cookies)

<RequestsCookieJar[<Cookie JSESSIONID=5487E9A5C8AA43281068D8DD1E59CD2F for www.humans-and-data.uzh.ch/>]>


In [31]:
print(r.url)

https://www.humans-and-data.uzh.ch/de/Speakers.html


In [32]:
print(r.headers["date"])

Tue, 22 Jun 2021 05:51:20 GMT


In [33]:
print(r.headers["server"])

Apache


## USE CASE 2: GET-REQUEST, UM BILD VON EINER WEBSITE ZU DOWNLOADEN

Wir können ein Bild herunterladen, indem wir die beabsichtige Bild-Antwort (Image Response) mittels `get()`Anfrage an die Bildadresse (URL) definieren. Von der Print-Funktion `.content` wird erwartet, dass sie die Bytes des Bildes wiedergibt. Anschliessend können wir das Bild direkt speichern. 

### Syntax: 
```
imageresponse = requests.get('image-URL')
print(imageresponse.content)
with open('picturefilename.jpg','wb') as f:
   f.write(imageresponse.content)
```

* Schritt 1: Definieren der Bild-Response als Antwort auf die GET-Anfrage an die Bildadresse. 
* Schritt 2: Wiedergeben der Response
* Schritt 3: Erstellen des Bildes mit einem gewünschten Filename innerhalb eines Kontexts `f:` als write/byte-File. 
* Schritt 4: Schreiben des Inhaltes innerhalb des Kontexts. 

In [34]:
imageresponse = requests.get('https://www.humans-and-data.uzh.ch/dam/jcr:2c537b5b-d35e-4ac3-a0ad-59094c8d5cb9/rs=w-600,h-300,cg-true.webp')
print(imageresponse.content)

b'RIFFN\x16\x00\x00WEBPVP8 B\x16\x00\x00\x10\x9e\x00\x9d\x01*\xd0\x01,\x01>m6\x97H$#"#\xa63\xf9P\x80\r\x89g-\xa8R\xd51\xcbh\x96\xbc\xae\xfb\xafEr}o0\xff\xb8q\xb4*9\xf3(\xd6\xac\xe7\xa7_\xacb\xaeZ\x02~\xc3\x97\xfb\x17$\xd0\xfcCb\xad\xb8\xfc\'F\x95\x04.$\x9d~\xa2\xd2\x84!\x07,\xd2q\tQ\xf7r\xf1\xf5;\x08\x87\xba\x84\xf0\xc26\xd5_\xe8\xb4\xcaP:\xdc\xa9\x92\x8ay\xb2\xaa\x80\xaf\xbb\xa1\xa7\xfd\xec\xa3\x9b\xd31_\\\xa1\x1d\xf4\xa1\xc8\x90L1}\xcb^\xb3\rrZ\x00\xcf\x83NU\x17rF\xd8VA\xb0D\x989\xf2\xd4>gA\xcc\x12\xfb\xb1\xd2\xe7Q\x93@\\\x00 \x95\x9c+\x08*\xc4\x1d\x04\xa3t~qY\xf6\x16\xbfY\xb3\x8fX\xb9])+\x14\xd3\xe5`Ai\x1d\x12X\xbc\x18\x84\x15k\x1a\x9a\x9fpY\x08\xe2o\x8d*\xb7YW\xf6\xa0\x05Es\xb2\xbdmM^\x8f"X:)\xdf\xe5sf\x8b\xe3\x17Z$\xb9\x15k\x02\xd0x\x80\x83\xf0\x0b~\xd3\xdf]\xac\xe6h\xdf5\xb3v6\x96\x9f\x83\xd6A\x948\x02\x1e\xe3\xc3=t\xa8\x17\x8d\xe9\x84\xff\xbb\x97+\x1bYc#\x1d\xe0\xd6\xeet6\xb1\x93\xe0r\x99?f\xd8\x88\x83\x0ct\x82\xc6\xf9\xcf\xeaj\xff/\xc7{\xafM"u\xa9/\x1f\xa2,\x8b\x90U\xdb\x88^6\x

Aus diesen Bytes kann das Bild auf unserer Maschine gespeichert werden. 
Die folgenden Schritte sind dazu nötig: 
1. das Bild soll unter einem bestimmten Namen, unter WB (write/byte)-Modus gespeichert werden
2. der Kontext-Manager ("f:") schreibt den Inhalt direkt zum File
3. Erwartung: Das Bild wird in derselben Umgebung wie dieses Python Modul gespeichert (da sonst kein Pfad angegeben).

READ / WRITE von Files:
Tutorial: https://youtu.be/Uh2ebFW8OYM 

In [35]:
with open('testbild.jpg','wb') as f:
    f.write(imageresponse.content)

## USE CASE 3: POST-REQUESTS

Zum Ausprobieren: https://httpbin.org/ 

Die `post()` Methode sended ein POST-Anfrage an die angegebene URL.
Die `post()` Methode wird verwendet, um Daten an den Server zu senden. 
Beispiel: Hochladen von Fotos oder Übermitteln von Formulardaten an Server. 

### Syntax: 

```
payload = {'key1': 'value1'} 
response = requests.post('url' , data= payload)
```  

* Schritt 1: Definieren der Payload (übermittelte Datenmenge) als bestehend aus einem Dictionary von Key-Value Paaren (der Wert (Value) ist im Bezug auf die Kategorie (Key) gegeben)
* Schritt 2: Definieren der Response als Antwort auf einen POST-Request von Daten an eine URL.

In [36]:
payload = {'name':'santschi', 'password':'mostgenericpasswordever'}
response = requests.post('http://httpbin.org/post', data=payload) 
print(response.text)

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "name": "santschi", 
    "password": "mostgenericpasswordever"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "46", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.25.1", 
    "X-Amzn-Trace-Id": "Root=1-60d17aa3-651408d039167a7c7ed3fe8d"
  }, 
  "json": null, 
  "origin": "194.230.155.223", 
  "url": "http://httpbin.org/post"
}



Die JSON-Antwort kann einfach zu einer Python-Library umgewandelt werden:

In [37]:
print(response.json())

{'args': {}, 'data': '', 'files': {}, 'form': {'name': 'santschi', 'password': 'mostgenericpasswordever'}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Content-Length': '46', 'Content-Type': 'application/x-www-form-urlencoded', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.25.1', 'X-Amzn-Trace-Id': 'Root=1-60d17aa3-651408d039167a7c7ed3fe8d'}, 'json': None, 'origin': '194.230.155.223', 'url': 'http://httpbin.org/post'}


... und als Variable verwendet werden:

In [38]:
response_dictionary=response.json()
print(response_dictionary['form'])

{'name': 'santschi', 'password': 'mostgenericpasswordever'}


In [39]:
print(response.url)

http://httpbin.org/post
