(Enning, 04.03.2023)
## Experiment: Anwendungsschicht am Beispiel http

| Bezeichnung  | OSI | Funktionen/ Protokolle | Python | Hardwarekomponenten |
|---|--|--|--|--|
| Anwendung | 5-7 | HTTP, TLS, RTP, RTMP, SMTP, MQTT  | Requests, urllib, http.server | Gateway |
| Transport | 4 | TCP, UDP | Sockets, socket.server | |
| Internet | 3 | IPv4, IPv6, ICMP | Sockets | Router |
| Netzzugang |1-2 | Ethernet, CAN, Wifi | (driver) | Netzwerkadapter, Hub, Bridge, Switch |

### Anwendungsschicht

- Die Anwendungsschicht bietet Anwendungsprogrammen (z.B. Browser) Zugriff zum Protokollstapel
- Sie zerlegt die Nachricht in Pakete und sorgt für die richtige Reihenfolge
- http-Clientfunktion mit python-"Bordmitteln": [urllib](https://docs.python.org/3/library/urllib.request.html#module-urllib.request)
- Höhere Bequemlichkeit: [Requests](https://requests.readthedocs.io/en/latest/)
- http kennt Methoden(Kommados). Z.B. GET, PUT, POST, HEAD
- Browser bietet über Adresszeile nur GET. (POST wird bei Formularfeldern benutzt)
- Das volle Potenzial für http Transfers bieten Programme wie [Postman](https://www.postman.com/) oder Kommandozeilentools wie [curl](https://curl.se/)
- Header bieten "Meta-Informationen": Was wird übertragen (Webseite, Bild, etc.)? Wie wird übertragen? (Codierung, Sprache)
- Der Inhalt (Body, Content) ist eine Folge von Bytes (bytestring)
- URL (Path) beschreibt, welche Resource angefordert/gesendet wird. Kann um Parameter ergänzt werden


In [1]:
import requests

In [2]:
# Mit einem GET wird die Resource 'https://de.wikipedia.org/wiki/Internetprotokollfamilie' angefordert
# https ist das Protokoll
# Der Server hat die "Domäne" de.wikipedia.org. Hierzu gehört eine oder mehrere IP-Adressen
# Diese muss man nicht wissen, ein DNS-Resolver (verteiltes Web-"Telefonbuch") übersetzt de.wikipedia.org in die IPv4 Adresse 
response = requests.get('https://de.wikipedia.org/wiki/Internetprotokollfamilie')
# die Antwort ist ein komplexes Response-Objekt mit vielen Eigenschaften und Methoden
type(response)

requests.models.Response

In [3]:
# Wichtige "Meta"-Informationen finden sich in den Headers
dict(response.headers)

{'date': 'Thu, 18 Jan 2024 12:02:49 GMT',
 'server': 'mw1434.eqiad.wmnet',
 'x-content-type-options': 'nosniff',
 'content-language': 'de',
 'accept-ch': '',
 'vary': 'Accept-Encoding,Cookie',
 'last-modified': 'Thu, 04 Jan 2024 12:02:49 GMT',
 'content-type': 'text/html; charset=UTF-8',
 'content-encoding': 'gzip',
 'age': '69335',
 'x-cache': 'cp3073 miss, cp3073 hit/13',
 'x-cache-status': 'hit-front',
 'server-timing': 'cache;desc="hit-front", host;desc="cp3073"',
 'strict-transport-security': 'max-age=106384710; includeSubDomains; preload',
 'report-to': '{ "group": "wm_nel", "max_age": 604800, "endpoints": [{ "url": "https://intake-logging.wikimedia.org/v1/events?stream=w3c.reportingapi.network_error&schema_uri=/w3c/reportingapi/network_error/1.0.0" }] }',
 'nel': '{ "report_to": "wm_nel", "max_age": 604800, "failure_fraction": 0.05, "success_fraction": 0.0}',
 'set-cookie': 'WMF-Last-Access=19-Jan-2024;Path=/;HttpOnly;secure;Expires=Tue, 20 Feb 2024 00:00:00 GMT, WMF-Last-Access

### Uniform Resource Locator

- Der (nicht "die") URL beginnt mit dem Schema, hier "https"
- Der erste Teil eines [Uniform Resource Locator](https://de.wikipedia.org/wiki/Uniform_Resource_Locator) (URL) ist der Host (z.B. de.wikipedia.org)
- Ggf. wird davor Benutzername und Passwort angegeben
- Hinter dem Hostname folgt ggf. ein Port. Ohne Angabe wird der zum Schema gehörige Standardport (bei https ist das 443) verwendet
- Dann kommt der Pfad und ggf ein query-Anteil mit weiteren parametern für die Abfrage


<pre>      |-------------------- Schema-spezifischer Teil ----------------------|
      |                                                                    |
https://maxmuster:geheim@www.example.com:8080/index.html?p1=A&amp;p2=B#ressource
\___/   \_______/ \____/ \_____________/ \__/\_________/ \_______/ \_______/
  |         |       |           |         |       |          |         |
Schema¹ Benutzer Kennwort      Host      Port    Pfad      Query    Fragment
</pre>

In [4]:
# Die gelieferten Daten sind unter "Content zu" finden
response.content[:500] 

b'<!DOCTYPE html>\n<html class="client-nojs" lang="de" dir="ltr">\n<head>\n<meta charset="UTF-8">\n<title>Internetprotokollfamilie \xe2\x80\x93 Wikipedia</title>\n<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\\t.",".\\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","Januar","Februar","M\xc3\xa4rz","April","Mai","Juni","Juli","August","September","Oktober","November","Dezember"],"wgRequestId":"4a6797f7-0893-4e92-88'

#### Encoding 

- Ergebnis ist Bytestring `b'<!DOCTYPE html>...` der ein HTML-Dokument beinhaltet
- Der Header content-type `text/html; charset=UTF-8` benennt die "Codierung" [UTF-8](https://de.wikipedia.org/wiki/UTF-8)

In [5]:
# Beim Dekodieren muss man angeben, wie der Bytestring kodiert ist. utf-8 ist allerdings inzwischen Standard, deshalb funktioniert es auch ohne
response.content[:500].decode(encoding='utf-8')

'<!DOCTYPE html>\n<html class="client-nojs" lang="de" dir="ltr">\n<head>\n<meta charset="UTF-8">\n<title>Internetprotokollfamilie – Wikipedia</title>\n<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\\t.",".\\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","Januar","Februar","März","April","Mai","Juni","Juli","August","September","Oktober","November","Dezember"],"wgRequestId":"4a6797f7-0893-4e92-88'

- Beachte den Unterschied bei "März"
- Mit Backslash `\` beginnende Characters sind Steuerzeichen (z.B.\n für Neue Zeile)
- Eine Zerlegung an den \n Charcters macht den Inhalt besser lesbar

In [6]:
response.content[:5000].decode(encoding='utf-8').split('\n')

['<!DOCTYPE html>',
 '<html class="client-nojs" lang="de" dir="ltr">',
 '<head>',
 '<meta charset="UTF-8">',
 '<title>Internetprotokollfamilie – Wikipedia</title>',
 '<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\\t.",".\\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","Januar","Februar","März","April","Mai","Juni","Juli","August","September","Oktober","November","Dezember"],"wgRequestId":"4a6797f7-0893-4e92-88d7-a59c5b9bb728","wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Internetprotokollfamilie","wgTitle":"Internetprotokollfamilie","wgCurRevisionId":239739405,"wgRevisionId":239739405,"wgArticleId":39676,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Internetprotokollfamilie","Internet"],"wgPageViewLanguage":"de","wgPageContentLanguage":"de","wgPageContentModel":"

In [7]:
#response.content.decode().replace('\t', '    ').split('\n')

### HTML

Der Beginn einer [HTML](https://de.wikipedia.org/wiki/HTML5)-Seite ist aufgebaut aus einem <!DOCTYPE> und  einigen Meta-Tags. Dann folgen in der Regel größere Bereiche, die die Darstellung steuern `<style> ... </style>` und Bereiche mit Javascript Code `<script> ... </script>`. Dann folgt der eigentliche `<body>   </body>` der Seite, dem wiederum weitere script-Bereiche folgen können.

Wie man HTML-Seiten u.U. mit eingebetter Browser-Programmierung in Javascript schreibt, soll hier nicht weiter behandelt werden. Eine gute deutschsprachige Quelle dazu ist [SELFHTML](https://wiki.selfhtml.org/wiki/SELFHTML)