In [None]:
%%html

<link rel="stylesheet" href="../../assets/styles/style.css">

<img src="../../assets/img/DN.png" style="float:right;width:150px">

Python - Module, Dateien und JSON

# Module

Python ist modular aufgebaut. Das heisst, neben einem bestimmten Satz an schon vorhandenen Grundfunktionalitäten können **zusätzliche Funktionalitäten** mit der Hilfe von sogenannten **Modulen** hinzugefügt werden. Diese Module können selbst erstellt oder von anderen Entwicklern übernommen werden. Module sind nichts anderes als Dateien mit Python Code.

Der modulare Aufbau hilft, Code übersichtlich zu organisieren. Die Idee von Modulen ist die **Wiederverwertbarkeit von Code**. Genau so wie eine Funktion dazu dient, einen bestimmten Code innerhalb eines Programms mehrfach auszuführen, dienen Module dazu, Programmcode über mehrere Projekte hinweg wiederverwenden zu können.

## Ein bestehendens Modul verwenden

Es existieren sogenannte [*Built-in Modules*](https://docs.python.org/3/py-modindex.html), welche sofort genutzt werden können, sobald man sie importiert hat:

In [None]:
import random

x = random.randint(1,100)

print(x)

Das Modul **random** stellt Funktionen zur Erzeugung von Zufallszahlen bereit. Sobald das Modul mit dem `import` Befehl nutzbar gemacht wurde, kann auf die Funktionen des Moduls zugegriffen werden, indem mit `random.funktion()` die entsprechenden Funktionen aufgerufen wird. Es muss also jeweils vor den eigentlichen Funktionsnamen, hier `randint()`, der Modulnahmen, hier also `random` eingefügt werden.

Mit Hilfe der Funktion `dir()` können alle Funktionen (und Variablen) eines Moduls angezeigt werden:

In [None]:
import random

x = dir(random)

print(x)

Um ein Modul vernünftig anwenden zu können, muss aber typischerweise die Dokumentation zum Modul konsultiert werden. Die offizielle Dokumentation zu den Built-in Modules von Python befindet sich unter [docs.python.org](https://docs.python.org) und entsprechend für das Modul *random* [hier](https://docs.python.org/3/library/random.html). Sich in diesen Dokumentationen zurechtzufinden ist eine wichtige Kompetenz für das Programmieren.

Wenn beispielsweise aufgrund einer Internet Recherche eine bestimme Funktion angewandt werden soll, muss immer klar sein, ob diese Funktion aus einem Modul stammt, das zuerst importiert werden muss. Ohne einen solchen Import resultiert eine Fehlermeldung:

In [None]:
x = system()

print(x)

Erst nach dem Import des Modules `platform` kann die Funktion `system()` verwendet werden (die als Resultat ausgibt, dass Renkulab auf einem Linux Server ausgeführt wird):

In [None]:
import platform

x = platform.system()

print(x)

Beim Import von Modulen können diese auch umbenannt werden (das kann häufig gesehen werden in Tutorials, dass bestimmte Module unter einer gängigen Abkürzung importiert werden):

In [None]:
import random as r

x = r.randint(1, 100)

print(x)

Es gibt auch die Möglichkeit, von einem Modul nur eine bestimmte Funktion zu importieren und diese Funktion dann ohne den davorgestellten Modulnahmen zu verwenden:

In [None]:
from random import randint

x = randint(1, 100)

print(x)

<div class="exercise">

<img src="../../assets/img/dumbbell.png" class="exercise_image">

<span class="exercise_label">Aufgabe</span> 

Suche mit Hilfe des Internets ein Modul, welches eine Funktion zur Verfügung stellt, um das aktuelle Datum und die Uhrzeit auszugeben. Importiere dieses Modul und nutze die entsprechende Funktion.

<details>
<summary>Tipp</summary>
    <p>Das zu verwendende Modul ist etwas irritierend, weil der Name des Moduls gleich lautet wie das zu verwendende Objekt im Modul mit den entsprechenden Funktionen, man muss also beim Aufruf der Funktion zweimal das gleiche "Wort" davor anhängen.</p>
</details>
</div>

In [None]:
# Beginn eigener Code

import datetime

x = datetime.datetime.now()

print(x)

# Ende eigener Code

***

## Ein eigenes Modul erstellen

Ein eigenes Modul kann ganz einfach erstellt werden, indem Python Code in einem File mit der Endung `.py` gespeichert wird. Der Inhalt dieses Files kann dann als Modul eingebunden werden. Solche lokalen Module werden üblicherweise in einem separaten Ordner gespeichert. Um auf Module aus einem Ordner zugreifen zu können, muss der Ordnername beim Import (und bei der Nutzung des Moduls) mit einem Punkt `.` abgetrennt vorangestellt werden. Somit werden solche Module beim Import am besten gleich umbenannt, damit einfacher damit gearbeitet werden kann.

<div class="exercise">

<img src="../../assets/img/dumbbell.png" class="exercise_image">

<span class="exercise_label">Aufgabe</span> 

Importiere das lokal erstellte Modul 'happy_greetings' aus dem Ordner 'lib' unter dem Namen `hg`. Lass Dir die verfügbaren Möglichkeiten anzeigen und nutze die Funktion `nice_greeting()` aus dem Modul.
</div>

In [None]:
# Beginn eigener Code

import lib.happy_greetings as hg

print(dir(hg))

hg.nice_greeting()

# Ende eigener Code

***

# Arbeiten mit Dateien

Eine wichtige Aufgabe beim Programmieren besteht darin, Daten aus Dateien einzulesen, um mit diesen dann weiterzuarbeiten. Anschliessend an die Datenberarbeitung soll dann typischerweise auch wieder die Möglichkeit bestehen, Daten in eine Datei zu schreiben (bspw. als Resultatdatei).

## Dateien in Jupyter Lab öffnen und ansehen

Jupyter Lab bietet die Möglichkeit, Dateien in verschiedenen Formaten direkt in Jupyter Lab anzuzeigen und zu bearbeiten. Dazu nützt der **File Browser**, der sich in der linken Seitenleiste befindet und der auch benutzt wird, um die Notebooks zu öffnen. In dieser Lektion wird mit verschienen Dateien gearbeitet, die sich vom aktuellen Notebook aus in den Ordnern "data" und "lib" befinden. Alle diese Dateien lassen sich in Jupyter Lab als eigener Tab öffnen. Dies kann auch über einen Klick auf einen Link wie [dieser hier](data/numbers.txt) geschehen.

## Dateien einlesen

Beim Arbeiten mit Dateien kann einiges schief gehen, deshalb ist es wichtig, darauf vorbereitet zu sein, dass etwas nicht klappt. Beispielsweise möchte man aus einer Datei lesen, die gar nicht existiert. Python hilft dabei:

In [None]:
with open('data/my_text.txt', "rt") as file:
    data = file.read()
    print(data)

Das Schlüsselwort `with` hilft beim Handling von Dateien. Es ist grundsätzlich nicht nötig, vereinfacht den Umgang mit Dateien aber (bspw. müssen Dateien nicht "geschlossen" werden oder bei einem Fehler werden keine "korrupten" Dateien erzeugt). Wer mehr zu `with` erfahren möchte, kann das in der [offiziellen Python Dokumentation](https://docs.python.org/3/reference/compound_stmts.html#the-with-statement) finden.

Der erste Parameter von `open()` gibt dabei den Dateinamen (und den Pfad relativ vom Jupyter Notebook aus) der Datei an, der zweite Parameter bestimmt, wie mit der Datei gearbeitet werden soll, die wichtigsten Möglichkeiten sind:

* 'r' steht für 'read', also aus der Datei lesen
* 'w' steht für 'write', also eine Datei schreiben (Datei wird erstellt, falls sie noch nicht existiert und ansonsten überschrieben)

Zusätzlich können die Files mit 't' im Text Modus bearbeitet werden oder mit 'b' im Binär Modus (vor allem für Bilddaten interessant). Falls kein Parameter angegeben wird, wählt `open()` den Modus 'rt', also als Textdatei lesen.

Soll eine Datei zeilenweise eingelesen werden, kann mit Hilfe einer For Schleife durch das File iteriert werden:

In [None]:
with open('data/my_text.txt') as file:
    for line in file:
        print("Quatsch:", line)

<div class="exercise">

<img src="../../assets/img/dumbbell.png" class="exercise_image">

<span class="exercise_label">Aufgabe</span>

Summiere die Zahlen im File 'data/numbers.txt' auf und gib das Resultat aus.

<details>
<summary>Tipp</summary>
    <p>Die Zahlen werden aus dem Textfile als Text eingelesen. Denk daran, dass diese noch in ein Integer umgewandelt werden müssen.</p>
</details>
</div>

In [None]:
# Beginn eigener Code

with open("data/numbers.txt") as file:
    total = 0
    for number in file:
        total += int(number)
    print(total)
    
# Ende eigener Code

***

## Arbeiten mit CSV Dateien

CSV (comma separated values) sind eine Möglichkeit, tabellarische Daten in einer Textdatei zu speichern. Beim Öffnen von CSV Dateien in Jupyter Lab über den File Browser (Ordner Sybmol in der linken Tableiste)  wie bspw. `data/population.csv` wird automatisch eine "tabellarische" Darstellung erzeugt. Wenn die "Rohdaten" angezeigt werden sollen, muss im File Browser auf die Datei rechtsgeklickt und die Option 'Open With/Editor' ausgewählt werden.

## CSV als Liste einlesen und in ein Dictionary verwandeln

In [None]:
import csv

with open('data/population.csv') as file:
    csv_lists = list(csv.reader(file, delimiter=','))
    print(csv_lists)

Um die Funktion `reader()` zu verwenden, muss zuerst das Modul 'csv' importiert werden. Die Funktion `reader()` braucht ein File (welches mit `open()` geöffnet wurde) und die Bezeichnung, welches Zeichen als Elementtrenner verwendet wurde (hier ein Komma ','). Wenn das Resultat von `reader()` noch mit Hilfe der Funktion `list()` in eine Liste umgewandelt wird wurde damit eine Liste von Listen erzeugt (jede Zeile ist eine Liste geworden und alle Zeilen landen ebenfalls in einer Liste). Die Arbeit damit ist etwas umständlich. Etwas besser geht es mit einem Dictionary:

In [None]:
country_pop = dict()

for row in csv_lists[1:]:
    country_pop[row[0]] = int(row[1])

print(country_pop["China"])    

Hier wird die Liste `csv_lists` erst vom zweiten Eintrag an mit `[1:]` (der erste ist ja die Liste mit 'country' und 'population', das wird nicht mehr benötigt) durchiteriert. Dann wird zum Dictionary jeweils ein Eintrag mit dem Schlüssel, der an erster Stelle der Subliste steht, hinzugefügt.

## Übersichtlichere Ausgaben mit `display()`

Mit Hilfe der Funktion `display()` lassen sich Listen und Dictionaries übersichtlicher ausgeben in Jupyter Lab:

In [None]:
display(csv_lists)

In [None]:
display(country_pop)

# JSON

JSON (JavaScript Object Notation) ist ein Datenformat, das sich für "verschachtelte"  Daten eignet. Im Englischen wird dabei von sogenannten "nested" Daten gesprochen. Obwohl der Namen JSON auf JavaScript hinweist, hat sich JSON als Datenformat weit über JavaScript hinaus verbreitet und so bietet auch Python gute Möglichkeiten, um mit JSON zu arbeiten.

## Unterschiede CSV zu JSON

Bei CSV Daten müssen alle Datensätze ins gleiche tabellarische Schema passen (sogenannte flat data), also beispielsweise für jedes Land muss ein Eintrag zur Bevölkerungszahl existieren. Wenn aber für verschiedene Länder verschiedene Daten gespeichert werden sollen, dann eignet sich JSON viel besser als CSV, weil es erlaubt, für verschiedene "Datenpunkte" verschiedene Angaben zu hinterlegen.

<div class="exercise">

<img src="../../assets/img/dumbbell.png" class="exercise_image">

<span class="exercise_label">Aufgabe</span>

Öffne das File [data/substances.json](data/substances.json) in Jupyter Lab (klick auf den Link). Schau Dir das Dokument an und öffne es nochmals mit einem Rechtsklick auf das Dokument im 'File Browser' (Ordner Symbol ganz links) und der Option 'Open Width/Editor'. In der Standard-Ansicht zeigt Jupyter Lab das JSON schon formatiert an (die kleinen Dreiecke erlauben, die unterliegenden Daten anzusehen). In der Editor Ansicht sehen wir den "Quelltext".
    
Frage 1: Wieso würden sich die im JSON dargestellten Daten nicht gut für ein CSV eignen?
    
Frage 2: Welche Datenstruktur in Python ist am ehesten mit einem JSON vergleichbar?    
</div>

Antwort 1: Weil nicht für alle Substanzen die gleiche Art und Anzahl von Angaben gemacht werden.

Antwort 2: Dictionary

***

## JSON Files in Python öffnen

JSON Files können in Python einfach als Liste resp. Dictionary (oder Kombination von Liste und Dictionary) geöffnet werden. Dafür muss zuerst das File in Python eingelesen und dann diese eingelesenen Daten mit Hilfe der Funktion `load()` aus dem Modul `json` umgewandelt werden.

<div class="exercise">

<img src="../../assets/img/dumbbell.png" class="exercise_image">

<span class="exercise_label">Aufgabe</span>

Lies das File 'data/substances.json' als Liste resp. Dictionary in Python ein und gib es mit dem `display()` Befehl wieder aus.
  
</div>

In [None]:
import json

# Beginn eigener Code

with open("data/substances.json") as file:
    substances = json.load(file)
        
    display(substances)
    
# Ende eigener Code

***

## Kombination von Listen und Dictionaries

Die Kombination von Listen und Dictionaries (bspw. eingelesen aus dem obigen JSON File) ist sehr mächtig. Auf den ersten Blick sind solche Konstrukte aber etwas schwer zu durchschauen. Es muss jeweils klar sein, innerhalb welcher Hierarchiestruktur man sich gerade befindet, siehe nochmals obiges Beispiel:

```JSON
[
    {
        "name": "REGN-COV2",
        "manufacturer": "Roche",
        "type": "antibody drug",
        "authorisation": false,
        "approval_process": "phase_II/III",
        "dosage": "not yet known"
    },
    {
        "name": "Spikevax",
        "manufacturer": "Moderna",
        "type": "vaccination",
        "subtype": "mRNA vaccination",
        "authorisation": true,
        "dosage": {
            "no_of_doses_required": 2,
            "time_between": 30,
            "booster_possible": true
        }
    },
    {
        "name": "Driponin",
        "active_substances": ["Ivermectin", "Butylhydroxyanisole"],
        "manufacturer": "Infectopharm",
        "type": "medication",
        "authorisation": {
            "parasite infestation": true,
            "COVID-19": false
        }
    }
]
```

Bei diesem JSON ist die oberste Ebene eine Liste (erkennbar an den eckigen Klammern `[]`. Wenn also dieses JSON in Python eingelesen und unter einer Variable gespeichert wird, kann über `variablenname[index]` auf die einzelnen "Substanzen" zugegriffen oder in einer For Schleife iteriert werden. Die einzelnen Listenelemente sind dann ein Dictionary (erkennbar an den geschweiften Klammern `{}`) mit Schlüssel Wert Paaren. Teilweise sind dann diese Werte wiederum ein Dictionary oder eine Liste. Die Konstruktion "Liste aus Dictionaries" ist häufig, wenn bestimmte gleichartige Objekte, welche gut durch ein Dictionary beschrieben werden können, zusammengefasst werden sollen. In diesem Fall handelt es sich um eine Sammlung von medizinischen Substanzen.

<div class="exercise">

<img src="../../assets/img/dumbbell.png" class="exercise_image">

<span class="exercise_label">Aufgabe</span>

Häufig möchte man die Werte eines Schlüssels aus allen Listenelementen herauslesen: Lies das File 'data/substances.json' wie in der obigen Aufgabe als Dictionary in Python ein. Erzeuge dann mit Hilfe einer List Comprehension eine Liste mit allen Namen der Hersteller der Substanzen.
  
</div>

In [None]:
import json

# Beginn eigener Code

with open("data/substances.json") as file:
    substances = json.load(file)
        
    manufacturers = [substance["manufacturer"] for substance in substances]
    
    print(manufacturers)
    
# Ende eigener Code

***

## JSON Daten von einer API einlesen

Verschiedene Web APIs (Application Programming Interface) stellen Daten in einem JSON Format zur Verfügung. Die meisten dieser APIs benötigen eine Authentifizierung, um Daten zu beziehen, es gibt aber auch solche, die frei verfügbar sind. Um Daten von einer API zu lesen, dient die Funktion `get()` aus dem Modul `requests`, welche auch über eine integrierte Funktion verfügt, um die JSON Daten in ein Dicitonary umzuwandeln:

In [None]:
import requests

response = requests.get("http://api.open-notify.org/astros.json").json()

display(response)

Die oben kontaktierte API sendet ein JSON mit Informationen (Name und Raumfahrzeug) zu allen sich momentan im All befindenden Astronautinnen und Astronauten. Obiger Quelltext ist ein Beispiel, dass Methoden (also Funktionen eines Objekts) sich auch aneinanderreihen lassen. Die Funktion links (hier `get()`) wird dabei zuerst ausgeführt und auf das Resultat wird gleich die nächste Funktion rechts (hier `json()`) angewandt.

# Schlussaufgabe

<div class="exercise">

<img src="../../assets/img/dumbbell.png" class="exercise_image">

<span class="exercise_label">Aufgabe</span>

Erstelle mit Hilfe der API unter https://api.spacexdata.com/v5/launches ein Dictionary `launches`, welches die Anzahl Starts von SpaceX Raketen pro Jahr darstellen soll. Als Schlüssel soll also das Jahr (in Form von '20xx') der Starts dienen und als Wert die Anzahl Starts in diesem Jahr. Mehr Infos zu dieser interessanten API gibt es unter https://github.com/r-spacex/SpaceX-API

<details>
<summary>Tipp</summary>
    <p>Das JSON, welches die API zurückliefert ist eine Liste von Dictionaries, welches unter dem Schlüssel 'date_utc' einen genauen Zeitpunkt jedes Startes liefert. Am besten lässt du dir das erste Listenelement mit Hilfe von <code>display()</code> anzeigen, um die Struktur des JSON zu verstehen. Iteriere die Liste der Starts durch und prüfe für jeden Start, ob schon ein Eintrag im Dictionary <code>launches</code> für das entsprechende Jahr vorhanden ist. Falls nein, erstelle einen Eintrag und teile 1 zu, falls ja, erhöhe die entsprechende Startanzahl um 1. Der Wert für 'date_utc' beinhaltet auf den ersten vier Stellen das Jahr. Denke daran, nur mit diesen ersten vier Zahlen zu arbeiten.</p>
</details>
</div>

In [None]:
# Beginn eigener Code

import requests

response = requests.get("https://api.spacexdata.com/v5/launches").json()

launches = {}

display(response[0])

for launch in response:
    if launch['date_utc'][0:4] not in launches:
        launches[launch['date_utc'][0:4]] = 1
    else:
        launches[launch['date_utc'][0:4]] += 1

# Ende eigener Code

display(launches)

***

# Zusatzaufgabe für Interessierte

Hinweis: Diese Aufgabe ist etwas aufwändiger, aber schon ziemlich nahe an einer konkreten sinnvollen Anwendung. Aufgaben dieser Komplexität sind nicht prüfungsrelevant - aber trotzdem interessant.

<div class="exercise">

<img src="../../assets/img/dumbbell.png" class="exercise_image">

<span class="exercise_label">Aufgabe</span>

Lies die Schweizer Verfassung [data/verfassung.txt](data/verfassung.txt) als File ein und zähle die Vorkommnisse aller Wörter darin. Sortiere die Vorkommnisse aller Wörter gemäss deren Anzahl.
    
<details>
<summary>Tipp</summary>
    <p>Erstelle ähnlich der Schlussaufgabe ein Dictionary mit den individuellen Worten als Schlüssel und der Anzahl der Vorkommnisse als Wert. Bevor du die Worte zählst, entferne möglichst alle Satzzeichen aus dem Text. Für die Möglichkeit der Sortierung eines Dictionaries (anhand der Werte und nicht der Schlüssel) erkundigst du dich am besten im Internet.</p>
</details>
</div>

In [None]:
# Beginn eigener Code

with open('data/verfassung.txt', encoding="utf-8") as file:
    data = file.read()
    data = data.lower()
    data = data.replace(",", "").replace(".", "").replace(":", "")
    words = data.split()
    
    occurences = {}
    
    for word in words:
        if word not in occurences:
            occurences[word] = 1
        else:
            occurences[word] += 1
    
    sorted_keys = sorted(occurences, key=occurences.get, reverse=True)
    ordered_occurences = {}
    
    for key in sorted_keys:
        ordered_occurences[key] = occurences[key]
        print(key + ":", ordered_occurences[key])

# Ende eigener Code

***