# JSON

JSON (JavaScript Object Notation) ist ein einfaches Datenaustauschformat, das auch zum Speichern von Daten gut geeignet ist.
Usrprünglich für JavaScript entwickelt, gibt es inzwischen für fast jede Programmiersprache Bibliotheken zum Lesen und Schreiben von JSON.

JSON ist ein textbasiertes Format, das einfach in eine Datei gespeichert oder über eine Netzwerkverbindung übertragen werden kann. Ein JSON-Parser liest dann das JSON als String ein und wandelt diesen in eine passende Datenstruktur um. Welche Datenstrukturen dabei verwendet werden, hängt von der Programmiersprache ab; in Python werden Dictionaries und Listen verwendet.

JSON hat gegenüber CSV den Vorteil, dass es nicht nur für tabellenförmige Daten geeignet ist. Grundsätzlich kann man natürlich auch tabellarische Struktuen in JSON als Liste von Dictionaries ausdrücken, der Platzbedarf ist aber viel größer:

In [None]:
temperatures = [
    {"morning": 11, "noon": 24, "evening": 22},
    {"morning": 12, "noon": 28, "evening": 25},
    {"morning": 8, "noon": 25, "evening": 18}
]

Man kann also auch mehr als 2 Dimensionen (z.B. als verschachtelte Dictionaries) ausdrücken oder z.B. baumförmige Strukturen kodieren. 

Sehen wir uns ein einfaches Beispiel an:

```
{
    "firstname": "Gunter",
    "lastname": "Vasold",
    "courses": [
        {
            "title": "Grundlagen der Programmierung",
            "type": "VU",
            "years": [2017,2018,2019,2020,2021,2022,2023]
        },
        {
            "title": "Informationsmodellierung II",
            "type": "VU",
            "years": [2019,2020,2021,2022]
        },
        {
            "title": "Digitale Langzeitarchivierung und Datenmanagement",
            "type": "VU",
            "years": [2023]
        }
    ]
}
```


Das gesamte JSON beschreibt einen Vortragenden am ZIM, besteht also in JSON-Speak aus einem "Object". Dieses Object hat 3 `properties`: `firstname`, `lastname` und `courses`.  `courses` ist eine Liste von weiteren Objekten: Jedes Objekt in dieser Liste repräsentiert eine Lehrveranstaltung und hat diese Eigenschaften:

  * title (String)
  * type (String)
  * years (Liste mit int-Werten)

JSON unterstützt nur wenige und entsprechend generische Datentypen. Hier ein Überblick:


| JSON Typ | Python Typ | Anmerkung |
|----------|------------|-----------|
| Objekt   | dict       |           |
| Array    | list       |           |  
| String   | str        | Strings müssen durch doppelte Anführungszeichen begrenzt werden: ``"foo"``|
| Number   | int oder float | Python Typ wird automatisch erkannt |
| Boolean  | bool       | In JSON ``true/false ``, in Python ``True/False``|
| null     | None       | NoneType  |

## Ins JSON-Format serialisieren

Für die folgenden Beispiele verwenden wir das ziemlich einfache Beispiel von oben in einer leicht erweiterten Form:
Ein Dictionary mit 6 Keys: ``firstname``, ``lastname``, ``lectures_since``, ``ìs_retired`` ``landline`` und ``courses``.

  * Die Werte von ``firstname`` und ``lastname`` sind Strings
  * ``lectures_since``zeigt auf einen ``int``-Wert
  * ``is_retired`` hat als Wert vom Typ ``bool``
  * ``landline`` steht zu Demonstrationszwecken auf ``None``
  * ``courses`` hat als Wert eine Liste weiterer Objekte, die jeweils mit 3 Eigenschaften
    eine Lehrveranstaltung beschreiben:
      * ``title`` -> ``str``
      * ``type`` -> ``str``
      * ``years`` -> Eine Liste von Integern
   
Unsere Ausgangsdaten sind also ein Python-Dictionary:

In [None]:
data = {
    "firstname": 'Gunter',
    "lastname": "Vasold",
    "lectures_since": 1998,
    "is_retired": False,
    "landline": None,
    "courses": [
        {
            "title": "Grundlagen der Programmierung",
            "type": "VU",
            "years": [2017,2018,2019,2020,2021,2022,2023]
        },
        {
            "title": "Informationsmodellierung II",
            "type": "VU",
            "years": [2019,2020,2021,2022]
        },
        {
            "title": "Digitale Langzeitarchivierung und Datenmanagement",
            "type": "VU",
            "years": [2023]
        }
    ]
}

### Daten als String

Stellen wir uns vor, wir müssten nun diese Daten (d.h. das Dictionary ``data``) über eine Netzwerkverbindung zu einem anderen Computer übertragen. Ein häufiger Anwendungsfall ist, dass eine in Python geschriebene Applikation über einen Webserver diese Daten bereitstellt, die dann von einem einem anderen Computer abgefragt, verarbeitet oder dargestellt werden. Das Programm am zweiten Computer kann zum Beispiel in JavaScript oder einer anderen Sprache geschrieben sein. Die Daten sollten also in einem Format übertragen werden, das auf der einen Seite einfach zu erzeugen und auf der anderen Seite mit einer beliebigen Programmiersprache einfach zu verarbeiten ist. Im WWW hat sich für diesen Zweck JSON als bevorzugtes Format etabliert.

Kehren wir zurück zu unserem Programm am Server: Wir haben die Daten generiert (z.B. aus einer Datenbank abgefragt) und wollen sie nun an den anfragenden Client im JSON-Format zurücksenden. Dazu müssen wir das Dictionary ``data`` in einen String (JSON ist ein textbasiertes Format) umwandeln und dabei den vom JSON-Format definierten Vorgaben folgen. Das machen wir natürlich nicht "zu Fuß", sondern wir verwenden das ``json``-Modul der Standard Library:

In [None]:
import json

serialized_data = json.dumps(data)
print(type(serialized_data))
serialized_data

Wenn wir das Dictionary mit dem Rückgabewert von ``json.dumps()`` vergleichen, sehen wir zuerst einen Unterschied im Datentyp: ``data`` ist ein Dictionary, ``serialized_data`` hingegen ein String.
Wir sehen aber auch, dass die Daten von ``data`` in ``serialized_data`` noch alle vorhanden sind. Allerdings mit ein paar kleinen, aber wesentlichen Unterschieden:

  * Alle String-Werte sind durch doppelte Anführungszeichen umschlossen (das wird von JSON so vorgegeben)
  * Der Wert von ``is_retired`` ist in ``data`` ``False``, in JSON aber ``false``.
  * Der Wert von ``landline`` ist im Dictionary ``None``,  in JSON aber ``null``

Diese Änderungen enstprechen dem von JSON vorgegebenen Format.

Im nächsten Schritt könnten wir nun den String ``serialized_data`` über eine Netzwerkverbindung an den anderen Rechner senden, was hier aber nicht weiter behandelt wird.

### Parameter für die Serialisierung
Die ``json.dumps()`` Funktion kennt noch einige Parameter, mit denen wir die Umwandlung nach JSON
beeinflussen können. Die am häufigsten benötigte ist ``ensure_ascii=False``:

#### ensure_ascii=

Dieser Wert von ``ensure_ascii`` steht normalerweise auf ``True``, was dazu führt, dass alle Nicht-ASCII-Zeichen in eine ASCII-kompatible Form umgewandelt werden. Das ist eine Vorsichtsmaßnahme um Encoding-Probleme zu vermeiden.

In [None]:
json.dumps("Ärgernis")

Heutzutage wir meist erwartet, dass die JSON-Daten UTF-8 kodiert werden. Daher können wir ``ensure_ascii`` auf ``False`` stellen:

In [None]:
json.dumps("Ärgernis", ensure_ascii=False)

#### indent=

Falls der erzeugte String für Menschen besser lesbar gemacht werden soll, dann man den ``indent`` Parameter setzen. Dieser steht defaultmässig auf ``None``. Wenn man ihn auf einen positiven Ganzzahlenwert setzt (z.B. 2), wird für jede Verschachtelungsebene um so viele Zeichen eingerückt:

In [None]:
serialized_data = json.dumps(data, indent=2)
print(serialized_data)

Alternativ kann man statt der Zahl ``"\t"`` angeben, dann wird jede Einrückungsebene um einen Tabulator eingerückt:

In [None]:
serialized_data = json.dumps(data, indent="\t")
print(serialized_data)

``dumps()`` kennt noch einige weitere, seltener genrauchte Parameter, die in der Dokumentation der Standard Library
(https://docs.python.org/3/library/json.html) beschreiben werden.

### JSON direkt in Datei speichern

Im Beispiel oben haben wir gesehen, wie wir ein Dictionary in einen String umgewandelt haben. Diesen String könnten wir ohne weitere via ``fh.write(serialized_data)`` auch in eine Datein speichern. Das JSON-Modul bietet aber die Möglichkeit, Daten direkt in eine Datei zu schreiben:

In [None]:
with open('output/data.json', 'w', encoding="utf-8") as fh:
    json.dump(data, fh)

``json.dump()`` kennt weitgehend dieselben Parameter wie ``dumps()``, das heißt, wir können auch hier ``ensure_ascii=`` oder ``indent=`` verwenden.

## JSON lesen

### JSON aus String lesen

Natürlich können wir das ``json`` Modul auch dazu verwenden, einen JSON-String wieder in eine Python-Datenstruktur umzuwandelt. Das ist z.B. dann nützlich, wenn wir ein Python-Script schreiben, das sich Daten von einem Server holt und weiter verarbeitet. Eine andere Anwendungsmöglichkeit besteht darin, Daten aus einer JSON-Datei zu lesen.

Beginnen wir mit einem einfachen Beispiel: Ein einfaches JSON in einem String:

In [None]:
json_data = '''{"firstname": "Gunter", "lastname": "Vasold", "lectures_since": 1998, 
               "is_retired": false, "landline": null, 
               "courses": [
               {"title": "Grundlagen der Programmierung", "type": "VU", 
               "years": [2017, 2018, 2019, 2020, 2021, 2022, 2023]}, 
               {"title": "Informationsmodellierung II", "type": "VU", "years": [2019, 2020, 2021, 2022]}, 
               {"title": "Digitale Langzeitarchivierung und Datenmanagement", "type": "VU", "years": [2023]}]}'''

Um diesen String in ein Dictionary umzuwandeln, benötigen wir die ``loads()`` Funktion des ``json``  Moduls.

In [None]:
data = json.loads(json_data)
print(type(data))

``loads`` hat nicht nur die Struktur der Daten wiederhergestellt, sondern auch ``false`` als ``False`` interpretiert und ``null`` als ``None``.

In [None]:
print(data["firstname"], data["is_retired"], data["landline"])

Hier sehen wir einen weiteren Unterschied zu csv: JSON unterstützt seine grundlegenden Datentypen auch beim Lesen, während bei csv zunächst alle Daten als Strings angelegt werden.

### JSON aus Datei lesen

Mit der ``load()`` Funktion kann man JSON auch direkt aus einer Datei lesen:

In [None]:
with open('data/cities.json', encoding="utf-8") as fh:
    data = json.load(fh)
print(data["provinces"][0])    

## Eigene Klassen nach JSON serialisieren und wieder deserialisieren

Wir haben gelernt, dass JSON nur basale Datentypen wie Listen, Dictionaries, Strings usw. serialisieren kann. Was ist, wenn wir Objekte aus selbst geschriebenen Klassen haben? Das JSON-Modul wirft für Daten, die es nicht serialisiere kann einen
``TypeError``. Die lässt sich zwar mit dem Parameter ``skipkeys=True`` unterdrücke, würde aber dazu führen, dass die Daten nicht vollständig serialisiert werden und damit verloren gehen.

Ich stelle hier eine Mögöichkeit vor, die es erlaubt, auch eigene Klassen nach JSON serialisieren zu können. Dazu
fügen wir unserer Klasse eine ``to_json()`` Methode hinzu. Diese Methode wandelt die in der Klasse gespeicherten Daten nach JSON um und liefert diesen JSON String zruück. 

Zusätzlich könnte man eine Klassenmethode haben, die aus dem von ``to_json()`` erzeugten JSON wieder ein Objekt erzeugt. 
Hier ein simples Beispiel:

In [None]:
class Course:

    def __init__(self, title, type, *args):
        self.title = title
        self.type = type
        self.years = list(args)

    def add_year(self, year):
        self.years.append(year)

    def to_json(self):
        "Serialize object to JSON."
        data = {"title": self.title, "type": self.type, "years": self.years}
        return json.dumps(data)

    @classmethod
    def from_json(cls, json_str):
        "Create a Course object from json_str."
        data = json.loads(json_str)
        course = Course(data["title"], data["type"])
        for year in data["years"]:
            course.add_year(year)
        return course

Probieren wir diese Klasse gleich aus, indem wir ein ``Course`` Objekt erzeugen und dieses dann nach JSON serialisieren:

In [None]:
course = Course("Introduction to Python", "VU", 2022, 2023)
course_json = course.to_json()
course_json

Um die Klassenmethode ``from_json()`` zu demonstrieren, löschen wird das existierende ``course`` Objekt (was eigentlich nicht notwendig wäre) und erzeugen es via ``from_json()`` neu:

In [None]:
del course
course = Course.from_json(course_json)
print(course)
print(course.years)
print(course.to_json())

Wir haben also aus dem JSON-String über die Klassenmethode ``Course.from_json()`` uns wieder ein ``Course``-Objekt erzuegen lassen.

### Verschachtelte Objekte serialisieren/deserialisieren
Was wir hier für eine einzelne Klasse demonstriert haben, funktioniert natürlich auch für verschachtelte Objekte. Die ``Lecturer`` Klasse erwartet hier (implizit) als Datentyp von ``courses`` eine Liste von ``Course`` Objekten.
Wir verwenden daher in der ``to_json()`` Methode von ``Lecturer`` die ``to_json()``-Methode von ``Course`` um die einzelnen Course-Objekt nach JSON zu serialisieren. 

In der ``from_json()`` Methode von ``Lecturer``verwenden wir zum Erzeugen der ``Course``-Objekte die entsprechend ``from_json()``-Methode der ``Course``-Klasse. 

In [None]:
class Lecturer:

    def __init__(self, firstname, lastname, lectures_since, landline=None):
        self.firstname = firstname
        self.lastname = lastname
        self.lectures_since = lectures_since
        self.landline = landline
        self.is_retired = False
        self.courses = []

    def retire(self):
        "Retire the lecturer."
        self.is_retired = True

    def add_course(self, course):
        self.courses.append(course)

    def to_json(self):
        "Serialize object with all containes subobjects to JSON."
        data = { "firstname": self.firstname, 
                 "lastname": self.lastname,
                 "lectures_since": self.lectures_since,
                 "landline": self.landline, 
                 "is_retired": self.is_retired,
                 "courses": []
               }
        for course in self.courses:
            data["courses"].append(course.to_json())
        return json.dumps(data)


    @classmethod
    def from_json(cls, json_str):
        """Create a Lecturer object from JSON.
        
        All contained Course data are converted to ``Course`` objects.
        """
        data = json.loads(json_str)
        lecturer = Lecturer(data["firstname"], data["lastname"], 
                            data["lectures_since"], data["landline"])
        for course in data["courses"]:
            lecturer.add_course(Course.from_json(course))
        return lecturer
            

Wenn wir dir folgende Code-Zelle ausführen, erhalten wir einen JSON-String, der die Daten des gesamten ``Lecturer``-Objekts inklusive der enthaltenen ``Course`` Objekte enthält.

In [None]:
lecturer = Lecturer("Gunter", "Vasold", 1998)
lecturer.add_course(Course("Databases", "VU", 2024))
lecturer.add_course(Course("Web APIs and REST", "VU", 2023, 2024))
lecturer_json = lecturer.to_json()
lecturer_json

Den so generierten JSON-String können wir später dazu verwenden, via ``Lecturer.from_json()`` wieder ein ``Lecturer`` Objekt samt der darin enthaltenen ``Course``Objekte zu erzeugen.

In [None]:
lecturer = Lecturer.from_json(lecturer_json)
print(lecturer.lastname)
print(len(lecturer.courses))

## XPath für JSON

Man kann sich natürlich mit Python-Boardmitteln (``data["provinces"][2]["districts"][4]``) durch eine komplexe JSON-Struktur bewegen, es gibt aber einige Bibliotheken, die die Navigation erleichtern. Eine empfehlenswerte Bibliothek ist ``jsonpath-ng``, die eine XPath-artige Funktionsweise hat. 

Zuerst müssen wir uns die Bibliothek installieren:

In [None]:
!pip install jsonpath-ng

Zuerst laden wir die Bibliothek und laden dann die Daten aus der JSON-Datei in ein Disctionary:

In [None]:
import jsonpath_ng as jp

with open("data/cities.json", encoding="utf-8") as fh:
    data = json.load(fh)

jsonpath arbeitet so, dass man zuerst einen Pfadausdruck definiert und mit der ``parse()``-Funktion in ein Objekt umwandelt. Danach kann in einem aus JSON generierten Dictionary der Ausdruck ausgewertet werden:

In [None]:
province_expr = jp.parse("$.provinces[*].name")
for province in province_expr.find(data):
    print(province.value)

* Das ``$`` steht hier für das Wurzelelement und kann im Prinzip auch weggelassen werden.
* Das ``.`` trennt Pfade
* ``provinces`` ist der Key, auf den wir zugreifen wollen. Da der Wert von ``provinces`` eine Liste ist, signalisieren wir mit ``[*]``: Wende den Ausdruck auf alle Element der Liste an.
*  ``name`` ist der Key, auf den wir (für jedes Objekt aus der Liste ``provinces``) zugreifen wollen

Während der einfache Punkt im Ausdruck jeweils eine Ebene trennt, können wir mit zwei Punkten (``..``) beliebig viele Ebenen matchen. Der folgende Ausdruck matcht also alle 'cities' Keys und liefert alle Darin enthaltenen Werte für den Key ``name``.

In [None]:
cities_expr = jp.parse("$..cities[*].name")
for city in cities_expr.find(data):
    print(city.value)

Sind wir nur an den Städten der Steiermark interessiert, müssen wir filtern. Dazu brauchen wir das ``jsonpath_ng.ext`` Modul:

In [None]:
import jsonpath_ng.ext as jpx

Danach können wir Filter in Pfadausdrücke einbauen. Beachten Sie, dass wir nun nicht mehr ``jp.parse()``, sondern ``jpx.parse()`` aufrufen! Die Filterbedingung wird durch ein ``? `` eingeleitet und steht zwischen eckicgen Klammern. In der Bedingung können die Python-Vergleichsoperatoren verwendet werden.

In [None]:
cities_expr = jpx.parse("$.provinces[?(@.name == 'Steiermark')]..cities[*].name")
for city in cities_expr.find(data):
    print(city.value)

jsonpath_ng bietet noch eine Reihe weiterer Möglichkeiten, ich verweise diesbezüglich auf die Dokumentation der Bibliothek.

## Vertiefende Literatur
Ich empfehle ausdrücklich, mindestens eine der folgenden Ressourcen zur Vertiefung zu lesen!

  * https://docs.python.org/3/library/json.html
  * https://pypi.org/project/jsonpath-ng/
  * https://github.com/h2non/jsonpath-ng

## Lizenz

This notebook ist part of the course [Grundlagen der Programmierung](https://github.com/gvasold/gdp) held by [Gunter Vasold](https://online.uni-graz.at/kfu_online/wbForschungsportal.cbShowPortal?pPersonNr=51488) at Graz University 2017&thinsp;ff. 

<p>
    It is licensed under <a href="https://creativecommons.org/licenses/by-nc-sa/4.0">CC BY-NC-SA 4.0</a>
</p>

<table>
    <tr>
    <td>
        <img style="height:22px" 
             src="https://mirrors.creativecommons.org/presskit/icons/cc.svg?ref=chooser-v1"/></li>
    </td>
    <td>
    <img style="height:22px;"
         src="https://mirrors.creativecommons.org/presskit/icons/by.svg?ref=chooser-v1" /></li>
    </td>
    <td>
        <img style="height:22px;"
         src="https://mirrors.creativecommons.org/presskit/icons/nc.svg?ref=chooser-v1" /></li>
    </td>
    <td>
        <img style="height:22px;"
             src="https://mirrors.creativecommons.org/presskit/icons/sa.svg?ref=chooser-v1" /></li>
    </td>
</tr>
</table>