# JSON

Neben CSV-Dateien gibt es noch viele andere Strukturen, in denen Daten vorliegen und kommuniziert werden können. Ein verbreitetes Format nennt sich JSON. JSON steht für **JavaScript Object Notation**, ist jedoch von vielen Programmiersprachen und Tools adoptiert worden; So auch von Python.

Während im Fall von CSV jeder Dateneintrag die selbe Form hat (jede Zeile hat genau einen Wert für jede Spalte), erlaubt JSON eine sehr freie Form. Dies wird erreicht, indem jeder **Wert** einen bestimmten Namen zugeordnet hat, ein sogenannter **Schlüssel**. Im Jargon bezeichnet man so eine Kombination von Schlüssel und Wert ein **key/value pair**.

Schauen wir uns ein einfaches Beispiel an:

```json
{
    "name": "Jannes",
    "age": 25,
    "height": 1.86,
    "working_remote": true,
    "car": null
}
```

Unser einfaches Beispiel beschreibt eine Person und demonstriert die Datentypen, die ein JSON-Datensatz enthalten kann. Er ähnelt in der Erscheinung und Funktion einem `dict` in Python.

Betrachten wir das Beispiel Zeile für Zeile:

- `{`
  - Geschweifte Klammern signalisieren den Anfang und Ende eines **Objektes**. Objekte sind Sammlungen von key/value-Paaren. In Python werden diese als `dict` repräsentiert.
- `"name": "Jannes",`
  - Das erste key/value-Paar. `name` ist hier der Schlüssel (key) und `"Jannes"` ist der Wert (value). In diesem Fall ist der Wert eine Zeichenfolge (`str` in Python), erkennbar an den umschließenden Anführungszeichen.
- `"age": 25,`
  - Der Schlüssel `age` enthält eine Ganzzahl (`int` in Python)
- `"height": 1.86,`
  - `height` ist eine Kommazahl (`float` in Python)
- `"working_remote": true,`
  - Auch Boolean-Werte (`bool` in Python) sind möglich, werden allerdings anders als in Python klein geschrieben
- `"car": null`
  - `null` ist das JSON-Equivalent zu `None` und steht für "kein Wert"
- `}`
  - Signalisiert das Ende des Objektes

Alle Schlüssel müssen von Anführungszeichen umschlossen sein. Außerdem ist jedes key/value-Paar in einem Objekt mit einem Komma voneinander getrennt. Das letzte Paar hat kein Komma. Aufgrund dieser Regel benötigt JSON keine Zeilenumbrüche.

Nicht jeder JSON-Datensatz beginnt mit einem Objekt, oder muss überhaupt eines beinhalten. Ein einzelner Wert, sowie eine Liste (siehe nächstes Beispiel), sind auch valides JSON.

Bis hierhin ist der Unterschied oder gar Vorteil zu einem CSV-Datensatz vielleicht noch nicht sehr offensichtlich. Allerdings können JSON-Datensätze Datenstrukturen abbilden, die in CSV nur schwer abzubilden sind.

Betrachten wir ein weiteres, etwas komplexeres Beispiel. Angenommen, die Person aus unserem vorherigen Beispiel hätte sich ein Auto zugelegt, und wir möchten auch dieses beschreiben. Außerdem wollen wir seine Hobbies auflisten.

```json
{
    "name": "Jannes",
    "age": 25,
    "height": 1.86,
    "working_remote": true,
    "car": {
        "maker": "Toyota",
        "model": "Auris"
    },
    "hobbies": [
        "Programmieren",
        "Musik machen",
        "Zocken"
    ]
}
```

Schauen wir uns die Änderungen an unserem Datensatz an. Er besteht weiterhin aus einem Objekt, das eine Person beschreibt. Allerdings ist dem `car`-Schlüssel nun ein weiteres Objekt mit eigenen Schlüsseln und Werten zugeordnet. Außerdem ist ein neues key/value-Paar hinzugekommen. Zu dem neuen Schlüssel `hobbies` ist ein neuer Wertetyp zugeordnet: Eine Liste. Listen sind mit eckigen Klammern umschlossen und können beliebig viele Elemente enthalten, die wieder mit Kommata voneinander getrennt sind. Die Elemente einer Liste können, wie in Python auch, verschiedene Typen haben - Sie können sogar Objekte oder weitere Listen sein.

Objekte und Listen können kombiniert werden, um beliebig komplexe Strukturen anzunehmen. 

Wie wir sehen, können wir mit JSON deutlich komplexere Strukturen abbilden, als mit CSV.

Um JSON-Daten mit Python einzulesen, können wir das `json`-Modul aus der Standardbibliothek benutzen. `json.loads` erlaubt es uns, einen String direkt zu laden, während `json.load` genutzt wird, um Dateien einzulesen.

Betrachten wir ein paar einfache Beispiele:

In [1]:
import json

print(json.loads('42'))
print(json.loads('true'))
print(json.loads('[1, 2, 3, "4", 5.0, {"6": null}]'))
print(json.loads('{"key": "value"}'))

42
True
[1, 2, 3, '4', 5.0, {'6': None}]
{'key': 'value'}


Kommen wir zurück zu dem Beispiel von unserer Person und präsentieren die Daten ein wenig:

In [2]:
import json

with open('data/jannes.json') as json_file:
    person = json.load(json_file)

name = person['name']
hobbies = ', '.join(person['hobbies'])
print(f'Hobbies von {name}: {hobbies}')

Hobbies von Jannes: Programmieren, Musik machen, Zocken


Versuch doch mal, das neue Auto von Jannes auf ähnliche Weise zu beschreiben.

In [3]:
name = person['name']
car_maker = person['car']['maker']
car_model = person['car']['model']
print(f'{name} cruised mit seinem {car_maker} {car_model} durch die Straßen.')

Jannes cruised mit seinem Toyota Auris durch die Straßen.


## JSON und Pandas

Wie wir gesehen haben, lassen sich mit JSON Datenstrukturen abbilden, die weitaus komplexer sind, als eine klassische Tabellenform, wie sie Pandas Dataframes enhalten. Aber nicht alle JSON-Daten sind so komplex, und nicht immer sind wir an allen Daten interessiert. 

Betrachten wir folgendes Beispiel einer Liste von fiktiven Personen:

In [4]:
import json

with open('data/fictional_persons.json') as json_file:
    persons = json.load(json_file)

persons

[{'name': 'Erin Solstice', 'species': 'Mensch', 'age': 20},
 {'name': 'Ryoka Griffin', 'species': 'Mensch', 'age': 21},
 {'name': 'Pisces Jealnet', 'species': 'Mensch', 'age': 23},
 {'name': 'Rags', 'species': 'Goblin', 'age': 4}]

Diese Art von Struktur kann Pandas relativ gut verstehen.

In [5]:
import pandas as pd

persons = pd.read_json('data/fictional_persons.json')
persons

Unnamed: 0,name,species,age
0,Erin Solstice,Mensch,20
1,Ryoka Griffin,Mensch,21
2,Pisces Jealnet,Mensch,23
3,Rags,Goblin,4


Wie wir sehen, hat Pandas die Struktur der Daten korrekt interpretiert. Falls das mal nicht der Fall ist, können wir mit dem `orient`-Parameter Pandas einen Hinweis geben, in welcher Form die Daten vorliegen. Die Funktion ist [hier](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html) dokumentiert.