<h1><font color='darkblue'>JSON</font></h1>

In diesem Notebook lernst du die relevanten Themen über JSON kennen.

Das Notebook ist wie folgt aufgebaut:

                                        1. Was ist JSON?
                                        2. Aufbau eines JSON
                                        3. Wie komme ich an Elemente in einem JSON heran?
                                        4. JSON als Datengrundlage
                                   


<h2><font color='darkblue'>1. Was ist  JSON?</font></h2>

JSON steht für __JavaScript Object Notation__.

JSON ist ein String in dem Daten/Informationen etc. gespeichert werden können. Ein JSON dient also dazu Daten zu persistieren OHNE diese in SQL etc. speichern zu müssen. Im Ursprung wird JSON dafür verwendet um Informationen zwischen Anwendungen auszutauschen.

Im BigData Kontext wird JSON dafür verwendet, strukturierte/unstrukturierte/semistrukturierte Daten in NoSQL Datenbanken zu persistieren.

Auch Jupyter Notebooks werden in JSON Formaten gespeichert.

JSON ist folglich ein weit verbreitetes Datenformat, weshalb es durchaus Sinn macht sich damit auszukennen.

Mittlerweile existieren für die meisten Programmiersprachen Bibliotheken die JSON Formate lesen und schreiben.

Allein in Python existieren folgende Bibliotheken die JSON Formate lesen und schreiben:

                                - Python Standardbibliothek: json
                                - simplejson
                                - pyson
                                - Yajl-py
                                - ultrajson
                                - metamagic.json
                                - progbase


Wir werden mit der Standardbibliothek json arbeiten.


Grundsätzlich kannst du entweder mit einem JSON string arbeiten oder aus einer JSON Datei die Daten direkt einlesen ohne diese vorher umwandeln zu müssen.

Folgende Übersicht fasst die Funktionen zusammen:

                                                    |  einlesen in Python  | auslesen aus Python
                                     ---------------|----------------------|---------------------
                                        JSON string |      loads()         |      dumps()         
                                                    |  s für as string     |  s für as string
                                                    |                      |
                                        JSON Datei  |      load()          |      dump()
                                                    |                      |
                                 

Wenn JSON Formate in Python Objekte umgewandelte werden, erfolgt nachfolgende Entschlüsselung:



                                           JSON            |     Python         
                                        -------------------|-------------------
                                          object           |    dictionary         
                                          array            |    liste              
                                          string           |    string            
                                          number (int)     |    integer           
                                          number (real)    |    float              
                                          true/false       |    True/False     
                                          null             |    None           

Wie du erkennen kannst, hat JSON ähnliche Bezeichnungen wie Python.

Da wir mit dem Thema JSON konfrontiert sind, wenn Daten in einem JSON Format abgelegt sind, werden wir uns darauf konzentrieren.


<h2><font color='darkblue'>2. Aufbau eines JSON</font></h2>

Grundsätzlich existiert kein starres Schema wie ein JSON aufgebaut sein muss. Viel mehr ist ein JSON ein verschachteltes Konstrukt aus dictionaries und Listen. Für Tupel existiert kein Konzept in der JSON Standardbibliothek, daher wirst du keine Tupel innerhalb eines JSON finden.

Ein JSON kann beliebig tief verschachtelt sein. Hier wirst du beim Zugreifen auf Elemente dann auf das Thema "nested json" stoßen. Diesen Vorteil machen sich NoSQL Datenbanken zum Vorteil, weil Daten die thematisch zusammengehören zusammen abgelegt werden.

Beim Arbeiten mit JSON ist es wichtig "" anstelle von '' zu verwenden. Das ist neben dem fehlenden Konzept für Tupel, eine weitere Eigenart der JSON Bibiliothek.

Beispiel:


In [None]:
# 1. Schritt: benötigte Library importieren

import json 
import pandas as pd  

In [None]:
# Ausgangsbeispiel für den Aufbau eines JSON string

json_string = """{ "Student": [
                             {
                              "StudentID": 1,
                              "Vorname": "Charlotte",
                              "Nachname": "von Lindström"
                             },
                             {"StudentID": 2,
                              "Vorname": "Björn",
                              "Nachname": "Börk"
                             }
                           ]
              }"""
json_string 

Unser Ausgangsbeispiel besteht also aus einem dictionary mit einem key "Student". Der Value wiederum besteht aus einer Liste, die wiederum aus 2 Elementen besteht. Die 2 Elemente sind dictionaries die jeweils aus 3 keys besteht. Um später auf die Elemente zugreifen zu können, sind diese Informationen wichtig, da du für jede "Ebene" wissen musst, wie du darauf zugreifen kannst.

Da ein JSON aus einem string besteht, haben wir das Dictionary in einem string "gesetzt". 

<h3><font color='darkblue'>Wie kann ich mich mit den Daten in der JSON-Datei vertraut machen?</font></h3>

In [None]:
# Welcher Datentyp liegt vor?

type(json.loads(json_string))

In [None]:
# Welche Schlüssel sind enthalten?

# Variante 1: Vorher in einer Variablen speichern

datei = json.loads(json_string)

#datei 
datei.keys()


<h2><font color='darkblue'>3. Wie komme ich an Elemente in einem JSON heran?</font></h2>

Um an die Elemente heran zukommen, ist es wichtig zu wissen, wie das JSON aufgebaut ist. Wenn du den Aufbau verstanden hast und weißt aus welchen Bestandteilen(Liste, Dictionary) das JSON besteht, kannst du auf deine Kenntnisse über Listen und Dictionaries zurückgreifen und so an die Elemente herangkommen.

In [None]:
# json in Python Code umwandeln

inhalt = json.loads(json_string)
inhalt

Schritt für Schritt wollen wir einmal durchgehen wie wir an die einzelnen Elemente herankommen.

In [None]:
# Wie kommst du an den Vornamen von dem Studenten mit der StudentID = 2?

# Schritt 1: Wie ist das JSON aufgebaut?

inhalt

# Ergebnis: es ist ein dictionary, welches aus einem key besteht --> um eine Ebene weiter zu kommen, muss ich erst den
# key aufrufen

In [None]:
# Schritt 2: an den Key kommen, um dann zu sehen, wie die nächste Ebene aussieht

inhalt['Student']

# Ergebnis: Die Ebene tiefer besteht aus einer Liste. Um an den Student mit der ID 2 heranzukommen, muss ich an das 2.te 
# Element in der Liste heran

In [None]:
# Schritt 3: An das 2. Listenelement herankommen

inhalt['Student'][1]

# Ergebnis: die nächste Ebene besteht aus einem Dictionary. An Dictionarys komme ich über den key heran
# um nun den Vornamen zu erfahren, muss ich den key Vorname aufrufen

In [None]:
# Schritt 4: An den Key Vorname herankommen

inhalt['Student'][1]['Vorname']

# fertig 

Fazit: 

Um an die finalen Elemente heranzukommen, musst du dich Schritt für Schritt an jede Ebene herantasten und dir die 

Rückgabewerte anschauen. Daraus erkennst du aus welcher Struktur die nächste Ebene aussieht und wie du an diese 

herankommst. Danach kannst du über eine For-Schleife dir alle Elemente herausholen.

<h2><font color='darkblue'>4. JSON als Datengrundlage</font></h2>

Nun wollen wir uns einmal anschauen, wie du ein JSON in Pandas einlesen kannst. Weiterhin schauen wir uns an, wie wir an verschachtelte Spalten herankommen, um damit arbeiten zu können.

Hier existieren wieder verschiedene Möglichkeiten (Funktionen) und Bibliotheken. Wir werden die JSON Bibliothek und die Funktion json_normalize() verwenden.

Ein JSON kannst du ganz normal als Datei einlesen und dann wie gewohnt damit arbeiten.
Im DataScience werden wir mit den JSON Formaten allerdings in Pandas DataFrames arbeiten, um das Preprocessing und die Visualisierung durchführen zu können.


<h3><font color='darkblue'>JSON als Datei einlesen</font></h3>

In [None]:
# JSON als Datei einlesen

with open('ebike.json') as f:
    data = json.load(f)

In [None]:
# auf Elemente zugreifen

for element in data:
    print(element) 

<h3><font color='darkblue'>JSON Format in einen Pandas DataFrame einlesen</font></h3>

In [None]:
# JSON mit read_json() in einen DataFrame einlesen

df_ebike = pd.read_json('ebike.json')
df_ebike 

In [None]:
# df_ebike ist eine Series!
df_ebike2 = df_ebike['ebikes']
df_ebike2

# verschachtelte dictionaries --> nested json --> json_normalize() anwenden

In [None]:
# json_normalize verwenden, um weiter innerhalb des dictionaies abtauchen zu können

df_ebike3 = pd.json_normalize(data=df_ebike2)
df_ebike3 

In [None]:
# Modellarten sind verschachtelt --> eine tiefe abtauchen
# record_path= - wohin möchte ich verzweigen
# meta= Diese Informationen möchte ich mitnehmen

df_ebike4 = pd.json_normalize(data=df_ebike2, record_path=['Modellarten'], meta=['Hersteller'])
df_ebike4

# erkenntniss: Motor und Fahrradeigenschaften sind verschachtelt --> bei Motor tauchen wir weiter ab

In [None]:
# eine weitere ebene abtauchen und daten aus oberen ebenen mit anzeigen lassen

df_ebike5 = pd.json_normalize(data=df_ebike2, record_path=['Modellarten','Motor'], meta=['Hersteller',['Modellarten','Modell'],['Modellarten','Preis']])
df_ebike5 