## JSON (Java Script Object Notation)
JSON (JavaScript Object Notation) ist ein leichtgewichtiges, textbasiertes Datenformat, das zur Darstellung strukturierter Daten verwendet wird. Es besteht aus Schlüssel-Wert-Paaren und ist leicht lesbar für Menschen und Maschinen. JSON wird häufig für Datenaustausch und APIs genutzt, da es in nahezu jeder Programmiersprache gelesen und geschrieben werden kann.

Die **JSON-Struktur** ähnelt Python-Datenstrukturen, da JSON eine einfache, textbasierte Art bietet, Daten in Form von Schlüssel-Wert-Paaren und Listen darzustellen. Deshalb ist JSON in Python besonders intuitiv zu verwenden und entspricht weitgehend Dictionaries und Listen. 

### JSON-Struktur und Ähnlichkeiten zu Python
- **Objekte in JSON**: Sie werden mit geschweiften Klammern `{}` dargestellt und entsprechen in Python einem Dictionary. JSON-Objekte bestehen aus Schlüssel-Wert-Paaren, wobei der Schlüssel immer ein String ist, während der Wert verschiedene Datentypen annehmen kann.
- **Arrays in JSON**: Sie werden mit eckigen Klammern `[]` dargestellt und entsprechen in Python einer Liste. JSON-Arrays können verschiedene Typen speichern (z.B. Strings, Zahlen, andere Objekte oder Arrays).
- **Primitive Datentypen**: JSON unterstützt Zeichenketten (Strings), Zahlen (Ganzzahlen und Gleitkommazahlen), `true`, `false`, und `null`. Diese entsprechen in Python den Datentypen `str`, `int`, `float`, `True`, `False`, und `None`.

### JSON-Python Vergleichstabelle

| JSON            | Python                |
|-----------------|-----------------------|
| `{ "key": "value" }` | `{"key": "value"}` (Dictionary) |
| `[1, 2, 3]`           | `[1, 2, 3]` (List)            |
| `"text"`              | `"text"` (String)             |
| `123`                 | `123` (Integer)              |
| `true`                | `True` (Boolean)              |
| `null`                | `None`                        |

**Achtung:** Der `key` bei JSON muss aus einer Zeichenkette bestehen (in Python ist jeder immutable Typ erlaubt)

In Pandas gibt es einfache Methoden, um JSON-Daten direkt aus Dateien oder Strings zu lesen und zu schreiben. Hier findest du detaillierte Erklärungen und Beispiele, um JSON-Daten in einem DataFrame zu verwenden.

### 1. JSON-Daten in Pandas laden (Lesen)

Pandas bietet die Funktion `pd.read_json()`, um JSON-Daten zu lesen. Dabei kann entweder eine Datei oder ein JSON-String als Eingabe verwendet werden.

#### JSON-Datei laden

Um eine JSON-Datei zu laden, übergibst du den Dateipfad als Argument an `pd.read_json()`.

Inhalt der JSON Datei:

In [None]:
import pandas as pd

In [49]:
with open("iris.json") as f:
    content = f.read()
print(len(content))
print(content[:195])

20753
[
  {
    "sepal_length": 5.1,
    "sepal_width": 3.5,
    "petal_length": 1.4,
    "petal_width": 0.2,
    "species": "Iris-setosa"
  },
  {
    "sepal_length": 4.9,
    "sepal_width": 3.0,
    


In [45]:
df = pd.read_json('iris.json')
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


#### JSON-String laden

Falls die JSON-Daten als String vorliegen, kannst du diesen direkt in `pd.read_json()` laden, indem du das Argument `orient` entsprechend anpasst (für z.B. JSON-Objekte oder Arrays).

In [57]:
from io import StringIO
# Beispiel-JSON-String
json_str = '{"name": ["Alice", "Bob"], "age": [24, 30], "city": ["Berlin", "Munich"]}'

# Verwende StringIO, um den JSON-String wie eine Datei zu behandeln
json_data = StringIO(json_str)

# JSON-String in DataFrame laden
df = pd.read_json(json_data, orient='records')
df.head()

Unnamed: 0,name,age,city
0,Alice,24,Berlin
1,Bob,30,Munich


**StringIO:** 
Erlaubt es, den JSON-String so zu behandeln, als wäre er eine Datei. Dadurch kannst du mit `pd.read_json()` genauso arbeiten wie mit einer Datei, anstatt den String direkt zu übergeben.
#### Was bewirkt `orient`?

- **`orient='columns'`** (Standardoption): 
  Bei dieser Option wird angenommen, dass die JSON-Daten in einer Form vorliegen, bei der die Spalten des DataFrames als Schlüssel und die Werte als Listen vorliegen. Beispiel:

  ```json
  {
      "A": [1, 2, 3],
      "B": [4, 5, 6]
  }
  ```

  Wenn du diesen JSON-String mit `pd.read_json(json_str, orient='columns')` einliest, wird ein DataFrame erstellt, bei dem die Spalten `A` und `B` die Werte `1, 2, 3` bzw. `4, 5, 6` enthalten.

- **Andere Werte von `orient`**:
  Die Option `orient` steuert die Struktur der Daten, die Pandas beim Lesen oder Schreiben erwarten bzw. erzeugen möchte. Weitere Optionen sind:

  - **`records`**: Die JSON-Daten sind eine Liste von Objekten (Dictionaries), die jeweils einer Zeile im DataFrame entsprechen. Beispiel:
    
    ```json
    [{"A": 1, "B": 4}, {"A": 2, "B": 5}, {"A": 3, "B": 6}]
    ```

    Beim Einlesen mit `orient='records'` wird jeder Eintrag als Zeile im DataFrame interpretiert.

  - **`index`**: Die JSON-Daten sind nach Index gruppiert, wobei jeder Schlüssel ein Index ist und der Wert ein weiteres Dictionary oder eine Liste von Werten für die Spalten. Beispiel:
    
    ```json
    {
      "0": {"A": 1, "B": 4},
      "1": {"A": 2, "B": 5},
      "2": {"A": 3, "B": 6}
    }
    ```

    Beim Einlesen mit `orient='index'` wird jeder Schlüssel zu einem Index und der Wert zu einer Zeile.

  - **`split`**: Die JSON-Daten bestehen aus einem Objekt mit den Schlüsseln `index`, `columns` und `data`. Beispiel:
    
    ```json
    {
      "index": [0, 1, 2],
      "columns": ["A", "B"],
      "data": [[1, 4], [2, 5], [3, 6]]
    }
    ```

    Dies ermöglicht eine klare Trennung der Daten nach Index, Spalten und Werten.

### Wann wird `orient` benötigt?

- **Wichtig beim Lesen**: Wenn du Daten aus einer JSON-Datei oder einem String einliest, ist `orient` wichtig, um Pandas zu sagen, in welchem Format die Daten vorliegen, damit sie korrekt interpretiert und in einen DataFrame umgewandelt werden können.
- **Beispiel**: Wenn du eine JSON-Datei hast, bei der die Daten als Liste von Records vorliegen, aber du versuchst, sie mit `orient='columns'` zu laden, könnte der DataFrame nicht korrekt erzeugt werden, da `columns` für eine strukturierte Darstellung von Spalten gedacht ist und keine Listen von Records erwartet.


### 2. JSON-Daten in Pandas speichern 

Mit `df.to_json()` kannst du einen DataFrame in das JSON-Format exportieren, entweder in eine Datei oder als JSON-String.

#### In JSON-Datei speichern

In [60]:
# DataFrame in JSON-Datei speichern
df.to_json('output.json', orient='records', lines=True)  # Zeilenorientiert speichern

#### In JSON-String konvertieren

Falls du nur einen JSON-String benötigst, übergib keinen Dateipfad und speichere die Ausgabe in einer Variablen.

In [59]:
# DataFrame in JSON-String konvertieren
vars = [ "records","split", "index", "columns", "values"]
for i in vars:
    json_str = df.to_json(orient=i)
    print(i, json_str)


records [{"name":"Alice","age":24,"city":"Berlin"},{"name":"Bob","age":30,"city":"Munich"}]
split {"columns":["name","age","city"],"index":[0,1],"data":[["Alice",24,"Berlin"],["Bob",30,"Munich"]]}
index {"0":{"name":"Alice","age":24,"city":"Berlin"},"1":{"name":"Bob","age":30,"city":"Munich"}}
columns {"name":{"0":"Alice","1":"Bob"},"age":{"0":24,"1":30},"city":{"0":"Berlin","1":"Munich"}}
values [["Alice",24,"Berlin"],["Bob",30,"Munich"]]


Hier sind einige wichtige Optionen und Parameter für das Laden und Speichern von JSON-Daten in Pandas:

### 1. **Optionen beim Laden von JSON-Daten (`read_json`)**

- **`orient`**: Gibt an, wie die JSON-Daten strukturiert sind.
  - `split`: `{‘index’/‘columns’/‘data’}`
  - `records`: Liste von Dictionaries (jede Zeile als Dictionary)
  - `index`: JSON-Objekte sind nach Index gruppiert
  - `columns`: JSON-Objekte sind nach Spalten gruppiert
  - `values`: Nur Werte ohne Index und Spaltennamen

- **`lines`**: Bestimmt, ob die JSON-Daten in mehreren Zeilen gespeichert sind. Wenn `True`, werden JSON-Daten als JSON-Objekte pro Zeile interpretiert.
  - **`True`**: Jede Zeile ist ein JSON-Objekt.
  - **`False`**: Alle JSON-Daten sind in einem großen JSON-Array gespeichert.

- **`typ`**: Gibt den Typ der zu ladenden Daten an.
  - `frame`: Gibt an, dass die Daten als DataFrame geladen werden.
  - `series`: Gibt an, dass die Daten als Series geladen werden.
  
- **`encoding`**: Gibt die Zeichencodierung für das Lesen der Datei an (z.B. `utf-8`).
  
- **`dtype`**: Ermöglicht es, den Datentyp von bestimmten Spalten beim Laden zu definieren (z.B. `{'age': float}`).

- **`convert_dates`**: Gibt an, ob Datumsfelder automatisch in `datetime`-Objekte konvertiert werden sollen.
  - **`True`**: Automatische Konvertierung.
  - **`False`**: Keine Konvertierung, Datumsfelder bleiben Strings.

### 2. **Optionen beim Speichern von JSON-Daten (`to_json`)**

- **`orient`**: Bestimmt, in welchem Format die Daten gespeichert werden:
  - `split`: `{‘index’/‘columns’/‘data’}` 
  - `records`: Liste von Dictionaries (jede Zeile als Dictionary)
  - `index`: JSON-Objekte sind nach Index gruppiert
  - `columns`: JSON-Objekte sind nach Spalten gruppiert
  - `values`: Nur Werte ohne Index und Spaltennamen

- **`lines`**: Bestimmt, ob die JSON-Daten zeilenweise gespeichert werden.
  - **`True`**: JSON-Daten werden zeilenweise gespeichert (eine Zeile pro JSON-Objekt).
  - **`False`**: Alle JSON-Daten werden in einem einzigen JSON-Array gespeichert.

- **`index`**: Bestimmt, ob der DataFrame-Index in der JSON-Ausgabe enthalten sein soll.
  - **`True`**: Der Index wird gespeichert.
  - **`False`**: Der Index wird nicht gespeichert.

- **`date_format`**: Bestimmt das Format, in dem Datumswerte gespeichert werden (z.B. `iso` oder `epoch`).

- **`date_unit`**: Bestimmt die Zeiteinheit für die Speicherung von Datumswerten, wenn `date_format='epoch'` verwendet wird (z.B. `ms`, `s`).

- **`double_precision`**: Gibt die Anzahl der Dezimalstellen für Fließkommazahlen an (Standardwert ist 10).

- **`force_ascii`**: Wenn `True`, wird der JSON-Ausgabewert nur mit ASCII-Zeichen gespeichert. Andere Zeichen werden in Unicode-Notation umgewandelt.
  
- **`compression`**: Bestimmt, ob die Ausgabe komprimiert werden soll.
  - Kann `None`, `'gzip'`, `'bz2'`, `'zip'` oder `'xz'` sein.

- **`encoding`**: Bestimmt die Zeichencodierung für das Speichern der Datei (z.B. `utf-8`).