# Datenformate
Im vorigen Abschnitt haben Sie bereits Dateien eingelesen, die ein sehr simples Format besaßen:
- Jede Zeile enthält ein Datum.
- Ein Datum besteht immer aus genau einer Eigenschaft / einem Feld, namentlich dem Titel.

Natürlich sind die Daten der realen Welt selten so simpel. Zu einem Film oder einer Serie gehören weitere Informationen, wie beispielsweise der Veröffentlichungszeitpunkt, die Bewertung der Zuschauer oder eine kurze Beschreibung.

Um ein Datum mit mehreren Feldern zu kodieren, existieren daher verschiedene Datenformate, die alle eigene Vor- und Nachteile besitzen. Unterschieden wird dabei zwischen textbasierten und binären Verfahren. Erstere lassen sich mit einem einfachen Texteditor bearbeiten und gelten als menschenlesbar, während letztere in der Regel Speicherplatz sparen und schneller zu verarbeiten sind.

In diesem Abschnitt werden Ihnen drei wichtige Datenformate vorgestellt. Zur Veranschaulichung wird erneut ein Auszug aus dem Datensatz [Disney+ Movies and TV Shows](https://www.kaggle.com/code/werador/disney-data-analysis/data) verwendet.

## Inhaltsverzeichnis
- [CSV](#CSV)
- [JSON](#JSON)
- [Pickle](#Pickle)

## CSV
*CSV* steht für *Comma-Separated Values*, ist ein textbasiertes Format und folgt einer Art Tabellenstruktur. Dementsprechend werden häufig Daten im CSV-Format gespeichert, die einer Tabellenkalkulation oder Datenbanksoftware entstammen. Dabei gelten die folgenden Regeln:
- Die Datensätze werden durch ein festgelegtes Zeichen getrennt. In der Regel ist dies ein Zeilenumbruch.
- Die Felder werden durch ein anderes Zeichen getrennt. Dem Namen folgend ist dies ein Komma. Es sind jedoch auch Tabulatoren (`\t`) und Semikolons beliebt.
- Die erste Zeile der Datei kann für die Namen der Spalten verwendet werden.

Ein gültiges CSV-Dokument sieht wie folgt aus.
```csv
title,release_year
Duck the Halls: A Mickey Mouse Christmas Special,2016
Ernest Saves Christmas,1988
"Dr. Oakley, Yukon Vet",2013
```

Felder, die eines der festgelegten Trennzeichen enthalten, müssen maskiert werden. Deshalb steht der Titel `Dr. Oakley, Yukon Vet` in Anführungszeichen. Die Methoden aus der Python-Standardbibliothek übernehmen diese Aufgabe sowohl beim Lesen als auch beim Schreiben automatisch.

Zum Laden einer CSV-Datei öffnen Sie diese zuerst wie im vorigen Abschnitt. Verwenden Sie dann die Funktion `reader` aus dem Modul `csv`, die einen Iterator zurückgibt, um die Daten zu verarbeiten:

In [None]:
import csv

with open('disney_plus_titles.csv') as file:
    reader = csv.reader(file)

    for line_number, line in enumerate(reader, 1):
        print(line)

        if line_number >= 4:
            break

Beachten Sie bitte, dass die Kopfzeile ebenfalls als Teil des Datensatzes gelesen wird.

## JSON
*JSON* steht für *JavaScript Object Notation* und bezeichnet ebenfalls ein textbasiertes Format. Auch wenn JSON unabhängig der verwendeten Programmiersprache gelesen und gespeichert werden kann, ist es besonders bei der Programmierung von Websites und über das Internet erreichbaren APIs beliebt. Im Unterschied zu CSV ist es mit JSON deutlich einfacher, verschachtelte Objekte und Listen zu speichern. Wie Sie im Folgenden sehen werden, verbraucht JSON allerdings auch deutlich mehr Platz durch die häufige Wiederholung von Attributnamen.

Ein JSON-Dokument erfüllt die folgenden Eigenschaften:
- Das Dokument ist ein Objekt oder eine Liste.
- Objekte werden von `{}` umschlossen und enthalten Schlüssel-Wert-Paare. Schlüssel sind von Anführungszeichen umschlossen.
- Listen werden von `[]` umschlossen und enthalten Werte.
- Werte sind entweder von primitiven Datentypen, selbst Objekte oder Listen. Strings werden ebenfalls von Anführungszeichen umschlossen.

Ein gültiges JSON-Dokument sieht wie folgt aus:
```javascript
[
    {
        "title": "Duck the Halls: A Mickey Mouse Christmas Special",
        "cast": [
            "Chris Diamantopoulos",
            "Tony Anselmo",
            "Tress MacNeille",
            "Bill Farmer",
            "Russi Taylor",
            "Corey Burton"
        ]
    },
    {
        "title": "Ernest Saves Christmas",
        "cast": [
            "Jim Varney",
            "Noelle Parker",
            "Douglas Seale"
        ]
    },
    {
        "title": "Dr. Oakley, Yukon Vet",
        "cast": [
            "Dr. Michelle Oakley",
            "Zachary Fine"
        ]
    }
]
```

Zum Laden einer JSON-Datei öffnen Sie diese zuerst wie im vorigen Abschnitt. Verwenden Sie dann die Funktion `load` aus dem Modul `json`, die ein Dictionary zurückgibt:

In [None]:
import json

with open('disney_plus_titles.json') as file:
    data = json.load(file)

    for line_number, line in enumerate(data, 1):
        print(line['title'], ':', line['cast'])

        if line_number >= 3:
            break

## Pickle
*Pickle* ist ein binäres Format, das nur in Python zur Verfügung steht. Es ist also kein Austausch mit anderen Programmiersprachen möglich. Zudem existieren verschiedene Versionen des Protokolls, sodass neuere Versionen zwar Daten älterer Versionen lesen können, dies umgekehrt aber nicht der Fall sein muss.

Dementsprechend wird Pickle selten für den Austausch von Datensätzen verwendet. Es hat als binäres Format allerdings den Vorteil, dass es im Allgemeinen weniger Speicherplatz benötigt, schneller geladen und schneller verarbeitet werden kann als dies mit textbasierten Formaten der Fall ist.

Pickle wird ähnlich zum JSON-Modul verwendet. Die folgende Zelle lädt den vollständigen Datensatz mehrmals via JSON und Pickle und gibt anschließend die durchschnittlich benötigte Zeit aus.

In [None]:
import json
import pickle
import os

# json
def load_json():
    with open('disney_plus_titles_full.json') as file:
        data = json.load(file)

print('json Dateigröße:  ', os.path.getsize('disney_plus_titles_full.json'))
%timeit -r 10 -n 10 load_json()

# pickle
def load_pickle():
    with open('disney_plus_titles_full.pickle', 'rb') as file:
        data = pickle.load(file)

print('pickle Dateigröße:', os.path.getsize('disney_plus_titles_full.pickle'))
%timeit -r 10 -n 10 load_pickle()