# Daten laden und speichern
In diesem Abschnitt wird das Laden und Speichern in und aus Dateien mittels Pandas thematisiert. Dazu werden erneut Auszüge aus dem Datensatz [Disney+ Movies and TV Shows](https://www.kaggle.com/code/werador/disney-data-analysis/data) verwendet. Importieren Sie zuerst Pandas.

In [None]:
import pandas as pd
from os import path, remove

## Inhaltsverzeichnis
- [CSV](#CSV)
- [JSON](#JSON)
- [Pickle](#Pickle)
- [Kompression](#Kompression)
- [Löschen temporärer Daten](#Löschen-temporärer-Daten)

## CSV
Pandas kann CSV-Dateien laden und verwendet dabei die erste Zeile automatisch als Spaltennamen.

In [None]:
df_from_csv = pd.read_csv('disney_plus_titles.csv')
df_from_csv.head(3)

DataFrames können auch als CSV gespeichert werden. Beachten Sie bitte, dass der Index ebenfalls als erste Spalte gespeichert wurde, auch wenn er nicht im ursprünglichen Datensatz enthalten war. Das Verhalten lässt sich mit dem Parameter `index` beeinflussen.

In [None]:
df_from_csv.to_csv('disney_plus_titles_2.csv')

## JSON
Pandas kann ebenfalls mit JSON-Dateien interagieren. Standardmäßig wird die Datei spaltenweise gelesen. Mit dem Parameter `orient` lässt sich jedoch die Reihenfolge verändern.

In [None]:
df_from_json = pd.read_json('disney_plus_titles.json', orient='records')
df_from_json.head(3)

Ein DataFrame kann auch als JSON gespeichert werden. Die Reihenfolge kann dabei ebenfalls mit dem Parameter `orient` beeinflusst werden.

In [None]:
df_from_json.to_json('disney_plus_titles_2.json', indent=4)

## Pickle
Auch Pandas erlaubt das Lesen aus mit Pickle serialisierten Objekten.

In [None]:
df_from_pickle = pd.read_pickle('disney_plus_titles.pickle')
df_from_pickle.head(3)

Natürlich lässt sich auch ein im Speicher befindliches DataFrame serialisieren und schreiben.

In [None]:
df_from_pickle.to_pickle('disney_plus_titles_2.pickle')

## Kompression
Beim Speichern lässt sich mit Hilfe des Parameters `compression` eine der Kompressionsarten `zip`, `gzip`, `bz2` oder `zstd` aktivieren. Die folgende Zelle verwendet bzip2, um den Export als CSV zu komprimieren. Mit `to_json` und `to_pickle` kann der Parameter analog verwendet werden.

In [None]:
df_from_csv.to_csv('disney_plus_titles_2_compressed.csv.bz2',
                   compression='bz2', index=False)

In der Dateigröße ist erneut ein deutlicher Unterschied zu erkennen.

In [None]:
for filename in 'disney_plus_titles_2.csv', 'disney_plus_titles_2_compressed.csv.bz2':
    print(f'{filename:40} {path.getsize(filename) // 1024: 4} KiB')

Beim Einlesen kann der `compression` Parameter ebenfalls gesetzt werden. Wenn die Dateiendung passend zur Kompressionsmethode gewählt wurde, erkennt Pandas automatisch die verwendete Kompression.

In [None]:
df_from_compressed_csv = pd.read_csv('disney_plus_titles_2_compressed.csv.bz2')
df_from_compressed_csv.head(3)

## Löschen temporärer Daten
Die folgende Zelle entfernt die angelegten Dateien.

In [None]:
for file in ('disney_plus_titles_2.csv',
             'disney_plus_titles_2.json',
             'disney_plus_titles_2.pickle',
             'disney_plus_titles_2_compressed.csv.bz2'):
    if path.exists(file):
        remove(file)