# Feather

Bisher hatten wir unsere Daten entweder als `CSV-Datei` gespeichert oder den DataFrame direkt `Pickle-Datei`, was beides okay ist. Es gibt nun ein weiteres Format, in dem wir unsere DataFrames speichern können, und das ist `Feather`. Feather speichert die Dateien als Binärformat und somit sind die generierten Daten auch nicht menschenlesbar. Sie sind also kein Ersatz für CSV-Dateinen sondern müssen eher als Ergänzung gesehen werden.

## Was ist Feather?

Einfach ausgedrückt ist es ein `Datenformat zum Speichern von DataFrames`. Es basiert auf einer einfachen Prämisse – `Dataframes so effizient wie möglich` in den und aus dem Speicher zu verschieben. Feather ist besonders gut geeignet für große Datensätze, da es sehr viel schneller und auch platzsparender als CSV-Daten ist.

## Warum nicht Pickle?
Pickle ist ein Pythonformat und auch nur via Python einzulesen. Feather hingegen ist sprachagnostisch und könnte auch von einem R-Programm eingelesen werden. Dh. wenn Austausch zwischen Plattformen nötig ist, ist von Pickle abzuraten.

## Wann nicht mit Feather arbeiten?
Feather-Dateien sind nicht ausgelegt für das Langzeitspeichern von Daten. Zur Zeit sind zwischen den verschiedenen Feather-Versionen keine Kompatibilitäten garantiert.

## Feather installieren
Um Feather zu nutzen, müssen wir es mit pip aus dem Python Package Index installieren.

    pip install feather-format

## Arbeiten mit Feather
Wir wollen jetzt einen großen DataFrame aus einer Gleichverteilung erstellen und diesen einmal mit pandas `to_csv` und einmal mit `feather` speichern. 

In [2]:
import numpy as np
import feather
import pandas as pd

SIZE = 1_000_000

df = pd.DataFrame({
    "a": np.random.rand(SIZE),
    "b": np.random.rand(SIZE),
    "c": np.random.rand(SIZE),
    "d": np.random.rand(SIZE),
})

df.head()

Unnamed: 0,a,b,c,d
0,0.32405,0.091008,0.706418,0.98934
1,0.648961,0.063097,0.456979,0.01328
2,0.395322,0.251725,0.730725,0.759643
3,0.334077,0.877719,0.5242,0.699598
4,0.193544,0.101755,0.795134,0.722851


## Als CSV speichern und Zeit messen
mit `%%time`  können wir die vergangene Zeit messen, die eine Zelle zur Berechnung benötigt hat. Man muss hier zwischen `Wall time` und `CPU-Time` unterscheiden. Wall Time ist die tatsächlich vergangene Zeit nach menschlichen Maßstäben, CPU time ist die Zeit, die die CPU benötigt hat. In diesem Beispiel unterscheiden sich die beiden nicht groß.

In [4]:
%%time
df.to_csv("data/feather.csv")

CPU times: user 8.23 s, sys: 263 ms, total: 8.49 s
Wall time: 8.94 s


## Als Feather speichern und Zeit messen
Nun Speichern wir den DataFrame als Feather-Datei. Der Zeitunterschied ist enorm!

In [5]:
%%time
df.to_feather("data/feather.feather")

CPU times: user 68.3 ms, sys: 44.5 ms, total: 113 ms
Wall time: 63.4 ms


## Dateigrößen prüfen
Ein Vergleich der Dateigrößen zeigt, dass die feather Datei 30MB groß ist, die CSV-Datei ca. 80MB. Es ist also auch ein ordentlicher Raumgewinn, der beim Nutzen von Feather einhergeht.

## Feather Datei wieder einlesen
Eine Feather-Datei lässt sich mit `read_feather` auch wieder leicht einlesen.

In [6]:
df_2 = pd.read_feather("data/feather.feather")
df_2.head()

Unnamed: 0,a,b,c,d
0,0.32405,0.091008,0.706418,0.98934
1,0.648961,0.063097,0.456979,0.01328
2,0.395322,0.251725,0.730725,0.759643
3,0.334077,0.877719,0.5242,0.699598
4,0.193544,0.101755,0.795134,0.722851
