# Kapitel 6: Daten laden, speichern und Dateiformate

McKinney, W. (2017). *Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython*. 2. Auflage. Sebastopol, CA [u. a.]: O’Reilly.

Überarbeitet: armin.baenziger@zhaw.ch, 16. Januar 2020

- Bevor Daten analysiert werden können, müssen sie geladen werden.
- (Aufbereitete) Daten müssen gespeichert werden können, damit sie später (von anderen) wieder verwendet werden können.
- In diesem Kapitel werden einige Möglichkeiten in Pandas vorgestellt, Daten in unterschiedlichen Formaten zu laden und speichern.
- Das Lehrmittel geht in diesem Kapitel deutlich weiter. Insbesondere werden dort auch noch Interaktionen mit *Web APIs* und *Datenbanken* vorgestellt.

In [None]:
%autosave 0

In [None]:
# Nötige Bibliotheken mit üblichen Abkürzungen laden:
import numpy as np
import pandas as pd

## Daten im Textformat lesen und schreiben
Wir beginnen mit dem Einlesen von einer kleinen Komma-separierten (CSV) Text-Datei. Diese sieht wie folgt aus:

In [None]:
%load ../weitere_Daten/Beispiele_Kap06/CSV_Komma.csv

- CSV-Daten kann man sehr einfach mit der Pandas-Funktion `read_csv` einlesen. 
- Wenn es Probleme mit dem Einlesen gibt, stimmt der Pfad evt. nicht. Der Pfad muss zur Datei `CSV_Komma.csv` im Ordner `weitere_Daten/Beispiele_Kap06` führen. 
- Die zwei Punkte am Anfang des Pfads bedeuten, dass `read_csv` zuerst eine Hierarchiestufe im Ordnerpfad hoch geht und dann im Ordner `weitere_Daten/Beispiele_Kap06` die Datei `CSV_Komma.csv` versucht zu öffnen.

In [None]:
Lohndaten = pd.read_csv('../weitere_Daten/Beispiele_Kap06/CSV_Komma.csv')
Lohndaten

Die allgemeinere Funktion `pd.read_table` mit Angabe des *Trennzeichens (engl. delimiter)* hätte auch zum gewünschten Resultat geführt.

In [None]:
pd.read_table('../weitere_Daten/Beispiele_Kap06/CSV_Komma.csv', sep=',')

Zeilen mit Fehlwerten ganz weglassen:

In [None]:
Lohndaten.dropna(inplace=True)
Lohndaten

CSV-Datei mit anderen Trennzeichen:

In [None]:
%load ../weitere_Daten/Beispiele_Kap06/CSV_Strichpunkt.csv

In [None]:
Lohndaten = pd.read_csv('../weitere_Daten/Beispiele_Kap06/CSV_Strichpunkt.csv', 
                        sep=';') 
# mit dem Argument sep andere Trennzeichen angeben
Lohndaten

CSV-Datei ohne Header laden:

In [None]:
%load ../weitere_Daten/Beispiele_Kap06/CSV_KeinHeader.csv

In [None]:
Lohndaten2 = pd.read_csv('../weitere_Daten/Beispiele_Kap06/CSV_KeinHeader.csv', 
                         header=None)   # Kopfzeile fehlt
Lohndaten2   

Entweder man fügt nun die Variablennamen ein oder man lädt die Datei wie folgt:

In [None]:
Lohndaten2 = pd.read_csv('../weitere_Daten/Beispiele_Kap06/CSV_KeinHeader.csv', 
                         header=None,   # Kopfzeile fehlt
                         names=['Name', 'Vorname', 'Geschlecht', 'Gehalt'])
Lohndaten2  

***
***Exkurs:***
Textdateien ohne fixes Trennzeichen:

In [None]:
# %load ../examples/ex3.txt
            A         B         C
aaa -0.264438 -1.026059 -0.619500
bbb  0.927272  0.302904 -0.032399
ccc -0.264273 -0.386314 -0.217601
ddd -0.871858 -0.348382  1.100491


Die Felder werden hier durch (unterschiedlich viele) Leerzeichen getrennt.

In [None]:
df = pd.read_table('../examples/ex3.txt', delim_whitespace=True)
df

***Ende des Exkurses.***
***

Mit **Fehlwerten**  umgehen:

In [None]:
%load ../examples/ex5.csv

In [None]:
df = pd.read_csv('../examples/ex5.csv')
df

In [None]:
df.isnull()    # Welche Zellen werden als Fehlwerte erkannt?

In [None]:
df.isnull().sum()   # Anzahl Fehlwerte pro Spalte

Mit dem Argument `na_values` kann man (weitere) Fehlwerte angeben. Angenommen *foo*  ist eine Bezeichnung für einen (weiteren) Fehlwert:

In [None]:
df = pd.read_csv('../examples/ex5.csv', na_values=['foo'])
df

### Daten im Textformat schreiben

Wir werden nun den eben verwendeten Datensatz im Textformat abspeichern. Zuerst setzen wir noch den Index neu, um zu zeigen, dass der Index auch mit abgespeichert wird.

In [None]:
df.set_index('something')

Jetzt schreiben wir diese Daten im CSV-Format ins Unterverzeichnis "examples". Wir bezeichnen die Datei mit "out.csv".

In [None]:
df.to_csv('../examples/out.csv')

In [None]:
%load ../examples/out.csv

Man kann die Daten auch mit anderem Trennzeichen schreiben.

In [None]:
df.to_csv('../examples/out.csv', sep='|')  # mit anderem Trennzeichen

In [None]:
%load ../examples/out.csv

Mit dem Argument `na_rep` können Fehlwerte (anders) gekennzeichnet werden.

In [None]:
df.to_csv('../examples/out.csv', na_rep='999')

In [None]:
%load ../examples/out.csv

**Kontrollfrage:**

In [None]:
# Laden Sie die Datei "CSV_Kontrollfrage.csv" vom Ordner 
# "weitere_Daten/Beispiele_Kap06" in das DataFrame "df".
# Prüfen Sie (z. B. mit einem Text-Editor) zuerst, welches
# Trennzeichen in der Textdatei verwendet wird.


## Binäre Datenformate
Einfach und effizient lassen sich Daten in Python im **'pickle'-Format** speichern und lesen.

In [None]:
df = pd.read_csv('../examples/ex1.csv')
df

In [None]:
# DataFrame im pickle-Format speichern:
df.to_pickle('../examples/frame_pickle.pkl')

**Achtung:** Das pickle-Format eigenet sich nicht für die *Langzeitspeicherung* der Daten, da sich das Dateiformat ändern kann ich künftigen Library-Versionen.

In [None]:
# DataFrame im pickle-Format lesen:
df = pd.read_pickle('../examples/frame_pickle.pkl')
df

### Microsoft Excel Dateien einlesen
Falls die Daten in Microsoft Excel im CSV-Format gespeichert wurden (was empfehlenswert ist), verwendet man die Funktionen, welche wir eben kennengelernt haben.

Daten im proprietären Excel-Format können aber auch eingelesen werden:

In [None]:
# Default: Erstes Excel-Blatt (Sheet) öffnen:
df = pd.read_excel('../examples/ex1.xlsx') 
df

In [None]:
# Ein anderes Excel-Blatt einlesen (hier Sheet2): 
df = pd.read_excel('../examples/ex1.xlsx', 'Sheet2') 
df

Daten im Excel-Format schreiben:

In [None]:
df.to_excel('temp.xlsx')

In [None]:
# Exkurs:
import os               # Bibliothek für Betriebssysteminteraktionen
os.remove('temp.xlsx')  # Datei wieder löschen auf der Festplatte.

## Fazit
- Der Zugriff auf Daten ist häufig der erste Schritt im Datenanalyseprozess. 
- Wir haben uns in diesem Kapitel einige nützliche Tools angesehen, die Ihnen den Einstieg erleichtern sollen. 
- In den folgenden zwei Kapiteln werden wir uns eingehender mit Daten-Wrangling befassen.