<img style="width:30%; float:right" src="images/dbu_logo.png">

# Import und Export von Daten in Pandas

Pandas bietet eine Vielzahl von Import- und Export-Möglichkeiten. Eine Übersicht aller Funktionen findet Ihr in der Dokumentation zu [Input/output](https://pandas.pydata.org/pandas-docs/stable/reference/io.html). In diesem Notebook wollen wir uns auf zwei Optionen konzentrieren:

**(1) CSV-Dateien:** Diese könnt Ihr über die Befehle `.read_csv()` und `to_csv()` lesen und schreiben. Hier die jeweiligen Übersichtsseiten aus der Dokumentation:

- Lesen: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html
- Schreiben: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html

Für den Import und Export von CSV-Dateien gibt es eine Vielzahl von Konfigurationsmöglichkeiten. Daher ist es wichtig, diese beiden Dokumentationsseiten zu kennen. Konfiguriert werden können unter anderem die Trennzeichen, der Umgang mit fehlenden Daten oder die Behandlung der Indizes.

**(2) Pickle** speichern Python-Objekte (beispielsweise einen DataFrame) als Binär-Dateien, können also im Gegensatz zu CSV-Datein nicht einfach in einem normalen Texteditor geöffnet und manuell editiert werden. Dafür ist der Import und Export von Pickles deutlich einfacher, insbesondere weil es kaum etwas zu konfigurieren gibt.

**Literaturempfehlung:**

[Jake VanderPlas (2016): _Python Data Science Handbook_](https://ebookcentral.proquest.com/lib/dbuas/reader.action?docID=4746657)

In [1]:
import os
import pandas as pd
import seaborn as sns

In [2]:
tips = sns.load_dataset("tips")
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


## Betriebssysteme und Pfade

Pfadangaben sind abhängig vom Betriebssystem. Vor allem werden unterschiedliche Trennzeichen zwischen Ordnern bzw Dateien verwendet -- mal der normale Querstrich (_slash_) oder der _backslash_. Entsprechend solltet ihr im Folgenden für den `CSV_PATH` folgende Ausgabe sehen:

- Unter Windows: `local\data.csv`
- Unter Linux/Mac: `local/data.csv`

In [3]:
CSV_PATH = os.path.join("local", "data.csv")
print(CSV_PATH)

local\data.csv


In [4]:
PICKLE_PATH = os.path.join("local", "data.pickle")
print(PICKLE_PATH)

local\data.pickle


Wenn Ihr Dateien (wie im Folgenden) in einen Ordner (_directory_) schreiben wollt, so muss dieser Orner auch existieren. Der folgende Befehl prüft, ob ein bestimmter Ordner existiert und legt ihn sonst ggf. an:

In [5]:
if not os.path.exists("local"):
    os.makedirs("local")

## CSV Files



(1) CSV-Datei schreiben:

In [6]:
tips.to_csv(CSV_PATH)

(2) CSV-Datei lesen:

In [7]:
from_csv = pd.read_csv(CSV_PATH)
from_csv.head()

Unnamed: 0.1,Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,0,16.99,1.01,Female,No,Sun,Dinner,2
1,1,10.34,1.66,Male,No,Sun,Dinner,3
2,2,21.01,3.5,Male,No,Sun,Dinner,3
3,3,23.68,3.31,Male,No,Sun,Dinner,2
4,4,24.59,3.61,Female,No,Sun,Dinner,4


## Pickle

(1) Pickle schreiben:

In [8]:
tips.to_pickle(PICKLE_PATH)

(2) Pickle lesen:

In [9]:
from_pickle = pd.read_pickle(PICKLE_PATH)
from_pickle.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


# Aufgaben

## Aufgabe 1

Im Ordner mit den Jupyter Notebooks auf dem LMS findet Ihr eine Datei `beispiel.csv`. Bitte importiert diese in Python.

# Aufgabe 2

Nachdem im Deutschen Nachkommastellen nicht wie im Englischen mit einem Punkt getrennt werden, sondern eben mit einem Komma, werden im deutschsprachigen Raum teilweise andere Formate für CSV-Dateien verwendet. Dabei werden Spalten nicht mit dem Komma (wie im Englischen) sondern mit einem Semikolon getrennt. Hier die gleichen Inhalte, in den beiden Formaten:

    |---+-----|
    | a |   b |
    |---+-----|
    | 1 | 0.5 |
    | 2 | 0.3 |
    |---+-----|

Englisch:

    a,b
    1,0.5
    2,0.3
    
Deutsch:

    a;b
    1;0,5
    2;0,3

Die Datei `beispiel-de.csv` ist entsprechend mit den deutschen Einstellungen gespeichert. Bitte ließ Dich in die Dokumentation zu `read_csv()` ein (Link in der Einleitung oben) und importiere anschließend die Datei. Prüfe anhand der normalen Ausgabe ob das Ergebnis mit dem Import aus Aufgabe 1 übereinstimmt.