![title](./pic/basics/speichern/1_title.png)

In [4]:
import pandas as pd
import numpy as np
import os

In [2]:
df = pd.DataFrame({'Yes': [50, 21, 33], 'No': [131, 2, 45], 'Maybe': [42, 99, 17]})

In [3]:
df

Unnamed: 0,Yes,No,Maybe
0,50,131,42
1,21,2,99
2,33,45,17


<br>

Das am weitesten verbreitete Dateiformat für tabellarische Daten ist und bleibt das `CSV`-Format. Hier lernst du, wie du `CSV`-Dateien sicher in deine Programmierumgebung einliest.

Die Abkürzung `CSV` steht für **„Comma Separated Values“** – `CSV`’s sind also Dateien, die durch Kommata getrennte Werte enthalten. Durch ihr einfach zu interpretierendes Format ist diese Dateiform mit den allermeisten Technologien kompatibel und wird genutzt, um Rohdaten abzuspeichern.

Mit `.to_csv()` kann ein DataFrame als **.csv** Datei abgespeichert werden. In den Klammern wird der Pfad des Ordners sowie der Dateiname angegeben.

<br>

In [4]:
df.to_csv('./csv/write_df/csv_abgespeichert.csv')

<br>

Es wird eine Datei mit dem Namen csv_abgespeichert.csv erstellt und die `DataFrame`-Werte in die Datei geschrieben, wobei die benachbarten Werte in einer Zeile durch ein Komma `,` getrennt werden.

---

## Zusätzliche Attribute zum Schreiben einer CSV-Datei

![title](./pic/basics/speichern/2_attribute.png)

### Seperator

Wie auch beim Einlesen von `.csv` Dateien, gibt es beim Speichern von diesen Dateien die Option der Literals zum separieren. Sollte die `.csv` einen anderen Seperator als ein Komma verwenden, kann dieser wieder in **`sep=`** an die Funktion übergeben werden.

In [5]:
df.to_csv('./csv/write_df/csv_abgespeichert_sep.csv', sep=";")

Wird die `.csv` nun ohne weitere Angaben, also mit dem default Seperator `,` eingelesen, stellt man schnell fest, dass da etwas nicht stimmen kann.

In [6]:
pd.read_csv('./csv/write_df/csv_abgespeichert_sep.csv', index_col=0)

0;50;131;42
1;21;2;99
2;33;45;17


In [7]:
pd.read_csv('./csv/write_df/csv_abgespeichert_sep.csv', index_col=0, sep=';')

Unnamed: 0,Yes,No,Maybe
0,50,131,42
1,21,2,99
2,33,45,17


---

### Header

Wenn du ein DataFrame als `CSV` abspeicherst, kannst du selbst entscheiden ob der `Header`, also die Spaltennamen, mitgespeichert werden soll oder nicht.

In [8]:
df = pd.DataFrame({'Yes': [50, 21, 33], 'No': [131, 2, 45], 'Maybe': [42, 99, 17]})
df

Unnamed: 0,Yes,No,Maybe
0,50,131,42
1,21,2,99
2,33,45,17


In [9]:
df.to_csv('./csv/write_df/csv_abgespeichert_header_false.csv', sep=",", header=False)

In [10]:
pd.read_csv('./csv/write_df/csv_abgespeichert_header_false.csv', index_col=0)

Unnamed: 0_level_0,50,131,42
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,21,2,99
2,33,45,17


In [11]:
df.to_csv('./csv/write_df/csv_abgespeichert_header_true.csv', sep=",", header=True)

In [12]:
pd.read_csv('./csv/write_df/csv_abgespeichert_header_true.csv', index_col=0)

Unnamed: 0,Yes,No,Maybe
0,50,131,42
1,21,2,99
2,33,45,17


---

### Komprimierung

In der Praxis ist es nicht unüblich, dass ein `DataFrame` mal schnell ein paar Millionen Zeilen beinhaltet. Auf Dauer kann das ganz schön an Speicher verbrauchen. Ablösung schafft hierbei das Attribut **`compression=`**. Wird z.B. **`compression=`** auf *`zip`* gestellt, wird die `CSV` zip-komprimiert abgespeichert. 
Einen kleinen Einblick wie das ganze aussieht soll dir folgendes Beispiel geben:

Hierfür erstellen wir uns ein `DataFrame` mit 1.000.000 Zeilen und 2 Spalten. Der Inhalt soll zufällig mit BMW oder Audi gefüllt werden:

In [5]:
df_1m = pd.DataFrame(np.random.choice(['BMW','AUDI'], size=(1000000,2)))

In [8]:
df_1m.to_csv('./csv/write_df/dataset_1_million.csv', sep=",", header=True)

In [10]:
print(f'Ursprüngliche Größe: {round(os.path.getsize("./csv/write_df/dataset_1_million.csv") / 1024 / 1024, 2)} MB')

Ursprüngliche Größe: 15.15 MB


In [11]:
df_1m.to_csv('./csv/write_df/dataset_1_million_compressed.csv', sep=",", header=True, compression='zip')

In [12]:
print(f'Komp Größe: {round(os.path.getsize("./csv/write_df/dataset_1_million_compressed.csv") / 1024 / 1024, 2)} MB')

Komprimierte Größe: 2.56 MB


In [22]:
print(f'{round(2.56 * 100 / 15.15, 2)} %')

16.9 %


In [17]:
#df_1m = pd.read_csv('./csv/write_df/dataset_1_million_compressed.csv')
#df_1m

In [14]:
df = pd.read_csv('./csv/write_df/dataset_1_million_compressed.csv', index_col=0, compression='zip')
df

Unnamed: 0,0,1
0,AUDI,BMW
1,AUDI,AUDI
2,AUDI,BMW
3,BMW,BMW
4,AUDI,BMW
...,...,...
999995,AUDI,AUDI
999996,AUDI,BMW
999997,BMW,BMW
999998,AUDI,BMW


Zusätzliche Kompressionsformate:
   - `.gz`
   - `.bz2` 
   - `.zip`
   - `.xz`

In [29]:
df_10m = pd.DataFrame(np.random.choice(['BMW','AUDI'], size=(10000000,4)))

In [30]:
df_10m.to_csv('./csv/write_df/dataset_10_million.csv', sep=",", header=True)

In [31]:
print(f'Ursprüngliche Größe: {round(os.path.getsize("./csv/write_df/dataset_10_million.csv") / 1024 / 1024, 2)} MB')

Ursprüngliche Größe: 246.89 MB


In [32]:
df_10m.to_csv('./csv/write_df/dataset_10_million_compressed.csv', sep=",", header=True, compression='zip')

In [33]:
print(f'Komprimierte Größe: {round(os.path.getsize("./csv/write_df/dataset_10_million_compressed.csv") / 1024 / 1024, 2)} MB')


Komprimierte Größe: 32.95 MB


In [34]:
33 * 100 / 246

13.414634146341463

---

### Lediglich ausgewählte Spalten abspeichern

Manchmal ist es sinnvoll, nur bestimmte Spalten eines `DataFrames` in eine CSV zu speichern. Hierfür gibt es den Parameter **`columns=`**. **`columns=`** kann eine Liste mit den Namen der Spalten übergeben werden, die abgespeichert werden soll. Andere Spalten bleiben vom Speichervorgang ausgeschlossen.

In [19]:
df.to_csv('./csv/write_df/car_dataset_specific_columns.csv', columns = ["marke", "modell", "kilometer"])

In [20]:
pd.read_csv('./csv/write_df/car_dataset_specific_columns.csv', index_col=0)

Unnamed: 0,marke,modell,kilometer
0,volkswagen,golf,79449
1,volkswagen,golf,76486
2,mercedes-benz,slk 300,84000
3,mercedes-benz,slk 350,84000
4,mercedes-benz,a 220,109252
...,...,...,...
1189,mini,cooper sd countryman,14800
1190,mercedes-benz,gle 43 amg,32472
1191,audi,tt rs,16000
1192,audi,a3,20000


---

## Als Excel abspeichern

Zudem kannst du deine Datei nicht nur als `.csv` abspeichern. Wird deine Auswertung z.B. vom Controlling benötigt, kannst du auch direkt eine .xlsx Datei generieren.

In [21]:
df.to_excel('./csv/write_df/car_dataset_specific_columns.xlsx')

Weitere mögliche Dateiformate:
* to_sql
* to_json
* to_dict
* ...