# Lesen und Schreiben von Dateien

Ein wichtiger Bestandteil bei der wissenschaftlichen Datenverarbeitung ist ohne Zweifel das Lesen und Schreiben von Dateien.
In diesem Kurs werden wir uns auf quantitative (also messbare Daten) und qualitative Daten (also beschreibende Daten) beschränken.

Grundsätzlich müssen **alle** Daten von unserer Festplatte in den sog. Hauptspeicher (engl. memory) geladen werden. Von 
dort aus kann man dann auf den Daten seine Berechnungen ausführen. Jedoch stellt sich die Frage, wie man von einem 
Programm aus überhaupt auf Dateien zugreifen kann (also insbesondere *ohne* ein graphisches Dateiverwaltungsprogramm).
An dieser Stelle kommen dann sogenannte **Pfade** ins Spiel und um diese werden wir uns im Folgenden kurz kümmern.

## Pfade

Jedes Dateisystem (sei es Windows, MacOS, Linux, ...) besteht aus Dateien und Ordnern (was für die Meisten nichts neues
sein dürfte). Hierbei stellt man fest, dass Ordner und Dateien in einer Hierarchie angeordnet sind, welche man (zumindest
graphisch) "von Oben nach Unten" durchlaufen kann. Eine hypothetische Ordnerstruktur könnte wie folgt aussehen:

```{figure} ../Bilder/Datei_System.png
:name: Datei-System

Ein Beispiel einer kleinen Ordner Hierarchie
```

Hierbei (und auch in unseren Programmen) sind zwei Begriffe von besonderer Bedeutung: **absolute** und **relative** Pfade.

### Absolute Pfade

Bei diesen Pfaden gibt man den kompletten Pfad an. Schauen wir uns ein Beispiel an:

Angegnommen, unser gesamtes Dateisystem besteht aus der Hierarchie von [oben](Datei-System). Nehmen wir weiter an, dass
wir uns im Moment in `Ordner B` befinden und wir möchten den Pfad von `Ordner D` angeben. Der absolute Pfad lautet dann
wie folgt:

`Ordner A/Ordner B/Ordner D`.

Die '/' Zeichen sind lediglich Trennzeichen zwischen den Ordner und in diesem Kurs wird dem auch nicht weiter Beachtung
geschenkt (auch wenn dies im realen Leben nicht immer der Fall ist). Wie man an diesem Beispiel sieht, muss man wirklich
immer den **gesamten** Pfad angeben, egal wo man sich befindet. Eine Lösung für dieses sehr normale Problem, bieten 
**relative Pfade**.

### Relative Pfade

Nehmen wir wieder an, dass wir uns in `Ordner B` befinden und wir den Pfad von `Ordner D` angeben wollen. Sehen wir
uns den folgenden (wohl definierten) Pfad an:

`./Ordner D`

Zunächst fällt auf, dass dieser Pfad wesentlich kürzer ist als der vorherige. Dies liegt an dem neuen Element in dem Pfad,
nämlich `.`. Dieser einfache Punkt steht nämlich tatsächlich einen Pfad!

Betrachen wir jetzt einmal den umgekehrten Fall: Wir befinden uns in `Ordner D` und möchten zurück in `Ordner B`. Dies ist
mit einem relativen Pfad sogar noch einfacher zu realisieren als das vorherige Beispiel! Denn `../` reicht dafür völlig aus.

``````{admonition} Die Pfade . und ..
:class: tip
Hier schauen wir uns diese beiden besonderen "Pfade" etwas genauer an, um besser zu verstehen, wie man sie einsetzen kann
und wie sie (viel) Arbeit abnehmen können.
`````{tab-set}
````{tab-item} Der Pfad .
Dieser "Pfad" ist kein Pfad im klassischen Sinn. Es viel mehr ein Programm (mit einem etwas seltsamen Namen), welches
immer den **momentanen absoluten Pfad** zurück gibt. Man sieht also, dass `.` in `./Ordner D` also einfach nur den 
restlichen Pfad einblendet.
````
````{tab-item} Der Pfad ..
Dieser "Pfad" verhält sich im Wesentlichen ähnlich wie der Vorherige. Nur dieser gibt den Pfad des Eltern-Ordners (engl.
parent directory) zurück (was man von dem Beispiel auch schon vermuten konnte).
````
`````
``````

## Einlesen der ersten Datei

Das Einlesen von Dateien ist etwas derart alltägliches, dass viele sogenannte *Bibliotheken* Funktionalität zum Einlesen 
von Dateien bereitstellen. Bibliotheken sind im Allgemeinen Sammlungen von Funktionen, welche man in Programmen nutzen
kann. Da Python aber eine riesige Anzahl von Biliotheken hat, sind diese Funktionen nicht direkt verfügbar (im Gegensatz
zu `print()` aus dem vorherigen Kapitel). Um eine solche Bibliothek dem Python-Code bekannt zu machen, gibt es den Befehl
`import <Bibliotheken-Name>`. Zunächst werden wir uns hier mit der Bibliothek [numpy](https://numpy.org/) beschäftigen.

In [1]:
# Hier importieren wir numpy.
# Mit 'as' kann man der Bibliothek einen neuen (optionalen) Namen geben.
# Im Fall von numpy ist 'np' üblich.
import numpy as np

# Die Funktion np.loadtxt übernimmt hier das Einlesen der Datei.
# -fnmae: dies ist der Pfad zu der Datei, die wir öffnen wollen
# -delimiter: dieser Paramter gibt das Trennzeichen zwischen den 
#             einzelnen Zahlen an
mat = np.loadtxt(fname="../Data/test_data.csv", delimiter=',')
mat

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.],
       [ 9., 10., 11., 12.]])

``````{admonition} csv-Dateien
:class: info

`.csv` kommt aus dem Englischen und steht für **C**omma **S**eparated **V**alue. Somit werden die Daten in solchen Dateien
einfach durch Kommata getrennt abgespeichert. Eine Erweiterung dessen sind sogenannte `*.dsv*`-Dateien. Dies steht für
**D**elimiter **S**perated **V*alue. D.h., dass die Daten in den Dateien auch durch andere Zeichen voneinander getrennt
werden können, z.B. *, -, & oder auch beispielsweise &#127822;, &#128021;, oder &#128039;. Auch Whitespaces können dafür
genutzt werden. Allerdings ist die Unterscheidung zwischen `.csv` und `.dsv` heute nicht mehr unbedingt üblich. Deshalb findet sich heute auch in `.csv` Dateien andere Trennzeichen als `,`. Beispielsweise nutzt Excel zum Abespeichern 
von `.csv` Dateien `;` als Trenner und nicht `,`.
``````

Nachdem wir jetzt die Daten eingelesen haben, können wir sie auch nutzen. Z.B. können wir die Matrix mit einem Vektor 
multiplizieren.

In [2]:
# Definition eines Vektors
a = np.array([1,1,1,1])

# um das Skalarprodukt zu berechnen, müssen wir die np.dot Funktion benutzen
# leider berechnet mat * a das elementweise Produkt und nicht wie man
# erwarten könnte das Skalarprodukt
mat_a = np.dot(mat, a)
print(mat_a)

[10. 26. 42.]


Jetzt können wir die Daten auch wieder schreiben. Angenommen wir möchten den gerade erzeugten Vektor in die Datei 
`test_vector.csv` schreiben. Dies sieht mit `numpy` wie folgt aus:

In [3]:
np.savetxt(fname='../Data/test_vector.csv', X=mat_a, delimiter=',')

Damit ist der Vektor in die Datei geschrieben und wir können ihn zu einem späteren Zeitpunkt wieder laden und eventuell
mit dem Vektor weiterrechenen.

Möchte man aber oft und viele Dateien Lesen und Schreiben kann es sinnvoll sein, dass man 
[pandas](https://pandas.pydata.org/) hierfür benutzt, da die Stärken von `numpy` eher in der effizienten Berechnung liegen
und die Stärken von `pandas` im Bereich Lesen, Schreiben und Aufbereiten von Daten liegen. Schauen wir uns an, wie wir
eine Datei hiermit öffnen können.

In [4]:
import pandas as pd

data = pd.read_csv(filepath_or_buffer="../Data/test_data_with_header.csv")
data

Unnamed: 0,A,B,C,D
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12


Wir sehen direkt, dass wir eine Tabelle anstelle einer Matrix zurück bekommen. Man mag sich jetzt fragen, warum so etwas
praktisch sein kann. Diese Möglichkeit zahlt sich dann aus, wenn wir z.B. Daten haben, die nach bestimmten Kriterien 
geordnet sind. Beispielsweise könnte in der ersten Spalte die Zeit, in der zweiten der Weg, in der dritten die
Geschwindigkeit und in der letzten Spalte die zugehörige Beschleunigung eingetragen sein. In aller Regel ist es dann 
einfacher sich auf die entsprechenden Namen zu beziehen, anstelle sich die genaue Spaltennummer zu merken. Des Weiteren 
kann man ein pandas `Dataframe` einfach in ein numpy array umwandeln

In [5]:
np_data = data.to_numpy()
np_data

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

Damit kann man dann genauso wie zuvor mit den Daten in numpy arbeiten. Anschließend kann man das numpy array auch
wieder in ein pandas Dataframe wieder zurück konvertieren.

In [8]:
df = pd.DataFrame(np_data)
print(df)
df.to_csv(path_or_buf='../Data/test_dataframe.csv')

   0   1   2   3
0  1   2   3   4
1  5   6   7   8
2  9  10  11  12


Dies erleichtert dann wiederum das Schreiben der entstandenen Datei. Ein weiterer großer Vorteil von pandas ist, dass
man auch einfach die Daten analysieren kann. Ein Beispiel ist z.B., dass man ganz einfach den Erwartungswert und die 
Varianz damit **pro Spalte** berechnen kann. Aber dazu später mehr.

Insgesamt kann man sagen, dass es Geschmackssache ist, welches Framework man bevorzugt. Und damit ist das Kapitel zum
Lesen und Schreiben von Dateien auch schon zu Ende.