# Lesen und Schreiben von Dateien

Ein wichtiger Bestandteil bei der wissenschaftlichen Datenverarbeitung ist ohne Zweifel das Lesen und Schreiben von Dateien.
In diesem Kurs werden wir uns auf quantitative (also messbare Daten) und qualitative Daten (also beschreibende Daten) beschränken.

Grundsätzlich müssen **alle** Daten von unserer Festplatte in den sog. Hauptspeicher (engl. memory) geladen werden. Von 
dort aus kann man dann auf den Daten seine Berechnungen ausführen. Jedoch stellt sich die Frage, wie man von einem 
Programm aus überhaupt auf Dateien zugreifen kann (also insbesondere *ohne* ein graphisches Dateiverwaltungsprogramm).
An dieser Stelle kommen dann sogenannte **Pfade** ins Spiel und um diese werden wir uns im Folgenden kurz kümmern.

## Pfade

Jedes Dateisystem (sei es Windows, MacOS, Linux, ...) besteht aus Dateien und Ordnern (was für die Meisten nichts neues
sein dürfte). Hierbei stellt man fest, dass Ordner und Dateien in einer Hierarchie angeordnet sind, welche man (zumindest
graphisch) "von Oben nach Unten" durchlaufen kann. Eine hypothetische Ordnerstruktur könnte wie folgt aussehen:

```{figure} ../Bilder/Datei_System.png
:name: Datei-System

Ein Beispiel einer kleinen Ordner Hierarchie
```

Hierbei (und auch in unseren Programmen) sind zwei Begriffe von besonderer Bedeutung: **absolute** und **relative** Pfade.

### Absolute Pfade

Bei diesen Pfaden gibt man den kompletten Pfad an. Schauen wir uns ein Beispiel an:

Angegnommen, unser gesamtes Dateisystem besteht aus der Hierarchie von [oben](Datei-System). Nehmen wir weiter an, dass
wir uns im Moment in `Ordner B` befinden und wir möchten den Pfad von `Ordner D` angeben. Der absolute Pfad lautet dann
wie folgt:

`Ordner A/Ordner B/Ordner D`.

Die '/' Zeichen sind lediglich Trennzeichen zwischen den Ordner und in diesem Kurs wird dem auch nicht weiter Beachtung
geschenkt (auch wenn dies im realen Leben nicht immer der Fall ist). Wie man an diesem Beispiel sieht, muss man wirklich
immer den **gesamten** Pfad angeben, egal wo man sich befindet. Eine Lösung für dieses sehr normale Problem, bieten 
**relative Pfade**.

### Relative Pfade

Nehmen wir wieder an, dass wir uns in `Ordner B` befinden und wir den Pfad von `Ordner D` angeben wollen. Sehen wir
uns den folgenden (wohl definierten) Pfad an:

`./Ordner D`

Zunächst fällt auf, dass dieser Pfad wesentlich kürzer ist als der vorherige. Dies liegt an dem neuen Element in dem Pfad,
nämlich `.`. Dieser einfache Punkt steht nämlich tatsächlich einen Pfad!

Betrachen wir jetzt einmal den umgekehrten Fall: Wir befinden uns in `Ordner D` und möchten zurück in `Ordner B`. Dies ist
mit einem relativen Pfad sogar noch einfacher zu realisieren als das vorherige Beispiel! Denn `../` reicht dafür völlig aus.

``````{admonition} Die Pfade . und ..
:class: tip
Hier schauen wir uns diese beiden besonderen "Pfade" etwas genauer an, um besser zu verstehen, wie man sie einsetzen kann
und wie sie (viel) Arbeit abnehmen können.
`````{tab-set}
````{tab-item} Der Pfad .
Dieser "Pfad" ist kein Pfad im klassischen Sinn. Es viel mehr ein Programm (mit einem etwas seltsamen Namen), welches
immer den **momentanen absoluten Pfad** zurück gibt. Man sieht also, dass `.` in `./Ordner D` also einfach nur den 
restlichen Pfad einblendet.
````
````{tab-item} Der Pfad ..
Dieser "Pfad" verhält sich im Wesentlichen ähnlich wie der Vorherige. Nur dieser gibt den Pfad des Eltern-Ordners (engl.
parent directory) zurück (was man von dem Beispiel auch schon vermuten konnte).
````
`````
``````

## Einlesen der ersten Datei

Das Einlesen von Dateien ist etwas derart alltägliches, dass viele sogenannte *Bibliotheken* Funktionalität zum Einlesen 
von Dateien bereitstellen. Bibliotheken sind im Allgemeinen Sammlungen von Funktionen, welche man in Programmen nutzen
kann. Da Python aber eine riesige Anzahl von Biliotheken hat, sind diese Funktionen nicht direkt verfügbar (im Gegensatz
zu `print()` aus dem vorherigen Kapitel). Um eine solche Bibliothek dem Python-Code bekannt zu machen, gibt es den Befehl
`import <Bibliotheken-Name>`. Zunächst werden wir uns hier mit der Bibliothek [numpy](https://numpy.org/) beschäftigen.

In [3]:
# Hier importieren wir numpy.
# Mit 'as' kann man der Bibliothek einen neuen (optionalen) Namen geben.
# Im Fall von numpy ist np üblich.
import numpy as np

# Die Funktion np.loadtxt übernimmt hier das Einlesen der Datei.
data = np.loadtxt(fname="../Data/test_data.csv", delimiter=',')
data

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.],
       [ 9., 10., 11., 12.]])

In [5]:
import pandas as pd

data = pd.read_csv(filepath_or_buffer="../Data/test_data_with_header.csv")
data

Unnamed: 0,A,B,C,D
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12
