# Lesen und Schreiben von Dateien


Unabhängig davon, ob es um wissenschaftliche Berechnungen geht oder nicht, ist das Lesen und Schreiben von Dateien eine der häufigsten Aufgaben von Computeranwendungen, weshalb Ihnen der Inhalt dieses Kapitels nicht ganz unbekannt sein wird.
Da die Datei- und Ordnerstruktur des Computers in modernen Anwendungen allerdings zunehmend verschleiert wird, soll dieses Kapitel Sie in die Lage versetzen auch ohne eine graphische Benutzeroberfläche (engl. Graphical User Interface = GUI) auf Dateien zugreifen zu können.

Wenn Sie eine Datei mit einem Programm lesen, wird der benötigte Inhalt der Datei zunächst in den Hauptspeicher (engl. Random Access Memory = RAM) kopiert, um mit den enthaltenen Daten arbeiten zu können. 
Das Programm selbst nutzt für seine Berechnungen nur den RAM. Da jegliche Information im RAM nach Beendigung des Programms verloren gehen würden, müssen Sie zuvor üblicherweise die wichtigsten Ergebnisse noch einmal in eine Datei auf der Festplatte schreiben, wo Informationen permanent gespeichert bleiben. 
Deshalb sollten Sie sich in der Programmiersprache Ihrer Wahl von Anfang an sowohl mit dem Lesen als auch mit dem Schreiben von Dateien vertraut machen.

`````{admonition} Datenaustausch zwischen Festplatte, Arbeitsspeicher und Prozessor
:class: tip, dropdown

In diesem Kurs wird es keine Programme geben, bei denen es nötig ist die nachfolgenden Details explizit zu implementieren. 
Da wir mit sogenannten höheren Programmiersprachen arbeiten, übernimmt diese Aufgabe der Interpreter (bzw. Compiler) für uns.
Dennoch ist der ein oder andere Leser vielleicht interessiert an einem kleinen Einblick in die Hardware von Computern, mit der sich fortgeschrittene Programmierer öfters auseinandersetzen müssen.

Mit dem Begriff "Datei" bezeichnet man üblicherweise einen Datensatz, der auf der Festplatte (Sammelbegriff für Hard Disk Drive = HDD und Solid State Drive = SSD) gespeichert ist, wo Informationen permanent aufbewahrt werden können, ohne dass dafür Energie benötigt wird.
Um die enthaltenen Informationen verwenden zu können, muss ein Computerprogramm sie allerdings zunächst von der Festplatte in den sog. Arbeitsspeicher (Random Access Memory = RAM) laden, welcher sehr viel schneller reagiert als die Festplatte, dafür aber permanent Energie verbraucht und jegliche Information "vergisst" sobald die Energiezufuhr unterbrochen wird.
Bei maschinennahen Programmiersprachen werden Informationen oft explizit über ihre Adresse im RAM abgerufen und bei Performance-kritischen Algorithmen spielt durchaus die Anordnung (engl. Alignment) von Daten im Arbeitsspeicher eine Rolle.

Genau genommen lädt der Prozessor (Central Processing Unit = CPU) die Daten aus dem RAM noch einmal in den sogenannten Cache um damit zu arbeiten, wobei es verschiedene Levels von Cache gibt, welche entweder individuellen CPU-Kernen (Cores) gehören oder von mehreren Kernen gemeinsam genutzt werden.
Cache-Levels sind für einen Programmierer gegebenenfalls relevant, wenn er parallelisierte Software entwickelt, also Software, die mehrere CPU-Kerne gleichzeitig nutzt, deren Aufgaben synchronisiert werden müssen. 

Die CPU stellt so etwas wie das Gehirn des Computers dar und kann eine enorme Vielfalt an komplexen Operationen ausführen. 
Für besonders rechenintensive Aufgaben ist es möglich stattdessen einen auf bestimmte Operationen spezialisierten Prozessor zu verwenden. 
Das bekannteste Beispiel hierfür ist ein auf (stark parallelisierte) Mathematik spezialisierter Grafik-Prozessor (Graphics Processing Unit = GPU), welcher wiederum seinen eigenen Video-RAM (VRAM) benötigt, mit dem die Festplatte Daten austauschen muss. 
GPUs sind besonders schnell und effizient in der Ausführung von linearer Algebra, welche nicht nur (wie der Name "GPU" suggeriert) in Grafik-Anwendungen allgegenwärtig ist, sondern auch bei wissenschaftlichen Berechnungen und z.B. Machine Learning.
In den letzten Jahren wurden gerade für Mobilgeräte weitere spezialisierte Prozessortypen entwickelt (z.B. Apple's Neural Engine oder Google's Tensor Chips), welche uns im Bereich der Wissenschaft allerdings kaum interessieren müssen.
`````

## Pfade

Unabhängig vom Betriebssystem (Windows, MacOS, Linux, ...) hat jeder Computer ein zugrundeliegendes Dateisystem, das dem Anwender ermöglicht seine Dateien in Ordnerstrukturen zu organisieren. 
Da man beliebig viele Stufen an Unterordnern anlegen kann, ergibt sich eine Hierarchie, welche man (zumindest graphisch) "von Oben nach Unten" durchlaufen kann. 
Eine hypothetische Ordnerstruktur könnte wie folgt aussehen:

```{figure} ../Bilder/Datei_System.png
:name: Datei-System

Ein Beispiel einer kleinen Ordner-Hierarchie
```

Der **Pfad** zu einer Datei entspricht dabei genau dem Pfad im obigen Diagramm, dem man folgen muss um zur Datei zu gelangen.
Hierbei (und auch in unseren Programmen) ist zu unterscheiden zwischen **absoluten** und **relativen** Pfaden.

### Absolute Pfade

Bei diesen Pfaden gibt man den kompletten Weg an vom "Anfangspunkt" der Hierarchie bis zum Ziel. 
Schauen wir uns ein Beispiel an:

Angegnommen, unser gesamtes Dateisystem besteht aus der Hierarchie von [oben](Datei-System), sodass `Ordner A` den Anfangspunkt des Dateisystems darstellt. 
Der absolute Pfad zu `Ordner D` lautet dann wie folgt:

`Ordner A/Ordner B/Ordner D`,

wobei die `/`-Zeichen lediglich als Trennzeichen stellvertretend für die Pfeile in der Grafik stehen. 

Falls wir aber nun annehmen, dass wir uns bereits in `Ordner B` befinden, sollte es direkt als unnötig erscheinen den **gesamten** Pfad von `Ordner D` anzugeben, obwohl wir nur einen einzigen Schritt vom Ziel entfernt starten.
Eine Lösung für dieses Problem bieten **relative Pfade**. 

``````{admonition} Hinweis für Windows-Nutzer
:class: tip

Es gilt zu beachten, dass leider nicht alle Betriebssysteme das `/`-Zeichen zur Trennung von Pfaden verwenden.
Während wir hier der Konvention von MacOS uns Linux folgen, nutzt Windows stattdessen den umgekehrten Trennstrich '``\``'.
Diese Diskrepanz sollte den Windows-Nutzern immer im Hinterkopf bleiben, wenn sie die Beispiele in diesem Skript nachvollziehen wollen. 

``````

### Relative Pfade

Nehmen wir wieder an, dass wir uns in `Ordner B` befinden und wir den Pfad von `Ordner D` angeben wollen. 
Sehen wir uns den folgenden (wohl definierten) Pfad an:

`./Ordner D`

Zunächst fällt auf, dass dieser Pfad wesentlich kürzer ist als der vorherige. 
Dies liegt an dem neuen Element in dem Pfad, nämlich `.`. 
Dieser einfache Punkt steht selbst für einen Pfad, nämlich den Pfad zu dem Ordner, in dem wir uns gerade befinden (`Ordner B`).
Sie können sich einen relativen Pfad auch wie einen absoluten Pfad vorstellen, bei dem sie den Anfangspunkt der Hierarchie umdefiniert haben. 
Umgekehrt betrachtet ist ein absoluter Pfad nichts anderes als ein Pfad relativ zum obersten Ordner der kompletten Hierarchie auf ihrer Festplatte.

Betrachen wir jetzt einmal den umgekehrten Fall: Wir befinden uns in `Ordner D` und möchten zurück in `Ordner B`. 
Dies ist mit einem relativen Pfad sogar noch einfacher zu realisieren als das vorherige Beispiel, denn 

`..` 

reicht dafür völlig aus. 
`..` ist eine Abkürzung für den Ordner, der sich in der Hierarchie unmittelbar über dem aktuellen Ordner befindet (im Englischen spricht man auch vom **parent directory** des aktuellen Ordners).

``````{admonition} Die Pfade . und ..
:class: tip
Hier schauen wir uns diese beiden besonderen "Pfade" etwas genauer an, um besser zu verstehen, wie man sie einsetzen kann
und wie sie (viel) Arbeit abnehmen können.
`````{tab-set}
````{tab-item} Der Pfad .
Dieser "Pfad" ist kein Pfad im klassischen Sinn. Es viel mehr ein Programm (mit einem etwas seltsamen Namen), welches
immer den **momentanen absoluten Pfad** zurück gibt. Man sieht also, dass `.` in `./Ordner D` also einfach nur den 
restlichen Pfad einblendet.
````
````{tab-item} Der Pfad ..
Dieser "Pfad" verhält sich im Wesentlichen ähnlich wie der Vorherige. Nur dieser gibt den Pfad des Eltern-Ordners (engl.
parent directory) zurück (was man von dem Beispiel auch schon vermuten konnte).
````
`````
``````

## Strings in Python

Wir haben bereits in den ersten Beispielen mehrfach mit Strings gearbeitet, ohne sie genauer unter die Lupe zu nehmen.
Da wir beim Austausch von Informationen zwischen Anwender, Programm und Datei allerdings unweigerlich mit Text-Variablen arbeiten, werden wir das an dieser Stelle nachholen.

Strings können entweder mit einfachen (`'a'`) oder doppelten (`"a"`) Anführungszeichen gekennzeichnet werden und repräsentieren im übertragenen Sinne nichts anderes als Text. 
Etwas genauer ist es Strings als Behälter von "Zeichen" zu bezeichnen (engl. container of characters).
Welche Zeichen in einem String vorkommen können hängt vom verwendeten Zeichensatz ab.
Voreingestellt ist bei herkömmlichen Strings der Standard [UTF-8](https://www.fileformat.info/info/charset/UTF-8/list.htm). 
Vereinfacht kann man diesen Zeichensatz zusammenfassen als:
* druckbare Zeichen (engl. printable characters): Diese erreichen Sie auf der Tastatur mit einem einzigen Tastendruck (inklusive Umschalt-Taste)
  - alle lateinischen Buchstaben (`a-z`, `A-Z`)
  - Gängige Umlaute (z.B. `öäüßÖÄÜ` und noch sehr viel mehr)
  - übliche Satzzeichen (z.B. `.,-+#^°!"§$%&/=?;:_()[]{}<>`)
  - das Leerzeichen
  - den Backslash ``\``, den Sie innerhalb eines Strings als ``\\`` tippen müssen, da der einzelne Backslash als **escape character** dient.
* nicht-druckbare Zeichen (engl. non-printable characters): Diese werden eingeleitet durch den sogenannten **escape charcter** ``\``.
  - Der Tabulator (engl. tab) `\t`, der einen **Whitespace** mit variabler Breite erzeugt
  - Der new-line character `\n`, der einen Zeilenumbruch erzeugt
  - einige weitere, die Sie nicht unbedingt benötigen

Die Besondere Rolle des Backslash verdeutlichen wir am besten mit einem Beispiel. 
Wenn Sie in einem String mehrere Backslashes einbauen wollen, können sie das Escape-Verhalten auch abschalten, indem Sie einen **raw string** verwenden.
Diesen definieren Sie, indem Sie vor dem ersten Anführungszeichen ein `r` hinzufügen.

In [1]:
print("a\tb\nc")
print("a\\tb\\nc")
print(r"a\tb\nc")

a	b
c
a\tb\nc
a\tb\nc


Da Strings Container sind, können wir ihre Elemente sowohl indizieren als auch über sie in einer Schleife iterieren:

In [2]:
s = "abc"

print(s[0])

if "a" in s:
    print("yes")

for c in s:
    print(c)

a
yes
a
b
c


Als nächstes schauen wir uns an, wie wir Python-Variablen, die keine Strings sind, am besten zu Strings konvertieren um sie z.B. in Dateien zu schreiben.
Zum einen kann man hierfür die Funktion `str()` nehmen, die für die meisten Objekte eine Voreinstellung hat.
Sie haben bereits die `print()`-Funktion kennengelernt, die genau diese Umwandlung automatisch ausführt.
Falls wir genauere Kontrolle wollen, können wir sogenannte **format strings** verwenden.
Ein **format string** wird ähnlich wie ein raw string definiert indem man dem ersten `"` oder `'` ein `f` voranstellt.
Innerhalb eines solchen Strings hat man die Möglichkeit Variablen aus dem vorangegangenen Code in geschweiften Klammern `{}` zu verwenden, die an der betreffenden Stelle in den String eingebaut werden. 
Bei Zahlen kann man zusätzlich in den Klammern hinter einem `:` das Format in der Form `k.jm` angeben, wobei
1. `m`: z.B. `e` oder `E` um wissenschaftliche Notation zu erzwingen, `f` um sie zu vermeiden oder `g` für automatische Formatierung. Außerdem gibt es `i` für ganze Zahlen (engl. integer).
2. `i`: Anzahl an Zeichen, die der String mindestens einnehmen soll (bei kurzen Zahlen wird der Rest des Strings von vorne mit Leerzeichen aufgefüllt). Bei Verwendung dieser Option ist ein häufiger Anfängerfehler eventuelle Minuszeichen nicht mit einzurechnen.
3. `j`: Anzahl an Nachkommastellen, die berücksichtigt werden sollen (bei langen Zahlen wird gerundet). Bei den Modi `e` und `E` bezieht sich das auf den Koeffizient vor der Potenz, beim Modus `g` steht `j` stattdessen für die Anzahl an signifikanten Stellen (also hat der String bis zu `j-1` Nachkommastellen).

Wir zeigen die verschiedenen Optionen am Beispiel der Zahl $\pi$, die bekanntlich unendlich viele Nachkommastellen hat:

In [3]:
from math import pi

# Die Voreinstellung nimmt meist unnötig viele Nachkommastellen mit
print(pi)
print(str(pi))
print(f"{pi}")

# Um die Unterschiede offensichtlich zu machen, begrenzen wir den Zahlen-String mit Strichen
print(f"---{pi:g}--- (g)")
print(f"---{pi:f}--- (f)")
print(f"---{pi:8.2f}--- (8.2f)")
print(f"---{pi:E}--- (E)")
print(f"---{pi:12.5e}--- (12.5e)")

# scientific notation macht vor allem Sinn bei Zahlen, die mehrere Größenordnungen von 1 verschieden sind:
print(f"---{pi/1000000:.5f}--- (.5f)")
print(f"---{pi/1000000:.5e}--- (.5e)")

# Im Zweifelsfall nutzen Sie 'g'. Beachten Sie, dass '.5g' nur 4 Nachkommastellen zeigt:
print(f"---{pi/1000000:.5g}--- (.5g)")

3.141592653589793
3.141592653589793
3.141592653589793
---3.14159--- (g)
---3.141593--- (f)
---    3.14--- (8.2f)
---3.141593E+00--- (E)
--- 3.14159e+00--- (12.5e)
---0.00000--- (.5f)
---3.14159e-06--- (.5e)
---3.1416e-06--- (.5g)


Abschließend an dieser Stelle noch erwähnt, dass Python eine unvorstellbare Auswahl an Möglichkeiten bietet Strings zu manipulieren.
Tatsächlich ist neben der Arbeit mit wissenschaftlichen Daten die Arbeit mit Strings eine der größten Stärken der Programmiersprache.
Ein paar Beispiele seien hier exemplarisch aufgelistet ohne sie im Detail zu erläutern.
In den meisten Fällen sollte der Code selbsterklärend sein.

In [4]:
# String, der eine mathematische Formel in LaTeX-Syntax darstellen soll
equation = r"\Frac{\sin(x)}{2}}"

# Prüfen, ob in der Gleichung alle geöffneten geschweiften Klammern auch wieder geschlossen wurden
if equation.count("{") != equation.count("}"): 
    print("WARNING: There is a bracket mismatch!")

# Alle Zeichen behalten außer dem letzten (womit wir hier den bracket mismatch beheben)
equation = equation[:-1]
print(equation)

# die Zeichenfolge '\sin' durch '\cos' ersetzen
equation = equation.replace(r"\sin", r"\cos")
print(equation)

# alle Großbuchstaben durch Kleinbuchstaben ersetzen
equation = equation.lower()
print(equation)

# Prüfen, ob der String ausschließlich Zeichen des ASCII-Zeichensatzes enthält
print(equation.isascii())

\Frac{\sin(x)}{2}
\Frac{\cos(x)}{2}
\frac{\cos(x)}{2}
True


##  Allgemeines Lesen und Schreiben von Dateien

Die Python-eigene Syntax zum Öffnen einer Datei besteht aus der Funftion `open()`, die als Argument den Dateinamen und die Art des Zugriffs nimmt. 
Die gängigsten Arten des Zugriffs sind:

* lesen (engl. read): `"r"`
* überschreiben (engl. write): `"w"`
* anhängen (eng. append): `"a"`

Dabei ist zu beachten, dass der Modus `"w"` eine bereits vorhandene Datei immer komplett überschreibt!
Dies ist in vielen Programmiersprachen die Voreinstellung des Schreibens, was Anfänger oftmals in die Falle tappen lässt.
Um nach dem Ende des bestehenden Inhalts einer Datei weiterzuschreiben, braucht man den Modus `"a"`.

Schauen wir uns dazu ein ähnliches Beispiel an wie die Studentenliste im vorherigen Kapitel:

In [5]:
# Wir merken uns welche Studenten anwesend sind und welche nicht
student_list = ["Tom", "Anna", "Peter", "Julia"]
presence = {"Tom": "anwesend", 
            "Anna": "anwesend", 
            "Peter": "abwesend", 
            "Julia": "anwesend"}

# Wir schreiben diese Information in eine Datei
file = open("../Data/students.txt", "w")
for student in student_list:
    file.write(f"{student}\t{presence[student]}\n")
file.close()


Wir bemerken, dass es für Dateien in Python einen eigenen Datentyp gibt.
Die Funktion `open` gibt uns ein solches Datei-Objekt zurück, in welches wir mit der zugehörigen Funktion `write()` einen String schreiben können.
Nachdem das Schreiben in die Datei abgeschlossen ist, sollte man sie stets mit dem Aufruf der `close()`-Funktion schließen.

Wir haben in diesem Beispiel noch zusätzlich die Gelegenheit genutzt einen neuen Datentyp einzuführen, nämlich das **Dictionary** `presence`.
Dictionaries gehören genauso wie **Listen** zu den Containern, können also mehrere Einträge enthalten.
Anders als bei Listen sind die Einträge von Dictionaries aber immer Wertepaare in Form eines **key**s (hier: Name) und eines **value**s (hier: Anwesenheit), welche bei der Definition des Dictionaries durch einen `:` getrennt werden.

Wir wollen die zuvor erstellte Datei nun einlesen:

In [6]:
# Wir lesen nur die Namen der anwesenden Studenten aus der Datei wieder ein 
present_students = []
with open("../Data/students.txt", "r") as file:
    for line in file.readlines():
        student, status = line.strip().split("\t")
        if status=="anwesend": present_students.append(student)

print(present_students)

['Tom', 'Anna', 'Julia']


Da es in manchen Fällen sehr wichtig und leicht zu vergessen ist eine Datei nach dem Zugriff wieder zu schließen, ist es empfehlenswert auf Dateien in einem `with`-Block zuzugreifen, welcher garantiert, dass die Datei wieder geschlossen wird, selbst wenn es innerhalb des Blocks zu einem Fehler kommt oder das Programm aus anderen Gründen unerwartet beendet wird.
Außerdem ist es in den meisten Fällen so, dass man Dateien Zeile für Zeile lesen möchte, was sich am einfachsten mit `readlines()` realisieren lässt.
`file.readlines()` gibt einfach eine Liste zurück, die alle Zeilen der Datei `files` als Strings enthält.
Wir nutzen außerdem die Funktion `strip()` um das `\n` am Ende der Zeile abzuschneiden und `split("\t")` um den String in eine Liste von Substrings zu teilen, wobei er an allen Stellen getrennt wird, an denen er ein `\t` enthält.

## Lesen und Schreiben von numerischen Daten

Das Einlesen von Dateien ist etwas derart alltägliches, dass viele *Bibliotheken* ihre eigene Funktionalität zum Einlesen von Dateien bereitstellen. 
Bibliotheken sind im Allgemeinen Sammlungen von Funktionen, welche man in Programmen nutzen kann. 
Um eine solche Bibliothek dem Python-Code bekannt zu machen, gibt es den Befehl `import <Bibliotheken-Name>`, wobei Sie der Bibliothek im Kontext ihres Codes auch einen eigenen (kürzeren) Namen geben können. 

Für Wissenschaftler ist die mit Abstand wichtigste Bibliothek des kompletten Python-Universums [numpy](https://numpy.org/), was für "numeric Python" steht.
Mit der Einführung dieser Bibliothek fangen unsere Beispiele nun auch endlich an für unsere Fachrichtung relevant zu werden.
Als erstes lesen und schreiben wir Matrizen mit Hilfe der Funktionen [loadtxt](https://numpy.org/doc/stable/reference/generated/numpy.loadtxt.html) und [savetxt](https://numpy.org/doc/stable/reference/generated/numpy.savetxt.html).

In [7]:
# Hier importieren wir numpy und geben ihm den Namen 'np'
import numpy as np

# Die Funktion np.loadtxt() liest eine Matrix von Zahlen aus einer Datei.
mat = np.loadtxt("../Data/test_data.csv", delimiter=",")
print(mat)

[[ 1.  2.  3.  4.]
 [ 5.  6.  7.  8.]
 [ 9. 10. 11. 12.]]


``````{admonition} Gängige numerische Dateiformate
:class: info

`.csv` kommt aus dem Englischen und steht für ***C***omma ***S***eparated ***V***alue. Somit werden die Daten in solchen Dateien einfach durch Kommata getrennt abgespeichert. Eine Erweiterung dessen sind sogenannte `*.dsv*`-Dateien. 
Dies steht für ***D***elimiter ***S***perated ***V***alue. D.h., dass die Daten in den Dateien auch durch andere Zeichen voneinander getrennt werden können, z.B. *, -, & oder auch beispielsweise &#127822;, &#128021;, oder &#128039;.
Auch Whitespaces können dafür genutzt werden. Allerdings ist die Unterscheidung zwischen `.csv` und `.dsv` heute nicht mehr 
so streng. Deshalb findet sich heute auch in `.csv` Dateien andere Trennzeichen als `,`. Beispielsweise nutzt Excel zum 
Abespeichern von `.csv` Dateien `;` als Trenner und nicht `,`.
``````

Nachdem wir die Daten eingelesen haben, können wir sie auch nutzen. Z.B. können wir die Matrix mit einem Vektor multiplizieren.
**Achtung**: da der Begriff der Multiplikation bei Matrizen nicht eindeutig ist, gibt es auch in `numpy` verschiedene Optionen.
Die naheliegendste Schreibweise `mat * a` steht dabei für die komponentenweise Multiplikation, die hier nicht gemeint ist.

In [8]:
# Definition eines Vektors
a = np.array([1,1,1,1])

# die deutsche "Matrizenmultiplikation" wird im Englischen auch als 'dot product' bezeichnet. Daher:
mat_a = np.dot(mat, a)
print(mat_a)

# falls Sie mit der Einsteinschen Summenkonvention vertraut sind und Missverständnisse 
# bei Matrizenrechnung vermeiden wollen, mögen Sie vielleicht diese Funktion mehr:
mat_a = np.einsum("ij,j -> i", mat, a)
print(mat_a)

[10. 26. 42.]
[10. 26. 42.]


Angenommen wir möchten den gerade erzeugten Vektor nun in die Datei `test_vector.csv` schreiben. 
Dies sieht mit `numpy` wie folgt aus:

In [9]:
np.savetxt('../Data/test_vector.csv', mat_a, delimiter=',')

Damit ist der Vektor in die Datei geschrieben und wir können ihn zu einem späteren Zeitpunkt wieder laden und damit weiterrechenen.

Die Bibliothek [pandas](https://pandas.pydata.org/) baut auf `numpy` auf und bietet einige Vorteile bei der Verarbeitung von Dateien, die wissenschaftliche Daten enthalten.
Das beinhaltet das Lesen, Schreiben, Aufbereiten und Konvertieren der enthaltenen Information.
Während `numpy` nur mit Zahlen arbeitet, kann `pandas` beispielsweise problemlos mit Dateien arbeiten, die zusätzlich Namen und Uhrzeiten enthalten. 
Schauen wir uns also an, wie wir eine Datei in `pandas` öffnen:

In [10]:
import pandas as pd

data = pd.read_csv("../Data/test_data_with_header.csv")
data

Unnamed: 0,A,B,C,D
0,1,2,3,4
1,5,6,7,8
2,9,10,11,12


Wir sehen direkt, dass wir eine Tabelle anstelle einer Matrix zurückbekommen. 
Man mag sich jetzt fragen, warum so etwas praktisch sein kann. 
Diese Möglichkeit zahlt sich dann aus, wenn wir z.B. Daten haben, die nach bestimmten Kriterien geordnet sind. 
Beispielsweise könnte in der ersten Spalte die Zeit, in der zweiten der Weg, in der dritten die Geschwindigkeit und in der letzten Spalte die zugehörige Beschleunigung eingetragen sein. 
In aller Regel ist es dann einfacher sich auf die entsprechenden Namen zu beziehen, anstelle sich die genauen Spaltennummern zu merken. 
Des Weiteren kann man ein pandas `Dataframe` einfach in ein `numpy array` konvertieren:

In [11]:
np_data = data.to_numpy()
np_data

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

Damit kann man dann genauso wie zuvor mit den Daten in numpy arbeiten. 
Anschließend kann man das numpy array auch wieder zurück in ein `pandas Dataframe` konvertieren.

In [12]:
df = pd.DataFrame(np_data)
print(df)
df.to_csv("../Data/test_dataframe.csv")

   0   1   2   3
0  1   2   3   4
1  5   6   7   8
2  9  10  11  12


Für rein numerische Daten kann man statt `pandas` einfach `numpy` nutzen.
Da wir mit den Daten üblicherweise Berechnungen ausführen wollen, brauchen wir `numpy` ohnehin in nahezu jedem Programm.
Wenn Sie allerdings während Ihrer Abschlussarbeit Daten verschiedenen Formats und Ursprungs organisieren, könnte `pandas` einen gewissen Mehrwert liefern.