# Anwendungsmodul: Dateien lesen und schreiben

In diesem Beispielnotebook pr√§sentiere ich einige Beispiele, wie Textdateien und einfache Tabellen (CSV, TSV) mit Python gelesen und geschrieben werden k√∂nnen. In den fr√ºheren Notebooks sind schon Beispiele dazu vorgekommen, hier f√ºhre ich diese Methoden noch etwas aus.

Relevante Python-Dok-Links f√ºr weiteres Einlesen:
* [open()](https://docs.python.org/3/library/functions.html#open)
* [os und paths](https://docs.python.org/3/library/filesys.html)
* [csv](https://docs.python.org/3/library/csv.html)

## Teil 1: Lesen und Schreiben

Hier nochmal zur Erinnerung, wie eine Textdatei eingelesen werden kann:

In [None]:
infile = open("moby_dick.txt", encoding="utf8")

for line in infile:
    print(line)

infile.close()

Sehen wir uns zuerst die `open()`-Funktion an. In der Dokumentation k√∂nnt ihr sehen, dass sie viele Optionale Argumente enth√§lt, immer notwendig ist aber der Pfad zur Datei, meistens in Form eines Strings. Die meisten optionalen Argumente werdet ihr nie verwenden m√ºssen, aber `encoding` sollte man sicherheitshalber explizit setzen. 

Eine kurze Erkl√§rung zu Encodings: Computer lesen Zeichen nicht wie wir, sondern als Code. Je nach Encoding werden diese Zeichen anders repr√§sentiert. Nicht alle Encodings enthalten Codes f√ºr alle Zeichen. ASCII zum Beispiel enth√§lt nur 95 Zeichen, die das lateinische Alphabet, einige Sonderzeichen und Zahlen umfassen. Windows verwendet standardm√§ssig das hauseigene Windows-125x-System, w√§hrend die meisten Plattformen heute das umfangreiche Unicode verwenden, das in Python unter anderem mit dem Namen "utf8" identifiziert wird. Unicode enth√§lt auch Encodings f√ºr Zeichen von seltenen Alphabeten und Emojis.

Wir k√∂nnen in Python Strings auch in einem bestimmten Encoding codieren, damit sehen wir gleich den Unterschied:

In [None]:
# Ohne spezielle Zeichen sehen wir keinen Unterschied
text = "Bald ist April."

print(text.encode("ascii"))

print(text.encode("latin-1"))

print(text.encode("utf8"))


In [None]:
# Mit einem √§ sieht es schon anders aus
# Ascii kann diesen String nicht mehr codieren!

text = "Der M√§rz ist bald vorbei."

# print(text.encode("ascii"))

print(text.encode("latin-1"))

print(text.encode("utf8"))

In [None]:
# F√ºgen wir auch noch ein Emoji hinzu, scheitert auch Latin-1

text = "Der M√§rz ist bald vorbei. üòÉ"

# print(text.encode("ascii"))

# print(text.encode("latin-1"))

print(text.encode("utf8"))

Alle Encodings, die in Python standardm√§ssig implementiert sind, findet ihr in der [Dokumentation](https://docs.python.org/3/library/codecs.html). Ich empfehle, das Encoding beim Lesen und Schreiben von Dateien immer explizit anzugeben, da Windows seinen eigenen Standard hat (statt Unicode, wie es bei UNIX-Systemen √ºblich ist) und sich Skripte daher unerw√ºnscht anders verhalten k√∂nnen, je nach Ger√§t, auf dem man sie ausf√ºhrt, wenn man kein Encoding explizit angibt.

Nochmal zur√ºck zum Code zu Beginn. Wir sehen ausserdem, dass man Zeilen des Texts einfach iterieren kann, indem man eine For-Schleife √ºber dem Datei-Objekt ausf√ºhrt. Das Datei-Objekt verh√§lt sich dabei √ºbrigens wie ein Generator: Erst wenn die Zeile bearbeitet wird, wird sie in den Arbeitsspeicher geladen. Das ist effizient und n√ºtzlich, wenn man mit sehr langen Dateien arbeitet. Es kann aber auch Gr√ºnde geben, wieso man den Text nicht Zeile f√ºr Zeile, sondern als Fliesstext haben m√∂chte. In dem Fall k√∂nnen wir folgende Methode verwenden:

In [None]:
infile = open("moby_dick.txt", encoding="utf8")

text = infile.read()
text = text.replace("\n", " ")
print(text[:100])

infile.close()

Ich ersetze im obigen Code auch noch die Zeilenumbr√ºche (`\n`, `\t` f√ºr Tabs) durch Leerschl√§ge, um den Text als einen durchgehenden String zu repr√§sentieren. Wenn einem Zeilen zwar doch wichtig sind, man aber ganz bestimmte m√∂chte, kann man `readlines()` verwenden.

In [None]:
infile = open("moby_dick.txt", encoding="utf8")

text = infile.readlines()
print(text[42:45])

infile.close()

Um Dateien zu schreiben, statt zu lesen, ist nur einem minimale √Ñnderung notwendig: Wir m√ºssen das optionale Argument `mode` auf `w` (f√ºr "write") setzen:

In [None]:
outfile = open("test.txt", mode="w", encoding="utf8")

outfile.write("Erste Zeile!\n")
outfile.write("Zweite Zeile...\n")
outfile.write("Letzte Zeile :-(\n")

outfile.close()

Mit dem "write"-Modus wird die Datei zum Schreiben ge√∂ffnet, wobei s√§mtlicher bisheriger Inhalt gel√∂scht wird. M√∂chte man hingegen an einer Datei weiterschreiben, verwendet man den Modus `a` f√ºr "append".

Zum Abschluss dieses Kapitels noch eine alternative Schreibweise f√ºrs √ñffnen und Schliessen von Dateien, die sehr beliebt ist:

In [None]:
with open("moby_dick.txt", encoding="utf8") as infile:
    for line in infile:
        print(line)

Diese Schreibweise er√ºbrigt uns, die Datei nach dem Lesen wieder zu schliessen (und dadurch den Arbeitsspeicher freizugeben), indem die Datei einfach f√ºr alle Operationen innerhalb des Einschubs mit der ge√∂ffneten Datei ausgef√ºhrt werden, und sobald der Einschub verlassen wird, wird die Datei geschlossen. Versucht man dann noch, darauf zu lesen oder zu schreiben, erh√§lt man eine Fehlermeldung

## Teil 2: Pfadoperationen

In manchen F√§llen ist ein Programm komplizierter, als nur eine einzelne Datei zu √∂ffnen und einzulesen. Die `os`-Bibliothek bietet eine Reihe von Operationen an, die es euch erm√∂glichen, mit Dateipfaden zu arbeiten. Das Modul `glob` hilft uns, relevante Dateien zu finden. (Alle Teil der Standard-Bibliothek)

In [None]:
import glob
import os

# Mit glob k√∂nnen wir mehrere Dateien finden und Platzhalter verwenden
infiles = glob.glob("./Beispiele/*.txt")

print(infiles)

In [None]:
# √úberf√ºhren wir die Infos aus den Dateien in ein Dictionary
import pprint as pp

states = {}

for infile in infiles:
    
    # Wir benutzen os um den Namen der Datei zu erhalten
    name = os.path.basename(infile)
    name = name.replace(".txt", "")

    with open(infile, encoding="utf8") as inf:
        text = inf.read()

    states[name] = text

pp.pprint(states)

Die M√∂glichkeiten, die uns `os` bietet, sind zu zahlreich, um sie hier aufzuz√§hlen. Man kann damit aber z.B. auch Ordner anlegen, oder √ºberpr√ºfen, ob gewisse Dateien oder Ordner vorhanden sind. Das `path`-Submodul bietet haupts√§chlich M√∂glichkeiten, Strings zu manipulieren, wie oben im Beispiel, in dem der "Basename" der Datei extrahiert wird. Man kann mit `os.path.join()` aber zum Beispiel auch aus einer Sequenz einen Pfad bauen oder mit `os.path.split()` einen Dateipfad in seine Einzelteile zerlegen.

## Teil 3: Einfache Tabellen

F√ºr die Arbeit mit Tabellen stellen die Tutor*innen euch ein spezifisches Notebook zur Verf√ºgung, in dem ihr in den Umgang mit Pandas eingef√ºhrt werdet. Pandas ist ein sehr gutes externes Python-Modul, das die Arbeit mit tabellarischen Datens√§tzen vereinfacht. M√∂chte man aber nur eine einfache Tabelle einlesen, ist es etwas unumg√§nglich. Daher gehe ich hier noch in K√ºrze auf die Nutzung des `csv`-Moduls ein.

csv- und tsv-Tabellen sind Tabellen, die als Textdokumente gespeichert sind, und deren Spalten durch Kommas, resp. Tabulatoren getrennt sind. Wir k√∂nnen diese beiden mit `csv` einlesen. Eine Excel-Datei hingegen m√ºssten wir erst csv-formatiert exportieren, um sie einlesen zu k√∂nnen. Hier empfiehlt sich dann meistens eher Pandas.

In eurem Materialordner findet ihr `cities.csv` zur Demonstration.

In [None]:
import csv

with open("cities.csv", newline="", encoding="utf8") as infile:
    reader = csv.reader(infile)

    for row in reader:
        city = row[8]
        state = row[9]

        print(city, state)

Da wir hier eine csv-formatierte Datei haben, m√ºssen wir keine optionalen Argumente setzen. Hat man hingegen eine tsv-formatierte Datei, oder - eher ungew√∂hnlich - eine Semikolon-separierte Datei, muss man das `delimiter`-Argument entsprechen setzen (`\t` f√ºr TSV z.B.).

Wie man sieht, ist hier aber das Ansteuern der einzelnen Felder ziemlich kompliziert, weil die Spalten nur √ºber den Index definiert sind. `csv` bietet dazu auch noch den praktischen `DictReader`:

In [None]:
import csv

with open("cities.csv", newline="", encoding="utf8") as infile:
    reader = csv.DictReader(infile)

    for row in reader:
        city = row["City"]
        state = row["State"]

        print(city, state)

Und genau so k√∂nnen wir auch Tabellen schreiben, zum Beispiel eine TSV-Datei:

In [None]:
import csv

with open("letters.tsv", mode="w", newline="", encoding="utf8") as outfile:
    writer = csv.writer(outfile, delimiter="\t")

    writer.writerow(["A", "First Letter of the Alphabet."])
    writer.writerow(["Q", "Worst Letter of the Alphabet."])
    writer.writerow(["V", "Most Unnecessary Letter of the Alphabet."])

Wie aber schon erw√§hnt, lohnt es sich bei gr√∂sseren oder komplexeren Tabellen, diese mit dem `pandas`-Modul zu bearbeiten. (Siehe Vertiefungsmodul zur Arbeit mit Tabellen)