# Teil 10: Dateien lesen und schreiben
Bisher konnten wir nur Programme entwickeln, die Informationen durch User-Input aufnehmen und nach Ablauf des Programms wieder löschen. Der **lesende und schreibende Zugriff auf Dateien** ermöglicht es uns, Daten aus externen Quellen zu verarbeiten und zu speichern.

## 10.1 Dateien öffnen und auslesen

Die übliche Methode, Dateien mit Python zu öffnen, ist das `with open(...) as f` Konstrukt. Es erlaubt uns, in einem eingerückten **Code-Block** mit der geöffneten Datei zu arbeiten und schließt sie danach automatisch.

Das erste Argument von `open(...)` ist der **Pfad**, unter dem die zu öffnende Datei liegt. Wenn das Programm im selben Ordner aufgerufen wird, wie die Datei, reicht der Dateiname.

Der Variablenname `f` kann beliebig gewählt werden und erlaubt innerhalb des Code-Blocks den Zugriff auf die Datei, z.B. durch die `f.read()`-Methode, die den Text der Datei als String liefert.

In [None]:
# Programm, das die Datei "poem.txt" öffnet
with open("poem.txt") as f:
    poem_string = f.read()
    print(poem_string)

### 🧪 Experiment: Texte mit Umlauten
Versuche, die Datei "umlaute.txt" so wie die "poem"-Datei zu öffnen. Was passiert? Hast du eine Vermutung, woran das liegt?

In [None]:
# Platz für die Aufgabe




## 10.2 Umlaute und Encodings

Zeichen werden in Computern als Binärzahlen gespeichert. Dadurch stellt sich die Frage, **welche Zahl zu welchem Buchstaben gehört** - eine Frage, die sehr kompliziert wird, wenn man bedenkt, dass nicht alle Sprachen mit den 26 englischen Buchstaben auskommen, sondern zusätzlich von den 4 deutschen Sonderzeichen bis zu über 50.000 chinesische Schriftzeichen enthalten können. Deshalb haben sich über die letzten Jahrzehnte mehrere **Zeichenkodierungen** (engl. "Encoding") entwickelt, die unterschiedliche Anforderungen abdecken.

Wenn das Öffnen einer Textdatei mit Python zu <a href="https://de.wikipedia.org/wiki/Zeichensalat" target="_blank">Zeichensalat</a> führt, dann liegt das höchstwahrscheinlich an der Kodierung. Dieser Fehler kann meist behoben werden, indem das richtige Format durch den `encoding`-Parameter in der `open()`-Funktion spezifiziert wird. In vielen Fällen ist das universelle **UTF-8** das richtige Format, aber leider sind auch plattformspezifische Kodierungen wie Windows' **cp1252** weiterhin verbreitet. In der Praxis ist das ein ernstzunehmendes Problem, aber für unseren Kurs reicht es meist, UTF-8 zu nutzen.

In [None]:
# Programm, das das Encoding der Datei korrekt spezifiziert
with open("umlaute.txt", encoding="UTF-8") as f:
    poem_string = f.read()
    print(poem_string)

### 🛠️ Übung: Stichwortsuche
Öffne die Datei "kafka.txt" mit dem `with open()`-Konstrukt und dem UTF-8 Encoding. Nutze anschließend die `f.readlines()`-Methode, die den Text als Liste von Zeilen liefert, um den Text Zeile für Zeile durchzugehen. Gebe dabei diejenigen Zeilen mit `print()` aus, die das Wort "Hunger" enthalten.

In [None]:
# Platz für die Aufgabe




## 10.2 Dateien (über-)schreiben

## 10.3 Das JSON-Format

## 10.4 Binärdateien