# Teil 11: Dateien lesen und schreiben
Bisher konnten wir nur Programme entwickeln, die Informationen durch User-Input aufnehmen und nach Ablauf des Programms wieder löschen. Der **lesende und schreibende Zugriff auf Dateien** ermöglicht es uns, Daten aus externen Quellen zu verarbeiten und zu speichern.

## 10.1 Dateien öffnen und auslesen

Die übliche Methode, Dateien mit Python zu öffnen, ist das `with open(...) as f` Konstrukt. Es erlaubt uns, in einem eingerückten **Code-Block** mit der geöffneten Datei zu arbeiten und schließt sie danach automatisch.

Das erste Argument von `open(...)` ist der **Pfad**, unter dem die zu öffnende Datei liegt. Wenn das Programm im selben Ordner aufgerufen wird, wie die Datei, reicht der Dateiname.

Der Variablenname `f` kann beliebig gewählt werden und erlaubt innerhalb des Code-Blocks den Zugriff auf die Datei, z.B. durch die `f.read()`-Methode, die den Text der Datei als String liefert.

In [None]:
# Programm, das die Datei "poem.txt" öffnet
with open("poem.txt") as f:
    poem_string = f.read()
    print(poem_string)

### 🧪 Experiment: Texte mit Umlauten
Versuche, die Datei "umlaute.txt" so wie die "poem"-Datei zu öffnen. Was passiert? Hast du eine Vermutung, woran das liegt?

In [None]:
# Platz für die Aufgabe
with open("umlaute.txt") as f:
    print(f.read())


## 10.2 Umlaute und Encodings

Zeichen werden in Computern als Binärzahlen gespeichert. Dadurch stellt sich die Frage, **welche Zahl zu welchem Buchstaben gehört** - eine Frage, die sehr kompliziert wird, wenn man bedenkt, dass nicht alle Sprachen mit den 26 englischen Buchstaben auskommen, sondern zusätzlich von den 4 deutschen Sonderzeichen bis zu über 50.000 chinesische Schriftzeichen enthalten können. Deshalb haben sich über die letzten Jahrzehnte mehrere **Zeichenkodierungen** (engl. "Encoding") entwickelt, die unterschiedliche Anforderungen abdecken.

Wenn das Öffnen einer Textdatei mit Python zu <a href="https://de.wikipedia.org/wiki/Zeichensalat" target="_blank">Zeichensalat</a> führt, dann liegt das höchstwahrscheinlich an der Kodierung. Dieser Fehler kann meist behoben werden, indem das richtige Format durch den `encoding`-Parameter in der `open()`-Funktion spezifiziert wird. In vielen Fällen ist das universelle **UTF-8** das richtige Format, aber leider sind auch plattformspezifische Kodierungen wie Windows' **cp1252** weiterhin verbreitet. In der Praxis ist das ein ernstzunehmendes Problem, aber für unseren Kurs reicht es meist, UTF-8 zu nutzen.

In [None]:
# Programm, das das Encoding der Datei korrekt spezifiziert
with open("umlaute.txt", encoding="UTF-8") as f:
    poem_string = f.read()
    print(poem_string)

### 🛠️ Übung: Stichwortsuche
Öffne die Datei "kafka.txt" mit dem `with open()`-Konstrukt und dem UTF-8 Encoding. Nutze anschließend die `f.readlines()`-Methode, die den Text als Liste von Zeilen liefert, um den Text Zeile für Zeile durchzugehen. Gebe dabei diejenigen Zeilen mit `print()` aus, die das Wort "Hunger" enthalten.

In [None]:
# Platz für die Aufgabe
with open("kafka.txt", encoding="UTF-8") as f:
    lines = f.readlines()
    counter = 1
    for line in lines:
        if "Hunger" in line:
            print(counter, ". ", line)
            counter += 1


## 10.3 Dateien (über-)schreiben

Um einen String in eine Textdatei zu schreiben, muss man sie im **w**rite oder **a**ppend Modus öffnen. Im **w**-Modus wird der bestehende Inhalt überschrieben, im **a**-Modus wird er angehängt. Beide Modi haben die Besonderheit, dass die Datei neu erstellt wird, falls sie noch nicht existiert.

Möchte man **Zeilenumbrüche** in eine Datei hinzufügen, kann man in einem String das Sonderzeichen `\n` (für **n**ewline) nutzen.

In [None]:
# Text in einer bestehenden Datei überschreiben / neue Datei mit Text erstellen
multi_line_string = """
Hier stehen
mehrere
Zeilen.
"""

with open("diary.txt", "w", encoding="UTF-8") as f:
    f.write(multi_line_string)

In [None]:
# Text an eine bestehende Datei anhängen
with open("diary.txt", "a", encoding="UTF-8") as f:
    f.write("Heute habe ich noch mehr Python gelernt.\n")

### 🧪 Experiment: Andere Datentypen schreiben
Versuche, in die "diary.txt" eine **Liste** `[...]` mit Stichpunkten über deinen Tagesablauf zu schreiben. Was passiert? Wie könnte es funktionieren?

In [None]:
# Platz für die Aufgabe
todos = ["Zähne putzen", "Duschen", "Frühstücken", "Arbeit"]

with open("diary.txt", "w", encoding="UTF-8") as f:
    
    for todo in todos:
       f.write(todo + "\n")



## 10.4 Das JSON-Format

Um (komplexe) Datentypen verlässlich abzuspeichern, wird in der Praxis oft das **JSON** (Javascript Object Notation) Format genutzt. Es erlaubt uns, den Zustand eines Programms - z.B. in Form eines Dictionary, in dem Listen, User-Inputs oder Berechnungen enthalten sind - in einen String umzuwandeln, der später wieder in den ursprünglichen Datentyp konvertiert werden kann.

Um JSON innerhalb von Python zu nutzen, müssen wir ein **Paket** importieren. Damit beschäftigen wir uns nächste Woche ausführlicher, aktuell reicht der folgende Befehl:

In [None]:
import json

Ist dieser Befehl ausgeführt, können wir die Methoden `json.dumps()` und `json.loads()` zum Laden von Daten benutzen.

### Daten abspeichern

In [None]:
import json

# Beispiel für Programm-Zustand
state = {
    "user_name": "Connie",
    "user_id": 1234567,
    "important_numbers": [5, 1, 78, 9]
}

# Konvertierung der Daten in JSON
state_json = json.dumps(state)

with open("data.json", "w", encoding="UTF-8") as f:
    f.write(state_json)


### Daten auslesen

In [None]:
# Überschreiben von state Variable (z.B. weil sich neuer User angemeldet hat)
state = {}

print(state)

with open("data.json", encoding="UTF-8") as f:
    data_string = f.read()
    print(type(data_string))

    data = json.loads(data_string)
    print(type(data))

    state = data

print(state)

## 10.5 Binärdateien

### 🧪 Experiment: Word-Datei öffnen
Versuche, die Datei "gedicht.docx" zu öffnen. Was passiert? Versuche anschließend, die Datei im `rb`-Modus (read binary) zu öffnen.

In [None]:
# Platz für die Aufgabe
with open("gedicht.docx", "rb") as f:
    print(f.read())

