# Teil 11: Dateien lesen und schreiben
Bisher konnten wir nur Programme entwickeln, die Informationen durch User-Input aufnehmen und nach Ablauf des Programms wieder l√∂schen. Der **lesende und schreibende Zugriff auf Dateien** erm√∂glicht es uns, Daten aus externen Quellen zu verarbeiten und zu speichern.

## 10.1 Dateien √∂ffnen und auslesen

Die √ºbliche Methode, Dateien mit Python zu √∂ffnen, ist das `with open(...) as f` Konstrukt. Es erlaubt uns, in einem einger√ºckten **Code-Block** mit der ge√∂ffneten Datei zu arbeiten und schlie√üt sie danach automatisch.

Das erste Argument von `open(...)` ist der **Pfad**, unter dem die zu √∂ffnende Datei liegt. Wenn das Programm im selben Ordner aufgerufen wird, wie die Datei, reicht der Dateiname.

Der Variablenname `f` kann beliebig gew√§hlt werden und erlaubt innerhalb des Code-Blocks den Zugriff auf die Datei, z.B. durch die `f.read()`-Methode, die den Text der Datei als String liefert.

In [None]:
# Programm, das die Datei "poem.txt" √∂ffnet
with open("poem.txt") as f:
    poem_string = f.read()
    print(poem_string)

Alternativ k√∂nnen Dateien **Zeile f√ºr Zeile** durchgegangen werden, was insbesondere bei gro√üen Dateien sinnvoll ist, um Speicherplatz zu sparen.

In [None]:
# √úber Zeilen iterieren
with open("poem.txt") as f:
    for line in f:
        print(line)

### üß™ Experiment: Texte mit Umlauten
Versuche, die Datei "umlaute.txt" so wie die "poem"-Datei zu √∂ffnen. Was passiert? Hast du eine Vermutung, woran das liegt?

In [None]:
# Platz f√ºr die Aufgabe




## 10.2 Umlaute und Encodings

Zeichen werden in Computern als Bin√§rzahlen gespeichert. Dadurch stellt sich die Frage, **welche Zahl zu welchem Buchstaben geh√∂rt** - eine Frage, die sehr kompliziert wird, wenn man bedenkt, dass nicht alle Sprachen mit den 26 englischen Buchstaben auskommen, sondern zus√§tzlich von den 4 deutschen Sonderzeichen bis zu √ºber 50.000 chinesische Schriftzeichen enthalten k√∂nnen. Deshalb haben sich √ºber die letzten Jahrzehnte mehrere **Zeichenkodierungen** (engl. "Encoding") entwickelt, die unterschiedliche Anforderungen abdecken.

Wenn das √ñffnen einer Textdatei mit Python zu <a href="https://de.wikipedia.org/wiki/Zeichensalat" target="_blank">Zeichensalat</a> f√ºhrt, dann liegt das h√∂chstwahrscheinlich an der Kodierung. Dieser Fehler kann meist behoben werden, indem das richtige Format durch den `encoding`-Parameter in der `open()`-Funktion spezifiziert wird. In vielen F√§llen ist das universelle **UTF-8** das richtige Format, aber leider sind auch plattformspezifische Kodierungen wie Windows' **cp1252** weiterhin verbreitet. In der Praxis ist das ein ernstzunehmendes Problem, aber f√ºr unseren Kurs reicht es meist, UTF-8 zu nutzen.

In [None]:
# Programm, das das Encoding der Datei korrekt spezifiziert
with open("umlaute.txt", encoding="UTF-8") as f:
    poem_string = f.read()
    print(poem_string)

### üõ†Ô∏è √úbung: Stichwortsuche
√ñffne die Datei "kafka.txt" mit dem `with open()`-Konstrukt und dem UTF-8 Encoding. Nutze anschlie√üend eine `for`-Schleife, um den Text Zeile f√ºr Zeile durchzugehen. Gebe dabei diejenigen Zeilen mit `print()` aus, die das Wort "Hunger" enthalten.

In [None]:
# Platz f√ºr die Aufgabe




## 10.3 Dateien (√ºber-)schreiben

Um einen String in eine Textdatei zu schreiben, muss man sie im **w**rite oder **a**ppend Modus √∂ffnen. Im **w**-Modus wird der bestehende Inhalt √ºberschrieben, im **a**-Modus wird er angeh√§ngt. Beide Modi haben die Besonderheit, dass die Datei neu erstellt wird, falls sie noch nicht existiert.

M√∂chte man **Zeilenumbr√ºche** in eine Datei hinzuf√ºgen, kann man in einem String das Sonderzeichen `\n` (f√ºr **n**ewline) nutzen.

In [None]:
# Text in einer bestehenden Datei √ºberschreiben / neue Datei mit Text erstellen
with open("diary.txt", "w", encoding="UTF-8") as f:
    f.write("Heute habe ich Python gelernt.\n")

In [None]:
# Text an eine bestehende Datei anh√§ngen
with open("diary.txt", "a", encoding="UTF-8") as f:
    f.write("Heute habe ich noch mehr Python gelernt.\n")

### üß™ Experiment: Andere Datentypen schreiben
Versuche, in die "diary.txt" eine **Liste** `[...]` mit Stichpunkten √ºber deinen Tagesablauf zu schreiben. Was passiert? Wie k√∂nnte es funktionieren?

In [None]:
# Platz f√ºr die Aufgabe




## 10.4 Das JSON-Format

Um (komplexe) Datentypen verl√§sslich abzuspeichern, wird in der Praxis oft das **JSON** (Javascript Object Notation) Format genutzt. Es erlaubt uns, den Zustand eines Programms - z.B. in Form eines Dictionary, in dem Listen, User-Inputs oder Berechnungen enthalten sind - in einen String umzuwandeln, der sp√§ter wieder in den urspr√ºnglichen Datentyp konvertiert werden kann.

Um JSON innerhalb von Python zu nutzen, m√ºssen wir ein **Paket** importieren. Damit besch√§ftigen wir uns demn√§chst ausf√ºhrlicher, aktuell reicht der folgende Befehl:

In [None]:
import json

Ist dieser Befehl ausgef√ºhrt, k√∂nnen wir die Methoden `json.dumps()` und `json.loads()` zum Laden von Daten benutzen.

### Daten abspeichern

In [None]:
# Beispiel f√ºr Programm-Zustand
state = {
    "user_name": "Connie",
    "user_id": 1234567,
    "important_numbers": [5, 1, 78, 9]
}

# Konvertierung der Daten in JSON
state_json = json.dumps(state)
print(state)

# Speichern des JSON-String in Datei
with open("data.json", "w", encoding="UTF-8") as f:
    f.write(state_json)

### Daten auslesen

In [None]:
# √úberschreiben von state Variable (z.B. weil sich neuer User angemeldet hat)
state = {}

print(state)

# Wiederherstellen von abgespeicherten Daten
with open("data.json", encoding="UTF-8") as f:
    data = f.read()
    print(type(data))
    # Daten sind noch im JSON-String-Format, deshalb m√ºssen sie mit "json.loads()" konvertiert werden
    data = json.loads(data)
    print(type(data))
    # Jetzt sind Daten wieder als Python-Dict vorhanden und k√∂nnen als state gespeichert werden
    state = data

print(state)

### ‚ö†Ô∏èAchtung: Dictionaries als JSON
Beim Speichern eines Dictionary als JSON werden die **Schl√ºssel immer in str umgewandelt**! Das kann unerwartete Folgen haben:

In [None]:
# Dictionary mit int-Schl√ºsseln
data = {
    1: "Connie",
    2: 1234567
}

# Konvertierung in JSON - hier geht bereits der Datentyp der Schl√ºssel verloren
json_data = json.dumps(data)
# Zur√ºckkonvertierung
data = json.loads(json_data)

# Versuch, auf int-Schl√ºssel zuzugreifen
print(data[1])

## 10.5 Bin√§rdateien

### üß™ Experiment: Word-Datei √∂ffnen
Versuche, die Datei "gedicht.docx" zu √∂ffnen. Was passiert? Versuche anschlie√üend, die Datei im `rb`-Modus (read binary) zu √∂ffnen.

In [None]:
# Platz f√ºr die Aufgabe


