# Einlesen von Dateien
Im vorigen Teil wurde bereits angeschnitten, dass sich Dateien über die Standardeingabe umleiten und somit einlesen lassen. In Jupyter und auch andernorts, sofern sich die Datenströme nicht frei konfigurieren lassen, ist der direkte Zugriff eine Alternative. Im Gegensatz zu einem Datenstrom, der nur einmalig gelesen werden kann, bietet die entsprechende Programmierschnittstelle außerdem den Vorteil, wahlfrei in der Datei springen oder mehrere Dateien gleichzeitig öffnen zu können.

Im Folgenden wird ein Auszug aus dem Datensatz [Disney+ Movies and TV Shows](https://www.kaggle.com/code/werador/disney-data-analysis/data) verwendet. Klicken Sie auf den Link, um mehr zu erfahren.

## Inhaltsverzeichnis
- [Öffnen und Lesen einer Datei](#Öffnen-und-Lesen-einer-Datei)
- [Schreiben in Dateien](#Schreiben-in-Dateien)
- [Lesen komprimierter Dateien](#Lesen-komprimierter-Dateien)

## Öffnen und Lesen einer Datei
Zum Öffnen von Dateien steht die Funktion `open` der Standardbibliothek bereit. Sie gibt ein Objekt zurück, das die Datei repräsentiert. Dieses Objekt besitzt verschiedene Methoden und kann auch als Iterator dienen. Verwenden Sie das Dateiobjekt als Kontext-Manager, sodass Sie sich nicht selbst um den Aufruf der `close` Funktion kümmern müssen. Andernfalls können nicht mehr benötigte Ressourcen weiter belegt bleiben und Speicherlecks verursachen.

In [None]:
# Öffnen der Datei
with open('disney_plus_titles_jun22.txt') as file:
    # zeilenweise Iteration
    for line_number, title in enumerate(file, 1):
        # Ausgabe des Titels ohne anschließenden Zeilenumbruch
        print(title.strip())

        # Abbruch nach 10 Titeln
        if line_number >= 10:
            break

Als zweiten Parameter lässt sich der Modus bestimmen, in dem die Datei geöffnet wird. Die wichtigsten Modi sind:

- `r`: Die Datei wird zum Lesen im Textmodus geöffnet.
- `w`: Die Datei wird geleert und anschließend zum Schreiben im Textmodus geöffnet.
- `a`: Die Datei wird zum Schreiben im Textmodus geöffnet. Jede Schreiboperation fügt Daten ans Ende der Datei an.
- `rb`: Die Datei wird zum Lesen im Binärmodus geöffnet.
- `wb`: Die Datei wird zum Schreiben im Binärmodus geöffnet.

Ohne Angabe wird die Datei lesend (`r`) geöffnet.

Statt über die Datei zeilenweise zu iterieren, lassen sich natürlich auch andere Funktionen zur Interaktion nutzen.

| Name          | Rückgabewert | Beschreibung                                                  |
| ------------- | ------------ | ------------------------------------------------------------- |
| `read()`      | `str`        | liest die gesamte Datei ein                                   |
| `readline()`  | `str`        | liest die Datei bis zum nächsten Zeilenumbruch                |
| `readlines()` | `List[str]`  | liest die gesamte Datei ein und trennt an jedem Zeilenumbruch |

Außerdem lässt sich beim Öffnen einer Datei das Encoding, also die Art, wie Zeichen kodiert sind, bestimmen. Der Standardwert ist abhängig von der Plattform, auf der Sie das Skript ausführen. Sollte bei Ihnen also beispielsweise ein Name mit Umlaut nicht korrekt dargestellt werden, kann es helfen, das Encoding explizit zu setzen. Sollten Sie sich ungewiss sein, mit welcher Kodierung Ihre Quelle gespeichert wurde, ist `utf-8` als weiterverbreiteter Standard einen Versuch wert.

In [None]:
with open('deutsche_nachnamen_haeufigkeit.txt', encoding='latin1') as file:
    print('latin1:')
    print(file.readlines())

with open('deutsche_nachnamen_haeufigkeit.txt', encoding='utf-8') as file:
    print('utf-8:')
    print(file.readlines())

## Schreiben in Dateien
Das Schreiben von Dateien gestaltet sich analog mit den Methoden `write` und `writelines`, sofern eine Datei im Schreibmodus geöffnet wurde. Beachten Sie bitte, dass beide Funktionen Zeichenketten erwarten und andere Datentypen zunächst umgewandelt werden müssen.

In [None]:
with open('nummern.txt', 'w') as file:
    file.write('1\n')
    file.write('2\n')
    file.write('3\n')

    file.writelines(['11\n', '12\n', '13\n'])

## Lesen komprimierter Dateien
Kompression spart je nach Inhalt der Datei Speicherplatz und kann somit den Transfer beschleunigen. Auch wenn Ladezeiten angesichts heutiger Geschwindigkeiten nur noch über das Netzwerk relevant sind, werden Sie dennoch einige Datensätze komprimiert vorfinden.

Python kann mit einigen Kompressionsformaten direkt interagieren, sodass die Dateien nicht erst entpackt werden müssen. Die folgende Zelle lädt die Film- und Serientitel aus einer mit dem Verfahren *bzip2* komprimierten Datei. Bitte achten Sie darauf, dass komprimierte Dateien immer im Binärformat gespeichert und deshalb auch im entsprechenden Modus geöffnet werden.

In [None]:
import bz2

with bz2.open('disney_plus_titles_jun22.txt.bz2', 'rb') as file:
    for line_number, title in enumerate(file, 1):
        # Konvertieren des Titels in `str`
        print(title.decode('utf-8').strip())

        # Abbruch nach 10 Titeln
        if line_number >= 10:
            break