# Dateien lesen und schreiben
## Voraussetzungen
Diese Einheit setzt voraus, dass Sie folgende Inhalte kennen: 
- Variablen
- Ein- und Ausgabe
- primitive Datentypen
- Listen
- for-Schleife

## Motivation
Bei der Arbeit mit Computern sind Dateien allgegenwärtig. Dateien werden erstellt, gelesen, geändert, kopiert, verschickt, verschoben, gelöscht, wiederhergestellt, .... Bislang gehen bei unseren Programmen alle Daten verloren, sobald das Programm beendet wird. Mit Hilfe der Dateien ist es möglich, Daten dauerhaft zu speichern (persistent) und später wieder auf eben diese Daten zuzugreifen.

Natürlich ist es auch in Python 🐍 möglich mit Dateien zu arbeiten. 

## Was ist eine Datei?
Alle von Ihnen haben schon mit Dateien gearbeitet: Word-Dateien, Excel-Dateien, dieses Notebook, Python-Programme, ... Was ist aber jetzt *genau* eine Datei? Eine mögliche Definition könnte sein:

*Eine Datei ist eine Menge von **logisch zusammenhängenden** und meist **sequentiell** geordneten Daten, die auf einem Medium **dauerhaft gespeichert** werden und über einen **Namen** (Identifier) ansprechbar sind.*

Schauen Sie sich gerne auch den Artikel zum Thema [Datei](https://de.wikipedia.org/wiki/Datei) auf Wikipedia an.

### Beispiel: textdatei.txt
Speichern Sie eine einfache Mail als Textdatei (Endung .txt) mit dem Namen textdatei.txt ab. Wie kann man jetzt die obigen Punkte sehen?
- der Text der Mail ist in der Regel logisch zusammenhängend, beizieht sich z.B. auf einen Betreff
- Der Text ist sequentiell aufgebaut: Eine Zeile folgt auf die andere, in den Zeilen steht ein Wort hinter dem anderen, in den Worten sind die Buchstaben hintereinander aufgereiht.
- Die Datei textdatei.txt ist (nachdem Sie diese abgespeichert haben) eben dauerhaft gespeichert. Auch wenn Sie das E-Mail-Programm schließen oder gar den Computer ausschalten, ist die Datei weiter auf dem Speicher des Rechners vorhanden. Sie können die Datei beim nächsten Mal wieder öffnen, auch mit einem anderen Programm.
- Die Datei hat einen eindeutigen Namen: textdatei.txt

## Wo liegt die Datei?
Heutzutage speichern die Programme und Apps die Dateien "irgendwo" in den Computern oder in das Smartphone. Sie als Nutzer sollen sich keine Gedanken machen müssen, wo Dateien liegen, wo sie abgespeichert werden. (Wissen Sie, wo Ihre mp3 Dateien auf dem Smartphone liegen?)

Wenn Sie mit Programmen auf Dateien zugreifen wollen, müssen Sie wissen, **wo** genau diese Dateien liegen. 
### Wichtig für dieses Notebook
Für dieses und die weiteren Notebooks gilt: Solange nichts anderes angegeben wird, befindet sich die Datei, auf die zugegriffen wird, im gleichen Verzeichnis wie das Notebook. Wenn Sie ein Notebook herunterladen, dann müssen Sie auch die Dateien herunterladen und im gleichen Ordner abspeichern. Sonst funktionieren einige Dinge nicht.

## In Python auf Dateien zugreifen
Der grundsätzliche Umgang mit einer Datei besteht immer aus den folgenden drei Schritten:
- Öffnen der Datei und Zuweisung der Datei zu einer Variablen
- Bearbeiten der Datei
    - Lesen aus Datei (Lesezugriff)
    - Schreiben in Datei (Schreibzugriff)
- Schließen der Datei

Um eine Datei zu öffnen, gibt es die Funktion `open()`. Für den weiteren Umgang mit der Datei gibt es Methoden wie `.write()`, `.read()` oder `.close()`. Darüber hinaus gibt es noch Bibliotheken, die weitere Funktionen für spezielle Dateiformate anbieten wie z.B. .csv, .json, ...

## Dateien öffnen
Mit der Python-Funktion `open()` kann eine Datei geöffnet werden. Die Funktion erwartet als Parameter den Namen einer Datei. (Dieser kann ggfs. um den Pfad zur Datei erweitert werden, sollte die Datei nicht im gleichen Verzeichnis wie das Programm liegen.) Zusätzlich kann noch optional der Modus angegeben werden, in dem die Datei geöffnet werden soll. Die verfügbaren Modi sind in der [Python-Dokumentation](https://docs.python.org/3/tutorial/inputoutput.html#reading-and-writing-files) aufgeführt. Die wichtigsten Modi sind:

| Modus | Beschreibung                                  |
|:-------|:-----------------------------------------------|
| r | Aus der Datei wird nur gelesen. Schreibzugriff führt zu	Fehler. Falls Datei nicht existiert --> Fehlermeldung. Am Anfang sitzt der Lesezeiger am Beginn der Datei |
| w | In die Datei wird geschrieben. Lesezugriff --> Fehler. Falls 	Datei NICHT existiert, wird eine neue Datei angelegt. Falls	Datei existiert wird der alte Inhalt gelöscht.|
| a | Neue Inhalte können an den alten Inhalt angehängt	werden (append). Der Schreibzeiger ist auf dem Ende der	Datei positioniert.|
| r+ | Lese- und Schreibzugriff. Fehler, falls Datei nicht existiert.|
| w+ | Schreib- und Lesezugriff. Neue Datei, falls Datei nicht 	existiert. Inhalt bestehender Datei wird gelöscht.!|
| rb | Der Modus kann um ein "b" ergänzt werden. In diesem	Fall liegt keine Textdatei sondern eine Binärdatei vor.|

Falls kein Modus angegeben wird, ist der Defaultwert `"r"`. **Empfehlung:** Geben Sie IMMER einen Modus an. Das vereinfacht die Wartung des Programms.

## Beispiele und Aufgaben
In den folgenden Aufgaben und Beispielen sollen die Modi "r" und "w" nochmal vertieft werden.
### Erzeugen einer Datei im Schreibmodus
Im folgenden Programm wird eine Datei im Schreibmodus geöffnet. Da es die Datei (vermutlich) bei Ihnen auf dem Rechner noch nicht gibt, wird diese Datei erzeugt. Das Programm schreibt letztlich nichts in die Datei hinein, die Datei existiert trotzdem. (Wichtig: Wenn kein weiterer Pfad angegeben wird, wird die Datei in dem gleichen Ordner erzeugt, in dem das Notebook liegt.) 

Lassen Sie das Programm laufen und kontrollieren Sie anschließend, ob die Datei erzeugt wurde. 

In [None]:
# Programm 1
# Datei wird zum Schreiben geöffnet
file = open("neue_Datei.txt", "w")
# Die Datei wird wieder geschlossen
file.close()

### Öffnen einer Datei im Lesemodus
Im nächsten Programm wird die Datei aus dem ersten Programm im Lesemodus geöffnet und wieder geschlossen. Lassen Sie das Programm laufen. **Löschen** Sie dann die Datei "neue_Datei.txt" und lassen Sie das Programm nochmal laufen. Was passiert?

In [None]:
# Programm 2
# Datei wird zum Lesen geöffnet
file = open("neue_Datei.txt", "r")
# Die Datei wird wieder geschlossen
file.close()

### Öffnen einer schon existierenden Datei im Schreibmodus
Öffnen Sie die Datei "neue_Datei.txt" mit einem Texteditor, geben Sie ein paar Zeichen und Zeilen ein, speichern diese Datei und schließen Sie den Texteditor wieder. Lassen Sie jetzt Programm 1 (s.o.) nochmal laufen. Kontrollieren Sie anschließend mit dem Texteditor den Inhalt der Datei. Was ist passiert?

## Dateien lesen
Wie liest man jetzt aus einer Datei? Dateien sind sequentiell organisiert (s.o.), d.h. sie bestehen aus aufeinander folgenden Zeilen. Zur Bearbeitung von Sequenzen eignet sich die `for`-Schleife. Konkret kann man über die Zeilen einer Datei iterieren: 

In [None]:
#Datei öffnen 
file = open('lorem_ipsum.txt', 'r')

#Datei zeilenweise lesen und die Zeilen ausgeben 
for line in file:
    print(line)

#Datei schließen
file.close()

Wenn Sie die Ausgabe des Programms mit dem Inhalt der Datei vergleichen (z.B. im Texteditor), fällt auf, dass in der Ausgabe Leerzeilen hinzugefügt  wurden. Woran liegt das?

Am Ende jeder Zeile steht in der Textdatei ein Zeilenumbruch `\n`. Dieser ist nur indirekt zu sehen, da der Text eben in der nächsten Zeile weitergeht. Bei der Ausgabe fügt die Funktion `print()` noch einen weiteren Zeilenumbruch hinzu, daher die Leerzeile. 

Man kann dieses Verhalten auf verschiedene Weise korrigieren. Zum einen können Sie in der Funktion `print()` den Parameter `end` auf ein leeres Zeichen setzen `end = ""`. Eine andere Möglichkeit ist es, die Zeile erst zu "strippen". Für Strings gibt es die Methode `.strip()`. Diese entfernt am Anfang und am Ende eines Strings Leerzeichen, Tabs, Zeilenumbrüche. `.strip()` wird häufig beim Einlesen von Formularen verwendet, um zu verhindern, dass ein führendes Leerzeichen die Eingabe verändert. Alternativ kann auch `.lstrip()` oder `.rstrip()` verwendet werden. In diesem Fall wird nur links bzw. rechts etwas gelöscht.

In [None]:
#Datei öffnen 
file = open('lorem_ipsum.txt', 'r')

#Datei zeilenweise lesen und die Zeilen ausgeben 
for line in file:
    line = line.strip()
    print(line)

#Datei schließen
file.close()

### Inhalt einer Datei zweimal ausgeben
Im folgenden Programm wird die `for`-Schleife zweimal durchlaufen. Wie sieht die Ausgabe aus? Warum?

In [None]:
#Datei öffnen 
file = open('lorem_ipsum.txt', 'r')

#Datei zeilenweise lesen und die Zeilen ausgeben 
print("Erste Runde")
for line in file:
    line = line.strip()
    print(line)
    
#Datei zeilenweise lesen und die Zeilen ausgeben 
print("Zweite Runde")
for line in file:
    line = line.strip()
    print(line)

#Datei schließen
file.close()

Beim Lesen einer Datei wird der "Lesekopf" zeichenweise über die Datei bewegt. Kommt der Lesekopf am Ende der Datei an und wird **nicht** zurückgesetzt, kann er dort nicht weiterlesen. Um den Schreibkopf zu platzieren, wird weiter unten noch die Methode `.seek()` vorgestellt.

### Datei in einem Rutsch in eine Liste einlesen
Möglicherweise sind die Zeilenumbrüche überflüssig und nur vorhanden, weil z.B. eine Papierseite eine begrenzte Breite hat. In diesem Fall macht es möglicherweise Sinn, den gesamten Text "in einem Rutsch" einzulesen, ohne mit einer Schleife über die Zeilen zu iterieren. Hierfür bietet sich die Methode `.readlines()` an. Das Ergebnis ist eine **Liste** mit einem Eintrag.

In [None]:
#Datei öffnen 
file = open('lorem_ipsum.txt', 'r')

#Datei in einem Rutsch einlesen
line = file.readlines()
print(line)

#Datei schließen
file.close()

### Datei mit `with` öffnen
Wie in den vorherigen Beispielen zu sehen müssen Dateien nach dem Öffnen auch immer geschlossen werden. Da das Vergessen des Schließens eine häufige Fehlerursache darstellt, gibt es in Python das Schlüsselwort `with`. Dieses sorgt dafür, das geöffnete Dateien immer korrekt geschlossen werden.

In [None]:
#Datei öffnen
with open('lorem_ipsum.txt', 'r') as file:
    #Datei zeilenweise lesen und die Zeilen ausgeben 
    for line in file:
        print(line)

#Datei wird automatisch geschlossen 

## Dateien schreiben
Um in eine Datei schreiben zu können muss sie in einen Modus geöffnet werden, der das Schreiben erlaubt (z.B. der Modus `'w'`). Danach kann mit der Methode `write` Daten in die Datei geschrieben werden. Dies wird in folgender Zelle gezeigt. 

In [None]:
with open('zahlen.txt', 'w') as f:
    for i in range(100):
        f.write(str(i) + '\n')

Kontrollieren Sie in der Datei "zahlen.txt" mit einem Texteditor das Ergebnis. Frage: Warum wird die Integer `i` noch in einen String verwandelt? Noch eine Frage: Warum wird noch ein `\n` zu der Zahl hinzugefügt? Experimentieren Sie mit obigen Programm, kontrollieren Sie jeweils die Veränderung der Datei mit einem Texteditor.

### Aufgabe: Buchstaben von a-z in eine Datei schreiben
Erstellen Sie ein Programm (ähnlich wie das vorherige), dass alle Buchstaben von a-z jeweils in eine Zeile einer Datei schreibt. Hinweis: Die Funktion `chr()` wandelt eine Zahl in einen Buchstaben. Dabei entspricht die Zahl 97 einem a, die Zahl 98 einem b usw. Hinter dieser Zuordnung steckt die ASCII-Tabelle. ASCII ist ein Codierungsstandard, der die Zeichen und Befehle einer Schreibmaschine den Bitkombinationen zuordnet. Dabei werden die Bitkombinationen in der Regel als Zahlen von 0 bis 127 angegeben. Siehe auch [hier](https://de.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange#ASCII-Tabelle).

In [None]:
with open ...

## Mit `.seek()` den Lesekopf platzieren
Mit Hilfe der Methode `.seek()` kann der Lesekopf (oder Lesezeiger) neu positioniert werden. Dabei werden der Methode zwei Argumente übergeben. 
Das erste Argument gibt an, um wie viele Bytes (!) der Zeiger verschoben wird. Das zweite Argument legt fest, von wo aus positioniert wird. Dabei gilt
* Zweites Argument = 0 →  von Beginn (Defaultwert)
* Zweites Argument = 1 →  von aktueller Position aus
* Zweites Argument = 2 →  vom Ende aus

Beispiel:
* file.seek(3) → Zeiger steht auf dem dritten Byte
* file.seek(5,1) → Zeiger wird um 5 Positionen von der aktuellen Position ausgehend weitergeschoben
* file.seek(0,0) → Zeiger zurück auf den Anfang der Datei

Experimentieren Sie in der folgenden Datei mit den Parameter von `.seek()`.

In [None]:
file = open("zahlen.txt", "r")
file.seek(60,0)
for line in file:
    print(line)

file.seek(0)
for line in file:
    line = line.strip()
    print(line)
file.close()

## Aufgabe 1: Zwei Ausgaben
Oben wurde ein Programm angekündigt, das den Inhalt einer Datei zweimal ausgibt. Kopieren Sie das Programm von oben in die folgende Zelle und ergänzen es so, dass jezt tatsächlich zwei Ausgaben erfolgen.

## Aufgabe 2: Datei kopieren
Erstellen Sie ein Programm, dass eine Datei kopiert. Erstellen Sie zuerst ein Programm, das eine Kopie von "lorem_ipsum.txt" erzeugt. Erweitern Sie das Programm anschließend so, dass zuerst nach dem Dateinamen der zu kopierenden Datei gefragt wird, anschließend nach dem Namen der neuen Datei. Danach wird kopiert. Gehen Sie davon aus, dass die Datei tatsächlich existiert.

## Aufgabe 3: Zahlen aus einer Datei addieren
Die Datei "08_zahlen.txt" auf Ilias enthält mehrere Zahlen. In jeder Zeile steht eine Zahl. Lesen Sie die Datei ein. Geben Sie an wie viele Zahlen die Datei enthält und wie groß die Summe der Zahlen ist.

## Aufgabe 4: Erzeugen Sie eine Datei mit Zufallszahlen
Erzeugen Sie eine Datei mit 1.000 Zufallszahlen zwischen 0 und 10.000. Zur Erinnerung: Mit `import random` laden Sie die Bibliothek mit den Zufallszahlen. Anschließend können Sie mit `random.randint(0,100)` eine Zufallszahl zwischen 1 und 100 erzeugen.

In [2]:
import random 
for i in range(10):
    x = random.randint(0,100)
    print(x)

94
30
12
65
18
91
31
2
40
92
