# Dateien lesen und schreiben
## Voraussetzungen
Diese Einheit setzt voraus, dass Sie folgende Inhalte kennen: 
- [Variablen](../20_variables_and_datatypes/10_variables.ipynb)
- [Ein- und Ausgabe](../20_variables_and_datatypes/20_in_and_output.ipynb)
- [primitive Datentypen](../20_variables_and_datatypes/30_datatypes.ipynb)
- [bedingte Anweisungen](../30_conditionals/conditionals.ipynb)
- [komplexe Datentypen](../40_complex_data_types/lists.ipynb)
- [Schleifen](../50_loops/for_loop.ipynb)

Und zum Teil
- [Bibliotheken](../70_libraries/libraries.ipynb)

## Motivation
Bei der Arbeit mit Computern sind Dateien allgegenwärtig. Dateien werden erstellt, gelesen, geändert, kopiert, verschickt, verschoben, gelöscht, wiederhergestellt, .... und bislang gehen bei unseren Programmen alle Daten verloren, sobald das Programm beendet wird. Mit Hilfe der Dateien ist es möglich, Daten dauerhaft zu speichern (persistent) und später wieder auf eben diese Daten zuzugreifen.

Natürlich ist es auch in Python 🐍 möglich mit Dateien zu arbeiten. 

## Was ist eine Datei?
Alle von Ihnen haben schon mit Dateien gearbeitet: Word-Dateien, Excel-Dateien, dieses Notebook, Python-Programme, ... Was ist aber jetzt *genau* eine Datei? Eine mögliche Definition könnte sein:

*Eine Datei ist eine Menge von **logisch zusammenhängenden** und meist **sequentiell** geordneten Daten, die auf einem Medium **dauerhaft gespeichert** werden und über einen **Namen** (Identifier) ansprechbar sind.*

Schauen Sie sich gerne auch den Artikel zum Thema [Datei](https://de.wikipedia.org/wiki/Datei) auf Wikipedia an.

### Beispiel: textdatei.txt
Speichern Sie eine einfache Mail als Textdatei (Endung .txt) mit dem Namen textdatei.txt ab. Wie kann man jetzt die obigen Punkte sehen?
- der Text der Mail ist in der Regel logisch zusammenhängend, beizieht sich z.B. auf einen Betreff
- Der Text ist sequentiell aufgebaut: Eine Zeile folgt auf die andere, in den Zeilen steht ein Wort hinter dem anderen, in den Worten sind die Buchstaben hintereinander aufgereiht.
- Die Datei textdatei.txt ist (nachdem Sie diese abgespeichert haben) eben dauerhaft gespeichert. Auch wenn Sie das E-Mail-Programm schließen oder gar den Computer ausschalten, ist die Datei weiter auf dem Speicher des Rechners vorhanden. Sie können die Datei beim nächsten Mal wieder öffnen, auch mit einem anderen Programm.
- Die Datei hat einen eindeutigen Namen: textdatei.txt

## Wo liegt die Datei?
Heutzutage speichern die Programme und Apps die Dateien "irgendwo" in den Computern oder in das Smartphone. Sie als Nutzer sollen sich keine Gedanken machen müssen, wo Dateien liegen, wo sie abgespeichert werden. (Wissen Sie, wo Ihre mp3 Dateien auf dem Smartphone liegen?)

Wenn Sie mit Programmen auf Dateien zugreifen wollen, müssen Sie wissen, **wo** genau diese Dateien liegen. 
### Wichtig für dieses Notebook
Für dieses und die weiteren Notebooks gilt: Solange nichts anderes angegeben wird, befindet sich die Datei, auf die zugegriffen wird, im gleichen Verzeichnis wie das Notebook. Wenn Sie ein Notebook herunterladen, dann müssen Sie auch die Dateien herunterladen und im gleichen Ordner abspeichern. Sonst funktionieren einige Dinge nicht.

## In Python auf Dateien zugreifen
Der grundsätzliche Umgang mit einer Datei besteht immer aus den folgenden drei Schritten:
- Öffnen der Datei und Zuweisung der Datei zu einer Variablen
- Bearbeiten der Datei
    - Lesen aus Datei (Lesezugriff)
    - Schreiben in Datei (Schreibzugriff)
- Schließen der Datei

Um eine Datei zu öffnen, gibt es die Funktion `open()`. Für den weiteren Umgang mit der Datei gibt es Methoden wie `.write()`, `.read()` oder `.close()`. Darüberhinaus gibt es noch Bibliotheken, die weitere Funktionen für spezielle Dateiformate anbieten wie z.B. .csv, .json, ...

## Dateien öffnen
Mit der Python-Funktion `open()` kann eine Datei geöffnet werden. Die Funktion erwartet als Parameter den Namen einer Datei. (Dieser kann ggfs. um den Pfad zur Datei erweitert werden, sollte die Datei nicht im gleichen Verzeichnis wie das Programm liegen.) Zusätzlich kann noch optional der Modus angegeben werden, in dem die Datei geöffent werden soll. Die verfügbaren Modi sind in der [Python-Dokumentation](https://docs.python.org/3/tutorial/inputoutput.html#reading-and-writing-files) aufgeführt. Die wichtigsten Modi sind:

| Modus | Beschreibung                                  |
|:-------|:-----------------------------------------------|
| r | Aus der Datei wird nur gelesen. Schreibzugriff führt zu	Fehler. Falls Datei nicht existiert --> Fehlermeldung. Am Anfang sitzt der Lesezeiger am Beginn der Datei |
| w | In die Datei wird geschrieben. Lesezugriff --> Fehler. Falls 	Datei NICHT existiert, wird eine neue Datei angelegt. Falls	Datei existiert wird der alte Inhalt gelöscht.|
| a | Neue Inhalte können an den alten Inhalt angehängt	werden (append). Der Schreibzeiger ist auf dem Ende der	Datei positioniert.|
| r+ | Lese- und Schreibzugriff. Fehler, falls Datei nicht existiert.|
| w+ | Schreib- und Lesezugriff. Neue Datei, falls Datei nicht 	existiert. Inhalt bestehender Datei wird gelöscht.!|
| rb | Der Modus kann um ein "b" ergänzt werden. In diesem	Fall liegt keine Textdatei sondern eine Binärdatei vor.|

Falls kein Modus angegeben wird, ist der Defaultwert `"r"`. **Empfehlung:** Geben Sie IMMER einen Modus an. Das vereinfacht die Wartung des Programms.

Folgende Zellen zeigen wie eine Datei im Lesemodus(Parameter `'r'`) geöffent werden kann. Danach wird jeweils der Inhalt der Datei ausgegeben. 

### Beispiele

In [9]:
# Datei wird zum Lesen geöffnet. Falls Datei nicht existiert, gibt
# es eine Fehlermeldung.
file = open("lorem_ipsum.txt", "r")
file.close()
# Eine Datei muss immer geschlossen werden.

# Datei wird zum Schreiben geöffnet. Falls Datei nicht existiert wird 
# eine Neue Datei erzeugt. Falls Datei existiert, wird der Inhalt gelöscht
file = open("new_file.txt", "w")
file.close()


In [1]:
#Datei öffnen 
file = open('lorem_ipsum.txt', 'r')

#Datei zeilenweise lesen und die Zeilen ausgeben 
for line in file:
	print(line)

#Datei schließen
file.close()

Lorem ipsum dolor sit amet, consectetur adipiscing elit,

sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.

Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris

nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in

reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla

pariatur. Excepteur sint occaecat cupidatat non proident, sunt in

culpa qui officia deserunt mollit anim id est laborum.


In [2]:
#Datei öffnen
file = open('lorem_ipsum.txt', 'r')

#Gesamten Dateiinhalt in Variable einlesen
file_content = file.readlines()
print(file_content)

#Datei schließen 
file.close()

['Lorem ipsum dolor sit amet, consectetur adipiscing elit,\n', 'sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.\n', 'Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris\n', 'nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in\n', 'reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla\n', 'pariatur. Excepteur sint occaecat cupidatat non proident, sunt in\n', 'culpa qui officia deserunt mollit anim id est laborum.']


Wie in den vorherigen Beispielen zu sehen müssen Dateien nach dem Öffnen auch immer geschlossen werden. Da das Vergessen des Schließens eine häufige Fehlerursache darstellt, gibt es in Python das Schlüsselwort `with`. Dieses sorg dafür, das geöffnete Dateien immer korrekt geschlossen werden.

In [3]:
#Datei öffnen
with open('lorem_ipsum.txt', 'r') as file:
	#Datei zeilenweise lesen und die Zeilen ausgeben 
	for line in file:
		print(line)

#Datei wird automatisch geschlossen 

Lorem ipsum dolor sit amet, consectetur adipiscing elit,

sed do eiusmod tempor incididunt ut labore et dolore magna aliqua.

Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris

nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in

reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla

pariatur. Excepteur sint occaecat cupidatat non proident, sunt in

culpa qui officia deserunt mollit anim id est laborum.


## Dateien schreiben
Um in eine Datei schreiben zu können muss sie in eine Modus geöffnet werden, der das Schreiben erlaubt (z.B. der Modus `'w'`). Danach kann mit der Methode `write` Daten in die Datei geschrieben werden. Dies wird in folgender Zelle gezeigt. 

In [None]:
with open('zahlen.txt', 'w') as f:
    for i in range(100):
        f.write(str(i) + '\n')

## Aufgabe: CSV Dateien
Die Datei `studenten.csv` enthält eine Liste von Studenten im CSV-Format. Verwenden Sie das CSV-Modul um die Datei einzulesen und dann die Namen der Studenten in der Liste auszugeben.

## Aufgabe: Alice im Wunderland

Schreiben Sie ein Programm das eine Textdatei mit dem Namen 
alice_words.txt erstell. Diese soll eine alphabetische Auflistung aller Wörter und deren Häufigkeit 
in der Textversion von Alice´s Adventures in Wonderland enthalten. Verwenden Sie Funktionen um Ihr
Programm zu strukturieren.

Eine Textversion des Buches finden sie in der Datei `alice.txt`.

Die ersten 10 Zeilen Ihrer Ausgabedatei sollten in etwa so aussehen:
```text
Word    Count
a       631
a-piece 1
abide 	1
able 	1
about 	94
above 	3
absence 1
absurd 	2
```

Außerdem sollte ihr Programm das längste Wort im Buch ausgeben. Wieviele Zeichen hat dieses Wort?