# Mit Dateien arbeiten

Daten, wie wir sie bisher verwendet haben, existieren nur im Hauptspeicher des Computers (RAM). Wenn das Programm beendet oder der Computer ausgeschalten wird, sind die Daten verloren. Daher sollten wir Daten, die wir noch brauchen, auf die Festplatte speichern (und später wieder von dort einlesen). 

In diesem Notebook lernen wir, wie das geht.

## Eine Datei öffnen

Bevor aus einer Datei gelesen oder in eine Datei geschrieben werden kann, muss diese Datei mit der Funktion `open()` geöffnet werden. `open()` erwartet mindestens ein Argument: Den Namen (evtl. mit Pfad) der Datei. 

### Die Datei liegt im aktuellen Verzeichnis 

Wenn Sich die zu öffnende Datei im selben Verzeichnis befindet wie die ausgeführte Python-Datei oder das ausgeführte Notebook, brauchen Sie nur den Namen der zu öffnenden Datei angeben. (Genau genommen spielt das Verzeichnis, von dem aus Sie das Programm aufrufen, die entscheidende Rolle beim Ausgangspunkt).

Öffnen wir als eine Datei `example.txt`, die ich zu Demonstrationszwecken in dem Ordner angelegt habe, in dem auch dieses Notebook liegt:

In [None]:
fh = open('example.txt')

Hier sehen wir keine Ausgabe. Wir haben aber eine Variable `fh` angelegt, über die wir auf den Inhalt der Datei zugreifen können:

In [None]:
print(fh.read())

Falls das vorletzte Wort etwas seltsam aussieht, arbeiten Sie vermutlich unter Windows. Wir werden gleich lernen, wie wir sicherstellen können, dass alle Zeichen korrekt dargestellt werden.

### Eine Datei in einem anderen Verzeichnis öffnen

Wir öffnen jetzt eine andere Datei, die sich nicht im Verzeichnis dieses Notebooks befindet, sondern im Ordner `data`, der sich auf derselben Verzeichnisebene befindet, wie der aktuelle Ordner. Er liegt also, wenn man so will, parallel zum Ordner `01-grundlagen`. Sie können sich das links im Menü ansehen oder in einem anderen Programm wie z.B. dem Windows Explorer oder dem Finder in MacOS. Die Struktur ist also diese:

```
gdp25
|-- 01-grundlagen
|   |-- 06-dateien.ipynb 
|-- data
    |-- vornamen
        |-- names_short.txt
```

Wir müssen also vom Verzeichnis, in dem das Notebook liegt (`01-grundlagen`), zuerst eine Verzeichnisebene nach oben (`..`), dann ins Verzeichnis `data` und von dort weiter ins Verzeichnis `vornamen`. Dort wollen wir die Datei `names_short.txt` öffnen.

In [None]:
fh = open('../data/vornamen/names_short.txt')

Falls Sie sich gerade wundern, warum wir auch unter Windows hier den Slash (`/`) als Trenner zwischen Verzeichnissen und Dateien verwenden können: Python gleicht das selbst für das jeweilige Betriebssystem aus. Sie sollten also immer den Slash verwenden und nicht, wie in Windows gewohnt den Backhslash (`\`), wenn Sie Interesse daran haben, dass Ihr Programm auf allen Betriebssystem funktioniert (und gleich als kleine Warnung: Die Chance, dass ich Ihre Übungen unter Linux ansehen werde, ist sehr groß 😉).

### encoding=
Falls nötig (und grundsätzlich empfehlenswert), kann beim Öffnen einer Textdatei noch das Encoding der Datei explizit angegeben werden, falls dieses bekannt ist. Dadurch kann das oben aufgetretene Problem mit den falsch dargestellten Umlauten unter Windows vermieden werden.

Exkurs zum Encoding: Das Encoding bestimmt, wie ein Computer Bitfolgen als Zeichen interpretiert.  Wir werden dieses Thema ausführlicher in einer der Live Sessions behandeln. Zur Vertiefung (oder falls Sie das auf der Stelle wissen müssen), empfehle ich diese Texte:

* [The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)](https://www.joelonsoftware.com/2003/10/08/the-absolute-minimum-every-software-developer-absolutely-positively-must-know-about-unicode-and-character-sets-no-excuses/)
* [The Absolute Minimum Every Software Developer Must Know About Unicode in 2023 (Still No Excuses!)](https://tonsky.me/blog/unicode/)
* https://docs.python.org/3/howto/unicode.html

## Dateien wieder schließen

Wenn wir die Datei nicht mehr brauchen, d.h. wenn wir die Datei eingelesen haben, sollte sie wieder geschlossen werden, damit das Betriebssystem die Ressource wieder freigeben kann.

In [None]:
fh.close()

Es ist also guter Stil, eine geöffnete Datei auch wieder zu schließen. Was aber, wenn z.B. das Programm abstürzt, während die Datei geöffnet ist, so dass die `close()`-Methode nicht mehr ausgeführt werden kann? 

Um solche Probleme zu vermeiden, empfiehlt sich die Verwendung eines *Context-Managers*. In Python gibt es einige solcher Context.Manager (und man kann auch selbst welche programmieren). Hier sehen wir uns aber einmal den Context-Manager zum Öffnen einer Datei an:

In [None]:
with open('../data/vornamen/names_short.txt', encoding='utf-8') as fh:
    print(fh.read())

Es ist Ihnen vielleicht aufgefallen, dass ich in der letzten Codezelle die Datei nicht geschlossen habe. Das ist auch nicht nötig, weil der Content-Manager (`with open( ...`), dafür sorgt, dass die Datei automatisch geschlossen wird.

Meine Empfehlung: Verwenden Sie von Anfang an immer einen Context-Manager, wenn Sie  eine Datei öffnen. Das wird Ihnen sehr rasch in Fleisch und Blut übergehen und Sie brauchen nicht mehr drüber nachzudenken.

## Dateiinhalte einlesen

Das Objekt, das die geöffnete Datei repräsentiert, bietet mehrere Möglichkeiten, auf den Inhalt 
der Datei zuzugreifen. Weiter unten werden wir `read()` und `readlines()` kennen lernen, wir können aber auch ganz elegant zeilenweise durch die Datei *iterieren*:

In [None]:
with open('../data/vornamen/names_short.txt', encoding='utf-8') as fh:
    for line in fh:
        print(line)

### Weitere Methoden um aus einer Datei zu lesen

#### read()
Die `read()`-Methode liest den gesamten Dateiinhalt als String ein. Wie erhalten also den gesamten Dateiinhalt als einen (mitunter sehr langen) String:

In [None]:
with open('../data/vornamen/names_short.txt', encoding='utf-8') as fh:
    data = fh.read()
print(data)

#### readlines()
Diese Methode liest jede Zeile der Datei als Element in eine Liste ein (eine Liste ist ein weiterer Sequenztyp, den wir bald kennen lernen werden):

In [None]:
with open('../data/vornamen/names_short.txt', encoding='utf-8') as fh:
    lines = fh.readlines()
print(lines)    

<div class="alert alert-block alert-info">
<b>Übung File-1</b><p>wie viele Zeilen hat die Datei names_short.txt?</p></div>

## In eine Datei schreiben
Bisher haben wir nur aus Dateien gelesen. Um in eine Datei schreiben zu können, müssen wir sie auf eine besondere Weise öffnen. Die `open()`-Funktion erwartet als zweites Argument einen String, der angibt, wie eine Datei geöffnet werden soll. Falls wir nichts angeben, wird der Defaultwert 'r' (für `read`) angenommen.

```
with open('../data/vornamen/names_short.txt', encoding='utf-8') as fh:
```
führt also zum selben Ergebnis wie 

```
with open('../data/vornamen/names_short.txt', 'r', encoding='utf-8') as fh:
```


Wenn wir eine Datei zum Schreiben öffnen wollen, verwenden wir statt `'r'` `'w'` (für `write`).

In [None]:
with open('testfile.txt', 'w', encoding='utf-8') as fh:
    fh.write('Ich bin ein Text.')

Die `write()`-Methode des File-Objekts sorgt dafür, dass die als Argument übergebenen Daten in die Datei geschrieben werden. Dabei ist zu beachten, dass die Datei überschrieben wird, falls sie bereits existiert hat.

## An eine Datei anhängen

Wenn wir die Datei nicht überschreiben, sondern neue Daten an eine bestehende Datei anhängen wollen, müssen wir statt `'w'` den Mode `'a'` (für `append`) angeben. Falls die Datei zuvor noch nicht existiert hat, wird sie angelegt, d.h. `append` funktioniert auch für neue Dateien.

In [None]:
with open('testfile.txt', 'a', encoding='utf-8') as fh:
    fh.write('Ich bin ein Text.')

<div class="alert alert-block alert-info">
<b>Übung File-2</b><p>Schreiben Sie ein Programm, das folgende Schritte vornimmt:
<ol>
<li>Lesen Sie die Inhalte der Datei "data/vornamen/names_short.txt" ein.</li>
<li>Schreiben Sie den Inhalt der eingelesenen Datei in eine neue Datei "mynames.txt"</li>
<li>Fragen Sie (mit input()) den Benutzer nach seinem/ihrem Vornamen und speichern Sie diese in einer Variablen </li>
<li>Fügen Sie den erfragten Namen ans Ende der Datei "mynames.txt" an</li>
</ol>
</div>

## Binärdaten schreiben
Bisher haben wir immer angenommen, dass wir Texte aus einer Datei lesen oder in eine Datei schreiben. Falls wir es mit Binärdaten (d.h. mit allem was kein reiner Text ist, z.B. Bilder, PDF-Dateien, Word-Files usw.) zu tun  haben, müssen wir das explizit mit dem Buchstaben `'b'` angeben:

In [None]:
with open('../data/img/string1.png', 'rb') as fh_in, open('testimage.png', 'wb') as fh_out:
    data = fh_in.read()
    fh_out.write(data)

Der Unterschied ist, dass im 'rb'-Mode Python nicht versucht, die eingelesenen Bits als Text-Zeichen zu interpretieren (was z.B. bei einem Bild keinen Sinn machen würde), sondern die Bits genau so weitergibt, wie sie gelesen werden. Wenn wir die Bits (wie im letzten Beispiel) einfach in einen neue Datei kopieren, reicht das aus -- wir sind an der inhaltlichen Bedeutung der Bitfolgen nicht interessiert. Falls wir aber das Bild bearbeiten wollten, also beispielsweise die Größe ändern oder das Bild in Graustufen umwandeln, müssen wir die Bedeutung der Bits verstehen. Dabei helfen Bibliotheken zur Interpretation der Bits, für Bilder etwa die Pillow-Bibliothek, die wir hier aber (noch) nicht behandeln.

## Pathlib

Seit Python Version 3.4 gibt es eine objektorientierte Alternative beim Umgang mit Dateien und Verzeichnissen. Hier werden Pfade zu Dateien (bzw. Dateinamen) nicht durch Strings repräsentiert, sondern durch Objekte des Typs `Path`. Das erleichtert gewisse Dinge, hat aber eine steilere Lernkurve. Ich empfehle daher, sich erst gegen Ende dieses Kurses mit `pathlib` vertraut zu machen, was sich wirklich lohnt. Als Teaser hier nur die absoluten Basics. Sie können diesen Teil auch überspringen.

In [None]:
import pathlib

example_dir = pathlib.Path('example')
example_dir.is_dir()

Der Pfad existiert im Filesystem noch nicht, weil das Verzeichnis noch nicht angelegt wurde. Unser `path` Objekt hat also noch keine Entsprechung im Dateisystem. Erst wenn wir `path.mkdir()` aufrufen, wird der Pfad im Dateisystem angelegt.

In [None]:
example_dir.mkdir()

`Path`  Objekte unterstützen den "/" Operator um Pfade zusammen zu bauen. Dieser Operator funktioniert auch unter Windows. Erzeugen wir nun im durch `example_dir` repräsentierten Pfad einen neuen Pfad `foo.txt`:

In [None]:
foo_file = example_dir / "foo.txt"
foo_file

Natürlich kann man mit der Pathlib auch Dateien Lesen und schreiben. Wir schreiben einen kurzen Text in die Datei, die durch den Pfad `foo_file` referenziert wird:

In [None]:
# write text to file
foo_file.write_text("Das ist mein ganz persönliches File", encoding="utf-8")

Im Ordner `example` gibt es nun eine Datei `foo.txt`. Diese können wir wieder einlesen:

In [None]:

# read text from file
content =  foo_file.read_text(encoding="utf-8")
print(content)

`Path` Objekte können noch viel mehr, beispielsweise kann man ein Verzeichnis oder eine Datei umbenennen. `foo_file` hatte bisher den Namen `foo.txt`. Um die Datei umzubenennen, verwenden wir die `rename()`  Methode:

In [None]:
foo_file = foo_file.rename(example_dir / "bar.txt")

Wichtig: wir müssen hier `example_dir` mit angeben, sonst würde die Datei in den aktuellen Ordner verschoben.

Mit dem folgenden Code können Sie alle angelegte Beispieldatei und den Ordner wieder löschen.

In [None]:
foo_file.unlink()
example_dir.rmdir()

## Vertiefende Literatur
Ich empfehle ausdrücklich, mindestens eine der folgenden Ressourcen zur Vertiefung zu lesen!

  * Python Tutorial: Kapitel 7.2
	(https://docs.python.org/3/tutorial/inputoutput.html#reading-and-writing-files)
  * Klein, Kurs: Dateien lesen und schreiben (http://python-kurs.eu/python3_dateien.php)
  * Sweigart: https://automatetheboringstuff.com/2e/chapter9/
  
  
  * Klein, Buch: Kapitel 10
  * Kofler: Kapitel 14.
  * Inden: Kapitel 8.
  * Weigend: Kapitel 9.1 und 9.2
  * Briggs: Kapitel 10.2
  * Sweigart: Kapitel 8.
  * Pilgrim: Kapitel 11.1 bis 11.4
	(https://www.diveinto.org/python3/files.html)
  * Downey: Kapitel 14.1 bis 14.5
    (http://greenteapress.com/thinkpython/html/thinkpython015.html)
  * Dokumentation zur pathlib: https://docs.python.org/3/library/pathlib.html  

## Lizenz

This notebook ist part of the course [Grundlagen der Programmierung](https://github.com/gvasold/gdp) held by [Gunter Vasold](https://online.uni-graz.at/kfu_online/wbForschungsportal.cbShowPortal?pPersonNr=51488) at Graz University 2017&thinsp;ff. 

<p>
    It is licensed under <a href="https://creativecommons.org/licenses/by-nc-sa/4.0">CC BY-NC-SA 4.0</a>
</p>

<table>
    <tr>
    <td>
        <img style="height:22px" 
             src="https://mirrors.creativecommons.org/presskit/icons/cc.svg?ref=chooser-v1"/></li>
    </td>
    <td>
    <img style="height:22px;"
         src="https://mirrors.creativecommons.org/presskit/icons/by.svg?ref=chooser-v1" /></li>
    </td>
    <td>
        <img style="height:22px;"
         src="https://mirrors.creativecommons.org/presskit/icons/nc.svg?ref=chooser-v1" /></li>
    </td>
    <td>
        <img style="height:22px;"
             src="https://mirrors.creativecommons.org/presskit/icons/sa.svg?ref=chooser-v1" /></li>
    </td>
</tr>
</table>