# Lektion 07: Daten einlesen und abspeichern

----

Ziele der Lektion:

 * Daten einlesen
 * [Daten abspeichern](#write)
 * [Daten anhängen](#append)
 
----

## 1. Daten einlesen

In dieser Lektion geht es hauptsächlich um das Einlesen von Textdateien. Neben den Textdateien gibt es noch sog. `binäre`-Dateien, die es dann ermöglichen, alle Bits- und Bytes direkt zu lesen und dann zu verarbeiten. 

Nehmen wir dazu ein Beispiel-Text:

In [2]:
!cat data/demo.txt

Dies ist ein Demo-Text. Der Inhalt spielt hier keine Rolle.

Wichtig ist, dass wir hier ein paar
Textzeilen haben, die einen
Inhalt vorspielen,
der gar nicht vorhanden ist!

Python beinhaltet eine wunderbare FILE-IO-Bibliothek, die es ermöglicht, auf Dateien (Files) zuzugreifen, was in den folgenden Schritten gezeigt werden soll:

### 1.1 Datei öffnen

Als ersten Schritt müssen wir die Datei öffnen. Dazu gibt es die Funktion `open(...)`, die genau 2 Argumente erfordert. Das erste Argument ist der Dateiname, der wie in allen Betriebssystemlagen ein einfacher Dateiname oder ein Name mit vorangehenden absoluten oder relativen Pfadangaben. Das zweite Argument ist ein String, der angibt, was man machen möchte. In dem aktuellen Fall soll die Datei zum `Lesen = Read` geöffnet werden, wir nutzen deswegen `r`. 

Die `with`-Anweisung wird hier genutzt, damit alle Datei-Operationen in einem abgeschotteten Block unternommen werden können. Sie führt die `open`-Funktion aus und in dem Anweisungsblock steht und die Datei als Variable `f` zur Verfügung:

In [4]:
with open('data/demo.txt', 'r') as f:
    pass # ein Platzhalter

**Wichtig:**
 * die Datei kann nur geöffnet werden, wenn Sie in diesem Fall da ist, also existiert! Versuchen Sie eine Datei zu öffnen, die nicht da ist, gibt es eine Fehlermeldung
 * die Variable `f` ist nur in dem `with`-Block gültig!

### 1.2 Lesen

Nachdem die Datei geöffnet wurde, kann man einzelne Zeilen lesen und verarbeiten, dafür gibt es zwei Ansätze:

In [10]:
with open('data/demo.txt', 'r') as f:
    for line in f:
        print(line)

Dies ist ein Demo-Text. Der Inhalt spielt hier keine Rolle.



Wichtig ist, dass wir hier ein paar

Textzeilen haben, die einen

Inhalt vorspielen,

der gar nicht vorhanden ist!


Sie können einmal mit einer `for`-Schleife über alle Zeilen iterieren (gehen) und die jeweilige Zeile in `line` speichern. Alternativ können Sie alle Zeilen
auf einmal in eine Liste einlesen und dann im zweiten Schritt kann man über die Zeilen iterieren:

In [11]:
with open('data/demo.txt', 'r') as f:
    lines = f.readlines()
    for line in lines:
        print(line)

Dies ist ein Demo-Text. Der Inhalt spielt hier keine Rolle.



  Wichtig ist, dass wir hier ein paar

Textzeilen haben, die einen

Inhalt vorspielen,

der gar nicht vorhanden ist!


Wenn Sie eine von beiden Alternativen ausprobieren, sehen Sie, dass die Ausgabe etwas `komisch` ist, dass statt einer Zeile immer 2 Zeilen ausgegeben werden. 

Das liegt daran, dass in der Text-Datei am Ende einer Zeile das sog. `Return`-Zeichen mit abgespeichert wird. Am Ende einer Datei kann dieses `Return` auch manchmal fehlen. 

Da man in der Regel dieses Zeichen nicht haben möchte, kann man vor der Ausgabe, den Zeilen-Inhalt ein wenig `bearbeiten`. Dafür nutzt man die `String`-Funktion `.rstrip()`:

In [12]:
with open('data/demo.txt', 'r') as f:
    for line in f:
        line = line.rstrip()
        print(line)

Dies ist ein Demo-Text. Der Inhalt spielt hier keine Rolle.

  Wichtig ist, dass wir hier ein paar
Textzeilen haben, die einen
Inhalt vorspielen,
der gar nicht vorhanden ist!


Wie man sieht, sind die Zeilen nun ohne `Return`-Zeichen abgespeichert. `.rstrip()` bedeutet, dass alle nicht Buchstaben, Zahlen, Satzzeichen usw. vom Ende her gelöscht werden, bis ein sinnvolles Zeichen die Zeile beendet! Es gibt dazu auch die Funktion `.lstrip()` für den Zeilenanfang, oder `.strip()` für Anfang und Ende:

In [13]:
with open('data/demo.txt', 'r') as f:
    for line in f:
        line = line.strip()
        print(line)

Dies ist ein Demo-Text. Der Inhalt spielt hier keine Rolle.

Wichtig ist, dass wir hier ein paar
Textzeilen haben, die einen
Inhalt vorspielen,
der gar nicht vorhanden ist!


Der Unterschied mit `.strip()` ist, das z.B. Leerzeichen am Zeilenanfang mit gelöscht werden! Also **vorsicht**, bitte die gewünschte `strip`-Funktion wählen.

### 1.3 Alternatives öffnen und schliessen

Die `with`-Anweisung hat viele Vorteile, so muss man sich keine Gedanken darüber machen, dass eine geöffnete Datei auch wieder geschlossen werden muss, da sonst u.U. Probleme mit dem OS geben könnte. Vor dem Einführen von `with` wurde das Einlesen wie folgt gemacht:

In [18]:
f = open('data/demo.txt', 'r')
for line in f:
    line = line.strip()
    print(line)
    
f.close()   # absolut notwendig!

Dies ist ein Demo-Text. Der Inhalt spielt hier keine Rolle.

Wichtig ist, dass wir hier ein paar
Textzeilen haben, die einen
Inhalt vorspielen,
der gar nicht vorhanden ist!


Sie sehen, das Ergebnis ist das Gleiche, aber es ist eine Zeile mehr Code!

----

## 2. <a id="write"></a> Daten abspeichern

Für das Speichern von Text-Dateien gibt es verschiedene Möglichkeiten.

### 2.1 print-Anweisung

Bisher haben wir für alle Ausgaben auf dem Bildschirm und in den Notebooks die `print(...)`-Anweisung benutzt. Vielfach unbekannt ist, dass man `print` auch benutzen kann, die Ausgabe in eine Datei zu schreiben.

Nehmen wir hier als Beispiel eine Liste mit `l` mit Wörtern, die wir normal mit `print` ausgeben:

In [19]:
l = ['Dies', 'ist', 'ein', 'komischer', 'Satz!']

for word in l:
    print(word)

Dies
ist
ein
komischer
Satz!


Im nächsten Schritt müssen wir eine Datei zum Schreiben öffnen. Dazu nutzen wir wieder die `with`-Umgebung, allerdings wird `open` nun beim zweiten Argument mit `w` genutzt. Die Datei, die Sie hier angeben muss nicht vorhanden sein, sie wird dann neu erstellt. Ist die Datei schon vorhanden, wird diese einfach ohne Meldung überschrieben:

In [22]:
l = ['Dies', 'ist', 'ein', 'komischer', 'Satz!']

with open('output.txt', 'w') as f:
    for word in l:
        print(word, file=f)

Hier wird nun die Datei `output.txt` zum Schreiben geöffnet und die `print`-Anweisung hat nun als letztes Argument, `file=f`, was andeutet, dass in die geöffnete mit `f` verknüpfte Datei geschrieben werden soll. Die Datei hat nun den gewünschten Inhalt:

In [23]:
!cat output.txt

Dies
ist
ein
komischer
Satz!


An dieser Stelle kann man natürlich auch den alternativen Weg ohne `with` gehen:

In [25]:
l = ['Dies', 'ist', 'ein', 'komischer', 'Satz!']

f = open('output.txt', 'w')
for word in l:
    print(word, file=f)
    
f.close() # nicht vergessen!

**Wichtig:**
 * hier wird das Vergessen von `f.close()` dazu führen, dass die Daten unter Umständen nicht vollständig geschrieben werden!

### 2.2 write-Anweisung

Neben der `print`-Anweisung kann man eine Funktion der Variablen `f` nutzen, damit man Zeilen in eine Datei schreibt:

In [27]:
l = ['Dies', 'ist', 'ein', 'komischer', 'Satz!']

with open('output.txt', 'w') as f:
    for word in l:
        f.write(word+'\n')

Dieses Beispiel schreibt die Wörter genauso wie `print` in die Datei `output.txt`. Bitte beachten Sie, dass `write` am Ende der Zeile kein `Return`-Zeichen anhängt, während `print` ohne weitere Angabe macht. Sie müssen dann bei jedem `write`-Befehl ein `'\n'` hinzufügen.

----

## 3. <a id="append"></a>Daten anhängen

Es gibt einige Situationen, wo man an bestehende Dateien, neue Daten anhängen will. Es entspricht in etwa der Unix/Linux-Ausgabenumlenkung `>>`.

Als Beispiel erzeugen wir erstmal eine Datei `anhang.txt`:

In [7]:
with open('anhang.txt','w') as f:
    print('Ein Text!', file=f)

In [8]:
!cat anhang.txt

Ein Text!


Nun öffnen wir die Datei `anhang.txt` wie vorher, statt `'w'` nutzen wir ein `'a'` für `append`:

In [9]:
with open('anhang.txt','a') as f:
    print('Ein neuer Text!', file=f)

In [10]:
!cat anhang.txt

Ein Text!
Ein neuer Text!


Wie man sieht, wurde nun die neue Zeile an die vorhandene Datei angehängt!

----

**Zusammenfassung**:
 * Dateien am Besten mit `with open(...) as f:` öffnen
 * zum Lesen `open` mit `'r'` nutzen
 * zum Schreiben `open` mit `'w'` nutzen
 * beim Lesen werden `Return`-Zeichen mitgelesen
 * beim Schreiben mit `write` müssen `Return`-Zeichen mitgeschrieben werden, bei `print`nicht