## Dateien lesen und schreiben
### Dateien

<img class="imgright" src="../images/dateien2.webp" alt="Dateien" /> 

Man findet wohl kaum jemanden im 21. Jahrhundert, der nicht wüsste, was eine Datei ist. Auch wenn nicht jeder eine exakte Definition geben könnte, also beispielsweise: Eine Datei ist eine Menge von logisch zusammenhängenden und meist sequentiell geordneten Daten, die auf einem Speichermedium dauerhaft gespeichert werden und mittels eines Bezeichners bzw. Namens wieder identifizierbar und damit ansprechbar sind. Die Daten einer Datei existieren also über die Laufzeit eines Programms hinaus. Deswegen werden sie auch als nicht flüchtig oder persistent bezeichnet.

Auch wenn es so scheinen mag: Das Wort Datei ist kein altes deutsches Wort. Es ist eine künstliche Schöpfung des Deutschen Institutes für Normung (DIN). Die beiden Wörter Daten und Kartei wurden zu dem neuen Wort Datei verschmolzen. Ein solches Kunstwort wird übrigens als Portmanteau oder Kofferwort bezeichnet.

Der Inhalt jeder Datei besteht grundsätzlich aus einer eindimensionalen Aneinanderreihung von Bits, die normalerweise in Byte-Blöcken zusammengefasst interpretiert werden. Die Bytes erhalten erst durch Anwendungsprogramme und das Betriebssystem eine Bedeutung. Sie entscheiden also, ob es sich um eine Textdatei, ein ausführbares Programm oder beispielsweise ein Musikstück oder ein Bild handelt.

### Text aus einer Datei lesen

Unser erstes Beispiel zeigt, wie man Daten aus einer Datei ausliest. Um dies tun zu können, muss man zuerst die Datei zum Lesen öffnen. Dazu benötigt man die open()-Funktion. Mit der open-Funktion erzeugt man ein Dateiobjekt und liefert eine Referenz auf dieses Objekt als Ergebniswert zurück. Die open-Funktion erwartet zwei Parameter: Einen Dateinamen, gegebenenfalls mit einem Pfad, und optional kann man den Modus angeben:

<pre>
open(filename,mode)
</pre>
Im folgenden Beispiel öffnen wir die Datei "yellow_snow.txt" zum Lesen, da der Modus auf "r" (read) gesetzt ist:

<pre>
fobj = open("yellow_snow.txt", "r")
</pre>

Alternativ hätte man die obige Anweisung auch ohne die Angabe des "r" schreiben können. Fehlt der Modus, wird automatisch lesen zum Defaultwert:

<pre>
fobj = open("yellow_snow.txt")
</pre>
Nach der Bearbeitung einer Datei, muss diese wieder schlossen werden. Dies geschieht mit der Methode close:

<pre>
fobj.close()
</pre>

Sehr häufig bearbeitet man eine Datei zeilenweise, d.h. man liest eine Datei Zeile für Zeile. Das folgende Programmstück demonstriert, wie man eine Datei zeilenweise einliest. Jede Zeile wird dann mit print ausgegeben. Die String-Methode rstrip() entfernt vor der Ausgabe etwaige Leerzeichen und Newlines vom rechten Rand:

In [2]:
fobj = open("../../texts/yellow_snow.txt")
for line in fobj:
    print(line.rstrip()) #print macht von selber jede line in neue Zeile
fobj.close()

Dreamed I was an Eskimo
Frozen wind began to blow
Under my boots and around my toes
The frost that bit the ground below
It was a hundred degrees below zero...

And my mama cried
And my mama cried
Nanook, a-no-no
Nanook, a-no-no
Don't be a naughty Eskimo
Save your money, don't go to the show

Well I turned around and I said "Oh, oh" Oh
Well I turned around and I said "Oh, oh" Oh
Well I turned around and I said "Ho, Ho"
And the northern lights commenced to glow
And she said, with a tear in her eye
"Watch out where the huskies go, and don't you eat that yellow snow"
"Watch out where the huskies go, and don't you eat that yellow snow"


### Schreiben in eine Datei

Schreiben in eine Datei lässt sich analog bewerkstelligen. Beim Öffnen der Datei benutzt man lediglich "w" statt "r" als Modus. Zum Schreiben der Daten in die Datei benutzt man die Methode write des Dateiobjektes.
Beispiel:

In [14]:
fobj_in = open("../../texts/yellow_snow.txt")
fobj_out = open("../../texts/yellow_snow2.txt","w")
i = 1
for line in fobj_in:
    print(line.rstrip())
    fobj_out.write(str(i) + ": " + line)
    i = i + 1
fobj_in.close()
fobj_out.close()
fobj_test = open("../../texts/yellow_snow2.txt")
print("*"*100)
for line in fobj_test:
    print(line.rstrip())
fobj_test.close()

Dreamed I was an Eskimo
Frozen wind began to blow
Under my boots and around my toes
The frost that bit the ground below
It was a hundred degrees below zero...

And my mama cried
And my mama cried
Nanook, a-no-no
Nanook, a-no-no
Don't be a naughty Eskimo
Save your money, don't go to the show

Well I turned around and I said "Oh, oh" Oh
Well I turned around and I said "Oh, oh" Oh
Well I turned around and I said "Ho, Ho"
And the northern lights commenced to glow
And she said, with a tear in her eye
"Watch out where the huskies go, and don't you eat that yellow snow"
"Watch out where the huskies go, and don't you eat that yellow snow"
****************************************************************************************************
1: Dreamed I was an Eskimo
2: Frozen wind began to blow
3: Under my boots and around my toes
4: The frost that bit the ground below
5: It was a hundred degrees below zero...
6:
7: And my mama cried
8: And my mama cried
9: Nanook, a-no-no
10: Nanook, a-no-no
11

Es muss darauf geachtet werden, dass die Datei-Objekte immer mit close() ordnungsgemäß geschlossen werden. Man riskiert sonst, dass die Daten in der Datei nicht konsistent sind.
Oft begegnet man dem <b>with-Statement.</b> Dies hat den Vorteil, dass das im darauffolgenden Block verwendete Datei-Objekt automatisch geschlossen wird.

In [4]:
fobj_out=open("meine_datei.txt","w")
fobj_out.write("Meine erste Zeile ")
fobj_out.write("\n")
fobj_out.write("Meine zweite Zeile ")
fobj_out.close()


Warum muss man rstrip verwenden?

In [15]:
fobj_in = open("meine_datei.txt")
for line in fobj_in:
    print(line)
    #print(line.rstrip())
fobj_in.close()


Meine erste Zeile 

Meine zweite Zeile 


Der Zeilenumbruch kann natürlich auch im übergebenden String erfolgen.

In [16]:
with open("meine_datei.txt", "w") as fh:
    fh.write("To write or not to write\nthat is the question!\n")
with open("meine_datei.txt") as fh:
    for line in fh:
        print(line)

To write or not to write

that is the question!



Eine Sache ist noch zu beachten:
Was ist, wenn wir ein Datei-Objekt versehentlich zum Schreiben, also mit "w", öffnen, und die Datei existiert bereits? Wenn der Inhalt der Datei nicht wichtig ist, oder es eine Sicherungskopie gibt, dann haben Sie Glück. Ansonsten haben Sie ein Problem, denn sobald open(..., "w") ausgeführt wird, wird die bestehende Datei **gelöscht**. In einigen Fällen ist das so gewollt. Allerdings gibt es auch andere Anwendungsfälle, wie z.B. Log-Files, deren Inhalt einfach erweitert werden soll.
Um den Inhalt zu erweitern muss der Parameter "a" genutzt werden, statt "w".<br><br>
<b>In einem Rutsch lesen:</b>
Bis jetzt haben wir Dateien Zeile für Zeile mit Schleifen verarbeitet. Aber es kommt öfters vor, dass man eine Datei gerne in eine komplette Datenstruktur einlesen will, z.B. einen String oder eine Liste. Auf diese Art kann die Datei schnell wieder geschlossen werden und man arbeitet anschließend nur noch auf der Datenstruktur weiter:

In [6]:
Gedicht = open("../../texts/yellow_snow.txt").readlines()
print(Gedicht)


['Dreamed I was an Eskimo\n', 'Frozen wind began to blow\n', 'Under my boots and around my toes\n', 'The frost that bit the ground below\n', 'It was a hundred degrees below zero...\n', '\n', 'And my mama cried\n', 'And my mama cried\n', 'Nanook, a-no-no\n', 'Nanook, a-no-no\n', "Don't be a naughty Eskimo\n", "Save your money, don't go to the show\n", '\n', 'Well I turned around and I said "Oh, oh" Oh\n', 'Well I turned around and I said "Oh, oh" Oh\n', 'Well I turned around and I said "Ho, Ho"\n', 'And the northern lights commenced to glow\n', 'And she said, with a tear in her eye\n', '"Watch out where the huskies go, and don\'t you eat that yellow snow"\n', '"Watch out where the huskies go, and don\'t you eat that yellow snow" \n']


In [7]:
print(Gedicht[2])

Under my boots and around my toes



Im obigen Beispiel wurde das ganze Gedicht in eine Liste namens Gedicht geladen. Wir können nun beispielsweise die dritte Zeile mit Gedicht[2] ansprechen.

Eine andere angenehme Methode eine Datei einzulesen bietet die Methode read() von open. Mit dieser Methode kann man eine ganze Datei in einen String einlesen, wie wir im folgenden Beispiel zeigen: 

In [18]:
Gedicht = open("../../texts/yellow_snow.txt").read()
print(Gedicht)
print("-"*100)
print(Gedicht[16:34]) # beim Slicing zählen natürlich die Zeilenumbrüche am Ende jeder Zeile mit

Dreamed I was an Eskimo
Frozen wind began to blow
Under my boots and around my toes
The frost that bit the ground below
It was a hundred degrees below zero...

And my mama cried
And my mama cried
Nanook, a-no-no
Nanook, a-no-no
Don't be a naughty Eskimo
Save your money, don't go to the show

Well I turned around and I said "Oh, oh" Oh
Well I turned around and I said "Oh, oh" Oh
Well I turned around and I said "Ho, Ho"
And the northern lights commenced to glow
And she said, with a tear in her eye
"Watch out where the huskies go, and don't you eat that yellow snow"
"Watch out where the huskies go, and don't you eat that yellow snow" 

----------------------------------------------------------------------------------------------------
 Eskimo
Frozen win


In [53]:
type(Gedicht)

str

### Persistente Daten
Vermeidung von Datenverlust Im Folgenden geht es darum, Wege zu zeigen wie man Programmdaten über das Programmende oder den Programmabbruch hinaus speichern kann. Man bezeichnet dies in der Informatik als persistente Daten. Darunter versteht man, dass die Daten eines Programmes auch nach dem kontrollierten oder auch unvorhergesehenem Ende bei einem erneuten Programmstart wieder zur Verfügung stehen. Daten, die nur im Hauptspeicher des Computers existieren, werden als flüchtige oder transiente Daten bezeichnet, da sie bei einem erneuten Programmstart nicht mehr zur Verfügung stehen.

Zur Generierung von persistenten Daten gibt es verschiedene Möglichkeiten:

- Manuelle Speicherung in einer Datei.
<br>
    Nicht zu empfehlen, da man dann die komplette Serialisierung der Daten selbst vornehmen muss.
<br>
- marshal-Modul
<br>
    Ähnlich wie das pickle-Modul. Wir werden dieses Modul jedoch nicht behandeln, da allgemein aus verschiedenen Gründen empfohlen wird pickle zu verwenden.
<br>
- pickle-Modul
<br>
    Wir werden im folgenden näher auf dieses Modul eingehen.
<br>
- shelve-Modul
<br>
    Shelve baut auf pickle auf und bietet eine Dictionary-ähnliche Struktur! 
<br>

### Pickle-Modul

Beim Programmieren kommt es natürlich immer wieder mal vor, dass man in die Klemme gerät, aber bei Python ist das wahrscheinlich - hoffen wir - seltener als in anderen Sprachen der Fall. In die Klemme geraten heißt im Englischen "to get oneself into a pickle". Aber "to pickle" bedeutet eigentlich einlegen oder pökeln, z.B. saure Gurken. Aber was hat nun das Pökeln von sauren Gurken mit Python zu tun? Naja ganz einfach: Python hat ein Modul, was "pickle" heißt und mit dem kann man Python-Objekte gewissermaßen einlegen, um sie später, also in anderen Sitzungen oder anderen Programmläufen wieder zu benutzen. Aber jetzt wollen wir wieder seriös werden:
Mit dem Modul pickle (dt. einlegen) lassen sich Objekte serialisiert abspeichern und zwar so, dass sie später wieder deserialisiert werden können. Dazu dient die Methode dump, die in ihrer allgemeinen Syntax wie folgt aussieht:

<pre>
pickle.dump(obj, file[,protocol, *, fix_imports=True])
</pre> 

dump() schreibt eine gepickelte Darstellung des Objectes obj in das Dateiobjekt file.<br>
Meist genügt es pickle ohne die optionalen Argumente zu benutzen, ausser man muss alte Programme mit Python2 warten.
<br>
Das optionale Argument für das Protokollargument steuert die Art der Ausgabe:

    Protokollversion 0 ist die originale Ablageart von Python, d.h. vor Python3. Dabei handelt es sich um ein für Menschen lesbares Format. Dieser Modus ist abwärts kompatibel mit früheren Pythonversionen.
    Protokollversion 1 benutzt das alte Binärformat. Dieser Modus ist ebenfalls abwärts kompatibel mit früheren Pythonversionen.
    Protokollversion 2 wurde mit 2.3. eingeführt. Es stellt ein effizienteres "Pickling" zur Verfügung.
    Protokollversion 3 wurde mit Python 3.0 eingeführt. Dieser Modus bietet einen hervorragenden Bytes-Modus.
    Dateien, die in diesem Modus erzeugt werden, können nicht mehr in Python 2.x mit dem zugehörigen Pickle-Modul 
    bearbeitet werden. Es handelt sich hierbei um den von Python 3.x empfohlenen Modus. Er stellt auch den 
    <b>Defaultwert</b> dar. 


Wird der Parameter fix_imports auf True gesetzt und wird als Protokol ein Wert kleiner als 3 verwendet, versucht pickle die neuen Python3-Namen auf die alten Modulnamen, also die von Python2, abzubilden. Ziel ist es, dass dass die gepickelten Daten von Python2 gelesen werden können.


Ein einfaches Beispiel:

In [8]:
import pickle
staedte = ["Bern", "Basel","St. Gallen", "Zürich"]
fh = open("data.pkl","bw") # Achtung zum Schreiben bw
pickle.dump(staedte,fh)
fh.close()

Objekte, die mit pickle.dump() in eine Datei geschrieben worden sind, können mit der Pickle-Methode pickle.load(file) wieder eingelesen werden. pickle.load erkennt automatisch in welchem Format eine Datei erstellt worden ist. Die Datei data.pkl kann wieder in Python eingelesen werden. Dies kann in der gleichen Session oder dem gleichen Programm geschehen, aber meistens werden die Daten natürlich in einem erneuten Programmlauf oder in einem anderen Programm eingelesen. Wir zeigen die Funktionsweise des Einlesens im folgenden Beispiel:

In [9]:
import pickle
f = open("data.pkl","rb") #Achtung zum Lesen rb
staedte = pickle.load(f)
print(staedte)

['Bern', 'Basel', 'St. Gallen', 'Zürich']


Da nur die Objekte selbst und nicht ihre Namen gespeichert worden sind, müssen wir das Ergebnis von pickle.load() wieder einer Variablen, - wie in obigem Beispiel gezeigt, - zuweisen.

Es stellt sich die Frage, welche Art von Daten man eigentlich pickeln kann? Im Prinzip alles, was man sich vorstellen kann:

- Alle Python-Basistypen, wie Booleans, Integers, Floats, Komplexe Zahlen, Strings, Byte-Arrays und Byte-Objekte und natürlich None.
- Listen und Tupels, Mengen und Dictionaries
- Beliebige Kombinationen der beiden vorigen Gruppen
- Außerdem können auch Funktionen, Klassen und Instanzen unter gewissen Bedingungen gepickelt werden.
- file-Objekte lassen sich nicht pickeln.

In unserem Beispiel haben wir nur ein Objekt gepickelt, d.h. eine Liste von Städten. Wie sieht es aber aus, wenn wir mehrere Objekte gleichzeitig pickeln wollen? Ganz einfach: Man verpackt sie in ein Objekt, meistens ein Tupel. Im folgenden Beispiel benutzen wir zwei Listen "programmiersprachen" und "python_dialekte":

In [10]:
import pickle
fh = open("data.pkl","bw")
programmiersprachen = ["Python", "Perl", "C++", "Java", "Lisp"]
python_dialekte = ["Jython", "IronPython", "CPython"]
pickle_object = (programmiersprachen, python_dialekte)
pickle.dump(pickle_object,fh)
fh.close()

Obige gepickelte Datei können wir so einlesen, dass wir die beiden Listen wieder trennen können:

In [11]:
import pickle
f = open("data.pkl","rb")
(sprachen, dialekte) = pickle.load(f)
print(sprachen, dialekte)

['Python', 'Perl', 'C++', 'Java', 'Lisp'] ['Jython', 'IronPython', 'CPython']


### Übungen


Die Datei [cities_and_times.txt](https://www.python-kurs.eu/cities_and_times.txt) enthält Städtenamen und Zeiten. Jede Zeile enthält als ersten Eintrag den Namen einer Stadt, gefolgt von einem Wochentag und einer Zeitangabe in der Form hh:mm. Lesen Sie die Datei ein und erzeugen Sie eine Liste der Form

    [('Amsterdam', 'Sun', (8, 52)), ('Anchorage', 'Sat', (23, 52)), ('Ankara', 'Sun', (10, 52)), ('Athens', 'Sun', (9, 52)), ('Atlanta', 'Sun', (2, 52)), ('Auckland', 'Sun', (20, 52)), ('Barcelona', 'Sun', (8, 52)), ('Beirut', 'Sun', (9, 52)), 

    ...

     ('Toronto', 'Sun', (2, 52)), ('Vancouver', 'Sun', (0, 52)), ('Vienna', 'Sun', (8, 52)), ('Warsaw', 'Sun', (8, 52)), ('Washington DC', 'Sun', (2, 52)), ('Winnipeg', 'Sun', (1, 52)), ('Zurich', 'Sun', (8, 52))]
Dabei können Sie die Stringmethoden "string.split()" benutzen, die die Elemente des Strings an Leerzeichen trent und als Liste zurückgibt und "stringtrenner.join(Liste)" Elemente einer Liste mit dem stringtrenner zu einem String verbindet. Man muss beachten, dass z.B. Washington DC innerhalb der Stadtbezeichnung ein Leerzeichen aufweisst.

Anschließend soll die Liste zur späteren Benutzung mit Hilfe des Pickle-Modules abgespeichert werden. Wir werden diese Datei in unserem Kapitel über numpyNumpy dtype benutzen.



### Lösung

In [29]:
import pickle

lines = open("cities_and_times.txt").readlines()

#lines.sort() #sortiert die Listenelemente alphabetisch in place
#print(lines)
#print("\n\n")
cities = []
for line  in lines:
    *city, day, time = line.split() #*city z.B. wegen Washington DC
    hours, minutes = time.split(":")
    print((" ".join(city), day, (int(hours), int(minutes)) ))
    cities.append((" ".join(city), day, (int(hours), int(minutes)) ))

fh = open("cities_and_times.pkl", "bw")
pickle.dump(cities, fh)
#wieder einlesen
f = open("cities_and_times.pkl","rb")
the_list = pickle.load(f)
print(the_list)

('Chicago', 'Sun', (1, 52))
('Columbus', 'Sun', (2, 52))
('Riyadh', 'Sun', (10, 52))
('Copenhagen', 'Sun', (8, 52))
('Kuwait City', 'Sun', (10, 52))
('Rome', 'Sun', (8, 52))
('Dallas', 'Sun', (1, 52))
('Salt Lake City', 'Sun', (1, 52))
('San Francisco', 'Sun', (0, 52))
('Amsterdam', 'Sun', (8, 52))
('Denver', 'Sun', (1, 52))
('San Salvador', 'Sun', (1, 52))
('Detroit', 'Sun', (2, 52))
('Las Vegas', 'Sun', (0, 52))
('Santiago', 'Sun', (4, 52))
('Anchorage', 'Sat', (23, 52))
('Ankara', 'Sun', (10, 52))
('Lisbon', 'Sun', (7, 52))
('Sao Paulo', 'Sun', (5, 52))
('Dubai', 'Sun', (11, 52))
('London', 'Sun', (7, 52))
('Seattle', 'Sun', (0, 52))
('Dublin', 'Sun', (7, 52))
('Los Angeles', 'Sun', (0, 52))
('Athens', 'Sun', (9, 52))
('Edmonton', 'Sun', (1, 52))
('Madrid', 'Sun', (8, 52))
('Shanghai', 'Sun', (15, 52))
('Atlanta', 'Sun', (2, 52))
('Frankfurt', 'Sun', (8, 52))
('Singapore', 'Sun', (15, 52))
('Auckland', 'Sun', (20, 52))
('Halifax', 'Sun', (3, 52))
('Melbourne', 'Sun', (18, 52))
('Sto

Städtenamen können mehrere Wörter beinhalten. Aus diesem Grund verwenden wir ein Sternchen an der Stelle, an der eine Zeile aufgeteilt wird. Somit wird city zu einer Liste mit den Wörtern der Stadt. z.B. ["Salt“,"Lake","City"]. " ",join(city) verwandelt die Liste dann in den eigentlichen String. Hier: "Salt Lake City"