# Daten aus Dateien lesen und in Dateien schreiben<br><img width=800 src="Images/Files.png" />

In vielen Programmen kommt irgendwann der Punkt, wo wir entweder Daten aus einer Datei einlesen wollen, um sie zu bearbeiten, oder selber Daten abspeichern wollen, um nach Ablauf des momentanen Programms bei einem erneuten Programmablauf darauf zugreifen zu können. Wir wollen unsere Daten persistent machen. In diesem Kapitel wollen wir uns mit dem Umgang mit Textdateien beschäftigen, aber auch mit dem ```pickle```-Modul, welches Speichern und Einlesen von fast allen Objekttypen erlaubt.

<b>Zunächst zu Textdateien:</b><br>
Wir wollen zunächst den Einlesevorgang zeigen. Zunächst benötigt Python einen Zugang zu der zu bearbeitenden Datei. Dies geschieht über die ```open(Dateinamen,Zugriffsart)``` Funktion. Sie hat 2 Parameter, zum einen den Dateinamen der Zieldatei, zum anderen die Art des Zugriffs (z.B. Lesen, Schreiben, Anfügen.) <b>Beim Lesen verwenden wir das Kennzeichen "r" für "read", geschrieben wird mit "w" für "write". Wollen wir an eine Datei etwas anfügen, die bereits existiert, benötigen wir "a" für "append". Mit "w" wird die Datei nämlich komplett neu angelegt und bereits vorhandene Dateien mit diesem Namen damit gelöscht!</b><br>Mit der "open"-Funktion erzeugen wir dann einen Dateizugriff, einen "Dateihandler", dessen Bezeichner den üblichen Richtlinien folgt. Häufig wird dafür der Name "fobj" für "Fileobjekt" genommen. Wenn sich die Datei in dem Directory befindet, in dem auch das Programm abgespeichert ist, können wir als Dateinamen einfach den Filenamen einsetzen (muß eine Textdatei sein, ".txt" oder ".doc"...). Sonst müssen wir den Pfad zu der Datei angeben wie z.B. "C:/Users/Name/Datei.txt". Wir haben hier unsere Dateien im Directory "Data" abgelegt. Benutzen wir jetzt die Datei "Python_Philosophie.doc" zum Lesen. Sie enthält wichtige Ideen zur Philosophie von Python. Wir benutzen hier als Bezeichner des Filehandlers "to_read" um zu zeigen, daß "fobj" nur eine Vereinbarung ist. Wir lesen dann mit der Schleife Zeile für Zeile die Datei aus und drucken das Ergebnis.

In [None]:
to_read=open("Data/Python_Philosophie.doc","r")
for line in to_read:
    print(line)


Das ist schon mal gut, aber sehen wir uns das Ergebnis an und vergleichen mit der Datei in Data (File->Open->Data->Python_Philosophie.doc), stellen wir fest, daß beim Lesen immer eine Leerzeile eingefügt wurde. Dies liegt daran, daß in der Originaldatei in jeder Zeile am Ende der Befehl für eine neue Zeile steht "\n", der aber nicht sichtbar ist. Diesen müssen wir nicht miteinlesen, da ja unsere Schleife mit dem print() automatisch neue Zeilen nach jedem Lesen erstellt. Wir machen das mit der rstrip()-Funktion, die alle Leerzeichen und andere besondere Zeichen am Ende eines Strings abschneidet.

In [None]:
to_read=open("Data/Python_Philosophie.doc","r")
for line in to_read:
    print(line.rstrip())
to_read.close()

Wichtig ist nicht zu vergessen, nach dem Lese- oder Schreibvorgang den Filehandler mit ```close()``` zu schliessen. Vergessen wir dies und haben viele Dateioperationen, kann es zu einer großen unnötigen Belastung unseres Computers kommen, weil alle Filehandler offen gehalten werden, mit entsprechender Verlangsamung und unnötigen Speicherverbrauch.

Schreiben wir jetzt etwas in eine Datei. Wir Lesen unsere Datei wieder ein und bauen aus den Zeilen eine Liste auf. Dann geben wir jeder Zeile eine fortlaufende Nummer und Speichern das Ergebnis in "Python_test.txt" ab. Lesen wir das dann wieder ein, um zu kontrollieren, ob alles funktioniert hat. Zum Schreiben benötigen wir die ```write()``` Funktion.

In [None]:
fobj=open("Data/Python_Philosophie.doc","r")
lines,counter=[],0
for line in fobj:
    lines.append(str(counter)+" "+line)
    counter+=1
print(lines) 
fobj.close()
print(100*"=")

to_write=open("Data/Python_test.txt","w")
for line in lines:
    to_write.write(line)
to_write.close()


to_read=open("Data/Python_test.txt","r")
for line in to_read:
    print(line.rstrip())
to_read.close()

Es hat also funktioniert. Geben wir noch eine Weisheit hinzu und speichern dies ab. Wir benutzen "a", nehmen wir "w", findet sich in der Datei nur unser Spruch!!

In [None]:
fobj=open("Data/Python_Philosophie.doc","r")
lines,counter=[],0
for line in fobj:
    lines.append(str(counter)+" "+line)
    counter+=1

print(lines) 
fobj.close()
print(100*"=")


to_write=open("Data/Python_test.txt","a")    
to_write.write("\nUnsere Weisheit: Es schadet nicht, etwas zu wissen!")
to_write.close()


to_read=open("Data/Python_test.txt","r")
for line in to_read:
    print(line.rstrip())
to_read.close()

Um die Filehandler immer sicher zu schliessen, hat sich die Konstruktion mit ```with``` bewährt, die man sehr häufig sieht, damit wird der Filehandler automatisch geschlossen. "with" definiert einen Block (deshalb der :), ein Alias wird mit ```as``` definiert und dann im weiteren für den Filehandler verwendet. (Hier "fobj"). Nach Ende des Blocks wird der Filehandler automatisch geschlossen.

In [None]:
with open("Data/Python_Philosophie.doc","r") as fobj:
    for line in fobj:
        print(line.rstrip())
print("\n\nWeiter im Programm")

Manchmal wollen wir den Inhalt einer Textdatei komplett lesen, ohne sie vorher in Zeilen zu zerlegen. Hierfür gibt es die ```read()```-Funktion. Diese erzeugt aus der Datei einen einzelnen String, den wir mit allen String-Funktionen bearbeiten können, z.B. auch daraus Ausschneiden können, mit dem Teilbereichsoperator [start:ende:schrittweite].

In [None]:
with open("Data/Python_Philosophie.doc","r") as fobj:
    the_string = fobj.read()
    
print(the_string)
print(100*"=")
print(the_string[70:100])
print(100*"=")
print(the_string[70:100:2])

Mit ```readlines()``` können wir die Datei zeilenweise in eine Liste schreiben.

In [None]:
with open("Data/Python_Philosophie.doc","r") as fobj:
    the_list = fobj.readlines()
    
print(the_list)
print(100*"=")
print(the_list[3])
print(100*"=")
print(the_list[4][10:20])

So können wir auch eine Liste komplett zeilenweise in eine Textdatei schreiben mit ```writelines()```. Hier muß man allerdings den Zeilenumbruch in den Listenelementen selbst einsetzen und dann mit rstrip() beim Lesen wieder entfernen. Etwas merkwürdig!

In [None]:
with open("Data/demo.txt","w") as f:
    f.writelines(["Erste Zeilen\n", "Zweite Zeile"])
    
with open("Data/demo.txt","r") as f:
    for line in f:
        print(line.rstrip())




Nachdem wir hier mit Textdateien gearbeitet haben, jetzt zum pickle-Modul. Dies kann fast alle Objekte abspeichern und wieder einlesen.<br>
Es stellt sich die Frage, welche Art von Daten man eigentlich pickeln kann? Im Prinzip alles, was man sich vorstellen kann:

- Python-Basistypen, wie Booleans, Integers, Floats, Komplexe Zahlen
- Kombinierte Typen: Strings,Listen,Tupels, Mengen und Dictionaries
- Außerdem können auch Funktionen, Klassen und Instanzen unter gewissen Bedingungen gepickelt werden.<br>
File-Objekte lassen sich nicht pickeln.

Ein Beispiel, indem wir ein Dictionary und einen String pickeln. Nach import von pickle verwenden wir load() und dump() zum Lesen und Schreiben. Das Modul erkennt automatisch, um welchen Typ eines Objekts es sich handelt, es wird dann beim Lesen automatisch wieder passend hergestellt, obwohl beim Speichern die Objekte serialisiert sind und somit nicht direkt aus der Datei lesbar. Schauen wir uns gleich die Datei direkt an (File->Open->Data->pickle_beispiel) Sie ist nicht lesbar. Die Schreib- und Lesebezeichner sind anders: 
- Schreiben->"bw"
- Lesen->"rb"<br>
Auch die Funktionen zum Lesen und Schreiben lauten anders, wie oben gezeigt. Wir schreiben unsere zu pickelden Objekte als Tupel in die "dump" Funktion. Mit "load" holen wir sie dann zurück. Die Daten und der jeweilige Typ stimmen.

In [None]:
import pickle
my_dict = {'eins':1,'zwei':2,'dreieinhalb':3.5}
my_string = "Sehr praktisch Pickle!"
with open("Data/pickle_beispiel.pkl","bw") as fobj:
    
    
    pickle.dump((my_string,my_dict),fobj)
   


In [None]:
with open("Data/pickle_beispiel.pkl","rb") as fobj: 
    (my_string,my_dict) = pickle.load(fobj)
    
    
    print(my_string,type(my_string))
    print(my_dict,type(my_dict))

## Aufgabe <br>
Schreiben Sie ein Programm, was aus dem File "test_txt.txt" alle Wörter nach Häufigkeit bestimmt und in ein Dict mit Key:das entsprechende Wort und Value:Häufigkeit des Vorkommens einträgt. Hinweis verwandeln sie alle Wörter in Kleinschreibung. Sonderzeichen oder Satzzeichen sollen nicht erfasst werden. Auch ersetzen Sie bitte gleich nach dem Einlesen  ```(``` und ```)``` sowie ```"``` durch ```" "```.

In [None]:








##LÖSUNG
with open ("Data/test_txt.txt","r") as f:
    text = f.read()
#print(text)
text=text.replace("("," ")
text=text.replace(")"," ")
text=text.replace("\""," ")


text_list = text.split()
#print(text_list)
res_dict={}
for word in text_list:
    word = word.lower()
    for buchstabe in word[:]:
        
        if buchstabe not in "abcdefghijklmnopqrstuvwxyz-":            
            word=word.replace(buchstabe,"")
   
    res_dict[word] = res_dict.get(word,0) + 1 
print(res_dict)
     
        


Wir sortieren noch das Dict nach Werten. Was wir hier genau tun, lernen wir im Kapitel "Abstraktionen und und Generatoren".

In [None]:
def sort_fun(x):
    return x[1]
res_dict = {k: v for k, v in sorted(res_dict.items(),key =sort_fun,reverse = True)}
print(res_dict)

Worum geht es wohl im Text? Im nächsten Kapitel beschäftigen wir uns mit der Behandlung von Fehlern in Python.