# Datenhaltung

In Programmen müssen regelmäßig Daten geladen und gespeichert werden. Dies geschieht in Computern in Dateien, welche in Verzeichnissen organisiert sind. In der letztem Abschnitt zu Paketen haben wir bereits einige Beispiele gesehen die mit Dateien arbeiten. Diese wollen wir nun detaillierter kennen lernen.

## Umgang mit Dateien

### Dateien lesen

Eine typische Aufgabe ist es Dateien zu laden. Hierfür bietet Python die `open()`-Funktion mit dem Kürzel `r` (read). Hierfür gibt man der `open()`-Funktion den Pfad der zu ladenden Datei an und auch den Datentyp der Datei also ob die Datei eine Textdatei ist `t` oder eine binäre Datei `b` ist.

Die `open()`-Funktion verwendet man meist im `with`-Konstrukt, welcher die Datei einer Variable zuordnet (`fi`) und die Datei nach Beendigung des Blocks auch automatisch schließt. Zum lesen des Inhalts der Datei nutzen wir die `read()` des Dateiobjektes.

In [1]:
with open("geometry/shapes/Line.py", "tr") as fi:
    dateinhalt=fi.read()
    print(f"Datentyp Datei {type(fi)}")
    print(f"Datentyp Variable {type(dateinhalt)}")
    print(dateinhalt)

Datentyp Datei <class '_io.TextIOWrapper'>
Datentyp Variable <class 'str'>
from geometry.points.ImmutablePoint import ImmutablePoint

class Line:
    def __init__(self, start: ImmutablePoint, end: ImmutablePoint):
        self.start = start
        self.end = end

    def length(self):
        return self.start.distance(self.end)


In gleicher Form kann man auch binäre Dateien einlesen. Dafür tauschen wir den Dateityp `t` mit binär aus `b` und laden die Datei. Wir sehen, dass jetzt der Datentyp der geladenen Dateinhalts zu `byte` wechselt. Printen wir den Dateinhalt sehen wir auch direkt die Sonderzeichen in der Datei wie `\r` und `\n` welche für den Zeilenumbruch stehen.

In [2]:
with open("geometry/shapes/Line.py", "br") as fi:
    dateinhalt=fi.read()
    print(f"Datentyp Datei {type(fi)}")
    print(f"Datentyp Variable {type(dateinhalt)}")
    print(dateinhalt)

Datentyp Datei <class '_io.BufferedReader'>
Datentyp Variable <class 'bytes'>
b'from geometry.points.ImmutablePoint import ImmutablePoint\r\n\r\nclass Line:\r\n    def __init__(self, start: ImmutablePoint, end: ImmutablePoint):\r\n        self.start = start\r\n        self.end = end\r\n\r\n    def length(self):\r\n        return self.start.distance(self.end)'


### Dateien schreiben

In gleicher Weise können wir mit der `open()`-Funktion auch neue Dateien erzeugen. Hierfür nutzen wir das Kürzel `w` (write). Auch hier werden Textdateien mit `t` und binäre Dateien mit `b` unterschieden. Zum Schreiben der Datei nutzen wir die `write()`-Methode des Dateiobjektes `fo`.

In [3]:
with open("meineDatei.txt", "tw") as fo:
    dateinhalt="Meine eigener Inhalt"
    fo.write(dateinhalt)

Zum überprüfen lesen wir die Datei wieder.

In [4]:
with open("meineDatei.txt", "tr") as fi:
    print(fi.read())

Meine eigener Inhalt


Wichtig zu wissen ist, dass die Datei vollständig überschrieben wird.

In [5]:
with open("meineDatei.txt", "tw") as fo:
    dateinhalt="Neuer Inhalt"
    fo.write(dateinhalt)

In [6]:
with open("meineDatei.txt", "tr") as fi:
    print(fi.read())

Neuer Inhalt


### Datei existenz testen

Häufig will man testen ob eine Datei bereits existiert und dementsprechend diese laden oder z.B. neu erzeugen. Solche und andere Funktionen bietet die Standardbibliothek `os` die wir bereits kennen gelernt haben.

In [7]:
if os.path.exists("meineDatei.txt"):
    print("Datei existiert")
else:
    print("Datei existiert noch nicht")

Datei existiert


### Dateien auflisten

Im letzten Abschitt haben wir bereits die Funktion `os.listdir` zum Auflisten aller Dateien in einem Verzeichnis kennen gelern. Wir können diese nun mit der `open`-Funktion verbinden, um z.B. alle Dateien zu laden und die Anzahl der Code-Zeilen zu berechnen. Dafür nutzen wir anstatt der `read`-Funktion die `readlines`-Funktion um alle Zeilen einzeln in einer Liste zu erhalten.

In [8]:
import os

folder = "geometry/shapes/"
codelines = 0
files = os.listdir(folder)
for count, filename in enumerate(files):
	with open(os.path.join(folder, filename), "tr") as fi:
		codelines += len(fi.readlines())

print(f"{codelines} Codezeilen in {len(files)} Dateien")

60 Codezeilen in 5 Dateien


### Dateien löschen

Die `os`-Paket bietet auch Funktionen, um Dateien zu löschen. Selbstverständlich sollte die mit Vorsicht verwendet werdet werden.

In [9]:
os.remove("meineDatei.txt")

## Typische textuelle Dateiformate

### txt-Dateien

Eine der einfachsten Formate um Texte auf dem Computer zu Speichern sind Text-Dateien. Sie haben meist die Dateiendung `.txt`. Diese Dateiänderung haben wir bereits oben genutzt.

### JSON-Dateien

Heutzutage werden strukturierte Informationen oft im `JSON`-Format ausgetauscht. Insbesondere viele APIs von Webserver im Internet nutzen diesen Standard. Er hat den Vorteil, dass die Daten durch den Menschen lesbar bleiben und somit auch vom Webdeveloper interpretiert werden können. Im Kern ähnelt der Standard der Darstellung von `dict` in Python.

Wir können zum Beispiel den Datensatz zu einer Person in dem folgendem dict speichern.

In [10]:
person={  
	"firstName": "John",
	"lastName": "Smith",
	"isAlive": True,
	"age": 25,
	"address": {
		"streetAddress": "21 2nd Street",
		"city": "New York",
		"state": "NY",
		"postalCode": "10021-3100" 
	},
 	"children": [ ],
	"spouse": None
}

Mit Hilfe des `json`-Pakets lässt sich dieser Datensatz jetzt einfach in ein `JSON` String umwandeln und in eine Datei schreiben.

In [11]:
import json

with open("person.json", "tw") as fo:
    json.dump(person, fo)

Schauen wir uns einmal die Datei an

In [12]:
with open("person.json", "tr") as fi:
    dateinhalt=fi.read()
    print(dateinhalt)

{"firstName": "John", "lastName": "Smith", "isAlive": true, "age": 25, "address": {"streetAddress": "21 2nd Street", "city": "New York", "state": "NY", "postalCode": "10021-3100"}, "children": [], "spouse": null}


Aus dieser Textdatei können wir jetzt unseren Datensatz direkt als `dict` wieder laden.

In [13]:
with open("person.json", "tr") as fi:
    person_geladen=json.load(fi)
    print(f"Datentyp {type(person_geladen)}")
    print(person_geladen)

Datentyp <class 'dict'>
{'firstName': 'John', 'lastName': 'Smith', 'isAlive': True, 'age': 25, 'address': {'streetAddress': '21 2nd Street', 'city': 'New York', 'state': 'NY', 'postalCode': '10021-3100'}, 'children': [], 'spouse': None}


In [14]:
# wir löschen die datei
os.remove("person.json")

### XML-Dateien

XML ist ein anderes sehr weit verbreitetes Dateiformat. Alle Webseiten im Internet nutzen z.B. dieses Format. Es ist älter als JSON und immer noch sehr beliebt, weil es erlaubt Schemata (XLS) zu definieren, gegen diese die Datei validiert werden kann. So kann man z.B. sicher stellen das HTML-Dateien korrekt sind.

Mit Hilfe der externen Pakete `dicttoxml` und `xmltodict` können XML-Dateien auch einfach geschrieben und gelesen werden.

In [15]:
import dicttoxml

with open("person.xml", "bw") as fo:
    fo.write(dicttoxml.dicttoxml(person, custom_root="person"))

In [16]:
with open("person.xml", "tr") as fi:
    dateinhalt=fi.read()
    print(dateinhalt)

<?xml version="1.0" encoding="UTF-8" ?><person><firstName type="str">John</firstName><lastName type="str">Smith</lastName><isAlive type="bool">true</isAlive><age type="int">25</age><address type="dict"><streetAddress type="str">21 2nd Street</streetAddress><city type="str">New York</city><state type="str">NY</state><postalCode type="str">10021-3100</postalCode></address><children type="list"></children><spouse type="null"></spouse></person>


In [17]:
import xmltodict

with open("person.xml", "tr") as fi:
    person_geladen=xmltodict.parse(fi.read())
    print(f"Datentyp {type(person_geladen)}")
    print(person_geladen)

Datentyp <class 'dict'>
{'person': {'firstName': {'@type': 'str', '#text': 'John'}, 'lastName': {'@type': 'str', '#text': 'Smith'}, 'isAlive': {'@type': 'bool', '#text': 'true'}, 'age': {'@type': 'int', '#text': '25'}, 'address': {'@type': 'dict', 'streetAddress': {'@type': 'str', '#text': '21 2nd Street'}, 'city': {'@type': 'str', '#text': 'New York'}, 'state': {'@type': 'str', '#text': 'NY'}, 'postalCode': {'@type': 'str', '#text': '10021-3100'}}, 'children': {'@type': 'list'}, 'spouse': {'@type': 'null'}}}


In [18]:
# wir löschen die datei
os.remove("person.xml")

### CSV-Dateien

Tabellen und Messwerte werden häufig als CSV-Dateien ausgetauscht. Dies ist ein sehr einfaches Format bei dem in der ersten Zeile der Text-Datei die Spaltennamen stehen und dann in jeder Zeile steht eine Reihe der Tabelle. Alle Werte werden durch Kommata `,` getrennt. Da das Komma im Deutschen als Dezimaltrennzeichen genutzt wird, wird hier häufig ein `;` oder Tabulator `\t` genutzt.

Zum Verarbeiten von Tabellen nutzt man in Python meist die `pandas`-Bibliothek. Wollen wir zum Beispiel den Datensatz zweier Personen speichern, so wandeln wir diesen zuerst in eine `pandas`-Tabelle (DataFrame) um.

In [23]:
leute=[
    {"FirstName":"John", "LastName":"Smith", "IsAlive":True, "Age":25},
    {"FirstName":"Mary", "LastName":"Sue", "IsAlive":True, "Age":30}
]

In [34]:
import pandas as pd

tabelle=pd.DataFrame(leute)
tabelle

Unnamed: 0,FirstName,LastName,IsAlive,Age
0,John,Smith,True,25
1,Mary,Sue,True,30


Diesen können wir jetzt als CSV-Datei speichern.

In [51]:
tabelle.to_csv("leute.csv", index=False) # index=False sorgt dafür dass die Zeilennummer weggelassen wird

Wir lesen probeweise die Datei wieder ein. Da sie text-basiert ist können wir `open()` mit `tr` nutzen.

In [52]:
with open("leute.csv", "tr") as fi:
    dateinhalt=fi.read()
    print(dateinhalt)

FirstName,LastName,IsAlive,Age
John,Smith,True,25
Mary,Sue,True,30



Wir können jetzt die CSV-Datei wieder in eine Tabelle laden.

In [53]:
tabelle_gelesen = pd.read_csv("leute.csv")
tabelle_gelesen

Unnamed: 0,FirstName,LastName,IsAlive,Age
0,John,Smith,True,25
1,Mary,Sue,True,30


und zu dem Dictionary zurückverwandeln

In [50]:
tabelle_gelesen.to_dict("records")

[{'FirstName': 'John', 'LastName': 'Smith', 'IsAlive': True, 'Age': 25},
 {'FirstName': 'Mary', 'LastName': 'Sue', 'IsAlive': True, 'Age': 30}]

In [54]:
# wir löschen die datei
os.remove("leute.csv")