# Strukturierte Daten speichern

Wir haben bisher verschiedenen Datenstrukturen verwendet, aber noch nicht darüber nachgedacht, wie man Daten strukturiert speichern kann.
Das einzige und sehr minimalistische Beispiel waren die Dateien mit den Vornamen, die so struktiert waren, dass jeder Name in einer eigenen Zeile stand.
In der Praxis braucht man jedoch häufig komplexer strukturierte Daten. Python (wie viele andere Programmiersprachen) bietet hier mehrere Möglichkeiten:

  * CSV
  * JSON
  * XML
  * Datenbanken
  * Pickle

Wir werden uns hier einige Möglichkeiten in sehr knapper Form ansehen. Für einige Themen werde ich eigene Notebooks breitstellen.

## CSV

CSV steht für **C**omma **S**eparated **V**alues. Damit ist ein textbasiertes Speicherformat gemeint, dass es erlaubt,
tabellarische Daten einfach und platzsparend in eine Datei zu speichern. In dieser Datei wird jeder Datensatz durch ein Zeile repräsentiert. Die einzenen Felder werden durch ein Komma (oder ein anderes Trennzeichen) voneinander getrennt.

Eine einfache CSV Datei könnte so aussehen:

```
Vorname,Zuname,Matrikelnummer,Note
Anna,Bauer,123456,1
Conrad,Dräger,13547,2
Elsa,Fischer,172456,2
```

Die erste Zeile mit den Spaltennamen kann auch fehlen, sie macht die Interpretation der Daten aber einfacher.

CSV ist ein ziemlich populäres Format. So können Sie beispielsweise Tabellen in Tabellenkalkulationsprogrammen wie Microsoft Excel einfach im CSV-Format speichern und CSV-Dateien auf einfache Art importieren. Dabei ist aber darauf zu achten, das z.B. in der deutschsprachigen Version von Excel das Komma als Dezimaltrennzeichen verwendet wird. Es empfiehlt sich hier also, statt des Kommas ein anderes Trennzeichen (z.B. ein Semikolon) zu verwenden und noch wichtiger: In Python alle Kommata durch Punkte ersetzen, damit sie korrekt als Float interpretiert werden können.

Auf den ersten Blick sieht es so aus, als ob man eine solche CSV-Datei relativ einfach selbst in eine
Datenstruktur wie eine Liste von Listen einlesen könnte. Doch seien Sie gewarnt: Es sieht einfacher aus, als es ist, weil es allerlei Spezialfälle zu beachten gibt. Daher besser eine fertige Bibliothek verwenden. In der Standard-Library gibt es das ``csv`` Modul; wenn Sie mit Pandas arbeiten, können sie die dort verfügbare ``read_csv()`` Funktion verwenden.

Lesen wir zuerst eine bestehende CSV Datei ein. Um diese in eine Python-Datenstruktur umzuwandeln, müssen wir ein CSV-Reader Objekt erzeugen, dem wir die Datei übergeben:

### Eine CSV Datei lesen

In [None]:
import csv


with open('data/cities.csv', encoding="utf-8") as fh:
    reader = csv.reader(fh)
    for row in reader:
        print(row)

Das Reader-Objekt stellt uns in einer Schleife einen Datensatz nach dem anderen bereit. Der Typ eines jeden Datensatzes ist eine Liste. Wir können daher auch gezielt auf einzelne Spalteneinträge zugreifen:

In [None]:
with open('data/cities.csv', encoding="utf-8") as fh:
    reader = csv.reader(fh)
    next(reader)  # skip the first row (labels)
    for row in reader:
        print(f"{row[0]} wurde {row[3]} zur Stadt.")

### Eine CSV Datei schreiben

Da CSV eine tabellenartige Struktur voraussetzt, benötigen wir in Python die Daten als Liste von Listen oder als Liste von Tupeln. Wir verwenden hier die Daten aus dem ersten minimalen Beispiel von oben:

In [None]:
fieldnames = "Vorname,Zuname,Matrikelnummer,Note".split(',')

data = [
    ("Anna","Bauer","123456",1),
    ("Conrad","Dräger","213547",2),
    ("Elsa","Fischer","172456",2)
]

with open('output/students.csv', 'w', encoding="utf-8") as fh:
    writer = csv.writer(fh)
    writer.writerow(fieldnames)
    writer.writerows(data)

Hinweis: Wenn Sie ``outpu/students.csv`` in Jupyter-Lab öffnen, sehen sie eine "benutzerfreundliche" Darstellung und nicht den reinen Text. Daher lassen wir uns den Dateiinhalt hier direkt ausgeben:

In [None]:
with open('output/students.csv', encoding="utf-8") as fh:
    text = fh.read()
print(text)

Das csv Modul hat noch einiges mehr zu bieten. Sehen Sie sich bei Bedarf das entsprechende Notebook in diesem Verzeichnis an!

## JSON

JSON ist ein populäres Format um verschachtelte oder baumförmige Daten in Textform abzulegen. Python stellt dazu in der Standard-Library das `json` Modul bereit. Mit diesem Modul können Sie auf enfache Weise Python-Dictionaries und Listen serialisieren. 

Da JSON im WWW und auch für andere Zwecke sehr populär ist, wird das Format von sehr vielen Programmsprachen unterstützt. Um die Implementierung einfach zu halten, ist die Zahl der erlaubten Datentypen sehr überschaubar. Folgende Python-Datentypen werden direkt unterstützt:

  * ``None`` wird in JSON zu ``null``
  * ``bool`` wird zu ``Boolean``. Hier ist zu beachten, dass ``True`` zu ``true`` wird und ``False`` zu ``false``
  * ``int`` und ``float`` werden zum Datentyp ``Number``
  * ``str`` wird ein ``String``. Zu beachten ist, dass in JSON nur doppelte Anführungszeichen zur Begrenzung
    von Strings erlaubt sind: ``"foo"``
  * ``list`` wird zu ``Array``
  * ``dict`` wird zu ``Object

Gut zu wissen: Die ``json`` Bibliothek kümmert sich selbst darum, dass die Datentypen und Werte beim Schreiben und Lesen korrekt umgewandelt werden.

### JSON erzeugen

Hier ein kleines Beispiel. Wir haben ein Dictionary, das wir ins JSON-Format umwandeln werden:

In [None]:
import json

data = {
    "name": "Otto",
    "age": 24,
    "avg_grade": 1.9,
    "title": None,
    "enrolled": True,
    "friends": ['André', 'Berta'],
    "address": {
        "street": "Am Gansbach 24",
        "place": "Entenhausen"
    }
}

json_str = json.dumps(data)
print(json_str)

Hier haben wir uns das Dictionary via ``dumps()`` in einen String umwandeln lassen. Wir sehen,
dass ``None`` zu ``null`` geworden ist, ``True`` zu ``true`` und dass alles Strings mit doppelten Anführungszeichen markiert sind, unabhängig davon ob wir im Dictionary einfache oder doppelte verwendet haben. Ebenfalls anzumerken ist, dass die JSON-Bibliothek aus der Standard Library standardmässig versucht, nur ASCII-Zeichen zu verwenden. Deshalb wurde das ``André`` in JSON zu ``Andr\u00e9``. Über den Parameter ``ensure_ascii`` können wir dieses Verhalten ändern:

In [None]:
json_str = json.dumps(data, ensure_ascii=False)
print(json_str)

Bei Bedarf können wir das JSON auch direkt in eine Datei schreiben ohne zuerst einen JSON-String erzeugen zu müssen:

In [None]:
with open('output/otto.json', 'w', encoding='utf-8') as fh:
    json.dump(data, fh, ensure_ascii=False)

Hinweis: Vermutlich sehen sie in Jupyter-Lab nicht die erzeugte Textdatei, sondern eine für menschliche Betrachter optimierte Darstellung. Wir lassen uns daher den Inhalt der Datei hier im Notebook ausgeben:

In [None]:
with open('output/otto.json', encoding="utf-8") as fh:
    text = fh.read()
text    

### JSON lesen

Die eben erzeugte Datei können wir ganz einfach wieder in ein Dictionary einlesen:

In [None]:
with open('output/otto.json') as fh:
    data = json.load(fh)
print(data)

Es ist wichtig zu verstehen, dass ``data`` kein String mehr ist, sondern wieder das originale Dictionary:

In [None]:
type(data)

Das bedeutet, dass wir gezielt auf einzelne Elemente zugreifen können:

In [None]:
print(data["name"])
print(data["friends"][0])
print(data["enrolled"])

JSON als Format hat gegenüber dem weiter unten vorstellten Pickle-Format einige Vorteile:

  1) Es ist standardisiert. So serialisierte Daten können von vielen Programmiersprachen verarbeitet werden. Sie können also z.B. mit Python Daten erzeugen, diese über ein Netzwerk übertragen und auf der anderen Seite mit JavaScript weiter verarbeiten.
  2) Es ist ein textbasiertes Format, das sehr einfach aufgebaut ist und daher auch direkt von Menschen lesebar ist.

## XML

XML ist ein Format, bei dem die Strukturinformation in Form von Tags in die eigentlichen Daten eingestreut werden. XML ist besonders für baumförmig organisierte Daten geeignet:

```
<brief id="1">
    <datum date="1902-04-11">Den elften April</datum>
    <anrede>Lieber Sohn!</anrede>
    <text>
       Danke für deinen netten Brief. Ich war gestern in Geschäften in <place>Radkersburg</place>.
    </text>
</brief>
```

In der Standard Library gibt es das XML Paket, das verschiedene Möglichkeiten anbietet, mit XML-Daten umzugehen. Besonders nützlich ist das ``xml.etree.ElementTree`` Modul, mit dem Sie relativ einfach auf bestimmte Elemente zugreifen oder auch neues XML erzeugen können. 

Falls die Möglichkeiten von etree nicht ausreichen, können Sie auf die nicht in der Standard Library enthaltene Bibliothek lxml (https://lxml.de/) zurückgreifen, deren API fast identisch mit der von etree ist.

Falls Sie fremdes XML verarbeiten müssen, sollten Sie aus Sicherheitsgründen einen Blick auf defusedxml (https://pypi.org/project/defusedxml/#defusedxml) werfen.

### Ein kleines Beispiel

Lesen wir zuerst eine XML-Datei ein. Um das folgende Beispiel nachvollziehen zu können, wäre es hilfreich, zwischendurch immer wieder einen Blick in die eingelesen Datei cities.xml zu werden.

In [None]:
from xml.etree import ElementTree as ET

tree = ET.parse("data/cities.xml")

Die Variable ``tree`` hat den Datentyp ``ElementTree`` und enthält eine Baumstruktur von ``Element`` Objekten. Wenn wir mit den Daten arbeiten wollen, brauchen wir eine Referenz auf das Wurzelelement des Baums:

In [None]:
root = tree.getroot()

``root`` ist also ein Objekt vom Typ 'Element'.  Jedes Element hat eine Eigenschaft 
``tag`` (das was zwischen den Spitzklammern steht), ``text`` (der Text des Elements) und ``attrib``, ein Dictionary
mit allen Attributen des Elements.  Um das zu verdeutlichen, erzeugen wir als eingeschobenes Beispiel ein möglichst einfaches XML, das nur aus einem ``Èlement`` ``foo``besteht:

In [None]:
el = ET.XML('<foo id="f1" name="Anton">Mein Name ist Anton</foo>')
print(el.tag)
print(el.text)
print(el.attrib)

Kehren wir nun zum ursprünglichen Beispiel mit den Städten zurück. Das WurzelElement (``root``) ist diesbezüglich nicht sehr interessant, weil es weder einen nützlichen Text noch Attribute hat. Wir lassen uns die drei Eigenschaften aber dennoch  ausgeben:

In [None]:
print(f"tag: {root.tag}")
print(f"text: {root.text}")
print(f"attrib: {root.attrib}")

Wir sehen also dass das Wurzelelement ein <data>-Tag ist. In der Ausgabe oben sehen wir auch, dass die Eigenschaft 'text' überraschenderweise sehr wohl belegt ist: Mit einem Zeilenumbruch, der sich daraus ergibt, dass ich die XML-Datei zur besseren Lesbarkeit mit Zeilenumbrüchen und Einrückungen versehen habe. Die Eigenschaft ``attrib`` ist ein leeres Dictionary, weil das Element keine Attribute trägt.

Lassen wir uns nun die unmittelbaren Kindelemente des Root-Elements ausgeben. Das sollten 9 Elemente mit dem Tag ``province`` sein. Zur Überprüfung lassen wir uns für jedes dieser unmittelbaren Kindelement den Tag und das Attribut ``name`` ausgeben:

In [None]:
for child in root:
    print(f"{child.tag}: {child.attrib['name']}")

Wieder eine Ebene tiefer existieren für jedes Bundesland die Bezirke des jeweiligen Bundeslandes als ``district`` Tags. Wenn wir nur an den Bezirken der Steiermark interessiert sind, können wir zuerst die Bundesländer auf "Steiermark" filtern und uns dann für dieses "Steiermark"-Element die Kindelement ausgeben lassen:

In [None]:
for child in root:
    if child.attrib["name"] == "Steiermark":
        for district in child:
            print(district.attrib["name"])

Eine bessere Lösung für solche Zugriffspfade ist die Verwendung eines XPath-Ausdrucks. Im nächsten Beispiel suchen wird nach allen Städten im Bezirk Liezen:

In [None]:
for city in root.findall("./province/district[@name='Liezen']/city"):
    # For extracting the population of 2023, we use a second xpath
    pop23 = city.find('./populationNumbers/pop2023')
    print(f"{city.attrib['name']}: {pop23.text}")

Natürlich kann man auch XML-Daten verändern, neue Daten hinzufügen und das Ergebnis wieder als XML speichern. Um etwa dem Bezirk Deutschlandsberg einen neues Ort hinzuzufügen, brauchen wir zuerst das Element für den Bezirk Deutschlandsberg:

In [None]:
dberg = root.find("./province/district[@name='Deutschlandsberg']")
# zur Überprüfung
print(dberg.attrib["name"])

Dann erzeugen wir ein neues Element (konkret: ein SubElement) als Kindelement von Deuschlandsberg:

In [None]:
newplace = ET.SubElement(dberg, 'city')

Dieses Element können wir nun bearbeiten:

In [None]:
newplace.attrib["name"] =  "Entenhausen"
since_element = ET.SubElement(newplace, 'citySince')
since_element.text = "1938"
numbers = ET.SubElement(newplace, 'populationNumbers')
pop01 = ET.SubElement(numbers, 'pop2001')
pop01.text = "118"
pop11 = ET.SubElement(numbers, 'pop2011')
pop11.text = "201"
pop23 = ET.SubElement(numbers, 'pop2023')
pop23.text = "177"

Grundsätzlich kann man, wenn alle benötigten Daten bereits verfügbar sind, das so vereinfachen:

In [None]:
gansbach = ET.XML('''<city name="Gansbach">
   <citySince>2023</citySince>
   <populationNumbers><pop2001>55</pop2001>
   <pop2011>53</pop2011>
   <pop2023>65</pop2023>
   </populationNumbers>
   </city>''')
dberg.append(gansbach)

Dann lassen wir uns das geänderte XML in die Datei ``output/cities.xml`` schreiben:

In [None]:
ET.indent(tree, space="\t", level=0)  # Make the output better readable for humans
tree.write('output/cities.xml', encoding="utf-8", xml_declaration=True)

## Pickle

Das Pickle-Modul ist eine sehr einfache Möglichkeiten, Objekte in einem Pyhon-spezifischen Binärformat abzuspeichern und dann wieder einzulesen. Im Normalfall sollte man das für ernsthafte Projekte eher nicht verwenden, weil 

 * das Format Python-spezifisch ist (d.h. es kann nur von Python Scripts sinnvoll gelesen werden)
 * das "Ent-Picklen" ein Sicherheitsrisiko darstellt.  Daher sollte man nur selbst erzeugte (d.h. keine fremden) Pickles einlesen.

Hier ein kleiners Beispiel:

In [None]:
import pickle

class Person:
    def __init__(self, name):
        self.name = name

data = {"foo": "bar", "size": 123, "members": [Person("A"), Person("B"), Person("C")]}
with open('output/data.pickle', 'wb') as fh:
    pickle.dump(data, fh)

Wie wir sehen, kann Pickle nicht nur mit den Standard-Datentypen umgehen, sondern auch mit selbst erfundenen Objekten, wie hier ``Person``.

Mit der ``dump()`` Funktion des ``pickle`` Moduls können wir beliebige Python-Objekte (auch verschachtelte wie in unserem Beispiel) serialisieren und speichern.

Das gespeicherte Pickle wieder einzulesen geht so:

In [None]:
with open('output/data.pickle', 'rb') as fh:
    new_data = pickle.load(fh)
print(new_data)
print(new_data["members"][0].name)

Im Normalfall ist JSON für solche Zwecke ein besseres Format. Allerdings unterstützt JSON nur einige wenige Datentypen. Man muss also gegebenfalls überlegen, wie man die Daten eines `Personen`-Objekts im JSON-Format ausrücken kann. Das wäre hier sehr einfach: ```{"name": "A"}```.

## Datenbanken

Python definiert eine generische Datenbank Schnittstelle (DB-API), an der sich alle Schnittstellen zu relationalen Datenbanken orientieren. Dadurch sollte sich die Arbeit mit unterschiedlichen Datenbanksystemen kaum unterscheiden. 

Im Python Package Index gibt es Bibliotheken für zahlreiche Datenbankmanagementsysteme. Man kann also von Python aus seine strukturierten Daten relativ einfach in solche Datenbanken speichern.

Python bringt aber selbst ein leistungsfähiges relationales Datenbanksystem mit, das für viele Anwendungsfälle ausreicht und häufig zum Entwickeln und Testen verwendet wird. Wenn Sie bereits ein wenig mit relationalen Datenbanksystem und SQL vertraut sind, sollten Sie sich mit dem `sqlite3` Modul der Standard Library vertraut machen, das wir in den folgenden Beispielen verwenden. Andere Datenbanken wie MySQL oder Postgresl lassen sich auf sehr ähnliche Weise ansprechen.

### Eine Datenbank erzeugen
Als kleines Beispiel legen wir eine Datenbank der schon bekannten Städte an. Sie soll in der Datei ``output/cities.db`` dauerhaft gespeichert werden.

Die benötigten (vorbereiteten) SQL-Anweisungen liegen in der Datei ``data/cities.sql``. Wir hätten die Datenbank natürlich auch schrttweise im Python Code erzeugen können, aber aus Zeitgründen verwenden wir das fertige SQL.

In [None]:
import os.path
import sqlite3


# if database does not exist, we will create it
if not os.path.exists('output/cities.db'):
    # read schema definition and data from an sql file
    with open('data/cities.sql', encoding="utf-8") as fh:
        sql = fh.read()

    # connect to a database
    con = sqlite3.connect("output/cities.db")
    cur = con.cursor()
    cur.executescript(sql)

### Die Datenbank abfragen

Danach können wir die Datenbank aus Python heraus abfragen. 

Wir können beispielsweise ermitteln, welche Städte weniger als 1000 Einwohner haben:

In [None]:
# Open the database connection
con = sqlite3.connect("output/cities.db")
# Create a cursor object for querying
cur = con.cursor()
# Execute the SQL statement
cur.execute("SELECT * from city WHERE population_2023 < 1000")
# read result row by row. Each row is a tuple containing the fields of a single data point
for row in cur.fetchall():
    print(row)

Bei Bedarf können wir natürlich auf einzelne Felder (d.h. Tupel-Elemente) gezielt zugreifen:

In [None]:
# Execute the SQL statement
cur.execute("SELECT * from city WHERE population_2023 < 1000")
# read result row by row. Each row is a tuple containing the fields of a single data point
for row in cur.fetchall():
    print(f"{row[1]} gegründet {row[2]} hatte 2023 {row[-2]} Einwohner.")

### Neue Einträge hinzufügen

Nun können wir normales SQL verwenden, um Daten hinzuzufügen:

In [None]:
cur.execute("""INSERT INTO city (name, since, population_2001, population_2011, population_2023, district_id)
               VALUES("Entenhausen", 2023, 0, 0, 1, 77)""")

Zur Überprüfung geben wir uns den neuen Datensatz aus:

In [None]:
cur.execute("SELECT * from city WHERE name =  'Entenhausen'")
# read result row by row. Each row is a tuple containing the fields of a single data point
print(cur.fetchone())

### Einen Eintrag ändern

Auch das Ändern von Daten geht über SQL:

In [None]:
cur.execute("UPDATE city SET population_2023=2 WHERE name='Entenhausen'")

Und wieder zur Kontrolle die Abfrage:

In [None]:
cur.execute("SELECT * from city WHERE name =  'Entenhausen'")
# read result row by row. Each row is a tuple containing the fields of a single data point
print(cur.fetchone())

### Datenbanken ohne SQL mit einem ORM

Falls Sie nicht direkt mit SQL arbeiten wollen, können Sie einen **Object Relational Mapper (ORM)** verwenden. Das sind Bibliotheken, die die Daten und Tabellen als Objekte bereit stellen. Sie brauchen dann nicht mehr SQL zu schreiben, sondern können über die Methoden dieser Objekte mit der Datenbank interagieren. Allerdings bleibt ihnen auch hier nicht erspart, den Umgang mit dem ORM zu erlernen. Die bekanntesten ORMs für Python sind:

  * SQLAlchemy (https://www.sqlalchemy.org/)
  * PeeWee (http://docs.peewee-orm.com/en/latest/)
  * Pony (https://ponyorm.org/)

## Vertiefende Literatur
Ich empfehle ausdrücklich, mindestens eine der folgenden Ressourcen zur Vertiefung zu lesen!

* CSV
    * https://docs.python.org/3/library/csv.html
* JSON
    * https://docs.python.org/3/library/json.html
    * https://www.json.org/json-en.html
* XML
    * https://docs.python.org/3/library/xml.html
    * https://docs.python.org/3/library/xml.etree.elementtree.html
    * https://lxml.de/
    * https://pypi.org/project/defusedxml/#defusedxml
* Datenbanken
    * https://docs.python.org/3/library/sqlite3.html
    * Die DB-API von Python ist hier definiert: https://peps.python.org/pep-0249/.
* Pickle
    * https://docs.python.org/3/library/pickle.html

## Lizenz

This notebook ist part of the course [Grundlagen der Programmierung](https://github.com/gvasold/gdp) held by [Gunter Vasold](https://online.uni-graz.at/kfu_online/wbForschungsportal.cbShowPortal?pPersonNr=51488) at Graz University 2017&thinsp;ff. 

<p>
    It is licensed under <a href="https://creativecommons.org/licenses/by-nc-sa/4.0">CC BY-NC-SA 4.0</a>
</p>

<table>
    <tr>
    <td>
        <img style="height:22px" 
             src="https://mirrors.creativecommons.org/presskit/icons/cc.svg?ref=chooser-v1"/></li>
    </td>
    <td>
    <img style="height:22px;"
         src="https://mirrors.creativecommons.org/presskit/icons/by.svg?ref=chooser-v1" /></li>
    </td>
    <td>
        <img style="height:22px;"
         src="https://mirrors.creativecommons.org/presskit/icons/nc.svg?ref=chooser-v1" /></li>
    </td>
    <td>
        <img style="height:22px;"
             src="https://mirrors.creativecommons.org/presskit/icons/sa.svg?ref=chooser-v1" /></li>
    </td>
</tr>
</table>