
# Abstrakte Datenstrukturen

*erwarteter Zeitaufwand: ca. 5 Stunden*

<!-- markdown-toc start - Don't edit this section. Run M-x markdown-toc-generate-toc again -->
Inhalt:

- [Lernziele](#Lernziele)
- [Material](#Material)
    - [Hintergrund: Struktur des Hauptspeichers](#Hintergrund-Struktur-des-Hauptspeichers)
    - [Abstrakte Datenstrukturen](#Abstrakte-Datenstrukturen)
    - [Feld](#Feld)
    - [Verbund](#Verbund)
    - [Liste](#Liste)
    - [Baum](#Baum)
    - [Graph](#Graph)
    - [Assoziatives Feld / Dictionary](#Assoziatives-Feld--Dictionary)
    - [Implementierung von Datenstrukturen](#Implementierung-von-Datenstrukturen)
    - [Exkurs: Die Dateiformate XML, JSON und RDF](#Exkurs:-Die-Dateiformate-XML,-JSON-und-RDF)
    - [Exkurs: Relationale Datenbanken](#Exkurs:-Relationale-Datenbanken)
- [Aufgaben](#Aufgaben)
    - [Datenstrukturen in der realen Welt](#Datenstrukturen-in-der-realen-Welt)
    - [Implementierung von Datenstrukturen](#Implementierung-von-Datenstrukturen)
    - [Das Prinzip des Zeigers](#Das-Prinzip-des-Zeigers)

<!-- markdown-toc end -->


<div class="alert alert-info">

## Lernziele

- grundlegende Datenstrukturen kennen
- wissen, welche Datenstrukturen zur Repräsentation verschiedener
  Arten von Daten geeignet sind

</div>



## Material
*erwarteter Zeitaufwand: ca. 2 Stunden*

<div class="alert alert-warning">

In dieser Lerneinheit befassen wir uns mit *Datenstrukturen* und damit
einem Kernthema des Kurses. Datenstrukturen ermöglichen uns, Daten in
einer Form zu repräsentieren, die besser den Eigenheiten der
jeweiligen Daten entspricht. Beispielsweise möchten wir eine
Rastergrafik lieber als zweidimensionales Feld von Farbwerten
auffassen, als eine Folge von Zeilen (die wiederum eine Folge von
Farbwerten darstellen). Wir wir schon im Abschnitt [Repräsentation von
Text, Bild, Ton](Repraesentation_von_Text_Bild_Ton.ipynb) gesehen
haben, werden alle Daten im Rechner (sowohl im Haupt- als auch im
Massenspeicher) letztlich als Folge von Nullen und Einsen
gespeichert. Die Datenstrukturen, die wir uns anschauen werden, sind
daher *abstrakt*, weil Sie im Rechner nicht physisch existieren,
sondern eine entsprechende Interpretation der sequentiellen Binärdaten
voraussetzen.

Die Erkenntnisse aus dieser Lerneinheit ermöglichen uns, die Anordnung
von Daten zu verstehen und geeignete Strukturen für unterschiedliche
Arten von Daten auswählen zu können.

Die Lerneinheit enthält zwei kurze Exkurse, die Anknüpfungspunkte zu
anderen Kursen Ihres Studiums aufzeigen.

</div>





Bevor wir uns konkrete Beispiele für Datenstrukturen kennenlernen,
betrachten wir zunächst kurz den Aufbau des Hauptspeichers eines
typischen Computers.

### Hintergrund: Struktur des Hauptspeichers
<!--
- stets mit realweltlichen Beispielen starten
- Material aus IKT, evtl. gibt's Animationen/Abbildungen, die
  unterstützen können
-->

Jegliche Informationsverarbeitung im Computer findet im
*Hauptprozessor* und im *Hauptspeicher* statt. Vereinfacht betrachtet
besteht der Hauptspeicher aus *Speicherzellen*, die jeweils ein Byte
fassen und **linear angeordnet sind bzw. adressiert werden**:

![schematische Darstellung der Speicherzellen im Hauptspeicher](https://amor.cms.hu-berlin.de/~jaeschkr/teaching/damostin/speicherzellen.png)

Wir können jede einzelne Speicherzelle über ihre *Adresse* ansprechen
und den darin gespeicherten Wert *lesen* bzw. mit einem anderen Wert
*überschreiben* (speichern). Viel mehr ist im Wesentlichen nicht
möglich.  Insbesondere können wir zwischen zwei Zellen nicht einfach
einen Wert "einfügen" oder "entfernen" (höchstens mit einem anderen
Wert überschreiben).

Wenn wir also beispielsweise die dem Text "Comuter" entsprechende
Bytefolge in den Zellen 0 bis 6 gespeichert haben und das Wort zu
"Computer" ändern wollen, müssten wir entweder den Inhalt der
Speicherzellen 0 bis 7 mit der Bytefolge für "Computer" überschreiben
oder in den Zellen 3 bis 8 die Bytefolge für "puter" speichern.

Manchmal entspricht die lineare Anordnung recht gut den Daten, die wir
verarbeiten wollen:

*Texte können wir als Folge von Zeichen auffassen*

![Text in einem Buch](https://upload.wikimedia.org/wikipedia/commons/thumb/0/0a/Creatures_of_Impulse_-_book.jpg/444px-Creatures_of_Impulse_-_book.jpg)

*Temperaturverläufe können wir als Folge von Messwerten auffassen*

![Temperaturkurve](https://upload.wikimedia.org/wikipedia/commons/3/31/Lgm_temperature_curve_1.jpg)

*Audiosignale können wir als Folge von Tönen oder Messwerten auffassen*

![Audiosignal](https://upload.wikimedia.org/wikipedia/commons/4/4d/C_Envelope_follower.png)

**... und manchmal auch nicht:**

*Bilder sind zweidimensional*

![Bild eines
Schalters](https://upload.wikimedia.org/wikipedia/commons/thumb/e/e3/Mechanischer_Schalter_%28Schwarz%29.jpg/320px-Mechanischer_Schalter_%28Schwarz%29.jpg)

*Tabellen sind zweidimensional*

![Screenshot Excel](https://upload.wikimedia.org/wikipedia/commons/2/27/Excel_chart.PNG)

*Bäume ...*

![Tree of Life](https://upload.wikimedia.org/wikipedia/commons/thumb/e/ee/Phylogenetic_tree_scientific_names.svg/640px-Phylogenetic_tree_scientific_names.svg.png)

*... und Graphen haben eine komplexe Struktur, die nicht leicht zu
linearisieren ist*

![Beispielgraph](https://upload.wikimedia.org/wikipedia/commons/thumb/b/bc/CPT-Graphs-directed-weighted-ex1.svg/263px-CPT-Graphs-directed-weighted-ex1.svg.png)

### Abstrakte Datenstrukturen

Um solche Daten verarbeiten zu können, müssen wir sie auf die lineare
Struktur des Hauptspeichers *abbilden*. Wir möchten jedoch trotzdem
mit den Daten so umgehen, wie es jeweils am besten "passt" und sie uns
nicht jedesmal als Folge linear angeordneter Speicherzellen vorstellen
müssen. Für jede Art von Datenstruktur gibt es bestimmte
*Operationen*, die speziell für den Umgang mit ihr geeignet sind.

Beispielsweise können wir in der realen Welt einen Stuhlstapel als
eine Form von Daten- (oder eher Speicher-)Struktur auffassen:

![Stuhlstapel](https://amor.cms.hu-berlin.de/~jaeschkr/teaching/damostin/stacks_of_chairs.jpg)

Übliche Operationen sind beispielsweise:
1. den obersten Stuhl entnehmen
2. oben einen Stuhl hinzufügen
3. die Anzahl Stühle ermitteln
4. ...

Wir können jedoch nicht so einfach einen Stuhl in der Mitte entnehmen
oder hinzufügen (dafür müssten wir eine Folge der
Operationen 1. und 2. durchführen und zwischendurch einen temporären
zweiten Stuhlstapel erstellen).

Ein Stuhlstapel ist eine konkrete Instanz des *abstrakten Konzepts*
eines *Stapels*. Es gibt in der realen Welt weitere Arten von Stapeln
(Bücherstapel, Paketstapel, etc.) die alle die gleichen Operationen
unterstützen. 

Analog dazu befassen wir uns mit *abstrakten Datenstrukturen*, wie
z.B. Feldern, Listen und Bäumen, die jeweils eigene Operationen
unterstützen und für verschiedene Zwecke *instantiiert* werden
können. Beispielsweise können wir ein zweidimensionales Feld zum
Speichern der Werte einer Tabelle nutzen oder damit ein Bild
repräsentieren. 

Ein wichtiges Unterscheidungsmerkmal von Datenstrukturen ist ihr
zeitliches Verhalten: Die Struktur (!) *statischer* Datenstrukturen
kann im Gegensatz zu *dynamischen* Datenstrukturen nicht verändert
werden (wohl aber ihr Inhalt).


<div class="row" style="margin-top: 1em">
  <div class="col-xs-12 col-sm-6" style="padding-right:1em;">
    <a title="Yoshimasa Niwa from Tokyo, Japan / CC BY (https://creativecommons.org/licenses/by/2.0)" href="https://commons.wikimedia.org/wiki/File:Many_buttons_(4187599550).jpg"><img width="180" alt="Many buttons (4187599550)" src="https://upload.wikimedia.org/wikipedia/commons/thumb/2/2d/Many_buttons_%284187599550%29.jpg/180px-Many_buttons_%284187599550%29.jpg"></a>

Beispielsweise stellt in einem Aufzug die Tafel mit den Knöpfen zur
Wahl der Etage eine *statische* Datenstruktur dar: die Anordnung der
Knöpfe (und Etagen) lässt sich nicht verändern. Der "Inhalt" jedoch
schon: die Knöpfe der gewählten Etagen leuchten bei diesem Aufzug. 

  </div>
  <div class="col-xs-12 col-sm-6" style="padding-left:1em;">
    <img style="height:240px" title="Stuhlstapel" alt="Stuhlstapel" src="https://amor.cms.hu-berlin.de/~jaeschkr/teaching/damostin/stacks_of_chairs.jpg">

Dagegen stellt ein Stuhlstapel eine *dynamische* Datenstruktur dar,
denn die Struktur (Größe) des Stapels ist variabel: durch Hinzufügen
und Entfernen von Stühlen können wir ihn verändern.

</div>
</div>

Durch die lineare Organisation des Hauptspeichers ist die
Implementierung abstrakter Datenstrukturen oft nicht trivial. Sie
müssen auf gewisse Weise "simuliert" werden. Wie das funktioniert,
schauen wir uns kurz im Abschnitt [Implementierung von
Datenstrukturen](#Implementierung-von-Datenstrukturen) an. Zunächst
betrachten wir jedoch einige der üblichsten abstrakten
Datenstrukturen.


### Feld

Im Abschnitt [Elementare Datentypen](Elementare_Datentypen.ipynb)
haben wir uns schon mit einfachen Datentypen wie Ganzzahl oder
Gleitkommazahl befasst. Wenn wir mehrere Werte vom gleichen Typ (und
fester Anzahl) verarbeiten wollen – beispielsweise die Ergebnisse
einer Umfrage, ist ein *Feld* oft das Mittel der Wahl.

Ein Feld ("array") ist ein "rechteckiger" Block von Daten, so dass
alle Elemente vom gleichen Datentyp sind (z.B. eine Gleitkommazahl
oder ein Zeichen). Ein *eindimensionales* Feld kann als "Zeile" von
Elementen aufgefasst werden:


In [None]:
import numpy as np

a = np.array([3.1415926, 2.7182818, 1.6180339, 1.4142135])

print(a)


*(In Python werden Felder am besten mit der
[NumPy](https://numpy.org/)-Bibliothek unterstützt.)*

Jedes Element eines Feldes wird durch den *Index* identifiziert, eine
ganze Zahl, die die Position innerhalb des Feldes angibt und
typischerweise ab Null gezählt wird:


In [None]:
a[2] # der dritte (!) Wert des Feldes a


*(In Python und vielen anderen Programmiersprachen [hat das erste
Element den Index
0](https://en.wikipedia.org/wiki/Zero-based_numbering)!)*

*Zweidimensionale* Felder bestehen aus *Zeilen* und *Spalten*,


In [None]:
b = np.array([[2, 3, 5], [7, 11, 13]])
print(b)


so dass jedes Element des Feldes durch ein *Paar von Indizes*
identifiziert wird:


In [None]:
print(b[1, 2]) # zweite Zeile, dritte Spalte


Ein zweidimensionales Feld könnten wir beispielsweise nutzen, um die
monatlichen Ausleihzahlen verschiedener Zweigbibliotheken zu
verarbeiten:


In [None]:
ausleihen = np.array([
    [1097, 1575, 1349, 1918, 1463, 1746, 1232, 1526, 1559, 1908, 1020, 1823],
    [1269, 2338, 2429, 2192, 1657, 1736, 1523, 2187, 1835, 1666, 2361, 2023],
    [ 964,  979, 1451, 1055, 1370, 1057, 1319, 1351,  853, 1358, 1492,  849]
])
print(ausleihen)


Die Zeilen entsprächen den (drei) Zweigbibliotheken, die Spalten den
(zwölf) Monaten. Das Element `ausleihen[1, 4]` enthält die Anzahl der
Ausleihen (1657) in der zweiten Zweigbibliothek im Monat Mai:


In [None]:
ausleihen[1, 4]


NumPy bietet Funktionen, um beispielsweise die *Summe* über die Zeilen
(monatliche Ausleihen über alle Zweigbibliotheken)


In [None]:
np.sum(ausleihen, 0) # 0 = 1. Dimension (Zeilen) aufsummieren


oder den *Mittelwert* über alle Spalten (mittlere monatliche
Ausleihzahlen für jede Zweigbibliothek) zu berechnen:


In [None]:
np.mean(ausleihen, 1) # 1 = über 2. Dimension (Spalten) Mittelwert bilden


**Welche Operationen wären für Felder wünschenswert?** Neben
mathematischen Operationen gibt es grundlegende(re) Operationen, die
wir beispielsweise in der Hilfe des Python-eigenen Datentyps `array`
finden:


In [None]:
import array
help(array)


<div class="alert alert-success">

Lesen Sie in der Hilfe die Beschreibung der Funktionen `append`,
`count`, `extend`, `index` und `reverse` durch. Sie können dafür auch
die [Online-Hilfe](https://docs.python.org/3/library/array.html)
verwenden. Welche Funktionen hätten Sie noch erwartet bzw. fänden Sie
wünschenswert?

</div>




<p style="text-align:center; font-weight: bold;">Donald Knuth</p>

<a title="His books were kinda intimidating; rappelling down through his skylight seemed like the best option." href="https://xkcd.com/163/">
  <img alt="XKCD Comic: Donald Knuth" src="https://imgs.xkcd.com/comics/donald_knuth.png">
</a>

© Randall Munroe / [CC-BY-NC 2.5](http://creativecommons.org/licenses/by-nc/2.5/)



### Verbund

Oft wollen wir komplexer strukturierte Daten verarbeiten, in denen
jeder Datensatz aus mehreren Elementen mit ggf. unterschiedlichen
Typen besteht, beispielsweise Personaldaten oder Mediendaten.

Ein *Verbund* ("aggregate type", "record", "struct") stellt einen
Block von Daten dar, die unterschiedliche Typen und Größen haben
können:

```Python
person.name    = "Elise Mayer"
person.adresse = Adresse("Dorfstraße", 12, "01234", "Meindorf") 
person.tarif   = 13
```

Der Verbund in diesem Beispiel besteht aus drei *Feldern*, die jeweils
unterschiedliche Datentypen haben: `name` ist eine Zeichenkette,
`adresse` ist selbst ein Verbund namens `Adresse` und `tarif` ist eine
ganze Zahl. Auf die Felder eines Verbundes wird mit dem jeweiligen
*Feldnamen* zugegriffen: mit `person.name` können wir auf das Feld
`name` zugreifen. 

Python bietet mit seiner Unterstützung für objektorientiertes
Programmieren *Klassen* und *Objekte* (Instanzen von Klassen) an, die
eine ähnliche Funktionalität bereitstellen. Beispielsweise könnte eine
Klasse `Personal` für das Objekt `person` im obigen Beispiel
folgendermaßen definiert werden:


In [None]:
class Personal:
    def __init__(self, name, adresse, tarif):
        self.name = name
        self.adresse = adresse
        self.tarif = tarif


Und die verwendete Klasse `Adresse` für das Feld `adresse`
dementsprechend so:


In [None]:
class Adresse:
    def __init__(self, strasse, hausnummer, plz, ort):
        self.strasse = strasse
        self.hausnummer = hausnummer
        self.plz = plz
        self.ort = ort   


Damit können wir jetzt eine Variable (ein *Objekt*) vom Typ `Personal`
erzeugen:

In [None]:
person = Personal("Elise Mayer", Adresse("Dorfstraße", 12, "01234", "Meindorf"), 13)

und auf ein einzelnes Element lesend

In [None]:
person.name


oder verändernd


In [None]:
person.tarif = 14

zugreifen.

<div class="alert alert-success">

Erstellen Sie eine Klasse, um wesentliche Metadaten eines Buches zu
repräsentieren. Erstellen Sie dann für ein Beispielbuch ein Objekt
Ihrer Klasse. **Welche Operationen wären für Ihre Klasse
wünschenswert?**

</div>



### Liste
Listen repräsentieren eine Sammlung von sequentiell angeordneten
Einträgen und sind damit sehr universell: 
- eine Zeichenkette können wir als Liste von Zeichen interpretieren
- ein zweidimensionales Feld können wir auch als Liste von Zeilen
  interpretieren
- eine Melodie können wir als Liste von Tonhöhen interpretieren

Auf den ersten Blick ähneln sie damit eindimensionalen Feldern, aber
während jedes Element eines Feldes typischerweise den Wert eines
grundlegenden Datentyps (eine Zahl, ein Zeichen) enthält, kann ein
Listenelement selbst komplexere Daten enthalten. Beispielsweise könnte
ein Stimmzettel bei einer Wahl als Liste von Kandidat:innen aufgefasst
werden, wobei die Daten der Kandidat:innen jeweils als Verbund
(bestehend aus den Feldern Name, Vorname, Partei, Beruf, Adresse)
dargestellt werden könnten.

![Stimmzettel](https://upload.wikimedia.org/wikipedia/commons/thumb/7/7e/Bundestagswahl_05_stimmzett.jpg/315px-Bundestagswahl_05_stimmzett.jpg)


Im Unterschied zu Feldern sind Listen zudem *dynamische*
Datenstrukturen, können also verändert werden. 

In Python spielen Listen eine wichtige Rolle und können sehr einfach
angelegt werden:


In [None]:
neffen = ["Tick", "Trick", "Track"]


Wir zählen die Elemente der Liste einfach in eckigen Klammern auf und
können auf einzelne Elemente wie bei einem Feld zugreifen:


In [None]:
neffen[1]

Listen können auch Elemente unterschiedlichen Typs:

In [None]:
palindrome = ["lagerregal", 4554, "anna", 54321.12345]

und sogar weitere Listen enthalten:

In [None]:
[palindrome, neffen, Adresse("Dorotheenstraße", 26, "10117", "Berlin")]

Mit `append` können wir ein Element am Ende einer Liste hinzufügen:

In [None]:
palindrome.append("rentner")
superliste


**Welche weiteren Operationen wären für Listen wünschenswert?**


In [None]:
help(list)



<div class="alert alert-success">

Lesen Sie in der Hilfe die Beschreibung der Funktionen `append`,
`clear`, `count`, `extend`, `index`, `insert`, `pop`, `remove`,
`reverse` und `sort` durch. Sie können dafür auch die
[Online-Hilfe](https://docs.python.org/3/library/stdtypes.html#lists)
verwenden. Welche Funktionen hätten Sie noch erwartet bzw. fänden Sie
wünschenswert?

</div>



Durch die Einschränkung der Art und Weise, wie auf Elemente einer
Liste zugegriffen werden kann, erhalten wir zwei Spezialfälle:

#### Spezielle Listen I: Stapel

Wenn das Einfügen und Entfernen von Elementen nur am Listenanfang
("Kopf", "head") möglich ist, nennt man die Liste auch *Stapel* (oder
"Keller", im Englischen "Stack"). Der Stuhlstapel oder der
Bücherstapel sind entsprechende Beispiele aus der realen Welt, bei
denen keine anderen Operationen praktikabel sind. Das Einfügen wird im
Deutschen manchmal als "einkellern" (Englisch "push") und das
Entfernen als "auskellern" (Englisch: "pop") bezeichnet. Dabei wird
das *zuletzt* eingefügte Element stets *zuerst* entfernt, man spricht
daher auch von einem **LIFO** ("last-in, first-out"). 

![Operationen auf einem Stapel](https://upload.wikimedia.org/wikipedia/commons/thumb/2/29/Data_stack.svg/391px-Data_stack.svg.png)

Stapel sind ideal zur Speicherung von Daten geeignet, die in
umgekehrter Reihenfolge abgerufen werden sollen. Daher spielen sie in
der Informatik beispielsweise bei der Verarbeitung von
Klammerstrukturen oder der Ausführung von Unterprogrammen (Funktionen)
eine wichtige Rolle.

In Python gibt es keine spezielle Implementierung eines Stapels. Durch
Einschränkung der Operationen auf `append` für das Einkellern und
`pop` für das Auskellern kann eine Liste als Stapel verwendet werden:


In [None]:
stapel = []
stapel.append("Schrauben 1-4")
stapel.append("Gehäuse")
stapel.append("Batterie")
print(stapel) # Ausgabe: ['Schrauben 1-4', 'Gehäuse', 'Batterie']
stapel.pop()
print(stapel) # Ausgabe: ['Schrauben 1-4', 'Gehäuse']


#### Spezielle Listen II: Warteschlange

Das Gegenstück zum Stapel ist die *Warteschlange* ("queue"): das
Einfügen ("enqueue") von Elementen ist nur am Listenende ("tail" oder "back") und
das Entfernen ("dequeue") nur am Listenanfang ("head" oder "front") möglich. Ein Beispiel
aus der realen Welt ist die Warteschlange an der Theaterkasse, bei der
man sich am Ende anstellen sollte und die jeweils aktuelle Person am
Anfang bedient wird und dann die Schlange verlässt. Da das *zuerst*
eingefügte Element stets *zuerst* entfernt wird, spricht man auch von
einem **FIFO** ("first-in, first-out").

<!-- 
![Operationen auf einer Warteschlange](https://upload.wikimedia.org/wikipedia/commons/d/d3/Fifo_queue.png)

-->

![Operationen auf einer Warteschlange](https://upload.wikimedia.org/wikipedia/commons/a/a8/Queue_%28Computer_Science%29.svg)

Die Elemente werden also in der Reihenfolge abgerufen, in der sie auch
gespeichert wurden. Warteschlangen werden beispielsweise in der [Job
Queue](https://en.wikipedia.org/wiki/Job_queue) eines Betriebssystems
verwendet oder als
[Puffer](https://de.wikipedia.org/wiki/Puffer_(Informatik)) in der
Datenübertragung.

In Python gibt es ebenfalls keine Implementierung einer Warteschlange,
wir können aber leicht selbst eine Klasse `Queue` erstellen und
verwenden:


In [None]:
class Queue:
    def __init__(self):
        self.items = []
    def enqueue(self, item):
        self.items.insert(0, item)
    def dequeue(self):
        return self.items.pop()

warteschlange = Queue()
warteschlange.enqueue("Esel")
warteschlange.enqueue("Hund")
warteschlange.enqueue("Katze")
warteschlange.dequeue()
warteschlange.enqueue("Hahn")
warteschlange.items # Ausgabe: ['Hahn', 'Katze', 'Hund']


<p style="text-align:center; font-weight: bold;">2018 CVE List</p>

<a href="https://xkcd.com/1957/" title="CVE-2018-?????: It turns out Bruce Schneier is just two mischevious kids in a trenchcoat.">
  <img alt="XKCD Comic: 2018 CVE List" src="https://imgs.xkcd.com/comics/2018_cve_list.png">
</a>

© Randall Munroe / [CC-BY-NC 2.5](http://creativecommons.org/licenses/by-nc/2.5/)




### Baum

Ein Baum ist eine hierarchische Struktur aus *Knoten* ("nodes") und
*Kanten* ("edges"). Jeder Knoten außer dem *Wurzelknoten* ("Wurzel",
"root") hat genau einen *Vorgänger*. Knoten ohne Nachfolger heißen
*Blätter*. Beispielsweise werden Organigramme typischerweise in Form
eines Baumes dargestellt, mit der Direktorin oder der Firma an der
Spitze (der Wurzel):

<a title="Tabulating Machine Co., December 1917; Picture by Marcin Wichary / CC BY (https://creativecommons.org/licenses/by/2.5)" href="https://commons.wikimedia.org/wiki/File:Tabulating_Machine_Co_Organization_Chart.jpg"><img width="512" alt="Tabulating Machine Co Organization Chart" src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/88/Tabulating_Machine_Co_Organization_Chart.jpg/512px-Tabulating_Machine_Co_Organization_Chart.jpg"></a>

Bäume sind sehr wichtige abstrakte Datenstrukturen und werden überall
verwendet, wo eine hierarchische Anordnung der Daten gewünscht ist.
Beispielsweise beim [Domain Name
System](https://de.wikipedia.org/wiki/Domain_Name_System), bei
[Dateisystemen](https://de.wikipedia.org/wiki/Dateisystem), beim
[Parsen von (formalen)
Sprachen](https://de.wikipedia.org/wiki/Syntaxbaum) oder bei der
[Indexierung von Daten](https://en.wikipedia.org/wiki/Search_tree).


Für Python gibt es verschiedene Baum-Implementierungen, beispielsweise
[anytree](https://pypi.python.org/pypi/anytree) oder als Teil von
[NetworkX](https://networkx.github.io/documentation/stable/reference/algorithms/tree.html).
Falls Sie die passenden Bibliotheken und Programme installiert haben,
zeichnet der folgende Code einen kleinen Baum:


In [None]:
import networkx as nx
from networkx.drawing.nx_agraph import graphviz_layout
import matplotlib.pyplot as plt
G = nx.DiGraph()

G.add_node("Wurzel")

for i in range(3):
    G.add_node("Kind_%i" % i)
    G.add_node("Kindeskind_%i" % i)

    G.add_edge("Wurzel", "Kind_%i" % i)
    G.add_edge("Kind_%i" % i, "Kindeskind_%i" % i)

pos = graphviz_layout(G, prog='dot')
nx.draw(G, pos, with_labels=True, arrows=False)


**Welche Operationen wären für Bäume wünschenswert?** Neben dem
*Hinzufügen* und *Entfernen* von Knoten und Kanten sind Operationen
zum *Traversieren* (Durchlaufen) von und *Suchen* in Bäumen
interessant sowie zum Berechnen verschiedener Eigenschaften
(z.B. *Breite* und *Tiefe* des Baumes). Einige davon werden wir in der
nächsten Lerneinheit [Operationen auf
Datenstrukturen](Operationen_auf_Datenstrukturen.ipynb) kennenlernen.




<p style="text-align:center; font-weight: bold;">Tree</p>

<a href="https://xkcd.com/835/" title="Not only is that terrible in general, but you just KNOW Billy's going to open the root present first, and then everyone will have to wait while the heap is rebuilt.">
  <img alt="XKCD Comic: Tree" src="https://imgs.xkcd.com/comics/tree.png">
</a>

© Randall Munroe / [CC-BY-NC 2.5](http://creativecommons.org/licenses/by-nc/2.5/)



### Graph

Bäume sind spezielle *Graphen*: bei Graphen dürfen Knoten beliebig
miteinander verknüpft werden.

Beispiele für Graphen, die *keine* Bäume sind: 

<div class="row" style="margin-top: 1em">
  <div class="col-xs-12 col-sm-6" style="padding-right:1em;">

![kein
Baum](https://upload.wikimedia.org/wikipedia/commons/thumb/1/1c/Directed_graph%2C_cyclic.svg/320px-Directed_graph%2C_cyclic.svg.png)

Dies ist kein Baum, denn es gibt einen Zyklus von B nach C nach D nach
E und wieder B (B hat zwei Vorgänger).

  </div>
  <div class="col-xs-12 col-sm-6" style="padding-left:1em;">

![kein
Baum](https://upload.wikimedia.org/wikipedia/commons/thumb/a/a3/Directed_graph_with_branching_SVG.svg/184px-Directed_graph_with_branching_SVG.svg.png)

Dies ist ebenfalls kein Baum, denn der Knoten 4 hat ebenfalls zwei
Vorgänger.

</div>
</div>

Viele Arten von Daten und Problemen lassen sich mittels Graphen
darstellen bzw. lösen, beispielsweise:
- das [Internet](https://en.wikipedia.org/wiki/Internet) mit den
  Rechnern als Knoten und den Verbindungen zwischen ihnen als Kanten,
- das [World Wide Web](https://en.wikipedia.org/wiki/World_Wide_Web)
  mit den Webseiten als Knoten und den Hyperlinks als Kanten,
- [Verkehrsnetze](https://en.wikipedia.org/wiki/Transport_network) mit
  Orten, Kreuzungen und Umsteigepunkten als Knoten und den
  Verkehrswegen als Kanten oder
- das
  [Entity-Relationship-Model](https://en.wikipedia.org/wiki/Entity%E2%80%93relationship_model)
  mit den Entitäten als Knoten und den Beziehungen als Kanten.

![ER-Modell einer Universität](https://amor.cms.hu-berlin.de/~jaeschkr/teaching/damostin/er.png)


In Python ist [NetworkX](https://networkx.github.io/) eine sehr
umfangreiche und mächtige Bibliothek zum Umgang mit Graphen.


**Welche Operationen wären für Bäume wünschenswert?** Neben den
Operationen, die für Bäume genannt wurden, spielen Verfahren zum
Berechnen *kürzester Wege* oder *zentraler Knoten* sowie zum
*Clustern* eine wichtige Rolle.

### Assoziatives Feld / Dictionary

Wenn wir beispielsweise für eine unbekannte Menge von Wörtern die
Auftretens-Häufigkeiten zählen wollen, so benötigen wir dafür eine
geeignete Datenstruktur. Diese sollte uns ermöglichen, für jedes
gerade verarbeitete Wort die Häufigkeit um eins zu erhöhen. Wir
benötigen also die Möglichkeit, einem beliebigen *Schlüssel* (hier:
einem Wort) einen beliebigen *Wert* (hier: die Häufigkeit)
zuzuweisen. Die bisher behandelten Datenstrukturen sind dafür nicht
geeignet. Eine speziell dafür entwickelte Datenstruktur sind
*assoziative Felder* ("associative array", "dictionaries" oder
"maps").

Assoziative Felder werden beispielsweise zur
[Datenrepräsentation](https://en.wikipedia.org/wiki/JSON), zur
[Indexierung in
Datenbanken](https://en.wikipedia.org/wiki/Index_(database)) oder zur
[Beschleunigung von Berechnungen mit Hilfe von Zwischenspeichern
(Caches)](https://en.wikipedia.org/wiki/Cache_(computing)) verwendet.

In Python können wir mit Hilfe der geschweiften Klammern ein
assoziatives Feld ("dict" genannt) anlegen und mit
Schlüssel-Wert-Paaren befüllen:


In [None]:
geburtstage = {
    "Ada"    : "10.12.1815",
    "Bertha" : "09.06.1843",
    "Clara"  : "05.06.1857",
    "Donald" : "10.01.1938"
}


Auf einzelne Elemente können wir mit Hilfe ihres Schlüssels zugreifen:


In [None]:
geburtstage["Bertha"]

Ebenso können wir dadurch Werte für einen Schlüssel ändern oder hinzufügen:

In [None]:
geburtstage["Douglas"] = "11.03.1952"
geburtstage


Mit Hilfe von `del` können wir ein Schlüssel-Wert entfernen:

In [None]:
del geburtstage["Donald"]
geburtstage

Der nachfolgende Python-Code implementiert das eingangs genannte
Beispiel zum Zählen von Wörtern mit Hilfe eines assoziativen Feldes:


In [None]:
import urllib.request

# Text herunterladen
text = urllib.request.urlopen("https://dracor.org/api/corpora/ger/play/goethe-faust-eine-tragoedie/spoken-text").read().decode('utf-8')

woerter = {}                 # zählt Worthäufigkeiten
for wort in text.split():    # Text wortweise durchlaufen
    if wort not in woerter:  # neues Wort gefunden?
        woerter[wort] = 1    # initialisieren
    else:                    # bekanntes Wort gefunden
        woerter[wort] += 1   # Häufigkeit erhöhen

# Sortieren
sortiert = sorted(woerter.items(), key=lambda item: item[1])

# die häufigsten zehn Wörter ausgeben
for i in range(10):
    print(sortiert.pop())


**Welche Operationen wären für Felder wünschenswert?** Die
wesentlichen und wichtigsten Operationen sind – wie oben gesehen – das
*Suchen*, *Hinzufügen*, *Ändern* und *Löschen* von Einträgen. Python
implementiert auch kaum weitere Operationen:

In [None]:
help(dict)


### Implementierung von Datenstrukturen

#### Felder

Felder lassen sich gut auf die Struktur des Hauptspeichers abbilden –
ein eindimensionales Feld belegt einfach eine Folge von
Speicherzellen. Für zweidimensionale Felder sind zwei Anordnungen
üblich:

![Speicheranordnung eines zweidimensionalen Feldes im
Hauptspeicher](https://upload.wikimedia.org/wikipedia/commons/2/25/Speicheranordnung_Feld.svg)

Das Feld wird also Zeilen- oder Spaltenweise auf die lineare Folge von
Speicherzellen abgebildet. Ähnlich wird bei mehrdimensionalen Feldern
verfahren. 

Durch die einfache Abbildbarkeit auf den Hauptspeicher sind Felder
sehr effizient und dadurch eine häufig verwendete Datenstruktur.

Allerdings sind sie nicht sehr flexibel: Wie wir eingangs gesehen
haben, ist das Einfügen von Elementen nicht möglich. Felder können
unter Umständen am Ende erweitert werden, wenn der entsprechende
Hauptspeicher nicht schon anderweitig verwendet wird. Felder sind
daher im Allgemeinen *statische* Datenstrukturen.

Manche (vor allem interpretierte) Programmiersprachen wie auch Python
ermöglichen es, die Größe von Feldern zu verändern und auch Elemente
zu entfernen:


In [None]:
import array

help(array.ArrayType.pop)

bzw. einzufügen:

In [None]:
parr = array.array("B", [1, 2, 3])  # ein Feld mit drei ganzen Zahlen
print(parr)
parr.append(4)                      # ein Element hinzufügen
print(parr)


Die Felder verhalten sich dadurch wie eine *dynamische*
Datenstruktur. Meist wird dies durch "Tricks" im Hintergrund
ermöglicht, beispielsweise indem das Feld kopiert wird. Darunter
leidet zwar die Effizienz, aber in der Praxis fällt das oft nicht auf,
weil die betreffenden Felder klein und die Rechner schnell
sind. Benötigt man wirklich die Effizienz von Feldern (z.B. bei
umfangreichen Berechnungen oder im Umgang mit sehr großen Daten), dann
sollte man sich dessen bewusst sein, auf dynamische Felder verzichten
oder die benötigte Funktionalität selbst implementieren.
#### Listen

Eine *statische* Liste mit Elementen fester Größe kann ähnlich einem
Feld implementiert werden: für eine Liste mit $n$ Elementen der Größe
$k$ Bytes werden $n\cdot k$ Bytes im Hauptspeicher reserviert. Alle
$k$ Bytes beginnt dann ein neues Element.

Spannender (und flexibler) sind *dynamische* Listen. Diese werden
typischerweise als *verkettete Listen* ([linked
lists](https://en.wikipedia.org/wiki/Linked_list)) implementiert.
Dabei enthält jedes Element einen Verweis ("Zeiger", "Pointer") auf
das nachfolgende Listenelement. Das letzte Element der Liste enthält
statt eines Verweises (oder verweist auf) einen speziellen
"Nichts"-Wert (z.B. `None` in Python oder `NULL` in C).

![Beispiel einer verketten
Liste](https://upload.wikimedia.org/wikipedia/commons/6/6d/Singly-linked-list.svg)

Die Abbildung skizziert eine verkettete Liste mit drei
Elementen. Jedes Element enthält einen Zahlenwert und einen Verweis
auf das Nachfolgelement. In diesem Beispiel verweist das letzte
Element auf ein spezielles Schlusselement.

Der Vorteil dieses Verfahrens ist, dass durch Verändern der Verweise
die Struktur der Liste leicht verändert werden kann. Beispielsweise
lässt sich ein Element leicht zwischen zwei Elementen einfügen:

![Element einfügen](https://upload.wikimedia.org/wikipedia/commons/4/4b/CPT-LinkedLists-addingnode.svg)

Dafür muss lediglich Speicherplatz für das neue Element (hier: 37)
reserviert werden und der Verweis an der Einfügestelle (hier: zwischen
12 und 99) so verändert werden, dass er auf das neue Element (hier:
37) zeigt. Das Element selbst muss dann auf das ursprünglich nächste
Element (hier: 99) verweisen. Dieses Prinzip ist so universell, dass
anstelle eines Elementes auch beliebig viele Elemente oder gar eine
ganze andere Liste zwischen zwei Elementen eingefügt werden kann (in
letzterem Fall müsste im Beispiel das Element 12 dann auf den Anfang
der einzufügenden Liste verweisen und das Ende der einzufügenden Liste
auf das Element 99). Zudem können die einzelnen Elemente an beliebigen
Stellen im Hauptspeicher verteilt liegen.

Ebenso einfach lässt sich ein Element entfernen:

![Element
entfernen](https://upload.wikimedia.org/wikipedia/commons/d/d4/CPT-LinkedLists-deletingnode.svg)


<p style="text-align:center; font-weight: bold;">Forgetting</p>

<a title="Of course, the assert doesn't work." href="https://xkcd.com/379/">
  <img alt="XKCD Comic: Forgetting" src="https://imgs.xkcd.com/comics/forgetting.png">
</a>

© Randall Munroe / [CC-BY-NC 2.5](http://creativecommons.org/licenses/by-nc/2.5/)


#### assoziative Felder

Assoziative Felder werden meist mit Hilfe von
[Hashfunktionen](https://en.wikipedia.org/wiki/Hash_function) als
[Hashtabellen](https://en.wikipedia.org/wiki/Hash_table)
implementiert, seltener mit Hilfe von
[Suchbäumen](https://en.wikipedia.org/wiki/Search_tree). Die Details
dazu sind durchaus interessant, führen an dieser Stelle aber zu weit.

#### Bäume und Graphen

Bäume und Graphen lassen sich auf ähnliche Weise wie Listen
implementieren: die Elemente (Knoten) können hier jedoch auf mehrere
Nachfolger verweisen. Bei Graphen können auch mehrere Knoten auf einen
Knoten verweisen. 

Alternativ kann ein Graph auch als eine [Liste von
Kanten](https://en.wikipedia.org/wiki/Edge_list) aufgefasst und
gespeichert werden. Beispielsweise könnte der Graph

![ein Beispielgraph
Baum](https://upload.wikimedia.org/wikipedia/commons/thumb/1/1c/Directed_graph%2C_cyclic.svg/320px-Directed_graph%2C_cyclic.svg.png)

in Python als Liste


In [None]:
[("A", "B"), ("B", "C"), ("C", "E"), ("D", "B"), ("E", "D"), ("E", "F")]


verarbeitet werden. Eine weitere Möglichkeit sind sogenannte
[Adjazenzlisten](https://de.wikipedia.org/wiki/Adjazenzliste).





<div class="alert alert-warning">

### Exkurs: Die Dateiformate XML, JSON und RDF

Die *Dateiformate* XML, JSON und RDF ermöglichen das Speichern
strukturierter Daten. Die dahinterliegende Repräsentation baut jeweils
auf unterschiedlichen abstrakten Datenstrukturen auf:

- [XML](https://en.wikipedia.org/wiki/XML) fasst Daten als *Baum* auf.
- [JSON](https://en.wikipedia.org/wiki/JSON) mischt *Felder* und
  *assoziative Felder* und ermöglicht damit ebenfalls die Abbildung
  von Daten als *Baum*.
- [RDF](https://en.wikipedia.org/wiki/Resource_Description_Framework)
  fasst Daten als *Graph* auf.

Weitere Details dazu erlernen Sie im Lehrgebiet *7.2 Modellierung
(XML, RDF etc.), Semantic Web, Ontologien*.

<!--

- Was bedeutet "abstrakt"?
- Interpretationsebenen (Beispiel: XML-Datei eines NYT-Artikels (oder
  anderes passendes Beispiel)):
  - Spannung/keine Spannung
  - Nullen und Einsen
  - 8 Bit sind 1 Byte
  - Interpretation eines Bytes als ASCII-Zeichen (bzw. ggf. UTF-8)
  - Bedeutung der Zeichen für XML ('<', '>', etc.) ergibt "Tags" und "Attribute"
  - Jedes Tag wird durch Schema definiert und durch Programmierer*in
    bzw. Anwender*in entsprechend interpretiert, z.B. "<title>" ->
    beschreibt Titel eines Artikels
  - Inhalt der Tags wird entsprechend interpretiert

-->

</div>



<div class="alert alert-warning">

### Exkurs: Relationale Datenbanken

[Relationale
Datenbanken](https://de.wikipedia.org/wiki/Relationale_Datenbank)
modellieren das Graph-basierte
[Entity-Relationship-Modell](https://de.wikipedia.org/wiki/ER-Modell)
mit Hilfe von *Relationen*, die aus *Tupeln* und *Attributen* bestehen
– oder einfacher ausgedrückt: *Tabellen*, die aus *Zeilen* und
*Spalten* bestehen. Tabellen wiederum können als Felder oder Listen
von Zeilen aufgefasst werden. Datenstrukturen wie beispielsweise Bäume
und assoziative Felder spielen eine wichtige Rolle in
[Datenbankmanagementsystemen](https://en.wikipedia.org/wiki/DBMS),
beispielsweise bei der Beschleunigung von Operationen durch
Indexe. Ebenso gibt es andere Arten von Datenbanken,
z.B. [Graphdatenbanken](https://de.wikipedia.org/wiki/Graphdatenbank)
oder
[Schlüssel-Wert-Datenbanken](https://de.wikipedia.org/wiki/Schl%C3%BCssel-Werte-Datenbank),
die direkt für die Speicherung entsprechender Datenstrukturen (Graphen
bzw. assoziative Felder) optimiert sind.



Mehr dazu erfahren Sie im Lehrgebiet *7.3 Datei- und
Datenbanksysteme*.



</div>



<div class="alert alert-success">
    
## Aufgaben

### Datenstrukturen in der realen Welt

*erwarteter Zeitaufwand: ca. 30 Minuten*

Finden und fotografieren Sie Beispiele für Strukturen ausserhalb der
Informatik, die als Liste, Stapel, Warteschlange oder Baum aufgefasst
werden können (wie das Beispiel der Menschenschlange oder des
Stuhlstapels).

Überlegen Sie sich zu jedem Ihrer Beispiele, welche *Operationen* es
gibt und wie praktikabel diese sind. Wie kann beispielsweise Ihre
Liste verändert werden? Wie können Sie etwas in Ihrem Stapel finden?
Welche Operationen sind für das jeweilige Beispiel "üblich" und welche
eher nicht? Versuchen Sie auch zu entscheiden, ob (und warum) Ihre
Beispiele eine *statische* oder eine *dynamische* Datenstruktur
darstellen.

**Abschluss:** Posten Sie Ihr(e) Photo(s) im Forum und beschreiben Sie
kurz die Struktur sowie zugehörige Operationen.

</div>



<div class="alert alert-success">

### Implementierung von Datenstrukturen

*erwarteter Zeitaufwand: ca. 120 Minuten; Ergänzungsaufgabe*

Implementieren Sie eine der behandelten Datenstrukturen (keine Liste,
aber vielleicht einen Baum oder Graphen) in Python.

**Abschluss:** Dokumentieren Sie Ihre Ergebnisse und Erkenntnisse in Ihrer [speziellen Arbeitsleistung](Vorlage_Spezielle_Arbeitsleistung.ipynb).

</div>



<div class="alert alert-success">

### Das Prinzip des Zeigers

*erwarteter Zeitaufwand: ca. 30 Minuten*

Wir haben gelernt, dass verkettete Listen (und auch Bäume und Graphen)
mit Hilfe von Verweisen zwischen Elementen implementiert werden
können. Diese Verweise werden auch "Zeiger" (bzw. *Pointer* im
Englischen) genannt und stellen Adressen im Hauptspeicher dar.
Erarbeiten Sie sich das Prinzip des
[Zeigers](https://de.wikipedia.org/wiki/Zeiger_(Informatik)) und
fassen Sie die Grundidee in zwei Sätzen zusammen. Welchen Zusammenhang
gibt es mit der
[Adressierung](https://de.wikipedia.org/wiki/Adressraum#Gebr%C3%A4uchliche_Speicheradressr%C3%A4ume)
des Hauptspeichers im Computer? Welche Beispiele für Zeiger können Sie
in der realen Welt finden?

**Abschluss:** Posten Sie Ihre Ergebnisse und Erkenntnisse im Forum.

</div>
