# Operationen auf Datenstrukturen

*erwarteter Zeitaufwand: ca. 5 Stunden*

<!-- markdown-toc start - Don't edit this section. Run M-x markdown-toc-generate-toc again -->
Inhalt:

- [Lernziele](#Lernziele)
- [Material](#Material)
    - [Grundlegende Operationen](#Grundlegende-Operationen)
    - [Sortieren](#Sortieren)
    - [Suche](#Suche)
    - [Umformung semi-strukturierter Daten](#Umformung-semi-strukturierter-Daten)
    - [Exkurs: DNB und Wikidata](#Exkurs:-DNB-und-Wikidata)
- [Aufgaben](#Aufgaben)
    - [Komplexität selbst erfahren](#Komplexität-selbst-erfahren)
    - [Empirischer Vergleich der Zeitkomplexität verschiedener Sortierverfahren](#Empirischer-Vergleich-der-Zeitkomplexität-verschiedener-Sortierverfahren)
    - [XKCD](#XKCD)

<!-- markdown-toc end -->

<div class="alert alert-info">

## Lernziele

- Operationen auf Datenstrukturen kennen (z.B. Einfügen, wahlfreier
  Zugriff, Entfernen)
- Verfahren zur Lösung bestimmter Probleme (z.B. Sortieren, Suche)
  kennen
- Komplexität einiger Operationen und Verfahren abschätzen und
  vergleichen können
- grundlegende Serialisierungsschritte verstehen können
    
</div>


## Material
*erwarteter Zeitaufwand: ca. 3 Stunden*

<div class="alert alert-warning">

In dieser Lerneinheit befassen wir uns gezielt mit grundlegenden
Operationen, die wir mit Datenstrukturen durchführen können. Dies
schließt die besonders im Bibliotheks- und
Informationswissenschaftlichen Kontext relevanten Operationen des
*Sortierens*, der *Suche* sowie der *Serialisierung* mit ein. 
Insbesondere befassen wir uns mit der *Komplexität* einiger Operationen. 
Dies hilft uns dabei, die
Eignung von Datenstrukturen und Operationen für bestimmte Aufgaben
einschätzen zu können.  Auch wenn einige der Operationen "trivial"
erscheinen, so sind sie je nach Datenstruktur unterschiedlich
aufwendig.  Daher ist es hilfreich, eine Idee davon zu haben, wie
aufwendig welche Operation in welcher Datenstruktur ist. Auch wenn wir
hier nur eine sehr beschränkte Auswahl von Operationen und
Datenstrukturen behandeln, so soll diese Lerneinheit das grundlegende
Vorgehen vermitteln, mit dem sich Datenstrukturen und Operationen
vergleichen und einschätzen lassen.
Für die Serialisierung greift die Lerneinheit Datenstrukturen
wie Listen und Datenmodelle wie RDF, JSON und XML aus der Lerneinheit
zu [Abstrakten Datenstrukturen](4_Abstrakte_Datenstrukturen.ipynb)
wieder auf. Sie enthält außerdem einen Exkurs, der ein konkretes
Beispiel für die Datenintegration im bibliothekarischen Kontext
vorstellt.    
    
</div>

### Grundlegende Operationen

Um die Komplexität *grundlegender Operationen* auf einigen
Datenstrukturen zu betrachten, klären wir zunächst die Frage: *Was
sind grundlegende Operationen?*


Die Abkürzung
[CRUD](https://en.wikipedia.org/wiki/Create,_read,_update_and_delete)
bezeichnet die vier grundlegenden Operationen in
Datenbankmanagementsystemen: *create, read, update, delete*. Im Grunde
können wir diese auf abstrakte Datenstrukturen übertragen. Allerdings
ist (wie wir später noch sehen werden) das in der Praxis gar nicht so
einfach,
  - da *nicht alle Operationen* von allen Datenstrukturen unterstützt
    werden (z.B. ist es nicht möglich, Elemente eines statischen
    Feldes zu entfernen oder hinzuzufügen) und
  - da einige Operationen – ja nachdem wie bzw. wo sie ausgeführt
    werden – je nach Datenstruktur ggf. *unterschiedlich aufwendig
    sind* (z.B. Verändern einer Liste am Anfang vs. in der Mitte).

Daher fokussieren wir hier zunächst auf die drei Operationen *Lesen*,
*Einfügen* und *Entfernen* und bevor wir diese Entscheidung begründen
sowie die Operationen im Detail diskutieren betrachten wir deren
Zeitkomplexität für drei verbreitete Implementierungen abstrakter
Datenstrukturen:
- Feld: statisches Feld
- Liste: verkettete Liste
- assoziatives Feld: Hashtabelle

(Denn die Komplexität hängt von der Art der Implementierung ab!)

<!-- da die meisten Datenstrukturen *weitere spezifische Operationen*
    unterstützen (z.B. ).  -->

| Operation          | statisches Feld  | verkettete Liste | Hashtabelle      |
|--------------------|------------------|------------------|------------------|
| Lesen              | $\mathcal{O}(1)$ | $\mathcal{O}(n)$ | $\mathcal{O}(1)$ |
| Einfügen/Entfernen | nicht möglich    | $\mathcal{O}(n)$ | $\mathcal{O}(1)$ |

Dieser Überblick ist dem auf der [Wikipediaseite zum
Feld](https://en.wikipedia.org/wiki/Array_data_structure#Comparison_with_other_data_structures)
entlehnt und gibt die *mittlere Zeitkomplexität* für die jeweilige
Operation an. Dabei bezeichnet $n$ die *Anzahl der Elemente der
Datenstruktur*. Der Aufwand zum Lesen eines Elements einer verketteten
Liste hängt also (linear) von der Größe der Liste ab.  Leider lassen
sich die Angaben nicht 1:1 auf Python übertragen, da dort Listen
beispielsweise [als dynamische Felder implementiert
sind](https://wiki.python.org/moin/TimeComplexity). Im Zweifel ist
also ein Blick in die Dokumentation (oder den Quelltext) der
verwendeten Programmiersprache bzw. Softwarebibliothek notwendig.


Die **wesentliche Erkenntnis** aus dieser Tabelle ist: **auch
"triviale" Operationen benötigen Zeit** – wir können je nach
Datenstruktur nicht davon ausgehen, dass grundlegende Operationen
einen konstanten ($\mathcal{O}(1)$) Zeitaufwand benötigen. Daraus
folgt beispielsweise: je größer eine Liste, desto aufwendiger wird es,
neue Elemente einzufügen.

Eine weitere Erkenntnis ist, dass wir uns die Vorteile einiger
Datenstrukturen (z.B. Dynamik bei verketteten Listen) durch eine
erhöhte Zeitkomplexität erkaufen. Oft können wir die Zeitkomplexität
einer Operation zwar verbessern, dies erkaufen wir uns dann jedoch
meist mit erhöhtem Speicherbedarf.  Beispielsweise können wir mit
Hilfe einer *doppelt verketteten Liste* die Zeitkomplexität für den
Zugriff auf das letzte Listenelement von $\mathcal{O}(n)$ auf
$\mathcal{O}(1)$ reduzieren, zum Preis eines um ca. 50% erhöhten
Speicherbedarfes.

Im folgenden wollen wir auf die eingangs erwähnten Herausforderungen
und einige Besonderheiten der jeweiligen Operationen
bzw. Datenstrukturen eingehen.


#### Lesen

Mit *Lesen* bezeichnen wir hier den *wahlfreien* Zugriff ("random
read") auf ein *beliebiges* Element der Datenstruktur – z.B. auf das
fünfte Element eines Feldes oder einer Liste

In [None]:
elemente = ["Feuer", "Wasser", "Erde", "Luft", "Leeloo Minai Lekatariba-Lamina-Tchai Ekbat De Sebat"]
elemente[4]

oder auf das Element mit dem Schlüssel "title" eines assoziativen Feldes.

In [None]:
entry = {
    "key"       : "dudley1983trisector",
    "title"     : "What To Do When The Trisector Comes",
    "author"    : "Dudley, Underwood",
    "year"      : 1983,
    "journal"   : "The Mathematical Intelligencer",
    "number"    : 1,
    "volume"    : 5,
    "pages"     : "20--25",
    "publisher" : "Springer-Verlag",
    "address"   : "New York"
}
entry["title"]


Auf einzelne Elemente eines *(assoziativen) Feldes* können wir mit
*konstantem Zeitaufwand* zugreifen, weil sich aus dem Index des
Elementes (bzw. seinem Schlüssel im assoziativen Feld) direkt die
Adresse der zugehörigen Speicherzelle berechnen lässt und der Zugriff
auf einzelne Speicherzellen im Hauptspeicher in konstanter Zeit
möglich ist (z.B. 6 ns).

Eine *verkettete Liste* müssen wir elementweise *durchlaufen*, indem
wir den Verweisen von einem Element zum nächsten folgen, bis wir das
gewünschte Element erreichen:

![Verkettete Liste](https://amor.cms.hu-berlin.de/~jaeschkr/teaching/damostin/verkettete_liste.svg)

Um im Beispiel das fünfte Element zu erreichen, müssen wir also alle
Elemente durchlaufen. Das ist der ungünstigste Fall — im Mittel müssen
wir die Hälfte der Elemente durchlaufen. Die Zeitkomplexität ist in
beiden Fällen $\mathcal{O}(n)$.



Etwas anders verhält es sich beim *sequentiellen Lesen* ("sequential
read"): hierbei wollen wir nicht auf ein einzelnes Element zugreifen,
sondern mehrere Elemente *hintereinander* (d.h., in der Reihenfolge,
wie sie die Datenstruktur uns vorgibt) lesen. Bei (assoziativen)
Feldern ergibt das keinen Unterschied zum wahlfreien Zugriff aber bei
verketteten Listen schon: Die Zeitkomplexität für den Zugriff auf das
erste zu lesende Element ist wie gehabt $\mathcal{O}(n)$ (bzw. $\mathcal{O}(1)$, falls es das erste Element der Liste ist). Die nachfolgenden
Elemente können wir jedoch jeweils durch die Verweise in konstanter
Zeit erreichen, d.h. ab dem zweiten Element ist die Zeitkomplexität
$\mathcal{O}(1)$. Wenn wir $m$ Elemente lesen wollen ist die
Zeitkomplexität demnach also nur $\mathcal{O}(n + m)$ und nicht
$\mathcal{O}(n\cdot m)$.



#### Einfügen

Mit *Einfügen* ist nicht das gleiche wie mit *Schreiben* gemeint: Mit
*Schreiben* bezeichnen wir das *Verändern* des Wertes eines
*bestehenden Elementes* der Datenstruktur:


In [None]:
elemente[1] = "Dihydrogenmonoxid" # Den Wert des Elements mit dem Index 1 auf "Dihydrogenmonoxid" setzen
elemente


Im Code-Beispiel wird der Wert des zweiten Elements der Liste
`elemente` verändert. Der Aufwand dafür ist der gleiche wie beim
*Lesen* des Elements (plus ein konstanter Aufwand für den
Schreibvorgang), denn das zweite Element muss zunächst gefunden werden
und dann kann dessen Wert verändert werden. Daher ist für die
betrachteten Datenstrukturen die *Zeitkomplexität für das Schreiben
identisch zu der für das Lesen*.


Mit *Einfügen* bezeichnen wir das *Hinzufügen* eines Elementes zu der
Datenstruktur. Es ist damit insbesondere eine Operation *dynamischer*
Datenstrukturen und daher bei statischen Feldern nicht möglich:


In [None]:
elemente.insert(3, "Silicium") # "Silicium" vor dem Element mit dem Index 3 einfügen
elemente


Im Beispiel-Code wird *vor* dem Element mit dem Index 3 (dem vierten
Element) der Wert "Silicium" eingefügt.

Auch hier muss bei einer verketteten Liste ähnlich wie beim Lesen und
Schreiben vorgegangen werden: zunächst muss das Element gefunden
werden, vor dem das neue Element eingefügt werden soll
(Zeitkomplexität $\mathcal{O}(n))$, danach kann das Element eingefügt
werden ($\mathcal{O}(1)$). (Dies erfolgt – wie wir im Abschnitt zu
[abstrakten Datenstrukturen](4_Abstrakte_Datenstrukturen.ipynb#Listen)
bereits gesehen habe – durch Anpassen der Verweise des vorhergehenden
und des einzufügenden Elementes.) Die Zeitkomplexität für das Einfügen
eines Elementes in eine verkettete Liste ist demnach $\mathcal{O}(n)$.

Anders verhält es sich (bei *einfach verketteten* Listen), wenn das
Element *am Anfang* eingefügt werden soll (bzw. bei *doppelt
verketteten* Listen auch am Ende): Hier muss jeweils nur der Verweis
auf das *erste* (bzw. *letzte*) Element der Liste angepasst werden,
was in konstanter Zeit möglich ist.



#### Entfernen

Beim *Entfernen* muss ähnlich vorgegangen werden wie beim Einfügen:
zunächst muss das zu entfernende Element "gefunden" werden und dann
kann es mit konstantem Zeitaufwand entfernt werden. Auch dies ist
wieder nur bei dynamischen Datenstrukturen möglich.


In [None]:
elemente.pop(3) # Das Element mit dem Index 3 entfernen.
elemente


Die Zeitkomplexität für das *Entfernen* eines Elementes ist daher für
die von uns betrachteten Datenstrukturen identisch zur Zeitkomplexität
für das *Einfügen* eines Elementes.


### Sortieren
Wenden wir uns jetzt einer der grundlegenden Aufgaben beim Umgang mit
Daten und Datenstrukturen zu: dem *Sortieren*. Sortierfahren sind so
elementar und wichtig, dass sie zu den am besten untersuchten
Problemen der Informatik zählen. Es gibt viele Anwendungsfälle, in
denen Sortierverfahren – mehr oder weniger offensichtlich – zum
Einsatz kommen, beispielsweise:
- *Suchergebnisse* im Web oder in Datenbanken werden meist sortiert
  präsentiert,
- einige *Operationen in Datenbanken* und einige *Algorithmen* laufen
  auf sortierten Daten schneller ab (insbesondere beschleunigt
  Sortieren auch die Suche, wie wir im nächsten Abschnitt sehen
  werden),
- *Betriebssysteme* nutzen eine nach Priorität sortierte Warteschlange
  mit den auszuführenden Prozessen für das Scheduling,
- *Operationen auf Mengen*, wie z.B. das Vereinigen oder Schneiden
  zweier Mengen sowie das Finden von Duplikaten ist auf sortierten
  Mengen deutlich effizienter,
- *Aufzüge* nutzen Sortierverfahren um zu bestimmen, in welcher
  Reihenfolge sie die Etagen anfahren sollen (und ein [ähnliches
  Verfahren](https://en.wikipedia.org/wiki/Elevator_algorithm) wird
  für die Optimierung von Lese- und Schreibzugriffen auf Festplatten
  verwendet),
- in der *Statistik* tragen Sortierungen zum Verständnis der Daten
  bei, beispielsweise bei Verteilungen.

Um Daten (in einer Datenstruktur) sortieren zu können, benötigen wir
eine *Ordnung* auf diesen Daten. Wir müssen also je zwei Elemente
*vergleichen* können – also entscheiden können, welches von beiden
größer ist bzw. ob sie gleich groß sind. Beispielsweise können wir bei
numerischen Daten die Ordnung der natürlichen oder reellen Zahlen
verwenden und bei Zeichenketten die [lexikographische
Ordnung](https://en.wikipedia.org/wiki/Lexicographical_order).

Sortierungen sind vor allem für *eindimensionale* Datenstrukturen
relevant, beispielsweise Listen und eindimensionale Felder. Das
Konzept der Ordnung lässt sich aber auch auf komplexere
Datenstrukturen wie
[Bäume](https://en.wikipedia.org/wiki/Binary_search_tree) oder
mehrdimensionale Felder übertragen. Wir beschränken uns hier auf
*eindimensionale Felder* und werden die *Komplexität* verschiedener
Verfahren kennenlernen und vergleichen.  Weitere Eigenschaften wie
beispielsweise
[Stabilität](https://en.wikipedia.org/wiki/Sorting_algorithm#Stability)
oder Speicherverbrauch betrachten wir nicht.

Das Sortierproblem können wir folgendermaßen formalisieren: Gegeben
sei ein eindimensionales Feld $A$ mit $n$ Elementen sowie eine Ordnung
$\le$ mit der sich die Elemente von $A$ vergleichen lassen. Wir suchen
nach einem Verfahren, welches die Reihenfolge der Elemente von $A$ so
ändert, dass sie sortiert sind, d.h., dass für alle Elemente $a_i$ und
$a_j$ von $A$ gilt: $a_i \le a_j \Leftrightarrow i \le j$ (also: wenn
$a_i$ vor $a_j$ in $A$ liegt, dann muss $a_i$ auch kleiner oder gleich
$a_j$ sein – und umgekehrt).

Den Algorithmus *Insertion Sort* kennen wir bereits aus der
Lerneinheit [Komplexität](Komplexitaet.ipynb) und haben dort gesehen,
dass dessen mittlere Zeitkomplexität $\mathcal{O}(n^2)$ ist. Die
spannende Frage ist: Gibt es bessere Sortierverfahren? Die Antwort
lautet ganz klar: Ja! Dies zeigt die folgende Tabelle, die ein
Ausschnitt einer Tabelle der [Wikipedia-Seite zu
Sortieralgorithmen](https://en.wikipedia.org/wiki/Sorting_algorithm)
ist:


| Algorithmus                                                    | Best Case               | Average Case            | Worst Case              |
|----------------------------------------------------------------|-------------------------|-------------------------|-------------------------|
| [Quicksort](https://en.wikipedia.org/wiki/Quicksort)           | $\mathcal{O}(n \log n)$ | $\mathcal{O}(n \log n)$ | $\mathcal{O}(n^2)$      |
| [Merge Sort](https://en.wikipedia.org/wiki/Merge_sort)         | $\mathcal{O}(n \log n)$ | $\mathcal{O}(n \log n)$ | $\mathcal{O}(n \log n)$ |
| [Introsort](https://en.wikipedia.org/wiki/Introsort)           | $\mathcal{O}(n \log n)$ | $\mathcal{O}(n \log n)$ | $\mathcal{O}(n \log n)$ |
| [Heap Sort](https://en.wikipedia.org/wiki/Heapsort)            | $\mathcal{O}(n \log n)$ | $\mathcal{O}(n \log n)$ | $\mathcal{O}(n \log n)$ |
| [Insertion Sort](https://en.wikipedia.org/wiki/Insertion_sort) | $\mathcal{O}(n)$        | $\mathcal{O}(n^2)$      | $\mathcal{O}(n^2)$      |
| [Timsort](https://en.wikipedia.org/wiki/Timsort)               | $\mathcal{O}(n)$        | $\mathcal{O}(n \log n)$ | $\mathcal{O}(n \log n)$ |
| [Selection Sort](https://en.wikipedia.org/wiki/Selection_sort) | $\mathcal{O}(n^2)$      | $\mathcal{O}(n^2)$      | $\mathcal{O}(n^2)$      |
| [Bubble Sort](https://en.wikipedia.org/wiki/Bubble_sort)       | $\mathcal{O}(n)$        | $\mathcal{O}(n^2)$      | $\mathcal{O}(n^2)$      |

Aus der Tabelle lässt sich erahnen, dass es eine untere Schranke für
die bestmögliche Zeitkomplexität gibt. In der Tat lässt sich zeigen,
das die bestmögliche mittlere Zeitkomplexität $\mathcal{O}(n \log n)$
beträgt.  Die drei Verfahren *Merge Sort*, *Introsort* und *Heap Sort*
haben diese Komplexität sogar für alle drei betrachteten Fälle. Der
beste Fall liegt typischerweise vor, wenn die Daten bereits sortiert
sind.  Drei Verfahren (*Insertion Sort*, *Timsort* und *Bubble Sort*)
haben dann nur eine Zeitkomplexität von $\mathcal{O}(n)$, aber nur
*Timsort* hat auch eine brauchbare Zeitkomplexität im mittleren und
schlechtesten Fall.



<a title="StackSort connects to StackOverflow, searches for 'sort a list', and downloads and runs code snippets until the list is sorted." href="https://xkcd.com/1185/">
  <img alt="XKCD Comic: Ineffective Sorts" src="https://imgs.xkcd.com/comics/ineffective_sorts.png">
</a>

© Randall Munroe / [CC-BY-NC 2.5](http://creativecommons.org/licenses/by-nc/2.5/)



Es gibt noch viele weitere Sortierverfahren, die teilweise für
Spezialfälle relevant sind. In der Praxis wird jedoch eine relativ
übersichtliche Menge von Verfahren verwendet, wie wir der
[Wikipedia-Seite zu
Sortierverfahren](https://en.wikipedia.org/wiki/Sorting_algorithm)
entnehmen können:

> While there are a large number of sorting algorithms, in practical
> implementations a few algorithms predominate. [Insertion
> sort](https://en.wikipedia.org/wiki/Insertion_sort) is widely used
> for small data sets, while for large data sets an asymptotically
> efficient sort is used, primarily [heap
> sort](https://en.wikipedia.org/wiki/Heapsort), [merge
> sort](https://en.wikipedia.org/wiki/Merge_sort), or
> [quicksort](https://en.wikipedia.org/wiki/Quicksort). Efficient
> implementations generally use a hybrid algorithm, combining an
> asymptotically efficient algorithm for the overall sort with
> insertion sort for small lists at the bottom of a recursion. Highly
> tuned implementations use more sophisticated variants, such as
> [Timsort](https://en.wikipedia.org/wiki/Timsort) (merge sort,
> insertion sort, and additional logic), used in Android, Java, and
> Python, and [introsort](https://en.wikipedia.org/wiki/Introsort)
> (quicksort and heap sort), used (in variant forms) in some C++ sort
> implementations and in .NET.


Das heißt: die Standardbibliotheken von Programmiersprachen
implementieren typischerweise ausgefeilte Kombinationen der besten
Sortieralgorithmen. Beispielsweise implementiert Python
[Timsort](https://en.wikipedia.org/wiki/Timsort) – eine Kombination
aus Merge Sort und Insertion Sort.


In [None]:
from IPython.display import YouTubeVideo
# Quick-sort with Hungarian (Küküllőmenti legényes) folk dance
YouTubeVideo('ywWBy6J5gz8')


### Suche

Allgemein umfasst der Begriff *Suche* einen sehr großen Bereich, weil
wir nach allen möglichen Dingen suchen können: Dokumenten im Web,
Routen zwischen zwei Orten, Knoten in einem Graphen, etc. Daher
beschränken wir uns hier auf die Suche in den von uns betrachteten
Datenstrukturen (z.B. ein Element in einer Liste finden) und gehen
(kurz) auf Möglichkeiten ein, die die Suche beschleunigen können.

In diesem Sinn ist die Suche eine mit dem Lesen verwandte Operation:
Gegeben ist dabei nicht der *Index* (bzw. Schlüssel) eines Elements,
sondern ein *Wert* (Inhalt) und wir wollen wissen, *ob ein Element*
mit diesem Wert in der Datenstruktur enthalten ist (und ggf. wie der
zugehörige Index bzw. Schlüssel lautet).

Beispielsweise könnten wir im assoziativen Feld `entry` suchen, ob es
einen Schlüssel mit dem Wert `New York` gibt:


In [None]:
for key, value in entry.items(): # alle Schlüssel-Wert-Paare durchlaufen
    if value == "New York":
        print(key)               # Schlüssel des Elements ausgeben ...
        break                    # ... und Suche beenden


Hierbei führen wir eine *sequentielle Suche* durch, denn wir
durchlaufen das Feld, bis wir ein passendes Element finden.

<div class="alert alert-success">

Suchen Sie in der Liste `elemente` nach dem Element mit dem Wert
`Luft`:

</div>


In [None]:
# Wie würden Sie vorgehen?


Die Zeitkomplexität der sequentiellen Suche ist für alle betrachteten
Datenstrukturen $\mathcal{O}(n)$, denn wir müssen die Elemente einzeln
durchlaufen, bis wir ein passendes Element finden. Eine Variante der
Suche ist, *alle Vorkommen* eines Wertes zu finden. Dabei muss die
Datenstruktur stets vollständig durchlaufen werden. Die
Zeitkomplexität ist ebenfalls $\mathcal{O}(n)$.

<a title="© 2010 by Tomasz Sienicki [user: tsca, mail: tomasz.sienicki at gmail.com] / CC BY (https://creativecommons.org/licenses/by/3.0)" href="https://commons.wikimedia.org/wiki/File:Telefonbog_ubt-1.JPG"><img width="512" alt="Telefonbog ubt-1" src="https://upload.wikimedia.org/wikipedia/commons/d/d3/Telefonbog_ubt-1.JPG"></a>

Beschleunigen lässt sich die Suche durch Sortieren: Aus dem Abschnitt
[Komplexität](Komplexitaet.ipynb) kennen wir (aus der [entsprechenden
Aufgabe](http://localhost:8888/notebooks/Komplexitaet.ipynb#Bin%C3%A4re-Suche))
die [Binäre
Suche](https://en.wikipedia.org/wiki/Binary_search_algorithm). Diese
funktioniert ähnlich der manuellen Suche in einem Telefonbuch: Wir
schlagen es ungefähr in der Mitte auf und prüfen, ob der gesuchte Name
sich in der vorderen oder der hinteren Hälfte des Buches befinden
muss. Mit dem entsprechenden Teil des Telefonbuches fahren wir auf die
gleiche Weise fort.

In [None]:
def binaere_suche(A, zielwert):
    if len(A) == 0:
        return False                                      # A ist leer - nichts gefunden
    else:
        pivot = int(len(A)/2)                             # mittleren Eintrag festlegen
        if zielwert == A[pivot]:
            return True                                   # Eintrag gefunden
        if zielwert < A[pivot]:
            return binaere_suche(A[:pivot], zielwert)     # vordere Hälfte durchsuchen
        if zielwert > A[pivot]:
            return binaere_suche(A[pivot + 1:], zielwert) # hintere Hälfte durchsuchen

primzahlen = [2, 3, 5, 7, 11, 13, 17, 19, 21, 23, 29]
binaere_suche(primzahlen, 13)


Die Zeitkomplexität der binären Suche beträgt $\mathcal{O}(\log n)$,
was deutlich effizienter ist als die sequentielle Suche ($\mathcal{O}(n)$):

In [None]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt                # Plotten
from numpy import log2                         # Logarithmus

n = np.linspace(1, 100, 100)                   # x-Werte

plt.plot(n, n,       label='sequentielle Suche – O(n)')
plt.plot(n, log2(n), label='binäre Suche – log₂(n)')
plt.legend(loc='top left')                     # Legende
plt.show()


<div class="alert alert-success">

Sie können dieses theoretische Ergebnis durch Zeitmessung
verifizieren. Schauen Sie sich dazu das Vorgehen in den Aufgaben am
Ende dieser Lerneinheit an und nutzen Sie die oben definierte Funktion
`binaere_suche()`.

</div>

Die binäre Suche ist dabei nur effizient, wenn wir *konstante Zeit*
($\mathcal{O}(1)$) für den wahlfreien Zugriff auf jedes Element
benötigen. Die Zeitkomplexität bezieht sich daher in der Regel auf die
Suche in einem (statischen) Feld.


Wir haben nun gesehen, dass Sortieren die Suche beschleunigt.
Andererseits benötigt das Sortieren selbst Zeit. Daher ist stets
abzuschätzen, ob sich der Aufwand lohnt. Im Allgemeinen ist dies dann
der Fall, wenn regelmäßig suchend auf die Daten zugegriffen werden
soll. Für eine einmalige Suche lohnt sich der Aufwand nicht, denn die
Zeitkomplexität des Sortierens vo $\mathcal{O}(n \log n)$ ist deutlich
größer als die der sequentiellen Suche ($\mathcal{O}(n)$), die auch
auf einer unsortierten Datenstruktur funktioniert.

<!--

- bei Bäumen/Graphen aufwendiger (Breadth/Depth First!)
- gibt spezielle Datenstrukturen, um Suche zu beschleunigen

-->


### Umformung semi-strukturierter Daten
Wir haben bereits gesehen, dass [abstrakte
Datenstrukturen](4_Abstrakte_Datenstrukturen.ipynb) auf dem linear
angeordneten *Hauptspeicher* "simuliert" werden müssen. (Dies erfolgt
mit Hilfe von Zeigern auf Adressen). Wollen wir semi-strukturierte
Daten (z.B. abstrakte Datenstrukturen, die auch Text enthalten) auf
*Massenspeichern* persistent speichern oder als *Nachricht* übermitteln,
so müssen wir sie ebenfalls in eine linear angeordnete Folge von Bytes
transformieren – *serialisieren*.  Im Unterschied zum Hauptspeicher
erlauben (traditionelle) Massenspeicher (Festplatten) jedoch keinen
effizienten Zugriff auf beliebige Speicherzellen (Adressen). Dort
werden Daten aus Effizienzgründen meist sequentiell (am Stück)
geschrieben und gelesen. Aus diesem Grund scheiden Zeigerstrukturen
wie im Hauptspeicher als Option aus und andere Formen der
Serialisierung haben sich durchgesetzt.

Eine Möglichkeit haben wir bereits bei der [Speicherung von
Rastergrafiken](3_Repraesentation_von_Text_Bild_Ton.ipynb#Rastergrafik)
kennengelernt: das zweidimensionale Pixelbild wird als Folge von
Zeilen und jede Zeile als Folge von Pixeln aufgefasst, so dass sich
letztlich eine Folge von Pixeln ergibt. In diesem Abschnitt
konzentrieren wir uns auf die textbasierte Serialisierung
semi-strukturierter Daten. Zwei übliche Formate dafür sind *JSON* und
*XML*, die wir bereits im Abschnitt [Dateiformate](5_Dateiformate.ipynb) kurz kennengelernt haben. Daneben gibt es
noch viele weitere Serialisierungsformate, auch für nicht-textuelle
Daten, siehe
https://en.wikipedia.org/wiki/Comparison_of_data-serialization_formats.

#### Beispiel: Serialisierung von Binärbäumen

Als Beispiel schauen wir uns zunächst an, wie ein Binärbaum
serialisiert werden kann (in einem Binärbaum hat jeder Knoten
höchstens zwei Kindknoten)

Wir benötigen eine Klasse, um die Knoten des Baumes darzustellen. 
Ein Knoten hat einen Wert (Name, Bezeichner) und bis zu zwei Kinder
("links" und "rechts"). Der Wert `None` für ein Kind gibt an, dass 
dieses nicht existiert, die Verzweigung hier also beendet ist.

In [None]:
class Knoten:
    """Knoten eines Binärbaums."""
    def __init__(self, wert, kind_links, kind_rechts):
        self.wert = wert
        self.kind_links = kind_links
        self.kind_rechts = kind_rechts
    
    def __str__(self):
        """Ausgabe des Knotens als Zeichenkette durch rekursiven Abstieg zu den Kindern."""
        return self.wert + "(" + str(self.kind_links) + ", " + str(self.kind_rechts) + ")"

    def _repr_pretty_(self, p, cycle):
        """Hilfsmethode für Ausgabe in Jupyter Notebook."""
        p.text(str(self) if not cycle else self.wert)

Damit können wir jetzt schon einen kleinen Baum manuell erzeugen:

In [None]:
baum = Knoten("Wurzel", Knoten("Kind 1", None, None), Knoten("Kind 2", None, None))
baum

Wir können den Binärbaum durch [Tiefensuche](https://de.wikipedia.org/wiki/Tiefensuche) serialisieren. Dabei folgen wir rekursiv den Kindern (stets erst dem linken und dann dem rechten) und geben den Wert des jeweiligen Knotens aus bzw. ein reserviertes Zeichen (wir haben `|` gewählt) für leere Knoten (`None`). Zusätzlich benötigen wir noch ein Trennzeichen, um die einzelnen Elemente später wieder separieren zu können.
<a id='zelle_trenner'></a>

In [None]:
leerer_knoten = '|'
trenner = ", "

def serialisieren(g):
    """Serialisiert den Binärbaum g in einer Zeichenkette."""
    if g is None:
        return leerer_knoten
    
    return g.wert + trenner + serialisieren(g.kind_links) + trenner + serialisieren(g.kind_rechts)

Jetzt können wir unseren Baum in eine Zeichenkette umwandeln:

In [None]:
baum_als_zeichenkette = serialisieren(baum)
baum_als_zeichenkette

Die Knoten werden also in der Reihenfolge von links nach rechts und von oben nach unten aufgelistet. Wir werden das gleich noch deutlicher bei einem etwas komplexeren Beispiel sehen. Zunächst implementieren wir jedoch die Methode zur Deserialisierung. Der Einfachheit halber erhält diese eine Liste von Knoten und arbeitet diese rekursiv (analog zu `serialisieren`) ab: 

In [None]:
def deserialisieren(l):
    """Deserialisiert die Liste l zu einem Binärbaum."""
    wert = l.pop(0) if l else None
    
    if not wert or wert == leerer_knoten:
        return None

    return Knoten(wert, deserialisieren(l), deserialisieren(l))

Um die Methode verwenden zu können, splitten wir die Zeichenkette an den durch `trenner` markierten Stellen auf und erhalten so eine Liste von Zeichenketten, die wir an `deserialisieren` übergeben können:

In [None]:
def deserialisieren_zeichenkette(s):
    return deserialisieren(s.split(trenner) if len(trenner) > 0 else list(s))

deserialisieren_zeichenkette(baum_als_zeichenkette)

Unser Baum wurde wieder hergestellt! Etwas beeindruckender sieht dies aus, wenn wir eine komplexere Zeichenkette als Eingabe verwenden und den dadurch repräsentierten Baum graphisch darstellen. Die graphische Darstellung übernehmen die beiden folgenden Funktionen:

In [None]:
%matplotlib inline
def add_nodes(g, myg):
    if myg.kind_links:
        g.add_edge(myg.wert, myg.kind_links.wert)
        add_nodes(g, myg.kind_links)
    if myg.kind_rechts:
        g.add_edge(myg.wert, myg.kind_rechts.wert)
        add_nodes(g, myg.kind_rechts)        
    
def show_graph(myg):
    import networkx as nx
    from networkx.drawing.nx_agraph import graphviz_layout
    import matplotlib.pyplot as plt
    g = nx.DiGraph()

    add_nodes(g, myg)

    pos = graphviz_layout(g, prog='dot')
    nx.draw(g, pos, with_labels=True, arrows=False)

Schauen wir also einmal, welchen Baum die Zeichenkette "A, B, C, |, |, D, E, |, |, F , |, |, |" ergibt:

In [None]:
show_graph(deserialisieren_zeichenkette("A, B, C, |, |, D, E, |, |, F , |, |, |"))


<div class="alert alert-success">
    
Probieren Sie es selber einmal aus, indem Sie die Zeichenkette "1, 2, 3, |, |, 4, 6, |, 5, |, |, 7, |" deserialisieren:
    
</div>

In [None]:
# Geben Sie hier den Code zur Deserialisierung und Anzeige des Baumes ein

<details>
    <summary type="button" class="btn btn-info">Hinweis</summary>
  <div class="alert alert-success" role="alert">

Kopieren Sie den Code aus der vorherigen Python-Zelle (`show_graph(deserialisieren_zeichenkette("A, B, C, |, |, D, E, |, |, F , |, |, |"))`) und ersetzen Sie die darin enthaltene Zeichenkette `"A, B, C, |, |, D, E, |, |, F , |, |, |"` durch die neue Zeichenkette.


      
  </div>       
</details>


<div class="alert alert-success">
    
Wenn die Werte der Knoten nur aus einzelnen Zeichen bestehen, können wir auf Trennzeichen verzichten und die Knoten durch zeichenweise Verarbeitung extrahieren. Probieren Sie es aus, indem Sie den Wert der Variable `trenner` oben auf `""` setzen und die Zeichenkette `"123||46|5||7|"` deserialisieren:

</div>    


In [None]:
# Geben Sie hier den Code zur Deserialisierung und Anzeige des Baumes ein

<details>
    <summary type="button" class="btn btn-info">Hinweis</summary>
  <div class="alert alert-success" role="alert">

Gehen Sie zur [Zelle, in der die Variable `trenner` definiert wird](#zelle_trenner) (`trenner = ", "`) und ersetzen Sie die Zeichenkette `", "` durch `""` (entfernen Sie Komma und Leerzeichen). Führen Sie dann die Zelle aus. 
      
Danach können Sie in der Zelle hier wie im vorherigen Hinweis beschrieben mit Copy&amp;Paste und Anpassung der Zeichenkette fortfahren.
      
  </div>       
</details>


<div class="alert alert-success">
    
Welche Probleme können bei der (De)Serialisierung auftreten, wenn die Zeichen für den leeren Knoten (`$`) bzw. die/das Trennzeichen (`, `) in den Werten für die Knoten verwendet werden? (Sie können es auch gerne direkt ausprobieren.)
    
</div>


#### Praxisbeispiel XML

Ein Datenformat zur Serialisierung nahezu beliebig komplexer Daten in Baumstruktur ist die *Extensible Markup Language* (XML), die wir bereits im Abschnitt [Dateiformate](#5_Dateiformate.ipynb) kennengelernt haben. Wir schauen uns hier kurz an, [wie XML-Daten mittels Python verarbeitet werden können](https://docs.python.org/3/library/xml.html). Für das *Lesen* von XML-Dateien stellt Python im Wesentlichen zwei Lösungen zur Verfügung:

- Eine XML-Datei kann mit Hilfe des Moduls [xml.etree.ElementTree](https://docs.python.org/3/library/xml.etree.elementtree.html#module-xml.etree.ElementTree) in eine abstrakte Datenstruktur im Hauptspeicher eingelesen werden und danach kann diese Datenstruktur weiterverarbeitet werden. 
- Eine XML-Datei kann mit Hilfe des Moduls [xml.sax](https://docs.python.org/3/library/xml.sax.html#module-xml.sax) Ereignis-basiert nach dem SAX-Standard ([Simple API for XML](https://en.wikipedia.org/wiki/Simple_API_for_XML)) verarbeitet werden. Dabei erzeugt jeder Knoten im XML-Baum ein Ereignis, um dessen Verarbeitung sich die Programmiererin kümmern muss.

Schauen wir uns die Unterschiede an einem Beispiel an. Angenommen, wir wollen die Daten aus dem oben angelegten assoziativen Feld

In [None]:
entry = {
    "key"       : "dudley1983trisector",
    "title"     : "What To Do When The Trisector Comes",
    "author"    : "Dudley, Underwood",
    "year"      : 1983,
    "journal"   : "The Mathematical Intelligencer",
    "number"    : 1,
    "volume"    : 5,
    "pages"     : "20--25",
    "publisher" : "Springer-Verlag",
    "address"   : "New York"
}

in einer XML-Datei speichern. Dann könnten wir beispielsweise einen Wurzelknoten "publications" erzeugen

In [None]:
import xml.etree.ElementTree as ET
wurzel = ET.Element("publications")

und den Eintrag als "publication" zur Wurzel

In [None]:
eintrag = ET.SubElement(wurzel, "publication")

und alle Schlüssel-Wert-Paare des Eintrags hinzufügen:

In [None]:
for key in entry:                      # alle Schlüssel des assoziativen Feldes durchlaufen
    elem = ET.SubElement(eintrag, key) # neues XML-Tag als "Kind" von "publication" erzeugen
    elem.text = str(entry[key])        # Wert des Schlüssels als Text im XML-Tag ablegen

Schließlich können wir mittels [`write`](https://docs.python.org/3/library/xml.etree.elementtree.html#xml.etree.ElementTree.ElementTree.write) das Ergebnis in eine XML-Datei schreiben oder mittels [`tostring`](https://docs.python.org/3/library/xml.etree.elementtree.html#xml.etree.ElementTree.tostring) auf dem Bildschirm ausgeben:

In [None]:
xmlzeichenkette = ET.tostring(wurzel, encoding="unicode") # Datenstruktur in eine Zeichenkette umwandeln
xmlzeichenkette

bzw. etwas schöner durch farbliche Hervorhebung und Einrückung:

In [None]:
from IPython.display import display, Markdown
import xml.dom.minidom

display(Markdown("```xml\n" + xml.dom.minidom.parseString(xmlzeichenkette).toprettyxml() + "\n```"))

Umgekehrt können wir mittels [`fromstring`](https://docs.python.org/3/library/xml.etree.elementtree.html#xml.etree.ElementTree.fromstring) die Zeichenkette wieder einlesen und eine Datenstruktur im Hauptspeicher erstellen:

In [None]:
root = ET.fromstring(xmlzeichenkette)
root.tag

Diese können wir dann durchlaufen, um die für uns relevanten Informationen zu extrahieren:

In [None]:
entries = []                                      # Ergebnisliste: hier landen alle Publikationen
for child in root:                                # alle Kind-Knoten durchlaufen
    entry = {}                                    # neuen Eintrag als assoziatives Feld erzeugen
    for grandchild in child:                      # alle Kindeskinder-Knoten (Enkel) durchlaufen
        entry[grandchild.tag] = grandchild.text   # Schlüssel-Wert-Paare erzeugen
    entries.append(entry)                         # fertigen Eintrag zur Liste hinzufügen

entries                                           # Liste anzeigen

Wir verarbeiten die Daten im Grunde analog zur Erzeugung der XML-Daten, nur rückwärts: wir durchlaufen die XML-Datenstruktur und erzeugen daraus die Datenstrukturen, die wir gerne hätten (in diesem Fall eine Liste in der jedes Element ein assoziatives Feld ist).

Die andere Möglichkeit – die Verarbeitung mittels [SAX](https://docs.python.org/3/library/xml.sax.html#module-xml.sax) ist vor allem für große Datenmengen relevant, da dabei die XML-Daten nicht erst komplett in den Hauptspeicher eingeladen werden. Stattdessen wird beim Lesen der XML-Datei spezieller (in der Regel selbst zu implementierender) Code aufgerufen, der die Verarbeitung der gerade gelesenen Daten direkt übernimmt. Dadurch können beispielsweise nur relevante Daten in den Hauptspeicher (oder gar in ein Datenbankmanagementsystem) geladen werden oder direkt die gewünschten Datenstrukturen erzeugt werden. Der deutlich komplexere Umgang mit SAX sprengt jedoch leider den Rahmen dieser Lerneinheit. 

Zum Abschluss sei noch auf zwei Punkte verwiesen:
- Eine mögliche Serialisierungsform des [Resource Description Frameworks](https://en.wikipedia.org/wiki/Resource_Description_Framework) (RDF) ist [RDF/XML](https://en.wikipedia.org/wiki/RDF/XML). Dabei wird die Graph-Struktur von RDF auf die Baumstruktur von XML abgebildet. Leider ist diese Abbildung nicht eindeutig, so dass ein und dasselbe RDF-Dokument verschiedene RDF/XML-Repräsentationen besitzen kann.
- Das GitLab-Repositorium [notebooks](https://scm.cms.hu-berlin.de/ibi/notebooks) enthält einige Jupyter-Notebooks mit Beispielen zum Verarbeiten und Umformen von Daten (z.B. JSON) und ist ein guter Ausgangspunkt für eigene Experimente mit Jupyter.


<div class="alert alert-warning">

### Exkurs: DNB und Wikidata

<div class="row" style="margin-top: 1em">
  <div class="col-xs-12 col-sm-6" style="padding-right:1em;">
    <img style="height:140px" title="DNB" alt="DNB logo" src="https://upload.wikimedia.org/wikipedia/commons/5/5f/DNB.svg">
  </div>
  <div class="col-xs-12 col-sm-6" style="padding-left:1em;">
    <img style="height:140px" title="Wikidata" alt="Wikidata logo" src="https://upload.wikimedia.org/wikipedia/commons/6/66/Wikidata-logo-en.svg">
  </div>
</div>


Ausgehend von einer [Analyse zu überlangen Büchern im Bestand der
Deutschen
Nationalbibliothek](https://weltliteratur.net/Empirical-Data-on-Over-Length-Books/)
(DNB) [haben wir die Romane im Bestand der DNB genauer
untersucht](https://github.com/weltliteratur/dnb). Dafür wollten wir
das Korpus insbesondere auf "bekannte" Autor:innen beschränken und
haben dies operationalisiert als "Autor:innen mit einer
Wikipedia-Seite" (also implizit die [Relevanz-Kriterien von
Wikipedia](https://de.wikipedia.org/wiki/Wikipedia:Relevanzkriterien)
übernommen).


Als Datenquellen nutzten wir:
- die [Titeldaten der DNB im
  RDF-Format](https://data.dnb.de/opendata/dnb-all_lds.rdf.gz)
  (Quelle: [DNB-Datendienst](https://data.dnb.de/opendata/)) und 
- die [Daten zu Entitäten in
  Wikidata](https://dumps.wikimedia.org/wikidatawiki/entities/) im
  JSON-Format (Quelle:
  [Wikidata](https://www.wikidata.org/wiki/Wikidata:Database_download/de)).

Wir wollten die Titeldaten der DNB mit den Wikidata-Daten zu
Autor:innen mit Hilfe der GND-ID der Autor:innen verknüpfen. Dies ist
ein klassisches Datenintegrationsproblem und in unserem Analyseprozess
Teil der Datenvorverarbeitung. Es ergaben sich dabei unter anderem
die folgenden Herausforderungen:
- Der *Umfang* der DNB-Daten (komprimiert 1.6GiB, unkomprimiert 21GiB)
  und das verwendete *Dateiformat* (RDF/XML) verlangten nach einem
  Rechner mit sehr viel Hauptspeicher, denn gängige
  Softwarebibliotheken verarbeiten RDF typischerweise (nur) im
  Hauptspeicher.
- Die [*SPARQL-Anfrage an
  Wikidata*](https://query.wikidata.org/#%20%20SELECT%20%3Fitem%20%3FitemLabel%0A%20%20WHERE%0A%20%20{%0A%20%20%20%20%3Fitem%20wdt%3AP106%2Fwdt%3AP279*%20wd%3AQ36180%20.%20%20%20%23%20occupation%28P106%29%20is%20writer%28Q36180%29%20or%20a%20subclass%28P279%29%0A%20%20%20%20SERVICE%20wikibase%3Alabel%20{%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%23%20...%20include%20the%20labels%0A%20%20%20%20%20%20bd%3AserviceParam%20wikibase%3Alanguage%20%22en%22%0A%20%20%20%20}%0A%20%20}%0A%20%20LIMIT%2010%0A)
  zur Extraktion der relevanten Autor:innen lieferte aufgrund Ihrer
  Komplexität einen Query-Timeout.
- Der *Umfang* und das *Format* der Wikidata-Datendumps benötigten
  spezielle Werkzeug zur Verarbeitung.

Wir lösten dies mit folgenden Kniffen:
- Für die DNB-Daten schrieben wir [einen speziellen
  SAX-Parser](https://github.com/weltliteratur/dnb/blob/master/rdf2json.py),
  der nur die für uns relevanten Daten aus dem RDF/XML-Datendump
  herausextrahierte. Dabei ignorieren wir das RDF-Modell und verlassen
  uns auf die XML-Struktur. Wir müssen daher die Daten nicht in den
  Hauptspeicher einladen, laufen aber in Probleme, wenn sich die
  XML-Repräsentation ändert (das gleiche RDF-Modell kann auf
  verschiedene Weise in XML serialisiert werden).
- Zum Verarbeiten der Wikidata-Datendumps verwendeten wir das
  [Wikidata-Toolkit](https://github.com/Wikidata/Wikidata-Toolkit). Dies
  erforderte die Implementierung [einer speziellen
  Java-Klasse](https://github.com/weltliteratur/wikidata) was
  technisch zwar keine Herausforderung darstellte, aber unseren
  Workflow zerbrach, da wir ursprünglich lediglich Python- und
  Shell-Skripte verwenden wollten.
- Die Ergebnisse beider Extraktionsprozesse haben wir im JSON-Format
  gespeichert und dann mit Hilfe [eines
  Python-Skripts](https://github.com/weltliteratur/dnb/blob/master/json2json.py)
  weiterverarbeitet (u.A. normalisiert, verbunden, gefiltert).

Ein Überblick über das Framework gibt die folgende Abbildung:

![Framework](https://lehkost.github.io/slides/2018-koeln/images/framework.svg)

Ein Teil der Ergebnisse wird in [diesem
Vortrag](https://lehkost.github.io/slides/2018-koeln/) vorgestellt und
ein anderer Teil demnächst im Metzler-Verlag veröffentlicht.

</div>



<div class="alert alert-success">

## Aufgaben
### Komplexität selbst erfahren

*erwarteter Zeitaufwand: ca. 1 Stunde*

Vergleichen Sie die empirische Zeitkomplexität der drei
Grundoperationen *Lesen*, *Einfügen* und *Entfernen* indem Sie den
nachfolgenden Python-Code ausführen und ergänzen:

</div>


In [None]:
%matplotlib inline
from random import randint                      # Zufallszahlen
from time import process_time                   # Zeitmessung
import matplotlib.pyplot as plt                 # Plotten
import numpy as np                              # mehrdimensionale Felder
plt.rcParams['figure.figsize'] = [10, 10]       # Plotgröße

# Experimentieren Sie mit verschiedenen Werten für die folgenden beiden Variablen
faktor = 10                                     # Anzahl Operationen = faktor * groesse
groessen = [100, 1000, 2500, 5000, 7500, 10000] # Listenlängen die wir durchprobieren
messdaten = []                                  # hier landen unsere Ergebnisse

for g in groessen:                              # alle Listenlängen durchlaufen
    A = [randint(0, g) for e in range(g)]       # Liste mit Zufallszahlen erzeugen

    # Lesen
    zeit_lesen = process_time()                 # Zeit messen
    for i in range(g * faktor):                 # Anzahl Lese-Operationen
        A[randint(0, g - 1)]                    # Zufallsstelle lesen
    zeit_lesen = process_time() - zeit_lesen    # verstrichene Zeit in Sekunden messen

    # Einfügen
    B = A.copy()                                # eine Kopie der Liste erstellen
    zeit_einf = process_time()                  # Zeit messen
    for i in range(g * faktor):                 # die Größe von B vervielfachen (Anzahl Einfügungen!)
        B.insert(randint(0, len(B)), "A")       # "A" an Zufallsstelle einfügen
    zeit_einf = process_time() - zeit_einf      # verstrichene Zeit in Sekunden messen

    # Entfernen
    # Ergänzen Sie hier den Code

    messdaten.append([g, zeit_lesen, zeit_einf]) # Ergebnis in Liste speichern

md = np.array(messdaten)                        # Liste in Feld umwandeln
plt.plot(md[:,0], md[:,0]**2, label='n²')       # g(n) = n² zum Vergleich
plt.plot(md[:,0], md[:,0], label='n')           # g(n) = n  zum Vergleich
plt.plot(md[:,0], md[:,1], label='Lesen')       # Lesen plotten
plt.plot(md[:,0], md[:,2], label='Einfügen')    # Einfügen plotten
plt.legend(loc='upper left')                    # Legende
#plt.yscale("log")                              # logarithmische y-Achse
plt.grid()                                      # Gitterlinien
plt.show()


<div class="alert alert-success">

- Welche Herausforderungen ergeben sich beim Implementieren von
  *Entfernen* und beim anschließenden Vergleich mit *Lesen* und
  *Einfügen*?
- Wie können Sie geeignete Werte für die Größe der Liste und die
  Anzahl der durchzuführenden Operationen auswählen?
- Welche Zeitkomplexität beobachten Sie für die verschiedenen
  Operationen?
- Inwiefern stimmen diese mit den Angaben für verkettete Listen in der
  Tabelle im [Abschnitt Grundlegende
  Operationen](#Grundlegende-Operationen) (nicht) überein? Wie lassen
  sich die Unterschiede mit Hilfe der Angaben aus der
  [Python-Dokumentation](https://wiki.python.org/moin/TimeComplexity)
  erklären?
- Optional: messen Sie die Laufzeit für die Operation *Schreiben*. Wie
  verhält sich diese im Vergleich zu den anderen Operationen?

**Abschluss:** Dokumentieren Sie Ihre Ergebnisse und Erkenntnisse in Ihrer [speziellen Arbeitsleistung](Vorlage_Spezielle_Arbeitsleistung.ipynb).

</div>



<div class="alert alert-success">

### Empirischer Vergleich der Zeitkomplexität verschiedener Sortierverfahren

*erwarteter Zeitaufwand: ca. 1 Stunde*

Vergleichen Sie die empirische Zeitkomplexität von *Insertion Sort*
mit dem in Python integrierten Sortierverfahren (`sorted`). Nutzen Sie
für Insertion Sort und die Durchführung des Vergleichs den Code aus
dem Abschnitt zur [empirischen Bestimmung der
Zeitkomplexität](7_Komplexitaet.ipynb#Empirische-Bestimmung-der-Zeitkomplexit%C3%A4t).

Beachten Sie folgende Hinweise für die Durchführung:
- Fügen Sie vor dem Code zur Zeitmessung die Funktion [insertion_sort](7_Komplexitaet.ipynb#Beispiel:-Insertion-Sort) ein.
- Übergeben Sie mittels `A.copy()` der Sortierfunktion jeweils eine
  Kopie der Liste `A` (sonst übergeben Sie u.U. eine schon sortierte
  Liste).
- Messen Sie die Zeit für den Aufruf von `sorted(A.copy())` mit Hilfe
  einer neuen Variable und fügen Sie das Ergebnis zu den Messdaten
  hinzu.
- Ändern Sie den Aufruf von `plt.plot()` für Insertion Sort, so dass
  statt der Anzahl der Vergleiche (`md[:,1]`) die Laufzeit (`md[:,2]`)
  geplottet wird.
- Fügen Sie dann eine weitere Zeile zum Plotten der neuen Daten hinzu,
  die sich in `md[:,3]` befinden sollten.
- Experimentieren Sie mit den vorgegebenen Listenlängen und fügen Sie
  ggf. größere Längen hinzu (Sie sollten dann auch bemerken, dass sich
  die Laufzeit deutlich erhöht).
- Um das Wachstum der Kurve für `sorted` besser sehen zu können,
  können Sie mit Hilfe von `plt.yscale("log")` die y-Achse
  logarithmisch skalieren.
- Der Code für Insertion läuft etwas langsamer als eigentlich nötig,
  da wir Code zum Zählen der Vergleiche eingefügt haben. Falls Sie
  sich trauen, entfernen Sie den entsprechenden Code.
- Sie können auch gerne noch weitere Vergleichsfunktionen zum Plot
  hinzufügen, insbesondere $n \log_2 n$ (die theoretische
  Zeitkomplexität von `sorted`). Ein Beispiel dafür finden Sie [am
  Ende der Lerneinheit
  Komplexität](7_Komplexitaet.ipynb#Komplexit%C3%A4t-von-Problemen).

</div>


In [None]:
# Fügen Sie hier den Code für Insertion Sort und die Messung/Visualisierung ein.


<div class="alert alert-success">

Welches Verhalten können Sie beobachten? Können Sie einen Unterschied
in der Laufzeit von Insertion Sort und dem in Python integrierten
Sortierverfahren feststellen? Entspricht die empirische
Zeitkomplexität der theoretischen?

**Abschluss:** Posten Sie Ihre Ergebnisse und Erkenntnisse im Forum.

</div>



<div class="alert alert-success">

### XKCD

*erwarteter Zeitaufwand: ca. 2 Stunden; Ergänzungsaufgabe*

Lesen Sie für eine Auswahl (z.B. drei) der XKCD-Comics (in dieser und
den vorherigen Lerneinheiten) die Erklärung auf
https://www.explainxkcd.com/ und erarbeiten Sie sich die Bedeutung
bzw. den Zusammenhang zur jeweiligen Lerneinheit. Welche zusätzlichen
Erkenntnisse haben sich dadurch ergeben? Inwiefern sind die Comics
geeignet, Wissen zu hinterfragen und zu ergänzen?

**Abschluss:** Posten Sie für einen Comic Ihre Erkenntnisse im Forum.

</div>
