Datenstrukturen 

LinkedList = Lineare Datenstruktur 

Vorbereitung auf Binärbäume (nicht lineare Datenstrukturen): 
- LinkedLists (als Queues) 
- Rekursion 

Alternative to arrays and linked lists: Sort array (=set)
: then binary search is fast 

### Was sind Datenstrukturen? 

Wenn wir uns überlegen, welche Struktur unsere Daten (nicht zu verwechseln mit den Python-Datentypen) haben sollen, sollten wir uns erstmal anschauen, welche Eigenschaften sie erfüllen muss. 
D.h. wir starten mit dem so genannten Interface.

Beispielsweise könnte es sein, dass wir mit einer Sequenz arbeiten möchten. Wir brauchen für unsere Arbeit eine Datenstruktur, auf der wir gewisse Operationen ausführen können. 
Beispielsweise möchten wir eine die Sequenz nicht nur erstellen, sondern dessen Länge ausgeben können, und Einträge vertauschen können. 

Wir brauchen also eine Datenstruktur für unsere Sequenz X, auf der die Operationen build(X), len() und swap(i, j) möglich sind. (i und j bezeichnen die Indizes).

Wie unsere Datenstruktur überhaupt und auf dem Memory angeordnet ist, bestimmt, wie durch diese Datenstruktur iteriert (auch: traversiert) werden kann. 

Ein statischer Array (nicht zu verwechseln mit einem numpy-array) beispielsweise ist eine Datenstruktur, der im build-Prozess ein fester Memory-Anteil zugeordnet wird. Alle Entries sind hier nacheinander angeordnet. 
Das bedeutet, dass wir, wir wir es auch von Python-Listen kennen, direkt auf die Indizes zugreifen können. 

Dummerweise ist dieser statisch Array unflexibel. Wir können zwar die Operationen len(), swap(i, j) ausführen, wir könnten aber nicht ein zusätzliches Item hintendran hängen, denn der Platz im Memory ist wahrscheinlich bereits belegt. Eine Operation append(x) ist also nicht möglich. Ist sie uns wichtig, ist der statische Array also nicht die Datenstruktur, die wir benötigen. 

### Dynamische Arrays und Linked Lists 

Du hast sicher bereits bemerkt, dass der Python-Datentyp *list* eine Methode append(x) besitzt. Es kann sich also nicht um die Datenstruktur statischer Array handeln. 

Um was handelt es sich dann? 
In Python ist der Typ *list* als dynamischer Array angelegt. 

Bei einem dynamischen Array wird im build(X)-Prozess etwas Platz freigehalten, um eben solche Operationen wie append(x) zu ermöglichen. Ist der Platz dann aufgebraucht, fertigt Python eine Kopie des vorhandenen Arrays an, dem dann wiederum zusätzlicher Platz zur Verfügung steht.  

Was wäre eine Alternative hierzu?

Anstatt für den gesamten Array einen festen Platz im Memory zu reservieren, wäre es ebenso möglich, jedem Item in Form einer Node einen Platz zuzuweisen. Dieser Node werden dann neben dem Wert des Items auch noch ein so genannter Pointer zugeordnet. Der Pointer weist auf die nächste Node in der Sequenz.

Soll hier nun eine Node in der Mitte eingefügt werden, so muss, neben dem Hinzufügen der neuen Node, lediglich der Pointer einer einzigen Node verändert werden. In dem dynamischen Array hingegen müssen alle hinteren Items einen Platz nach rechts gerückt werden. 

Weil jedoch nicht direkt auf den Index zugegriffen werden kann, ist das Traversieren durch diesen Datentyp etwas aufwendiger, also ineffizienter. Die Datenstruktur ist jedoch effizienter, wenn ein Item am Anfang einfügt werden soll - das nach Hinten rücken entfällt, und gleichzeitig muss nicht durch die Struktur traversiert werden. 

Diese Datenstruktur nennt sich *linked list*. Sie ist in Python nicht als inbuildt-Datentyp implementiert.  

### Eine Linked List implementieren

Wollen wir eine neue Datenstruktur implementieren, so sollten wir das korrekterweise in C programmieren, nicht in Python selbst, um nicht auf bereits bestehende Datenstrukturen zurückgreifen zu müssen. 

Hier wollen wir allerdings etwas nachsichtig sein, denn es dient uns nur zu Übungszwecken. 

Implementiere die Klassen LinkedList und Node. LinkedList soll eine Python-Liste als Argument nehmen. 

### Implementierung einer Doubly Linked List in Python

erstmal mit ohne Algorithmen

Aufgabe hierzu: FIFO (first in first out) Queue. Warum ist ein dynamischer Array, also eine Python-Liste so langsam? 
Antwort: alles muss um einen Index nach vorne gerückt werden. 
Build intuition for efficiency here. 

Nimm eine Liste, die, wie in Python, als dynamischer Array implementiert ist. In einer Firma gehen Aufträge im Minutentakt ein, die dann an die Packstationen in derselben Reihenfolge weitergeleitet werden. Wer zuerst bestellt, wird auch zuerst berücksichtigt. Das System der Firma speichert die noch nicht abgearbeiteten Aufträge in einer Queue. 

Wir können uns das so vorstellen: 

Was passiert, wenn ein neuer Auftrag reinkommt? Wir hängen ein Item an unsere Sequenz an. Ist unsere Sequenz ein Array, haben wir keine Probleme, das ist effizient, denn wir hängen einfach am Ende ein Item an. 

Was passiert aber, wenn ein Auftrag abgearbeitet ist? Alle anderen rutschen eine Position nach vorne. 

In einer Liste passiert genau die: Position 1 rutscht auf Index 0, Position 2 auf Position 1, etc. Wir benötigen hierfür also eine Schleife, die n Verschiebungen vornimmt. (Verständnisfrage: wieviele Verschiebungen, wenn das letzte Item entnommen würde?)

Mit einer LinkedList ist das anders. Wieviele Operationen brauchen wir hier? 
Was müssen wir tun? 1. am Ende einfügen: wir brauchen eine neue Node, die nun unser neuer Tail ist, und auf die ursrpüngliche Tail-Node als nächstes Element verweist. Außerdem müssen wir unserer vorangehenden Node noch mitteilen, dass sie nun nicht mehr Tail ist, sondern einen neuen Nachfolger hat. Doch das Einfügen am Ende war auch bei der Liste effizient.  

Was passiert allerdings in einer DoublyLinkedList, wenn nun ein neuer Auftrag abgearbeitet ist? 
Ähnlich wie beim Hinzufügen eines Items am Ende müssen wir nicht viele Operationen vornehmen: wir entfernen die erste Node, und teilen der zweiten Node mit, dass sie nun zum Head wird. Außerdem teilen wir unserer Struktur mit, welches die neue erste Node ist. 

Beide Prozesse - einen Auftrag hinzufügen, als auch einen Auftrag abarbeiten - sind vollkommen unabhängig von der Anzahl der noch abzuarbeitenden Aufträge. 
Und damit supereffizient. 

Queues werden übrigens auch in bestimmten Traversierungen durch (Binär)baeume eingesetzt, die wir im späteren Verlauf noch kennenlernen werden. 


Mergesort code for LL:
https://www.geeksforgeeks.org/merge-sort-for-linked-list/

Stell dir vor, wir möchten nun auch noch Duplikate entfernen, die sich möglicherweise bereits eingeschlichen haben. Der einfachste Approach wäre, eine Kopie der LinkedList zunächst zu sortieren, und anschließend Duplikate (mittels Binary Search?) au#
sfindig zu machen. (eher schwierig?! müssten danach ja wieder den Index finden)

Besseres (sichereres) Beispiel: stell dir vor, der Wirtschaftsprüfer verlangt zum Jahresende eine Aufstellung über den Median des akutell unbearbeiteten Auftragvolumens. 

Dafür könnten wir entweder eine Kopie unserer LL anfertigen, durch sie iterieren, und jeweils den größten und kleinsten Wert entfernen, bis nur noch einer übrig bleibt. 
Dafür benötigen wir eine Menge Operationen (Kopie, n*n Iterationen WC)
Stattdessen könnten wir uns überlegen, unsere Kopie zu sortieren. Das machen wir im nächsten Notebook (rekursiv). 