# Datenstrukturen


## Arrays

Ein Array ist eine der grundlegendsten Datenstrukturen, bei welcher es sich um eine Sammlung von Elementen, welche alle durch einen Index eindeutig identifiziert werden, handelt. 

Die einfachste Form eines Arrays ist ein ein-dimensionales Array. Bei einem ein-dimensionalen Array werden alle Elemente direkt nacheinander im Arbeitsspeicher abgelegt. Durch diese Festlegung ist es möglich anhand des Index und der Basisadresse des Arrays (der Adresse des 0. Elements) direkt auf die Speicheradresse des Elements mit entsprechenden Index zuzugreifen.

Bei höher-dimensionalen Arrays spricht man auch von Matrizen. Hier bedarf es spezieller Funktionen, die von einem $n$-Tupel, das den Index angibt (bsp. (1, 2)), auf eine Speicheradresse abbildet. Eine mögliche Implementation für ein 2-dimensionales Array ist, jede Reihe der Matrix hintereinander abzuspeichern, und so anhand der Länge jeder Reihe auf den entsprechenden 2-dimensionalen Index zugreifen zu können.

Es ist zu beachten, dass die Länge eines Arrays, im Gegensatz zu Listen, nicht variabel ist, da ein Array nicht über den für ihn zugewiesenen Speicherraum im Arbeitsspeicher hinausgehen darf.

![Array](https://docs.oracle.com/javase/tutorial/figures/java/objects-tenElementArray.gif)

### Komplexitätsbetrachtung

#### Lesen

Da jeder Index einer festen Speicheradresse zugeordnet wird, kann in konstanter Zeit $\mathcal{O}(1)$ auf ein Element zugegriffen werden.

#### Schreiben

Zum Schreiben muss zunächst die Speicheradresse gefunden werden. Dies geschieht in konstanter Zeit. Anschließend muss der entsprechende Wert der Arbeitsspeicheradresse geändert werden. Hierfür ergibt sich ebenfalls eine Gesamtlaufzeit von $\mathcal{O}(1)$. 

<style="background: grey"/>## Binary Search

Möchte man nicht per Index auf ein Element zugreifen, sondern ein Element anhand des Wertes in einem Array finden, so könnte man jedes Element eines Arrays durchgehen und überprüfen, ob der Wert mit dem gesuchten Wert übereinstimmt. Da man hier bis zu $n$-Elemente ($n$: Anzahl der Elemente des Arrays) untersuchen muss, ist für die Suchoperation ein Zeitaufwand von $\mathcal{O}(n)$ nötig.

Handelt es sich um ein sortiertes Array, so kann man einen der grundlegendsten und bedeutendsten Algorithmen, nämlich Binary Search, nutzen. Bei diesem Algorithmus greift man zunächst auf das Element in der Mitte des Arrays zu und prüft, ob der Wert dieses Elements mit dem gesuchten Wert übereinstimmt. Ist dies der Fall, so hat man bereits das gesuchte Element gefunden. Ist dies nicht der Fall, so kann man die Tatsache, dass das Array sortiert ist, nutzen und überprüfen, ob der Wert des Elements kleiner oder größer ist, als der gesuchte Wert. Allgemein formuliert auf einer abstrakteren Ebene, wird geprüft ob die Elemente ($i$, $j$) ($i$: Wert des Elements, $j$: gesuchter Wert) zur gegebenen Ordnungsrelation gehören. Beim Sortieren von Zahlen handelt es sich um die < ("kleiner als") Relation. Ist der gesuchte Wert kleiner als der Wert des Elements, so lassen sich alle Elemente nach dem mittleren Element ausschließen, da sie aufgrund der Sortiertheit jeweils einen nicht-kleineren Wert haben als der Wert des mittleren Element, welcher bereits zu groß ist. Dies bedeutet, dass nur noch das Teilarray links neben dem mittleren Element in Frage kommt. Ist der gesuchte Wert größer, so kommt entsprechend nur noch die rechte Hälfte in Frage. Nun kann man mit diesem Teilarray erneut Binary Search durchführen und weiterhin in ein halb so großes Teilarray teilen. Dieser Vorgang wird so lange wiederholt, bis entweder das Element mit dem entsprechenden Wert gefunden wurde oder es sich um ein leeres Array handelt. Aus dem zweiten Fall lässt sich schließen, dass der gesuchte Wert im Array nicht vorkommt.

<img src="https://qph.ec.quoracdn.net/main-qimg-aa8cb451067a7e3fc6dd9253b5617d45.webp" alt="Drawing" style="width: 450px;"/>

In [13]:
import numpy as np
import math

def binary_search(arr, value, lo=None, hi=None):
    if not lo:               
        lo = 0               
    if not hi:
        hi = len(arr)        
    if lo >= hi:             
        return None          
    mid = math.floor((lo + hi) / 2) 
    if value == arr[mid]:   
        return mid
    if value < arr[mid]:     
        return binary_search(arr, value, lo, mid)
    return binary_search(arr, value, mid+1, hi)  
                                                
print(binary_search(np.array([1, 4, 6, 7, 9, 13, 15, 16, 18, 20, 21]), 6))

2


## Selection Sort

Selection Sortist einer der einfachsten Algorithmen zum Sortieren von Arrays. Man sucht zunächst nach dem kleinsten Element des Arrays und platziert es an den Anfang. Nun setzt man diesen Schritt mit dem restlichen Array fort und sucht auch hier nach dem kleinsten Element, dieses wird dann entsprechend dahinter, also an zweiter Stelle, platziert. Dieser Vorgang wird $n$-mal (n: Anzahl der Elemente im Array) wiederholt.

### Komplexitätsbetrachtung

$T(n)$ - Anzahl der Schritte in Abhängigkeit von $n$

$$T(n) = \sum_{i=1}^{n} \left(\sum_{j=i}^{n}1 \right) = \sum_{i=1}^{n}i = \frac{n\cdot(n+1)}{2} = \frac{n^2}{2}+\frac{n}{2} = \mathcal{O} \left(n^2 \right)$$

Damit liegt der Zeitaufwand von Selection Sort in $\mathcal{O}(n^2)$.
Da dieser Algorithmus als In-place Algorithmus ausgeführt werden kann, wird kein zusätzlicher Speicher benötigt und der Speicheraufwand liegt in $\mathcal{O}(1)$.

In [14]:
def selection_sort(arr):
    for i in range(0, len(arr)):
        _min = arr[i]         #temporary variable to store the mininum found so far
        index = i             
        for j in range(i+1, len(arr)):
            if arr[j] < _min:   
                _min = arr[j]
                index = j
        arr[i], arr[index] = arr[index], arr[i]  #put i-th lowest number at index i, i.e. swap at index i and index of lowest
    return arr                                   #element, since order of the so far unsorted subarray doesn't matter

print(selection_sort(np.asarray([5, 1, 8, 2, 7, 3, 4])))

[1 2 3 4 5 7 8]


## Bubble Sort

Bei diesem Sortierverfahren wird das Array mehrmals durchlaufen. Jedes Paar wird miteinander veglichen. Ist es in verkehrter Reihenfolge, also ist steht ein größerer Wert vor einem kleineren, so tauschen die beiden Elemente ihre Positionen. Damit das komplette Array sortiert wird, muss es $n$-mal durchlaufen werden.

![Bubble Sort](https://upload.wikimedia.org/wikipedia/commons/thumb/8/83/Bubblesort-edited-color.svg/288px-Bubblesort-edited-color.svg.png)

### Komplexitätsbetrachtung

$T(n)$ - Anzahl der Schritte in Abhängigkeit von $n$

$$T(n) = \sum_{i=1}^{n} \left(\sum_{j=1}^{i}1 \right) = \sum_{i=1}^{n}i = \frac{n\cdot(n+1)}{2} = \frac{n^2}{2}+\frac{n}{2} = \mathcal{O} \left(n^2 \right)$$

Damit liegt der Zeitaufwand von Selection Sort in $\mathcal{O}(n^2)$. Da dieser Algorithmus ebenfalls "In-place" ausgeführt wird, wird kein zusätzlicher Speicher benötigt und der Speicheraufwand ist $\mathcal{O}(1)$.

In [15]:
def bubble_sort(arr):
    for i in reversed(range(0, len(arr))):
        for j in range(0, i):                  
            if arr[j] > arr[j+1]:              
                arr[j], arr[j+1] = arr[j+1], arr[j]  #swap the elements, if they are in wrong order
    return arr

print(bubble_sort(np.asarray([5, 1, 8, 2, 7, 3, 4])))

[1 2 3 4 5 7 8]


## Linked List

Eine __Linked List__ ist eine Implementation für den ADT Liste. Man kann dabei zwischen einer __Singly Linked List__ und einer __Doubly Linked List__ unterscheiden.

### Singly Linked List

Bei einer __Singly Linked List__ werden die Elemente der Liste als Nodes abgebildet. Ein Node besteht dabei aus zwei Werten. Dem eigentlichen Wert des Elements und einem Pointer, der auf das nächste Element der Liste zeigt. Der Pointer des letzten Elements der Liste hat den Wert __null__. Um auf die Liste zuzugreifen, wird die Adresse des ersten Nodes angegeben. Da jeweils die Speicheradressen des nächsten Elements gegeben sind, kann man durch Iteration der Pointer, die entsprechenden Elemente der Liste erreichen.

Die Liste [5, 10, 20, 1] wird folgendermaßen dargestellt:

<img src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTH3eRv3Nvh9u12T_Qnx_QWjxG-Nj5MpQSX-AjaWMiayEaN6gI6" alt="Drawing" style="width: 400px;"/>

In [16]:
class Node:
    def __init__(self):
        self.value = None
        self.next = None

    def add(self, value, index):
        if index > 1 and self.next is not None:
            return self.next.add(value, index - 1)
        elif index == 1:
            new_node = Node()
            new_node.value = value
            new_node.next = self.next
            self.next = new_node
            return True
        return False


class SinglyLinkedList:
    def __init__(self):
        self.head = Node()
        self.length = 0

    def add(self, value, index=None):
        if index is None:
            index = self.length
        if index > 0:
            if self.head.add(value, index):
                self.length += 1
        elif index == 0:
            new_node = Node()
            new_node.value = value
            new_node.next = self.head
            self.head = new_node
            self.length += 1

    def print_lst(self):
        node = self.head
        for i in range(self.length - 1):
            print('{0}, '.format(node.value), end='')
            node = node.next
        print(node.value)


lst = SinglyLinkedList()
lst.add(5)
lst.add(10)
lst.add(20)
lst.add(1)

lst.print_lst()


5, 10, 20, 1


#### Access (Zugriff)

Da man zunächst nur auf den Anfang der Liste zugreifen kann, muss man über die Pointer auf die jeweils nächsten Elemente durch die gesamt Liste iterieren um das letzte Element der Liste zu erreichen. Der Aufwand zum Zugriff auf ein Element beträgt also $\mathcal{O}(n)$.

#### Insert (Einfügen)

Möchte man hinter das $m$-te Element einer Liste ein neues Element einfügen, so wird zunächst an einer beliebigen Stelle im Speicher ein neues Node angelegt. Danach muss der Pointer, der auf das nächste, also $m+1$-te, Element zeigt in das neu erstellte Node geschrieben werden. Schließlich soll das bisherige $m+1$-te Element ja Nachfolger des einzufügenden Elements sein. Als letzter Schritt muss der Pointer des $m$-ten Elements so umgeschrieben werden, dass es auf das neu erstellte Node zeigt.

<img width="450" src="https://www.geeksforgeeks.org/wp-content/uploads/gq/2013/03/Linkedlist_insert_middle.png"/>

Für den Sonderfall, dass an erster Stelle, also am Index 0, das Element eingeügt werden soll, so muss der Pointer des neuen Nodes auf das bisher erste Element zeigen. Zusätzlich wird der Pointer auf den Head der Linked List entsprechend bearbeitet.

<img width="450" src="https://www.geeksforgeeks.org/wp-content/uploads/gq/2013/03/Linkedlist_insert_at_start.png"/>

In beiden Fällen wird eine konstante Anzahl an Operation durchgeführt, somit beträgt der Aufwand zum Einfügen $\mathcal{O}(1)$.

#### Delete (Entfernen)

Um das $m$-te Element der Liste zu löschen, muss lediglich der Pointer des $m-1$-ten Nodes so modifiziert werden, dass er auf das $m+1$-te Element zeigt. Auch hier wird lediglich eine konstante Anzahl an Operationen benötigt, was zu einem Aufwand von $\mathcal{O}(1)$ führt.

<img width="450" src="https://www.geeksforgeeks.org/wp-content/uploads/gq/2014/05/Linkedlist_deletion.png"/>

Für den Fall, dass das Element am Index 0 entfernt werden soll, muss der Pointer, der auf den Head der Linked List zeigt, auf das Node mit Index 1 zeigen.