# Such- und Sortieralgorithmen

## Komplexe Datenstruktur - Bäume

Eine weitere wichtige Komplexe (zusammengesetzte) Datenstruktur sind Bäume. Sie werden insbesondere für effizientes Suchen benutzt.

Die trivialste Repräsentation eines Baumes in Python ist mit Hilfe von Tupeln. Ein Tupel besteht dabei aus einem Wert und einer Liste an direkten Kindern. Diese Liste enthält wiedrum Tupel der gleichen Form mit jeweils einem Wert und einer Liste an Kindern. Dies ist eine rekursive Datenstruktur!

Wir definieren den folgenden Baum

[![](https://mermaid.ink/img/pako:eNptj8EKgzAQRH8l7GkDekhE0Rx68g_aYy7BrFUwKjY5FPHfm2pbKLinmXnDsrtCM1kCBffFzB271XpkcYREFJJzlqYXxgrEgvODHHrPM8TsJK4Qq2_8v0eU0ZU_9nE7E3k0-SmSAlEKziEBR4szvY3nru-iBt-RIw0qSkutCYPXoMctVk3w0_U5NqD8EiiBMFvjqe5NfNSBas3woO0FhYI-BA?type=png)](https://mermaid.live/edit#pako:eNptj8EKgzAQRH8l7GkDekhE0Rx68g_aYy7BrFUwKjY5FPHfm2pbKLinmXnDsrtCM1kCBffFzB271XpkcYREFJJzlqYXxgrEgvODHHrPM8TsJK4Qq2_8v0eU0ZU_9nE7E3k0-SmSAlEKziEBR4szvY3nru-iBt-RIw0qSkutCYPXoMctVk3w0_U5NqD8EiiBMFvjqe5NfNSBas3woO0FhYI-BA)

In [124]:
baum_tuples = (12, [
    (6,[
        (3,[]),
        (9,[])
        ]),
    (18,[
        (15,[]),
        (21,[])
        ])
])

Wenn wir den Baum durchlaufen (traversen) wollen, brauchen wir rekursive Funktionen. Sie lassen sich nicht in Loops umwandeln. Die rekursiven Funktionen arbeiten dabei auf dem angegebenen Knoten und rufen sich dann selbst mit dem entsprechenden Teilbaum der Kinder auf.

In [126]:
def traverse_tuples(tree):	
	wert=tree[0] 		  				# der aktuelle Wert
	print(wert)  		  				# gebe den aktuellen Wert aus
	if tree[1]:  		  				# wenn kinder definiert sind
		for child in tree[1]: 			# iteriere durch alle Kinder
			traverse_tuples(child)		# und rufe die Funktion rekursiv auf

In [127]:
traverse_tuples(baum_tuples)

12
6
3
9
18
15
21


Wenn wir den Baum rekursiv durchlaufen (traversen), dann sehen wir, das wir den Baum von oben nach unten, links vor rechts durchlaufen. Wir fangen also beim Wurzelknoten 12 an, und gehen dann links tiefer zur 6 von dort links tiefer zur 3, dann rechts zur l, weil kein tieferes Element existiert, u.s.w.

Die Darstellung von Bäumen als Tupel ist zwar kompakt allerdings schlecht lesbar. Deshalb verwendet man meist Dictionaries bei denen man die Felder semantisch als `wert` und `kinder` bezeichnen kann. Durch Einrücken der Kinder wird die Struktur auch sichtbarer.

In [128]:
baum_dict = {"wert":12, 
        "kinder":[
                {"wert":6, 
                "kinder":[
                        {"wert":3, "kinder":[]},
                        {"wert":9, "kinder":[]}
                ]},
                {"wert":18, 
                "kinder":[
                        {"wert":15, "kinder":[]},
                        {"wert":21, "kinder":[]}
                ]}
        ]
}

Dadurch wird auch die `traverse` Funktion lesbarer.

In [129]:
def traverse_dict(tree):	
	wert=tree["wert"]     				# der aktuelle Wert
	print(wert)  		  				# gebe den aktuellen Wert aus
	if tree["kinder"]:  				# wenn kinder definiert sind
		for child in tree["kinder"]: 	# iteriere durch alle Kinder
			traverse_dict(child)   			# und rufe die Funktion rekursiv auf

Das Ergebnis bleibt identisch.

In [130]:
traverse_dict(baum_dict)

12
6
3
9
18
15
21


## Bubble Sort

Das Sortieren von Elementen in einer Liste ist ein übliche Aufgabe beim Programmieren. Hierfür gibt es einige Standard-Algorithmen, die man kennen sollte.

Bubble Sort ist einer der einfachsten Sortieralgorithmen. Hierbei wird jedes Element der Liste durchlaufen und mit dem nächsten Element verglichen. Ist das zweite Element kleiner als das erste wird die Position getauscht. Die Liste wird so lange wieder und wieder durchlaufen bis dieser Fall nicht mehr auftritt.

In [64]:
def bubbleSort(numbers):
    for i in range(len(numbers)-1):
        for j in range(0, len(numbers)-i-1):
            if numbers[j] > numbers[j + 1] :
                numbers[j], numbers[j + 1] = numbers[j + 1], numbers[j]

In [66]:
zahlenfolge = [12, 6, 3, 9, 18, 15, 21]

bubbleSort(zahlenfolge)

zahlenfolge

[3, 6, 9, 12, 15, 18, 21]

Es ist zu beachten, das Bubble Sort die Liste direkt modifiziert, also die vorherige Reihenfolge geändert wird.

Ein weiterer Algorithmus zum Sortieren ist Insertion-Sort. Er basiert auf der menschlichen Strategie Karten zu sortieren, indem wir die Werte dort einfügen wo sie am besten passen.

In [106]:
# Function to do insertion sort
def insertion_sort(arr):
    # Traverse through 1 to len(arr)
    for i in range(1, len(arr)):
        key = arr[i]
        # Move elements of arr[0..i-1], that are
        # greater than key, to one position ahead
        # of their current position
        j = i-1
        while j >=0 and key < arr[j] :
                arr[j+1] = arr[j]
                j -= 1
        arr[j+1] = key

In [107]:
zahlenfolge = [12, 6, 3, 9, 18, 15, 21]

insertion_sort(zahlenfolge)

zahlenfolge

[3, 6, 9, 12, 15, 18, 21]

Die Lösung im Programmieralltag ist die in Python eingebaute Funktion `sorted()`. Hier wird die Liste nicht modifiziert und muss neu zugewiesen werden.

In [93]:
zahlenfolge = [12, 6, 3, 9, 18, 15, 21]

zahlenfolge=sorted(zahlenfolge)

zahlenfolge

[3, 6, 9, 12, 15, 18, 21]

Im Performancevergleich der Funktionen schneidet Bubble-Sort schlechter ab als Insertion-Sort. Die eingebaute Funktion `sorted()` ist natürlich deutlich schneller als beide. Sie nutzt den Timsort-Algorithmus (eine variante von insertion_sort) und ist in C implementiert.

In [112]:
%timeit bubbleSort([12, 6, 3, 9, 18, 15, 21])

2.84 µs ± 71.7 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


In [113]:
%timeit insertion_sort([12, 6, 3, 9, 18, 15, 21])

1.55 µs ± 654 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


In [114]:
%timeit sorted([12, 6, 3, 9, 18, 15, 21])

216 ns ± 67.2 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)


## Finden von Elementen in Listen

Auch das finden von Elementen in Listen ist ein tägliche Aufgabe. Auch hier gibt es typische Algorithmen.

Der naive Ansatz ist die vollständige Suche indem man durch alle Elemente in einer Liste get um zu sehen ob das Element irgendwo zu finden ist.

In [154]:
def contains(list, x):	
	for l in list:	
		if(l == x):
			return True
	return False

Suchen wir als Beispiel ob 21 in unserer unsortierten Zahlenfolge `[12, 6, 3, 9, 18, 15, 21]` ist

In [159]:
zahlenfolge = [12, 6, 3, 9, 18, 15, 21]

contains(zahlenfolge, 21)

True

und ob 1 enthalten ist

In [156]:
contains(zahlenfolge, 1)

False

Auch der am Anfang aufgestellte Suchbaum kann zur Suche verwendet werden. Wir definieren eine neue Suchfunktion.

In [160]:
def tree_search(tree, suchwert):	
	wert=tree[0] 		  				# der aktuelle Wert
	if wert == suchwert: 
		return True
	if tree[1]:
		if suchwert < wert: 
			return tree_search(tree[1][0], suchwert)
		else:
			return tree_search(tree[1][1], suchwert)
	else:
		return False

In [161]:
tree_search(baum_tuples, 21)

True

Im Alltag kann die in Python eingebaute Suche mit `3 in zahlenfolge` genutzt werden.

In [162]:
21 in zahlenfolge

True

Im Performancevergleich siegt wieder die eingebaute Suche mit `3 in zahlenfolge`. Die Performance der naiven Suche mit `contains` ist besser als die Suche im Suchbaum, was an dem kleinen Beispiel liegt und dem Overhead durch die Datenstruktur und die rekursiven Funktionsaufruf. Insbesondere bei sehr großen Listen sind Suchbäume deutlich effektiver als die vollständige Suche.

In [163]:
%timeit contains(zahlenfolge, 21)

246 ns ± 3.37 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


In [164]:
%timeit tree_search(baum_tuples, 21)

The slowest run took 5.62 times longer than the fastest. This could mean that an intermediate result is being cached.
687 ns ± 651 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


In [165]:
%timeit 21 in zahlenfolge

79.3 ns ± 2.14 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)


Allerdings gilt auch hier das Sets schneller sind als Listen. Insbesondere bei großen Listen (>> 100) lohnt sich die Umwandlung in ein Set. 

In [166]:
zahlenset = set(zahlenfolge)

In [167]:
%timeit 21 in zahlenset

31.8 ns ± 1.08 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)
