# Binärsuchbäume
Modul Algorithmen & Datenstrukturen | Kapitel 1 | Notebook 4

Willkommen bei deiner vierten Übung zu Algorithmen und Datenstrukturen.
Hier lernst du eine Mengenstruktur kennen: den Binärsuchbaum.
Nach dieser Übung kannst du: 
* die Begriffe Binärbaum und Binärsuchbaum definieren und voneinander abgrenzen,
* die Binärsuchbaumeigenschaft benennen, 
* den Binärsuchalgorithmus verwenden, um Methoden zum Auffinden und Einfügen von Daten rekursiv zu implementieren.  
***

**Szenario**:
Die Geschäftsführung des Online-Versandhändlers kommt mit einem weiteren Anliegen auf dich zu:
Die Daten der Kundschaft sollen in einem System erfasst werden. Sie wünscht sich eine Lösung in Python, weil sie sich davon eine einfache Integration in bestehende Prozesse erhofft. Der Geschäftsführung ist vor allem wichtig, dass Personendaten schnell aufgefunden werden können. Sobald ein neues Konto auf der Website erstellt wird, soll das Nutzerkonto der Person dem Datensystem hinzugefügt werden.   

In unserem Szenario ist die Anordnung der Elemente in der Datenstruktur unwichtig. 
Wir benötigen deshalb keine sequenzielle Datenstruktur wie in unserem vorangegangen Warteschleifen-Szenario.
Das bedeutet, wir müssen unsere Daten nicht in einer vom Nutzenden vorgegebenen Reihenfolge verwalten. Stattdessen können die Daten in jeder beliebigen Struktur angeordnet sein. Das gibt uns etwas mehr Spielraum in der Gestaltung. 
In der einführenden Textlektion zu Datenstrukturen hatten wir bereits den Hash Table als Mengenstruktur kurz kennengelernt. In Python sind die Datentypen `dict` und `set` Vertreter dieser Datenstruktur. In dieser Übung wollen wir uns einer anderen Mengenstruktur widmden, die in Python keinen eingebauten Vertreter hat: dem Binärsuchbaum.

Hauptsächlich wichtig in unserem Szenario sind zwei Operationen, die Güte unserer Datenstruktur wird sich an deren Laufzeitkomplexitäten bemessen: 
* dem Auffinden bestehender Nutzerkonten,  
* dem Einfügen neuer Nutzerkonten.

In dieser Übung werden wir einen Binärsuchbaum mit den dazugehörigen Methoden anlegen, und uns Gedanken über deren Laufzeitkomplexitäten machen.
Doch bevor wir damit beginnen, werden wir zunächst anschauen, was ein Binärsuchbaum ist und wie er sich von dem Binärbaum abgrenzen lässt. 


## Die Grundstruktur: der Binärbaum

Der Binärsuchbaum ist eine Spezialform des Binärbaums. 
Was den Binärsuchbaum von anderen Binärbäumen unterscheidet, schauen wir uns später an.
Zunächst definieren und implementieren wir die Grundstruktur des Binärbaums. 

Wie die Linked List ist auch der Binärbaum eine Pointer-basierte Datenstruktur, der im Gegensatz zur Linked List über zwei Pointer verfügt: einen zum linken und einen zum rechten Kind.
Die Kinder sind entweder leer oder selbst wieder Binärbäume.
Wie bei der Linked List auch, sind die Elemente mit Daten gefüllt und die Datenstrukturklasse, hier der Baum, hat einen Pointer zum Startelement. 
Sprechen wir über Baumstrukturen, nennen wir die Elemente *Knoten* und das Startelement die *Wurzel* des Baums.
Sind beide Kinder eines Knotens leer, so nennen wir diese Knoten *Blätter*.

Für unser Szenario definieren wir die Knoten über den Nutzernamen des Kontos.
Die folgende Abbildung zeigt beispielhaft einen Binärbaum:
    
<img src="Binaerbaum_Struktur.png" alt="Binärbaum" style="width: 600px;"/>

Zusammen mit den Nutzernamen können wir natürlich noch andere Informationen abspeichern.
Der Nutzername dient hier zur eindeutigen Identifikation eines Nutzerkontos und somit auch des Knotens an sich.
Wir bezeichnen ihn als *Schlüssel*.
Jeder Nutzername darf nur einmal vergeben werden, denn sonst können wir Knoten nicht eindeutig identifizieren.  

Beginnen wir zunächst damit, die Grundstruktur zu implementieren.
Sie wird eine Klasse `DatabaseTree` und eine Klasse `DatabaseNode` haben.

```python
class DatabaseTree: 
    """A basic binary tree data structure. 

    Attributes: 
        root (DatabaseNode): the root node. Defaults to None.

    """
    
class DatabaseNode: 
    """A Node in DatabaseTree. 
    
    Args: 
        name (str): unique user name. 
        *kwargs: additional information to be stored.

    Attributes: 
        left (DatabaseNode): left child. Defaults to None.
        right (DatabaseNode): right child. Defaults to None.
        name (int): unique user name
        add_info (dict): additional information to be stored.

    """
```

##### <font color="#3399DB">Aufgabe 1</font>
> Implementiere den Binärbaum für unser Datensystem.
> Erstelle hierfür ein neues Python-Script mit dem Namen *tree.py*. Wie immer kannst du die Zellen hier im Notebook nutzen, um deinen Code zu entwerfen.  Überprüfe deinen Code anschließend anhand der vorbereiteten Unit Tests.

In [None]:
!pytest test_tree.py::test_node_init test_tree.py::test_node_init_errors

Die Grundstruktur können wir für unseren Anwendungsfall nutzen. 
Damit der Baum zu einem Binärsuchbaum wird, müssen die Knoten in einer bestimmten Art und Weise angeordnet sein, die *Binärsuchbaumeigenschaft* heißt. 
Sie stellt sicher, dass wir den Baum mit einem Binärsuchalgorithmus, wie wir ihn in der ersten Übung implementiert haben, durchsuchen können.
Werden neue Knoten an den Baum angehängt, sollte die Eigenschaft gewahrt werden. 
Im nächsten Abschnitt werden wir sie kennenlernen. 



## Die Binärsuchbaumeigenschaft

In unserem Onlineversandhandel gibt es ein Service-Center, das sich mit Anfragen, beispielsweise zum Bestellstatus, auseinandersetzt.
Bei jeder Anfrage sucht ein Mitarbeitender nach dem entsprechenden Nutzerkonto über eine Suchanfrage im System. Unsere Aufgabe ist es, diese Suchoperation möglichst schnell zu gestalten.
Wie könnten wir einen Baum systematisch nach einem Nutzerkonto absuchen? 

Erinnerst du dich an den Binärsuchalgorithmus aus der ersten Übung? 
Dort haben wir eine alphabetisch sortierte Bibliothek nach einem vorgegebenen Titel abgesucht. Hierfür haben wir einen Binärsuchalgorithmus verwendet, der das Regal wiederholt in zwei Teile unterteilte. 
Ganz ähnlich können wir hier auch vorgehen! 
Dazu müssen unsere Knoten aber so angeordnet werden, dass wir immer wissen können, ob sich der gesuchte Knoten links oder rechts eines besuchten Knotens befindet. 

Die Binärsuchbaumeigenschaft ist genau dies:  
* Die Schlüssel aller Knoten im linken Kind sind kleiner als der Schlüssel des Knotens selbst.
* Die Schlüssel aller Knoten im rechten Kind sind größer als der Schlüssel des Knotens selbst.

Die Binärsuchbaumeigenschaft grenzt den Binärsuchbaum vom allgemeineren Binärbaum ab. Sie macht übrigens keine Annahmen über die Verteilung der Knoten im Baum. Im Gegensatz zu unserem Buchsuchbeispiel aus der ersten Übung wird der Suchraum hier nicht notwendigerweise in zwei gleich große Teile geteilt. 

Schauen wir uns nochmal die Abbildung von oben an.
Die Knoten folgen keiner bestimmten Anordnung.
In der nächsten Aufgabe sollst du die Knoten so sortieren, dass die Binärsuchbaumeigenschaft erfüllt ist. 
Hier ist nochmal der Baum:

<img src="Binaerbaum_Struktur.png" alt="Binärbaum" style="width: 600px;"/>

##### <font color="#3399DB">Aufgabe 2</font>
> Sortiere die Knoten in der Abbildung so, dass die Binärsuchbaumeigenschaft erfüllt ist.
> Lass die Struktur bestehen: Links der Wurzel sollten sich wieder fünf Knoten an gleicher Stelle befinden und rechts drei.
> Notiere deine Lösung in Form von Kommentaren in der folgenden Zelle.

In deinem neu angeordneten Baum sollte sich der Knoten mit Nutzernamen 'fred' an derselben Stelle wie vorhin befinden. Der zugehörige Nutzername des Wurzelknotens ist nun 'paolo'.
Behalte deine Skizze mit der neuen Anordnung am besten. Du wirst sie später nochmal brauchen!

## Einen Knoten im Baum finden 

Wir kennen nun die Binärsuchbaumeigenschaft und wissen, wie die Knoten in unserem Baum angeordnet sein sollten.
Wird ein Nutzerkonto hinzugefügt, muss diese Eigenschaft gewahrt bleiben.
Darum kümmern wir uns gleich. 
Zunächst widmen wir uns der Suche nach einem Nutzerkonto. Wir dürfen davon ausgehen, dass die Binärsucheigenschaft erfüllt ist. 
Die Suche soll über eine Methode `find()` in unserer Klasse `DatabaseTree` getätigt werden. 

``` python 
def find(self, name): 
    """
    Return DatabaseNode with provided user name. Return None if no node is found or if tree is empty.

    Args: 
        name (str): user name to be searched for. 

    Returns: 
       DatabaseNode with specified user name, or None if nothing found. 

    """
```

In der nächsten Aufgabe sollst dir zunächst Gedanken um eventuelle Helferfunktionen und die benötigten Variablen machen. Schaue dir bei Bedarf nochmal deine Lösung aus Übung 1 an.
Analog zur ersten Übung bietet sich auch hier wieder eine rekursive Implementierung an.

##### <font color="#3399DB">Aufgabe 3</font>
> Notiere den Pseudocode für `find()` und eventuelle Helferfunktionen in der folgenden Zelle.
> Strebe eine rekursive Implementierung an.

Nun, da dein Konzept steht, kannst du dich an die Implementierung machen.


##### <font color="#3399DB">Aufgabe 4</font>
> Implementiere `find()` und eventuell benötigte Helferfunktionen.
> Füge die Methode der Klasse `DatabaseTree` im Skript *tree.py* hinzu.
> Teste deinen Code anschließend wieder mit den vorbereiteten Unit Tests.   

In [None]:
!pytest test_tree.py::test_find

Die Mitarbeitenden des Service-Centers können sollten nun schnell Ergebnisse auf ihre Suchanfragen erhalten.
Doch wie schnell?
Wir hatten uns in Übung 1 schon ein paar Gedanken um die Laufzeitkomplexität einer binären Suche gemacht.
Der Algorithmus aus Übung 1 hatte das Regal immer in zwei annhähernd gleich große Teile geteilt.
Unser Binärsuchbaum ist nicht unbedingt ausgeglichen: Auf einer Seite kann ein Baum 'länger' sein als auf der anderen.
In dem beispielhaften Baum aus der Abbildung müssen wir nach Knoten links der Wurzel potenziell länger suchen als nach Knoten auf der rechten Seite.  

##### <font color="#3399DB">Aufgabe 5</font>
> Wenn $h$ die Anzahl der Knoten von der Wurzel bis zum am weitesten entfernten Kind angibt, welche Laufzeitkomplexität hat dann `find()`?
> 1) $O(n)$
> 2) $O(h)$
> 3) $O(log \: n)$
> 4) $O(log \: h)$
> 
> Notiere deine Antwort als Kommentar in der folgenden Codezelle. Die Lösung findest du wieder in der folgenden aufklappbaren Box. 

**Lösung**: Laufzeitkomplexität von `find()`. 
<div class="details">
Im schlechtesten Fall befindet sich das gesuchte Nutzerkonto im Blatt, welches den größten Abstand zur Wurzel hat, oder wird dort nicht gefunden.
Der Abstand ist dabei genau die Anzahl der Knoten, die durchlaufen werden müssen.
Weil auf dem Weg alle durchlaufenen Knoten besucht werden, ergibt sich eine Laufzeitkomplexität von $O(h)$.
Wäre der Baum ausgeglichen, oder annhähernd ausgeglichen, so wie in dem Buchsuchbeispiel aus Übung 1, so wäre die Laufzeitkomplexität wieder $O(log n)$.
</div>

Die beste Laufzeitkomplexität für `find()` erreichen wir bei ausgeglichenen Binärsuchbäumen, weil dann der Weg von der Wurzel bis zum am weitesten entfernten Kind möglichst kurz ist.
Spezielle Unterformen des Binärsuchbaums gleichen sich selbst aus, sobald Knoten eingefügt oder entfernt werden.
*AVL-Tree* oder *Red-Black Tree* sind Beispiele hierfür.
Sie unterscheiden sich in den Mechanismen, mit denen das Ausbalancieren vorgenommen wird. 
Da der Ausgleich selbst auch mit Aufwand verbunden ist, ist die Entscheidung über ihren Einsatz eine Abwägungssache.
In Anwendungsfällen wie unserem Szenario, in denen das Auffinden von Knoten sehr wichtig ist, überwiegen in der Regel die Vorteile des Ausbalancierens. In dieser Übung werden auf den Ausgleich dennoch verzichten. Im nächsten Abschnitt werden wir uns lediglich darum kümmern, dass Knoten so in `DatabaseTree` eingefügt werden, dass die Binärsuchbaumeigenschaft nicht verletzt wird. Wir müssen also 'hoffen', dass unser Binärsuchbaum automatisch einigermaßen ausgeglichen ist.  

## Einen Knoten in den Baum einfügen 

Bisher haben wir unser Datensystem noch nicht aufgebaut.
Dafür benötigen wir eine Methode zum Einfügen neuer Konten.
Die Methode legen wir wieder in der Klasse `DatabaseTree` an.
Hier ist der Docstring für die Methode `insert()`:

```python 
def insert(self, node): 
    """
    Insert DatabaseNode object into self. The binary search tree property must be preserved. 
    
    Args: 
        node (DatabaseNode): node to be inserted. 
    
    Returns: 
        None 
        
    """
```

Eine wichtige Frage müssen wir vor der Implementierung noch beantworten.
Wie können wir einen Datenpunkt in unseren Binärsuchbaum einfügen, ohne die Binärsuchbaumeigenschaft zu verletzen? 
Im Prinzip gehen wir sehr ähnlich vor wie bei der Suche auch:
Wir suchen rekursiv nach dem Schlüssel unseres neuen Kontos.
Den werden wir nicht finden, denn er muss einzigartig sein, darf also noch nicht vorhanden sein.
Stattdessen werden wir auf einen noch unbesetzten Platz stossen.
Genau an diesen Platz können wir das Konto einfügen. 

Der Algorithmus für `insert()` lässt sich folgendermaßen beschreiben: 
1. Falls der Binärsuchbaum leer ist, füge das neue Konto als Wurzel in den Baum ein und beende den Prozess. 
2. Andernfalls betrachte den Nutzernamen der Wurzel des Baums. Liegt der Nutzername des neuen Kontos im Alphabet vor dem Nutzernamen der Wurzel, fahre mit dem linken Kind der Wurzel fort. Liegt er dahinter, fahre mit dem rechten Kind fort, und nenne das entsprechende Kind Wurzel. Wiederhole alle Schritte ab 1. 

Nun bist du dran. In der nächsten Aufgabe sollst du dir überlegen, wo neue Nutzerkonten in unserem Beispielbaum eingefügt werden sollen.
Nimm dir dazu nochmal deine Skizze des korrigierten Baums aus der obigen Abbildung, die du in Aufgabe 2 erstellst hast, zur Hand.

##### <font color="#3399DB">Aufgabe 6</font>
> Füge Nutzerkonten mit den Nutzernamen 'rahel123' und 'ali_ali' in den korrigierten Baum aus Aufgabe 2 ein.
> Gehe vor, wie im Algorithmus beschrieben.
> Wessen linkes Kind ist 'rahel123', wessen rechtes 'ali_ali'?
> Notiere deine Ergebnisse wieder als Kommentare in der folgenden Zelle.

**Lösung**: Einfügen von 'rahel123' und 'ali_ali' in den Binärsuchbaum. 
<div class="details">
'rahel123' sollte nun das linke Kind von 'rita' sein, 'ali_ali' sollte das rechte Kind von 'alfred_10' sein. 
</div>

Nun, da wir die prinzipielle Vorgehensweise betrachtet haben, können wir die Implementierung für `find()` vorbereiten. 


##### <font color="#3399DB">Aufgabe 7</font>
> Schreibe zur Vorbereitung den Pseudocode für `insert()` und eventuelle Helferfunktionen auf. Strebe am besten wieder eine rekursive Implementierung an. 

Wir sind nun soweit und können `insert()` implementieren. 


##### <font color="#3399DB">Aufgabe 8</font>
> Implementiere `insert()`. Füge die Methode wieder der Klasse `DatabaseTree` in deinem schon angelegten Skript *tree.py* hinzu.
> Nutze anschließend wieder die vorbereiteten Tests, um deinen Code zu überprüfen.  

In [None]:
!pytest test_tree.py::test_insert test_tree.py::test_insert_empty

Hervorragend. Wird auf der Website ein neues Nutzerkonto erstellt, ruft das System im Hintergrund die Methode `insert()` der Klasse `DatabaseTree` auf. Mach dir zum Abschluss auch noch einmal Gedanken um die Laufzeitkomplexität von `insert()`.


##### <font color="#3399DB">Aufgabe 9</font>
> Wenn $h$ die Anzahl der Knoten von der Wurzel bis zum am weitesten entfernten Kind angibt, welches ist dann die Laufzeitkomplexität von `insert()`? 
> 
> 1) $O(n)$
> 2) $O(h)$
> 3) $O(log \: n)$
> 4) $O(log \: h)$
> 
> Notiere deine Antwort als Kommentar in der folgenden Codezelle.

Die Lösung zu Aufgabe 9 kannst du wieder sehen, wenn du die folgende Box aufklappst. 

**Lösung**: Laufzeitkomplexität von `insert()`. 
<div class="details">
Im schlechtesten Fall muss der Baum bis zum Blatt mit dem größten Abstand zur Wurzel durchlaufen werden, um den neuen Knoten dort einzufügen. 
Weil auf dem Weg wieder alle durchlaufenen Knoten besucht werden, ergibt sich auch hier eine Laufzeitkomplexität von $O(h)$.
</div>

**Glückwunsch**:
Du hast die Datenstruktur als Binärsuchbaum implementiert. Im System können nun neue Nutzerkonten problemlos eingefügt und gefunden werden. Du beobachtest den Aufbau des Systems eine Weile, um sicherzugehen, dass der Baum keine starke Unausgeglichenheit aufweist. 

**Merke**: 
* Ein Binärbaum ist eine Datenstruktur, in der jeder Knoten maximal zwei Kinder hat, die wieder Binärbäume sind.
* Erfüllt ein Binärbaum die Binärsuchbaumeigenschaft, so sprechen wir von einem Binärsuchbaum. 
* Der Binärsuchbaum ist eine Mengenstruktur. Er verwaltet Daten nicht in einer vom Nutzer vorgegebenen Reihenfolge. 
* Binärsuchbaume sind gut dafür geeignet, mit einem Schlüssel nach Knoten zu suchen und Knoten einzufügen.
* Ausgeglichene Binärsuchbäume sind besser darin, Knoten zu finden, als unausgeglichene. Das Ausbalancieren selbst ist allerdings mit Aufwand beim Einfügen und Entfernen von Knoten verbunden. 

***
Hast du eine Frage zu dieser Übung? Schau ins Forum, ob sie bereits gestellt und beantwortet wurde.
***
Fehler gefunden? Kontaktiere den Support unter support@stackfuel.com .
***