# Dictionary / Map

Ein Dictionary, auch Map, genannt ist ein Abstrakter Datentyp, der in der Informatik sehr wichtig ist und sehr häufig zum Einsatz kommt. Er ist in allen gängingen Programmiersprachen implementiert.

Ein Dictionary besteht aus Schlüssel-Wert-Paaren (key-value pairs). Dabei wird von einem Schlüssel auf einen Wert abgebildet. Es gibt drei wesentliche Operationen, nämlich __insert__, __get__ und __remove__.

__insert(key, value)__:

Die Insert-Operation fügt ein Paar aus einem Schlüssel und einem Wert in die Datenstruktur ein. Sowohl Schlüssel, als auch der Wert, auf den abgebildet werden soll, können von jedem erdenklichen Datentyp sein.

__get(key)__:

Diese Operation gibt den Wert, der zu dem gesuchten Schlüssel passt, zurück. Befindet sich kein Eintrag mit dem gesuchten Schlüssel im Dictionary, so wird __null__ zurückgegeben.

__remove(key)__:

Diese Operation entfernt einen Eintrag mit dem gegebenen Schlüssel aud dem Dictionary.

Die genannten drei Operationen ließen sich mit ballancierten Bäumen, beispielsweise einem AVL-Baum, implementieren. Jedoch liegt die Laufzeit für diese Operationen bei einem balancierten Baum in $\mathcal{O}(\log n)$. Ziel in diesem Kapitel ist es, eine Datenstruktur zu implementieren, die dies in konstanter Zeit schafft.

# Direct Access Table

Bei diesem Implementierungsversuch weist man, wie bei einem Array, einen festen Bereich im Spicher der Datenstruktur zu. Nun kann man direkt über den Index auf jeden Slot zugreifen. Sind die Schlüssel nicht-negative Integers, so kann man festlegen, dass der Schlüssel immer genau dem Index des Slots entspricht.

Dies wirft zwei Probleme auf. Zum einen möchte man eine Datenstruktur haben, bei welchem die Schlüssel von einem beliebigen Datentyp sind (Es wurde als Bedingung angenommen, dass es sich um nicht-negative Integers handelt). Zum anderen beträgt der Speicheraufwand $\mathcal{O}(\left| U \right|)$. $U$ ist dabei das Schlüsseluniversum. Dies wäre absolut unpraktikabel.

__Definition 7.1__
Das Schlüsseluniversum $U$ ist die Menge aller möglichen Schlüssel.

__Definition 7.2__
Die Schlüsselmenge $S$ ist die Menge aller Schlüssel, die sich derzeitig in einem Dictionary befinden.

__Satz 7.3__
$S \subset U$

# Hash Table

Eine Hash Table bzw. Hash Map ist eine Implementation des ADT Dictionary. Dabei wird auch per direkten Slotzugriff, wie bei der Direct Access Table, vorgegangen. Jedoch gibt es eine feste Anzahl $m$ an Slots, wobei gilt $m \ll \left| U \right|$. Nun wird eine Hashfunktion $h: U \to \{0, 1, \dotsc, m-1\}$ benötigt, die vom Schlüsseluniversum auf einen der Slots $\{0, 1, \dotsc, m-1\}$ abbildet. Wie so eine Funktion aussehen kann wird noch im Folgenden behandelt.

Somit wurde der Speicheraufwand deutlich reduziert.

Um das Problem, dass es sich bei den Schlüsseln um etwas anderes als nicht-negative Integers, z.B. Strings, handeln kann, zu lösen, wird eine sogenannte pre-hash Funktion benötigt. Dies ist eine Funktion, die vom Schlüsseluniversum auf eine nicht-negative ganze Zahl abbildet. Theoretisch betrachtet ist dies möglich, da alles, was in einem Computer dargstellt wird, diskret und endlich ist. Schließlich könnte man die Bits, durch welche das entsprechende Datum dargstellt wird, als nicht-negativen Integer auf fassen und dies als den pre-hash-Wert nehmen. Dies würde jedoch mitunter zu sehr großen Zahlen führen, weshalb man in der Praxis meist bessere pre-hash-Funktionen nimmt. Hat man beispielsweise einen String mit Zeichen zwischen a-z, so könnte man den String als Zahl auffassen, die ensprechend Basis 26 hat.

__Beispiel__:

$h('adf') = 0 \cdot 26^2 + 3 \cdot 26 + 5 \cdot 1 = 83$

Nun kann man mit dem geprehashten Wert, der ein nicht-negativer Integer ist, so umgehen, als wäre dieser der eigentliche Schlüssel. 

In der Programmierpsrache Java beispielsweise findet dieses Pre-Hashing durch die hashCode()-Methode, die jede Klasse implementiert, statt.

## Kollisionen

Durch die Tatsache, dass $m < \left| U \right|$, ensteht ein neues Problem, welches behandelt werden muss, nämlich Kollisionen.

__Definition 7.4__
Eine Kollision unter der Hashfunktion $h$ tritt auf, wenn für $x, y \in S$ mit $x \neq y$ gilt, dass $h(x) = h(y)$.

Eine  Kollision tritt also auf, wenn zwei oder mehrere unterschiedliche Schlüssel den gleichen Hash-Wert haben. Dies hat zur Folge, dass sie sich den gleichen Slot in der Hash Map teilen müssten. Um dieses Problem zu behandeln gibt es mehrere Verfahren. Im Folgenden werden Hashing with Chaining, Open Addressing und Cuckoo Hasing vorgestellt.

### Hashing with Chaining

Bei __Hashing with Chaining__ wird in einem Slot der Hash Table anstatt einem Wert eine Linked List von Schlüssel-Wert-Paaren gespeichert. Kommt es beim Einfügen zu einer Kollision, so fügt man das Schlüssel-Wert-Paar ans Ende dieser List ein. Möchte man nach eine Schlüssel suchen, so muss man die Liste an dem entsprechenden Slot iterieren. Handelt es sich um eine sehr schlechte Hashfunktion, bei der es viele Kollisionen gibt, so kann es passieren, dass alle Schlüssel den gleichen Hash-Wert haben und somit eine Linked List mit der Länge $\mathcal{O}(n)$ bilden. $n$ ist dabei die Anzahl der Elemente in der Datenstruktur, $n = \left| S \right|$. Die worst-case Komplexität liegt somit für alle Operationen in $\mathcal{O}(n)$. Für gute Klassen von Hashfunktionen tritt dieser worst-case jedoch mit einer sehr geringen Wahrscheinlichkeit ein. Man kann $\mathcal{O}(\log n)$ im worst-case erreichen, indem man statt Linked Lists ballancierte Bäume verwendet.