# Dictionary / Map

Ein Dictionary, auch Map, genannt ist ein Abstrakter Datentyp, der in der Informatik sehr wichtig ist und sehr häufig zum Einsatz kommt. Er ist in allen gängingen Programmiersprachen implementiert.

Ein Dictionary besteht aus Schlüssel-Wert-Paaren (key-value pairs). Dabei wird von einem Schlüssel auf einen Wert abgebildet. Es gibt drei wesentliche Operationen, nämlich __insert__, __get__ und __remove__.

__insert(key, value)__:

Die Insert-Operation fügt ein Paar aus einem Schlüssel und einem Wert in die Datenstruktur ein. Sowohl Schlüssel, als auch der Wert, auf den abgebildet werden soll, können von jedem erdenklichen Datentyp sein.

__get(key)__:

Diese Operation gibt den Wert, der zu dem gesuchten Schlüssel passt, zurück. Befindet sich kein Eintrag mit dem gesuchten Schlüssel im Dictionary, so wird __null__ zurückgegeben.

__remove(key)__:

Diese Operation entfernt einen Eintrag mit dem gegebenen Schlüssel aud dem Dictionary.

Die genannten drei Operationen ließen sich mit ballancierten Bäumen, beispielsweise einem AVL-Baum, implementieren. Jedoch liegt die Laufzeit für diese Operationen bei einem balancierten Baum in $\mathcal{O}(\log n)$. Ziel in diesem Kapitel ist es, eine Datenstruktur zu implementieren, die dies in konstanter Zeit schafft.

# Direct Access Table

Bei diesem Implementierungsversuch weist man, wie bei einem Array, einen festen Bereich im Speicher der Datenstruktur zu. Nun kann man direkt über den Index auf jeden Slot zugreifen. Sind die Schlüssel nicht-negative Integers, so kann man festlegen, dass der Schlüssel immer genau dem Index des Slots entspricht.

Dies wirft zwei Probleme auf. Zum einen möchte man eine Datenstruktur haben, bei welchem die Schlüssel von einem beliebigen Datentyp sind (Es wurde als Bedingung angenommen, dass es sich um nicht-negative Integers handelt). Zum anderen beträgt der Speicheraufwand $\mathcal{O}(\left| U \right|)$. $U$ ist dabei das Schlüsseluniversum. Dies wäre absolut unpraktikabel.

__Definition 7.1__
Das Schlüsseluniversum $U$ ist die Menge aller möglichen Schlüssel.

__Definition 7.2__
Die Schlüsselmenge $K$ ist die Menge aller Schlüssel, die sich derzeitig in einem Dictionary befinden.

__Satz 7.3__
$K \subset U$

<img src="http://faculty.ycp.edu/~dbabcock/PastCourses/cs360/lectures/images/lecture11/directaddress.png" width="400">

# Hash Table

Eine Hash Table bzw. Hash Map ist eine Implementation des ADT Dictionary. Dabei wird auch per direkten Slotzugriff, wie bei der Direct Access Table, vorgegangen. Jedoch gibt es eine feste Anzahl $m$ an Slots, wobei gilt $m \ll \left| U \right|$. Nun wird eine Hashfunktion $h: U \to \{0, 1, \dotsc, m-1\}$ benötigt, die vom Schlüsseluniversum auf einen der Slots $\{0, 1, \dotsc, m-1\}$ abbildet. Eine einfach solche Funktion wäre $h: k \mapsto k \bmod m$.

Somit wurde der Speicheraufwand deutlich reduziert.

Um das Problem, dass es sich bei den Schlüsseln um etwas anderes als nicht-negative Integers, z.B. Strings, handeln kann, zu lösen, wird eine sogenannte pre-hash Funktion benötigt. Dies ist eine Funktion, die vom Schlüsseluniversum auf eine nicht-negative ganze Zahl abbildet. Theoretisch betrachtet ist dies möglich, da alles, was in einem Computer dargstellt wird, diskret und endlich ist. Schließlich könnte man die Bits, durch welche das entsprechende Datum dargstellt wird, als nicht-negativen Integer auf fassen und dies als den pre-hash-Wert nehmen. Dies würde jedoch mitunter zu sehr großen Zahlen führen, weshalb man in der Praxis meist bessere pre-hash-Funktionen nimmt. Hat man beispielsweise einen String mit Zeichen zwischen a-z, so könnte man den String als Zahl auffassen, die ensprechend Basis 26 hat.

__Beispiel__:

$h('adf') = 0 \cdot 26^2 + 3 \cdot 26 + 5 \cdot 1 = 83$

Nun kann man mit dem geprehashten Wert, der ein nicht-negativer Integer ist, so umgehen, als wäre dieser der eigentliche Schlüssel. 

In der Programmierpsrache Java beispielsweise findet dieses Pre-Hashing durch die hashCode()-Methode, die jede Klasse implementiert, statt.

## Kollisionen

Durch die Tatsache, dass $m < \left| U \right|$ gilt, ensteht ein neues Problem, welches behandelt werden muss, nämlich Kollisionen.

__Definition 7.4__
Eine Kollision unter der Hashfunktion $h$ tritt auf, wenn für $k_i, k_j \in K$ mit $i \neq j$ gilt, dass $h(k_i) = h(k_j)$.

<img src="http://www.cs.fsu.edu/~burmeste/slideshow/images_content/figure12_2.gif" width="450">

Eine  Kollision tritt also auf, wenn zwei oder mehrere unterschiedliche Schlüssel den gleichen Hash-Wert haben. Dies hat zur Folge, dass sie sich den gleichen Slot in der Hash Map teilen müssten. Um dieses Problem zu behandeln gibt es mehrere Verfahren. Im Folgenden werden Hashing with Chaining, Open Addressing und Cuckoo Hasing vorgestellt.

## Hashing with Chaining

Bei __Hashing with Chaining__ wird in einem Slot der Hash Table anstatt einem Wert eine Linked List von Schlüssel-Wert-Paaren gespeichert. Kommt es beim Einfügen zu einer Kollision, so fügt man das Schlüssel-Wert-Paar ans Ende dieser List ein. Möchte man nach eine Schlüssel suchen, so muss man die Liste an dem entsprechenden Slot iterieren. 

<img src="http://www.cs.fsu.edu/~burmeste/slideshow/images_content/figure12_3.gif" width="450">

Handelt es sich um eine sehr schlechte Hashfunktion, bei der es viele Kollisionen gibt, so kann es passieren, dass (fast) alle Schlüssel den gleichen Hash-Wert haben und somit eine Linked List mit der Länge $\mathcal{O}(n)$ bilden. $n$ ist dabei die Anzahl der Elemente in der Datenstruktur, $n = \left| K \right|$. Die worst-case Komplexität liegt somit für alle Operationen in $\mathcal{O}(n)$. Für gute Klassen von Hashfunktionen tritt dieser worst-case jedoch mit einer sehr geringen Wahrscheinlichkeit ein. Man kann $\mathcal{O}(\log n)$ im worst-case erreichen, indem man statt Linked Lists ballancierte Bäume verwendet.

## Uniform Hashing

Man spricht von Uniform Hashing, wenn die Hashfunktion $h$ die Schlüsselmenge $K$ uniform zufällig auf die Werte $\{0, 1, \dotsc, m-1\}$ verteilt. Uniform zufällig bedeutet, dass jeder Hash-Wert gleich wahrscheinlich auftreten kann, so als ob man zufälliges Werfen durchführt und danach den Hash-Wert bestimmt. Die Annahme, dass die Verteilung der Hash-Werte uniform ist, tritt in der Praxis nicht ein, jedoch hilft diese Annahme zu verstehen, warum Opertaionen in einer Hash Map eine erwartete Laufzeit von $\mathcal{O}(1)$ haben.

Der Erwartungswert für die Anzahl der Elemente in einem Slot unter der Annahme von Uniform Hashing ist $n \cdot \frac{1}{m} = \frac{n}{m}$. Nehmen wir an, dass $n \in \mathcal{O}(m)$, also die Anzahl der Elemente $n$ maximal ein konstantes Vielfaches von der Anzahl der Slots $m$ ist, so befinden sich vorraussichtlich $\leqslant \frac{c \cdot m}{m} = c$ Elemente in einer Liste. Da $c$ eine Konstante ist, befinden sich lediglich $\mathcal{O}(1)$ Elemente in einer Liste.

## Table Doubling

Das Problem ist, dass $n$ kein fester Wert ist und somit unbekannt, schließlich können ständig Werte in das Dictionary eingefügt und entfernt werden. Ist $n$ nämlich viel größer als $m$, so sind die Listen, durch die iteriert werden muss, sehr lang und somit wäre die Datenstruktur ineffizient. Wie kann man also sicherstellen, dass $n \in \mathcal{O}(m)$ immer gilt? Hierfür wird eine Technik angewandt, die bereits von dynamischen Arrays bekannt ist, nämlich das Verdoppeln der Größe, sobald die Anzahl der Elemente zu groß wird. Man spricht hier von Table Doubling.

Sobald $n > m$ ist, wird Table Doubling durchgeführt. Dabei wird die Anzahl der Slots $m$ verdoppelt. Die Anzahl der Slots nach Table Doubling nennen wir $m'=2m$. Um die Elemente nun auf $m'$ Slots zu verteilen, ist eine neue Hashfunktion nötig. Handelt es sich beispielsweise um die sehr einfache Hashfunktion $h: x \mapsto x \bmod m$, so wird sie entsprechend zu $h': x \mapsto x \bmod m'$ abgeändert. Die bereits eingefügten Elemente werden nun entsprechend der neuen Hashfunktion $h'$ neu eingefügt, man spricht hier von Rehashing. Die Kosten für die ganze Table Doubling Operation betragen $\mathcal{O}(n)$. Man kann aber zeigen, dass die Kosten amortisiert weiterhin bloß $\mathcal{O}(1)$ betragen. Der Beweis entspricht genau dem von einem dynamischen Array.

Durch Table Doubling ist sichergestellt, dass $n \in \mathcal{O}(m)$ immer gilt und somit die erwartete Laufzeit mit Uniform Hashing $\mathcal{O}(1)$ beträgt.

## Open Addressing

Open Addressing ist eine andere Variante um eine Hash Map zu implementieren. Dabei gibt es keine Verkettung, sondern es wird immer maximal ein Element in einem Slot gespeichert. Möchte man ein Element einfügen, das einen Hash-Wert hat, welcher einem Slot eintspricht, der schon belegt ist, so brechnet man einen neuen Hash und fügt das Element an dieser Stelle ein. Die Hashfunktion bei Open Addressing ist also eine spezielle Hashfunktion, die nicht nur den Schlüssel als Paramter nimmt, sondern auch die Zahl der Versuches, um den es sich handelt. Die Hashfunktion $h$ ist also von der Form 

$$
h: U \times \{0, 1, \dotsc, m-1\} \to \{0, 1, \dotsc, m-1\}
$$.

Eine entscheidende Anforderung an solch eine Hashfunktion ist, dass der Vektor 

$$
\begin{pmatrix}h(k, 0) & h(k, 1) & \cdots & h(k, m-1) \end{pmatrix}
$$ 

eine Permutation des Vektors 

$$
\begin{pmatrix}0 & 1 & \cdots & m-1 \end{pmatrix}
$$ 

ist.