<img src="./img/logo_wiwi.png" width="23%" align="left">
<img src="./img/decision_analytics_logo.png" width="17%" align="right">

<br><br><br><br>


## Algorithmen und Datenstrukturen

Wintersemester 2024/25

# 5 Effiziente Suche mit Hash-Tabellen


<br><br><br>
J-Prof. Dr. Michael Römer, Jakob Schulte

## Überblick

1. Ein Beispiel zur Motivation
2. Hash-Funktionen und Hash-Tabellen
2. Anwendungsmöglichkeiten
3. Die Datenstruktur `set`
4. Kollisionen, Hash-Funktionen und Auslastung
5. Performance
7. Übung zu Anwendung: Abbildung von sozialen Netzwerken
6. Zusammenfassung

# 1. Ein Beispiel zur Motivation

## Kassierer-Beispiel

#### Nehmen wir folgendes fiktives Beispiel:

- in einem kleinen Lebensmittelgeschäft müssen die Preise einzeln in die Kasse eingegeben werden
- ein neuer Mitarbeiter muss also für jedes Produkt den Preis nachschlagen
- wenn die Liste unsortiert ist:  Lineare Suche mit Laufzeit $O(n)$
- wenn die Liste alphabetisch sortiert ist: Binäre Suche mit Laufzeit $O(\log(n))$

<img src="./img/01.png" width="50%" align="middle">


## Kassierer-Beispiel

#### Wir sehen:
- auch mit Binärsuche kann Nachschlagen lästig sein
- ideal wäre eine Person wie "Maggie", die alle Preise auswendig kennt

<img src="./img/02.png" width="50%" align="middle">

**Wichtig:** Wie lang die Artikelliste ist, in diesem Fall irrelevant - die Anwort kommt immer sofort

## Kassierer-Beispiel

- das Beispiel dient lediglich zur Motivation

#### Zentrale Frage für diesen Teil:
- Wie kann ein man eine Äquivalent zu so einer Person implementiert werden?
  - d.h. wir suchen eine **Datenstruktur**, die die Suche nach einem bestimmten Element in **konstanter Zeit**, d.h. in $O(1)$ erledigen kann
- ...die bisher betrachteten Datenstrukturen können diese Aufgabe nicht umsetzen

# 2. Hashfunktionen und Hash-Tabellen

## Hashfunktionen
### Definition

> Eine **Hashfunktion** ist eine mathematische Funktion, die einen beliebigen Input in einen Output mit einem speziellen Format (z.B. eine Zahl) konvertiert

- sie sollte möglichst eindeutig sein (d.h. verschiedene Eingaben führen zu verschiedenen Rückgabewerten)
- sie muss dabei konsistent sein (zwei Aufrufe mit der gleichen Eingabe führen zu gleichen Rückgabewerten)

- Beispiel:
<img src="./img/03.png" width="40%" align="middle">

## Hash-Tabellen 

- Eine **Hashfunktion kann in Kombination mit einem Array** genutzt werden, um eine so genannte **Hash-Tabelle** zu erstellen
  - das "Äquivalent" einer "Maggie" im Supermarkt!
  
  
  

**Beispiel:** In folgendes Array fügen wir nun Preise ein:

<img src="./img/04.png" width="30%" align="middle">

## Hash-Tabellen und Hashfunktionen

- an welche Stelle des Arrays eingefügt wird, entscheidet sich mit Hilfe der Hashfunktion:

<img src="./img/05.png" width="30%" align="middle">

- Bsp: An Stelle 3 wird Preis von Apfel eingefügt

<img src="./img/06.png" width="30%" align="middle">

## Hash-Tabellen und Hashfunktionen

- andere Eingaben sollten zu anderen Indizes führen:

<img src="./img/07.png" width="30%" align="middle">

- Bsp: An Stelle 0 wird Preis von Milch eingefügt

<img src="./img/08.png" width="30%" align="middle">

## Hash-Tabellen und Hashfunktionen

- Wenn alle Produkte eingefügt sind, ist das Array mit Preisen gefüllt:

<img src="./img/09.png" width="30%" align="middle">

- Wenn ein Preis nachgeschlagen werden soll, wird erneut die Hashfunktion benutzt:

<img src="./img/10.png" width="30%" align="middle">

- ...und der Wert an der entsprechenden Stelle abgerufen: 

<img src="./img/11.png" width="40%" align="middle">

## Hashfunktionen

Damit dieses Verfahren funktioniert, sollte gelten:
- die Hashfunktion muss immer den gleichen Wert bei gleicher Eingabe zurück geben
- unterschiedlichen Produkten (oder allgemeiner: unterschiedlichen Strings) wird möglichst ein anderer Wert zugeordnet. (Diese Annahme wird später gelockert)
- die Hashfunktion gibt nur Werte zurück, die kleiner sind als die Länge des Arrays
    
><div class="alert alert-block alert-info">
<b>Wie könnte eine gute Hashfunktion aussehen?</b></div>

- wir werden später auf Beispiele für Hashfunktionen zurückkommen

## Hash-Tabellen

- die beschriebene Kombination aus einem Array und einer Hashfunktion nennt man **Hash-Tabelle**
  - andere Bezeichnungen: 
    - **dictionary** (in Python, Julia, ...)
    - **hashmap** oder einfach **map** (in Java, C++,...)
- jeder Eintrag in einer Hashtabelle besteht aus
  - **Schlüssel** (key), im Bsp: Produkt
  - **Wert** (value), im Bsp: Preis

#### Hash-Tabellen
- sind eine immens praxisrelevante Datenstruktur
- sind in allen verbreiteten Programmiersprachen implementiert
- erlauben sehr effizientes Einfügen und Abfragen

><div class="alert alert-block alert-info">
<b>Wie effizient ist das Einfügen und Abfragen?</b></div>

## Hash-Tabellen in Python: `dict` (dictionary)
- erstellen mit `dict` oder `{}`


In [3]:
preise = dict() ## oder: preise = {}

- einfügen eines Elements mit `[schluessel] = wert`
  - **Beachte:** Hashtabellen funktioneren (fast) wie Arrays mit beliebigen Indextypen

In [4]:
preise["Apfel"] = 0.67
preise["Milch"] = 1.49
preise["Avocado"] = 1.49
print(preise)

{'Apfel': 0.67, 'Milch': 1.49, 'Avocado': 1.49}


- abrufen eines Werts für einen Schlüssel ebenfalls mit `[schluessel]` 
  - gibt einen Fehler, falls Schlüssel nicht vorhanden
- oder mit `.get(schluessel)`
  - gibt `None` zurück, falls Schlüssel nicht vorhanden

In [6]:
print ( preise["Apfel"] )
print ( preise.get("Apfel") )
print ( preise.get("Birne") )

0.67
0.67
None


- prüfen, ob ein Schlüssel vorhanden mit `in`:

In [7]:
"Apfel" in preise

True

# 3. Anwendungsfälle

## Nachschlagen von Werten - Telefonbuch

- ohne Hash-Tabellen würden wir das über ein sortiertes Array lösen, Suche in $O(log(n))$ möglich
- Hash-Tabellen sind sehr viel effizienter!

- Namen und Nummern sollen gespeichert werden 
- jedem Namen ist eine Nummer zugeordnet: $\rightarrow$ Paare aus **Schlüsseln** und **Werten**

<img src="./img/12.png" width="60%" align="middle">

><div class="alert alert-block alert-info">
<b>Implementiere ein Telefonbuch mit mind. 3 Nummern in Python.</b></div>

## Nachschlagen von Werten - Websites

- jede Website hat eine eindeutige IP-Adresse
- bei Eingabe des Website-Namens sollte möglichst schnell IP-Adresse gefunden werden
- Dds Vorgehen wird als **IP-Adressauflösung** bezeichnet

<img src="./img/13.png" width="50%" align="middle">

## Dopplungen Vermeiden - Wahllokal

- bei einer Wahl muss jede Person sich mit ihrem (eindeutigen) Namen ausweisen
- damit nicht doppelt gewählt werden kann, werden alle Namen aufgeschrieben

<img src="./img/14.png" width="40%" align="middle">

- falls sich ein Name bereits auf der Liste befindet, darf die Person nicht wählen

## Dopplungen Vermeiden - Wahllokal

- eine (unsortierte) Liste müsste jedes Mal mit Linearer Suche überprüft werden
- dies wird problematisch, wenn Liste lang wird

<img src="./img/15.png" width="30%" align="middle">

- mit einer Hash-Tabelle kann man sofort erkennen, ob eine Person schon gespeichert ist
- $\rightarrow$ dann ist Array an der Stelle des Hashwerts des Namens bereits belegt

## Dopplungen Vermeiden - Wahllokal

- `KEY in TABLE` gibt für Dictionarys ```True``` zurück, wenn der `KEY` vorhanden ist
- Ablauf für Überprüfung von Wählenden:

<img src="./img/16.png" width="40%" align="middle">

## Dopplungen Vermeiden - Wahllokal

><div class="alert alert-block alert-info">
<b>Schreiben Sie eine Funktion "name_ueberpruefen", die den oben gezeigten Ablauf wiedergibt.</b></div>

In [1]:


def name_ueberpruefen(name_waehler, wahlliste):
  
    # bitte hier vervollständigen

    return



In [2]:
wahlliste = {}
name_ueberpruefen("Till", wahlliste)
name_ueberpruefen("Michael", wahlliste)
name_ueberpruefen("Till", wahlliste)

# 4. Die Datenstruktur `set`

## Die Datenstruktur `Set`

- Hash-Tabellen basieren auf **Schlüssel-Wert-Paaren**
- im Anwendungsfall "Wahllokal" brauchen wir allerdings gar keinen Wert, sondern uns interessiert nur, ob ein Element vorhanden ist
- in einem solchen Fall können wir die Datenstruktur **set** (Menge) nutzen, die ebenfalls mit Hashfunktionen arbeitet und effizientes Einfügen und Nachschlagen (prüfen, ob Element vorhanden) anbietet

- in Python:


In [14]:
fruechte = set(["Apfel", "Birne"])
fruechte.add("Orange") # einfügen mit .add

"Birne" in fruechte 

True

## Die Datenstruktur `set`: Weitere Operationen

- Vereinigung zweier Mengen: `|`

In [16]:
suedfruechte = set(["Orange", "Zitrone"])

fruechte | suedfruechte

{'Apfel', 'Birne', 'Orange', 'Zitrone'}

- Schnittmenge mit `&`

In [17]:
fruechte & suedfruechte

{'Orange'}

- Mengendifferenz mit `-`


In [19]:
fruechte - suedfruechte

{'Apfel', 'Birne'}

- Abfragen ob Teilmenge

In [25]:
fruechte.add("Zitrone")
print (fruechte)
print (suedfruechte)
suedfruechte.issubset(fruechte)

{'Zitrone', 'Apfel', 'Birne', 'Orange'}
{'Zitrone', 'Orange'}


True

# 5. Kollisionen, Hashfunktionen und Auslastung

## Kollisionen

- idealerweise führt jede Eingabe in die Hashfunktion zu einer unterschiedlichen Ausgabe 

<img src="./img/17.png" width="40%" align="middle">

- dies ist in der Umsetzung nahezu unmöglich, wenn man gleichzeitig eine performante Hashfunktion sucht
- führen zwei verschiedene Eingaben bei einer Hashfunktion zur selben Ausgabe, so spricht man von einer **Kollision**

$\rightarrow$ für solche Fälle müssen Lösungen gefunden werden!


##  Beispiel Kollision: Alphabet-Hash

- wir haben ein Array mit 26 Elementen

<img src="./img/18.png" width="80%" align="middle">

- die Hashfunktion gibt den Index des ersten Buchstaben des Wortes im Alphabet zurück

<img src="./img/18a.png" width="80%" align="middle">

##  Beispiel Kollision: Alphabet-Hash

- Einfügen kann funktionieren...

<img src="./img/19.png" width="30%" align="middle">

- ...oder auch nicht:

<img src="./img/20.png" width="30%" align="middle">

## Behebung von Kollisionen
- eine Kollision tritt auf, wenn mehreren Schlüsseln gleicher Speicherplatz zugewiesen
- der Wert darf nicht überschrieben werden (Verlust von Informationen)
- der Wert darf nicht einfach abgerufen werden (Falsche Informationen)

- **ein möglicher Lösungsansatz:** Verwendung einer Linked List im Array

<img src="./img/21.png" width="60%" align="middle">

## Behebung von Kollisionen mit Linked Lists

- wenn jetzt auf "Apfel" oder "Avocado" zugegriffen wird, muss Linked List danach durchsucht werden $\rightarrow$ langsamer
- andere Zugriffe bleiben weiterhin schnell
- es wird dann roblematisch, wenn Linked Lists im Array zu groß werden
- im (theoretischen) Extremfall (worst case) ist dann eine Hash-Tabelle so langsam wie eine Linked List

<img src="./img/22.png" width="80%" align="middle">

> Finden einer guten Hash-Funktion mit wenig Kollision sehr wichtig!

## Gute vs schlechte Hashfunktionen

- Gute Hashfunktionen sollten Werte gleichmäßig im Array verteilen

<img src="./img/28.png" width="40%" align="middle">

- Schlechte Hashfunktionen verursachen Kollisionen

<img src="./img/29.png" width="40%" align="middle">

## Beispiele für Hashfunktionen

- wir hatten schon eine sehr naive Hashfunktion für Zeichenketten (strings) kennengelernt (Stelle des Anfangsbuchstabens im Alphabet)
    
><div class="alert alert-block alert-info">
<b>Wie könnte eine gute Hashfunktion aussehen?</b></div>

- wir könnten mehrere Buchstaben nutzen und den Buchstabenindizes weitere Operationen durchführen:
  - Addition: addiere die Indizes aller Buchstaben des Eingabestrings im Alphabet
  - Multiplikation: multipliziere die Indizes aller Buchstaben des Eingabestrings im Alphabet

  
- anstelle des Index $i$ im Alphabet könnte man auch die $i$-te Primzahl nehmen..

- oder die Unicode-Zahl des Zeichens - Python bietet sogar die Funktion `ord` an, mit der dies wiedergegeben werden kann

In [1]:
ord(".")

46

## Beispiel für die Implementierung einer Hashfunktion
- hier ein vereinfachtes Beispiel einer solchen Hashfunktion:

In [3]:
def hash_addition(schluessel):
    hash = 0
    for buchstabe in schluessel:
        hash += ord(buchstabe)
    return hash

Hier als Beispiel:

In [4]:
hash_addition("Birne")
hash_addition("Banane")


hash("Apfel")

6232533031704089720

## Hashfunktionen und Array-Größe

- oben hatten wir erwähnt, dass Hashfunktionen Werte ergeben sollten, die der Größe des zugrundeliegenden Arrays entspricht

><div class="alert alert-block alert-info">
<b>Wie kann man das auf einfache Art und Weise erreichen?</b></div>


- wir können einfach die Modulo-Funktion `%` nutzen:
  - sie gibt den Rest beim ganzzahligen Teilen mit Rest zurück
- Bsp: wir wollen Werte mit der Maximalgröße 7 haben:

In [49]:
3 % 7

3

In [50]:
12 % 7

5

## Hashfunktionen und Array-Größe

- diese Idee kann mit allen Hashfunktionen genutzt werden
- hier ein Beispiel für die oben generierte Funktion:

In [51]:
def hash_addition_array_groesse(schluessel, array_groesse):
    return hash_addition (schluessel) % array_groesse

- Hier ein Beispiel. Ursprüngliche Hashfunktion:

In [52]:
hash_addition("Apfel")

488

- Wir nehmen an, dass wir ein Array mit der Größe 7 haben:

In [56]:
array_groesse = 9

hash_addition_array_groesse("Orange",array_groesse)

1

## Die Hashfunktion in Python

- in den meisten Programiersprachen sind "Standard-Hashfunktionen" bereits eingebaut
- in Python nennt sich diese Funktion `hash`

In [54]:
hash("Birne")

1145293539142138516

In [5]:
hash("Birne") % 100

47

In [55]:
hash(42)

42

In [60]:
hash(tuple(fruechte))

-6571442690632340136

## Die Auslastung einer Hash-Tabelle

- der **Auslastungsfaktor** hält fest, wie voll eine Hash-Tabelle ist

$\mathit{Auslastungsfaktor} =\frac{\text{Anzahl der Elemente in Hashtabelle}}{\text{Größe des Arrays}}$

<img src="./img/24.png" width="30%" align="middle">

## Auslastung

- wenn das gesamtes Array der Hash-Tabelle mit jeweils einem Element gefüllt ist, beträgt der Auslastungsfaktor 1
- wenn Kollisionen auftreten, kann der Faktor > 1 werden
- hohe Auslastungsfaktoren führen zu schlechterer Performance

><div class="alert alert-block alert-info">
<b>Warum werden dann nicht alle Hash-Tabellen immer sehr groß angelegt?</b></div>

## Auslastung: Größenanpassung

- wenn die Auslastung anwächst, sollte eine **Größenanpassung** vorgenommen werden

<img src="./img/25.png" width="30%" align="middle">

- diese Hash-Tabelle ist schon ziemlich voll $\rightarrow$ Größenanpassung sinnvoll
- Faustregel: Größe des Arrays verdoppeln

<img src="./img/26.png" width="40%" align="middle">

## Die Auslastung einer Hash-Tabelle
- alle Elemente von vorher müssen mit veränderter Hash-Funktion (i.d.R. mit anderem Modulo-Wert) in eine neue Hash-Tabelle eingefügt werden

<img src="./img/27.png" width="40%" align="middle">

- Größenanpassungen sind entsprechend zeitaufwendig
- es gilt in der Praxis also, eine Balance zwischen nicht zu hoher Auslastung und wenig Anpassungen zu finden
- **Faustregel:** bei Auslastung über 0,7 lohnt sich Anpassung

# 6. Performance

# Performance
- im Vergleich zu Arrays und Linked List sind Hashbabellen effizienter in Bezug auf viele Operationen

<img src="./img/23.png" width="50%" align="middle">

- Suchen, Einfügen und Löschen funktioniert bei Hash-Tabellen  sehr schnell
- $O(1)$ (*konstante Laufzeit*) heißt nicht sofortiger Zugriff, sondern nur Zugriff unabhängig von Größe der Liste
- im worst-case können Hash-Tabellen langsam sein. 
  - **Aber:** Der Worst Case ist extrem selten bei **geringer Auslastung** und guter **Hashfunktion**
- **Beachte:** Hashtabellen sind im Allgemeinen nicht sortiert, d.h. ein sortiertes "Durchlaufen" aller Werte ist nicht möglich

# 7. Übungen zur Anwendung: Abbildung von sozialen Netzwerken

Schlagen Sie Implementierungen vor, die effizientes Einfügen und Abfragen von Beziehungen in folgenden Arten von sozialen Netzwerken ermöglichen:

1. Follower-Strukturen (wie bei Twitter)

In [3]:
# "Klaus" folgt "Maria"


2. Befreundet sein (wie bei Facebook)
3. Allgemeine Beziehungen mit "Richtung": 
    - z.B. "Noel", "ist verliebt in" , "Anna"  ;  "Anna", "mag", "Henry"
4. Allgemeine Beziehungen mit "Richtung" und mehreren möglichen Beziehungen:
    - z.B. "Henry", "mag", "Nele"   ;   "Henry", "folgt auf Instagram" , "Nele", 

## 8. Zusammenfassung

#### Hash-Tabellen
- sind eine sehr nützliche und weit verbreitete Datenstruktur
- können wie **"verallgemeinerte Arrays** benutzt werden, in denen nicht nur ganzzahlige Werte, sondern beliebige Objekte als Schlüssel dienen können
- werden mit Hilfe von  **Hash-Funktionen** und **Arrays** implementiert
- sind sehr performant: Suchen, Einfügen und Löschen in $O(1)$
- bei Kollisionen können Linked Lists genutzt werden
- eine geringe Auslastung und gute Hashfunktionen verhindern Kollisionen

#### Nächster Teil: Breitensuche in Graphen

