# üü¶ Hashing & Hash-Tabellen

## 1Ô∏è‚É£ Grundidee
**Hashing** ist eine Technik, um Daten mithilfe einer **Hash-Funktion** schnell in einer Tabelle zu speichern
und wiederzufinden.

Eine **Hash-Tabelle** ordnet jedem Schl√ºssel einen **Index** zu:
```
Index = hash(key)
```

Abgespeichert wird jeweils der Wert. Die Hashfunktion liefert den Index der Tabelle, wo der Wert abgelegt werden soll.

‚û°Ô∏è Ziel: **konstante Zugriffszeit O(1)** im Durchschnitt.

---

## 2Ô∏è‚É£ Voraussetzungen
- Eine **Hash-Funktion**, die Schl√ºssel auf Tabellenindizes abbildet
- Speicherplatz f√ºr die Hash-Tabelle
- Strategie zur **Kollisionsbehandlung**

---

## 3Ô∏è‚É£ Laufzeiten & Eigenschaften

| Eigenschaft | Wert |
|------------|------|
| Suche (Average) | O(1) |
| Einf√ºgen (Average) | O(1) |
| L√∂schen (Average) | O(1) |
| Worst Case | O(n) |
| Speicherbedarf | O(n) |
| In-place | nein |
| Stabil | ‚Äì |

**Hinweis:**
Der Worst Case tritt auf, wenn viele Schl√ºssel auf denselben Index abgebildet werden.

---

## 4Ô∏è‚É£ Hash-Funktion

Eine gute Hash-Funktion sollte:
- **deterministisch** sein
- Schl√ºssel **gleichm√§√üig verteilen**
- schnell berechenbar sein

Beispiel:
```
hash(key) = key mod m
```

---

## 5Ô∏è‚É£ Kollisionen & Kollisionsbehandlung

### Was ist eine Kollision?
Zwei verschiedene Schl√ºssel werden auf **denselben Index** abgebildet.

### Typische Strategien (klassischer Pr√ºfungsstoff)

#### 1. Verkettung (Chaining)
- Jeder Tabellenplatz enth√§lt eine **Liste**
  - Bei Kollisionen werden alle Eintr√§ge in der Liste gespeichert
- Kollisionen werden angeh√§ngt
  - Beispiel: Wenn Index 3 bereits belegt ist, wird der neue Eintrag einfach an die Liste an Index 3 angeh√§ngt.

#### 2. Offene Adressierung
- Lineares Probing (Lineares Sondieren)
  - Suche nach dem n√§chsten freien Platz => wenn index bereits belegt ist, wird der n√§chste Index verwendet. Ist der letzte Index des Arrasy ebenfalls bereits belegt, wird am Anfang des Arrays weitergesucht.
- Quadratisches Probing (Quadratisches Sondieren)
  - Suche nach dem n√§chsten freien Platz mit quadratischer Schrittweite => wenn index bereits belegt ist, wird der Index + i^2 verwendet (i = Anzahl der Versuche). Ist der letzte Index des Arrasy ebenfalls bereits belegt, wird am Anfang des Arrays weitergesucht.
- Double Hashing (Doppeltes Hashing)
  - Verwenden einer zweiten Hash-Funktion zur Bestimmung des n√§chsten Index => wenn index bereits belegt ist, wird der Index + hash2(key) verwendet. Ist der letzte Index des Arrasy ebenfalls bereits belegt, wird am Anfang des Arrays weitergesucht.

---

## Performanceunterschied bei unterschiedlichen Hash-Funktionen
Wenn die Hashfunktionen schlecht gew√§hlt sind und viele Kollisionen verursachen, kann die Performance
deutlich schlechter ausfallen (bis zu O(n) im Worst Case). Eine gute Hashfunktion minimiert Kollisionen und sorgt f√ºr eine gleichm√§√üige Verteilung der Schl√ºssel.

Beispiel aus Musterpr√ºfung: h(x) = (2x + 3) mod 19 <=> h'(x) = (3x + 5) mod 19\
Da 2 und 3 beide teilerfremd zu 19 sind, wird eine gleichm√§√üige Verteilung der Schl√ºssel erreicht. Also keine wesentliche √Ñnderung der Performance.

Mathematische Begr√ºndung:\
- 19 ist eine Primzahl.\
- **gcd(2, 19) = 1** und **gcd(3, 19) = 1** (2 und 3 sind teilerfremd zu 19).\
- Beide Hashfunktionen erzeugen eine vollst√§ndige Abbildung auf die Indizes 0 bis 18.\
- Daher bleibt die Verteilung der Schl√ºssel √ºber die Tabelle gleichm√§√üig, und die Performance √§ndert sich nicht wesentlich.

Wenn jedoch eine Hashfunktion verwendet wird, die nicht teilerfremd zur Tabellengr√∂√üe ist, kann dies zu einer schlechten Verteilung f√ºhren und die Performance verschlechtern.

Beispiel: h(x) = (6x + 3) mod 18\
- 18 ist keine Primzahl.\
- gcd(6, 18) = 6 (also nicht gleich 1).\
- Diese Hashfunktion kann nur Indizes erzeugen, die Vielfache von 3 sind (0, 3, 6, 9, 12, 15).\
- Dadurch werden viele Indizes in der Tabelle ungenutzt bleiben, was zu einer schlechten Verteilung der Schl√ºssel f√ºhrt und die Performance erheblich verschlechtert.

## 6Ô∏è‚É£ Besonderheiten / Pr√ºfungsrelevante Hinweise
- Load Factor: Wie voll ist die Tabelle?
- **Load Factor Œ± = n / m** (Anzahl Elemente / Tabellengr√∂√üe)
- Hoher Load Factor ‚Üí mehr Kollisionen
- Rehashing bei √úberschreiten eines Schwellwerts
- Hash-Tabellen sind **nicht sortiert**

---

## 7Ô∏è‚É£ Vor- und Nachteile

### Vorteile
- sehr schneller Zugriff
- ideal f√ºr Nachschlagen (Dictionaries, Sets)
- einfache API

### Nachteile
- keine Ordnung der Elemente
- Worst Case O(n)
- Speicher-Overhead

---

## üß† Merksatz f√ºr die Pr√ºfung
*Hashing erm√∂glicht schnellen Zugriff √ºber Schl√ºssel, erfordert aber gute Hash-Funktionen und Kollisionsstrategien.*

---

## 8Ô∏è‚É£ Python-Implementierung (Hash-Tabelle mit Verkettung)


In [1]:
class HashTable:
    def __init__(self, size=10):
        self.size = size
        self.table = [[] for _ in range(size)]

    def _hash(self, key):
        return hash(key) % self.size

    def insert(self, key, value):
        index = self._hash(key)
        for i, (k, v) in enumerate(self.table[index]):
            if k == key:
                self.table[index][i] = (key, value)
                return
        self.table[index].append((key, value))

    def search(self, key):
        index = self._hash(key)
        for k, v in self.table[index]:
            if k == key:
                return v
        return None

    def delete(self, key):
        index = self._hash(key)
        for i, (k, _) in enumerate(self.table[index]):
            if k == key:
                del self.table[index][i]
                return True
        return False


# Beispiel
ht = HashTable()
ht.insert("Alice", 25)
ht.insert("Bob", 30)

print(ht.search("Alice"))  # 25
print(ht.search("Bob"))  # 30

25
30


# üü¶ Bloomfilter

## 1Ô∏è‚É£ Grundidee
Ein **Bloomfilter** ist eine **probabilistische Datenstruktur**, mit der effizient gepr√ºft werden kann,
ob ein Element **sicher nicht enthalten** oder **m√∂glicherweise enthalten** ist.

- Sehr **speichereffizient**
- Erlaubt **False Positives**, aber **keine False Negatives**
- Basierend auf **mehreren Hash-Funktionen** und einem Bit-Array

---

## 2Ô∏è‚É£ Voraussetzungen
- Ein **Bit-Array** der Gr√∂√üe m
- **k Hash-Funktionen**
- Hash-Funktionen liefern gleichm√§√üig verteilte Indizes

---

## 3Ô∏è‚É£ Laufzeiten & Eigenschaften

| Eigenschaft | Wert |
|------------|------|
| Einf√ºgen | O(k) |
| Abfrage | O(k) |
| L√∂schen | nicht m√∂glich |
| Speicherbedarf | O(m) |
| In-place | nein |
| Stabil | ‚Äì |

**Hinweis:**
k = Anzahl Hash-Funktionen, m = Gr√∂√üe des Bit-Arrays

---

## 4Ô∏è‚É£ Funktionsweise (Schritt-f√ºr-Schritt)

### Einf√ºgen eines Elements
1. Element wird mit **k Hash-Funktionen** gehasht
2. Die resultierenden Indizes werden im Bit-Array auf **1** gesetzt

### Abfrage eines Elements
- Ist **mindestens ein Bit = 0** ‚Üí Element **sicher nicht enthalten**
- Sind **alle Bits = 1** ‚Üí Element **m√∂glicherweise enthalten**

---

## 5Ô∏è‚É£ Schritt-f√ºr-Schritt-Beispiel

Bit-Array (m = 10):
```
[0 0 0 0 0 0 0 0 0 0]
```

Einf√ºgen von "Alice" (Hash-Indizes: 2, 5, 7):
```
[0 0 1 0 0 1 0 1 0 0]
```

Abfrage von "Bob" (Hash-Indizes: 1, 5, 9):
- Bit an Index 1 = 0 ‚Üí **Bob sicher nicht enthalten**

Abfrage von "Alice":
- Alle Bits = 1 ‚Üí **Alice m√∂glicherweise enthalten**

---

## 6Ô∏è‚É£ Besonderheiten / Pr√ºfungsrelevante Hinweise
- **False Positives** sind m√∂glich
- **False Negatives sind unm√∂glich**
- Je gr√∂√üer m und je besser k gew√§hlt wird, desto kleiner die Fehlerwahrscheinlichkeit
- Sehr h√§ufige Pr√ºfungsfrage: *Warum kann man nicht l√∂schen?*

---

## 7Ô∏è‚É£ Vor- und Nachteile

### Vorteile
- extrem speichereffizient
- sehr schnelle Abfragen
- ideal f√ºr gro√üe Datenmengen

### Nachteile
- keine exakte Mitgliedschaft
- kein L√∂schen m√∂glich
- False Positives

---

## üß† Merksatz f√ºr die Pr√ºfung
*Ein Bloomfilter kann sicher sagen, dass ein Element nicht enthalten ist, aber nur probabilistisch, dass es enthalten sein k√∂nnte.*

---

## 8Ô∏è‚É£ Python-Implementierung (einfacher Bloomfilter)


In [2]:
class BloomFilter:
    def __init__(self, size=10, hash_count=3):
        self.size = size
        self.hash_count = hash_count
        self.bit_array = [0] * size

    def _hashes(self, item):
        hashes = []
        for i in range(self.hash_count):
            hashes.append(hash((item, i)) % self.size)
        return hashes

    def add(self, item):
        for index in self._hashes(item):
            self.bit_array[index] = 1

    def contains(self, item):
        return all(self.bit_array[index] == 1 for index in self._hashes(item))


# Beispiel
bf = BloomFilter(size=10, hash_count=3)
bf.add("Alice")

print(bf.contains("Alice"))  # True (wahrscheinlich)
print(bf.contains("Bob"))  # False (sicher)

True
False
