In [9]:
# wenn wir testen wollen, ob ein Element in einem Set oder einer Liste ist
# haben wir zwei Moeglichkeiten

# wir iterieren durch die ganze Liste, bis wir das Element gefunden haben (JA) oder am Ende angekommen sind (NEIN)
# Laufzeit O(n), also sehr langsam

# wir koennen eine Hashmap verwenden, die eine Hashfunktion verwendet und wenn kollidiert
# dann z.B. lineares Sondieren durchfuehrt und wenn gar kein Platz mehr da ist expandiert
# Laufzeit: O(1), aber Hashmap (array mit Int werten, damit man auch Kollisionen erkenne kann)
# braucht sehr viel speicher (Problem, weil wir nur eine Hashfunktion haben)

# Mit einem Bitset koennten wir speichern, ob ein Element in der Liste ist, aber wir koennten keine Kollisionen mehr erkennen
# wenn h(8) und h(9) auf eine gesetzte Eins hashen, wissen wir nicht ob 8 oder 9 drin ist
# wir koennten auch sagen, 8 auf position 8 und 9 auf position 9 und dann passiert sowas nicht
# aber bitset waechst mit groesster zahl in liste (groesste zahl = 10^6 => wir brauchen 10^6 bits)

# ein Bloomfilter kombiniert die Idee von Bitsets (Anwesenheit kompakt, aber viel Speicher)
# mit Hashmaps (Anwesenheit aufwendiger und sondieren, aber geringerer Speicher)
# indem ein Bitset und mehrere Hashfunktionen benutzt werden

# Bloomfilter ist eine probabilistische Datenstruktur
# kann im Gegensatz zu Hashmap fehler machen (also sagen Element ist schon gesehen worden, wenn noch nicht)

import secrets
import numpy as np

def generate_hash_function(n_values):
    random_bits = secrets.randbits(64)
    return lambda x : hash(x ^ random_bits) % n_values

In [21]:
# dieser Bloom filter funktioniert wie ein probabilistisches Hashset
# Wahrscheinlichkeit fuer Fehler wird hoeher, je mehr Items eingefuegt werden
# Fehlerwahrscheinlichkeit wird geringer, je mehr Hashfunktionen (k) oder Speicher (m) man verwendet

class BloomFilter:
    # m ist groesste des Bitsets, also m bits
    # k ist anzahl der Hashfunktionen
    def __init__(self, m, k):
        self.m = m
        self.k = k
        
        self.hash_functions = [generate_hash_function(m) for i in range(k)]
        self.bit_vector = np.zeros(m)
        
        # extension for remove operation
        self.bit_vector_removed = np.zeros(m)
        
    def insert(self, value):
        indices_set = [h(value) for h in self.hash_functions]
        self.bit_vector[indices_set] = 1
        
    def remove(self, value):
        # can only remove something if its contained
        if self.contains(value):
            indices_set = [h(value) for h in self.hash_functions]
            self.bit_vector_removed[indices_set] = 1
        
    def contains(self, value):
        indices_set = [h(value) for h in self.hash_functions]
        return np.sum(self.bit_vector[indices_set]) == self.k and np.sum(self.bit_vector_removed[indices_set]) != self.k

In [32]:
bloom_filter = BloomFilter(m=20, k=3)

bloom_filter.insert(8)
bloom_filter.insert(7)

assert(bloom_filter.contains(8))
assert(bloom_filter.contains(7))
assert(bloom_filter.contains(6) == False)

bloom_filter.remove(8)
assert(bloom_filter.contains(8) == False)
assert(bloom_filter.contains(7))

print("Bit vector of bloom filter: ", bloom_filter.bit_vector)

errors = 0
test_cases = 1000

for i in range(10, 10 + test_cases):
    if bloom_filter.contains(i):
        errors += 1
        
print(f"False Positives per {test_cases} test cases: {errors / test_cases}")

Bit vector of bloom filter:  [0. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 1. 0. 1. 0. 0.]
False Positives per 1000 test cases: 0.025
