
Добавление элемента: Для каждого элемента, который мы хотим добавить, мы вычисляем его хэш-значения с помощью всех хэш-функций и увеличиваем соответствующие счетчики в массиве.

Запрос частоты: Для получения частоты элемента мы вычисляем его хэш-значения и берем минимальное значение из соответствующих счетчиков. Это минимальное значение является оценкой частоты элемента, что позволяет учесть возможные коллизии.

In [1]:
import numpy as np
import hashlib

class CountMinSketch:
    def __init__(self, width, depth):
        self.width = width
        self.depth = depth
        self.table = np.zeros((depth, width))
        self.hashes = [self._hash_function(i) for i in range(depth)]

    def _hash_function(self, seed):
        def hash_fn(x):
            return int(hashlib.md5((str(seed) + x).encode()).hexdigest(), 16) % self.width
        return hash_fn

    def add(self, item):
        for i in range(self.depth):
            index = self.hashes[i](item)
            self.table[i][index] += 1

    def estimate(self, item):
        min_estimate = float('inf')
        for i in range(self.depth):
            index = self.hashes[i](item)
            min_estimate = min(min_estimate, self.table[i][index])
        return min_estimate

# Пример использования
cms = CountMinSketch(width=1000, depth=5)
cms.add("apple")
cms.add("apple")
cms.add("banana")

print("Estimated frequency of 'apple':", cms.estimate("apple"))
print("Estimated frequency of 'banana':", cms.estimate("banana"))


Estimated frequency of 'apple': 2.0
Estimated frequency of 'banana': 1.0
