Имея достаточно большую коллекцию элементов, зачастую важно уметь находить похожие. Существует ряд мер похожести, мы рассмотрим меру Жаккарда.

$$J(A,B) = \frac{|A \cap B|}{|A \cup B|}.$$

In [20]:
def jaccard_similarity(x,y):
    set_x = set(x)
    set_y = set(y)
    intersection_cardinality = len(set_x.intersection(set_y))
    union_cardinality = len(set_x.union(set_y))
    return intersection_cardinality/float(union_cardinality)

Если мы хотим посчитать эту метрику для нашей коллекции документов, то мы столкнемся с трудностью - нам придется посчитать "всех со всеми", т.е. провести $O(n^2)$ сравнений. Обычно это обходят следующим образом: вводят некое условие для того, чтобы можно было отфильтровать список документов для сравнения.

Например рассмотрим два документа, $A$ и $B$. Вероятность того, что выбранный наудачу элемент из их объеденения совпадает:
$$ P(x \in A \wedge x \in B) = \frac{|A \cap B|}{|A \cup B|}.$$

Введем хэш-функцию $h(...)$, которая отображает объекты произвольной природы в конечное множество целых чисел на промежутке [0, ..M]. Для множества $A$ обозначим $H(A)$ - минимальное значение хэш-функции по всем элементам $A$: $$H(A) = min_{a \in A}h(a).$$

Нетрудно увидеть, что для двух множеств $A$ и $B$:
$$ P(H(A)=H(B))= \frac{|A \cap B|}{|A \cup B|}.$$
Для того, чтобы это заметить можно провести аналогию - хэширование переводит элементы в пространство с равномерным распределением, а операция $min$ выступает как взятие элемента "наудачу".

Оценка является несмещенной, однако со слишком большой дисперсией - всегда 0 или 1. Мы используем технику, похожую на которую мы будем использовать при изучении бутстрапа - построим $k$ независимых оценок (иными словами - используем $k$ различных и независимых хэш-функций), а потом усредним по ним. Такая оценка будет несмещенной и эффективной. На практике, $k=100$ уже достаточно для того, чтобы сделать вероятноть ошибки достаточно маленькой.