# Метод Карпа-Рабина
- Вероятностный подход, оперирующий ограниченными числами
- Допускаются коллизии сигнатур, однако их вероятность мала
- Важное достижение – строгое обоснование этого факта

## Ограниченные сигнатуры
- Основная идея: вместо чисел H(P) и H(j) использовать остатки от их деления на некоторое число
- Модулярная арифметика по модулю q, где q – простое число: h(P) = H(P) mod q; h(j) = H(j) mod q
- Такая хеш-функция h отображает 2^𝑚 всевозможных двоичных строк длины m на множество целых чисел 0..q-1
- Каждому числу соответствуют в среднем (2^𝑚)/q двоичных строк
- Вероятность совпадения сигнатур двух различных строк равна 1/q (число равных вариантов / число всех вариантов)

## Выбор основания счисления q
- Достаточно малое, чтобы арифметика была эффективной (числа не занимали слишком много разрядов)
- Достаточно большое, чтобы вероятность ложных совпадений образца P и подстроки T не оказалась существенной
- Для положительного q обозначим π(q) количество простых чисел, не превосходящих q
- Теорема (Карпа-Рабина). P и Т – некоторые строки, причем mn ≥ 29, где m = |P| и n = |T|. Пусть I – положительное число. Если q – случайное простое число ≤ I, то вероятность ложного совпадения P и T (h(P) = h(T)) не превосходит π(mn) / π(I).

## Сложность
Сложность зависит от выбора q. Если выбор был удачным и коллизий нет, то кол-во сравнений будет равно длине текста + сравнение образца дадут сложность О(n + m) (n - длина текста, m - длина образца).
А если было выбрано плохое число q то сложность будет квадратичная (n * m) т.к. на каждом шагу сравнивается образец с текстом

In [1]:
from karp_rabin import *

In [2]:
positions = karp_rabin('dadata', 'dadadata', 0b1 << 31)
print(positions)

[2]
