# Полиномиальное хеширование


## Введение


**Определение:** Полиномиальная хеш-функция (также известная как хеш Рабина-Карпа) - это хеш-функция, которая представляет строку или последовательность как значение многочлена в некоторой точке.

Для строки $s = s_0 s_1 \ldots s_{n-1}$ полиномиальный хеш определяется как:

$$h(s) = (s_0 \cdot x^{n-1} + s_1 \cdot x^{n-2} + \ldots + s_{n-1} \cdot x^0) \mod m$$

где:
- $s_i$ - числовое представление символа (например, ASCII-код)
- $x$ - основание (обычно простое число)
- $m$ - модуль (обычно большое простое число)


## Теоретические основы


### Свойства полиномиального хеширования

Полиномиальное хеширование обладает рядом важных свойств, которые делают его особенно полезным в алгоритмах обработки строк:

1. **Модульность**: Хеш легко перевычисляется при добавлении или удалении символов.
2. **Эффективность вычисления**: Хеш вычисляется за линейное время $O(n)$.
3. **Равномерность распределения**: При правильном выборе параметров $x$ и $m$ хеш-значения распределяются равномерно.


### Теорема о вероятности коллизий

**Теорема 1:** Пусть $h$ - полиномиальная хеш-функция с основанием $x$ и модулем $m$, где $m$ - простое число. Тогда для двух различных строк $s$ и $t$ одинаковой длины $n$ вероятность коллизии $P(h(s) = h(t)) \leq \frac{n-1}{m}$.

**Доказательство:**

Пусть $s = s_0 s_1 \ldots s_{n-1}$ и $t = t_0 t_1 \ldots t_{n-1}$ - две различные строки длины $n$.

Коллизия происходит, когда:

$$h(s) \equiv h(t) \pmod m$$

Это эквивалентно:

$$\sum_{i=0}^{n-1} s_i \cdot x^{n-1-i} \equiv \sum_{i=0}^{n-1} t_i \cdot x^{n-1-i} \pmod m$$

Перенесем все члены в одну сторону:

$$\sum_{i=0}^{n-1} (s_i - t_i) \cdot x^{n-1-i} \equiv 0 \pmod m$$

Это уравнение представляет собой многочлен степени не более $n-1$ от $x$. Поскольку $s \neq t$, существует хотя бы один индекс $j$, для которого $s_j \neq t_j$, поэтому многочлен не является тождественно нулевым.

По теореме о корнях многочлена, многочлен степени $d$ имеет не более $d$ корней в поле $\mathbb{Z}_m$, если $m$ - простое число. Поскольку наш многочлен имеет степень не более $n-1$, он имеет не более $n-1$ корней.

Таким образом, из $m$ возможных значений $x$ только не более $n-1$ значений могут привести к коллизии. Следовательно, вероятность коллизии при случайном выборе $x$ не превышает $\frac{n-1}{m}$.

$\blacksquare$


### Теорема о полиномиальном хешировании подстрок

**Теорема 2:** Пусть $s = s_0 s_1 \ldots s_{n-1}$ - строка длины $n$, и $h(s[i:j])$ - полиномиальный хеш подстроки $s_i s_{i+1} \ldots s_{j-1}$. Тогда хеш любой подстроки можно вычислить за $O(1)$ после предварительной обработки строки за $O(n)$.

**Доказательство:**

Определим префиксные хеши $h_i$ для всех префиксов строки $s$:

$$h_i = h(s[0:i]) = (s_0 \cdot x^{i-1} + s_1 \cdot x^{i-2} + \ldots + s_{i-1} \cdot x^0) \mod m$$

Также предварительно вычислим степени $x$:
$$p_i = x^i \mod m \text{ для } i = 0, 1, \ldots, n-1$$

Теперь рассмотрим хеш подстроки $s[i:j]$:

$$h(s[i:j]) = (s_i \cdot x^{j-i-1} + s_{i+1} \cdot x^{j-i-2} + \ldots + s_{j-1} \cdot x^0) \mod m$$

Заметим, что:

$$h_j = (s_0 \cdot x^{j-1} + s_1 \cdot x^{j-2} + \ldots + s_{j-1} \cdot x^0) \mod m$$
$$h_i \cdot x^{j-i} = (s_0 \cdot x^{i-1} + s_1 \cdot x^{i-2} + \ldots + s_{i-1} \cdot x^0) \cdot x^{j-i} \mod m$$
$$= (s_0 \cdot x^{j-1} + s_1 \cdot x^{j-2} + \ldots + s_{i-1} \cdot x^{j-i}) \mod m$$

Вычитая второе выражение из первого, получаем:

$$h_j - h_i \cdot x^{j-i} \mod m = (s_i \cdot x^{j-i-1} + s_{i+1} \cdot x^{j-i-2} + \ldots + s_{j-1} \cdot x^0) \mod m = h(s[i:j])$$

Таким образом, хеш подстроки $s[i:j]$ можно вычислить за $O(1)$ с использованием предварительно вычисленных префиксных хешей и степеней $x$.

$\blacksquare$


In [None]:
# Реализация полиномиального хеширования
def polynomial_hash(s, x, m):
    """
    Вычисляет полиномиальный хеш строки s.

    Параметры:
    s (str): Входная строка
    x (int): Основание
    m (int): Модуль

    Возвращает:
    int: Хеш-значение
    """
    hash_value = 0
    for c in s:
        hash_value = (hash_value * x + ord(c)) % m
    return hash_value

# Пример использования
s = "алгоритм"
x = 31  # Часто используемое основание
m = 10**9 + 7  # Большое простое число

hash_value = polynomial_hash(s, x, m)
print(f"Полиномиальный хеш строки '{s}': {hash_value}")

# Проверка свойства модульности
s1 = "алгоритм"
s2 = "алгоритмы"
h1 = polynomial_hash(s1, x, m)
h2 = polynomial_hash(s2, x, m)

# Вычисляем хеш s2 через хеш s1
h1_extended = (h1 * x + ord('ы')) % m

print(f"Хеш строки '{s2}': {h2}")
print(f"Хеш, вычисленный через хеш '{s1}': {h1_extended}")
print(f"Хеши совпадают: {h2 == h1_extended}")


## Эффективное вычисление хешей подстрок


Как было доказано в Теореме 2, мы можем эффективно вычислять хеши подстрок после предварительной обработки. Рассмотрим алгоритм для этого.


In [None]:
def precompute_hashes(s, x, m):
    """
    Предварительно вычисляет хеши всех префиксов строки s и степени x.

    Параметры:
    s (str): Входная строка
    x (int): Основание
    m (int): Модуль

    Возвращает:
    tuple: (prefix_hashes, x_powers)
    """
    n = len(s)

    # Вычисляем хеши префиксов
    prefix_hashes = [0] * (n + 1)
    for i in range(1, n + 1):
        prefix_hashes[i] = (prefix_hashes[i-1] * x + ord(s[i-1])) % m

    # Вычисляем степени x
    x_powers = [1]
    for i in range(1, n):
        x_powers.append((x_powers[-1] * x) % m)

    return prefix_hashes, x_powers

def substring_hash(prefix_hashes, x_powers, i, j, m):
    """
    Вычисляет хеш подстроки s[i:j] за O(1).

    Параметры:
    prefix_hashes (list): Предварительно вычисленные хеши префиксов
    x_powers (list): Предварительно вычисленные степени x
    i (int): Начальный индекс подстроки
    j (int): Конечный индекс подстроки (не включается)
    m (int): Модуль

    Возвращает:
    int: Хеш подстроки
    """
    if i >= j:
        return 0

    # Используем формулу из доказательства Теоремы 2
    result = (prefix_hashes[j] - prefix_hashes[i] * x_powers[j-i]) % m
    # Обрабатываем отрицательный результат
    if result < 0:
        result += m
    return result

# Пример использования
s = "абракадабра"
x = 31
m = 10**9 + 7

prefix_hashes, x_powers = precompute_hashes(s, x, m)

# Проверяем хеши различных подстрок
substrings = [
    (0, 4),  # "абра"
    (7, 11),  # "абра"
    (0, 11),  # "абракадабра"
    (4, 7)    # "кад"
]

for i, j in substrings:
    substring = s[i:j]
    direct_hash = polynomial_hash(substring, x, m)
    fast_hash = substring_hash(prefix_hashes, x_powers, i, j, m)

    print(f"Подстрока '{substring}' (s[{i}:{j}]):")
    print(f"  Прямое вычисление хеша: {direct_hash}")
    print(f"  Быстрое вычисление хеша: {fast_hash}")
    print(f"  Хеши совпадают: {direct_hash == fast_hash}")


## Применения полиномиального хеширования


### Алгоритм Рабина-Карпа для поиска подстрок

Алгоритм Рабина-Карпа - это алгоритм поиска подстрок, который использует полиномиальное хеширование для эффективного поиска вхождений образца в тексте.

**Теорема 3:** Алгоритм Рабина-Карпа находит все вхождения образца длины $m$ в тексте длины $n$ за ожидаемое время $O(n + m)$ при условии, что вероятность коллизии хеш-функции достаточно мала.

**Доказательство:**

1. Вычисление хеша образца занимает $O(m)$ времени.
2. Вычисление хешей всех подстрок текста длины $m$ с использованием скользящего окна занимает $O(n)$ времени.
3. Для каждого совпадения хешей требуется проверка символов, что в худшем случае занимает $O(m)$ времени.

Если вероятность коллизии мала (что верно при правильном выборе параметров хеш-функции), то ожидаемое количество ложных совпадений (когда хеши совпадают, но строки различны) близко к нулю. Таким образом, общее ожидаемое время работы алгоритма составляет $O(n + m)$.

$\blacksquare$


In [None]:
def rabin_karp(text, pattern, x=31, m=10**9 + 7):
    """
    Алгоритм Рабина-Карпа для поиска всех вхождений образца в тексте.

    Параметры:
    text (str): Текст, в котором ищем
    pattern (str): Образец, который ищем
    x (int): Основание для хеш-функции
    m (int): Модуль для хеш-функции

    Возвращает:
    list: Список индексов, с которых начинаются вхождения образца
    """
    n = len(text)
    p = len(pattern)

    if p > n:
        return []

    # Вычисляем хеш образца
    pattern_hash = 0
    for c in pattern:
        pattern_hash = (pattern_hash * x + ord(c)) % m

    # Вычисляем хеш первого окна текста
    text_hash = 0
    for i in range(p):
        text_hash = (text_hash * x + ord(text[i])) % m

    # Предварительно вычисляем x^(p-1) для эффективного обновления хеша
    x_pow = 1
    for i in range(p-1):
        x_pow = (x_pow * x) % m

    # Список для хранения индексов вхождений
    occurrences = []

    # Проверяем первое окно
    if pattern_hash == text_hash and text[:p] == pattern:
        occurrences.append(0)

    # Проверяем остальные окна с помощью скользящего хеша
    for i in range(1, n - p + 1):
        # Удаляем влияние первого символа предыдущего окна
        text_hash = (text_hash - ord(text[i-1]) * x_pow) % m
        # Добавляем новый символ
        text_hash = (text_hash * x + ord(text[i+p-1])) % m
        # Обрабатываем отрицательный результат
        if text_hash < 0:
            text_hash += m

        # Если хеши совпадают, проверяем символы
        if pattern_hash == text_hash and text[i:i+p] == pattern:
            occurrences.append(i)

    return occurrences

# Пример использования
text = "абракадабра"
pattern = "абра"

occurrences = rabin_karp(text, pattern)
print(f"Образец '{pattern}' найден в тексте '{text}' на позициях: {occurrences}")

# Проверка на более сложном примере
text = "ананас и банан - это вкусные фрукты, а ананас особенно сладкий"
pattern = "ана"

occurrences = rabin_karp(text, pattern)
print(f"Образец '{pattern}' найден в тексте на позициях: {occurrences}")
for i in occurrences:
    print(f"  {text[max(0, i-5):i]}[{text[i:i+len(pattern)]}]{text[i+len(pattern):i+len(pattern)+5]}")


### Поиск наибольшей общей подстроки

Полиномиальное хеширование можно использовать для эффективного решения задачи поиска наибольшей общей подстроки двух строк.

**Теорема 4:** С использованием полиномиального хеширования и бинарного поиска, наибольшую общую подстроку двух строк длины $n$ и $m$ можно найти за время $O((n + m) \log \min(n, m))$ с высокой вероятностью.

**Доказательство (схема):**

1. Используем бинарный поиск для определения длины наибольшей общей подстроки.
2. Для каждой длины $L$ из бинарного поиска проверяем, существует ли общая подстрока длины $L$.
3. Для проверки используем полиномиальное хеширование: вычисляем хеши всех подстрок длины $L$ в обеих строках и ищем совпадения.
4. Если найдено совпадение хешей, проверяем символы для исключения коллизий.

Каждая итерация бинарного поиска требует $O(n + m)$ времени для вычисления и сравнения хешей. Всего выполняется $O(\log \min(n, m))$ итераций. Таким образом, общая временная сложность составляет $O((n + m) \log \min(n, m))$.

$\blacksquare$


In [None]:
def longest_common_substring(s1, s2, x=31, m=10**9 + 7):
    """
    Находит наибольшую общую подстроку двух строк с использованием полиномиального хеширования.

    Параметры:
    s1 (str): Первая строка
    s2 (str): Вторая строка
    x (int): Основание для хеш-функции
    m (int): Модуль для хеш-функции

    Возвращает:
    str: Наибольшая общая подстрока
    """
    n, m_str = len(s1), len(s2)

    # Функция для проверки существования общей подстроки длины length
    def check_length(length):
        if length == 0:
            return 0, 0

        # Вычисляем хеши всех подстрок длины length в s1
        s1_hashes = {}
        hash_value = 0
        x_pow = 1

        # Предварительно вычисляем x^(length-1)
        for i in range(length-1):
            x_pow = (x_pow * x) % m

        # Вычисляем хеш первого окна
        for i in range(length):
            hash_value = (hash_value * x + ord(s1[i])) % m

        s1_hashes[hash_value] = 0

        # Вычисляем хеши остальных окон
        for i in range(1, n - length + 1):
            hash_value = (hash_value - ord(s1[i-1]) * x_pow) % m
            hash_value = (hash_value * x + ord(s1[i+length-1])) % m
            if hash_value < 0:
                hash_value += m
            s1_hashes[hash_value] = i

        # Вычисляем хеши всех подстрок длины length в s2 и ищем совпадения
        hash_value = 0

        # Вычисляем хеш первого окна
        for i in range(length):
            hash_value = (hash_value * x + ord(s2[i])) % m

        if hash_value in s1_hashes and s1[s1_hashes[hash_value]:s1_hashes[hash_value]+length] == s2[:length]:
            return s1_hashes[hash_value], 0

        # Вычисляем хеши остальных окон
        for i in range(1, m_str - length + 1):
            hash_value = (hash_value - ord(s2[i-1]) * x_pow) % m
            hash_value = (hash_value * x + ord(s2[i+length-1])) % m
            if hash_value < 0:
                hash_value += m

            if hash_value in s1_hashes:
                # Проверяем символы для исключения коллизий
                s1_pos = s1_hashes[hash_value]
                if s1[s1_pos:s1_pos+length] == s2[i:i+length]:
                    return s1_pos, i

        return -1, -1

    # Бинарный поиск для определения длины наибольшей общей подстроки
    left, right = 0, min(n, m_str)
    best_length = 0
    best_pos1, best_pos2 = 0, 0

    while left <= right:
        mid = (left + right) // 2
        pos1, pos2 = check_length(mid)

        if pos1 != -1:  # Найдена общая подстрока длины mid
            best_length = mid
            best_pos1, best_pos2 = pos1, pos2
            left = mid + 1
        else:
            right = mid - 1

    # Возвращаем наибольшую общую подстроку
    return s1[best_pos1:best_pos1+best_length]

# Пример использования
s1 = "абракадабра"
s2 = "кадабрик"

lcs = longest_common_substring(s1, s2)
print(f"Наибольшая общая подстрока строк '{s1}' и '{s2}': '{lcs}'")

# Более сложный пример
s1 = "алгоритмы и структуры данных"
s2 = "структуры данных и алгоритмы"

lcs = longest_common_substring(s1, s2)
print(f"Наибольшая общая подстрока строк '{s1}' и '{s2}': '{lcs}'")


## Оптимизации и практические аспекты


### Выбор параметров хеш-функции

Эффективность полиномиального хеширования сильно зависит от выбора параметров $x$ и $m$. Рассмотрим рекомендации по их выбору:

1. **Модуль $m$**:
   - Должен быть достаточно большим, чтобы минимизировать вероятность коллизий.
   - Обычно выбирается простое число, чтобы обеспечить равномерное распределение хешей.
   - Популярные значения: $10^9 + 7$, $10^9 + 9$, $2^{31} - 1$.

2. **Основание $x$**:
   - Должно быть выбрано так, чтобы минимизировать вероятность коллизий.
   - Обычно выбирается простое число, не слишком близкое к степени 2.
   - Популярные значения: 31, 37, 53, 97.

**Теорема 5:** Если $m$ - простое число и $x$ выбрано случайно из диапазона $[1, m-1]$, то вероятность коллизии для двух различных строк длины $n$ не превышает $\frac{n-1}{m}$.

**Доказательство:** Следует из Теоремы 1. $\blacksquare$


In [None]:
def test_hash_parameters(strings, x_values, m_values):
    """
    Тестирует различные параметры хеш-функции и подсчитывает количество коллизий.

    Параметры:
    strings (list): Список строк для тестирования
    x_values (list): Список значений основания x
    m_values (list): Список значений модуля m

    Возвращает:
    dict: Словарь с количеством коллизий для каждой пары (x, m)
    """
    results = {}

    for x in x_values:
        for m in m_values:
            # Вычисляем хеши всех строк
            hashes = [polynomial_hash(s, x, m) for s in strings]

            # Подсчитываем количество уникальных хешей
            unique_hashes = len(set(hashes))

            # Вычисляем количество коллизий
            collisions = len(strings) - unique_hashes

            results[(x, m)] = collisions

    return results

# Генерируем случайные строки для тестирования
import random
import string

def generate_random_string(length):
    """Генерирует случайную строку заданной длины"""
    return ''.join(random.choice(string.ascii_lowercase) for _ in range(length))

# Генерируем 1000 случайных строк длиной 10
random.seed(42)  # Для воспроизводимости результатов
strings = [generate_random_string(10) for _ in range(1000)]

# Тестируем различные параметры
x_values = [31, 37, 53, 97]
m_values = [10**9 + 7, 10**9 + 9, 2**31 - 1]

results = test_hash_parameters(strings, x_values, m_values)

# Выводим результаты
print("Количество коллизий для различных параметров хеш-функции:")
print(f"{'x':<5} {'m':<12} {'Коллизии':<10}")
print("-" * 30)

for (x, m), collisions in sorted(results.items(), key=lambda x: x[1]):
    print(f"{x:<5} {m:<12} {collisions:<10}")


### Двойное хеширование

Для дальнейшего снижения вероятности коллизий можно использовать технику двойного хеширования, при которой вычисляются два независимых хеша с разными параметрами.

**Теорема 6:** Если $h_1$ и $h_2$ - две независимые полиномиальные хеш-функции с вероятностями коллизии $p_1$ и $p_2$ соответственно, то вероятность коллизии при использовании пары $(h_1, h_2)$ равна $p_1 \cdot p_2$.

**Доказательство:**

События "коллизия в $h_1$" и "коллизия в $h_2$" независимы, поскольку хеш-функции используют разные параметры. Вероятность того, что оба события произойдут одновременно, равна произведению их вероятностей: $p_1 \cdot p_2$.

Если $p_1 = p_2 = \frac{n-1}{m}$ (согласно Теореме 1), то вероятность коллизии при двойном хешировании составляет $\left(\frac{n-1}{m}\right)^2$, что значительно меньше, чем при использовании одной хеш-функции.

$\blacksquare$


In [None]:
def double_hash(s, x1, m1, x2, m2):
    """
    Вычисляет пару хешей для строки s.

    Параметры:
    s (str): Входная строка
    x1, x2 (int): Основания для первой и второй хеш-функций
    m1, m2 (int): Модули для первой и второй хеш-функций

    Возвращает:
    tuple: Пара хеш-значений (h1, h2)
    """
    h1 = polynomial_hash(s, x1, m1)
    h2 = polynomial_hash(s, x2, m2)
    return (h1, h2)

# Пример использования
s1 = "алгоритм"
s2 = "алгоритмика"

x1, m1 = 31, 10**9 + 7
x2, m2 = 37, 10**9 + 9

hash1_s1 = double_hash(s1, x1, m1, x2, m2)
hash1_s2 = double_hash(s2, x1, m1, x2, m2)

print(f"Двойной хеш строки '{s1}': {hash1_s1}")
print(f"Двойной хеш строки '{s2}': {hash1_s2}")
print(f"Хеши различны: {hash1_s1 != hash1_s2}")

# Тестирование на коллизии
def test_double_hash_collisions(strings, x1, m1, x2, m2):
    """
    Тестирует двойное хеширование и подсчитывает количество коллизий.

    Параметры:
    strings (list): Список строк для тестирования
    x1, x2 (int): Основания для первой и второй хеш-функций
    m1, m2 (int): Модули для первой и второй хеш-функций

    Возвращает:
    tuple: (коллизии_h1, коллизии_h2, коллизии_двойного_хеша)
    """
    # Вычисляем хеши всех строк
    hashes1 = [polynomial_hash(s, x1, m1) for s in strings]
    hashes2 = [polynomial_hash(s, x2, m2) for s in strings]
    double_hashes = [double_hash(s, x1, m1, x2, m2) for s in strings]

    # Подсчитываем количество уникальных хешей
    unique_hashes1 = len(set(hashes1))
    unique_hashes2 = len(set(hashes2))
    unique_double_hashes = len(set(double_hashes))

    # Вычисляем количество коллизий
    collisions1 = len(strings) - unique_hashes1
    collisions2 = len(strings) - unique_hashes2
    double_collisions = len(strings) - unique_double_hashes

    return (collisions1, collisions2, double_collisions)

# Тестируем двойное хеширование
collisions = test_double_hash_collisions(strings, x1, m1, x2, m2)

print("\nРезультаты тестирования на коллизии:")
print(f"Коллизии для первой хеш-функции (x={x1}, m={m1}): {collisions[0]}")
print(f"Коллизии для второй хеш-функции (x={x2}, m={m2}): {collisions[1]}")
print(f"Коллизии при двойном хешировании: {collisions[2]}")


## Заключение


Полиномиальное хеширование является мощным инструментом в алгоритмах обработки строк, обеспечивая эффективное решение таких задач, как поиск подстрок, определение наибольшей общей подстроки и многих других.

Основные преимущества полиномиального хеширования:

1. **Эффективность вычисления**: Хеш вычисляется за линейное время $O(n)$.
2. **Модульность**: Хеш легко перевычисляется при изменении строки.
3. **Возможность быстрого вычисления хешей подстрок**: После предварительной обработки хеш любой подстроки вычисляется за $O(1)$.
4. **Низкая вероятность коллизий**: При правильном выборе параметров вероятность коллизии для строк длины $n$ не превышает $\frac{n-1}{m}$.

Для достижения наилучших результатов рекомендуется:

1. Выбирать большие простые числа в качестве модуля $m$.
2. Выбирать основание $x$, не слишком близкое к степени 2.
3. При необходимости использовать двойное хеширование для дальнейшего снижения вероятности коллизий.

Полиномиальное хеширование находит применение в таких алгоритмах, как алгоритм Рабина-Карпа для поиска подстрок, алгоритмы поиска наибольшей общей подстроки, проверка на палиндромы и многих других задачах, связанных с обработкой строк.


## Библиография

1. Рабин М.О., Карп Р.М. "Эффективные алгоритмы поиска подстрок". SIAM Journal on Computing, 1987.

2. Кормен Т., Лейзерсон Ч., Ривест Р., Штайн К. "Алгоритмы: построение и анализ". — М.: Вильямс, 2013.

3. Ахо А.В., Хопкрофт Д.Э., Ульман Д.Д. "Структуры данных и алгоритмы". — М.: Вильямс, 2000.

4. Скиена С.С. "Алгоритмы. Руководство по разработке". — СПб.: БХВ-Петербург, 2011.

5. Алгоритмика. "Полиномиальное хеширование". https://ru.algorithmica.org/cs/hashing/polynomial/
