# Алгоритм Бойера-Мура

- Последовательно «прикладывает» образец к тексту и сравнивает
символы
- Образец сдвигается вправо
- Просмотр символов на стадии сравнения – справа налево
- Сдвиг образца по тексту – более чем на одну позицию
- Два собственных правила ускорения сдвигов: «по плохому
символу» и «по хорошему суффиксу»


In [9]:
from bm import *

pattern = 'Dwarves'
text = open('text.txt', 'r').read()

boier_moore(pattern, text)

Вхождение с позиции 2104:  Dwarves
Вхождение с позиции 3711:  Dwarves
Вхождение с позиции 5213:  Dwarves
Вхождение с позиции 6619:  Dwarves
Вхождение с позиции 17723:  Dwarves


## Правило плохого символа

В таблице плохих символов указывается последняя позиция в шаблоне (исключая последнюю букву) каждого из символов алфавита. Для всех символов, не вошедших в шаблон, пишем m. Предположим, что у нас не совпал символ c из текста на очередном шаге с символом из шаблона. Очевидно, что в таком случае мы можем сдвинуть шаблон до первого вхождения этого символа c в шаблоне, потому что совпадений других символов точно не может быть. Если в шаблоне такого символа нет, то можно сдвинуть весь шаблон полностью.

## Правило хорошего суффикса

Если при сравнении текста и шаблона совпало один или больше символов, шаблон сдвигается в зависимости от того, какой суффикс совпал.

## Асимптотики

- Фаза предварительных вычислений требует $O(m^2 + \sigma)$ времени и памяти.
- В худшем случае поиск требует $O(m \cdot n)$ сравнений.
- В лучшем случае требует $ \Omega \left( \dfrac{n}{m} \right)$ сравнений.

**Пример:**
Исходный текст $bb \dots bb$ и шаблон $abab \dots abab$. Из-за того, что все символы $b$ из текста повторяются в шаблоне $\dfrac{m}{2}$ раз, эвристика хорошего суффикса будет пытаться сопоставить шаблон в каждой позиции (суммарно, <tex>n</tex> раз), а эвристика плохого символа в каждой позиции будет двигать строку $\dfrac{m}{2}$ раз. Итого, $O(n \cdot m)$.

где $n$ - длина исходного текста, $m$ - длина шаблона, $\sigma$ - размер алфавита.


## Сравнение с другими алгоритмами
### Достоинства
- Алгоритм Бойера-Мура на хороших данных очень быстр, а вероятность появления плохих данных крайне мала. Поэтому он оптимален в большинстве случаев, когда нет возможности провести предварительную обработку текста, в котором проводится поиск.
- На больших алфавитах (относительно длины шаблона) алгоритм чрезвычайно быстрый и требует намного меньше памяти, чем [[Алгоритм Ахо-Корасик|алгоритм Ахо-Корасик]].
- Позволяет добавить множество модификаций, таких как поиск подстроки, включающей _любой символ (?)_ (но для реализации _множества символов (*)_ не подходит, так как длина шаблона должна быть известна заранее).

### Недостатки
- Алгоритмы семейства Бойера-Мура не расширяются до приблизительного поиска, поиска любой строки из нескольких.
- На больших алфавитах (например, Юникод) может занимать много памяти. В таких случаях либо обходятся хэш-таблицами, либо дробят алфавит, рассматривая, например, 4-байтовый символ как пару двухбайтовых.
- На искусственно подобранных неудачных текстах скорость алгоритма Бойера-Мура серьёзно снижается.
