In [1]:
import numpy as np
import time

## Алгоритм Бойера-Мура

In [2]:
def create_prefix(pattern):
    prefix = list(np.array([-1] * 65536))
    for ind in range(len(pattern) - 1):
        prefix[ord(pattern[ind])] = ind
    return prefix

In [3]:
def create_suffix(pattern):
    suffix = list(np.array([len(pattern)] * (len(pattern) + 1)))
    suffix[len(pattern)] = 1
    for ind in range(len(pattern)- 1, -1, -1):
        for at in range(ind, len(pattern)):
            a  = pattern[at:]
            for i in range(at-1, -1, -1):
                b = pattern[i:len(a)]
                if (a == b):
                    suffix[ind] = at - 1
                    at = len(pattern)
                    break    
    return suffix

In [4]:
def boyer_moore(text, pattern):
    prefix = create_prefix(pattern)
    suffix = create_suffix(pattern)
    last = len(pattern) - 1
    t = 0
    while (t < (len(text) - last)):
        p = last
        while ((p >= 0) and (text[t + p] == pattern[p])):
            p -= 1
        if (p == -1):
            return t
        t += max(p - prefix[ord(text[t + p])], suffix[p + 1])
    return -1

In [5]:
file = 'Voyna-i-mir.txt'
pattern = 'Было морозно и ясно.'


with open(file, 'r') as f:
    start = time.time()
    print(boyer_moore(f.read(), pattern))
    stop = time.time()
    print('{:f} секунд'.format(stop - start))
    


1378324
0.166668 секунд


##  Алгоритм Кнута - Морриса - Пратта

In [6]:
def left(pattern, a):
    return pattern[:a]

def right(pattern, a):
    return pattern[len(pattern) - a:]

In [7]:
class Auto:    
    def search(self, text, pattern):
        line = ''.join([pattern, '#', text]) 
#         pi_1 = self.compute_pi_slow(line)   
        pi = self.compute_pi_fast(line)
    
        n = len(text)
        len_pattern  = len(pattern)
        q = 0
        
        for i in range(0, n):
            while (q > 0) and (text[i] != pattern[q]):
                q = pi[q - 1]
            if text[i] == pattern[q]:
                q += 1
            if (q == len_pattern):
                return i - len_pattern + 1
        return -1
    
    def compute_pi_slow(self, pattern):
        n = len(pattern)
        pi = np.zeros(n, dtype='int')
        for i in range(n):
            for q in range(i + 1):
                if (left(pattern, q) == right(left(pattern, i + 1), q)):
                    pi[i] = q
        return pi
    
    def compute_pi_fast(self, pattern):
        n = len(pattern)
        pi = np.zeros(n, dtype='int')
        for i in range(1, n):
            q = pi[i - 1]
            while (q > 0) and (pattern[i] != pattern[q]):
                q = pi[q - 1]
            if pattern[i] == pattern[q]:
                q += 1
            pi[i] = q     
        return pi


In [8]:
auto = Auto()
with open(file, 'r') as f:
    start = time.time()
    print(auto.search(f.read(), pattern))
    stop = time.time()
    print('{:f} секунд'.format(stop - start))

1378324
1.016687 секунд


In [9]:
text= 'aabaaabaaaabaaaabaabaab'
pattern = 'abaab'

In [10]:
start = time.time()
boyer_moore(text, pattern)
stop = time.time()
print('Алгоритм Бойера-Мура {:f} секунд'.format(stop - start))

Алгоритм Бойера-Мура 0.008164 секунд


In [11]:
start = time.time()
auto.search(text, pattern)
stop = time.time()
print('Алгоритм Кнута-Морриса-Прата {:f} секунд'.format(stop - start))

Алгоритм Кнута-Морриса-Прата 0.000097 секунд


In [23]:
file = 'Voyna-i-mir.txt'
pattern = 'Было морозно и ясно.'

In [13]:
step = 100000
count = 0
time_boyer_moor = 0
time_KMP = 0
with open(file, 'r') as f:
    text = f.read()
    for i in range(0, len(text), step):
        start = time.time()
        boyer_moore(text[i:i + step], pattern)
        stop = time.time()
        time_boyer_moor += (stop - start)
        
        start = time.time()
        auto.search(text[i:i + step], pattern)
        stop = time.time()
        time_KMP += (stop - start)
        
        count += 1
print(f'Работа с {step} символами')        
print('Алгоритм Бойера-Мура {:f} секунд'.format(time_boyer_moor / count))
print('Алгоритм Кнута-Морриса-Прата {:f} секунд'.format(time_KMP / count))

Работа с 100000 символами
Алгоритм Бойера-Мура 0.016232 секунд
Алгоритм Кнута-Морриса-Прата 0.068017 секунд


In [14]:
step = 12500
count = 0
time_boyer_moor = 0
time_KMP = 0
with open(file, 'r') as f:
    text = f.read()
    for i in range(0, len(text), step):
        start = time.time()
        boyer_moore(text[i:i + step], pattern)
        stop = time.time()
        time_boyer_moor += (stop - start)
        
        start = time.time()
        auto.search(text[i:i + step], pattern)
        stop = time.time()
        time_KMP += (stop - start)
        
        count += 1
print(f'Работа с {step} символами')        
print('Алгоритм Бойера-Мура {:f} секунд'.format(time_boyer_moor / count))
print('Алгоритм Кнута-Морриса-Прата {:f} секунд'.format(time_KMP / count))

Работа с 12500 символами
Алгоритм Бойера-Мура 0.008685 секунд
Алгоритм Кнута-Морриса-Прата 0.008547 секунд


In [15]:
step = 1000
count = 0
time_boyer_moor = 0
time_KMP = 0
with open(file, 'r') as f:
    text = f.read()
    for i in range(0, len(text), step):
        start = time.time()
        boyer_moore(text[i:i + step], pattern)
        stop = time.time()
        time_boyer_moor += (stop - start)
        
        start = time.time()
        auto.search(text[i:i + step], pattern)
        stop = time.time()
        time_KMP += (stop - start)
        
        count += 1
print(f'Работа с {step} символами')        
print('Алгоритм Бойера-Мура {:f} секунд'.format(time_boyer_moor / count))
print('Алгоритм Кнута-Морриса-Прата {:f} секунд'.format(time_KMP / count))

Работа с 1000 символами
Алгоритм Бойера-Мура 0.007644 секунд
Алгоритм Кнута-Морриса-Прата 0.000588 секунд


### Посмотрим, сколько времени уходит на создание pi - таблицы.

In [16]:
class Auto:    
    def search(self, text, pattern):
        line = ''.join([pattern, '#', text]) 
#         pi_1 = self.compute_pi_slow(line)   
        start = time.time()
        pi = self.compute_pi_fast(line)
        stop = time.time()
        print('Создание pi таблицы - {:f} секунд'.format(stop - start))
        
        start = time.time()
        n = len(text)
        len_pattern  = len(pattern)
        q = 0
        
        for i in range(0, n):
            while (q > 0) and (text[i] != pattern[q]):
                q = pi[q - 1]
            if text[i] == pattern[q]:
                q += 1
            if (q == len_pattern):
                stop = time.time()
                print('Поиск подстроки KMP алгоритмом - {:f} секунд'.format(stop - start))
                return i - len_pattern + 1
        stop = time.time()
        print('Поиск подстроки KMP алгоритмом- {:f} секунд'.format(stop - start))
        return -1
    
    def compute_pi_slow(self, pattern):
        n = len(pattern)
        pi = np.zeros(n, dtype='int')
        for i in range(n):
            for q in range(i + 1):
                if (left(pattern, q) == right(left(pattern, i + 1), q)):
                    pi[i] = q
        return pi
    
    def compute_pi_fast(self, pattern):
        n = len(pattern)
        pi = np.zeros(n, dtype='int')
        for i in range(1, n):
            q = pi[i - 1]
            while (q > 0) and (pattern[i] != pattern[q]):
                q = pi[q - 1]
            if pattern[i] == pattern[q]:
                q += 1
            pi[i] = q     
        return pi

In [17]:
auto = Auto()
with open(file, 'r') as f:
    print(auto.search(f.read(), pattern))


Создание pi таблицы - 0.542060 секунд
Поиск подстроки KMP алгоритмом - 0.486184 секунд
1378324


In [24]:
start = time.time()
create_prefix(pattern)
create_suffix(pattern)
stop = time.time()
print('Создание таблицы префиксов и таблицы суффиксов для алгоритма Бойера-Мура {:f} секунд'.format(stop - start))

Создание таблицы префиксов и таблицы суффиксов для алгоритма Бойера-Мура 0.008250 секунд


### Ангийский текст

In [25]:
file = 'Pride_and_Prejudice.txt'
pattern = 'This Web site includes'

In [26]:
auto = Auto()
with open(file, 'r') as f:
    print(auto.search(f.read(), pattern))
    stop = time.time()


Создание pi таблицы - 0.280967 секунд
Поиск подстроки KMP алгоритмом - 0.250247 секунд
775483


In [27]:
with open(file, 'r') as f:
    start = time.time()
    print(boyer_moore(f.read(), pattern))
    stop = time.time()
    print('{:f} секунд'.format(stop - start))

775483
0.079744 секунд
