$\large{\text{Проект по теоретичнской биоинформатике}}$

Алгоритм Кнута-Морриса-Пратта

Алгоритм КМП используется для поиска подстроки в строке. Его главное отличие от обычного линейного поиска - использование информации из самой подстроки для избежания лишних итераций проверки совпадения.

$\textbf{Постановка задачи}$

Пусть нам дана строка N и подстрока M. Требуется найти вхождения подстроки M в строку N и вывести индексы вхождений. Если вхождения нет, то вывести какое-либо число, не являющееся индексом элемента в строке N, например число -1.

$\textbf{Реализация алгоритма}$

Для начала создадим специальную функцию, которая будет заполнять массив $\pi$ с длинами максимальных суффиксов, совпадающих с префиксами для каждого элемента данной подстроки. Тоесть $\pi[i]$ - максимальная длина суффикса (оканчивающегося элементом $M[i]$), совпадающего с перфиксом (той же длины) подстроки M.

In [19]:
def prefix(M):
    pi = [0]*len(M) #Создаём массив длины подстроки, заполненный нулями
# Нам понадобятся два счётчика: i и j. Изначально j находится на нулевом элементе подстроки, i - на первом.
# Сравниваем 0 и 1 элемент. Если они не совпали, то заносим в массив pi 0, т.к. нет совпадающих суффикса и префикса.

    j = 0 
    i = 1
    while i < len(M):
        if M[j] == M[i]:
            pi[i] = j + 1
            j += 1
            i += 1
# Если элементы совпали, то мы записываем в массив положение счётчика j (он вычисляет максимальную длину префикса) и
# сдвигаем одновременно счётчики i и j на 1 жлемент вперёд. Повторяем сравнение

        else:
            if j == 0:
                pi[i] = 0
                i += 1
# В случае несовпадения элементов на очередном шаге, мы должны записать в массив pi 0, однако это можно сделать только если
# счётчик jнаходится на нулевом элементе, иначе мы потеряем информацию о предыдущем префиксе, который, быть может, совпадает
# с суффиксом. Для контроля такой ситуации, мы возвращаем счётчик j на индекс, равный длине предыдущего префикса pi[j-1].

            else:
                j = pi[j - 1]
    return pi
            

Теперь перейдём непосредственно к реализации поиска подстроки в строке

In [49]:
def knut_morris_pratt_search(N, M):
    occurences = []
    n = len(N)
    m = len(M)
# Нам понадобятся два счётчика: i будет идти по симолам строки, j - по символам подстроки. Изначально они находятся на
# нулевых символах
    i = 0
    j = 0
    while i < n:
# Начинаем сравнивать. Если элемент строки и подстроки совпадает, то счётчики сдвигаются на 1 символ вперёд. Если окажется,
# что j равен длине подстроки, то значит было найдено вхождение подстроки M в строку N и можно обнулить счётчик, чтобы 
# продолжить поиск далнейших вхождение
        if N[i] == M[j]:
            i += 1
            j += 1
            if j == m:
                occurences.append(i - j + 1)
                j = 0
# Если очередные элементы строки и подстроки не совпали, то при условии того, что j не находится в начале подстроки, делаем
# следующее: перемещаем j на индекс, равный длине максимального суффикса элемента j - 1 подстроки. Это делается для того, 
# чтобы избежать лишних итераций поэлементного сравнения, т.к. мы точно знаем, что совпадений при перемещении на это 
# расстояние не будет. Если j = 0, то просто сдвигаем оба индекса на 1 вперёд и повтаряем итерацию цикла.
        else:
            if j > 0:
                j = prefix(M)[j - 1]
            else:
                i += 1
    s = ', '.join(map(str, occurences))
    if occurences == []:
        print(f'Вхождений подстроки {M} в строку {N} не найдено')
    else:
        if len(occurences) == 1:
            print(f'Вхождение подстроки {M} найдено на {s} символе')
        else:
            print(f'Вхождение подстроки {M} найдено на {s} символах')
            
        
    

In [50]:
A = 'ATGCATGCACACA'
B = 'AC'
knut_morris_pratt_search(A, B)

Вхождение подстроки AC найдено на 9, 11 символах
