In [1]:
from time import time
import string
import random
from pprint import pprint

# Algorytm naiwny 
### złożoność $O(m \cdot(n-m+1))$

In [2]:
def naive_string_matching(text, pattern, printt = True):
    t = time()
    for s in range(0, len(text) - len(pattern) + 1):
        if pattern == text[s:s + len(pattern)] and printt:
            print(f"Przesunięcie {s} jest poprawne")
    return time() - t

# Algorytm automatu skończonego 

### złożoność dopasowania $O(n)$

In [3]:
def fa_string_matching(text, pattern, printt = True, res = []):
    tt = time()
    q = 0
    delta = transition_table(pattern)

    t = time()
    
    for s in range(len(text)):
        q = delta[q].get(text[s], 0) # jesli nie ma znaku w tablicy przejscia 
                                        # to domyslnie wrzuca 0

        if (q == len(delta) - 1):
            if printt:
                print(f"Przesunięcie {s + 1 - q} jest poprawne")
            # s + 1 - ponieważ przeczytaliśmy znak o indeksie s, 
                # więc przesunięcie jest po tym znaku
            res.append(s+1-q)
    return time() - tt, time() - t 

### złożoność obliczenia tablicy przejścia $ O(m^3 \cdot |\sum|) $, gdzie $|\sum|$ oznacza wielkość alfabetu

In [4]:
def check_pattern(pattern, text):
    return pattern == text[(len(text) - len(pattern)):]

def transition_table(pattern):
    result = []

    alphabet = set(pattern)

    for q in range(len(pattern) + 1):
        result.append({})
        for a in alphabet:
            k = min(len(pattern), q + 1)
            while not check_pattern(pattern[:k], pattern[:q] + a):            
                k = k - 1

            result[q][a] = k
    return result

In [5]:
pattern = "ABAC"
s = time()
pprint(transition_table(pattern))
print("time:",time() - s)

[{'A': 1, 'B': 0, 'C': 0},
 {'A': 1, 'B': 2, 'C': 0},
 {'A': 3, 'B': 0, 'C': 0},
 {'A': 1, 'B': 2, 'C': 4},
 {'A': 1, 'B': 0, 'C': 0}]
time: 0.0


# Algorytm kmp (Knutha-Morrisa-Pratta)

### złożoność dopasowania $O(n)$

In [6]:
def kmp_string_matching(text, pattern, printt = True, res = []):
    tt = time()
    pi = prefix_function(pattern)
    t = time()
    q = 0
    
    for i in range(len(text)):
        while q != 0 and pattern[q] != text[i]:
            q = pi[q - 1]

        if pattern[q] == text[i]:
            q = q + 1
        if q == len(pattern):
            if printt:
                print(f"Przesunięcie {i + 1 - q} jest poprawne")
            res.append(i+1-q)
            q = pi[q - 1]
    return time() - tt, time() - t

### złożoność obliczania funkcji przejścia $O(m)$

In [7]:
def prefix_function(pattern):
    pi = [0] * len(pattern)
    k = 0
    for q in range(1, len(pattern)):
        while k != 0 and pattern[k] != pattern[q]:
            k = pi[k - 1]

        if pattern[k] == pattern[q]:
            k = k + 1
        pi[q] = k
    return pi

# Porównanie algorytmów

In [8]:
def speed_tests(text, pattern):
    naive = naive_string_matching(text, pattern, False)
    print("naive:        ", naive)
    print()
    print("fa")
    fa_total, fa_matching = fa_string_matching(text, pattern, False)
    print("total:        ", fa_total)
    print("matching:     ", fa_matching)
    print("preprocessing:", fa_total - fa_matching)
    fa_pre = fa_total - fa_matching
    
    print()
    print("kmp")
    kmp_total, kmp_matching = kmp_string_matching(text, pattern, False)
    print("total:        ", kmp_total)
    print("matching:     ", kmp_matching)
    print("preprocessing:", kmp_total - kmp_matching)
    kmp_pre = kmp_total - kmp_matching
    
    print()
    print("naive / fa matching: ", 
          (naive / fa_matching) if fa_matching != 0 else float("inf"))
    print("naive / kmp matching:", 
          (naive / kmp_matching) if kmp_matching != 0 else float("inf"))
    print()
    print("fa preprocessing / kmp preprocessing:", 
          (fa_pre/kmp_pre) if kmp_pre != 0 else float("inf"))

## Przykładowy tekst ustawy, w którym szukamy wzorca "art"

In [9]:
text = open("ustawa", encoding="utf8").read()
pattern = "art"

## Porównanie prędkości algorytmów dla ustawy

In [10]:
speed_tests(text, pattern)

naive:         0.06483078002929688

fa
total:         0.0787503719329834
matching:      0.0787503719329834
preprocessing: 0.0

kmp
total:         0.08202624320983887
matching:      0.08202624320983887
preprocessing: 0.0

naive / fa matching:  0.8232441122242304
naive / kmp matching: 0.7903663204890087

fa preprocessing / kmp preprocessing: inf


### Przypadek, gdy prędkości dopasowania algorytmów liniowych są przynajmniej 5 razy krótsze niż dla algorytmu naiwnego

In [11]:
text = "a"*1000000
pattern = "a"*50000
speed_tests(text, pattern)

naive:         6.821218252182007

fa
total:         1.0736348628997803
matching:      0.6358428001403809
preprocessing: 0.4377920627593994

kmp
total:         1.0178272724151611
matching:      0.9978125095367432
preprocessing: 0.02001476287841797

naive / fa matching:  10.727837526313145
naive / kmp matching: 6.836172313923896

fa preprocessing / kmp preprocessing: 21.87345737837709


### Skrajnie niekorzystny przypadek dla algorytmu automatu skończonego, czas preprocessingu jest skrajnie długi.

In [12]:
text = ''.join(random.choice("0123456789") for i in range(100000))
pattern = ''.join([str(i) for i in range(500)])

print("dlugosc wzorca:",len(pattern),"\n")
speed_tests(text, pattern)

dlugosc wzorca: 1390 

naive:         0.04754495620727539

fa
total:         17.374516248703003
matching:      0.05503082275390625
preprocessing: 17.319485425949097

kmp
total:         0.027001142501831055
matching:      0.027001142501831055
preprocessing: 0.0

naive / fa matching:  0.8639695688340496
naive / kmp matching: 1.7608497938208052

fa preprocessing / kmp preprocessing: inf


### Przypadek gdy algorytm naiwny jest najszybszy

In [13]:
text = "a" *10000000
pattern = "aaaaaaaabcdeeeeaaaaaaaaaafg"*10
speed_tests(text, pattern)

naive:         4.0003697872161865

fa
total:         4.424864292144775
matching:      4.207683801651001
preprocessing: 0.21718049049377441

kmp
total:         8.137055397033691
matching:      8.137055397033691
preprocessing: 0.0

naive / fa matching:  0.9507296593072253
naive / kmp matching: 0.4916237621627222

fa preprocessing / kmp preprocessing: inf
