# Łukasz Jezapkowicz
# Lab1
# Wyszukiwanie wzorca w tekście
# Link do zadań: https://github.com/apohllo/tekstowe/blob/master/search.md
# -------------------------------------------------

## 1. Zaimplementuj algorytmy wyszukiwania wzorców:
## I. naiwny
## II. automat skończony
## III. algorytm KMP

# -------------------------------------------------
## Algorytm naiwny

In [22]:
from time import time

def naiveAlgorithm(text, pattern):
    S = set()
    for i in range(len(text)-len(pattern)+1):
        if pattern == text[i:i+len(pattern)]:
            S.add(i)
    return len(S)

def naive(file,pattern):
    with open(file, encoding="ISO-8859-1") as f:
        time1 = time()
        line = f.readline()
        length = 0
        text = ""
        while line:
            text = text + line
            line = f.readline()
        length = naiveAlgorithm(text,pattern)
        return length, time() - time1

# Algorytm automatu skończonego

In [23]:
def getNextState(pattern, M, state, x): 
    if state < M and x == ord(pattern[state]): 
        return state+1
    i=0
    for ns in range(state,0,-1): 
        if ord(pattern[ns-1]) == x: 
            while(i<ns-1): 
                if pattern[i] != pattern[state-ns+1+i]: 
                    break
                i+=1
            if i == ns-1: 
                return ns  
    return 0
  
def findTF(pattern, M): 
    TF = [[0 for i in range(256)] for _ in range(M+1)] 
  
    for state in range(M+1): 
        for x in range(256): 
            z = getNextState(pattern, M, state, x) 
            TF[state][x] = z 
  
    return TF 
  
def finiteAutomata(text,pattern): 
    M = len(pattern) 
    N = len(text) 
    time2 = time()
    TF = findTF(pattern, M)     
    time1 = time()
    S = set()
    state=0
    for i in range(N): 
        state = TF[state][ord(text[i])] 
        if state == M: 
            S.add(i-M+1)
    return len(S),time()-time1, time1-time2
            
            
def automataMethod(file, pattern):
    with open(file, encoding="ISO-8859-1") as f:
        line = f.readline()
        text = ""
        while line:
            text = text + line
            line = f.readline()
        return finiteAutomata(text,pattern)

# Algorytm KMP

In [34]:
def KMPSearch(txt,pattern):
    S = set()
    K = []  
    time2= time()
    t = -1
    K.append(t)
    for k in range(1, len(pattern) + 1):
        while(t >= 0 and pattern[t] != pattern[k - 1]):
            t = K[t]
        t = t + 1  
        K.append(t)
    time1 = time()
    m = 0  
    for i in range(0, len(txt)):
        while (m >= 0 and pattern[m] != txt[i]):
            m = K[m]
        m = m + 1  
        if m == len(pattern):
            S.add(i-m+1)
            m = K[m]
    return len(S), time()-time1, time1-time2

def KMP(file,pattern):
    with open(file, encoding="ISO-8859-1") as f:
        line = f.readline()
        text = ""
        while line:
            text = text + line
            line = f.readline()
        return KMPSearch(text,pattern)

## 2. Zaimplementuj testy porównujące szybkość działania wyżej wymienionych algorytmów.

In [25]:
def timeComparison(file,pattern):
    a = naive(file,pattern)
    b = automataMethod(file,pattern)
    c = KMP(file,pattern)
    result1,time1 = a[0],a[1]
    result2,time2 = b[0],b[1]
    result3,time3 = c[0],c[1]
    
    print("time1 = ",time1)
    print("time2 = ",time2)
    print("time3 = ",time3)

    if (result1 == result2 == result3):
        print("The results are all the same and equals " + str(result1))
    else:
        print("The results are not the same and they are:\nResult 1 = " + str(result1) + "\nResult 2 = " +
              str(result2) + "\nResult 3 = " + str(result3))

    print("The times are:\nTime 1 (Naive): " + str(time1) + " seconds")
    print("Time 2 (Finite Automata): " + str(time2) + " seconds")
    print("Time 3 (KMP): " + str(time3) + " seconds")

    if time1 < time2:
        print("Naive method is " + str(time2/time1) + " times faster than Finite Automata method")
    else:
        print("Finite Automata method is " + str(time1/time2) + " times faster than Naive method")

    if time1 < time3:
        print("Naive method is " + str(time3/time1) + " times faster than KMP method")
    else:
        print("KMP method is " + str(time1/time3) + " times faster than Naive method")

    if time2 < time3:
        print("Finite Automata method is " + str(time3/time2) + " times faster than KMP method")
    else:
        print("KMP method is " + str(time2/time3) + " times faster than Finite Automata method")

## 3. Znajdź wszystkie wystąpienia wzorca "art" w załączonej ustawie, za pomocą każdego algorytmu.

In [26]:
print(naive("Ustawka.txt","art")[0])
print(automataMethod("Ustawka.txt","art")[0])
print(KMP("Ustawka.txt","art")[0])

273
273
273


## 4. Porównaj szybkość działania algorytmów dla problemu z p. 3.

In [28]:
timeComparison("Ustawka.txt","art")

time1 =  0.05858635902404785
time2 =  0.033148765563964844
time3 =  0.06445193290710449
The results are all the same and equals 273
The times are:
Time 1 (Naive): 0.05858635902404785 seconds
Time 2 (Finite Automata): 0.033148765563964844 seconds
Time 3 (KMP): 0.06445193290710449 seconds
Finite Automata method is 1.7673767944992664 times faster than Naive method
Naive method is 1.1001184231409398 times faster than KMP method
Finite Automata method is 1.9443237722604219 times faster than KMP method


## 5. Porównaj szybkość działania algorytmów poprzez wyszukanie słowa "kruszwil" we fragmencie polskiej Wikipedii


Z powodu problemów z odczytem pliku z fragmentem polskiej wikipedii użyłem pliku zawierającego Biblię (załączonego w folderze)

In [38]:
timeComparison("wikipedia.txt","kruszwil")

time1 =  469.9443624019623
time2 =  15.281135082244873
time3 =  22.15807843208313
The results are all the same and equals 13
The times are:
Time 1 (Naive): 469.9443624019623 seconds
Time 2 (Finite Automata): 15.281135082244873 seconds
Time 3 (KMP): 22.15807843208313 seconds
Finite Automata method is 30.753236580441587 times faster than Naive method
KMP method is 21.20871463842823 times faster than Naive method
Finite Automata method is 1.4500283069828084 times faster than KMP method


## 6. Zaproponuj tekst oraz wzorzec, dla którego zmierzony czas działania algorytmów 2 oraz 3 będzie co najmniej 2 krotnie krótszy niż dla algorytmu naiwnego.

Jako prosty wniosek z porównania złożoności obliczeniowej algorytmów można łatwo wywnioskować, że algorytm naiwny bardzo słabo będzie spisywał się dla dużych plików oraz stosunkowo długiego patternu. Użyłem więc pliku zawierającego Biblię 10 razy (Biblia dla opornych). Jak widać, czas działania algorytmów 2 oraz 3 okazał się ponad 10 razy krótszy.

In [14]:
timeComparison("bible10x.txt","JesusLovesPatternMatching")

time1 =  102.02077865600586
time2 =  5.528034925460815
time3 =  9.688720703125
The results are all the same and equals 0
The times are:
Time 1 (Naive): 102.02077865600586 seconds
Time 2 (Finite Automata): 5.528034925460815 seconds
Time 3 (KMP): 9.688720703125 seconds
Finite Automata method is 18.455161740408403 times faster than Naive method
KMP method is 10.529850305531058 times faster than Naive method
Finite Automata method is 1.7526518616047548 times faster than KMP method


## 7. Zaproponuj wzorzec, dla którego zmierzony czas obliczenia tablicy przejścia automatu skończonego będzie co najmniej dwukrotnie dłuższy, niż czas potrzebny na utworzenie funkcji przejścia w algorytmie KMP.

Nie jestem pewien czy w mojej implementacji wkradł się jakiś błąd czy wynika to z faktu, że dla algorytmu 2 tworzę tablicę dla 256 znaków, ale dla mojej implementacji czas tworzenia funkcji przejścia w algorytmie KMP jest zawsze O WIELE szybszy niż ten tworzenia tablicy przejścia automatu skończonego. Jako przykład porównałem czas tworzenia 1000 takich tablic dla wzorca o wdzięcznej nazwie "Koronawirus Atakuje". Czas tworzenia funkcji przejścia okazał się 600 razy szybszy. WOW!

In [13]:
file = "ustawka.txt"
pattern = "Koronawirus Atakuje"
a,b=0,0
for i in range(1000):
    a += automataMethod(file,pattern)[2]
    b += KMP(file,pattern)[2]
print(a)
print(b)
print("Algorytm tworzenia funkcji przejścia jest około ",a / b, " razy szybszy od tworzenia tablicy przejścia automatu skończonego")

8.899893999099731
0.014669179916381836
Algorytm tworzenia funkcji przejścia jest około  606.706990426967  razy szybszy od tworzenia tablicy przejścia automatu skończonego
