# Algorytmy tekstowe - laboratorium 1

# Zaimplementuj w Pythonie algorytmy wyszukiwania wzorców:
<ul>
    <li>naiwny</li>
    <li>automat skończony </li>
    <li>algorytm KMP </li>
</ul>

Algorytm naiwny:

In [1]:
def naive(text, pattern): # O(nm - m^2 + m)
    result = []
    for s in range(len(text)-len(pattern)+1):
        if text[s:s+len(pattern)] == pattern:
            result.append(s)
    return result

Automat skończony:

In [2]:
def transition(pattern):
    letters = set(pattern)
    result = []
    for q in range(0, len(pattern) + 1):
        result.append({})
        for letter in letters:
            k = min(len(pattern)+1, q+2)
            while True:
                k -= 1
                if k == 0 or pattern[:k] == (pattern[:q] + letter)[-k:]:
                    break
            result[q][letter] = k

    return result

def fa_matching(text, pattern):
    q = 0
    delta = transition(pattern)
    length = len(delta) - 1
    result = []

    for i in range(0, len(text)):
        if text[i] in delta[q]:
            q = delta[q][text[i]]
            if (q == length):
                result.append(i+1-q)
            
    return result

Algorytm Knutha-Morrisa-Pratta:

In [3]:
def prefix_function(pattern):
    pi = [0]
    k = 0
    for q in range(1,len(pattern)):
        while k > 0 and pattern[k] != pattern[q]:
            k = pi[k-1]
        if pattern[k] == pattern[q]:
            k += 1
        pi.append(k)
    return pi

def KMP(text, pattern):
    pi = prefix_function(pattern)
    q = 0
    result = []
    
    for i in range(0, len(text)):
        while q > 0 and pattern[q] != text[i]:
            q = pi[q-1]
        if pattern[q] == text[i]:
            q += 1
        if q == len(pattern):
            q = pi[q-1]
            result.append(i+1-q)
    return result
    

# Zaimplementuj testy porównujące szybkość działania wyżej wymienionych algorytmów, z rozbiciem na czas pre-processingu oraz czas wyszukiwania wzorca w tekście

In [4]:
import time

def check_time(function_id, text, pattern):
    preprocessing_time, function_time = 0, 0
    
    if function_id == "Algorytm naiwny":
        start_preprocessing = time.time()
        end_preprocessing = time.time()

        start_function = time.time()
        naive(text, pattern)
        end_function = time.time()
    
    elif function_id == "Automat skończony":
        start_preprocessing = time.time()
        transition(pattern)
        end_preprocessing = time.time()

        start_function = time.time()
        fa_matching(text, pattern)
        end_function = time.time()
    
    else:
        start_preprocessing = time.time()
        prefix_function(pattern)
        end_preprocessing = time.time()

        start_function = time.time()
        KMP(text, pattern)
        end_function = time.time()
        
    preprocessing_time = end_preprocessing - start_preprocessing
    function_time = end_function - start_function
    
    print("\nFunkcja: " + function_id)
    print(f"Czas preprocessingu: {preprocessing_time}")
    print(f"Czas wyszukiwania wzorca: {function_time}")       

testy:

In [5]:
text = "abcdefghijklmnopqrstuvwxyz"
pattern = "lmnopq"

check_time("Algorytm naiwny", text, pattern)
check_time("Automat skończony", text, pattern)
check_time("Algorytm Knutha-Morrisa-Pratta", text, pattern)


Funkcja: Algorytm naiwny
Czas preprocessingu: 0.0
Czas wyszukiwania wzorca: 1.2874603271484375e-05

Funkcja: Automat skończony
Czas preprocessingu: 0.0001728534698486328
Czas wyszukiwania wzorca: 0.00013113021850585938

Funkcja: Algorytm Knutha-Morrisa-Pratta
Czas preprocessingu: 5.0067901611328125e-06
Czas wyszukiwania wzorca: 1.430511474609375e-05


# Znajdź wszystkie wystąpienia wzorców "pan" oraz "pani" w załączonym pliku, za pomocą każdego algorytmu. W raporcie zamieść liczbę dopasowań każdego ze wzorców osobno dla każdego algorytmu. Upewnij się, że każdy algorytm zwraca taką samą liczbę dopasowań

In [12]:
def find_pattern(file, pattern):
    result1, result2, result3 = None, None, None
    
    with open(file, "r") as file:
        
        text = file.read()
        
        result1 = naive(text,pattern)
        print(f"Algorytm naiwny - liczba dopasowań: {len(result1)}")
        result2 = fa_matching(text, pattern)
        print(f"Automat skończony - liczba dopasowań: {len(result2)}")
        result3 = KMP(text, pattern)
        print(f"Algorytm Knutha-Morrisa-Pratta - liczba dopasowań: {len(result3)}")
        
    if len(result1) == len(result2) and len(result2) == len(result3):
        print(f"\nWszystkie algorytmy zwróciły taką samą liczbę dopasowań: {len(result1)}")
    else:
        print("Algorytmy zwróciły inną liczbę dopasowań.")
        

In [15]:
print("----------Wzorzec 'pan'----------")
find_pattern("pan-tadeusz.txt", "pan")
print("\n----------Wzorzec 'pani'----------")
find_pattern("pan-tadeusz.txt", "pani")

----------Wzorzec 'pan'----------
Algorytm naiwny - liczba dopasowań: 401
Automat skończony - liczba dopasowań: 1900
Algorytm Knutha-Morrisa-Pratta - liczba dopasowań: 401
Algorytmy zwróciły inną liczbę dopasowań.

----------Wzorzec 'pani'----------
Algorytm naiwny - liczba dopasowań: 100
Automat skończony - liczba dopasowań: 538
Algorytm Knutha-Morrisa-Pratta - liczba dopasowań: 100
Algorytmy zwróciły inną liczbę dopasowań.
