# **Лабораторная работа № 5. Алгоритмы поиска подстрок**

## **Задание 1**
Заполните массив 500 числами (четный вариант – простые числа, нечетный вариант – числа Фибоначчи) написанными слитно. Используя каждый изученный алгоритм поиска подстрок (наивный, Рабина-Карпа, Бойера-Мура, Кнута-Морриса-Пратта), посчитайте количество наиболее часто встречающихся двузначных чисел в образовавшейся строке. Сравните изученные алгоритмы поиска подстрок. Сделайте вывод о их достоинствах и недостатках.

### **Функция для создания чисел Фиббоначи**

In [None]:
def generate_fibonacci_concatenated(n):
    if n <= 0:
        return []

    fibonacci_numbers = [0, 1]
    concatenated_fibonacci = "01"

    while len(concatenated_fibonacci) < n:
        next_number = fibonacci_numbers[-1] + fibonacci_numbers[-2]
        fibonacci_numbers.append(next_number)
        concatenated_fibonacci += str(next_number)

    return concatenated_fibonacci[:n]

In [None]:
n = 500
result = generate_fibonacci_concatenated(n)
print(result)

01123581321345589144233377610987159725844181676510946177112865746368750251213931964183178115142298320401346269217830935245785702887922746514930352241578173908816963245986102334155165580141267914296433494437701408733113490317018363119032971215073480752697677787420491258626902520365011074329512800995331629117386267571272139583862445225851433717365435296162591286729879956722026041154800875592025047307819614052739537881655747031984210610209857723171676801775652777789003528844945570212853727234602481


### **Наивный алгоритм поиска**
– прямое последовательное сравнение шаблона с элементами строки.


Лучший случай: O(n), где n - длина текста

Средний случай: O(nm), где n - длина текста, m - длина образца

Худший случай: O(nm)

In [None]:
def most_frequent_two_digit_numbers(concatenated_fibonacci):
    counts = {}

    for i in range(len(concatenated_fibonacci) - 1):

        two_digit_number = int(concatenated_fibonacci[i:i+2]) #смотрим все двухзначные числа в списке

        if two_digit_number not in counts:
            counts[two_digit_number] = 1
        else:
            counts[two_digit_number] += 1

    max_count = max(counts.values())
    most_frequent_numbers = [number for number, count in counts.items() if count == max_count]

    return most_frequent_numbers, max_count

In [None]:
most_frequent_numbers, frequency = most_frequent_two_digit_numbers(result)
print(f"Наиболее часто встречающиеся двузначные числа: {most_frequent_numbers}")
print(f"Количество повторений: {frequency}")

Наиболее часто встречающиеся двузначные числа: [12, 77]
Количество повторений: 10


### **Алгоритм Рабина-Карпа**
– алгоритм, который ускорить работу наивного алгоритма за счет использования хэш-функции. 

Будем использовать хэшировние с модульной арифметикой, для того чтобы избежать переполнения, но при этом получать корректные результаты хеширования мы для всех промежуточных результатов вычислений будем брать остаток от деления.

Лучший случай: O(n), где n - длина текста

Средний случай: O(n + m), где n - длина текста, m - длина образца

Худший случай: O(nm), но это крайне редко происходит при использовании хорошего хеш-функции и модуля

In [None]:
def rabin_karp(text, pattern, d=10, q=997): # d - основание хэширования, у нас 10 числа поэтому 10. q - модуль, по которому берется остаток при вычислении хэш-значений.

    m = len(pattern)  
    n = len(text) 
    h = pow(d, m - 1) % q  # Вычисление коэффициента хэширования
    p = 0  # Хэш-значение подстроки 
    t = 0  # Хэш-значение части текста, с которой сравнивается подстрока
    result = 0  # Количество повторений двузначного числа

    # Инициализация хэш-значений подстроки и части текста
    for i in range(m):
        p = (d * p + int(pattern[i])) % q
        t = (d * t + int(text[i])) % q


    # Проход по тексту и сравнение хэш-значений
    for s in range(n - m + 1): #проходим по всем возможным n-m+1 начальным позициям для подстроки pattern в строке text

        if p == t:
            # Если хэш-значения совпадают, проверка на совпадение подстроки и части текста
            match = True

            
            for i in range(m):
                if pattern[i] != text[s + i]:
                    match = False
                    break
            if match:
                result += 1
        if s < n - m:
            # Обновление хэш-значения части текста
            t = (d * (t - int(text[s]) * h) + int(text[s + m])) % q

    return result


In [None]:
def rabin_karp_most_frequent_two_digit_numbers(concatenated_fibonacci):
    counts = {}  # Словарь для хранения количества повторений каждого двузначного числа

    # Вычисление количества повторений для каждого двузначного числа (от 10 до 99)
    for i in range(10, 100):
        pattern = str(i)
        count = rabin_karp(concatenated_fibonacci, pattern)
        counts[i] = count

    max_count = 0  # Максимальное количество повторений
    most_frequent_numbers = []  # Список наиболее часто встречающихся чисел

    # Нахождение наиболее часто встречающихся чисел и их количества повторений
    for number, count in counts.items():
        if count > max_count:
            max_count = count
            most_frequent_numbers = [number]
        elif count == max_count:
            most_frequent_numbers.append(number)

    return most_frequent_numbers, max_count

In [None]:
most_frequent_number, max_count = rabin_karp_most_frequent_two_digit_numbers(result)
print(f"Наиболее часто встречающееся двузначное число: {most_frequent_number}")
print(f"Количество повторений: {max_count}")

Наиболее часто встречающееся двузначное число: [12, 77]
Количество повторений: 10


### **Алгоритм Бойера-Мура**
– алгоритм, который сдвигает шаблон или до первого совпадающего символа, или на длину шаблона. 

Лучший случай: O(n/m), где n - длина текста, m - длина образца

Средний случай: O(n), где n - длина текста

Худший случай: O(nm), но этот случай возникает редко для типичных текстов и образцов

In [None]:
def boyer_moore_search_simple(text, pattern):
    pattern_length = len(pattern)
    text_length = len(text)

    count = 0
    index = 0

    while index <= text_length - pattern_length:
        shift = 1
        match = True

        for i in reversed(range(pattern_length)):
            if pattern[i] != text[index + i]: #сравнение текущего символа паттерна с текстом 
                shift = max(1, pattern_length - i) #сдвиг либо на один символ либо на длину шаблона 
                match = False
                break

        if match:
            count += 1
            shift = 1

        index += shift

    return count

In [None]:
def most_frequent_two_digit_numbers_simple(big_number):
  
    big_number_str = str(big_number)
    max_count = 0
    most_frequent_numbers = []

    for i in range(10, 100):
        pattern = str(i)
        count = boyer_moore_search_simple(big_number_str, pattern)

        if count > max_count:
            max_count = count
            most_frequent_numbers = [i]
        elif count == max_count:
            most_frequent_numbers.append(i)

    return most_frequent_numbers, max_count

In [None]:
most_frequent_numbers, max_count = most_frequent_two_digit_numbers_simple(result)

print("Наиболее часто встречающиеся двузначные числа:", most_frequent_numbers)
print("Количество вхождений:", max_count)

Наиболее часто встречающиеся двузначные числа: [12]
Количество вхождений: 10


В данном случае наш алгоритм находит только одно число 12, но по сути их должно быть два, т.е 12 и 77. Это происходит потому что, алгоритм видет 2 вхождения 77 в значение 7777, а не 3 как должно быть. Когда алгоритм находит первое совпадение 77, он сдвигает окно на определенное количество позиций (на длину образца). В результате этого сдвига алгоритм может пропустить следующее вхождение 77, потому что оно перекрывается с первым вхождением.

### **Алгоритм Кнута-Морриса-Пратта**

– эффективный алгоритм, время работы которого линейно зависит от входных данных.

Префикс-функция (π) – максимальная длина совпадающих суффиксов и префиксов, для каждого префикса строки, не равных длине самой подстроки (самого префикса)

Лучший случай: O(n), где n - длина текста

Средний случай: O(n), где n - длина текста

Худший случай: O(n), где n - длина текста

In [None]:
def kmp_search(text, pattern):

    n = len(text)
    m = len(pattern)

    # Вычисление префикс-функции для подстроки pattern
    pi = [0] * m
    j = 0
    for i in range(1, m):
      
        while j > 0 and pattern[j] != pattern[i]:
            j = pi[j-1]

        if pattern[j] == pattern[i]:
            j += 1

        pi[i] = j




    # Поиск вхождений подстроки pattern в строке text
    j = 0
    indices = []
    for i in range(n):
        while j > 0 and pattern[j] != text[i]:
            j = pi[j-1]
        if pattern[j] == text[i]:
            j += 1
        if j == m:
            indices.append(i-m+1)
            j = pi[j-1]

    return indices

In [None]:
def count_most_common(text):

    numbers = [str(i) for i in range(10, 100)]

# Подсчет количества вхождений каждого числа
    counts = {number: 0 for number in numbers}
    for number in numbers:
        indices = kmp_search(text, number)
        counts[number] = len(indices)

# Нахождение чисел с максимальным количеством вхождений
    max_count = 0
    max_numbers = []
    for number, count in counts.items():
        if count > max_count:
            max_count = count
            max_numbers = [number]
        elif count == max_count:
            max_numbers.append(number)

    return [(number, count) for number, count in counts.items() if number in max_numbers]

In [None]:
most_common = count_most_common(result)

print(f"Наиболее часто встречающееся двузначное число: {most_common[0][0], most_common[1][0]}")
print(f"Количество повторений: {most_common[1][1]}")

Наиболее часто встречающееся двузначное число: ('12', '77')
Количество повторений: 10


### **ИТОГ**

**Наивный алгоритм**

*Достоинства*:


*   Прост в реализации и понимании
*   Работает на всех типах данных


*Недостатки*:



*   Имеет наихудшую временную сложность O(nm)
*   Неэффективен для длинных строк и подстрок


**Алгоритм Рабина-Карпа**

*Достоинства:*


*  Хорошо работает на случайных данных
*  Временная сложность в среднем O(n+m), лучше чем у наивного алгоритма

*Недостатки*:

*   В худшем случае может иметь временную сложность O(nm)
*   Может давать ложные срабатывания


**Алгоритм Бойера-Мура**

*Достоинства:*

*   Временная сложность в худшем случае O(n/m), что делает его одним из самых быстрых алгоритмов
*   Очень эффективен на практике
*   Имеет меньшую вероятность ложных срабатываний, чем алгоритм Рабина-Карпа


*Недостатки:*


*   Требует дополнительной памяти для хранения таблицы смещений
*   Неэффективен на небольших строках.



**Алгоритм Кнута-Морриса-Пратта**

*Достоинства:*


*   Временная сложность O(n+m) в худшем случае
*   Эффективен на практике
*   Не дает ложных срабатываний

*Недостатки:*



*   Требует дополнительной памяти для хранения префикс-функции
*   Неэффективен на коротких строках

## **Задание 2**

Дан набор рефератов. Выберите любой алгоритм поиска и определите количество плагиата (в % от общего количества символов в реферате) в тексте реферата, взяв за основу соответствующие статьи из Википедии (название файла = название статьи). За плагиат считать любые 3 совпавших слова, идущих подряд. Обоснуйте выбранный алгоритм поиска.

In [None]:
!pip install python-docx wikipedia-api

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting wikipedia-api
  Downloading Wikipedia_API-0.5.8-py3-none-any.whl (13 kB)
Installing collected packages: wikipedia-api
Successfully installed wikipedia-api-0.5.8


In [None]:
import docx

def get_text(filename):
    doc = docx.Document(filename)
    fullText = []
    for para in doc.paragraphs:
        fullText.append(para.text)
    return '\n'.join(fullText)

In [None]:
import re

def clear_text(row):
  row = row.replace('\xa0', '').replace('\t', '').replace('\n', '').replace('[', ' ').replace(']', ' ')
  row = row.lower()
  row = re.sub('[^а-яА-ЯёЁa-zA-z1-9]' , ' ' , row)

  return row.split()

In [None]:
text = clear_text(get_text('Корпоративные ценности.docx'))

In [None]:
import wikipediaapi
wiki_wiki = wikipediaapi.Wikipedia('ru')

wiki = clear_text(wiki_wiki.page('Корпоративные_ценности').text)

In [None]:
def get_plagiarism(text, wiki):
  count_symbols = 0
  wiki = ' '.join(wiki)
  pattern_idxs = set() 

  all_symbols = len(''.join(text))

  for i in range(len(text) - 3):
    pattern = text[i: i+3]

    count = boyer_moore_search_simple(wiki, ' '.join(pattern))
    if count > 0:
      for j in range(i, i+3):
        if j not in pattern_idxs:
          pattern_idxs.add(j)
          count_symbols += len(text[j])

  return count_symbols / all_symbols * 100



In [None]:
print(f'{get_plagiarism(text, wiki):.2f} - plagiarized content detected')

7.31 - plagiarized content detected


In [None]:

# importing SequenceMatcher of difflib module
from difflib import SequenceMatcher

text = get_text('Корпоративные ценности.docx')
wiki = wiki_wiki.page('Корпоративные_ценности').text
# Comparing Both Text Files
ab = SequenceMatcher(None, text,
                      wiki).ratio()
  
# converting decimal output in integer
result = int(ab*100)
print(f"{result}% Plagiarized Content")

11% Plagiarized Content


# Задание

In [None]:
def rabin_karp_new(text, pattern, M=256):
    m = len(pattern)  
    n = len(text) 
    result = 0
    dic = dict()
    col = 0

    new_text = text
    bad_words = []

    # Инициализация хэш-значения подстроки
    p = sum([ord(x) for x in pattern]) % M

    for i in range(n-m+1):
      match=True
      hash = sum([ord(x) for x in text[i: i+m]]) % M
      
      if hash not in dic.values():
        dic[text[i: i+m]] = hash
      else:
        bad_words.append(text[i: i+m])

        col += 1
      if hash == p:
        for j in range(m):
          if pattern[j] != text[j + i]:
            match=False
            break
        if match:
          result += 1  
    print(bad_words)
    return result, dic, col

def dic_to_text(dic):
  k = list(dic.keys())
  text = k[0]
  for i in k[1:]:
    text += i[-1]
  return text

In [None]:
def rabin_karp_new(input_text, search_pattern):
    m = len(search_pattern)
    n = len(input_text)
    copied_text = input_text

    pattern_hash_val = sum(ord(char) for char in search_pattern)

    text_hash_val = sum(ord(input_text[i]) for i in range(m))
    occurrences = 0
    if text_hash_val == pattern_hash_val and input_text[:m] != search_pattern:
        occurrences += 1

    for i in range(m, n):
        text_hash_val -= ord(input_text[i - m])
        text_hash_val += ord(input_text[i])

        if occurrences > 1 or (text_hash_val == pattern_hash_val and input_text[i-m+1: i+1] != search_pattern):
            print(input_text[i-m+1: i+1], search_pattern)
            start_idx = i - m + 1
            end_idx = start_idx + m
            copied_text = copied_text.replace(input_text[start_idx:end_idx], '')
    return copied_text

    return -1

In [None]:
text_1 = 'приветаллоприветпокатевирп'
# count, dic, coll = 
rabin_karp_new(text_1, 'привет')
# print(count, dic, coll)

# print(dic_to_text(dic))

риветп привет
ветпок привет
тевирп привет


'приветаллопока'