In [2]:
from wand.image import Image as WImage

# Лабораторная работа 2. Методы поиска

Вариант: 20



# 1. Интерполяционный поиск


### 1.1. Теоретическое описание алгоритма

  Интерполяционный поиск является алгоритмом поиска элемента в упорядоченном массиве, который использует интерполяционную функцию для более точного определения расположения элемента. Идея заключается в том, чтобы сократить количество проверяемых элементов в массиве, определяя возможное расположение элемента на основе значения интерполяционной функции.

  Перед началом поиска определяются начальный и конечный индексы массива, которые обозначают границы интервала поиска. Затем в цикле происходит следующее:

1. Вычисление значения интерполяционной функции.
Для приближенного определения позиции искомого элемента вычисляется интерполяционное значение, используя формулу:

`mid = low + int((x - arr[low]) * (high - low) / (arr[high] - arr[low]))`

    где x - искомый элемент, arr[low] и arr[high] - значения первого     и последнего элементов в массиве, low и high - текущие границы       интервала поиска.

2. Проверка значения элемента в середине интервала.
Если значение элемента в середине интервала равно искомому элементу, то поиск завершается, и возвращается индекс элемента.

3. Обновление границ интервала поиска.
Если значение элемента в середине интервала меньше искомого элемента, то интервал смещается вправо, обновляется значение начального индекса low на mid + 1. Если значение элемента в середине интервала больше искомого элемента, то интервал смещается влево, обновляется значение конечного индекса high на mid - 1.

4. Повторение шагов 1-3 до тех пор, пока искомый элемент не будет найден или границы интервала поиска не будут пересечены.
5. Возврат результата.

Если искомый элемент найден, то возвращается его индекс в массиве. Если элемент не найден, то возвращается None.

Асимптотическая сложность интерполяционного поиска в худшем случае составляет O(log log n), где n - размер массива. Однако, если элементы в массиве не равномерно распределены, то алгоритм может работать медленнее, чем простой бинарный поиск.

### 1.2. Блок-схема

![Блок-схема интерполяционного поиска](interpolation_search.png)

### 1.3. Псевдокод

    function interpolation_search(arr, x)
       low = 0
       high = length(arr) - 1
    
       while low <= high and arr[low] <= x <= arr[high] do
           mid = low + int((x - arr[low]) * (high - low) / (arr[high]    - arr[low]))
        
           if arr[mid] == x then
               return mid
           else if arr[mid] < x then
               low = mid + 1
           else
                high = mid - 1
           end if
        end while
    
       return null
       
    end function


### 1.4. Достоинства и недостатки

Достоинства:

- Если массив равномерно распределен, то алгоритм имеет логарифмическую сложность;

- Использует интерполяционную функцию, что позволяет более точно определить расположение искомого элемента;

- В некоторых случаях может значительно ускорить поиск, если интерполяционная функция точно определяет приблизительное расположение элемента.

Недостатки:

- Если интерполяционная функция не точно определяет расположение элемента, то алгоритм может работать медленнее, чем простой бинарный поиск;

- Может работать некорректно, если элементы в массиве не равномерно распределены.


### 1.5. Реализация алгоритма

In [3]:
def interpolation_search(arr, x):
    n = len(arr)
    if n == 0:
        return 0
    if n == 1:
        return 0 if arr[0] == x else None
    low = 0
    high = n - 1
    while low <= high and arr[low] <= x <= arr[high]:
        mid = low + int((x - arr[low]) * (high - low) / (arr[high] - arr[low]))
        if arr[mid] == x:
            return mid
        elif arr[mid] < x:
            low = mid + 1
        else:
            high = mid - 1
    return None



# Пример использования
arr = [2, 4, 6, 8, 10, 12, 14, 16, 18, 20]
x = 14
result = interpolation_search(arr, x)
if result is not None:
    print(f"Искомый элемент {x} найден, его индекс {result}")
else:
    print(f"Элемент {x} не найден в массиве")


Искомый элемент 14 найден, его индекс 6


### 1.6. Тестировка корректности 

In [4]:
# Тест 1. Поиск элемента, находящегося в начале массива.
assert interpolation_search([1, 3, 5, 7, 9, 11], 1) == 0
    
# Тест 2. Поиск элемента, находящегося в конце массива.
assert interpolation_search([1, 3, 5, 7, 9, 11], 11) == 5
    
# Тест 3. Поиск элемента, находящегося в середине массива.
assert interpolation_search([1, 3, 5, 7, 9, 11], 5) == 2

# Тест 4. Поиск отсутствующего элемента.
assert interpolation_search([1, 3, 5, 7, 9, 11], 6) is None
    
# Тест 5. Поиск в пустом массиве.
assert interpolation_search([], 5) == 0
    
# Тест 6. Поиск в массиве, содержащем только один элемент.
assert interpolation_search([5], 5) == 0
    
# Тест 7. Поиск в массиве, содержащем повторяющиеся элементы.
result = interpolation_search([1, 3, 3, 3, 5, 7, 9, 9, 11], 3)
assert 1 <= result <= 3

# Тест 8. Поиск в массиве, содержащем отрицательные элементы.
assert interpolation_search([-5, -3, -1, 0, 2, 4, 6, 8, 10], 2) == 4

### 1.7. Сравнение указанного алгоритма поиска для массивов, содержащих n1, n2, n3 и n4 элементов

In [5]:
import timeit

def measure_search_time(arr, x):
    start_time = timeit.default_timer()
    interpolation_search(arr, x)
    end_time = timeit.default_timer()
    return (end_time - start_time) * 1000

sizes = [1000, 5000, 10000, 100000]
arrays = [list(range(size)) for size in sizes]

for arr, size in zip(arrays, sizes):
    search_element = arr[size // 2]  # выбираем элемент из середины массива
    search_time = measure_search_time(arr, search_element)
    print(f"Время поиска элемента {search_element} в массиве размером {size}: {search_time:.6f} мс")

Время поиска элемента 500 в массиве размером 1000: 0.005334 мс
Время поиска элемента 2500 в массиве размером 5000: 0.009083 мс
Время поиска элемента 5000 в массиве размером 10000: 0.002250 мс
Время поиска элемента 50000 в массиве размером 100000: 0.002333 мс


# 2. Алгоритм Ахо — Корасик


### 2.1. Теоретическое описание алгорита

  Алгоритм Ахо-Корасик - это эффективный алгоритм поиска нескольких подстрок в строке. Он основан на использовании структуры данных под названием бор (trie), которая является деревом, представляющим множество строк, и конечного автомата для обработки текста.

  Бор - это дерево с символами на рёбрах, где каждая вершина может иметь не более одного ребенка с заданным символом. Бор эффективно представляет множество строк, позволяя быстро находить подстроки.

Алгоритм состоит из двух этапов:

 - Построение бора: для каждой подстроки добавляем её в бор. Вершины дерева содержат ссылки на своих родителей и список выходных функций.
 
- Построение конечного автомата: используем обход в ширину для создания суффиксных ссылок для каждой вершины. Суффиксная ссылка указывает на самый длинный собственный суффикс строки, представленной вершиной. Это позволяет алгоритму переходить между вершинами, когда ищет подстроки в тексте.

Поиск подстрок выполняется однократным сканированием текста с использованием построенного конечного автомата. Когда алгоритм достигает конца подстроки, он выводит найденные совпадения.

### 2.2. Блок-схема

![Блок-схема Aхо-Корасик](Aho-Korasik.png)

### 2.3. Псевдокод

    function build_trie(patterns):
        trie = create_empty_trie()
        for pattern in patterns:
            add_pattern_to_trie(trie, pattern)
        return trie

    function build_aho_corasick(trie):
        queue = initialize_queue(trie)
        while queue is not empty:
            node = queue.pop()
            for edge in node.edges:
                child = edge.target
                queue.push(child)
                calculate_suffix_link(trie, child, edge.symbol)
                calculate_output(trie, child)

    function search_aho_corasick(text, trie):
        state = trie.root
        for i in range(len(text)):
            state = get_next_state(trie, state, text[i])
            if state.output:
                for pattern in state.output:
                    print("found pattern", pattern, "at index", i - len(pattern) + 1)


### 2.4. Достоинства и недостатки

Достоинства:

- Эффективный поиск множества подстрок в строке (линейное время)
- Не требует дополнительной памяти для хранения промежуточных результатов
- Однократное сканирование текста

Недостатки:

- Построение бора и автомата может занять много времени и памяти
- Не эффективен для поиска одной подстроки

### 2.5. Реализация алгоритма

In [6]:
class TrieNode:
    def __init__(self):
        self.children = {}
        self.output = []
        self.fail = None

class AhoCorasick:
    def __init__(self, patterns):
        self.root = TrieNode()
        self.build_trie(patterns)
        self.build_automaton()

    def build_trie(self, patterns):
        for pattern in patterns:
            node = self.root
            for char in pattern:
                if char not in node.children:
                    node.children[char] = TrieNode()
                node = node.children[char]
            node.output.append(pattern)

    def build_automaton(self):
        queue = [self.root]
        while queue:
            node = queue.pop(0)
            for char, child in node.children.items():
                queue.append(child)
                fail = node.fail
                while fail and char not in fail.children:
                    fail = fail.fail
                child.fail = fail.children[char] if fail else self.root
                child.output.extend(child.fail.output)

    def search(self, text):
        results = []
        node = self.root
        for i, char in enumerate(text):
            while node and char not in node.children:
                node = node.fail
            if not node:
                node = self.root
            else:
                node = node.children[char]
                for pattern in node.output:
                    results.append((i - len(pattern) + 1, pattern))
        return results

# Пример использования
patterns = ["a", "ab", "bc", "aab", "aac", "bd"]
aho_corasick = AhoCorasick(patterns)
text = "abcdaabaacbd"
results = aho_corasick.search(text)

for index, pattern in results:
    print(f"Found pattern '{pattern}' at index {index}")

Found pattern 'a' at index 0
Found pattern 'ab' at index 0
Found pattern 'bc' at index 1
Found pattern 'a' at index 4
Found pattern 'a' at index 5
Found pattern 'aab' at index 4
Found pattern 'ab' at index 5
Found pattern 'a' at index 7
Found pattern 'a' at index 8
Found pattern 'aac' at index 7
Found pattern 'bd' at index 10


### 2.6. Тестировка корректности 

In [7]:

patterns = ["a", "ab", "bc", "aab", "aac", "bd"]
aho_corasick = AhoCorasick(patterns)

# Тест 1: все образцы найдены
text = "abcdaabaacbd"
results = aho_corasick.search(text)
print(f"Тест 1: {results}")
assert len(results) == 11

# Тест 2: нет совпадений
text = "defg"
results = aho_corasick.search(text)
print(f"Тест 2: {results}")
assert len(results) == 0

# Тест 3: найдены только некоторые образцы
text = "abcdeaac"
results = aho_corasick.search(text)
print(f"Тест 3: {results}")
assert len(results) == 6

# Тест 4: строка содержит повторяющиеся образцы
text = "ababa"
results = aho_corasick.search(text)
print(f"Тест 4: {results}")
assert len(results) == 5

# Тест 5: строка состоит только из одного образца
text = "a"
results = aho_corasick.search(text)
print(f"Тест 5: {results}")
assert len(results) == 1

print("All tests passed!")


Тест 1: [(0, 'a'), (0, 'ab'), (1, 'bc'), (4, 'a'), (5, 'a'), (4, 'aab'), (5, 'ab'), (7, 'a'), (8, 'a'), (7, 'aac'), (10, 'bd')]
Тест 2: []
Тест 3: [(0, 'a'), (0, 'ab'), (1, 'bc'), (5, 'a'), (6, 'a'), (5, 'aac')]
Тест 4: [(0, 'a'), (0, 'ab'), (2, 'a'), (2, 'ab'), (4, 'a')]
Тест 5: [(0, 'a')]
All tests passed!


### 2.7. Все вхождения имени главного героя в любимом литературном произведении

Я буду искать количестов вхождений фамилии Каупервуд в произведении Теодора Драйзера "Финансист"

In [8]:
# Загрузить текст книги
with open("Draizer_Teodor_Finansist_Readli.Net_bid258_original_04d06.txt", encoding="utf-8") as file:
    book_text = file.read()

# Создать экземпляр алгоритма с фамилией "Каупервуд" в качестве образца
patterns = ["Каупервуд"]
aho_corasick = AhoCorasick(patterns)

# Применить алгоритм к тексту книги
results = aho_corasick.search(book_text)

# Вывести результаты
print(f"Фамилия 'Каупервуд' найдена {len(results)} раз.")
for result in results:
    print(f"Позиция: {result[0]}, Совпадение: {result[1]}")


Фамилия 'Каупервуд' найдена 1769 раз.
Позиция: 626, Совпадение: Каупервуд
Позиция: 2180, Совпадение: Каупервуд
Позиция: 3037, Совпадение: Каупервуд
Позиция: 3421, Совпадение: Каупервуд
Позиция: 3570, Совпадение: Каупервуд
Позиция: 3637, Совпадение: Каупервуд
Позиция: 4522, Совпадение: Каупервуд
Позиция: 4999, Совпадение: Каупервуд
Позиция: 6172, Совпадение: Каупервуд
Позиция: 6457, Совпадение: Каупервуд
Позиция: 7073, Совпадение: Каупервуд
Позиция: 8323, Совпадение: Каупервуд
Позиция: 9778, Совпадение: Каупервуд
Позиция: 14288, Совпадение: Каупервуд
Позиция: 15034, Совпадение: Каупервуд
Позиция: 15417, Совпадение: Каупервуд
Позиция: 15990, Совпадение: Каупервуд
Позиция: 17872, Совпадение: Каупервуд
Позиция: 18631, Совпадение: Каупервуд
Позиция: 19557, Совпадение: Каупервуд
Позиция: 22045, Совпадение: Каупервуд
Позиция: 22754, Совпадение: Каупервуд
Позиция: 22846, Совпадение: Каупервуд
Позиция: 24149, Совпадение: Каупервуд
Позиция: 24542, Совпадение: Каупервуд
Позиция: 25364, Совпадение

## Литература

Дональд Э. Кнут. Искусство программирования, том 2. Получисленные алгоритмы = The Art of Computer Programming, vol.2. Seminumerical Algorithms, 3-ed. — Вильямс, 2007. — С. 832. — ISBN 978-5-8459-0081-4.

Роберт Седжвик. Фундаментальные алгоритмы на C. Анализ/Структуры данных/Сортировка/Поиск = Algorithms in C. Fundamentals/Data Structures/Sorting/Searching. — СПб.: ДиаСофтЮП, 2003. — С. 672. — ISBN 5-93772-081-4.