# Алгоритмы поиска

## Задача поиска в массиве

**Определение:** Задача поиска в массиве (Search in array problem)

Вход: Число $k$ и массив из $n$ чисел $\langle a_1, ..., a_n \rangle$

Выход: Позиция $i$ элемента $k$ в массиве $A$, либо $-1$, если $k$ в $A$ нет

**Правосторонний поиск:** Поиск при котором если $\exists i > j : A_i = A_j = k$, то ответом будет индекс $i$ (наибольший)

**Левосторонний поиск:** Поиск при котором если $\exists i > j : A_i = A_j = k$, то ответом будет индекс $j$ (наименьший)

## Бинарный поиск

Пусть массив $A$ отсортирован

**Идея:** Приходим в элемент посередине, смотрим, больше он, чем искомый или меньше, в зависимости от этого переходим в левых/правый подмассив


In [2]:
def binsearch_left(A, key):
    l = -1
    r = len(A)
    while r - l > 1:
        m = (l + r) // 2
        if A[m] < key:
            l = m
        else:
            r = m
    return r if r != len(A) else -1

A = [1, 2, 3, 4, 4, 5, 6, 7, 8, 9, 10]
binsearch_left(A, 4)

3

**Теорема**

binsearch_left выполняет задачу поиска на отсортированном массиве A

$\square$

**Случай 1:** $key \in (A_l, A_r]$

Инвариант: $key \in (A_l, A_r]$

Инициализация: $key \in (A_{l_1}, A_{r_1}]$

Сохранение: В предположении индукции $key \in (A_{l_k}, A_{r_k}]$. Тогда если
$A_{\lfloor \frac{l_k + r_k}{2} \rfloor} < key$, то $l_{k + 1} = \lfloor \frac{l_k + r_k}{2} \rfloor$, в обратном случае $r_{k + 1} = \lfloor \frac{l_k + r_k}{2} \rfloor$, т.о. $key \in (A_{l_{k + 1}}, A_{r_{k + 1}}]$

Завершение: в момент, когда возрастающая последовательность $l_k$ и убывающая последовательность $r_k$ встретятся в точке $k'$, останется один элемент $A_{r_{k'}}$, который либо равен $key$ и тогда binsearch_left вернет $r_{k'}$, либо не равен и тогда binsearch_left вернет $-1$

**Случай 2:** $key \notin (A_l, A_r]$

Думаю, ситуация в этом случае очевидна, $l_k$ будет возрастать, пока не встретится с $r_k$, которая меняться не будет. Так как $key \notin (A_l, A_r]$, binsearch_left вернет $-1$

$\blacksquare$


**Теорема**

binsearch_left имеет асимптотику $\theta(\log(n))$

$\square$

$T(n) = T(n / 2) + 1$, т.о.

$T(n) = \Theta(\log(n))$

$\blacksquare$

Аналогично можно ввести правосторонний бинпоиск

In [3]:
def binsearch_right(A, key):
    l = -1
    r = len(A)
    while r - l > 1:
        m = (l + r) // 2
        if A[m] <= key:
            l = m
        else:
            r = m
    return l

A = [1, 2, 3, 4, 4, 5, 6, 7, 8, 9, 10]
binsearch_right(A, 4)

4

## Задача поиска по ответу

Пусть $X, Y$ - вполне упорядоченные множества, $f: X \longrightarrow Y$ функция

**Определение:** Задача поиска по ответу функции $f$

Вход: $c \in Y$

Выход: $x \in X$ : $f(x) = c$ или $\text{None}$ если такого $x$ не существует

Рассмотрим массив $A = \langle f(x_1), f(x_2), ..., f(x_n) : x_i \in X\rangle$.
Таким образом эта задача сводится к изначальной задаче поиска по массиву

Например $X = Y = [a, b] \subset \mathbb{RFloat}$ и $f$ такая:

<img src="../static/monotonic_function.png">

Рассмотрим пример:

Дано целое число $0 \le n \le 2^{64} - 1$. Задача - найти $\lfloor \sqrt{n} \rfloor$.

Формализуем задачу - $X = Y = [0, 2^{64}] \subset \mathbb{N}$, $f(x) = x^2$ - монотонная функция, поэтому можем применить бинарный поиск

In [3]:
EPS = 1

n = int(input())
l = 0 if n == 0 else 1
r = n
while r - l > EPS:
    m = l + (r - l) // 2
    if m * m <= n:
        l = m
    else:
        r = m
print(l)

1111


Рассмотрим еще один пример:

МОП в стойло

In [None]:
N, K = map(int, input().split())
ns = list(map(int, input().strip().split()))[:N]

def check(K, m):
    global ns, N
    K -= 1
    i = 1
    prev = ns[0]
    while i < N:
        if ns[i] - prev >= m:
            prev = ns[i]
            K -= 1

        if K == 0:
            return True
        i += 1
    return False

l = -1
r = ns[N - 1] - ns[0] + 1
while r - l > 1:
    m = (l + r) // 2
    if check(K, m):
        l = m
    else:
        r = m

print(l)

**Замечание:** Если задачу можно переформулировать в виде "найдите максимальное $X$, такое что какое-то свойство от X выполняется", то ее можно решать с помощью бинпоиска. Такой метод называется бинарный поиск по ответу

## Интерполяционный поиск

**Идея:** Рассмотрим задачу: найти слово в словаре. Если оно начинается на букву "А", то никто не будет искать его в середине, а откроет словарь ближе к началу. Алгоритм бинарного поиска не делают различий между "немного больше" и "существенно больше". Поэтому будем делить не пополам, а

In [12]:
def interpolation_search(A, key):
    l = 0
    r = len(A) - 1
    while A[l] < key < A[r]:
        m = l + (key - A[l]) * (r - l) // (A[r] - A[l])

        if A[m] < key:
            l = m + 1
        elif A[m] > key:
            r = m - 1
        else:
            return m

    if A[l] == key:
        return l
    elif A[r] == key:
        return r
    else:
        return -1

A = [1, 2, 3, 4, 4, 5, 6, 7, 8, 9, 10]
interpolation_search(A, 4)

3

**Теорема**

Пусть $A \sim  \text{Uniform}([a, b]^n)$, тогда

interpolation_search имеет ожидаемую асимптотику $\theta(\log \log(n))$

$\square$

Пусть $n_i = r_i - l_i + 1$ - кол-во элементов на $i$-том шаге интерполяционного поиска

$\mathbb{E}(n_i) = \sqrt(n_{i - 1}) = n^{\frac{1}{2^i}}$

....

$\blacksquare$

## Тернарный поиск

**Идея:** Тернарный поиск используется для нахождения экстремума унимодальной функции. В отличие от бинарного поиска, который делит интервал на две части, тернарный поиск делит интервал на три части и отбрасывает ту треть, которая гарантированно не содержит экстремум.

Для унимодальной функции с минимумом (или максимумом) на интервале [a, b], мы вычисляем значения функции в точках, делящих интервал на три примерно равные части: m1 = a + (b-a)/3 и m2 = b - (b-a)/3. Затем, в зависимости от соотношения f(m1) и f(m2), мы отбрасываем левую или правую треть интервала.

In [None]:
def ternary_search_min(f, left, right, eps=1e-9):
    """
    Находит минимум унимодальной функции f на интервале [left, right]
    с точностью eps.
    """
    while right - left > eps:
        m1 = left + (right - left) / 3
        m2 = right - (right - left) / 3

        if f(m1) < f(m2):
            right = m2
        else:
            left = m1

    return (left + right) / 2

def ternary_search_max(f, left, right, eps=1e-9):
    """
    Находит максимум унимодальной функции f на интервале [left, right]
    с точностью eps.
    """
    while right - left > eps:
        m1 = left + (right - left) / 3
        m2 = right - (right - left) / 3

        if f(m1) > f(m2):
            right = m2
        else:
            left = m1

    return (left + right) / 2

# Пример использования: найдем минимум параболы f(x) = x^2 - 4x + 5
def f(x):
    return x**2 - 4*x + 5

min_x = ternary_search_min(f, -10, 10)
print(f"Минимум функции f(x) = x^2 - 4x + 5 находится в точке x ≈ {min_x:.6f}")
print(f"Значение функции в этой точке: f({min_x:.6f}) = {f(min_x):.6f}")


**Теорема**

Асимптотика тернарного поиска - $\Theta(\log(n))$, где $n$ - размер интервала поиска, деленный на требуемую точность.

$\square$

На каждой итерации алгоритма интервал поиска уменьшается в $\frac{3}{2}$ раза. Таким образом, для достижения точности $\varepsilon$ на интервале размером $L$ требуется $\log_{\frac{3}{2}}(\frac{L}{\varepsilon})$ итераций, что равносильно $\Theta(\log(n))$.

$\blacksquare$

**Замечание:** Тернарный поиск можно применять и для дискретных функций, например, для поиска максимума в массиве, где значения сначала возрастают, а затем убывают.


## Поиск с помощью золотого сечения

**Идея:** Поиск с помощью золотого сечения - это метод оптимизации, используемый для нахождения экстремума унимодальной функции. Он похож на тернарный поиск, но использует золотое сечение для выбора точек, что позволяет переиспользовать одно из вычислений функции на каждой итерации.

Золотое сечение - это иррациональное число, равное $\frac{1 + \sqrt{5}}{2} \approx 1.618$. Обозначим его как $\varphi$. Метод использует точки, делящие интервал в пропорции золотого сечения: $x_1 = b - \frac{b-a}{\varphi}$ и $x_2 = a + \frac{b-a}{\varphi}$.


In [None]:
import math

def golden_section_search_min(f, a, b, eps=1e-9):
    """
    Находит минимум унимодальной функции f на интервале [a, b]
    с точностью eps, используя метод золотого сечения.
    """
    # Золотое сечение
    phi = (1 + math.sqrt(5)) / 2

    # Начальные точки
    x1 = b - (b - a) / phi
    x2 = a + (b - a) / phi

    # Вычисляем значения функции в этих точках
    f1 = f(x1)
    f2 = f(x2)

    while b - a > eps:
        if f1 > f2:
            # Минимум находится в правой части
            a = x1
            x1 = x2
            f1 = f2
            x2 = a + (b - a) / phi
            f2 = f(x2)
        else:
            # Минимум находится в левой части
            b = x2
            x2 = x1
            f2 = f1
            x1 = b - (b - a) / phi
            f1 = f(x1)

    return (a + b) / 2

def golden_section_search_max(f, a, b, eps=1e-9):
    """
    Находит максимум унимодальной функции f на интервале [a, b]
    с точностью eps, используя метод золотого сечения.
    """
    # Используем поиск минимума для функции -f
    return golden_section_search_min(lambda x: -f(x), a, b, eps)

# Пример использования: найдем минимум той же параболы f(x) = x^2 - 4x + 5
def f(x):
    return x**2 - 4*x + 5

min_x = golden_section_search_min(f, -10, 10)
print(f"Минимум функции f(x) = x^2 - 4x + 5 находится в точке x ≈ {min_x:.6f}")
print(f"Значение функции в этой точке: f({min_x:.6f}) = {f(min_x):.6f}")


**Теорема**

Асимптотика поиска с помощью золотого сечения - $\Theta(\log(n))$, где $n$ - размер интервала поиска, деленный на требуемую точность.

$\square$

На каждой итерации алгоритма интервал поиска уменьшается в $\varphi$ раз. Таким образом, для достижения точности $\varepsilon$ на интервале размером $L$ требуется $\log_{\varphi}(\frac{L}{\varepsilon})$ итераций, что равносильно $\Theta(\log(n))$.

$\blacksquare$

**Замечание:** Преимущество метода золотого сечения перед тернарным поиском заключается в том, что на каждой итерации требуется только одно новое вычисление функции, а не два, что может быть важно, если вычисление функции дорогостоящее.

**Замечание:** Метод золотого сечения часто используется в численных методах оптимизации, когда функция унимодальна на заданном интервале и не требуется знание производной.
