# 1. Алгоритм. Память и время как ресурсы

- Алгоритм - это набор шагов или инструкций необходимых для решения задачи
- Алгоритм - набор конечного числа правил задающего последовательность выполнения операций компьютерной программой для решения задачи определенного типа.

Свойства алгоримта:
1. Конечность - алгоритм всегда должен заканчиваться после выполнения конечного числа шагов
2. Определенность - действия которые нужно выполнить должны быть строго и недвусмысленно опеределены для каждого возможного случая
3. Ввод - алгоритм имеет некоторое (иногда равное нулю) число входных данных
4. Вывод - у алгоримта есть одно или несколько выходных данных, т.е. величин имеющих вполне определенную связь с входными данными
5. Эффективность - Алгоритм обычно считается эффективным, если все его операторы достаточно просто для того, чтобы их можно было выполнить в течении конечного промежутка времени с помощью карандаша и бумаги

- Память
Для выполнения алгоритма чаще всего используют основную память или RAM
Для анализа алгоритма обычно используется анализ прострнаственной сложности алгоритма, чтобы оценить необходимую память времени исполнения как фунекцию от размера входа. Результат выражается в "О"
Четыре аспекта использования памяти:
1. Количество памяти необходимой ждя хранения кода алгоритма
2. Количество памяти необходимое для входных данных
3. Количество памяти необходимое для любых выходных данных (т.к. алгоритмы типа сортировок не требуют иногда не требуют доп памяти ибо тупо переставляют элементы входных данных)
4. Количество памяти необходимое для вычислительного процесса во время вычислений (сюда входять именнованные переменноые и любое стековое просторанство, необходимое для выхова подпрограмм, которое может быть существенным при использовании рекурсии)

- Время
Для анализа алгоритма обычно используется анализ временной сложности алгоритма, чтобы оценить время работы как функцию от размера входных данных. Результат выражается в "О"
*чем выше график функции которая записана под О, тем больше памяти\времени занимает алгоритм*

**$logn<\sqrt(n)<n<nlogn<n^2<2^n$**

# 2. O-символика как инструмент оценки ресурсов, различные асимптотики (логарифм, полином, экспонента).
"О" большое - математическое обозначение для сравнения асимтотического поведения (асимптотики) функций.
Если $f(n)$ является функцией от положительного целого n, можно использовать запись $O(f(n))$; она обозначает величину, точное значение которой неизвестно, и известно только, что ее значение не слишком велико.

Запись $O(f(n))$ всегда обозначает следующее: существует положительные констант $M$ и $n_0$, такие, что величина $x_n$ представленная в виде $O(f(n))$ удовлетворяет условию $|x_n| \leq M |f(n)|$ для всех целых $n \leq n_0$.

Сложность алгоритма O(n) означает, что с увеличением параметра n, характеризующего количество входной информации алгоритма, время работы алгоритма будет возрастать не быстрее чем f(n), умноженная на некоторую константу

*здесь можно воткнуть графики из презы по первой лекции*

# 3. Метод математической индукции, использования для доказательства оценок

Метод математической индукции:
1) Доказать что P(1) верно. (Грубо говоря что алгоритм работает верно для 1)
2) Доказать что "если P(1), P(2), ..., P(n) справедливы, то P(n+1) также справеделиво"; это доказательство должно иметь силу для любого целого положительного n

Пример:
$1 = 1^2$
$1+3=2^2$
$1+3+5=3^2$
$1+3+5+7=4^2$
$1+3+5+7+9=5^2$

Доказательство оценки алгоритма - пройтись мат индукцией по алгоритму и проверить получаем ли мы ту асимптотику что посчитали


# 4. Алгоритмы для работы с большими числами: сложение, умножение, быстрое возведение в степень

Зачем вообще тут использовать алгоритмы? Есть же + - * /

1. Ограничения на объем типов данных для Python
    - int $2^{32-1}$
    - float $2^{64-1}$
    - long формально неограничен
2. Для выполнения операций на ОЧЕНЬ больших числах
3. Использвания встроенных фукнций ограниченно типами данных и особенностью реализации

- Сложение:
По сути просто реализация сложения в столбик

Использовать массивы, которые по сути являются числами разбитыми на цифры (типа по разрядам) и числа st,. означающего позиции с которой начинаются отличные от нуля цифры + максимальная длина числа и иногда основание системы счисления

КОРОЧЕ ГОВОРЯ, ВСЕ В СТОЛБИК ТОВАРИЩИ

In [None]:
#сложение в столбик
MAXLEN = 9
SYS = 10
def add(a, st_a, b, st_b):
    res = [0 for i in range(MAXLEN)]
    flag = 0
    mxop = a if st_a > st_b else b
    mnop = a if st_a <= st_b else b
    st_min = min(st_a, st_b)
    st_max = max(st_a, st_b)
    st = st_min
    for i in range(MAXLEN-1, st_max - 1, -1):
        res[i] = mxop[i] + mnop[i] + flag
        flag = res[i] // SYS
        res[i] %= SYS

    for i in range(st_max - 1, st_min - 1, -1):
        res[i] = mnop[i] + flag
        flag = res[i] // SYS
        res[i] %= SYS

    if flag:
        res[st-1] = flag
    return res, st

a = [0, 0, 0, 0, 0, 0, 1, 2, 3]
st_a = 6 
b = [0, 0, 0, 0, 0, 2, 0, 9, 9]
st_b = 5

print(add(a, st_a, b, st_b))

In [8]:
#Умножение больших чисел на малые
MAXLEN = 9
SYS = 10
def mul(a, st, b, offs):
    res = [0 for i in range(MAXLEN)]
    flag = 0

    for i in range(MAXLEN - offs, MAXLEN):
        print(i)
        res[i] = 0

    for i in range(MAXLEN-1, st-1, -1):
        res[i-offs] = a[i] * b + flag
        flag = res[i-offs] // SYS
        res[i-offs] %= SYS

    if flag:
        res[st-offs-1] = flag
        st -= offs
    return res, st

a = [0, 0, 0, 0, 0, 0, 1, 2, 5]
st = 6
b = 5
offs = 0

print(mul(a, st, b, offs))

([0, 0, 0, 0, 0, 0, 1, 2, 5], 6)


In [9]:
#Умножение больших на большие
def mul_long(a, st_a, b, st_b):
    res = [0 for i in range(MAXLEN)]
    st = MAXLEN-1
    for i in range(MAXLEN-1, st_a-1, -1):
        temp, st_temp = mul(b, st_b, a[i], MAXLEN-1-i)
        res, st = add(res, st, temp, st_temp)
    return res, st

- Возведение в степень
Наивный алгоритм имеет сложность O(N), где N - степень.

Помня о том, что при возведении числа в степени в какую-либо степень показатели степеней перемножаются. Отсюда следует, что возможно сократить четные степени. Например:

$3^4 - 3$ операции умножения

$(3^2)^2 - 2$ операции умножения

In [None]:
def power(a, n):
    k = n
    b = 1
    c = a
    while k:
        if not (k % 2):
            k /= 2
            c *= c
        else:
            k -= 1
            b *= c
    return b
    #O(log N), где N - степень

# 5. Арифметика по модулю: сложение, умножение, возведение в степень

- Сравенение по модулю
Определение сравнимости чисел a и b по модулю m равносильно любому из утверждений:
- разность чисел a и b делится на m без остатка
-  число a можеть быть представлено в виде a = b + k * m, где k - некоторое целое число

- Операции по модулю:
- (A + B) mod C = (A mod C + B mod C) mod C
- (A * B) mod C = (A mod C * B mod C) mod C
- A^B mod C = ( (A mod C)^B ) mod C


# 6. Алгоритм Евклида. Расширенный алгоритм Евклида

Даны два целых положительных числа m и n. Требуется найти их наибольший общий делитель т.е. наибольшее целое положительное число, которое нацело делит оба числа m и n

Алгоритм:
1. [Нахождение остатка.] Делим m на n и пусть остатко от деления равен r (r не равно нулю и меньше n)
2. [Сравнение с нулем.] Если r = 0, то выполнение алгоритма прекращается, n - является ответом (искомым значением)
3. [Замещение ] Присвоить m <- n, n <- r и вернуться к первому шагу
*Спойлер - да, алгоритм рекурсивынй*

In [12]:
def euclidus(m, n):
    r = m % n
    if r == 0:
        return n
    m = n
    n = r
    return euclidus(m, n)
euclidus(10, 10)

10

- Расширенный алгоритм Евклида

$a*x+b*y=НОД(a, b)$

Пусть (x1, y1) - решение для задачи новой пары (b%a, a). Тогда:

$$
\begin{equation}
\begin{array}{l}

x = y_1 - [{b}/{a}] * x_1 \\\
y = x_1

\end{array}
\end{equation}
$$

In [None]:

def gcd_extended(num1, num2):
    if num1 == 0:
        return (num2, 0, 1)
    else:
        div, x, y = gcd_extended(num2 % num1, num1)
    return (div, y - (num2 // num1) * x, x)

# 7. Проверка чисел на простоту, решето Эратосфена

- Проверка чисел на простоту

*Простым числом называется число, большее 1, которое делится нацело только на себя и на 1 (имеет два натуральных делителя)*

In [14]:
def isPrime(n):
    if n == 2:
        return True
    j = int(n ** 0.5) + 1
    for i in range(2, j + 1):
        if n % i == 0:
            return False
    return True

isPrime(17)

True

- Решето Эратосфена - алгоритм нахождения всех простых чисел, не превышающих некоторое натуральное число n

Алгоритм:
1. Выписать подряд все целые числа от 2 до n (2, 3, 4, 5, 6, 7, ..., n)
2. Пусть переменная p изначально равна двойке - первому простому числу
3. Зачеркнуть в списке числа от 2p До n, считая шагами по p (это будут числа кратные p: 2p, 3p, 4p, ...)
4. Найти первое незачеркнутое число в списке, большее чем p, и присвоить значению переменной p это число
5. Повторять шаги 3 и 4, пока возможно

In [25]:
def eratosthenes(n):
    num = list(range(n+1))
    num[1] = 0

    for p in range(n+1):
        if num[p]:
            for i in range(2*p, n+1, p):
                num[i] = 0
    
    return [i for i in num if i]


eratosthenes(17)

[2, 3, 5, 7, 11, 13, 17]

# 8. Криптография: схемы с закрытым ключом, RSA.

https://yandex.ru/video/preview/2532061199977323178

RSA (Rivest Shamir Adelman) - криптографический алгоритм с открытым ключом, основывающийся на вычислительной сложности задачи факторизации больших полупростых чисел

Например 592939*592967 = 351593260013. Но имея только ответ выражения, узнать исходные числа практически нереально. Это называется "сложность задачи факторизации произведения двух больших простых чисел" т.е. в одну сторону просто, а в обратную невероятно сложно. Используется при обмене данными и в качестве цифровой подписи. Является базовой частью протокола HTTPS (привет ВА)

***ЧТО ПИСАТЬ В ЗАКРЫТЫЕ КЛЮЧИ КРОМЕ СКРИНОВ ПРЕЗЫ Я БЕЗ ПОНЯТИЯ***

Процедура генерации ключей:
1. Выбираем два случайных простых числа p и q
2. Вычисляем из произведение N = p * q
3. Вычисляем функцию Эйлера $\phi(N) = (p-1)*(q-1)$
4. Выбираем число e (обычно простое, но необязательно), которое меньше $\phi$(N) и является взаимно простым с $\phi$(N) (не имеющих общих делителей друг с другом, кроме 1)
5. Ищем число d, обратное числу e по модулю $\phi$(N). Т.е. остаток от деления (d*e) и $\phi$(N) должен быть равен 1. Найти его можно через расширенный алгоритм Евклида

e n - открытый ключ
d n - закрытый ключ

# 9.  Квадратичные сортировки (вставками, выбором минимума)

- Сортировка простыми обменами, она же сортировка пузярьком, оно же Bubblesort

Алгоритм состоит из повторяющихся проходов по сортируемому массиву. За каждый проход элементы последовательно сравниваются попарно и, если порядок в паре неверный, выполняется перестнаовка элементов. Проходы по массиву повторяются N-1 раз или до тех пор, пока на очередном проходе не окажется, чтообмены больше не нужны, что означает - массив отсортирован

Сложность - $O(n^2)$



In [16]:
def bubblesort(arr):
    for i in range(len(arr)):
        for j in range(0, len(arr) - i - 1):
            if arr[j] > arr[j+1]:
                arr[j], arr[j+1] = arr[j+1], arr[j]
        
    return arr

bubblesort([8,7,6,4,5,5,3,2,1,8])

[1, 2, 3, 4, 5, 5, 6, 7, 8, 8]

- Сортировка вставками

В начальный момент отсортированная последовательность пуста. На каждом шаге алгоритма выбирается один из элементов входных данных и помещается на нужную позицию в уже отсортированной последовательности до тех пор, пока набор входных данных не будет исчерпан.

Данный алгоритм можно ускроить при помощи использования бинарного поиска для нахождения места текцщему элементу в отсортированной части. Проблема с долгим сдвигом массива вправо решается при помощи смены указателей

Сложность - $O(n^2)$

In [None]:
def insertsort(arr):
    for i in range(1, len(arr)):
        key = arr[i]
        j = i - 1
                
        while j >= 0 and key < arr[j]:
            arr[j + 1] = arr[j]
            j = j - 1
        
        arr[j + 1] = key
    return arr
insertsort([9,8,7,6,5,5,4,3,2,1])

[1, 2, 3, 4, 5, 5, 6, 7, 8, 9]

In [None]:
#сортировка выборкой
def selection_sort(arr):
    """
    Performs selection sort on a list of numbers.

    Args:
      arr: The list of numbers to sort.

    Returns:
      The sorted list of numbers.
    """

    for i in range(len(arr) - 1):
        # Find the minimum element in the unsorted subarray.
        min_index = i
        for j in range(i + 1, len(arr)):
            if arr[j] < arr[min_index]:
                min_index = j

        # Swap the minimum element with the first element in the unsorted subarray.
        arr[i], arr[min_index] = arr[min_index], arr[i]

    return arr

Эта функция работает следующим образом:

Она начинается с первого элемента в списке (i = 0).
Затем она находит минимальный элемент в неотсортированном подмассиве, начиная с текущего элемента (min_index = i).
Наконец, она меняет местами минимальный элемент с первым элементом в неотсортированном подмассиве.
Этот процесс повторяется для каждого элемента в списке, пока список не будет отсортирован.

Сортировка выбором минимума - это простой и эффективный алгоритм сортировки. Его сложность составляет O($n^2$), что означает, что он будет работать пропорционально квадрату длины списка.

# 10. Метод «разделяй и властвуй». Бинарный поиск.

https://yandex.ru/video/preview/14099123342823750311
- "Разделяй и властвуй" в информатике - схема разработки алгоритмов, заключающаяся в рекурсивном рабиении решаемой задачи на две или более подзадачи того же типа, но меньшего размера, и комбинировании их решений для получения ответка к исходной задаче; разбиения выполняютяс до тех пор, пока все подзадачи не окажутся элементарными. Применяется в алгоритмах вроде бинарного поиска или сортировки слиянием

- Бинарный поиск
Дана таблица записей $R_1, R_2, R_3, \dots, R_N$, ключи который расположены в порядке возрастания $K_1<K_2<K_3<\dots<K_N$, алгоритм используется для поиска в таблице заданного аргумента K.
1. Установить I $\leftarrow$ 1, u $\leftarrow$ N
2. Если u < I, алгоритм завершится неудачно; иначе установить i $\leftarrow$ floor((I+u)/2), чтобы i соответствовало примерно середине рассматриваемой части таблицы
3. Если $K\lt K_i$, перейти к шагу 4, если $K\gt K_i$ перейти к шагу 5, если равны - алгоритм успешно завершается
4. Установить u $\leftarrow$ i-1 и перейти к шагу 2
5. Установить I $\leftarrow$ i+1 и перейти к шагу 2

Сложность - $O(\log n)$

In [17]:
#binary search
def bs(arr, n):
    low = 0
    high = len(arr)-1
    while low <= high:    
        mid = (low + high) // 2
        if n == arr[mid]:
            return mid
        elif n > arr[mid]:
            low = mid + 1
        else:
            high = mid - 1
    return -1


arr = [3,4,5,6,7,8,9]
bs(arr, 9)

6

# 11. Сортировка слиянием: наивная и эффективная реализация

https://yandex.ru/video/preview/6705430862100961257

1. Сортируемый массив разбивается на две части примерно одинакового размера. Рекурсивное разбиение задачи на меньшие происходит до тех пор, пока размер массива не достигнет единицы (любой массив длины 1 можно считать упорядоченным).
2. Каждая из получившихся частей сортируется отдельно, например — тем же самым алгоритмом;
3. Два упорядоченных массива половинного размера соединяются в один.
    a. На каждом шаге мы берем меньший из двух первых элементов подмассивов и записываем его в результирующий массив. Счётчики номеров элементов результирующего массива и подмассива, из которого был взят элемент, увеличиваем на 1.
    b. Когда один из подмассивов закончился, мы добавляем все оставшиеся элементы второго подмассива в результирующий массив

In [None]:
#наивная
def merge(A, B):
    i, j, C = 0, 0, []
    while True:
        if A[i] < B[j]:
            C.append(A[i])
            i += 1
            if i == len(A):
                C.extend(B[j:])
                break
        else:
            C.append(B[j])
            j += 1
            if j == len(B):
                C.extend(A[i:])
                break
    return C

# 12. Быстрая сортировка: понятие вероятностного алгоритма, время работы в среднем, простейший алгоритм, inplace-алгоритм.

https://yandex.ru/video/preview/5074917056477704737

- Быстрая сортировка, сортировка Хоара (quicksort, qsort (по имени в стандартной библиотеке языка Си) — алгоритм сортировки, разработанный английским информатиком Тони Хоаром во время своей работы в МГУ в 1960 году. Один из самых быстрых известных универсальных алгоритмов сортировки массивов: в среднем O(n log n) обменов при упорядочении n элементов

1. Массив a[1...r] разбивается на два (возможно пустых) подмассива a[1...q] и a[q+1...r] таких, что каждый элемент a[1...q] меньше или рпаен a[q], который в свою очередь не превышает любой элемент подмассива a[q+1...r]. Индекс вычисляется в ходе процедуры разбиения
2. Подмассивы a[1...q] и a[q+1...r] сортируются с помощью рекурсивного вызова процедуры быстрой сортировки
3. Поскольку подмассивы сортируются на месте, для их объединения не требуются никакие действия: весь массив a[1..r] оказыватеся отсортированным


In [None]:
#quicksort
import random
arr = [9, 3, 4, 6, 1, 2, 3, 5, 7, 8]


def quicksort(arr):
    if len(arr) < 2:
        return arr
    pivot = random.randint(0, len(arr)-1)
    middle = arr[pivot]
    
    
    lower, same, higher = [], [], []

    for elem in arr:
        if elem < middle:
            lower.append(elem)
        elif elem > middle:
            higher.append(elem)
        elif elem == middle:
            same.append(elem)
    return quicksort(lower) + same + quicksort(higher)
quicksort(arr)

- Вероятностный алгоритм - это алгоритм, который использует случайные числа или вероятностные методы для принятия решений или выполнения вычислений. В отличие от детерминированных алгоритмов, вероятностные алгоритмы могут давать различные результаты при многократном выполнении на одних и тех же входных данных

- Время работы вероятностного алгоритма в среднем может быть оценено с использованием математических методов, таких как математическое ожидание или вероятностные оценки. Однако, точное определение времени работы вероятностного алгоритма может быть сложной задачей из-за его случайной природы. Для многих вероятностных алгоритмов время работы в среднем может быть выражено через математическое ожидание числа операций, которые требуются для завершения алгоритма. Однако, в реальных условиях время работы вероятностных алгоритмов может варьироваться из-за случайных факторов.

- Простейший алгоритм - это базовый метод решения задачи, который обычно используется как отправная точка для более сложных алгоритмов. Простейший алгоритм может быть неэффективным с точки зрения времени выполнения или потребления ресурсов, но он обычно легко понимаем и легко реализуем.
    Примером простейшего алгоритма может служить последовательный поиск элемента в массиве

- In-place алгоритм - это алгоритм, который изменяет входные данные напрямую, без создания дополнительных структур данных. Другими словами, входные данные изменяются "на месте" (in place) без необходимости выделения дополнительной памяти для временных переменных или структур данных. Пример - функция отзеркаливания списка в питоне

# 13. Динамическое программирование. Общие принципы динамического программирования. Восстановление ответа

**Динамическое программирование** - способ решения сложных задач путем разбиения из на более простые подзадачи. Он примением к задачам с оптимальной подструктурой, выглядящим как набор перекрывающихся подзадач, сложность которых чуть выше исходной. В этом случае время вычислений, по сравнению с наивынми методами, можно значительно сократить

*ДП - это когда у нас есть задача, которую непонято как решить, и мы разбиваем ее на маньшие задачи, которые тоже непонятно как решать (c) А.Кумок*

Принципы ДП:

Метод динамического программирования сверху (меморизация, ленивая динамика) - это простое запоминание рещультатов решения тех подзадач, которые могут повторно встретиться в дальнейшем.

Динамическое программирование снизу (табуляция) включает в себя переформулирование сложной задачи в виде рекурсивной последовательности простых подзадач

Основная идея состоит в том, чтобы

1. Свести задачу для N к задаче для чисел, меньших, чем N (с помощью формулы)
2. Хранить все ответы в массиве
3. Заполнить начало массива вручную (для которых формула не работает)
4. Обойти массив и заполнить ответы по формуле
5. Вывести ответ откуда-то из этого массива


**Восстановление ответа** обычно означает восстановление оптимального решения задачи на основе заполненной таблицы или массива, который был построен в процессе решения задачи.

# 14. Наибольшая возрастающая подпоследовательность

*Рассмотрим последовательность чисел $a_1, a_2, a_3, \dots, a_n$. Если вычеркнуть из этой последовательности часть чисел, мы получим другую последовательность, которую называют подпоследовательностью данной последовательности.*

*Рассмотрим теперь еще одну последовательность $b_1, b_2, b_3, \dots, b_m$. Требуется найти дину смаой длинной подпоследовательности последовательности {$a_i$}, которая одновременно является и подпоследовательность последовательности {$b_i$}. Такую последовательность называют наибольшей общей подпоследовательностью (НОП). Напрмер, длч последовательностей [1, 2, 3, 4, 5] и [2, 7, 3, 2, 5] НОП является подпоследовательность [2, 3, 5] состоящая из трех членов*

**Наибольшая возрастающая подпоследовательность** (НВП) - это подпоследовательность последовательности, в которой элементы расположены в возрастающем порядке и длина подпоследовательности максимальна.

Например, рассмотрим последовательность чисел [1, 3, 5, 7, 9]. Наибольшая возрастающая подпоследовательность этой последовательности - это [1, 3, 5, 7, 9], которая имеет длину 5.

НВП можно найти с помощью динамического программирования. Алгоритм работает следующим образом:

- Для каждого элемента в последовательности мы храним длину наибольшей возрастающей подпоследовательности, которая заканчивается на этом элементе.
- Начальные значения массива составляются следующим образом:
    - Для первого элемента массива значение равно 1.
    - Для всех остальных элементов массива значение равно 0.
- Затем мы перебираем последовательность, начиная с первого элемента. Для каждого элемента мы сравниваем его с предыдущими элементами, и если предыдущие элементы образуют возрастающую подпоследовательность, то мы увеличиваем длину наибольшей возрастающей подпоследовательности, которая заканчивается на текущем элементе.
- После того, как мы проработаем всю последовательность, значение последнего элемента массива будет содержать длину наибольшей возрастающей подпоследовательности в исходной последовательности

In [21]:
def longest_increasing_subsequence(arr):
    n = len(arr)
    dp = [1] * n
    print(dp)

    for i in range(1, n):
        for j in range(i):
            if arr[i] > arr[j] and dp[i] < dp[j] + 1:
                dp[i] = dp[j] + 1
                print(dp)

    return max(dp)

longest_increasing_subsequence([2, 7, 3, 2, 5])

[1, 1, 1, 1, 1]
[1, 2, 1, 1, 1]
[1, 2, 2, 1, 1]
[1, 2, 2, 1, 2]
[1, 2, 2, 1, 3]


3

# 15. Дискретная задача о рюкзаке
https://yandex.ru/video/preview/4540144985018052335
Задача о рюкзаке - дано N предметов, $n_i$ предмет имеет массу $w_i$ > 0 и стоимость $p_i$ > 0. Необходимо выбрать из этих предметов такой набор, чтобы суммарная масса не превосходила заданной величны W (вместимость рюкзака), а суммарная стоимость была максимальна.

Задачу о рюкзаке можно решить несколькими способами:
- Перебирать все подмножества набора из N предметов, но у такого решения будет сложность $O(2^n)$
- Методом Meet-in-the-middle. Сложность решения $O(2^{n/2}N)$
- Метод динамического проагрммирования. Сложность O(NW)

Для решения построим таблицу размерности N на W, где столбцы соответсвуют объему рюкзака, а строки отдельным предметам. 

В общем случае формула для стоимости в каждой ячейке выглядит так:

S[i, j] = max (S[i-1, j], цена i-го предмета + S[i-1, j-вес i-го предмета]), где i - номер строки, j - столбца 

In [22]:
def bag(n, m, M):
    t = [[0] * (M + 1) for _ in range(n+1)]

    for i in range(1, n+1):
        for j in range(1, M+1):
            t[i][j] = t[i-1][j]
            if j - m[i-1] >= 0:
                t[i][j] = max(t[i][j], t[i-1][j-m[i-1]]+m[i-1])
        

    return t[-1][-1] == M

bag(5, [2,4,3,8,2], 10)
#на каждом шаге проверяем можем ли мы добавить еще один элемент. Добавляем смотрим больше с ним или нет

True

# 16. Редакционное расстояние
https://yandex.ru/video/preview/10607071488030576401

**Расстояние Левенштейна** (редакционное расстояние или дистанция редактирования) между двумя строками в теории информации и компьютерной лингвистике - это минимальное количество операций вставки одного символа, удаления одного символа и замены одного сиваола на другой, необходимых для превращения одной строки в другую.

Нахождения расстояния Левенштейна аналогично нахождению НОП для двух строк, исключением того, что мы ищем не максимальное а минимальное количество (по сути обратный НОП)

In [None]:
def levenshtein_distance(s1, s2):
    """
    Finds the Levenshtein distance between two strings.

    Args:
      s1: The first string.
      s2: The second string.

    Returns:
      A list of Levenshtein distances between the two strings, one for each position in the second string.
    """

    n = len(s1)
    m = len(s2)
    dp = [[0] * (m + 1) for _ in range(n + 1)]

    for i in range(n + 1):
        for j in range(m + 1):
            if i == 0:
                dp[i][j] = j
            elif j == 0:
                dp[i][j] = i
            elif s1[i - 1] == s2[j - 1]:
                dp[i][j] = dp[i - 1][j - 1]
            else:
                dp[i][j] = min(
                    dp[i - 1][j] + 1,
                    dp[i][j - 1] + 1,
                    dp[i - 1][j - 1] + 1,
                )

    return dp[n]


# Example usage
s1 = "kitten"
s2 = "sitting"
print(levenshtein_distance(s1, s2))  # Output: [3, 2, 1, 0]

"""
Эта функция работает следующим образом:

Она создает матрицу размером (n + 1) * (m + 1), где n - длина первой строки, а m - длина второй строки.
Начальные значения матрицы составляются следующим образом:
Для первой строки матрицы значения равны 0.
Для первой колонки матрицы значения равны длине второй строки.
Затем мы перебираем матрицу, начиная с первого элемента. Для каждого элемента мы сравниваем соответствующие символы в двух строках, и если они совпадают, то мы устанавливаем значение элемента матрицы равным значению элемента на предыдущей строке и предыдущей колонке. В противном случае мы устанавливаем значение элемента матрицы равным минимальному значению из трех следующих вариантов: * Значения элемента на предыдущей строке и текущей колонке. * Значения элемента на текущей строке и предыдущей колонке. * Значения элемента на предыдущей строке и предыдущей колонке, плюс 1.
После того, как мы проработаем всю матрицу, значения элементов в последней строке матрицы будут содержать расстояния Левенштейна между двумя строками.

Эта функция возвращает список расстояний Левенштейна, один для каждой позиции во второй строке."""

# 17. Односвязный список, двусвязный список.

**Линейный односвязный список** - это структура данных, состоящая из элементов одного типа, связанных между собой последовательно посредством указателей. Каждый элемент списка имеет указатель на следующий элемент. Последний элемент списка указывает на NULL. Элемент, на который нет указателя является первым элементом списка. Здесь ссылка в каждом узле укащывает на следующиЙ узел в списке. В односвящном списке можно передвигаться только в сторону конца списка. Указать адрес предыдущего элемента, опираясь на содержимое текущего узла невозможно.

В информатике линейный список обычно определяется как абстрактный тип данных (АТД), формализующий понятие упорядоченной коллекции данных. На практике линейные списки обычно реализуются при помощи массивов и связных списков


**Двусвязный список (двунаправленный связный список)** - ссылки в каждом узле указывают на предыдущий и на последующий узел в списке.

Как и односвязный список, двусвязный допускает только последовательнй доступ к элементам, но при этом дает возможность перемещения в обе стороны.

В этом списке проще производить удаление и перестановку элементов списка, указатели которых направлена на изменяемый элемент.

Связные списки применяются в основном для:
- Построения более сложных структур данных (numpy array, матрицы и прочее)
- Реализации файловых систем
- Формиврования хэш-таблиц
- Выделения памяти в динамических структурах данных

# 18. Стек

**Стек (stack - стопка)** - структура данных, представляющая из себя упорядоченный набор элементов, в которой добавление новых элементов и удаление существующих производится с одного конца, называемого вершиной стека. Притом первым их стека удаляется элемент, который был помещен туда последним. то есть в стеке реализуется стратегия последним "вошел - первым вышел" (last-in, first-out - LIFO)

Операции стека:

- empty - проверка стека на наличие в нем элементов
- push (запись в стек) - операция вставки нового элемента
- pop (снятие со стека) - операция удаления нового элемента

Применяют для:
- Реализации рекурсий
- Вычислений постфиксных значений
- Временного хранения данных, например истории запросов или изменений

# 19. Очередь

**Очередь (queue)** - это структура данных, добавлене и удаление элементов в которй происзодит путем операций push и pop соответственно. При том первым из очереди удаляется элемент, который был помещен туда первым, то есть в очереди реализуется принцип "первым вошел - первым вышел" (first-in, first-out - FIFO). У очереди имеется голова (head) и хвост (tail). Когда элемень ставится в очередь, он занимает место в ее хвосте. Из очереди всегда выводится элемент, который находится в ее голове.

Имеет следующие операции:

- empty - проверка на наличие в очереди элементов
- push (запись в очередь) - операция добавления нового элемента
- pop (снятие с очереди) - операция удаления элемента
- size - операция получения количества элементов в очереди

Применяют для:
- Реализации очередей, например на доступ к ресурсу (как неожиданно)
- Управления потоками в многопоточных средах
- Генерации значений 
- Создания буферов

# 20. Дек.

**Дек (deque - double ended queue)** - структура данных, представляющая из себя список элементов, в которой добавление новых элементов и удаления существующих производится с обоих концов. Эта структура поддерживает как FIFO, так и LIFO, поэтому на ней можно реализовать как стек так и очередь. В первом случае нужно использовать только методы головы и хвоста, во втором - методы push и pop двух разных концов. Дек можно воспринимать как двухстороннюю очередь

Операции:
- empty - проверка на наличие элементов
- pushBack (запись в конец) - операция вставки нового элемента в конец
- popBack (снятие с конца) - операция удаления конечного элемента
- pushFront (запись в начало) - операция вставки нового элемента в начало
- popFront (снятие с начала) - операция удаления начального элемента

# BONUS

В вопросах этого нет, но написать хотя бы определение надо:

**Множество (set)** - типа и структура данных в информатике, которая является реализацией математического объекта множество.

Данные типа множество позволяют хранить ограниченное число значений определенного типа, без определенного порядка. Повторение значений как правило недопустимо. В общем соответствует концепции математического множества. Для этого типа в языках проагрммирования предусмотрены стандартные операции над множествами.

# 21. Куча

**Куча** - это полное двоичное дерево, удовлетворяющее свойству кучи: если узел A - это родитель узла B, то ключ узла A $\ge$ ключ узла B
- Если любой узел всегда больше дочернего узла (узлов), а ключ корнеого узла является наибольшим среди всех остальных узлов, это **max-куча**
- Если любой узел всегда меньше дочернего узла (узлов), а ключ корневого узла является наимаеньшим среди всех остальных узлов, то это **min-куча**

# 22. Графы. Способы хранения: матрица смежности, списки смежности, матрица инцидентности.

**Граф** - математическая абстракция реально системы любой приподы объекты которой обладают парынми связями. Граф как математический объект есть совокупность двух множеств - множества самих объектов называемого множеством вершин, и множества их парных связей, называемого множеством ребер. Элемент множества ребер есть пара элементов множества вершин.

Графы бывают:
1. Связанные
2. Не связанные
3. Однонаправленные 
4. Двунаправленные
5. Циклические
6. Ориентированные
7. Неориентированные
8. Взвешенные

- Простой (неориентированный) граф G(V,E) есть совокупность двух множеств - непустого множества V и множества E (v - vertices - вершины, e - edges - ребра) неупорядоченных пар раздичных элементов множества V. Множество V называется множество вершин, множество E называется множеством ребер.

![](https://cdn.mathpix.com/snip/images/BznT6eYKQX4NNYqn9G77NMISl0-JZk0E-rl_2OQg24I.original.fullsize.png)

- Ориентированный граф (орграф) G(V,E) есть совокупность двух множеств - непустого множества V и множества E дуг или уопрядоченных пар различных элементов множества V.

![](https://cdn.mathpix.com/snip/images/anE3DjVoJuIxy6jwWC_p0U1UGFDaTQx15WIcDwihgtI.original.fullsize.png)

- Взвешенный граф - граф, каждом ребру которого поставлено соответствие некое значение (вес ребра)

![](wgarph.png)

**Путь** - любая последовательность вершин, в которой каждые две соседние вершины соединены ребром ($A \rightarrow C \rightarrow B \rightarrow G, A \rightarrow D \rightarrow B \rightarrow D \rightarrow B$)

**Длина пути** - количество ребер в нем (3 и 4 соответственно для примеров выше)

**Цикл** - путь, у которого начальная и конечная вершина совпадают ($A \rightarrow C \rightarrow B \rightarrow D \rightarrow A, F \rightarrow E \rightarrow F$)

**Простой путь** - путь, в котором нет повторяющихся ребер

**Простой цикл** - цикл который является простым путем

## Способы хранения

**Матрица смежности** A=||$a_{ij}$|| невзвешенного графа G=(V,E) называется матрица $A_{[VxV]}$ в которой $a_{ij}$ - количетсво ребер, соединяющих вершины $v_i$ и $v_j$, причем при i=j каждую петлю учитываем дважды, если граф не является ориентированным, и один раз, если граф ориентирован

**Матрицей смежности** A=||$a_{ij}$|| взвешенного графа G=(V,E) называется матрица $A_{[VxV]}$ в которой $a_{ij}$ - вес ребра, соединяющего вершины $v_i$ и $v_j$

![](smezh1.png)

![](smezh2.png)


Плюсы:
- Добавление ребра, удаление ребра, проверка наличия ребра между вершинами i и j за O(n)
- Лучший выбор для плотных графов. В случае разреженного графа и матрицы смежности можно использовать структуры данных для разреженных матриц
- Возможность выполнения операций на GPU

Минусы:
- Требуется VxV памяти для хранения.
- Чаще всего графы не имеют большого количества связкй и лучшим выбором будут списки смежности
- Выполнения операци по нахождению внешних и внутренних ребер требует большего времени

In [None]:
#матрица смежности

class Graph:
    def __init__(self, size) -> None:
        self.adjMatrix = [[0] * size for i in range(size)]
        self.size = size
    
    def add_edge(self, v1, v2):
        if v1 == v2:
            print(f'Вершины {v1} {v2} одинаковы')
        self.adjMatrix[v1][v2] = 1
        self.adjMatrix[v2][v1] = 1
    
    def __len__(self):
        return self.size
    
    def remove_edge(self, v1, v2):
        if self.adjMatrix[v1][v2] == 0:
            print(f'No edge between {v1} {v2}')
            return
        self.adjMatrix[v1][v2] = 0
        self.adjMatrix[v2][v1] = 0
    
    def print_matrix(self):
        for row in self.adjMatrix:
            for val in row:
                print(f'{val:4d}')
            print
        

**Список смежности** - один из способов представления графа в виде коллекции списков вершин. Каждой вершине графа соответсвует список состоящий из "соседей" этой вершины

![](adjlist.png)

Плюсы:
- Эффективны в плане потребления пмаяти, так как хранится только информация о ребрах. Для большиз разреженных графов могут сберечь большой объем памяти
- Быстрый поиск смежный вершин

Минусы:
- Построение списка смежности не быстрее построения матрицы смежности, так-как необходимо так же проверить и найти все узлы

![](compar_speed.png)

In [None]:
#Пример списка смежности

graph = {'A': set(['B', 'C']),
         'B': set(['A', 'D', 'E']),
         'C': set(['A', 'F']),
         'D': set(['B']),
         'E': set(['B', 'F']),
         'F': set(['C', 'E']),
        }

In [None]:
class AdjNode:
    def __init__(self, value) -> None:
        self.vertex = value
        self.next = None

class Graph:
    def __init__(self, num) -> None:
        self.V = num
        self.graph = [None] * self.V
    
    def add_edge(self, s, d):
        node = AdjNode(d)
        node.next = self.graph[s]
        self.grapj[s] = node
        node =  AdjNode(s)
        node.next = self.graph[d]
        self.graph[d] = node
    
    def print_agraph(self):
        for i in range(self.V):
            print('Vertice ' + str(i) + ':', end='')
            temp = self.graph[i]
            while temp:
                print(f' -> {temp.vertex}', end='')
                temp = temp.next
            print('\n')

**Матрица инцилентности**

Вершина v инцинлентна ребру e, если v $\in$ e; тогда еще говорят, что e есть ребро при v;

Матрицей инцидентности неориентированного графа называется матрица I(|V|x|E|), для которой $I_ij$ = 1, если вершна $v_i$ инцидентна ребру $e_j$, в противном случае $I_ij$ = 0

Матрицей инцидентности ориетированного графа называется матрица I(|V|x|E|), для которой $I_ij$ = 1, если вершина $v_i$ является началом дуги $e_j, I_ij=-1$ если $v_i$ является концом дуги $e_j$, в остальнх случаях $I_ij$ = 0

![](matr_inc1.png)

![](matr_inc2.png)




In [None]:
class Graph:
    def __init__(self, size) -> None:
        self.incMatrix = []
        self.size = size
    
    def add_edge(self, v1, v2):
        if v1 == v2:
            print(f'{v1} {v2} are the same')
            return
        newEdge = [1 if i == v1 or i == v2 else 0 for i in range(self.size)]
        self.incMatrix.append(newEdge)

    def __len__(self):
        return self.size
    
    def remove_edge(self, v1, v2):
        for e in range(len(self.incMatrix)):
            if self.incMatrix[e][v1] and self.incMatrix[e][v2]:
                self.incMatrix.pop(e)
                return
        print(f'No edge between {v1} {v2}')

# 23. Поиск в глубину в неориентированных графах (DFS)

Обход в глубину (поиск в глубину, Depth-First Search, DFS) - один из основных методов обхода графа, часто используеммый для проверки связности, поиска цикла и компонент сильной связности и для топологической сортировки

Общая идея алгоритма состоит в следующем: для каждой не пройденной вершины необходимо найти все не пройденные смежные вершины и повторить посик для них

Пошагово:
1. Выбираем любоую вершину из еще не пройденных, обощначим ее как u
2. Запускаем процедуру dfs(u)
    - Помечаем вершину u как пройденную
    - Для каждой не пройденной смежной с u вершиной (назовем ее v) запускаем dfs(v)
3. Повторяем шаги 1 и 2, пока все вершины не окажутся пройденными

Процедура dfs вызывается от каждой вершины не более одного раза, а внутри поцедуры рассматриваются все такие ребра {e | begin(e)=u}. Всего таких ребер для всех вершин в графе O(E). Следовательно время работы алгоритма O(V+E)

In [None]:
def dfs(v):
    visited = set()
    visited.add(v)
    print(v, end=' ')
#из презы

In [None]:
#нормальная реализация
def dfs(graph, start):
    visited = set()
    visited.add(start)

    print(start)

    for next in graph[start] - visited:
        dfs(graph, next, visited)
    return visited

# 24. Выделение компонент связности.

**Компонента связности** - набор вершин графа, между любой парой которых существует путь

Для поиска компонент связности используется обычный DFS, практически без модификаций. При запуска обхода из одной вершины, он гарантированно посетит все вершины, до которых возможно добраться, то есть, всю компоненту связности, к которой принадлежит начальная вершина. Для нахождения всех компонент просто попытаемся запустить обход из каждой вершины по очереди, если мы еще не обошли ее компоненту ранее.

Простейший варинат - просто заполнить список comp, где comp[i] - номер компоненты связности, к которой принадлежит вершина i

In [None]:
n: int
g = Graph()
visited = [False] * n
def dfs(start):
    visited[start] = True
    for v in g[start]:
        if not visited[v]:
            dfs(v)
ncomp = 0
for i in range(n):
    if not visited[i]:
        ncomp += 1
        dfs(i)
    

# 25. Поиск в глубину в ориентированных графах 

- Ориентированный ациклический граф (направленный ациклический граф) - орграф, в котором отсутствуют направленные циклы, но могут быть "параллельные" пути, выходящие из одного узла и разными путями приходящие в конечный узел. Направленный ациклический граф является обобщением дерева (точее их объединения - леса)

Направленные ациклические графы широко используются в приложениях: в компиляторах, в искусственном интеллекте (для представления нейронных сетей без обратной связи), в статистике и машинном обучении

DFS в ориентированных графах используется для того, чтобы находить циклы.

Алгоритм:
1. Пометить текущий узел как посещенный и добавить его индекс в стек
2. Пройти в цике по вершинам, выполнить рекурсивный вызов dfs (данный шаг необходи для гарантии, что если граф является лесом, мы проверим все подграфы)
    - В каждом рекурсивном вызове найти все смежные вершины для данной вершиины:
        1. Если смежная вершина уже добавлена в стек, то граф циклический, возвращаем истину
        2. Иначе, вызываем рекурсивную функцию для смежной вершины
    - При выходе из рекурсивного вызова, удалить текущий узел из стека, чтобы показать, что он более не является часть проверяемого пути
3. Если какая-либо из функций возвращает истину, остановить дальнейшее выполнение и вернуть истину в качестве результата

In [None]:
"""
Эта функция работает следующим образом:

Она принимает граф в качестве входных данных.
Она инициализирует два набора: visited, который содержит список посещенных вершин, и stack, который содержит список вершин, которые в настоящее время проверяются.
Затем она выполняет цикл по всем вершинам графа. Для каждой вершины она выполняет рекурсивный вызов dfs(), начиная с этой вершины.
Функция dfs() работает следующим образом:

Она помечает текущую вершину как посещенную и добавляет ее в стек.
Затем она проходит в цикле по всем смежным вершинам текущей вершины. Для каждой смежной вершины она выполняет следующие действия:
Если смежная вершина уже добавлена в стек, то граф циклический, и функция возвращает True.
Иначе, функция вызывает рекурсивный вызов dfs() для смежной вершины.
При выходе из рекурсивного вызова функция удаляет текущую вершину из стека.
Если какая-либо из функций dfs() возвращает True, то это означает, что граф содержит цикл. В этом случае функция find_cycle() возвращает список вершин, образующих цикл. Если ни одна из функций dfs() не возвращает True, 
то граф не содержит циклов, и функция find_cycle() возвращает None""" 
def dfs(graph, node, visited, stack):
    """
    Performs depth-first search on a graph, starting at the given node.

    Args:
      graph: The graph to search.
      node: The node to start the search at.
      visited: A set of nodes that have already been visited.
      stack: A stack of nodes that are currently being visited.

    Returns:
      True if the graph contains a cycle, False otherwise.
    """

    visited.add(node)
    stack.append(node)

    for neighbor in graph[node]:
        if neighbor in visited:
            return True
        else:
            return dfs(graph, neighbor, visited, stack)

    stack.pop()
    return False


def find_cycle(graph):
    """
    Finds a cycle in a graph.

    Args:
      graph: The graph to search.

    Returns:
      The cycle, if it exists, or None otherwise.
    """

    visited = set()
    stack = []

    for node in graph:
        if node not in visited:
            if dfs(graph, node, visited, stack):
                return stack

    return None


# Example usage
graph = {
    0: [1, 2],
    1: [0, 2],
    2: [0, 1],
}

cycle = find_cycle(graph)

if cycle is not None:
    print(cycle)  # Output: [0, 1, 2, 0]
else:
    print("No cycle found")
 

# 26. Топологическая сортировка вершииииииииииииииииииииииииииииииииииииииин.

**Топологическая сортировка для ориентированного ациклического графа** - это линейное упорядочение вершин, для окторого выолпняется следующее условие - для каждого направленного ребра uv вершина u предшествует вершине v в упорядочении. Если граф не является DAG (оринетированым ациклическим графом), то топологическая сортировка для него невозможна

Например топологическая сортировка приведенного графа:

![](topo_sort.png)

Сортировка - "5, 4, 3, 2, 1, 0". Для графа может существовать несколько топологических сортировок. Например, другая топологическая сортировка для этого же графа - "4, 5, 2, 3, 1, 0". Первая вершина в топологической сортировке - это вершина без входящих ребер.

**Алгоритм Кана** (используется для топологической сортировки)
Алгоритм по презе:

1. Вычислить количество входящих дуг для каждой вершины в графе и установить начальное значение счетчика посещенных узлов на 0
2. Выбрать все вершины с 0 входящих дуг и поставить их все в очередь
3. Добавить одну посещенную вершину к счетчику после удаления вершины из очереди
4. Для каждой смежной вершины уменьшить число входов на 1
5. Добавить вершину в очередь, если чслило входов любой из смежных вершин уменьшилось до 0
6. Пока очередь не пуста, повторять с шага 3
7. Топологическая сортировка невозможна для графа если число посещенных узлов не равно числу вершин графа

In [None]:
from collections import deque
def isCyclic(self):
    inDegree = [0] * self.V
    q = deque()
    visited = 0

    for u in range(self.V):
        for v in self.adj[u]:
            inDegree[v] += 1
        for u in range(self.V):
            if inDegree[u] == 0:
                q.append(u)
        while q:
            u = q.popleft()
            visited += 1
        
            for v in self.adj[u]:
                inDegree[v] -= 1
                if inDegree[v] == 0:
                    q.append(v)
    return visited != self.V

От нейроночки:

1. Подсчет входящих степеней: Для каждой вершины графа подсчитывается количество входящих ребер (входящая степень).
2. Инициализация очереди: Создается очередь, в которую помещаются все вершины с нулевой входящей степенью (вершины без входящих ребер).
3. Пока очередь не пуста:
    - Извлечение вершины: Из очереди извлекается вершина.
    - Добавление в отсортированный список: Вершина добавляется в список отсортированных вершин.
    - Уменьшение входящих степеней соседей: Для каждой соседней вершины извлеченной вершины уменьшается входящая степень на единицу. Если входящая степень соседней вершины становится равной нулю, она добавляется в очередь.
4. Проверка на циклы: Если после завершения алгоритма количество вершин в отсортированном списке меньше, чем общее количество вершин в графе, это означает, что граф содержит цикл.

In [None]:
def kahn_topological_sort(graph):
    """
    Performs Kahn's topological sort on a graph.

    Args:
      graph: The graph to sort.

    Returns:
      A list of nodes in topological order, or None if the graph contains a cycle.
    """

    in_degrees = {node: 0 for node in graph}
    for node in graph:
        for neighbor in graph[node]:
            in_degrees[neighbor] += 1

    zero_in_degree_nodes = [node for node in in_degrees if in_degrees[node] == 0]
    sorted_nodes = []

    while zero_in_degree_nodes:
        node = zero_in_degree_nodes.pop()
        sorted_nodes.append(node)

        for neighbor in graph[node]:
            in_degrees[neighbor] -= 1
            if in_degrees[neighbor] == 0:
                zero_in_degree_nodes.append(neighbor)

    if len(sorted_nodes) == len(graph):
        return sorted_nodes
    else:
        return None


# Example usage
graph = {
    0: [1, 2],
    1: [3],
    2: [3],
    3: [],
}

sorted_nodes = kahn_topological_sort(graph)

if sorted_nodes is not None:
    print(sorted_nodes)  # Output: [0, 1, 2, 3]
else:
    print("Graph contains a cycle")

# 27. Нахождение кратчайших путей из одной вершины в невзвешенных графах, поиск в ширину (BFS)

**Обход в ширину (BFS)** - один из простейших алгоритмов обхода графа, являющийся основой для многих важных алгоритмов работы с графами.

Алгоритм работает следующим образом
1. Создадим массив dist расстояний. Изначально dist[s]=0 (поскольку расстояний от вершины до самой себя равно 0) и dist[v] = $\infty$ для v $\ne$ s
2. Создадим очередь q. Изначально в q добавим вершину s
3. Пока очередь q непуста, делаем следующее
    - Извлекаем вершину v из очереди
    - Рассматриваем все ребра (v, u) $\in$ E. Для каждого такого ребра пытаемся сделать релаксацию: если dist[v]+1 < dist[u], то мы делаем присвоеение dist[u] = dist[v]+1 и добавляем вершину u в очередь

In [None]:
def BFS(graph, s):
    visited = [False] * (max(graph) + 1)
    queue = []
    queue.append(s)
    visited[s] = True

    while queue:
        s = queue.pop(0)
        print(s, end=' ')

        for i in graph[s]:
            if visited[i] == False:
                queue.append(i)
                visited[i] = True

# 28. Нахождение кратчайших путей из одной вершины в графах с положительными весами

Длина пути - сумма длин ребер в пути

Для сего сценария используется алгоритм Дейкстры

**Алгоритм Дейкстры** - алгоритм на графах. Находит кратчайшие пути от одной из вершин графа до всех остальных. Алгоритм работает только для графов без ребер отрицательного веса. Алгоритм широко применяется в программировании, например, его используют протоклы маршрутизации OSPF и IS-IS (привет ВА №2)

Алгоритм:
1. Создать масств dist расстояний. Изначально dist[s] = 0, dist[v] = $\infty$ для v $\ne$ s
2. Создать булев массив used, used[v] = 0 для всех вершин v - в нем мы будем отмечать совершалась ли релаксация из вершины
3. Пока существует вершина v такая, что used[v] = 0 и dist[v] $\ne \infty$, притом, если таких вершин несколько, то v - вершина с маинимальным dist[v], делать следующее
    - Помететь, что мы совершали релаксацию из вершины v, то есть присвоить used[v] = 1
    - Рассматриваем все ребра (v, u) $\in$ E. Для каждого ребра пытаемся сделать релаксацию: если dist[v] + w(v, u) < dist[u], присвоить dist[u] = dist[v] + w(v, u)

Иными словами, алгоритм на кждом шаге находит вершину, до которой расстояние минимально и из которой еще не была произведена релаксация и делает ее

In [None]:
class Graph():
    def __init__(self, vertices):
        self.V = vertices
        self.graph = [[0] * vertices for _ in range(vertices)]
    
    def printSolution(self, dist):
        print("Vertex \t Distance from Source")
        for node in range(self.V):
            print(node, "\t\t", dist[node])
    
    def minDistance(self, dist, sptSet):
        min = 1e7
    
        for v in range(self.V):
            if dist[v] < min and sptSet[v] == False:
                min = dist[v]
                min_index = v
        return min_index
    
    def dijkstra(self, src):
        dist = [1e7] * self.V
        dist[src] = 0
        sptSet = [False] * self.V
        
        for cout in range(self.V):
            
            u = self.minDistance(dist, sptSet)
            
            sptSet[u] = True
            
            for v in range(self.V):
                if (self.graph[u][v] > 0 and sptSet[v] == False and dist[v] > dist[u] + self.graph[u][v]):
                    dist[v] = dist[u] + self.graph[u][v]
        self.printSolution(dist)

# 29. Алгоритм Дейкстры, оценка времени работы при различных реализациях очереди с приоритетами (массивом, двоичной кучей)

Обычная асимптотика (массивом) $O(V^2 + E)$ (поиск минимума за квадрат, плюс обработка ребер за E)

Асимптотика кучей - O(E * logV) -> VO(log V) извлечений минимума и O(E * log V) операций уменьшения расстояния до вершины

In [None]:
#реализация кучей

import heapq
def calculate_distances(graph, starting_vertex):
    distances = {vertex: float('inf') for vertex in graph}
    distances[starting_vertex] = 0
    pq = [(0, starting_vertex)]
    while len(pq) > 0:
        current_distance, current_vertex = heapq.heappop(pq)
        if current_distance > distances[current_vertex]:
            continue
        for neighbor, weight in graph[current_vertex].items():
            distance = current_distance + weight
        if distance < distances[neighbor]:
            distances[neighbor] = distance
            heapq.heappush(pq, (distance, neighbor))
    return distances


# 30. Кратчайшие пути в ациклических ориентированных графах

Пусть дан ациклический оринетированный взвешенный граф. Требуется найти вес кратчайшего пути из u в v

Пусть d - функция, где d(i) - вес кратчайшего пути из u в i. Ясно что d(u) равен 0. Пусть w(i,j) - вес ребра из i в j. Будем обходить граф в порядке топологической сортировки. Получаем следующие отношения:

$$ d(i) = min_{j:j~\rightarrow i} (d(j)+w(j,i)) $$

Так как мы обходим граф в порядке топологической сортировки, то на i-ом шаге всем d(j) (j такие, что существует ребро из j в i) уже присвоены оптимальные ответы, и, следовательно, d(i) также будет присвоен оптимальный ответ 

In [None]:
def minDist(n, w, u):
    dist = [float('inf')] * n
    dist[u] = 0
    p = topSort(w) #топологическая сортировка
    for i in range(n):
        for j in range(n):
            if w[i][j] > 0:
                dist[j] = min(d[j], dist[p[i]] + w[p[i]][j])

# 31. Алгоритм Беллмана-Форда, проверка наличия цикла отрицательного веса

**Алгоритм Беллмана-Форда** предназначен для решения задачи поиска кратчайшего пути на графе. Для заданного ориентированного взвешенного графа алгоритм находит кратчайшие расстояния от выделенной вершины-источника до всез остальынх вершин графа

Алгоритм Беллмана-Форда масштабируется хуже других алгоритмов решения указанной задачи (сложность O|V||E| против O(|E|+|V|ln(|V|)) у алгоритма дейкстры). Однако его отличительной особенностью является применимость к графам с произвольными, в том числе отрицательными, весами.

Алгоритм:
1. Инициализация: всем вершинам присваивается предполагаемое расстояние dist[v] = $\infty$, кроме вершины источника, для которой dist(u) = 0
2. Релаксация множества ребер E
    - Для каждого ребра e = (v, z) $\in$ E вычисляется новое предполагаемое расстояние new_dist(z) = dist(v) + w(e)
    - Если new_dist(z) < dist(z), то происходит присваивание dist(z) = new_dist(z) (релаксация ребра e)
3. Алгоритм производит релаксацию всех ребер графа до тех пор, пока на очередной итерации происходит релаксация хотя бы одного ребра



In [None]:
class Graph:
    def __init__(self, verticies):
        self.V = verticies
        self.graph = []
    
    def addEdge(self, u, v, w):
        self.graph.append([u, v, w])
    
    def printArr(self, dist):
        print('Distance to start')
        for i in range(self.V):
            print(f'{i}\t\t{dist[i]}')
        
    def BellmanFord(self, src):
        dist = [float('Inf')] * self.V
        dist[src] = 0

        for _ in range(self.V - 1):
            for u, v, w in self.graph:
                if dist[u] != float('inf') and dist[u] + w < dist[v]:
                    dist[v] = dist[u] + w
        self.printArr(dist)

Алгортм Форда-Беллмана сможет бесконечно делать релаксации среди всех вершин этого цикла и вершин, достижимых из него. Следовательно, если не ограничивать число фаз числом n-1, то алгоритм будет работать бесконечно, постоянно улучшая расстояния до этих вершин

Отсюла мы получаем критерий наличия достижимого цикла отрицательного веса: если после n-1 фазы мы выполним еще одну фазу, и на ней произойдет хотя бы одна релаксация, то граф содержит цикл отрицательного веса, достижимый из v. В противном случае, такого цикла нет

In [None]:
def BellmanFordNEGA(self, src):
    dist = [float('Inf')] * self.V
    dist[src] = 0

    for _ in range(self.V - 1):
        for u, v, w in self.graph:
            if dist[u] != float('Inf') and dist[u] + w < dist[v]:
                dist[v] = dist[u] + w
        
        for u, v, w in self.graph:
            if dist[u] != float('Inf') and dist[u] + w < dist[v]:
                print('Graph has negative cycle')
                return
        self.printArr(dist)
        

# 32. Кратчайшие пути между всеми парами вершин: алгоритм Флойда-Уоршелла

Алгоритм Флойда (алгоритм Флойда–Уоршелла) — алгоритм нахождения длин кратчайших путей между всеми парами вершин во взвешенном ориентированном графе. Работает корректно, если в графе нет циклов отрицательной величины, а в случае, когда такой цикл есть, позволяет найти хотя бы один такой цикл. Алгоритм работает за $O(n^3)$ времени и использует $O(n^2)$ памяти 

Дан взвешенный граф G(V, E), в котором вершины пронумерованы от 1 до n

$$
\begin{equation}
\tau_{uv}
\begin{cases}
{weight}&{if}&{uv}&{if} uv \in E \\\
+\infty, {if}&{uv} \notin E
\end{cases}
\end{equation}
$$


Требуется найти матрицу кратчайших расстояний d, в которой элемент d_ij либо равен длине кратчайшего пути из i в j, либо равен $\infty$, если вершина j не достижима из i

Алгоритм:
Обозначим длину кратчайшего пути между вершинами u и v, содержащего, помимо u и v, только вершины из множества {1...i} как $d_{uv}^{(i)}, d_{uv}^{(0)}$=$w_{uv}$

На каждом шаге алгоритма, мы будем брать очередную вершину (пусть ее номер - i) и для всех пар вершин u и v вычислять $d_{uv}^{(i)}$ = min ($d_{uv}^{(i-1)}$, $d_{ui}^{(i-1)}+d_{iv}^{(i-1)}$). То есть, если кратчайший путь из u в v содержащий только вершины множества {1...i}, прохоидт через вершину i, то кратчайшим путем из u в v является кратчайший путь из u в i, объединенный с путем из i в v. В противном случае, когда это путь не содержит вершины i, кратчайший путь из u в v, содержащий только вершины из множества {1...i} является кратчайшим путем из u в v содержащим только вершины из множества {1...i-1}

In [None]:
def floydWarshall(graph):
    dist = list(map(lambda i: list(map(lambda j: j, i)), graph))
    for k in range(V):
        for i in range(V):
            for j in range(V):
                dist[i][j] = min(dist[i][j], dist[i][k] + dist[k][j])


# 33. Минимальное покрывающее дерево: свойство разреза

**Остовное дерево (spanning tree)** графа — ациклический связный подграф данного связного неориентированного графа, в который входят все его вершины.

**Минимальное остовное дерево (или минимальное покрывающее дерево)** в (неориентированном) связном взвешенном графе — это остовное дерево этого графа, имеющее минимальный возможный вес, где под весом дерева понимается сумма весов входящих в него рёбер.

![](min_cover_tree.png)

Пусть — подграф некоторого минимального остовного дерева графа G = (V, E). Ребро (u, v) $\notin$ G' называется безопасным (англ. safe edge), если при добавлении его в G',
G'  также является подграфом некоторого минимального остовного дерева графа G' объединенного с (u, v).

**Разрезом** неориентированного графа G = (V, E) называется разбиение V на два непересекающихся подмножества: S и T = V \ S. Обозначается <S, T>

Ребро (u, v) $\in$ E пересекает разрез <S,T>, если один из его концов принадлежит множеству S, а другой - множеству T

Свойство:

Теорема - рассмотрим связный неориентированный взвешенный граф G = (V, E) с весовой функцией w: E $\rightarrow$ R. Пусть G' = (V, E') - подграф некоторого минимального оставного дерева G, <S,T> - разрех G такой, что ни одно ребро E' не пересекает разрез, а (u, v) - ребро минимального веса среди ребер, пересекающих разрез <S,T>. Тогда ребро e = (u, v) является безопасным для G'

Доказательство:

Достроим E' до некоторого минимального остовного дерева, обозначим его $T_{min}$. Если ребро e $\in T_{min}$, то лемма доказана, поэтому рассмотрим случай, когда ребро e $\notin T_{min}$. Рассмотрим путь в от вершины u до вершины v. Так как эти вершины принадлежат разным долям разреза, то хотя бы одно ребро пути пересекает разрез, назовем его e'. По условию леммы w(e) $\le$ w(e'). Заменим ребро e' в $T_{min}$ на ребро e. Полученное дерево также является минимальным остовным деревом графа G, поскольку все вершины G по-прежнему связаны и вес дерева не увеличился. Следовательно E' объединенное с e можно дополнить до минимального остовного дерева в графе G, то есть ребро — безопасное.




# 34. Минимальное покрывающее дерево: жадная стратегия

Минимум  остовных деревьев графа G = (V, E, W) может быть найден применяя процедуру исследования ребер в порядке возрастания их весов. Другими словами, на каждом шаге выбирается новое ребро, с наименьшим весом, не образующее циклов с уже выбранными ребрами. Процесс продолжается до тех пор, пока не будет выбрано |V| - 1 ребро. Такая процедура называется жадным алгоритмом

Для каждой вершины v графа G = (V, E, W) формируются начальные тривиальные компоненты связности - $T_i=(V_i, E_i, W)$, где $X_i = x_i, E_i = {None}$ $X_i$ пересекает $X_j$ = None, $i \ne j, X = U_{i=1}^{|X|}*X_i, i=1,2,3,\dots,|X|$. Компоненты $T_i$ являются деревьями, объединение $T U_{i} T_i$ которых дает начальное приближение строящегося отстовного дерева $G_0=(V, E_0, W)$

Включение в сторящееся отстовное деревео $G_0$ выбранного ребра на очередном шаге жадного алгоритма выполняется слиянием $T_i=T_i$ объединенное с $T_j$ ($V_i=V_i U V_j и E_i = E_i U E_j$) двух комоненты $T_i$ $T_j$, которым принадлежит по вершине нового ребра, и включением самого ребра в объединенное множество $E_i=E_i U E_j$ ребер. Процесс роста объединения $T U_{i} T_i$ компоненты к отстовному дереву $G_0 = (V, E_0, W)$ продолжвется до тех пор, пока не будет включено |V|-1 ребро

# 35. Алгоритм Прима

**Алгоритм Прима** — алгоритм поиска минимального остовного дерева во взвешенном неориентированном связном графе. 

Данный алгоритм очень похож на алгоритм Дейкстры. Будем последовательно строить поддерево F ответа в графе G, поддерживая приоритетную очередь Q из вершин G \ F, в которой ключом для вершины v является $min_{u\in V(F), uv\in E(G)} w(uv)$ — вес минимального ребра из вершин F в вершины G \ F. Также для каждой вершины в очереди будем хранить p(v) — вершину u, на которой достигается минимум в определении ключа. Дерево F поддерживается неявно, и его ребра — это пары (v, p(v)), где v $\in$ G \ {r} \ Q, а — r корень F. Изначально F пусто и значения ключей у всех вершин равны $+\infty$. Выберём произвольную вершину r и присвоим её ключу значение 0. На каждом шаге будем извлекать минимальную вершину v из приоритетной очереди и релаксировать все ребра vu, такие что u $\in$ Q, выполняя при этом операцию decreaseKey над очередью и обновление p(v). Ребро (v, p(v)) при этом добавляется к ответу

In [None]:
class Graph():
    def __init__(self, vertices):
        self.V = vertices
        self.graph = [[0 for column in range(vertices)] for row in range(vertices)]
    
    def printMST(self, parent):
        print("Ребро \tВес")
        for i in range(1, self.V):
            print(parent[i], "-", i, "\t", self.graph[i][parent[i]])
    
    def minKey(self, key, mstSet):
        min = float('inf')
        for v in range(self.V):
            if key[v] < min and mstSet[v] == False:
                min = key[v]
                min_index = v
        return min_index
    
    def primMST(self):
        key = [float('inf')] * self.V
        parent = [None] * self.V
        key[0] = 0
        mstSet = [False] * self.V
        
        parent[0] = -1
    
        for cout in range(self.V):
            u = self.minKey(key, mstSet)
            mstSet[u] = True
            for v in range(self.V):
                if self.graph[u][v] > 0 and mstSet[v] == False and key[v] > self.graph[u][v]:
                    key[v] = self.graph[u][v]
                parent[v] = u
        self.printMST(parent)

# 36. Алгоритм Краскала

Алгоритм Краскала (Крускала) — алгоритм поиска минимального остовного дерева во взвешенном неориентированном связном графе.

Будем последовательно строить подграф F графа G ("растущий лес"), пытаясь на каждом шаге достроить F до некоторого MST. Начнем с того, что включим в F все вершины графа G. Теперь будем обходить множество E(G) в порядке неубывания весов ребер. Если очередное ребро e соединяет вершины одной компоненты связности F, то добавление его в остов приведет к возникновению цикла в этой компоненте связности. В таком случае, очевидно e, не может быть включено в F. Иначе e соединяет разные компоненты связности F, тогда существует <S,T> разрез такой, что одна из компонент связности составляет одну его часть, а оставшаяся часть графа — вторую. Тогда e — минимальное ребро, пересекающее этот разрез. Значит, из леммы о безопасном ребре следует, что e является безопасным, поэтому добавим это ребро в F. На последнем шаге ребро соединит две оставшиеся компоненты связности, полученный подграф будет минимальным остовным деревом графа G. Для проверки возможности добавления ребра используется система непересекающихся множеств

In [None]:
class Graph:
    def __init__(self, vertices):
        self.V = vertices
        self.graph = []
    
    def addEdge(self, u, v, w):
        self.graph.append([u, v, w])
    
    def find(self, parent, i):
        if parent[i] != i:
            parent[i] = self.find(parent, parent[i])
        return parent[i]
    
    def union(self, parent, rank, x, y):
        if rank[x] < rank[y]:
            parent[x] = y
        elif rank[x] > rank[y]:
            parent[y] = x
        else:
            parent[y] = x
            rank[x] += 1
    
    def KruskalMST(self):
        result = []
        i = 0
        e = 0
        self.graph = sorted(self.graph,
        key=lambda item: item[2])
        parent = []
        rank = []
        for node in range(self.V):
            parent.append(node)
            rank.append(0)
        while e < self.V - 1:
            u, v, w = self.graph[i]
            i = i + 1
            x = self.find(parent, u)
            y = self.find(parent, v)
            if x != y:
                e = e + 1
                result.append([u, v, w])
                self.union(parent, rank, x, y)
        minimumCost = 0
        print("Ребра в MST")
        
        for u, v, weight in result:
            minimumCost += weight
            print(f"{u} -- {v} == {weight}")
        print("MST", minimumCost)

# 37. Система непересекающихся множеств

Система непересекающихся множеств - структура данных, которая позволяет администрировать множество элементов, разбитое на непересекающиеся подмножества. При этом каждому подмножеству назначается его представитель - элемент этого подмноженства. Абстрактная структура данных определеяется множеством трех операций - {Union, Find, MakeSet}

- make_set(x) - добавляет новый элемент x, помещая его в новое множество, состоящее из одного него
- union_sets(x, y) - объединяет два указанных множества (множество, в котором находится элемент x и множество в котором находится элемент y)
- find_set(x) - возвращает, в каком множестве находится указаный элемент x. На самом деле при этом возвращается один из элементов множества (газываемый представителем или лидером). Этот представитель выбирается в каждом множестве самой структурой данных (и может меняться с течением времени, а именно, после вызовов union_sets())

Например, если вызов find_set() для каких то двух элементов вурнл одно и то же значение, то это означает, что эти элементы находятся в одном и том же множестве, а в противном случае - в разных множествах

# 38. Представление множеств с помощью деревьев, две эвристики

Множества элементов будем хранить в виде **деревьев**: одно дерево соответствует одному множеству. Корень дерева — это представитель (лидер) множества.

При реализации это означает, что мы заводим массив parent, в котором для каждого элемента мы храним ссылку на его предка в дереве. Для корней деревьев будем считать, что их предок — они сами (т.е. ссылка зацикливается в этом месте)

### Наивная реализация

Вся информациая о множествах элементов хранится с помощью массива parent

Чтобы создать новый элемент (операция make_set(v)), мы просто слздаем дерево с корнем в вершине v, отмечая, что ее предок - это она сама

Чтобы объединить два множества (операция uninon_sets(a,b)), сначала найдем лидеров множества, в котором находится a, и множества, в котором находится b. Если лидеры совпали, то ничего не делаем - это значит, что множества и так уже были объединены. В противном случае можно указать, что предок вершины b равен a (или наоборот) - там самым присоединив одно дерево к другому

In [None]:
def union(parent, rank, i, j):
    irep = find(parent, i)
    jrep = find(parent, j)
    parent[irep] = jrep


Реализация операции поиска лидера (find_set(v)) проста: поднимаемся по предкам от вершины v, пока не дойдём до корня, т.е. пока ссылка на предка не ведёт в себя. Эту операцию удобнее реализовать рекурсивно

In [None]:
def find(i):
    if (parent[i] == i):
        return i
    else:
        return find(parent[i])

Такая реализация системы непересекающихся множеств весьма неэффективна. Легко построить пример, когда после нескольких объединений множеств получится ситуация, что множество — это дерево, выродившееся в длинную цепочку.

А каждый запуск find_set() будет занимать O(n) времени, что много

### Эвристики

- Эвристика сжатия пути - предназначена для ускорения работы find_set()

Заключается в том, что когда после вызова find_set(v) мы найдем искомого лидера p множества, то запомним, что у вершины v и всех пройденных по пути вершин - именно этот лидер p. Проще всего это сделать, перенаправив их parent[] на эту вершиину p.

Таким образом у массива предков parent[] смысл несколько меняется - теперь это сжатый массив предков т.е. для каждой вергины там может храниться не непосредственный предок, а предок предка, предок предка предка и так далее

С другой стороны, понятно, что нельзя сделать, чтобы эти указатели parent всегда указывали на лидера - иначе при выполнении операции union_sets() пришлось бы обновлять лидеров у O(n) (ВСЕХ) элементов

Таким образом к массиву parent[] следует подходить именно как к массиву предков, возможно, частично сжатому.

- Эвристика объединения по рангу

Рассмотрим другую эвристику, которая сама по себе способна ускорить время работы алгоритма, а в сочетании с эвристикой сжатия путей и вовсе способна достигнуть практически константного времени работы на один запрос в среднем.

Эта эвристика заключается в небольшом изменении работы union_sets(): если в наивной реализации то, какое дерево будет присоединено к какому, определяется случайно, то теперь мы будем это делать на основе рангов. 

Есть два варианта ранговой эвристики: в одном варианте рангом дерева называется количество вершин в нём, в другом — глубина дерева (точнее, верхняя граница на глубину дерева, поскольку при совместном применении эвристики сжатия путей реальная глубина дерева может уменьшаться). 

В обоих вариантах суть эвристики одна и та же: при выполнении union_sets() будем присоединять дерево с меньшим рангом к дереву с большим рангом

In [None]:
#Объединение эвристик

class DisjSet:
    def __init__(self, n):
        self.rank = [1] * n
        self.parent = [i for i in range(n)]
  
    def find(self, x):
        if (self.parent[x] != x):
            self.parent[x] = self.find(self.parent[x])
        return self.parent[x]
    
    def Union(self, x, y):
        xset = self.find(x)
        yset = self.find(y)
        if xset == yset:
            return
        
        if self.rank[xset] < self.rank[yset]:
            self.parent[xset] = yset
        elif self.rank[xset] > self.rank[yset]:
            self.parent[yset] = xset
        else:
            self.parent[yset] = xset
            self.rank[xset] = self.rank[xset] + 1

# 39. Сеть (flow network)

**Сеть** G = (V, E) представляет собой ориентированный граф, в которм каждое ребро (u, v) $\in$ E имеет положительную пропускную способность capacity c(u,v)>0. Если (u,v) $\notin$ E, предполагается что c(u,v) = 0

В транспортной сети выделяются две вершины: исток s и сток t

Потоком (flow) f в G является действительная функция f : V x V $\rightarrow$ R, удоволетворяющая условиям:
1. f(u,v) = -f(v,u) (антисимметричность);
2. f(u,v) $\le$ c(u,v) (ограничение пропускной способности), если ребра нет, то f(u,v)=0;
3. $\sum_{v}f(u,v)=0$ для всех вершин , кроме и (закон сохранения потока).

Величина потока определяется как $|f| = \sum_{v \in V}F(s, v)$


![](flownetwork.png)

Первое число означает величину потока, второе — пропускную способность ребра.

Отрицательные величины потока не указаны (так как они мгновенно получаются из антисимметричности: f(u,v) = -f(v,u)).

Сумма входящих рёбер везде (кроме источника и стока) равна сумме исходящих и на то, что в общем c(u,v) $\ne$ c(v,u). 

Кроме того, величина потока на ребре никогда не превышает пропускную способность этого ребра.

Величина потока в этом примере равна 3+2=5 (считаем от вершины s).

# 40. Максимальный поток

В теории оптимаизации и теории графов, задача о максимальном потоке заключается в нахождении такого потока по транспортной сети, что сумма потоков из истока, или, что то же самое, сумма потоков в сток максимальна.


# 41. Алгоритм Форда-Фалкерсона
Используется для нахождени максимального потока

1. Обнуляем все потоки. Остаточная сеть изначально совпадает с исходной сетью
2. В остаточной сети находим любой путь из источника в сток. Если такого пути нет - останавливаемся
3. Пускаем через найденный путь (он называется увеличивающим путем или увеличивающей целью) максимально возможный поток
    - На найденном пути в остаточной сети ищес ребро с минимальной пропускной способностью $c_{min}$
    - Для каждого ребра на найденном пути увличиваем поток на $c_{min}$, а в портивоположном ему - уменьшаем на $c_{min}$
    - Модифицируем остаточную сеть. Для всех ребер, вычисляем новую пропускную способность. Если она стала ненулевой, добавляем ребро к остаточной сети, а если обнулилась, стираем его
4. Возвращаемся на шаг 2


Важно, что алгоритм не конкретизирует, какой именно путь мы ищем на шаге 2 или как мы это делаем. По этой причине алгоритм гарантированно сходится только для целых пропускных способностей, но даже для них при больших значениях пропускных способностей он может работать очень долго. Если пропускные способности вещественны, алгоритм может работать бесконечно долго, не сходясь к оптимальному решению.

Если искать не любой путь, а кратчайший, получится алгоритм Эдмондса — Карпа или алгоритм Диница. Эти алгоритмы сходятся для любых вещественных весов за время O(|V||$E^2$|) и (O|$V_2$||E|) соответственно

## Bonus
Алгоритм Эдмондса — Карпа — это вариант алгоритма Форда — Фалкерсона, при котором на каждом шаге выбирают кратчайший дополняющий путь из s в t в остаточной сети (полагая, что каждое ребро имеет единичную длину). Кратчайший путь находится поиском в ширину.


# 42. Деревья. Бинараные деревья

Дерево - это связный ацикличный граф. Связность означает наличие маршрута между любой парой вершин, ацикличность - отсутствие циклов. Отсюда, в частности, следует, что число ребер в дереве на единицу меньше числа вершин, а между любыми парами вершин имеется один и только один путь

Ориентированное (направленное) дерево - ацикличный орграф, в котором только одна вершина имеет нулевую степень захода (в нее не вудет дуги), а все остальные вершины имеют степень захода 1 (в них ведет ровно по 1 дуге). Вершина с нулевой степенью захода называется корнем дерева, вершины с нулевой степенью исхода (из которых не исходит ни одна дуга) называются верщинами или листьями

**Двоичное дерево (бинарное дерево)** - иерархическая структура данных, вкоторой каждый узел имеет не более двух потомков (детей). Как правило, первый называется родительским узлом, а дети называются левым и правм наследниками. Двоичное дерево является упорядоченным ориентированным деревом.

Для практических целей обычно используют два подвида двоичных деревьев - двоичное дерево поиска и двоичная куча.


In [None]:
#Представление в виде списка

tree = [None] * 10
def root(key):
    if tree[0] != None:
        print("Дерево уже содержит корень")
    else:
        tree[0] = key
def set_left(key, parent):
    if tree[parent] == None:
        print("Не возможно установить потомка в", (parent * 2) + 1, ", родитель не найден")
    else:
        tree[(parent * 2) + 1] = key

def set_right(key, parent):
    if tree[parent] == None:
        print("Не возможно установить потомка в", (parent * 2) + 2, ", родитель не найден")
    else:
        tree[(parent * 2) + 2] = key

Каждый узел дерева содержит следующую информацию:
- Данные
- Указатель на левого потомка
- Указатель на правого потомка

In [None]:
#Динамическое представление узлов

class Node:
    def __init__(self, key):
        self.left = None
        self.right = None
        self.data = key

Основные операции с бинарным деревом:
- Вставка элемента
- Удаление элемента
- Поиск элемента
- Удаление элемента по значению
- Обход дерева

Дополнительные операции с бинарным деревом
- Нахождение высоты дерева
- Находение слоя дерева
- Нахождение размера дерева

Применение:
- В компиляторах, в частности для выполнения арифметических выражений
- Деревья кодирования Хаффмана в алгоритмах сжатия
- Очереди с приоритетом
- Представления иерархических данных
- В табличных редакторах
- Для индексирования баз данных и кэша
- Для быстрого поиска
- Выделения памяти в компьютерах
- Операций кодирования и декодирования
- Для получения и организации информации из больших объемов данных
- В моделях принятия решений
- В алгоритмах сортировки

Обход:

Обход деревьев осуществляется на основе двух основных алгоримова:
- DFS
- BFS

Обход дерева с использованием DFS в свою очередь может быть разбит на 3 вида:
- Прямой обход (NLR)
    - Проверяем не является ли текущий узел пустым или None
    - Показываем поле данных корня (или текущего узла)
    - Обходим левое поддерево рекурсивно, вызвав функцию прямого обхода
    - Обходим правое поддерево рекурсивно, вызвав функцию прямого обхода
- Центрированный обход (LNR)
    - Проверяем не является ли текцщий узел пустым или None
    - Обходим левое поддерево рекурсивно, вызвав функцию центрированного обхода
    - Показываем поле данных корня (или текущего узла)
    - Обходим правое поддерево рекурсивно, вызвав функцию центрированного обхода
- Обратный обход (LRN)
    - Проверяем, не является ли текущий узел пустым или None
    - Обходим левое поддерево рекурсивно, вызвав функцию обратного обхода
    - Обходим правое поддерево рекурсивно, вызвав функцию обратного обхода
    - Показываем поле данных корня (или текущего узла)

***При обходе поиском в ширину (BFS) посещаются все узлы в порядке уровней, где сначала посещается каждый узел на уровне, прежде чем выполнить переход на следующий уровень.***

![](bintree.png)

# 43. Деревья поиска

Бинарное дерево поиска (binary search tree, BST) — структура данных для работы с упорядоченными множествами.

Бинарное дерево поиска обладает следующим свойством: если x — узел бинарного дерева с ключом k, то все узлы в левом поддереве должны иметь ключи, меньшие k, а в правом поддереве большие k.

Основным преимуществом двоичного дерева поиска перед другими структурами данных является возможная высокая эффективность реализации основанных на нём алгоритмов поиска и сортировки

Применение:

- Для индексации
- Для реализации алгоритмов поиска
- Для реализации других структур данных
- Как часть систем принятия решения, компьютерных симуляций для хранения и быстрого доступа к данным
- Для реализации систем автодополнения и проверки орфографии

Преимущества:
- Высокая скорость вставки и удаления на сбалансированном дереве (O(log n))
- Высокая скорость поиска (O(log n))
- Эффективное использование памяти
- Позволяют искать значение из диапазона
- Простая реализация
- Автоматическа сортировка элементов при добавлении

Недостатки:
- Всегда необходимо реализовывать сбалансированное бинарное дерево поиска, иначе дерево может выродиться в список, что увеличивает время выполнения операций
- Плохо подходят для случайного доступа к элементам
- Не поддерживают некоторые операции

# 44. Красно-черные деревья

Красно-черное дерево - двоичное дерево поиска, в котором баланс осуществляется на основе "цвета" ущла дерева, который принимает только два значения => красный и черный

При этом все листья дерева являются фиктивными и не содержат данных, но относятся к дереву и являются черными

Для экономии памяти фиктивные листья можно сделать одним общим фиктивным листом

Для КЧ деревьев выполняются следующие свойства:
1. Каждый узел промаркирован красным или черным цветом
2. Корень и конечные узлы (листья) дерева - черные
3. У красного узла родительский узел - черный
4. Все простые пути из любого узла x до листьев содержат одинаковое количестсво черных узлов
5. Черный узел может иметь черного родителя

Каждый элемент вставляется вместо листа, поэтому для выбора места вставки идём от корня до тех пор, пока указатель на следующего сына не станет None (то есть этот сын — лист). Вставляем вместо него новый элемент с нулевыми потомками и красным цветом. Теперь проверяем балансировку. Если отец нового элемента черный, то никакое из свойств дерева не нарушено. Если же он красный, то нарушается свойство 3, для исправления достаточно рассмотреть два случая:

1. "Дядя" этого узла тоже красный. Тогда, чтобы сохранить свойства 3 и 4, просто перекрашиваем "отца" и "дядю" в чёрный цвет, а "деда" — в красный. В таком случае черная высота в этом поддереве одинакова для всех листьев и у всех красных вершин "отцы" черные. Проверяем, не нарушена ли балансировка. Если в результате этих перекрашиваний мы дойдём до корня, то в нём в любом случае ставим чёрный цвет, чтобы дерево удовлетворяло свойству 2

![](redblack1.png)

2. "Дядя" чёрный. Если выполнить только перекрашивание, то может нарушиться постоянство чёрной высоты дерева по всем ветвям. Поэтому выполняем поворот. Если добавляемый узел был правым потомком, то необходимо сначала выполнить левое вращение, которое сделает его левым потомком. Таким образом, свойство 3 и постоянство черной высоты сохраняются

![](redblack2.png)

При удалении вершины могут возникнуть три случая в зависимости от количества её детей:
1. Если у вершины нет детей, то изменяем указатель на неё у родителя на None .
2. Если у неё только один ребёнок, то делаем у родителя ссылку на него вместо этой вершины.
3. Если же имеются оба ребёнка, то находим вершину со следующим значением ключа. У такой вершины нет левого ребёнка (так как такая вершина находится в правом поддереве исходной вершины и она самая левая в нем, иначе бы мы взяли ее левого ребенка. Иными словами сначала мы переходим в правое поддерево, а после спускаемся вниз в левое до тех пор, пока у вершины есть левый ребенок). Удаляем уже эту вершину описанным во втором пункте способом, скопировав её ключ в изначальную вершину. Проверим балансировку дерева. Так как при удалении красной вершины свойства дерева не нарушаются, то восстановление балансировки потребуется только при удалении чёрной. Рассмотрим ребёнка удалённой вершины.


Если брат этого ребёнка красный, то делаем вращение вокруг ребра между отцом и братом, тогда брат становится родителем отца. Красим его в чёрный, а отца — в красный цвет, сохраняя таким образом черную высоту дерева. Хотя все пути по-прежнему содержат одинаковое количество чёрных узлов, сейчас x имеет чёрного брата и красного отца. Таким образом, мы можем перейти к следующему шагу.

![](redblack3.png)

Оба ребёнка у брата чёрные. Красим брата в красный цвет и рассматриваем далее отца вершины. Делаем его черным, это не повлияет на количество чёрных узлов на путях, проходящих через b, но добавит один к числу чёрных узлов на путях, проходящих через x, восстанавливая тем самым влиянние удаленного чёрного узла. Таким образом, после удаления вершины черная глубина от отца этой вершины до всех листьев в этом поддереве будет одинаковой

![](redblack4.png)

Если у брата правый ребёнок чёрный, а левый красный, то перекрашиваем брата и его левого сына и делаем вращение. Все пути по-прежнему содержат одинаковое количество чёрных узлов, но теперь у x есть чёрный брат с красным правым потомком, и мы переходим к следующему случаю. Ни x, ни его отец не влияют на эту трансформацию

![](redblack5.png)

Если у брата правый ребёнок красный, то перекрашиваем брата в цвет отца, его ребёнка и отца — в чёрный, делаем вращение. Поддерево по-прежнему имеет тот же цвет корня, поэтому свойство 3 и 4 не нарушаются. Но у x теперь появился дополнительный чёрный предок: либо a стал чёрным, или он и был чёрным и b был добавлен в качестве чёрного дедушки. Таким образом, проходящие через x пути проходят через один дополнительный чёрный узел. Выходим из алгоритма.

![](redblack6.png)

Преимущества:
1. Самое главное преимущество красно-черных деревьев в том, что при вставке выполняется не более вращений.
2. Процедуру балансировки практически всегда можно выполнять параллельно с процедурами поиска, так как алгоритм поиска не зависит от атрибута цвета узлов.
3. Сбалансированность этих деревьев хуже, чем у АВЛ, но работа по поддержанию сбалансированности в красно-чёрных деревьях обычно эффективнее. Для балансировки красночёрного дерева производится минимальная работа по сравнению с АВЛ-деревьями.
4. Использует всего 1 бит дополнительной памяти для хранения цвета вершины.

Красно-чёрные деревья являются наиболее активно используемыми на практике самобалансирующимися деревьями поиска. В частности, ассоциативные контейнеры библиотеки STL(map, set, multiset, multimap) основаны на красно-чёрных деревьях. TreeMap в Java тоже реализован на основе красно-чёрных деревьев.



# 45. AVL деревья

АВЛ-дерево - сбалансированное двоичное дерево поиска, в котором поддерживается следующее свойство: для каждой его вершины высота ее двух поддеревьев различается не более чем на 1

АВЛ-деревья названы по первым буквам фамилий их изобретателей



In [None]:
class Node:
    def __init__(self, val):
        self.data = val
        self.left = None
        self.right = None
        self.height = 1


Балансировкой вершины называется операция, которая в случае разницы высот левого и правого поддеревьев 
|h(L)-h(R)| = 2, изменяет связи предок-потомок в поддереве вершины так, чтобы восстановилось свойсвто дерева |h(L)-h(R)| $\le$ 1, иначе ничего не меняет. Для балансировки будем хранить для каждой вершины разницу между высотой ее левого и правого поддерева ```diff[i]=h(L)-h(R)```

Для балансировки вершины используются один из 4 типов вращений:
- Малое левое
- Большое левое (Правое-левое)
- Малое правое
- Большое правое (Левое-правое)

Добавление вершины:

Пусть нам надо добавить ключ t. Будем спускаться по дереву, как при поиске ключа t. Если мы стоим в вершине $\alpha$ и нам надо идти в поддерево, которого нет, то делаем ключ листом, а вершину $\alpha$ его корнем. Дальше поднимаемся вверх по пути поиска и пересчитываем баланс у вершин. Если мы поднялись в вершину i из левого поддерева, то diff[i] увеличивается на единицу, если из правого, то уменьшается на единицу. Если пришли в вершину и её баланс стал равным нулю, то это значит высота поддерева не изменилась и подъём останавливается. Если пришли в вершину и её баланс стал равным 1 или -1, то это значит высота поддерева изменилась и подъём продолжается. Если пришли в вершину и её баланс стал равным 2 или -2, то делаем одно из четырёх вращений и, если после вращения баланс стал равным нулю, то останавливаемся, иначе продолжаем подъём.

Так как в процессе добавления вершины мы рассматриваем не более, чем O(h) вершин дерева, и для каждой запускаем балансировку не более одного раза, то суммарное количество операций при включении новой вершины в дерево составляет O(log n) операций.

Удаление вершины:

Для простоты опишем рекурсивный алгоритм удаления. Если вершина — лист, то удалим её, иначе найдём самую близкую по значению вершину $\alpha$, переместим её на место удаляемой вершины и удалим вершину $\alpha$. От удалённой вершины будем подниматься вверх к корню и пересчитывать баланс у вершин. Если мы поднялись в вершину i из левого поддерева, то diff[i] уменьшается на единицу, если из правого, то увеличивается на единицу. Если пришли в вершину и её баланс стал равным 1 или -1, то это значит, что высота этого поддерева не изменилась и подъём можно остановить. Если баланс вершины стал равным нулю, то высота поддерева уменьшилась и подъём нужно продолжить. Если баланс стал равным 2 или -2, следует выполнить одно из четырёх вращений и, если после вращений баланс вершины стал равным нулю, то подъём продолжается, иначе останавливается.

В результате указанных действий на удаление вершины и балансировку суммарно тратится, как и ранее, O(h) операций. Таким образом, требуемое количество действий — O(log n).


# 46. B-деревья

B-дерево — структура данных, дерево поиска. С точки зрения внешнего логического представления — сбалансированное, сильно ветвистое дерево. Часто используется для хранения данных во внешней памяти

С точки зрения физической организации B-дерево представляется как мультисписочная структура страниц памяти, то есть каждому узлу дерева соответствует блок памяти (страница). Внутренние и листовые страницы обычно имеют разную структуру.
Структура B-дерева применяется для организации индексов во многих современных СУБД

B-деревом называется дерево, удовлетворяющее следующим свойствам:
1. Ключи в каждом узле обычно упорядочены для быстрого доступа к ним. Корень содержит от 1 до 2t-1 ключей. Любой другой узел содержит от t-1 до 2t-1 ключей. Листья не являются исключением из этого правила. Здесь t — параметр дерева, не 2 меньший (и обычно принимающий значения от 50 до 2000).
2. У листьев потомков нет. Любой другой узел, содержащий ключи $K_1,\dots,K_n$, содержит n+1 потомков. При этом:
    - Первый потомок и все его потомки содержат ключи из интервала ($-\infty, K_1$)
    - Для $2 \le i \le n$, i-й потомок и все его потомки содержат ключи из интервала ($K_{i-1}, K_i$)
    - (n+1)-й потомок и все его потомки содержат ключи из интервала ($H_n, \infty$) 
3. Глубина всех листьев одинакова.

Свойство 2 можно сформулировать иначе: каждый узел B-дерева, кроме листьев, можно
рассматривать как упорядоченный список, в котором чередуются ключи и указатели на потомков.

Преимущества
- Во всех случаях полезное использование пространства вторичной памяти составляет свыше 50%. С ростом степени полезного использования памяти не происходит снижения качества обслуживания. 
- Произвольный доступ к записи реализуется посредством малого количества подопераций (обращения к физическим блокам). 
- В среднем достаточно эффективно реализуются операции включения и удаления записей; при этом сохраняется естественный порядок ключей с целью последовательной обработки, а также соответствующий баланс дерева для обеспечения быстрой произвольной выборки.
- Неизменная упорядоченность по ключу обеспечивает возможность эффективной пакетной обработки.

Основной недостаток В-деревьев состоит в отсутствии для них эффективных средств выборки данных (то есть метода обхода дерева), упорядоченных по свойству, отличному от выбранного ключа.


Вставка:
1. Если дерево пустое, добавить корень и вставить значение.
2. Обновить количество ключей в узле.
3. Найти подходящий для вставки узел.
4. Если узел полон, то:
    - Вставить элемент в порядке возрастания.
    - Так как количество элементов больше предела, разбить узел по медиане.
    - Сместить медианный ключ вверх и сделать ключи слева левым потомком, а ключи справа - правым.
5. Если узел не полон, то:
    - Вставить элемент в порядке возрастания.



# 47. B+ Деревья

B+ дерево - структура данных на основе B-дерев, сбалансированное n-арное дерево поиска с переменным, но зачастую большим количеством потомков в узле. B+ дерево состоит из корня, внутренних узлов и листльев, корень может быть либо листом, либо узлом с двумя и более потомками.

Изначально структура предназначалась для хранения данных в целях эффективного поиска в блочно-ориентированной среде хранения — в частности, для файловых систем; применение связано с тем, что в отличие от бинарных деревьев поиска, B⁺-деревья имеют очень высокий коэффициент ветвления (число указателей из родительского узла на дочерние — обычно порядка 100 или более), что снижает количество операций ввода-вывода, требующих поиска элемента в дереве.

*Структура широко применяется в файловых системах — NTFS, ReiserFS, NSS, XFS, JFS, ReFS и BFS используют этот тип дерева для индексирования метаданных; BeFS также использует B⁺-деревья для хранения каталогов. Реляционные системы управления базами данных, такие как DB2, Informix, Microsoft SQL Server, Oracle Database (начиная с версии 8), Adaptive Server Enterprise и SQLite поддерживают этот тип деревьев для табличных индексов. Среди NoSQL-СУБД, работающих с моделью «ключ—значение», структура данных реализована для доступа к данным в CouchDB, MongoDB (при использовании подсистемы хранения WiredTiger) и Tokyo Cabinet*

B+-деревом называется дерево, удовлетворяющее следующим свойствам:
1. Ключи в каждом узле обычно упорядочены для быстрого доступа к ним. Корень содержит от 1 до 2t-1 ключей. Любой другой узел содержит от t-1 до 2t-1 ключей. Листья не являются исключением из этого правила. Здесь t — параметр дерева, не меньший 2 (и обычно принимающий значения от 50 до 2000).
2. У листьев потомков нет. Любой другой узел, содержащий ключи $K_1, \dots, K_n$, содержит n+1 потомков. При этом:
    - Первый потомок и все его потомки содержат ключи из интервала ($-\infty, K_1$)
    - Для $2 \le i \le n$, i-й потомок и все его потомки содержат ключи из интервала ($K_n, \infty$) 
    - (n+1)-й потомок и все его потомки содержат ключи из интервала
3. Глубина всех листьев одинакова.
4. Листья имеют ссылку на соседа, позволяющую быстро обходить дерево в порядке возрастания ключей, и ссылки на данные.



In [None]:
class Node:
    def __init__(self, order):
        self.order = order
        self.values = []
        self.keys = []
        self.nextKey = None
        self.parent = None
        self.check_leaf = False

## Bonus

B* деревья - те же саиые B-деревья, но только у них каждый узел заполнен на 2/3 вместо 1/2. Чтобы такой фокус провернуть приходится отказываться от простой процедуры разделения переполненного узла. Вместо этого происходит «переливание» в соседний узел. Если же и соседний узел заполнен, то ключи приблизительно поровну разделяются на 3 новых узла

Если же B+ дерево также имеет заполненность всех узлов на 2/3 и более, то это будет называться B*+ деревом

# 48. Поиск, вставка, удаление, поиск следующего и предыдущего элемента за время, пропорциональное высоте

- Поиск элемента за время, пропорциональное высоте:

In [None]:
def search(node, key):
    if not node or node.data == key:
        return node
    if node.data > key:
        return search(node.left, key)
    return search(node.right, key)

- Поиск следующего и предыдущего элемента за время, пропорциональное высоте (пример конкретно для следующего значения ключа, предыдущего осуществляется также)

In [None]:
def searchNext(node, key):
    if not node:
        return None
    if node.data == key:
        if node.right:
            current = node.right
            while current.left:
                current = current.left
            return current
        return None
    if node.data > key:
        return search(node.left, key)
    return search(node.right, key)


- Вставка элемента за время пропорциональное высоте


In [None]:
def insert(node, key):
    if node is None:
        return Node(key)
    if key < node.data:
        node.left = insert(node.left, key)
    else:
        node.right = insert(node.right, key)
    return node


- Удаление элемента за время пропорциональное высоте

In [None]:
def deleteNode(root, key):
    if root is None:
        return root
    if key < root.data:
        root.left = deleteNode(root.left, key)
    elif(key > root.data):
        root.right = deleteNode(root.right, key)
    else:
        if root.left is None:
            temp = root.right
            root = None
            return temp
        elif root.right is None:
            temp = root.left
            root = None
            return temp
        temp = searchPrev(root, key)
        root.data = temp.data
        root.right = deleteNode(root.right, temp.data)
    return root


# 49. Декартово дерево: split, merge, реализация операций вставки и удаления через split и merge

Декартово дерево или дерамида (Treap) — это структура данных, объединяющая в себе бинарное дерево поиска и бинарную кучу (отсюда и второе её название: treap (tree + heap) и дерамида (дерево + пирамида), также существует название курево (куча + дерево).

Более строго, это бинарное дерево, в узлах которого хранятся пары (x,y), где x — это ключ, а y — это приоритет. Также оно является двоичным деревом поиска по x и пирамидой по y. Предполагая, что все x и все y являются различными, получаем, что если некоторый элемент дерева содержит ($x_0, y_0$), то у всех элементов в левом поддереве x < $x_0$, у всех элементов в правом поддереве x > $x_0$, а также и в левом, и в правом поддереве имеем: y < $y_0$.

![](decatree.png)

In [None]:
class Node:
    def __init__(self, value, prior):
        self.value = value
        self.prior = prior
        self.left = None
        self.right = None


- Split

Операция split (разрезать) позволяет сделать следующее - разрезать исходное дерево T по ключу k. Возвращать она будет такую пару деревьев <$T_1$, $T_2$>, что в дереве $T_1$ ключи меньше k, а в дереве $T_2$ все остальные

Эта операция устроена следующим образом:

Рассмотрим случай, в котором требуется разрезать дерево по ключу, большему ключа корня. Посмотрим, как будут устроены результирующие деревья $T_1$ $ и $T_2$:
- $T_1$: левое поддерево $T_1$ совпадёт с левым поддеревом T. Для нахождения правого поддерева $T_1$, нужно разрезать правое поддерево T на $T_1^R$ и $T_2^R$ по ключу k и взять $T_1^R$.
- $T_2$ совпадёт с $T_2^R$ 
Случай, в котором требуется разрезать дерево по ключу, меньше либо равному ключа в корне,
рассматривается симметрично

In [None]:
def split(root, val):
    if root is None:
        return (None, None)
    elif root.value is None:
        return (None, None)
    else:
        if val < root.value:
            left, root.left = split(root.left, val)
            return (left, root)
        else:
            root.right, right = split(root.right, val)
            return (root, right)

- Merge

С помощью этой операции можно слить две декартовых дерева в одно. Причем все ключи в первом (левом) дереве должны быть меньше, чем ключи во втором (правом). В результате получается дерево, в котороме есть все ключи из первого и второго деревьев: merge ($T_1, T_2 \rightarrow T$)

Рассмотрим принцип работы этой операции. Пусть нужно слить деревья $T_1$ и $T_2$. Тогда, очевидно, у результирующего дерева T есть корень. Корнем станет вершина из $T_1$ или $T_2$ с наибольшим приоритетом y. Но вершина с самым большим y из всех вершин деревьев $T_1$ и $T_2$ может быть только либо корнем $T_1$, либо корнем $T_2$. Рассмотрим случай, в котором корень $T_1$ имеет больший y, чем корень $T_2$. Случай, в котором корень $T_2$ имеет больший y, чем корень $T_1$, симметричен этому.

Если y корня $T_1$ больше y корня $T_2$, то он и будет являться корнем. Тогда левое поддерево T совпадёт с левым поддеревом $T_1$. Справа же нужно подвесить объединение правого поддерева $T_1$ и дерева $T_2$.


In [None]:
def merge(left, right):
    if (not left) or (not right):
        return left or right
    elif left.prior < right.prior:
        left.right = merge(left.right, right)
        return left
    else:
        right.left = merge(left, right.left)
        return right


![](dctreerem.png)

![](dectreeins1.png)

![](dectreeins2.png)

In [None]:
#Вставка и удаление через split & merge
def insert(root, value):
    node = Node(value)
    left, right = split(root, value)
    return merge(merge(left, node), right)
def remove(root, value):
    left, right = split(root, value - 1)
    _, right = split(right, value)
    return merge(left, right)


# 50. Использование неявного ключа: rope

В стандартной реализации структуру данных динамический массив мы умеем добавлять элемент в конец вектора, узнавать значение элемента, стоящего на определенной позиции, изменять элемент по номеру и удалять последний элемент. Предположим, что нам необходима структура данных с вышеуказанными свойствами, а также с операциями: добавить элемент в любое место (с соответствующим изменением нумерации элементов) и удалить любой элемент (также с соответствующим изменением нумерации). Такую структуру можно реализовать на базе декартового дерева, результат часто называют декартово дерево по неявному ключу (Treap with implicit key).

При реализации декартова дерева по неявному ключу модифицируем эту структуру. А именно, оставим в нем только приоритет Y, а вместо ключа X будем использовать следующую величину: **количество элементов в нашей структуре, находящихся левее нашего элемента**. Иначе говоря, будем считать ключом порядковый номер нашего элемента в дереве, уменьшенный на единицу. 

Заметим, что при этом сохранится структура двоичного дерева поиска по этому ключу (то есть модифицированное декартово дерево так и останется декартовым деревом). Однако, с этим подходом появляется проблема: операции добавления и удаления элемента могут поменять нумерацию, и при наивной реализации на изменение всех ключей потребуется O(n) времени, где — количество элементов в дереве.

Решается эта проблема довольно просто. Основная идея заключается в том, что такой ключ X сам по себе нигде не хранится. Вместо него будем хранить вспомогательную величину C: **количество вершин в поддереве нашей вершины** (в поддерево включается и сама вершина). Обратим внимание, что все операции с обычным декартовым деревом делались сверху. Также заметим, что если по пути от корня до некой вершины просуммировать все такие величины в левых поддеревьях, в которые мы не пошли, увеличенные на единицу, то придя в саму вершину и добавив к этой величине количество элементов в её левом поддереве, мы получим как раз ее ключ X.

Применение:

Таким образом, описана структура, от которой можно отрезать слева часть произвольной длины и слить две любые части в одну в нужном порядке. Теперь мы имеем возможность: 
- вставить элемент в любое место (отрежем нужное количество элементов слева, сольем левое дерево с деревом из одного добавленного элемента и результат — с правым деревом)
- переставить любой кусок массива куда угодно (сделаем нужные разрезы и слияния в правильном порядке),
- совершать групповые операции с элементами. Вспомним реализацию таких операций в дереве отрезков и поймем, что ничего не помешает нам сделать то же самое с описанным деревом. В групповые операции включается, естественно, и взятие функции от отрезка,
- сделав на одном исходном массиве два дерева из элементов разной четности, можно решить задачу про смену мест четных и нечетных на отрезке


Rope (веревка) — структура данных для хранения строки, представляющая из себя двоичное сбалансированное дерево и позволяющая делать операции вставки, удаления и конкатенации с логарифмической асимптотикой.

Иногда при использовании строк нам нужны следующие свойства:
- Операции, которые часто используются на строках, должны быть более эффективными.
    Например: конкатенация, взятие подстроки.
- Также эти операции должны эффективно работать и с длинными строками. Не должно быть прямой зависимости от длины строк.
- Персистентность. Иногда необходимо при изменении строки сохранить ее состояние перед изменением и вернуться к нему, если необходимо.

В данном случае Rope удовлетворяет всем этим свойствам.

Для хранения Rope создадим структуру, похожую на декартово дерево по неявному ключу. В каждом листе будем хранить последовательную часть строки и ее длину, а в промежуточных вершинах будем хранить сумму длин всех листьев в поддереве. Изначально дерево состоит из одной вершины — самой строки. Используя информацию в промежуточных вершинах, можно получать символы строки по индексу.

Также заметим, что для отметки листа не обязательно хранить дополнительную информацию: все внутренние вершины имеют ровно двух детей, а листы — ни одного. Поэтому для проверки вершины на то, что она является листом, достаточно проверить, есть ли у неё дети



# НАПИШИТЕ ЕСЛИ НУЖНО ДОБАВИТЬ ОСТАЛЬНОЕ В ROPE

# 51. Поиск подстроки в строке. Наивный алгоритм.

Поиск подстроки в строке — одна из простейших задач поиска информации. Применяется в виде встроенной функции в текстовых редакторах, СУБД, поисковых машинах, языках программирования и.т.п.

Поиск подстроки в строке (String searching algorithm) — класс алгоритмов над строками, которые позволяют найти паттерн (pattern) в тексте (text).

Формулировка задачи: Дан текст t[0..n-1] и паттерн p[0..m-1] такие, что $n \ge m$ и элементы этих строк — символы из конечного алфавита $\sum$. Требуется проверить, входит ли паттерн p в текст t.


Будем говорить, что паттерн p встречается в тексте t со сдвигом s, если $o \le s \le n-m$ и t[s..s+m-1]=p. Если строка p встречается в строке t, то p является подстрокой t.

В наивном алгоритме поиск всех допустимых сдвигов производится с помощью цикла, в котором проверяется условие t[s..s+m-1] для каждого из n-m+1 возможных значений s.

In [None]:
def niaveStringMatcher(t, p):
    n = len(t)
    m = len(p)
    ans = []
    for i in range(0, n-m):
        if t[i : i + m - 1] == p:
            ans.push_back(i)
        return(ans)

Работает за O(m(n-m)). В худшем случае m = $\frac n 2$, что дает O($\frac {n^2} 4$) = O($n^2$). Однако если m мало асимптотика будет стремится к O(n)

Преимущества:
- Требует O(1) памяти
- Приемлемое время работы на практике
- Простая и понятная релаизация

Недостатки
- Требует O(m*(n-m)) операций, вследствии чего алогоритм медленный при большой длинне паттерна(привет АА)

# 52. Поиск подстроки в строке. Z-функция

Z-функция (Z-function) от строки S и позиции x — это длина максимального префикса подстроки, начинающейся с позиции x в строке S, который одновременно является и префиксом всей строки S.

Более формально, Z[i](s) = max k | s[i..i+k] = s[0..k].

Иными словами, — z[i] это длина наибольшего общего префикса строки s и её i-го суффикса.

Значение Z-функции от первой позиции не определено, поэтому его обычно приравнивают к нулю или к длине строки.

"aaaaa" - [0, 4, 3, 2, 1]
"aaabaab" - [0,2,1,0,2,1,0]
"abacaba" - [0,0,1,0,3,0,1]


In [None]:
def z_func(s, n):
    z = [0] * n
    for i in range(1, n - 1):
        while i + z[i] < n and s[z[i]] == s[i + z[i]]:
            z[i] += 1
    return z


Это наивная реализация и она слишком неэффективна - по сути просто перебор для кажой позиции i начиная с нуля и до тех пор, пока не обнаружим несовпадение или конец строки
Асимпотика - O($n^2$)

In [None]:
#Эффективный алгоритм
def z_func(s):
    n = len(s)
    z = [0] * n
    l = 0
    r = 0
    for i in range(1, n):
        if i < r:
            z[i] = min(r - i, z[i - l])
        while i + z[i] < n and s[z[i]] == s[i + z[i]]:
            z[i] += 1
        if i + z[i] > r:
            l = i
            r = i + z[i]
    return z


Чтобы получить эффективный алгоритм, будем вычислять значения z[i] по очереди — от i=1 до n-1, и при этом постараемся при вычислении очередного значения z[i] максимально использовать уже вычисленные значения. 

Назовём для краткости подстроку, совпадающую с префиксом строки s, отрезком совпадения. Например, значение искомой Z-функции z[i] — это длина длиннейшего отрезок совпадения, начинающийся в позиции i (и заканчиваться он будет в позиции i + z[i] -1). 

Для этого будем поддерживать координаты [l;r] самого правого отрезка совпадения, т.е. из всех обнаруженных отрезков будем хранить тот, который оканчивается правее всего. В некотором смысле, индекс r — это такая граница, до которой наша строка уже была просканирована алгоритмом, а всё остальное — пока ещё не известно

Тогда если текущий индекс, для которого мы хотим посчитать очередное значение -функции, — это i, мы имеем один из двух вариантов:
 
- i > r — т.е. текущая позиция лежит за пределами того, что мы уже успели обработать. Тогда будем искать z[i] тривиальным алгоритмом, т.е. просто пробуя значения z[i]=0, z[i]-1, и.т.д. 

    Заметим, что в итоге, если z[i] окажется > 0, то мы будем обязаны обновить координаты самого правого отрезка [l;r] — т.к. i+z[i] - 1 гарантированно окажется больше r.

$i \le r$ — т.е. текущая позиция лежит внутри отрезка совпадения [l;r]. Тогда мы можем использовать уже подсчитанные предыдущие значения Z-функции, чтобы проинициализировать значение z[i] не нулём, а каким-то возможно бОльшим числом.

В качестве начального приближения для безопасно брать только такое выражение: 

$$ z_0[i] = min(r-i+1, z[i-l]) $$

Проинициализировав z[i] таким значением z0[i], мы снова дальше действуем тривиальным алгоритмом — потому что после границы r, вообще говоря, могло обнаружиться продолжение отрезка совпадение, предугадать которое одними лишь предыдущими значениями Z-функции мы не можем.

Таким образом, весь алгоритм представляет из себя два случая, которые фактически различаются только начальным значением z[i]: в первом случае оно полагается равным нулю, а во втором — определяется по предыдущим значениям по указанной формуле. После этого обе ветки алгоритма сводятся к выполнению тривиального алгоритма, стартующего сразу с указанного начального значения.

Теперь алгоритм выполняется за O(n)

- Поиск подстроки в строке Z-функцией

n — длина текста. m — длина образца.
Образуем строку s = pattern + # + text , где # — символ, не встречающийся ни в text , ни в pattern. Вычисляем Z-функцию от этой строки. В полученном массиве, в позициях в которых значение Z-функции равно |pattern|, по определению начинается подстрока, совпадающая с pattern


In [None]:
def substringSearch(text, pattern):
    zf = z_func(pattern + '#' + text)
    for i in range(m + 1, n + 1):
        if zf[i] == m:
            return i


# 53. Поиск подстроки в строке. Префикс функция

Пусть дана строка s длины n. Тогда $\pi (s)$ - это массив длины n, 
i-ый элемент которого ($\pi (i)$) определяется следующим образом: это длина наибольшего собственного суффикса подстроки s[0...i], совпадающего с её префиксом (собственный суффикс — значит не совпадающий со всей строкой). В частности, значение $\pi [0]$ полагается равным нулю. 

Математически определение префикс-функции можно записать следующим образом:

$$ \pi [i] = max_{k=0...i} k:s[0...k-1] = s [i-k+1...i] $$ 

![](pref.png)

Тривиальный алгоритм (работает за O($n^3$)), что очень плохо

In [None]:
def prefix_func(s):
    n = len(s)
    pi = [0] * n
    for i in range(n - 1):
        for k in range(1, i + 1):
            equal = True
            for j in range(k):
                if s[j] != s[i - k + 1 + j]:
                    equal = False
                    break
            if equal:
                pi[i] = k
                return pi

Эффективный (простите но писать это перебор)

![](1.png)

![](2.png)



In [None]:
def prefix(txt):
    m = len(txt)
    res = [0] * m
    i = 1
    j = 0
    while i < m:
        if txt[i] == txt[j]:
            j += 1
            res[i] = j
            i += 1
        else:
            if j != 0:
                j = res[j-1]
            else:
                res[i] = 0
                i += 1
    return res


# 54. Поиск подстроки в строке. Алгоритм Кнута-Морриса-Пратта

Дан текст t и строка s, требуется найти и вывести позиции всех вхождений строки s в текст t.

Обозначим для удобства через n длину строки s, а через m — длину текста t.

Образуем строку s+#+t , где символ # — это разделитель, который не должен нигде более встречаться. Посчитаем для этой строки префикс-функцию. Теперь рассмотрим её значения, кроме первых n+1 (которые, как видно, относятся к строке s и разделителю). По определению, значение $\pi [i]$ показывает наидлиннейшую длину подстроки, оканчивающейся в позиции i и совпадающего с префиксом. Но в нашем случае это $\pi [i]$ — фактически длина наибольшего блока совпадения со строкой s и оканчивающегося в позиции i. Больше, чем n, эта длина быть не может, за счёт разделителя. А вот равенство $\pi [i] = n$ (там, где оно достигается), означает, что в позиции i оканчивается искомое вхождение строки s (только не надо забывать, что все позиции отсчитываются в склеенной строке s+#+t ).

Таким образом, если в какой-то позиции i оказалось $\pi [i] = n$, то в позиции i - (n+1) - n + 1 = i - 2n строки t начинается очередное вхождение строки s в строку t 

Работает за O(n+m)

In [None]:
def kmp(s, t):
    n = len(s)
    m = len(t)
    answer = []
    p = prefix_func(s + "#" + t)
    count = 0
    for i in range(0, m - 1):
        if p[n + i + 1] == n:
            count += 1
            answer[count] = i - n
    return answer


# 55. Поиск подстроки в строке. Полиномиальный хеш

Хеширование (hashing) — класс методов поиска, идея которого состоит в вычислении хеш-кода, однозначно определяемого элементом с помощью хеш-функции, и использовании его, как основы для поиска (индексирование в памяти по хеш-коду выполняется за O(1))

- Полиноминальный хэш

Пусть дана строка s[0...n-1]. Тогда полиноминальным хешем строки s называется число h = hash(s[0...n-1])=$p^0s[0]+\dots+p^{n-1}s[n-1]$ где p - некоторое простое число а s[i] - код i-го символа строки s (from ASCII)

![](11.png)

![](12.png)

![](13.png)



# 56. Поиск подстроки в строке. Алгоритм Рабина-Карпа.

Алгоритм начинается с подсчета hash(s[0..m-1]) и hash(p[0..m-1]), а также с подсчета $p^m$, для ускорения ответов на запрос.

Для $i \in [0...n-m]$ вычисляется hash(s[i...i+m-1]) и сравнивается с hash(p[0...m-1]). Если они оказались равны, то образец p скорее всего содержится в строке s начиная с позиции i, хотя возможны и ложные срабатывания алгоритма. Если требуется свести такие срабатывания к минимуму или исключить вовсе, то применяют сравнение некоторых символов из этих строк, которые выбраны случайным образом, или применяют явное сравнение строк, как в наивном алгоритме поиска подстроки в строке. В первом случае проверка произойдет быстрее, но вероятность ложного срабатывания, хоть и небольшая, останется. Во втором случае проверка займет время, равное длине образца, но полностью исключит возможность ложного срабатывания.

Если требуется найти индексы вхождения нескольких образцов, или сравнить две строки − выгоднее
будет предпосчитать все степени , а также хеши всех префиксов строки s



In [None]:
def rabinKarp (s, w):
    answer = []
    n = len(s)
    m = len(w)
    hashS = hash(s[:m])
    hashW = hash(w[:m])
    for i in range(n - m):
        if hashS == hashW:
            answer.add(i)
        hashS = (p * hashS - (p ** m) * hash(s[i]) + hash(s[i + m])) % r
    return answer

# 57. Хеш таблци. Коллизии

Хеш-таблица  - структура данных, реализующая интерфейс ассоциативного массива. В отиличе от деревьев поиска, реализующих тот же интерфейс, обеспечивают меньшее время отклика в среднем. Представляют собой эффективную стркутуру данных для реализации словарей, а именно, она позволяет хранить пары (ключ, значение) и выполнять три операции: операцию добавления новой пары, поиска и удаления пары по ключу

Существует два основынх вида хеш-таблиц - с цепочка и открытой адресацией. Хеш таблица содержит некоторый массив H, элементы которого есть пары (хеш таблица с открытой адресацией) или списки пар (цепочки)

Выполнение опеарции в хеш-таблице начинается с вычисления хеш-функции от ключа. Хеш-код i=h(key) играет роль индекса в массве H, а зная индекс, мы можем выполнить требующубся операцию (добавление, удаление или поиск)

Коллизия - сущесвтует x не равный y, такой что h(x) = h(y)

Разрешение коллизий в хеш таблице, задача решаемая несколькими способами: метод цепочек, открыйтая адресация и.т.д. Очень важно сводить количество коллизий к минимуму так как это увеличивает время работы с хеш таблицами

Разрешение цепочками:

Каждая ячейка i массива H содержит указатель на начало списка всех элементов, хеш-код которых равен i, либо указывает на их отсутствие. Коллизии приводят к тому, что появляются списки размером больше одного элемента. 

В зависимости от того нужна ли нам уникальность значений операция вставки у нас будет работать за разное время. Если не важна, то мы используем список, время вставки в который будет в худшем случае равна O(1). Иначе мы проверяем есть ли в списке данный элемент, а потом в случае его отсутствия мы его добавляем. В таком случае вставка элемента в худшем случае будет выполнена за O(n)

Время работы поиска в наихудшем случае пропорционально длине списка, а если все n ключей захешировались в одну и ту же ячейку (создав список длиной n) время поиска будет равно O(n) плюс время вычисления хеш-функции, что ничуть не лучше, чем использование связного списка для хранения всех элементов.

Удаления элемента может быть выполнено за O(1), как и вставка, при использовании двухсвязного списка.

![](collision.png)


Открытая адресация

Все элементы хранятся непосредственно в хеш-таблице, без использования связных списков. В отличие от хеширования с цепочками, при использовании этого метода может возникнуть ситуация, когда хеш-таблица окажется полностью заполненной, следовательно, будет невозможно добавлять в неё новые элементы. Так что при возникновении такой ситуации решением может быть динамическое увеличение размера хеш-таблицы, с одновременной её перестройкой.