# Бинарный поиск 

На входе - отсортированный список элементов.
Если элемент, который вы ищете, присутствует в списке, то бинарный поиск возвращает ту позицию, в которой он был найден. Иначе - null.

С бинарньtм поиском вы каждый раз загадываете число в середине диапазона и исключаете половину оставшихся чисел.

Для списка из п элементов бинарный поиск выполняется за log2n шагов <br>
**O(log n)** - log по основанию 2

In [1]:
def binary_search(list, item):
    # верхняя-нижняя границы
    low = 0
    high = len(list) - 1

    while low <= high:               # Пока часть не сократится до одного элемента - проверяем средний элемент
        mid = int((low + high) / 2) 

        quess = list[mid]         # Значение посередине списка

        if quess == item:         
            return mid            

        if quess > item:         
            high = mid - 1        
        else:
            low = mid + 1         

    return None


# Немного тестирования
my_list = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15]
print('Element 15:', binary_search(my_list, 15))

Element 15: 14


**Бинарное дерево поиска**<br>
Строим дерево из значений. У каждого элемента макс 2 прямых потомка (слева - меньше него, справа - больше).<br>
Это очень удобно для вставки/удаления нового элемента, тк в отсортированном массиве пришлось бы перезаписывать весь массив по новой.<br>

# О-большое

**О-большое** определяет время выполнения в худшем случае

O(log n), или логарифмическое время. Пример: бинарный поиск<br>
O(n), или линейное время. Пример: простой поиск<br>
O(n * log n). Пример: эффективные алгоритмы сортировки <br>
O(n2). Пример: медленные алгоритмы сортировки (сортировка выбором)<br>
O(n!). Пример: очень медленные алгоритмы (задача о коммивояжере)

Константы игнорируются

Есть список, мы печатаем по очереди каждый его элемент. O(n)<br>
Есть список, мы печатаем по очереди каждый его элемент и делаем паузу после каждого элемента 1 сек. O(n)<br>
Хотя обе выполняются за O(n), их время выполнения разное (тк константами пренебрегаем)<br>

Однако в некоторых случаях **константа** может иметь значение.<br>
Пример - быстрая сортировка и сортировка слиянием. У быстрой сортировки константа меньше, поэтому,
несмотря на то что оба алгоритма характеризуются временем О(nlog n), быстрая сортировка работает быстрее. А на практике быстрая сортировка работает быстрее, потому что средний случай встречается намного чаще худшего.

# Задача коммивояжера

Коммивояжер хочет побывать в каждом из 5 городов так, чтобы при этом проехать минимальное общее расстояние. <br>
Одно из возможных решений: нужно перебрать все возможные комбинации порядка объезда городов. n! операций

# Сортировка выбором 

**Массив** - все элементы хранятся в памяти рядом. Если рядом нет места, то все предыдущие элементы переносим в ячейки в памяти, где им есть место. Это медленно. Можно сразу резервировать место про запас - это чуть эффективнее.<br>
**Связанный список** - в каждом элементе хранится адрес следующего элемента списка.<br>
Массивы прекрасно подходят для чтения элементов в произвольных позициях, потому что обращение к любому элементу в массиве происходит мгновенно. В связанном списке элементы не хранятся рядом друг с другом, поэтому мгновенно определить позицию i-го элемента в памяти невозможно - нужно обратиться к первому элементу, чтобы получить адрес второго элемента и так далее...<br>
Массив - чтение О(1), вставка O(n).<br>
Связанный список - чтение О(n), вставка O(1).<br>

**Сортировка выбором** Самый простой способ это просто пробежать по списку и найти самый большой элеиент - положить в новый отсортированный список. Далее бежим еще раз, ищем следующий большой, кладем. И так до победы. Долго, делается за время O(n в квадрате).

In [2]:
def find_smallest(arr):
    '''
    Функция находит наименьший элемент в массиве и добавляет его в новый.
    '''
    smallest = arr[0]   # Для хранения наименьшего значения.
    smallest_index = 0  # Для хранения индекса элемента.

    for i in range(1, len(arr)):
        if arr[i] < smallest:
            smallest = arr[i]
            smallest_index = i

    # Вернуть индекс наименьшего
    return smallest_index


def selection_sort(arr):
    ''' Функция возвращает новый отсортированный массив. '''
    new_arr = []

    for i in range(len(arr)):
        smallest = find_smallest(arr)      # Находим наименьший элемент
        new_arr.append(arr.pop(smallest))  # добавляем его в новый массив и удаляем из arr

    return new_arr


# Потестим
arr = [5, 3, 6, 2, 8, 11, 0, 99]
print('\nUnsorted array:\t', arr)
print('Sorted array:\t', selection_sort(arr), end='\n\n')


Unsorted array:	 [5, 3, 6, 2, 8, 11, 0, 99]
Sorted array:	 [0, 2, 3, 5, 6, 8, 11, 99]



# Сортировка пузырьком

Будем идти по массиву слева направо. Если текущий элемент больше следующего, меняем их местами. Делаем так, пока массив не будет отсортирован. После первой итерации самый большой элемент будет находиться в конце массива, на правильном месте. После двух итераций на правильном месте будут стоять два наибольших элемента, и так далее. <br><br>
Очевидно, не более чем после n итераций массив будет отсортирован. Таким образом, асимптотика в худшем и среднем случае – O(n2), в лучшем случае – O(n).

# Шейкерная сортировка (сортировка перемешиванием и коктейльная сортировка)

Сортировка пузырьком работает медленно на тестах, в которых маленькие элементы стоят в конце. Такой элемент на каждом шаге алгоритма будет сдвигаться всего на одну позицию влево. <br><br>
Поэтому будем идти не только слева направо, но и справа налево. Будем поддерживать два указателя begin и end, обозначающих, какой отрезок массива еще не отсортирован. На очередной итерации при достижении end вычитаем из него единицу и движемся справа налево, аналогично, при достижении begin прибавляем единицу и двигаемся слева направо. <br><br>
Асимптотика у алгоритма такая же, как и у сортировки пузырьком, однако реальное время работы лучше.

# Быстрая сортировка

**Разделяй и властвуй**<br>
1 Сначала определяется базовый случай. Это должен быть простейший случай из всех возможных.<br>
2 Задача делится или сокращается до тех пор, пока не будет сведена к базовому случаю.<br>

Алгоритм быстрой сортировки уникален тем, что его скорость зависит от выбора опорного элемента.<br>
Например, на вход дали уже отсортированный массив, а при сортировке опорным элементом мы всегда выбираем первый, в итоге все подмассивы будут с правой стороны от опорного элемента.

In [74]:
def quick_sort(arr):
    ''' Алгоритм быстрой сортировки по принципу "разделяй и властвуй". '''

    # Если массив пуст или из одного элемента - вернуть (базовый случай).
    if len(arr) < 2:
        return arr
    # Иначе, рекурсивный случай
    else:
        # Опорный элемент.
        # Выбор опорного элемента: как следует из теории, лучший случай быстрой
        # сортировки является так же и средним случаем. Следовательно, если
        # выбирать опорным элементом случайный элемент в массиве, то быстрая
        # сортировка в среднем завершится за время O(n * log n).
        # В данном случае по старинке выберем опорным первый элемент
        pivot = arr[0]
        # Подмассив элементов меньше опорного.
        lesser = [i for i in arr[1:] if i <= pivot]
        # Подмассив элементов больше опорного.
        greater = [i for i in arr[1:] if i > pivot]
        # Рекурсивный вызов, сортировка соответственно оствшихся.
        return quick_sort(lesser) + [pivot] + quick_sort(greater)


arr = [10, 5, 7, 1, 6, 999, 2, 3, 9, 8, 4, 11, 12]
print('quick_sort():', quick_sort(arr))

quick_sort(): [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 999]


# Рекурсия

In [5]:
def countdown (i):
    print(i)
    if i>0: countdown(i-1)

In [None]:
#в if рекурсия должна быть в return
def foo(x,y):
    a=min(x,y)
    if max(x,y)%a!=0:
        return foo(max(x,y)%a, min(x,y))
    else:
        return a

**Стек**<br>
Когда вы в ыз ывает е фу нкци ю из другой фу нкции, вызы вающая функция приостанавливается в частично завершенном состоянии. Все значения переменных этой функции остаются в памяти. А когда выполнение функции 2 будет завершено, вы вернетесь к функции 1 и продолжите ее выполнение с того места, где оно прервалось.<br>
Стек поддерживает две операции: занесение и извлечение элементов

In [10]:
def recur_fact(x):
    ''' Рекурсивная функция для вычисления факториала. '''
    if x == 1:
        return 1
    else:
        return x * recur_fact(x - 1)

# Хеш-таблицы

**Хеш-функция** представляет собой функцию, которая получает строку и возвращает число<br>
**Другие названия:** «ассоциативные массивы», «словари» , «отображения».<br>
Например, нужно искать цены товаров. Передаем в хеш-функцию "молоко" получаем 23, в список под индесом 23 заносим цену 20.15. <br>

Хеши хорошо подходят для решения следующих задач:<br>
- моделирование отношений между объектами;<br>
- устранение дубликатов - проверить, был ли уже этот элемент;<br>
- кэширование.<br>

**Коллизия** - двум ключам назначается один элемент массива.<br>
Можно в этот элемент ввести связанный список и в него вносить ключи.<br>

Хорошая хеш-таблица работает за О(1)<br>
Хорошая хеш-функция должна обеспечивать равномерное распределение значений в массиве.<br>

Для быстродействия важен **коэф заполнения** таблицы (сколько элементов занято из всего массива отведенного под хеш-таблицу).<br>
Правило - изменяйте размер хеш-таблицы (обычно в 2 раза), когда коэффициент заполнения превышает 0,7. Но это дорогостоящая операция, поэтому должна происходить редко.<br>

# Графы. Поиск в ширину

BFS, Breadth-First Search<br>
Поиск в ширину позволяет найти кратчайшее расстояние между двумя объектами (меньше всего ребер до него, все ребра считаются одинаковой длины).<br>

**FIFO**: First In, First Out - очередь<br>
**LIFO**: Last In, First Out - стек

Поиск в ширину· выполняется за время О( количество людей + количество ребер)<br>
**Алгоритм**: добавить в очередь всех своих потомков, проверить, что они не фин точка, если нет - добавляем их потомков в очередь и так далее. При этом ведем список уже проверенных вершин, и проверяем каждый элемент на вхождение в него.

# Алгоритм Дейкстры

Поиск в ширину находит путь с минимальным количеством сегментов.<br>
Но это не всегда кратчайший путь. Если ввести веса ребер, то нужно использовать алгоритм Дейкстры

Алгоритм Дейкстры работает только с **направленными ациклическими графами** - DAG ( Directed Acyclic Graph).

Алгоритм Дейкстры не может использоваться при наличии ребер, имеющих **отрицательный вес**.<br>
При наличии отрицательных весов используйте алгоритм Беллмана-Форда

# Жадные алгоритмы

Когда вычисление точного решения занимает слишком много времени, применяется приближенный алгоритм.<br>
Например, есть расписание уроков, но они пересекаются. Как составить расписание так, чтобы провести максимальное количество уроков?

1  Выбрать урок, завершающийся раньше всех. Это первый урок, который будет проведен в классе.
2  Затем выбирается урок, начинающийся после завершения первого урока. И снова следует выбрать урок, который завершается раньше всех остальных. Он становится вторым уроком в расписании. И тд

В технической терминологии: на каждом шаге выбирается **локально-оптимальное решение**, а в итоге вы получаете глобально-оптимальное решение.

Однако это не оптимальное решение задач, а приближенное.

In [1]:
#Задача: мы открываем собственную программу на радио,
#и хотим распространить вещание на максимум штатов.
#Имеется список станций, покрывающих некоторые штаты.
#Найти минимальный набор станций, который покрывал бы все 50 штатов.

# Список штатов
states_needed = set(['mt', 'wa', 'or', 'id', 'nv', 'ut', 'ca', 'az'])

# Список станций - каждая покрывает отпределенные штаты.
stations = {}
stations['k_one'] = set(['id', 'nv', 'ut'])
stations['k_two'] = set(['wa', 'id', 'mt'])
stations['k_three'] = set(['or', 'nv', 'ca'])
stations['k_four'] = set(['nv', 'ut'])
stations['k_five'] = set(['ca', 'az'])

# Список для хранения итогового набора станций.
final_stations = set()

while states_needed:
    # Та самая лучшая станция на итерацию.
    best_station = None
    # Содержит штаты, обслуживаемые этой станцией, которые еще не входят в текущее покрытие.
    states_covered = set()
    # Перебираем все станции и выбираем ту, которая обслуживает больше всего штатов, не входящих в текущее покрытие.
    for station, states_for_station in stations.items():
        # Множество штатов, не входящих в покрытие, которые покрываются текущей станцией.
        covered = states_needed & states_for_station
        # Проверка, покрывает ли эта станция больше штатов, чем best_station.
        if len(covered) > len(states_covered):
            best_station = station
            states_covered = covered
    # Те штаты, которые входят в зону покрытия, больше не нужны.
    states_needed -= states_covered
    # Итоговый список станций.
    final_stations.add(best_station)

print('Result:', final_stations)

Result: {'k_three', 'k_one', 'k_two', 'k_five'}


Жадный алгоритм для задачи о коммивояжоре<br>
Выбрать произвольный город, от него ехать в ближайший непосещенный и так далее.<br>
Алгоритм не иделальный, но быстрый.<br>

# NP задачи

**NP** - nonlinear polynomial<br>
**NP-полная задача** - нет быстрых алгоритмов для их решения (задача коммивояжера).<br>
Несколько характерных **признаков** NP-полных задач:<br>
- ваш алгоритм быстро работает при малом количестве элементов, но сильно замедляется при увеличении их числа;<br>
- вам приходится вычислять все возможные варианты Х, потому что задачу невозможно разбить на меньшие подзадачи<br>

Если у вас имеется NР-полная задача, лучше всего воспользоваться приближенным алгоритмом.

# Динамическое программирование

**Динамическое программирование** - метод решения сложных задач, разбиваемых на подзадачи, которые решаются в первую очередь<br>
Пример, расчет числа Фибоначчи

Динамическое программирование применяется для оптимизации какой-либо характеристики при заданных ограничениях.<br>
Динамическое программирование работает только в ситуациях, в которых задача может быть разбита на автономные подзадачи, не зависящие друг от друга.<br>
Не существует еди ной формул ы для вычислен ия решений методом ди намического программирования

Отличие от метода разделяй и властвуй - то что там подзадачи не перекрываются, а в дин программировании они часто зависят друг от друга.

Пример, найти самую длинную общую подпоследовательность. Насколько похожи **цепочки ДНК**?<br>
**Расстояние Левенштейна** оценивает, насколько похожи две строки, а для его вычисления применяется динамическое программирование.<br>

Пример, что положить в рюкзак весом 4 фунта для макс стоимости?<br>
Есть гитара (1 фунт - 1500$), магнитофон (4 фунта - 3000$), ноутбук (3 фунта - 2000$)<br>
Строим табличку подрюкзаков и что в них можно поместить<br>
**Предмет      1 фунт 2 фунта 3 фунта 4 фунта**<br>
**Гитара**     1500 1500 1500 1500<br>
**Магнитофон** 1500 1500 1500 3000<br>
**Ноутбук**    1500 1500 2000 3500<br>
На каждом уровне определяем самое выгодное наполнение для рюкзака

# Число Фибоначчи

In [5]:
#самый простой рекурсивный случай
def fib(n):
    if n == 0:
        return 0
    elif n == 1:
        return 1
    else:
        return fib(n-1) + fib(n-2) 

In [6]:
#создадим свой кеш
cache={}

def fib2(n):
    if n not in cache:
        cache[n]= n if n<=1 else fib2(n-1) + fib2(n-2)
    return cache[n]

fib2(8)

21

In [7]:
#создаем декоратор для кеширования (позволяет защитить наш кеш от стороннего вмешательства)
def memoize(f):
    cache = {}
    def inner(x):
        if x not in cache:            
            cache[x] = f(x)
        return cache[x]
    return inner
    

def fib(n):
    if n == 0:
        return 0
    elif n == 1:
        return 1
    else:
        return fib(n-1) + fib(n-2)

fib3 = memoize(fib)

print(fib3(40))

102334155


In [9]:
#кеш из библиотеки
from functools import lru_cache

@lru_cache(None)
def fib4(n):
    if n == 0:
        return 0
    elif n == 1:
        return 1
    else:
        return fib(n-1) + fib(n-2)
    
fib4(40)

102334155

In [10]:
#решение циклом

def fib5(n):
    a1, a2 = 0, 1
    for i in range(n-1):
        a1, a2 = a2, a1+a2
    return a2
fib5(40)

102334155