# Грокаем алгоритмы

In [122]:
import webbrowser
book_url = 'https://drive.google.com/file/d/1w0mEfidcZz0ISJedgOI6mHTE8zm05jb7/view?usp=sharing'
webbrowser.open(book_url)

True

## Глава 2: Сортировка выбором [ O (n*n) ]

### Поиск наименьшего элемента массива

In [4]:
def find_smallest(arr):
    smallest = arr[0]
    smallest_index = 0
    for i in range(1, len(arr)):
        if arr[i] < smallest:
            smallest = arr[i]
            smallest_index = i
    return smallest_index

In [5]:
def selection_sort(arr):
    new_arr =  []
    for i in range(len(arr)):
        smallest_index = find_smallest(arr)
        new_arr.append(arr.pop(smallest_index))
    return new_arr

In [6]:
print(selection_sort([7, 2, -1, 17, 4,]))

[-1, 2, 4, 7, 17]


## Глава 3: Рекурсия

### Базовый и рекурсивный случаи

In [9]:
def countdown(i):
    print(i, end=' ')
    if i <= 0: # базовый случай
        return None
    else: # рекурсивный случай
        countdown(i-1)

In [10]:
countdown(25)

25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 

### Стек вызовов

In [12]:
def greet(name): 
    print("Hello, " + name + "!") # Вторая позиция занимается и освобождается (по выполнении) функцией print()
    greet2(name) # Вторая позиция занимается функцией greet2() с переменной name 
    # Вторая позиция освобождена
    print("Getting ready to say bye...") # Освободившуюся вторую позицию занимает и освобождает функция  print()
    bye() # Вторая позиция занимается функцией bye() без переменных

In [13]:
def greet2(name):
    print("How are you, " + name + "?") # Третья позиция занимается и освождается функцией print()

def bye():
    print("Ok bye!") # Третья позиция снова занимается и освождается функцией print()

In [14]:
greet("yura") # Первая позиция: функция greet() с переменной name="yura" (выделяем память) 
# Стек  освобождается

Hello, yura!
How are you, yura?
Getting ready to say bye...
Ok bye!


### Рекурсивные функции и стек вызовов

In [16]:
def fact(x):
    if x == 1:
        return 1
    else: # Каждый вызов создает собственную копию x
        return x * fact(x-1) # return 3 * fact(2)
                             # fact(2) = 2 * fact(1)
                             # fact(1) = 1

In [17]:
fact(3)

6

## Глава 4: Быстрая сортировка 

### Рекурсивная сумма элементов списка

In [20]:
def rec_sum(arr):
    if len(arr) == 1:
        return arr[0]
    else:
        return arr.pop() + rec_sum(arr)

In [21]:
assert rec_sum([1,2,3,4,5,6,7,8]) == sum([1,2,3,4,5,6,7,8]) # Equal

### Рекурсивный подсчет элементов списка

In [23]:
def rec_len(arr):
    if len(arr) == 1:
        return 1
    else:
        del arr[-1]
        return 1 + rec_len(arr)

In [24]:
assert rec_len([1,2,3,4,5,6,7,8]) == len([1,2,3,4,5,6,7,8]) # Equal

In [25]:
def rec_max(arr):
    if len(arr) == 1:
        return arr[0]
    else:
        return max(arr.pop(), rec_max(arr))

In [26]:
assert rec_max([1,2,3,4,5,6,7,8]) == max([1,2,3,4,5,6,7,8]) # Equal

### Рекурсивная быстрая сортировка

In [44]:
def quick_sort(arr):
    if len(arr) < 2:
        return arr # базовый случай
    else:
        pivot_elem = arr[0]  # O(n*log(n))
        less = [i for i in arr[1:] if i <= pivot_elem]
        greater = [j for j in arr[1:] if j > pivot_elem] # we've got inf loop
                                                         #   without [1:] in arr
        return quick_sort(less) + [pivot_elem] + quick_sort(greater)

In [46]:
assert quick_sort([10, 5, 11, 2]) == [2, 5, 10, 11]

## Глава 5: Хэш-таблицы

In [48]:
voted = {}
def check_voter(name):
    if voted.get(name):
        print("Kick them out!")
    else: # dict is faster then list! O(1) vs O(n)
        voted[name] = True
        print("Let them vote!")

#### Коэффициент заполнения хэш-таблицы: 

In [63]:
# (количество элементов в таблице)/(общее количество элементов)

#### Хорошая хэш-функция обеспечивает равномерное распределение значений в таблице

## Глава 6: Поиск в ширину

#### Поиск минимального количества сегментов - для *невзвешенных* графов

In [None]:
# Граф - модель набора связей

In [60]:
graph = {} # реализация графа с помощью хэш-таблиц
graph['you'] = ['alice', 'bob', 'claire']

In [61]:
graph['bob'] = ['anuj', 'peggy']
graph['alice'] = ['peggy']
graph['claire'] = ['thom', 'johny']
graph['anuj'] = []  # направленный граф - отношения действуют только в одну сторону 
graph['peggy'] = []
graph['thom'] = []
graph['johny'] = []

In [62]:
graph

{'alice': ['peggy'],
 'anuj': [],
 'bob': ['anuj', 'peggy'],
 'claire': ['thom', 'johny'],
 'johny': [],
 'peggy': [],
 'thom': [],
 'you': ['alice', 'bob', 'claire']}

In [57]:
from collections import deque  # импорт очереди - структуры по типу First In - First Out (FIFO) 

In [74]:
def search(name):
    search_queue = deque()  # создание очереди
    search_queue += graph[name]
    searched = []  # список проверенных людей
    while search_queue:  # пока очередь не пуста
        person = search_queue.popleft()  # извлекается первый человек 
        if not person in searched:
            if person_is_seller(person):  # проверка на продавца манго
                print(person, 'is mango seller!')
                return True
            else:
                search_queue += graph[person]
                searched.append(person)
    return False

In [77]:
def person_is_seller(name):
    return name == 'claire'

In [78]:
search('you')  # время выполнения: О(V + E), V - кол-во вершин, E - кол-во ребер

claire is mango seller!


True

## Глава 7: Алгоритм Дейкстры 

#### Поиск самого быстрого пути - для *взвешенных* графов

In [80]:
# Необходимо найти узел с наименьшей стоимостью;
# Обновить стоимости соседей этого узла;
# Повторять, пока не будет сделано для всех узлов;
# Вычислить итоговый путь.

#### Алгоритм Дейкстры не работает с отрицательным весом!

In [92]:
graph = {}

graph['start'] = {}
graph['start']['a'] = 6
graph['start']['b'] = 2

graph['a'] = {}
graph['a']['fin'] = 1
graph['b'] = {}
graph['b']['a'] = 3
graph['b']['fin'] = 5
graph['fin'] = {}

In [93]:
infinity = float('inf')
costs = {}
costs['a'] = 6
costs['b'] = 2
costs['fin'] = infinity

In [94]:
parents = {}
parents['a'] = 'start'
parents['b'] = 'start'
parents['fin'] = None

In [95]:
processed = []

In [96]:
def find_lowest_cost_node(costs):
    lowest_cost = float('inf')
    lowest_cost_node = None
    for node in costs:
        cost = costs[node] # (6, 2, inf)
        if cost < lowest_cost and node not in processed:  
            lowest_cost = cost  # update lowest cost
            lowest_cost_node = node
        return lowest_cost_node

In [97]:
node = find_lowest_cost_node(costs) # узел с наименьшей стоимостью
while node is not None:
    cost = costs[node]
    neighbors = graph[node]
    for n in neighbors.keys():  # перебор всех соседей узла
        new_cost = cost + neighbors[n]
        if costs[n] > new_cost:  #  если прохождение через этот узел быстрее, ...
            costs[n] = new_cost  #      обновляем стоимость узла
            parents[n] = node  #  узел становится новым родителем для соседа
    processed.append(node)  #  узел помечается как обработанный
    node = find_lowest_cost_node(costs)  #  переходим к следующему узлу

## Глава 8: Жадные алгоритмы

In [100]:
# На каждом шаге жадный алгоритм выбирает оптимальный вариант;
# Совокупность локально-оптимальных решений приводит... 
#     к достаточно хорошему глобально-оптимальному результату.

In [None]:
# Приближенный алгоритм используется, 
#     когда вычисление точного решения занимет слишком много времени;
#
# Эффективность приближенного алгоритма оценивается по:
#     - быстроте;
#     - близости решения к оптимальному.

In [107]:
states_needed = set(['mt', 'wa', 'or', 'id',   #  список -> множество
                     'nv', 'ut', 'ca', 'az'])

In [108]:
stations = {}  # ключи - названия станций; значения - штаты
stations['kone'] = set(['id', 'nv', 'ut'])
stations['ktwo'] = set(['wa', 'id', 'mt'])
stations['kthree'] = set(['or', 'nv', 'ca'])
stations['kfour'] = set(['nv', 'ut'])
stations['kfive'] = set(['ca', 'az'])

In [109]:
final_stations = set()  # итоговый набор данных хранится здесь

In [113]:
while states_needed:
    best_station = None  # станция, которая обслуживает больше всего штатов
    states_covered = set()  # штаты станции, не входящие в покрытие
    for station, states_for_station in stations.items():
        covered = states_needed & states_for_station  # пересечение множеств
        if len(covered) > len(states_covered):
            best_station = station
            states_covered = covered
    states_needed -= states_covered
    final_stations.add(best_station)

print(final_stations)

{'kfive', 'kthree', 'ktwo', 'kone'}


In [114]:
# Поиск в ширину - жадный алгоритм;
# Алгоритм  Дейкстры - тоже!

# А вот быстрая сортировка - нет.

### NP-полные задачи

#### Для решения NP-полной задачи необходимо использовать приближенный алгоритм

In [117]:
# Признаки NP-полной задачи:
#     - алгоритм сильно замедляется при росте количества элементов;
#     - присутствует формулировка "все комбинации X";
#     - задачу невозможно разбить на меньшие подзадачи;
#     - в задаче встречается последовательность, и она не имеет простого решения
#     - в задаче встречается множество, и она не имеет простого решения
#     - задачу можно переформулировать в условиях известных NP-полных задач
#            (таких, как задача о покрытии множества или задача о коммивояжере)

## Глава 9: Динамическое программирование

In [None]:
# Динамическое программирование оптимизирует характеристику 
#     при заданных ограничених.
#         - Задача может быть разбита на автономные подзадачи;
#         - Автономные подзадачи не зависят друг от друга.

In [None]:
# Рекомендации:
#     в каждом решении строится таблица;
#     значения ячеек соответствуют оптимизированной характеристике;
#     каждая ячейка представляет подзадачу.

In [None]:
# Не существует едидной формулы 
#     для вычисления решений методом динамического программирования.

## Глава 10: Алгоритм k-ближайших соседей

In [61]:
# Принцип работы:
#     - Получаем объект для классификации;
#     - Проверяем признаки ближайших к нему объектов;
#     - Определяем объект по наиболее схожим ближайшим объектам.

In [None]:
# Извлечение признаков - преобразование элемента в список чисел, 
#     использующихся для сравнения.

In [None]:
# Классификация - распределение по категориям;
# Регресссия - прогнозирование ответа.

#### Близость косинусов

In [None]:
# Вместо сравнения расстояния (не самая точная оценка) можно использовать
#        сравнение углов двух векторов - об этом стоит почитать!

In [None]:
# Во время работы с алгоритмом k-ближайших соседей
#     необходимо правильно выбрать признаки для сравнения:
#         - признаки, напрямую связанные с рекомендуемой характеристикой;
#         - признаки, не содержащие смещения.

#### Практическое правило: для N пользователей рассматриваем sqrt(N) соседей.

### Оптическое распознавание текста

In [5]:
# Компьютер автоматически преобразует изображение в текст.

In [6]:
# Тренировка - перебор изображения и извлечение признаков.

### Спам-фильтры

In [8]:
# Наивный классификатор Байеса оценивает вероятность 
#     отношения объекта к группе классификации (например, к спаму).

## Что дальше?

### Деревья

In [11]:
# Для каждого узла все узлы левого поддерева содержат меньшие значеня,
#     а все узлы правого поддерева - большие значения.

In [None]:
# Поск, вставка и удаление в бинарном дереве 
#     в среднем выполняется за время O(log n).

In [None]:
# Бинарные деревья не поддерживают произвольный доступ;
# Эффективность дерева зависит от сбалансированности.

In [None]:
# B-деревья используются для хранения информации в базах данных;
# Также есть:
#     - Красно-черные деревья;
#     - Кучи;
#     - Скошенные (splay) деревья.

### Инвертированные индексы

In [None]:
# Инвертированный индекс - хэш-таблица, связывающая слова с местами,
#     в которых слова встречаются;

# Интвертированные индексы часто используются в поисковых системах.

### Преобразование Фурье

In [14]:
# 'Если есть коктейль, алгоритм Фурье сообщает, 
#     из каких ингридиентов он состоит'

### Параллельные алгоритмы 

In [16]:
# Чтобы ускорить алгоритм, необходимо выполнять его параллельно 
#     на всех ядрах процессора.

In [17]:
# Алгоритм сортировки работает за время О(n log n).
# Но с параллельным алгоритмом время уменьшается до O(n)!

In [None]:
# Почему выигрыш по времени не линеен:
#     - Затрачиваются ресурсы на управление параллелизмом;
#     - Нагрузка между ядрами распределяется неравномерно.

### Map Reduce

In [19]:
# MapReduce - один из распределенных алгоритмов, 
#     разновидности параллельных алгоритмов.


In [21]:
# Распределенный алгоритм способен применить сложный SQL-запрос
#     к таблице с триллионами записей

In [22]:
# В основе MapReduce лежат две простые идеи:
#     - функция map;
#     - функция reduce.

#### Функция map

In [31]:
arr1 = [1, 2, 3, 4, 5] # функция map принимает массив
arr2 = map(lambda x: 2 * x, arr1) # и применяет функцию к каждому его элементу
list(arr2)

[2, 4, 6, 8, 10]

#### Функция reduce

In [35]:
from functools import reduce
arr1 = [1, 2, 3, 4, 5] # функция reduce также принимает массив
reduce(lambda x, y: x+y, arr1) # и преобразует его в один элемент

15

### Вероятностные алгоритмы

#### Фильтры Блума

In [37]:
# Фильтры Блума - вероятностные структуры данных. 
#     Ответ может оказаться ложным, но с большей вероятностью будет верным.

In [None]:
# Возможны ложно-положительные срабатывания;
# Ложно-отрицательные срабатывания исключены;
# Фильтры Блума занимают очень мало места.

#### HyperlogLog

In [39]:
# HyperLogLog аппроксимирует количество уникальных элементов в множестве;
# В результате он быстро выдает достаточно близкий результат.

### Алгоритмы SHA

In [54]:
# SHA-алгорит (Secure Hash Algorithm) получает строку 
#     и возвращает хеш-код этой строки (он длинный)

In [40]:
# Алгоритм SHA позволяет определить, совпадают ли два файла;
# У одинаковых файлов одинаковые значения хеш-функции!

In [43]:
# Пароли в БД также хранятся в виде SHA-кода (с односторонним хешированием);
# Сравниваются же хеш-коды - без хранения самих паролей!

### Локально-чувствительное хеширование

In [55]:
# Локально-чувствительная функция при незначительном изменении строки
#     генеририует хеш-код, почти не отличающийся от исходного;

# Благодаря сравнению хеш-кодов можно определять сходство двух строчек.

In [None]:
# Такое хеширование реализует алгоритм Simhash.

### Обмен ключами Диффи-Хеллмана

In [56]:
# Алгоритм Диффи-Хеллмана позволяет элегантно зашифровать сообщение так,
#     чтобы его мог прочитать только тот человек, кому оно адресовано.

In [57]:
# Алгоритм Диффи-Хеллмана подразумевает:
#     - знание шифра обеими сторонами не обязательно;
#     - расшифровать зашифрованные сообщения чрезвычайно сложно.

In [58]:
# Алгоритм использует два ключа: открытый и закрытый;
# Открытый ключ известен обеим сторонам, и он может быть даже публичным;
# Отправленное сообщение шифруется с помощью открытого ключа.

# Зашифрованное сообщение можно расшифровать только с закрытым ключом;
# Закрытый ключ может быть только у одного владельца!

In [59]:
# Алгоритм RSA - наследник алгоритма Диффи-Хеллмана

### Линейное программирование

In [51]:
# Линейное программирование используется для максимизации 
#     некоторой характеристики при заданных ограничениях.

In [52]:
# Задачи с графами - подмножество области линейного программирования.

In [None]:
# В линейном программировании используется симплекс-метод.

## Эпилог

###### Найдите тему, которая интересует вас, и изучайте ее!