# Коды из книги "Грокаем алгоритмы" (Адитья Бхаргава)

# 1 глава - Алгоритм Бинарный поиск

In [3]:
# Алгоритм - набор инструкций для решения некоторой задачи
# Бинарный поиск работает намного быстрее простого
# Каждый раз исключается половина чисел
# Работает только в том случае, если список отсортирован

# Скорость алгоритмов не измеряется в секундах
# Время выполнения алгоритма описывается ростом кол-ва операций и выражается как "О-большое"
# Время выполнения О(log n) быстрее О(n), а с увеличением размера списка, оно становится намного быстрее

# Функция binary_search получает отсортированный массив и значение.
# Если значение присутствует в массиве, то функция возвращает его позицию.
# При этом мы должны следить за тем, в какой части массива проводится поиск.
# В начале это весь массив:

def binary_search(list, item):
    low = 0                     # в переменных low и high хранятся границы той части списка, в которой выполняется поиск
    high = len(list) - 1

    while low <= high:           # пока эта часть не сократится до 1 элемента
        mid = (low + high) // 2    # проверяем средний элемент
        guess = list[mid]
      
        if guess == item:         # значение найдено
        return mid
        if guess > item:          # много
        high = mid - 1
        else:                     # мало
        low = mid + 1
    return None                 # значение не существует

my_list = [1, 3, 5, 7, 9]       # а теперь протестируем функцию!
print(binary_search(my_list, 3))
print(binary_search(my_list, -1))

1
None


In [7]:
# Упражнение 1
# Какое максимальное кол-во проверок потребуется для списка из 128 имен методом бинарного поиска?

import math
math.log2(128)

# Ответ  - 7

7.0

In [9]:
# Упражнение 2
# А если список увеличился вдвое?

math.log2(256)

# Ответ  - 8

8.0

# 2 глава - Алгоритм Сортировка выбором

In [1]:
# Работает легко (проверяет все элементы в списке), но медленно

# Выполним сортировку массива по возрастанию
# Напишем функцию для поиска наименьшего элемента массива:

def findSmallest(arr):
    smallest = arr[0]          # для хранения наименьшего значения
    smallest_index = 0         # для хранения индекса наименьшего значения
    for i in range(1, len(arr)):
        if arr[i] < smallest:
            smallest_index = i
            smallest = arr[i]      
    return smallest_index

# Теперь на основе этой функции можно написать функцию сортировки выбором:

def selectionSort(arr):         # сортирует массив
    newArr = []
    for i in range(len(arr)):   # находит наименьший элемент в массиве и добавляет его в новый массив
        smallest = findSmallest(arr)
        newArr.append(arr.pop(smallest))
    return newArr

print(selectionSort([5, 3, 6, 2, 10]))

[2, 3, 5, 6, 10]


# 3 глава - Рекурсия 
Метод программирования, используемый во многих алгоритмах

In [5]:
# Рекурсивная функция для обратного отсчета:

def countdown(i):
    print(i)
    if i <= 0:      # базовый случай (чтобы предотвратить зацикливание)
        return 
    else:           # рекурсивный случай (функция вызывает сама себя)
        countdown(i-1)
    
countdown(5)

5
4
3
2
1
0


In [None]:
# Рекурсивная функция для поиска ключа от коробки:

box = [1,3,5,7,9]

def look_for_key(box):
    for item in box:
        if item.is_a_box:
            look_for_key(item)
        elif item.is_a_key():
            print('found the key!')

look_for_key(5)

# Надо обьявить класс

In [1]:
# Задача 10 из ДЗ по функциям

# Рекурсивная функция, которая считает сумму последовательности с шагом m. 
# В качестве аргументов подаются целые положительные числа n (последний элемент последовательности) 
# и m (шаг последовательности)
# Считается, что все члены последовательности являются целыми положительными числами

def sum_of_seq(n, m):
    if n >= 0:
        return n + sum_of_seq(n - m, m)
    else:
        return 0
print(sum_of_seq(5, 1)) 

# для проверки - 5,1 = 15, 5,9 = 5, 8,2 = 20

15


In [2]:
# Задача 11 из ДЗ по функциям

# Рекурсивная функция, которая возводит число в положительную степень
# В качестве аргументов подаются целые положительные числа n (число) и m (степень)

def power(n, m):
    if m == 0:
        return 1
    elif m % 2 == 1:
        return n * power(n, m - 1)
    else:
        return power(n, m // 2) ** 2
print(power(5, 2)) 

25


In [3]:
# Задача 12 из ДЗ по функциям

# Рекурсивная функция, которая возводит число в отрицательную степень
# В качестве аргументов подаются целое положительное число n (число) и целое отрицательное число m (степень)

def power (n, m):
    if m == 0:
        return 1 
    else:
        return (1.0 / n) * power(n, m + 1) 
print(power(5, -2))


0.04000000000000001


In [4]:
# Задача 13 из ДЗ по функциям

# рекурсивная функция, которая находит число Фиббоначи по его номеру
# В качестве аргумента подается целое положительное число n (число)

def fib(n):
    if n == 0 or n == 1:
        return n
    else:
        return fib(n - 2) + fib(n - 1)
print(fib(6))

# 0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144 - последовательность Фибоначчи

8


In [5]:
# Рекурсивная функция для вычисления факториала числа (Шандринов):

def factorial(n):
    if n == 0 or n == 1:
        return 1
    else:
        return n * factorial(n - 1)
    
factorial(5)

120

In [2]:
# Вычисление суммы последовательности чисел с помощью цикла:

n = 5
m = 0
for i in range(1, n + 1):
    m += i 
print(m)


15


In [4]:
# Вычисление суммы последовательности чисел с помощью цикла и функции:
n = 6
def summ(n):
    m = 0
    for i in range(1, n + 1):
        m += i 
    return m
summ(n)

# Зачем здесь функция, если можно и без нее? (пример выше)

21

In [16]:
# Рекурсивная функция для вычисления суммы последовательности чисел (Шандринов):

def recursion(n):
    if n == 1:
        return 1
    else:
        return n + recursion(n - 1)
    
recursion(5)

15

In [10]:
# Упражнение 1 - Рекурсивная функция для вычисления суммы последовательности чисел (по принципу "Разделяй и властвуй"):

list = [1, 2, 3, 4, 5]

def summ(list):
    if list == []:
        return 0
    return list[0] + summ(list[1:])

summ(list)

15

In [12]:
# Упражнение 2 - рекурсивная функция для подсчета элементов в списке (по принципу "Разделяй и властвуй"):

list = [1, 2, 3, 4, 5]

def count_elem(list):
    if list == []:
        return 0
    return 1 + count_elem(list[1:])

count_elem(list)

# не особо поняла, чем отличается от предыдущей?

5

In [13]:
# Упражнение 3 - рекурсивная функция для нахождения наибольшего числа в списке (по принципу "Разделяй и властвуй"):

list = [1, 2, 3, 4, 5]

def max_num(list):
    if len(list) == 2:  
        return list[0] if list[0] > list[1] else list[1]
    sub_max = max_num(list[1:])
    return list[0] if list[0] > sub_max else sub_max

max_num(list)

# 3-я строка - тоже самое, что и:

#         if list[0] > list[1]:
#             a = list[0]
#         else a = list[1]

5

In [14]:
# задача 1 из ДЗ по циклам:
# Создадим переменную, в которой будем хранить максимум
# Итерируя по списку входных значений, сравним максимум с каждым элементом
# В случае, если элемент оказался больше максимума, присвоим данной переменной новое значение

x = input("Введите число").split(',')
My_max = int(x[0]) # чтобы можно было работать с отрицательными числами
for number in x:
    number = int(number)
    if number > My_max:
        My_max = number
print(My_max)


Введите число-1, -2, -3
-1


# 4 глава - Алгоритм Быстрая сортировка

In [1]:
# Принцип "Разделяй и властвуй" - известный рекурсивный метод решения задач
# Основан на разбиении задачи на уменьшающиеся фрагменты
# 2 шага:
# 1 - Сначала определяется базовый случай
# Это должен быть простейший случай из всех возможных (если массив - то пустой или состоящий из 1 элемента)
# 2 - Задача делится или сокращается до тех пор, пока не будет сведена к базовому случаю

# Алгоритм Быстрая сортировка основан на стратегии "Разделяй и властвуй"
# В качестве опорного выбирайте случайный элемент
# Быстрая сортировка работает намного быстрей сортировки выбором и быстрее сортировки слиянием

# Пустые масссивы и массивы, содержащие всего 1 элемент, станут базовым случаем.
# Такие массивы можно просто возвращать в исходном виде - сортировать ничего не нужно:

def quicksort(array):
    if len(array) < 2:
        return array
    else:
        pivot = array[0]                                   # Рекурсивный случай
        less = [i for i in array[1:] if i <= pivot]        # Подмассив всех элементов, меньших опорного
        greater = [i for i in array[1:] if i > pivot]      # Подмассив всех элементов, больших опорного
    return quicksort(less) + [pivot] + quicksort(greater)

print(quicksort([10, 5, 2, 3]))

# Квадратные скобки? Массивы так создаются?

[2, 3, 5, 10]


# 5 глава - Хеш-таблицы (словари)

In [2]:
# Обеспечивают быстрое выполнение операций (поиска, вставки и удаления)
# Хорошо подходят для:
# 1 - моделирования отношений между объектами
# 2 - кэширования данных (на веб-серверах)
# 3 - для обнаружения дубликатов

# Исключение дубликатов:

voted = {}                        # Создадим словарь для хранения инфо об уже проголосовавших людях
def check_voter(name):
    if voted.get(name):           # Проверяем, присутствует ли имя пришедшего голосовать в словаре
        print("kick them out!")
    else:
        voted[name] = True
        print("let them vote!")

check_voter("tom")
check_voter("mike")
check_voter("mike")

let them vote!
let them vote!
kick them out!


# 6 глава - Алгоритм Поиск в ширину

In [3]:
# Поиск в ширину - алгоритм, который применяется к графам для получения ответов на вопросы вида:
# "Какой кратчайший путь ведет к Х?"
# Находит путь с минимальным кол-вом сегментов

# Граф - абстрактная структура данных
# Граф моделирует набор связей
# Граф - всего лишь набор узлов и ребер

from collections import deque

def person_is_seller(name):          # Эта функция проверяет, заканчивается ли имя на букву "м"
      return name[-1] == 'm'         # Если да, то человек считается продавцом манго

graph = {}
graph["you"] = ["alice", "bob", "claire"]
graph["bob"] = ["anuj", "peggy"]
graph["alice"] = ["peggy"]
graph["claire"] = ["thom", "jonny"]
graph["anuj"] = []
graph["peggy"] = []
graph["thom"] = []
graph["jonny"] = []

def search(name):
    search_queue = deque()                # Дек - двусторонняя очередь, создается функцией deque 
    search_queue += graph[name]           # Все соседи добавляются в очередь поиска
    searched = []                         # Массив для отслеживания уже проверенных людей
    while search_queue:                   # Пока очередь не пуста
        person = search_queue.popleft()   # Из очереди извлекается первый человек
        if person not in searched:        # Человек проверяется только если он не проверялся ранее
            if person_is_seller(person):  # Если человек является продавцом манго
                print(person + " is a mango seller!") # Печатаем: Да, это продавец манго!
                return True
            else:
                search_queue += graph[person]    # Если нет, все друзья этого человека добавляются в очередь поиска
                searched.append(person)          # Человек помечается, как уже проверенный
    return False

search("you")

thom is a mango seller!


True

# 7 глава - Алгоритм Дейкстры

In [5]:
# Алгоритм Дейкстры позволяет получить ответ на вопрос "Как выглядит кратчайший путь для Х?" для взвешенных графов
# Находит самый быстрый путь

# Взвешенный граф - граф с весами
# Вес - число, которое связывается с графом
# Не используется при наличии ребер, имеющих отрицательный вес
# Для этого есть алгоритм Беллмана-Форда

# 4 шага: 
# 1 - найти узел с наименьшей стоимостью
# 2 - Обносить стоимости соседей этого узла
# 3 - Повторять, пока это не будет сделано для всех узлов графа
# 4 - Вычислить итоговый путь

# Нам понадобятся 3 словаря

graph = {}                        # Сначала реализуем граф

graph["start"] = {}               # Сохраняем, как соседей, так и стоимость перехода к соседу
graph["start"]["a"] = 6
graph["start"]["b"] = 2

graph["a"] = {}                   # Включаем в граф остальные узлы и их соседей
graph["a"]["fin"] = 1

graph["b"] = {}
graph["b"]["a"] = 3
graph["b"]["fin"] = 5

graph["fin"] = {}                 # У конечного узла нет соседей


infinity = float("inf")           # Если стоимсоть неизвестна, она считается бесконечной

costs = {}                        # Создаем таблицы стоимостей
costs["a"] = 6
costs["b"] = 2
costs["fin"] = infinity

parents = {}                      # Для родителей также создается отдельная таблица
parents["a"] = "start"
parents["b"] = "start"
parents["fin"] = None

processed = []                    # Массив для отслеживания уже обработанных узлов


def find_lowest_cost_node(costs):
    lowest_cost = float("inf")
    lowest_cost_node = None
    for node in costs:                                     # Перебрать все узлы
        cost = costs[node]
        if cost < lowest_cost and node not in processed:   # Если это узел с наименьшей стоимостью из уже увиденных 
                                                           # и он еще не был обработан
            lowest_cost = cost                             # он назначается новым узлом с наименьшей стоимостью
            lowest_cost_node = node
    return lowest_cost_node

# Что вызывать здесь??

find_lowest_cost_node(costs)

'b'

In [6]:
# Код без функции:

node = find_lowest_cost_node(costs)     # Найти узел с наименьшей стоимостью среди необработанных
while node is not None:                 # Если обработаны все узлы, цикл while завершен
    cost = costs[node]                  # Получить стоимость и соседей этого узла
    neighbors = graph[node]
    for n in neighbors.keys():          # Перебрать всех соседей текущего узла
        new_cost = cost + neighbors[n]  
        if costs[n] > new_cost:         # Если к соседу можно быстрее добраться через текущий узел
            costs[n] = new_cost         # Обновить стоимость для этого узла
            parents[n] = node           # Этот узел становится новым родителем для соседа
    processed.append(node)              # Узел помечается, как обработанный
    node = find_lowest_cost_node(costs) # Найти следующий узел для обработки и повторить цикл

print("Cost from the start to each node:")
print(costs)

Cost from the start to each node:
{'a': 5, 'b': 2, 'fin': 6}


# 8 глава - Жадные алгоритмы

In [None]:
# NP-полные задачи - задачи, не имеющие быстрого алгоритмического решения
# Приближенные алгоритмы - используются для быстрого нахождения решения NP-полных задач
# Пример - задача о покрытии множества и задача о коммивояжере

# Жадные алгоритмы легко реализуются и быстро выполняются, поэтому из них получаются 
# хорошие приближенные алгоритмы
# Жадные алгоритмы стремятся к локальной оптимизации в расчете на то, что в итоге будет достигнут глобальный оптимум
# Пример - задача составления расписания
# Пример, где не работает - задача о рюкзаке (не дает оптимального решения, но! иногда достсточно алгоритма,
# способного решить задачу "достаточно хорошо")

# Код для задачи о покрытии множества (про радиостанции):
# Жадный алгоритм, выдающий результат, близкий к оптимуму:
# 1 - Выбрать станцию, покрывающую наибольшее кол-во штатов, еще не входящих в покрытие
# Если станция будет покрывать некоторые штаты, уже входящие в покрытие, это нормально
# 2 - Повторять, пока остаются штаты, не входящие в покрытие

states_needed = set(["mt", "wa", "or", "id", "nv", "ut", "ca", "az"])   # Сначала составим список штатов

stations = {}                                    # Составим список станций, из которого будет выбираться покрытие
stations["kone"] = set(["id", "nv", "ut"])
stations["ktwo"] = set(["wa", "id", "mt"])
stations["kthree"] = set(["or", "nv", "ca"])
stations["kfour"] = set(["nv", "ut"])
stations["kfive"] = set(["ca", "az"])

final_stations = set()                           # Множество для хранения итогового набора станций

while states_needed:              # Цикл продолжается, пока множество states_needed не станет пустым
    best_station = None
    states_covered = set()
    for station, states_for_station in stations.items():   # Цикл перебираетвсе станции и находит среди них наилучшую
        covered = states_needed & states_for_station       # Множество штатов, не входящих в покрытие, 
                                                           # которые покрываются текущей станцией
    if len(covered) > len(states_covered):                 # Если условие выполняется
        best_station = station                             # то станция сохраняется в best_station
        states_covered = covered

        states_needed -= states_covered    # Обновляем содержимое states_needed - 
                                           # те штаты, которые входят в зону покрытия, больше не нужны
        final_stations.add(best_station)   # После завершения цикла best_station добавляется в итоговый список станций

print(final_stations)

# 9 глава  - Динамическое программирование

In [None]:
# Метод решения сложных задач, разбиваемых на подзадачи, которые решаются в первую очередь
# Применяется для оптимизации какой-либо характеристики при заданных ограничениях

# Пример - задача о рюкзаке - требуется максимизировать стоимость отобранных предметов
# с ограничениями по ёмкости рюкзака (сначала решить задачу для "подрюкзака")

# Работает только если задача может быть разбита на автономные подзадачи, не зависящие друг от друга
# в каждом решении строится таблица
# значения ячеек таблицы обычно соответствуют оптимизируемой характеристике
# каждая ячейка представляет подзадачу, поэтому вы должны подумать о том, как разбить задачу на подзадачи
# не существует единой формулы для вычисления решений

# Самая длинная общая подстрока (нужно предположить, какое слово имелось ввиду - fish и hish)

if word_a[i] == word_b[j]:                   # Буквы совпадают
    cell[i][j] = cell[i-1][j-1] + 1          # Буквы не совпадают
else:
    cell[i][j] = 0

In [None]:
# Самая длинная общая последовательность (fish и fosh)

if word_a[i] == word_b[j]:                   # Буквы совпадают
    cell[i][j] = cell[i-1][j-1] + 1          # Буквы не совпадают
else:
    cell[i][j] = max(cell[i-1][j], cell[i][j-1])

# 10 глава - Алгоритм k-ближайших соседей

Применяется для классификации и регрессии

Классификация  = распределение по категориям

Регрессия = прогнозирование результата (построение рекомендательной системы)

Извлечение признаков - это преобразование элемента в список чисел, которые могут использоваться для сравнения

Качественный выбор признаков - важная часть успешного алгоритма k-ближайших соседей

# Все алгоритмы, которые прошли:

* бинарный поиск

* сортировка выбором

* быстрая сортировка (стратегия "Разделяй и властвуй" - рекурсивный метод решения задач)

* поиск в ширину (прим. к графам)

* алгоритм Дейкстры (прим. ко взвешенным графам)

* жадные алгоритмы (приближенные)

* динамическое программирование

* алгоритм k-ближайших соседей


# 11 глава - еще 10 алгоритмов

 * **Бинарное дерево поиска** - как бинарный поиск, только имя пользователя вставляется в правильную ячейку массива,
 чтобы не пришлось сортировать заново

* **Инвертированные индексы** - хеш-таблица, связывающая слова с местами, в которых эти слова встречаются
 часто используется для построения поисковых систем
 

* **Преобразование Фурье** - элегантный алгоритм, имеющий миллион применений
 Если у вас есть коктейль, пр. Фурье сообщает, из каких ингридиентов он состоит
 подходит для сжатия музыки и графики, шазам, прогнозирования землятресений, анализа ДНК и др.
 

* **Параллельные алгоритмы** - чтобы алгоритм работал быстрее, его преобразовывают в форму,
 подходящую для параллельного выполнения сразу на всех ядрах
 

* **Распределенные алгоритмы** - одна из разновидностей параллельных алгоритмов
 Алгоритм MapReduce - когда нужно не несколько ядер, а сотни ядер
 Используется, когда нужно выполгить большой объем работы и сократить время ее выполнения
 В основе лежат 2 простые идеи: 
 1 - функция отображения map (получает массив и применяет одну функцию к каждому элементу массива)
 2 - функция свёртки Reduce (преобразует массив в один элемент)
 

* **Вероятностные алгоритмы**:
 Используются, если вы работаете с большими данными и вас устраивают приближенные ответы

* **1 - Фильтры Блума** - вероятностные структуры данных, дающие ответ, который может оказаться ложным,
 но с большой вероятностью является правильным
 используются, когда нужно проверить, обрабатывалась ли страница ранее, публиковалась ли ссылка ранее и т д 
 занимают мало места, удобны, когда не нужно хранить точный ответ
 

* **2 - HyperLogLog** - действует примерно так же
 Аппроксимирует кол-во уникальных элементов в множестве
 не дает точного ответа, но выдает достаточно близкий результат
 используется, когда нужно подсчитать кол-во уникальных поисков или товаров, просмотренных за день на сайте и т д 
 

* **Алгоритмы SHA (Secure Hash Algorithm)**
 одна из разновидностей хеш-функций
 получает строку и возвращает хеш-код этой строки
 используется для проверки паролей
 Хеширование SHA является локально-нечувствительным - если изменить в строке один символ, а потом сгенерировать
 хеш заново, строка полностью изменится (защита от хакеров)
 

* **Алгоритм Simhash** - когда требуется обратный результат
 Локально-чувствительная функция хеширования
 при незначительном изменении строкигенерирует хеш-код, который почти не отличается от исходного
 используется для выявления дубликатов в процессе индексирования, для обнаружения плагиатов и т д
 

* **Алгоритм Диффи-Хеллмана**
 изящно решает давно известную задачу - как зашифровать сообщение так, чтобы его смог прочитать только 
 тот человек, которому оно адресовано?
 использует 2 ключа - открытый (который известен обеим сторонам, для отправки сообщения) 
 и закрытый (для расшифровки сообщения, известен только одному)
 используется в криптографии
 

* **Линейное программирование**
 используется для максимизации некоторой характеристики при заданных ограничениях
 Все алгоритмы, работающие с графами, могут быть реализованы средставми лин.пр.
 Лин.пр. - намного более общая область, а задачи с графами - ее подмножество
 используется симплекс-метод (для задач оптимизации)