In [7]:
import pandas as pd
import numpy as np

# Глава 1. Знакомство с алгоритмами

## Бинарный поиск
- -- это алгоритм. На вход получает отсортированный список. Если элемент, который мы ищем присутствует в списке, то возвращает его позицию.
- С бинарный поиском вы каждый раз загадываете число в середине диапазона и исключаете половину оставшихся чисел.
- В общем случае для списка из n элементов бинарный поиск выполняется за $log_2n$ шагов.

In [111]:
# Полный код бинарного поиска
# Он работает ТОЛЬКО когда список list отсортирован, т.е. list = sorted(list)
def binary_search(list, item):
    low = 0
    high = len(list) - 1
    
    while low <= high:
        mid = int((low + high)/2) # находим порядковый номер значения по середине
        guess = list[mid]         # находим значение по середине
        if guess == item:         # проверяем, является ли правильным ответом значение по середине
            return mid
        if guess > item:
            high = mid - 1
        else:
            low = mid + 1
    return None

### Упражнения

1.1 
$log_2$128 = 7

1.2\
$log_2n = a$ \
$    log_22n = x$

$n = 2^a$\
$2*n = 2^x$

$2 = 2^(x-a)$\
$x = 1 + a$

- Если список состоит из 4 млрд элементов, бинарный поиск найдет ответ за 32 операции. Он использует $логарифмическое$ время.

## "О большое"
- -- описывает скорость работы алгоритма
- Позволяет сравнить количество операций
- Простой поиск - $O(n)$
- Бинарный поиск - $O(log_2n)$
- Эффективные алгоритмы сортировки - $O(n*log_2n)$
- Медленные алгоритмы сортировки - $O(n^2)$
- Очень медленные алгоритмы сортировки - $O(n!)$
- Общий случай O("количество операций")

# Глава 2. Сортировка выбором

## Массивы и связанные списки

- Массивы поддерживают произвольный доступ ко всем элементам
- В списке элементы распределяются в произвольных местах памяти, при этом в одном элементе хранится адрес следующего элемента
- Массивы обеспечивают быстрое чтение
- Списки обеспечивают быструю вставку и удаление

In [114]:
column=['Массивы','Списки']
index=['Чтение','Вставка','Удаление']

df1 = pd.DataFrame(np.array([['O(1)','O(n)'],['O(n)', 'O(1)'],['O(n)', 'O(1)']]), columns=column, index=index)
df1

Unnamed: 0,Массивы,Списки
Чтение,O(1),O(n)
Вставка,O(n),O(1)
Удаление,O(n),O(1)


## Сортировка выбором

In [3]:
# функция поиска индекса наименьшего элемента массива
def findSmallest(arr):
    smallest = arr[0]
    smallest_index = 0
    for i in range(1, len(arr)):
        if arr[i] < smallest:
            smallest = arr[i]
            smallest_index = i
    return smallest_index

In [4]:
findSmallest([9,8,7,6,5,4,3,11,2,1,7])

9

- Метод $pop()$ позволяет получить элемент по индексу удаляя его из последовательности.

In [5]:
# функция сортировки выбором
def selectionSort(arr):
    newArr = []
    for i in range(len(arr)):
        smallest = findSmallest(arr)     # индекс наименьшего элемента
        newArr.append(arr.pop(smallest)) 
    return newArr

In [8]:
selectionSort([9,8,7,6,5,4,3,11,2,1,7])

[1, 2, 3, 4, 5, 6, 7, 7, 8, 9, 11]

- для сортировки выбором $O(n^2)$

# Глава 3. Рекурсия

- -- вызов функцией самой себя 
- Каждая рекурсивная функция состоит из двух частей: $базового$ случая и $рекурсивного$ случая

In [10]:
# Нужно записать 3 2 1 с помощью рекурсии
def countdown(i):
    print(i)
    if i<=1:           # Базовый
        return         # случай
    else:
        countdown(i-1) # Рекурсивный случай

In [12]:
countdown(3)

3
2
1


## Стек

- Стек — структура данных, представляющая из себя упорядоченный набор элементов, в которой добавление новых элементов и удаление существующих производится с одного конца, называемого вершиной стека. Притом первым из стека удаляется элемент, который был помещен туда последним, то есть в стеке реализуется стратегия «последним вошел — первым вышел»
- Что произойдет со стеком при бесконечном выполнении рекурсии? Стек будет расти бесконечно. Каждой программе выделяется ограниченный объем памяти в стеке. Когда все пространство будет исчерпано, программа завершится с ошибкой переполнения стека.

# Глава 4. Быстрая сортировка

## "Разделяй и властвуй"

- Алгоритм Евклида - эффективный алгоритм для нахождения наибольшего общего делителя двух целых чисел.
Пример:\
117 и 36\
117 - 36 = 81\
81 - 36 = 45\
45 - 36 = 9\
36 - 9*4 = 0\
Значит, НОД(117,36) = 9

### Упражнения

In [7]:
# 4.1
def sum(list):
    if list == []:
        return 0
    return list[0] + sum(list[1:])

sum([1,2,3,4,5])

15

In [20]:
# 4.2
# мое
k = 0
def chi(spisok):
    global k
    k += 1
    if spisok == []:
        return k-1
    return chi(spisok[1:])

chi([1,2,3,4,5,6,7,8,9,6,3,6,7,547,5437,37,7,4,754,56,46,436,436,243,246,463,436243,2,463,4654,7786,546,75846])

33

In [23]:
# 4.2
# не мое
def count(list):
    if list == []:
        return 0
    return 1 + count(list[1:])

count([1,2,3,4,5])

5

In [34]:
# 4.3
# мое без рекурсии
def max(list):
    m = list[0]
    for i in range(1,len(list)):
        if list[i] > m:
            m = list[i]
    return m

max([1,2,3,4,9,7,8,3,33,6,78,43,7,78,4,45,67,8,99])

99

In [35]:
# 4.3
# не мое с рекурсией
def max(list):
    if len(list) == 2:
        return list[0] if list[0] > list[1] else list[1]
    sub_max = max(list[1:])
    return list[0] if list[0] > sub_max else sub_max

max([1,2,3,4,9,7,8,3,33,6,78,43,7,78,4,45,67,8,99])

99

4.4 - халява

## Быстрая сортировка

- Пустые массивы и массивы, содержащие один элемент, станут базовым случаем

In [42]:
def quicksort(array):
    if len(array) < 2:
        return array

- Для массива $двух$ элементов сравниваем два элемента, если первый меньше второго, меняем местами
- Для массива $трех$ элементов и $больше$ сначала нужно взять случайный элемента как опорный, разделить массив на 3 части, массив чисел, меньших опорного, опорное число и массив чисел, больших опорного.
- Далее мы с двумя массивами повторяем те же операции, что делали до этого

In [43]:
# код быстрой сортировки

def quicksort(array):
    if len(array) < 2:
        return array
    else:
        pivot = array[0]         # берем опорным числом первое число массива
        less = [i for i in array[1:] if i < pivot]
        greater = [i for i in array[1:] if i > pivot]
    return quicksort(less) + [pivot] + quicksort(greater)

print(quicksort([1,46,6,5,67,8656,8765,456546,6546,46,2436,76,876,76,867,976,9,587,5243,5464,55,758,76,8,6,6546,5368,746]))

[1, 5, 6, 8, 9, 46, 55, 67, 76, 587, 746, 758, 867, 876, 976, 2436, 5243, 5368, 5464, 6546, 8656, 8765, 456546]


## Снова об "О-большом" / Сортировка слиянием и быстрая сортировка

- Для сортировки слиянием $О(n*log_2n)$ (В худшем случае, но он обычно и происходит)
- Для быстрой сортировки в худшем случае $O(n^2)$, но в $среднем$ сортировка происходит за $О(n*log_2n)$, как и для сортировки слиянием
- Работа О-большое в действительности означает О(c*n), где c-фиксированный промежуток времени, константа
- Обычно константа игнорируется, потому что если алгоритмы имеют разное время "О-большое", она роли не играет
- Казалось бы, "О-большое" одинаково для сортировки слиянием и быстрой сортировки, но $константа$ $быстрой$ $сортировки$ $меньше$, поэтому быстрая сортировка работает быстрее

### Упражнения

4.5\
$O(n)$

4.6\
$O(n)$

4.7\
$O(1)$

4.8\
$O(n^2)$

# Глава 5. Хеш-таблицы

- хеш -функция - функция, которая получает на вход строку и возвращает число
- хеш-таблицы = ассоциативные массивы = $словари$ = отображения = хеш-карты = хеши
- хеш-таблица создается объединением хеш функции с массивом

In [4]:
book = {}
# или book = dict()
book['milk'] = 1.49
book['apple'] = 0.67

print(book)
print(book['milk'])

{'milk': 1.49, 'apple': 0.67}
1.49


In [7]:
# проверка голосовал ли уже избиратель
voted = {}
def check_voter(name):
    if voted.get(name):
        print('kick them out!')
    else:
        voted[name] = True
        print('let them vote!')
        
check_voter('Andrew')
check_voter('Andrew')

let them vote!
kick them out!


- Хеши часто используются для кеширования страниц сайтов, таких как 'домашняя страница', 'о нас', 'условия пользования'.
- Когда вы посещаете сайт, сначала проверяется, хранится ли страница в кэше

## Коллизии

- ситуация когда двум ключам назначается один элемент массива
- Существует много разных стратегий обработки коллизий. Простейшая из них выглядит так: если несколько ключей отображается на один элемент, в этом элементе создается $связанный$ $список$\
Пример: Апельсины и Авокадо начинаются с буквы "А", можно создать из них и и их цен связанный список и положить в одну ячейку массива, в которой будут продукты начинающиеся на букву "А"


- Выбор хеш-функции важен. Нужно стараться чтобы хеш-функция распределяла ключи равномерно по всему хешу
- Если связанные списки становятся слишком длинными, работа с хеш таблицами сильно замедляется. Но они не станут слишком длинными при использовании хорошей хеш-функции!

In [72]:
column=['Хеш-таблицы (средний случай)','Хеш-таблицы (худший случай)', 'Массивы', 'Связанные списки']
index=['Поиск','Вставка','Удаление']

df1 = pd.DataFrame(np.array([['O(1)','O(n)','O(1)','O(n)'],['O(1)', 'O(n)','O(n)','O(1)'],['O(1)', 'O(n)','O(n)','O(1)']]), columns=column, index=index)
df1

Unnamed: 0,Хеш-таблицы (средний случай),Хеш-таблицы (худший случай),Массивы,Связанные списки
Поиск,O(1),O(n),O(1),O(n)
Вставка,O(1),O(n),O(n),O(1)
Удаление,O(1),O(n),O(n),O(1)


## Коэффициент заполнения

- = (количество элементов в хеш-таблице)/(общее количество элементов)
- $_$1$_$0$_$ - коэффициент заполнения 2/5
- Хорошее приближенное правило: изменяйте размер хеш-таблицы, когда коэффициент заполнения превышает 0.7

# Глава 6. Поиск в ширину

- -- позволяет найти кратчайшее расстояние между двумя объектами (в данном случае кратчайшее расстояние = наименьшее количество шагов)

## Что такое граф?

- Граф моделирует набор связей между разными объектами
- Графы состоят из узлов и ребер
- Соседние узлы называются соседями

## Поиск в ширину

- Помогает ответить на 2 вопроса: 1) Существует ли путь от узла А к узлу Б? 2) Как выглядит кратчайший путь от узла А к узлу Б?\
Пример на 1): \
Представим, что мы хотим найти продавца манго из своих друзей. \
Тогда сначала мы спросим у своих самых близких друзей, затем у друзей друзей и так далее. \
(Для операции такого рода существует специальная структура данных - $очередь$.)

## Очереди

- работает точно так же, как и в реальной жизни
- Очередь относится к категории структур данных $FIFO$: $First$ $In$$,$ $First$ $Out$
- А стек принадлежит к числу структур данных $LIFO$: $Last$ $In$$,$ $First$ $Out$

## Реализация графа

In [20]:
graph = {}
graph['you'] = ['alice', 'bob', 'claire']
graph['bob'] = ['anuj', 'peggy']
graph['alice'] = ['peggy']
graph['claire'] = ['thom', 'jonny']
graph['anuj'] = []
graph['peggy'] = []
graph['thom'] = []
graph['jonny'] = []

- граф со стрелками называется направленным. Например, $anuj$ является соседом $bob$, но $bob$ не является соседом $anuj$

## Реализация алгоритма

In [52]:
# функция проверяющая, продает ли человек манго
def person_is_seller(name):
    return name[-1] == 'm'    # True(т.е. продает), если последняя буква имени = м

person_is_seller('sam')

True

In [71]:
# взял из инета, тк в книжке не работае, сам не особо понял
def search(name):
    search_queue = deque()            # создание двусторонней очереди
    search_queue += graph[name]
    searched = set()
    while search_queue:                                # пока очередь не пуста
        person = search_queue.popleft()                # берем первого человека
        if person not in searched:
            if person_is_seller(person):
                print(person + " is a mango seller!")  # Да, это продавец манго, выходим из search_queue
                return True 
            else:                                      # Если не является, то добавляем всех друзей person в очередь
                search_queue += graph[person]
                searched.add(person)
    return False

search('you')

thom is a mango seller!


True

- поиск в ширину выполняется за время $O$$($$количество$ $людей$ $+$ $количество$ $ребер$$)$

- граф, в котором нет ребер, указывающих в обратном направлении, называется $деревом$
- Топологическая сортировка — упорядочивание вершин бесконтурного ориентированного графа согласно частичному порядку, заданному ребрами орграфа на множестве его вершин.

# Глава 7. Алгоритм Дейкстры

- Поиск в ширину находит путь с минимальным количеством сегментов, а Алгоритм Дейкстры находит самый быстрый путь (в мере расстояния) 
- Каждому ребру назначается время перемещения в минутах. Алгоритм Дейкстры используется для поиска пути от начальной точки к конечной за кратчайшее возможное время
- Число связанное с ребром графа называется $весом$
- Граф с весами - $взвешенный$ $граф$, Граф без весов - $невзвешенный$ $граф$
- Алгоритм Дейкстры не может работать при наличии ребер, имеющих отрицательный вес

Алгоритм Дейкстры состоит из четырех  шагов:
1) Найти узел с наименьшей стоимостью \
2) Вычислить сколько времени потребуется для того, чтобы добраться до всех соседей узла при переходи по ребру из узла (обновить стоимость соседей этого узла)\
3) Повторять, пока это не будет сделано для всех узлов графа\
4) Вычислить итоговый путь

In [1]:
# заполняем граф
graph = {}
graph["start"] = {}
graph["start"]["a"] = 6
graph["start"]["b"] = 2

graph["a"] = {}
graph["a"]["fin"] = 1

graph["b"] = {}
graph["b"]["a"] = 3
graph["b"]["fin"] = 5

graph["fin"] = {} # у конечного узла нет соседей

# таблица затрат
infinity = float("inf") # если стоимость неизвестна, она считается бесконечностью
costs = {}
costs["a"] = 6
costs["b"] = 2
costs["fin"] = infinity

# родительская таблица
parents = {}
parents["a"] = "start"
parents["b"] = "start"
parents["fin"] = None

processed = []

def find_lowest_cost_node(costs):
    lowest_cost = float("inf")
    lowest_cost_node = None
    # Пройдитесь по каждому узлу.
    for node in costs:
        cost = costs[node]
        # Если это самая низкая стоимость на данный момент и она еще не обработана...
        if cost < lowest_cost and node not in processed:
            # ... установите его как новый узел с наименьшей стоимостью.
            lowest_cost = cost
            lowest_cost_node = node
    return lowest_cost_node

# Find the lowest-cost node that you haven't processed yet.
node = find_lowest_cost_node(costs)
# If you've processed all the nodes, this while loop is done.
while node is not None:
    cost = costs[node]
    # Go through all the neighbors of this node.
    neighbors = graph[node]
    for n in neighbors.keys():
        new_cost = cost + neighbors[n]
        # If it's cheaper to get to this neighbor by going through this node...
        if costs[n] > new_cost:
            # ... update the cost for this node.
            costs[n] = new_cost
            # This node becomes the new parent for this neighbor.
            parents[n] = node
    # Mark the node as processed.
    processed.append(node)
    # Find the next node to process, and loop.
    node = find_lowest_cost_node(costs)

print("Cost from the start to each node:")
print(costs)

Cost from the start to each node:
{'a': 5, 'b': 2, 'fin': 6}


# Глава 8. Жадные алгоритмы

## Задача о рюкзаке

Пример:\
Вы вор и вам требуется подобрать набор товаров максимальной стоимости, которые можно сложить в рюкзак.\
Алгоритм такой:
- Выбрать самый дорогой предмет, который поместится в рюкзак
- Выбрать следующий по стоимости предмет предмет, который поместится в рюкзак... И так далее\
Но жадная стратегия не дает оптимального решения:\
Рюкзак 35\
Магнитофон 30, 3000\\$\
Ноутбук 20, 2000\\$\
Гитара 15, 1500\$

## Задача о покрытии множеств

Вы открываете свое радио и нужно чтобы все штаты были покрыты сетью. Некоторые радиовышки перекрываются друг с другом и нужно найти минимальное количество вышек, чтобы покрыть все штаты.\
Это вычислительно сложная задача. На помощь приходят жадные алгоритмы.

## Приближенные алгоритмы

Вот как выглядит жадный алгоритм, дающий результат, близкий к оптимуму:
1) Выбрать штат, покрывающий наибольшее количество штатов, еще не входящих в покрытие\
2) Повторять, пока остаются штаты, не входящие в покрытие

- истинное решение находится за O(2^n)
- приближенное решение находится за O(n^2)

In [5]:
states_needed = set(["mt", "wa", "or", "id", "nv", "ut", "ca", "az"]) # создаем список штатов

stations = {} # список станций, которые будут покрывать штаты
stations["kone"] = set(["id", "nv", "ut"])
stations["ktwo"] = set(["wa", "id", "mt"])
stations["kthree"] = set(["or", "nv", "ca"])
stations["kfour"] = set(["nv", "ut"])
stations["kfive"] = set(["ca", "az"])

final_stations = set() # список для хранения итогового набора станций

while states_needed:
    best_station = None
    states_covered = set()
    for station, states_for_station in stations.items():
        covered = states_needed & states_for_station
        if len(covered) > len(states_covered):
            best_station = station
            states_covered = covered

    states_needed -= states_covered
    final_stations.add(best_station)

print(final_stations)

{'kone', 'kthree', 'ktwo', 'kfive'}


- Жадные алгоритмы легко реализуются и быстро выполняются, поэтому из них получаются хорошие приближенные алгоритмы
- Приближенное решение о киммивояжере: коммивояжер постоянно выбирает ближайший город из тех, что он еще не посещал

# Глава 9. Динамическое программирование

- каждый алгоритм начинается с таблицы
- Динамическое программирование работает только в том случае, если каждая подзадача автономна, то есть не зависит от других подзадач
- Динамическое программирование применяется для оптимизации какой-либо характеристики при заданных ограничениях. В задаче о рюкзаке требуется максимизировать стоимость отобранных предметов с ограничениями по емкости рюкзака.

In [19]:
# решение задачи о рюкзаке. Размер рюкзака 4 фунта. Мы представляем что сначала у нас есть рюкзак размером 1, потом 2...
column=['1','2', '3', '4']
index=['гитара (вес 1, 1500)','магнитофон (вес 4, 3000)','ноутбук (вес 3, 2000)']

df1 = pd.DataFrame(np.array([['_','_','_','_'],['_', '_','_','_'],['_', '_','_','_']]), columns=column, index=index)
df1

Unnamed: 0,1,2,3,4
"гитара (вес 1, 1500)",_,_,_,_
"магнитофон (вес 4, 3000)",_,_,_,_
"ноутбук (вес 3, 2000)",_,_,_,_


In [20]:
# решение задачи о рюкзаке. Размер рюкзака 4 фунта. Мы представляем что сначала у нас есть рюкзак размером 1, потом 2...
column=['1','2', '3', '4']
index=['гитара (вес 1, 1500)','магнитофон (вес 4, 3000)','ноутбук (вес 3, 2000)']

df1 = pd.DataFrame(np.array([['1500','1500','1500','1500'],['1500', '1500','1500','3000'],['1500', '1500','2000','3500']]), columns=column, index=index)
df1

Unnamed: 0,1,2,3,4
"гитара (вес 1, 1500)",1500,1500,1500,1500
"магнитофон (вес 4, 3000)",1500,1500,1500,3000
"ноутбук (вес 3, 2000)",1500,1500,2000,3500


In [22]:
# предпололжим мы ищем в словаре слово fish но допустили опечатку и написали hish
column=['h','i', 's', 'h']
index=['f','i', 's', 'h']

df1 = pd.DataFrame(np.array([['0','0','0','0'],['0', '1','0','0'],['0', '0','2','0'],['0', '0','0','3']]), columns=column, index=index)
df1

Unnamed: 0,h,i,s,h.1
f,0,0,0,0
i,0,1,0,0
s,0,0,2,0
h,0,0,0,3


- но в этом случае мы искали наибольшую непрерыносовпадающую подстроку в двух словах, но если рассмотреть fosh и fort то не оч сработает

In [26]:
# поэтому можно делать так

column=['f','o', 's', 'h']
index=['f','o', 'r', 't']

df1 = pd.DataFrame(np.array([['1','1','1','1'],['1', '2','2','2'],['1', '2','2','2'],['1', '2','2','2']]), columns=column, index=index)
df1

Unnamed: 0,f,o,s,h
f,1,1,1,1
o,1,2,2,2
r,1,2,2,2
t,1,2,2,2


In [27]:
# поэтому можно делать так

column=['f','o', 's', 'h']
index=['f','i', 's', 'h']

df1 = pd.DataFrame(np.array([['1','1','1','1'],['1', '1','1','1'],['1', '1','2','2'],['1', '1','2','3']]), columns=column, index=index)
df1

Unnamed: 0,f,o,s,h
f,1,1,1,1
i,1,1,1,1
s,1,1,2,2
h,1,1,2,3


# Глава 10. Алгоритм k ближайших соседей

- предположим мы видим фрукт, знаем его размер (x) и цвет (y), но не знаем его название. Мы берем k (хорошо брать k = sqrt(N), где N - число всех фруктов) ближайших соседей фруктов к нашему фрукту по величине $sqrt((x_1-x_2)^2+(y_1-y_2)^2+...)$ и скорее всего название нашего фрукта совпадет с названием k ближайших

10.1\
Допустим, вы работете в Netflix.\
Первый пользователь ставит почти любому фильму оценку 5, а второй пользователь более разборчив и ставит 5 только самым лучшим фильмам.\
Вроде бы вкусы одинаковы, но по метрике расстояния они не являются соседями.\
Как учесть различия в стратегиях выставления оценок?

- Можно воспользоваться нормализацией: вычислить среднюю оценку для каждого человека и использовать её для масштабирования оценок.
- Например, ср оценка первого 3.5, а второго - 3. Тогда надо будет увеличить оценки второго, чтобы его средняя оценка была равна среднему второго и уже сравнивать по единой шкале.

## Классификатор Байеса

- сначала тренируется на данных
- наивный классификатор Байеса вычисляет вероятность того, что сообщение с большой вероятностью является спамом

Классификация - распределение по категориям\
Регрессия - прогнозирование результата