# <font color=blue>Куча (пирамида)</font>

Куча - это дерево (структура данных), в котором ключ узла родителя  больше либо равен ключу узла ребенка и все уровни, кроме, возможно, низжего, полностью заполнены. Второе условие является определением почти полного дерева.

Пример кучи представлен на следующем рисунке.

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/38/Max-Heap.svg/1920px-Max-Heap.svg.png" alt="Drawing" style="width: 400px">

На практике куче используется, когда нужна очередь с приоритетом. Очередь с приоритетом первым покидает элемент, у которого приоритет выше. Примеры применения кучи:

1. Пирамидальная сортировка

- Некоторые алгоритмы на графах могут могут быть существенно улучшены с помощью очереди с приоритетом, например алгоритм Дейкстры для поиска кратчайшего пути.

- Слияние $k$ отсортированных массивов данных.

## <font color=green>Двоичная куча</font>

Наиболее известна двоичная куча. Двоичная куча обладает следующими свойствами:

1. у каждого узла не более двух детей,

Для двоичной кучи определены операции вставки и извлечения узла.

### Вставка узла

При осуществлении вставки узел добавляется в основание кучи **с учетом свойств двоичной кучи**, после чего он поднимается наверх, пока не займет положенное ему место.

Пусть требуется добавить число 15. Число 15 займет место крестика.

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/a/ac/Heap_add_step1.svg/2560px-Heap_add_step1.svg.png" alt="Drawing" style="width: 300px">

Далее поменяется местами с 8-кой.

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/1/16/Heap_add_step2.svg/2560px-Heap_add_step2.svg.png" alt="Drawing" style="width: 300px">

И наконец, займет место на вершине кучи.

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/5/51/Heap_add_step3.svg/2560px-Heap_add_step3.svg.png" alt="Drawing" style="width: 300px">

### Извлечение узла

Извлечение выполняется из вершины кучи. Далее последний элемент в кучи из ее основания и помещается на место вершины. Это может привести к нарушению свойств кучи, поэтому новый элемент на вершине спускается вниз, пока не займет свое место.

Рассмотрим процесс извлечения.

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/1/1c/Heap_delete_step0.svg/2560px-Heap_delete_step0.svg.png" alt="Drawing" style="width: 300px">


4-ка помещается на вершину кучи.
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ee/Heap_remove_step1.svg/2560px-Heap_remove_step1.svg.png" alt="Drawing" style="width: 300px">

Так как 4-ка меньше 8-ки, наибольшего из детей вершины, меняем  местами 4-ку и 8-ку.
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/2/22/Heap_remove_step2.svg/2560px-Heap_remove_step2.svg.png" alt="Drawing" style="width: 300px">

## <font color=green>Построение двоичной кучи из массива</font>

###  Метод Уильямса

Очевидное решение - последовательная вставка в кучу всех элементов массива. Этот подход известен, как метод Уильямса. Но такое решение не является лучшим. Оценим его временную эффективность.

Высота кучи равна

$$H = \left\lfloor \log_2 N \right\rfloor$$

Число элементов на глубине $d$ не превышает $2^d$. Под **глубиной узла** понимается число ребер, соединяющих узел с корнем дерева. Сложность вставки узла в кучу, высота которой - $d$ составляет $O(d)$, поэтому сложность формирования кучи методом Уильямса оценивается 

$$\sum_{d=0}^H O(d) \cdot 2^d = O\left(\sum_{d=0}^H d \cdot 2^d\right) = O\left(\left(H-1\right) \cdot 2^{H+1} + 2\right) = O\left(H \cdot 2^H \right) = O \left(N \cdot \log N\right)$$

###  Метод Флойда

Существенным улучшением является метод Флойда, в котором куча строится "снизу вверх". Сначала собираются кучи самого низкого уровня, затем они сливаются в кучи более высокого уровня, пока не будет получен требуемый результат.

При слиянии к двум кучам добавляется новая вершина, которая затем перемещается вниз как в алгоритме извлечения узла из дерева.

Определим сложность построения кучи по методу Флойда. В отличие от метода Уильямса добавляемый узел будет перемещаться вниз, поэтому временная сложность добавления узла на глубине $d$ составляет $O\left(H - d\right)$

$$\sum_{d=0}^H O(H-d) \cdot 2^d = O\left(\sum_{d=0}^H (H-d) \cdot 2^d\right)$$

Если заменить глубину узлов их высотой, то получаем

$$\sum_{d=0}^H (H-d) \cdot 2^d = \sum_{h=0}^H h \cdot 2^{H-h} = 2^H \cdot \sum_{h=0}^H \frac{h}{2^h} \le N \sum_{h=0}^H \frac{h}{2^h}$$

Ряд в правой части сходиться, поэтому сложность построения кучи по методу Флойда $O(N)$.

>При больших размерах массива метод Флойда чаще промахивается мимо кэша, поэтому он может работать хуже метода Уильямса, несмотря на лучшую теоретическую асимптотику.

## <font color=green>Реализация двоичной кучи</font>

На практике двоичную кучу удобно представлять в памяти в виде массива. Если узел дерева расположен на $i$-й позиции в массиве, то его дети будут находиться на $(2 i + 1)$-й и $(2 i + 2)$-й позициях. Такой способ организации кучи показан на следующем рисунке

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/86/Binary_tree_in_array.svg/2560px-Binary_tree_in_array.svg.png" alt="Drawing" style="width: 400px">

### Вставка узла в кучу

In [None]:
import math


def _get_connection_lines_for_children(connections):
    connections = connections.copy()
    if len(connections) == 0:
        return connections
    if connections[-1] == '├':
        connections[-1] = '│'
    elif connections[-1] == '└':
        connections[-1] = ' '
    else:
        raise ValueError('no connection to current node')
    return connections


def _print_connections(connections):
    connections_str = ''
    for c in connections:
        if c == ' ':
            connections_str += c*4
        elif c == '│':
            connections_str += c + ' '*3
        elif c in '├└':
            connections_str += c + '─'*2 + ' '
        else:
            raise ValueError("unknown character '{}' in connections list".format(c))
    print(connections_str, end='')
    

def _prefix_traverse(a, root, depth, end, end_height, connections):
    _print_connections(connections)
    connections = _get_connection_lines_for_children(connections)
    if root < end:
        print(a[root])
        if depth < end_height:
            connections_right = connections.copy()
            connections_right.append('├')
            _prefix_traverse(a, 2*root+2, depth+1, end, end_height, connections_right)
            connections_left = connections.copy()
            connections_left.append('└')
            _prefix_traverse(a, 2*root+1, depth+1, end, end_height, connections_left)
    else:
        print('-')
        
        
def _get_num_nodes(root, end):
    n = 0
    left, right = root, root + 1
    while left < end:
        n += min(right, end) - left
        left = 2 * left + 1
        right = 2 * right + 1
    return n
        

def prefix_traverse(a, root=0, end=None):
    if end is None:
        end = len(a)
    n = _get_num_nodes(root, end)
    if n > 0:
        end_height = int(math.log(n, 2))
        _prefix_traverse(a, root, 0, end, end_height, [])
    else:
        print("heap is empty")

In [None]:
def sift_up(a, idx, start):
    i = idx
    j = (i - 1) // 2
    while j >= start and a[j] < a[i]:
        a[i], a[j] = a[j], a[i]
        i, j = j, (j - 1) // 2


def heap_insert(a, v, start=0, end=None):
    """Inserts object `v` into heap `a`. If parameter `end`
    is not `None`, `v` is inserted at position `end` before
    sifting up the heap. If `end` is `None` `v` is appended
    to `a`. Object `v` is sifted not higher than `start`.
    `start` can be used if elements in `a` before `start` 
    are not in heap.
    
    Args:
        a: a list containing elements of the heap. Heap 
            elements have to be comparable with each other.
        v: an object, comparable to elements of the heap.
        start: an integer in range `-len(a) <= start <= len(a)-1`.
            If `a` is empty, `start` can be any integer.
        end: `None` or integer in range `-len(a) <= end <= len(a)`. 
            If `a` is empty, `end` can be any integer.
    
    Returns:
        `None`
    """
    
    n = len(a)
    if n > 0:
        start %= n
    
    if end is None:
        a.append(v)
        i = n
    else:
        a.insert(end, v)
        i = end
    sift_up(a, i, start)

In [None]:
a = []
for i in range(10):
    heap_insert(a, i)
    prefix_traverse(a)

###  Упражнение 1. Извлечение узла из кучи

In [None]:
class HeapEmpty(Exception):
    def __init__(self, message):
        super().__init__(message)
        
        
def _find_last(a, start, end):
    left = start
    right = start + 1
    while left < end:
        left = 2 * left + 1
        right = 2 * right + 1
    left = (left - 1) // 2
    right = (right - 1) // 2
    return min(right-1, end-1)


def extract(a, start=0, end=None, delete_from_list=False):
    """Extracts element from root of the heap. If `start` is not
    zero, `start`-th element is the root of the heap. If `i`-th
    element of `a` is in the heap, `2*i+1`-th and `2*i+2`-th 
    elements are be in the heap if they satisfy next condition.
    
    If `end` is not `None` only elements of `a` with indices less
    than `end` can be elements of the heap. If `end` is None, all
    elements of `a` from `start`-th to the end can be in the heap.
    
    If `delete_from_list` is True than `end`-th or if `end` is
    `None`, the last element of `a` is deleted.
    
    Args:
        a: a list containing elements of the heap. The heap
            elements have to be comparable with each other.
        start: an integer in range `-len(a) <= start <= len(a)-1`.
            If `a` is empty, `start` can be any integer.
        end: `None` or integer in range `-len(a) <= end <= len(a)`. 
            If `a` is empty, `end` can be any integer.
        delete_from_list: bool
        
    Returns:
        extracted heap element.
        
    Raises:
        `HeapEmpty` if heap is empty. 
    """
    
    n = len(a)
    if n > 0:
        start %= n
    
    if end is None:
        end = n
    if n == 0 or end - start < 0:
        raise HeapEmpty("can not extract element because heap is empty")
    
    elem = a[start]
    last = _find_last(a, start, end)
    a[start] = a[last]
    if delete_from_list:
        del a[last]
    if start < last:
        sift_down(a, start, last)
    return elem

In [None]:
def sift_down(a, start, end):
    """Moves down element at `start` position until it
    reaches its place in heap. The element can not move in
    `a` farther to the right than `end`.
    Args:
        a: a list containing elements of the heap.
        start: an integer in range `0 <= start <= len(a)-1`
        end: an integer in range `0 <= end <= len(a)`
        
    Returns:
        `None`
    """
    i = start
    swap = start
    j = 2 * start + 1
    k = j + 1
    while j < end:
        if a[j] > a[swap]:
            swap = j
        if k < end and a[k] > a[swap]:
            swap = k
        if i == swap:
            break
        else:
            a[i], a[swap] = a[swap], a[i]
        i = swap
        j = 2 * swap + 1
        k = j + 1

In [None]:
a = []
for i in range(10):
    heap_insert(a, i)
    
prefix_traverse(a)
    
for i in range(10):
    print(extract(a, delete_from_list=True))
    prefix_traverse(a)

### Упражнение 2. Построение кучи из массива

Рассмотрим построение кучи из массива по методу Флойда.

In [None]:
def heapify(a):
    n = len(a)
    begin = (n - 2) // 2
    for i in range(begin, -1, -1):
        sift_down(a, i, n)

In [None]:
import random

for _ in range(10):
    L = list(range(random.randint(10, 40)))
    random.shuffle(L)
    heapify(L)
    prefix_traverse(L)

##  <font color=green>Пирамидальная сортировка</font>

Алгоритм сортировки кучей состоит из двух этапов:

1. Сделать кучу из поданного на вход массива.

2. Извлекать элементы из кучи по одному, сразу помещая их за кучей.

На [странице](https://en.wikipedia.org/wiki/Heapsort) в википедии есть анимация.

Операция просеивания (sift) обладает сложностью $O(\log N)$, поэтому пирамидальная сортировка относится к алгоритмам, работающим с асимптотикой $O(N \cdot \log N)$. Причем такая эффективность поддерживается и в худшем случае.

### Упражнение 3. Пирамидальная сортировка

In [None]:
def heap_sort(a):
    n = len(a)
    heapify(a)
    for i in range(n-1, 0, -1):
        v = extract(a, end=i+1)
        a[i] = v

In [None]:
import random

L = list(range(51))
random.shuffle(L)

In [None]:
print(L)
heap_sort(L)
print(L)

##  <font color=green>Сравнение пирамидальной сортировки с другими алгоритмами</font>

1. На случайных массивах пирамидальная сортировка в среднем работает чуть хуже быстрой сортировки. 

- Достоинством пирамидальной сортировки является то, что она сохраняет асимптотику $O(N \cdot \log N)$ в худшем случае, в то время как быстрая сортировка в худшем случае работает за $O(N^2)$. 

- Не требует дополнительной памяти.

- Неустойчивая

##  <font color=green>Кучи в Python</font>

Для использования куч лучше всего обратиться к модулю [`heapq`](https://docs.python.org/3/library/heapq.html),  который предоставляет все необходимые инструменты с ними.

# <font color=blue>Хэш-таблица</font>

Деревья поиска позволяют реализовать так называемый ассоциативный массив, то есть массив, элементы которого можно получить не по индексу, а по некоторому ключу. Сбалансированные деревья поиска позволяют добавлять элементы в массив и удалять элементы из массива за логарифмическое время.

Структура данных «хэш-таблица» является ещё одной реализацией интерфейса «ассоциативный массив», но она основана на другом принципе. У неё есть свои достоинства и недостатки. В частности, амортизационно (в сумме по всем запросам) хэш-таблица работает быстрее, чем какие-либо деревья поиска. Но при этом хэш-таблица не гарантирует малое время выполнения отдельного запроса — возможны плохие входные данные, при которых отдельные запросы выполняются значительно дольше остальных. Хэш-таблицу удобно использовать, когда число хранимых пар заранее известно, и когда время выполнения отдельного запроса не так важно, а важно лишь суммарное время выполнения запросов.

Следует также отметить, что деревья поиска кроме операций `insert`, `find`, `remove` позволяют выполнять операцию `traverse` — обход всех пар в порядке возрастания или убывания ключей за линейное от числа пар время. Хэш-таблица этого не позволяет.

<img src="images/simple_hash_table.png" alt="Drawing" style="width: 600px">

Предположим нам нужно хранить записи вида (имя, телефон). Давайте создадим массив из 32 списков: в первом будем хранить записи, в которых имя начинаются на букву “А”, во втором – записи с менеми на букву “Б” и так далее.

Когда нам приходит команда на поиск или удаление записи по имени, мы сразу же определяем список, с которым нам нужно работать, и значительно сужаем область поиска.

Если бы буквы имели одинаковую вероятность быть первой буквой имени, то размеры списоков в среднем в 32 раза были бы меньше, чем размер всей базы записей.

**Идея.** *Вместо первой буквы можно использовать некоторую функцию, которая зависит
от всего имени и принимает б´ольшое число возможных значений (например, от 0 до 10000).
Эта функция должна быть такой, чтобы все возможные значения были равновероятны.
Желательно, чтобы близкие, но не одинаковые входы, отображались в различные значения.
Такая функция называется хэш-функцией (hash function)*

Опишем устройство простой хэш-таблицы более детально.

- Задается некоторое фиксированное число `P` (типичные значения от `100` до `1000000`).

- Создается массив `index` размера `P` из пустых списков, который называется индексом хэш-таблицы.

- Задается хэш-функция hash, которая принимает на вход ключ и возвращает число от `0` до `P - 1`.

- При добавлении пары `(key, value)` вычисляется `h = hash(key)` и происходит добавление пары в список `index[h]`, а имеено происходит обход всего списка и проверяется, есть ли в этом списке пара с ключём равным `key`, если есть, то привязанное к нему значение заменяется на данное `value`. Если в списке `index[h]` пары с таким ключём нет, то пара `(key, value)` добавляется в конец списка.

- При удалении (поиске) пары с ключём `key` вычисляется `h = hash(key)` и происходит удаление (поиск) в списке `index[h]` соответствующей пары.

- Можно считать, что списки, которые хранятся в индексе хэш-таблицы реализуют интерфейс ассоциативного массива и поддерживают операции `find`, `insert` и `remove`. Первое, что мы делает при выполении операций `find`, `insert` и `remove` для хэш-таблицы, — это вычисляем хэшкод `h = hash(key)` и перенаправляем запрос списку `index[h]`. Хэш-код играет роль индекса в массиве `index`.

Случаются столкновения (коллизии) — ситуации, когда нескольким ключам назначается один и тот же хэш-код. В массиве `index` в ячейке с индексом `h` хранится список всех пар, у которых хэш-функция от ключа равна `h`. Чем больше столкновений, тем ниже эффективность хэш-таблицы.

##  <font color=green>Хэш-таблица с открытой адресацией</font>

Есть очень простая, но эффективная реализация хэш-таблицы, не использующая явно списки. Давайте выберем размер индекса `P` достаточно большим, чтобы он был больше `N` (число элементов в таблице), и будем хранить в этом массиве сами записи `(key, value)`, а не списки записей, как в обычной хэш-таблице. При этом мы будем применять хитрый алгоритм для борьбы с столкновениями.

Изначально предполагается, что запись `(key, value)` в хранится в ячейке `index[h]`, где `h = hash(key)`. Но так как возможны столкновения, при которых разные ключи получают одни и те же значения хэш-кода h, то мы расширим это предположение, и будем считать, что запись `(key, value)` может хранится в ячейках `index[h]`, `index[(h + 1) mod P]`, `index[(h + 2) mod P]`, ... и так далее, до первой ячейки пустой ячейки. Здесь выражение `a mod P` означает остаток при делении `a` на `P`.

Ячейки индекса, которые находятся правее ячейки `index[h]` (будем считать, что за ячейкой `index[P −1]` следует ячейка `index[0]`) как бы играют роль списка, а индикатором конца списка является пустая ячейка.

При этом, конечно, возможны ситуации, когда списки, таким образом «прикреплённые» к разным ячейкам сливаются вместе. Но это не вызовет ошибок работы хэш-таблицы, если из неё не удалять элементы.

Такая реализация хэш-таблицы называется **хэш-таблицей с открытой адресацией**.

Простых эффективных алгоритмов удаления записей из хэш-таблицы с открытой адресацией нет. Это один из её существенных недостатков.

Одна из причин, уменьшающая скорость работы хэш-таблицы с открытой адресацией, — это тенденция к образованию цепочек — последовательностей подряд идущих непустых элементов индекса.

Есть простая техника, которая позволяет избавится от этого недостатка. Введём ещё одну хэш-функцию `hash2()`, которая по ключу будет вычислять хэш-код `h2`, который будет определять размер шага, которым мы шагаем вправо по ячейкам индекса по виртуальному списку, «прикреплённому» к ячейке `index[h]`:

`index[h], index[(h + h2) mod P], index[(h + 2 · h2) mod P], index[(h + 3 · h2) mod P], ...`

и так далее, до первой пустой ячейки. Понятно, что должно быть выполнено условие `0 < h2 < P`. Если натуральные числа `h2` и `P` взаимопросты (наибольший общий делитель равен 1), то арифметическая прогрессия `hn = (h+n·h2) mod P, n = 0, 1, ... , P−1` пробежит все возможные значения остатков `0, 1, ..., P−1`. Поэтому, если в массиве index есть ещё пустые ячейки, то алгоритм обязательно до одной из них «доберётся». Для гарантия взаимопростоты `h2` и `P` обычно в качестве `P` берут число, равное степени двойки, а хэш-код `h2` делают нечётным.

Описанная техника называется **двойным хэшированием с открытой адресацией**.