### Введение

**Двоичная куча (`binary heap`)** - это реализация двоичного дерева с использованием массива, в котором поддерживается специальный порядок элементов (`heap-order`). `Heap-order` заключается в том, что значение ключа родительского узла всегда не меньше значения ключа любого из (двух) его потомков. Такая структура данных позволяет извлечение элемента с максимальным (минимальным) значением ключа (*`top`*) за $O(log N)$, просмотр `top` за `O(1)`, добавление нового элемента за $O(log N)$. 

Для поддержания `heap-order` используется специальная индексация массива. Индексы принимают значения от `1` до `N`, где `N` - вместимость (`capacity`) кучи. Узел с элементом по индексу `k` имеет двух потомков, индексы которых `2k` и `2k + 1`, и соответственно сам является потомком узла с индексом `[k / 2]`.

![binary heap representation](support/bh "binary heap representation")

Необходимые операции для обеспечения `heap-order`:

+ **`swim()`, или "всплытие" элемента**: применяется в том случае, если стало известно, что ключ в каком-то узле стал больше, чем ключ родителя. Производится последовательный (bottom->up) обмен потомка с родителем до тех пор, пока ключ потомка `>` ключа родителя.


+ **`sink()`, или "смывание" элемента**: применяется в том случае, если стало известно, что ключ в каком-то узле стал меньше, чем ключ одного из потомков. Производится последовательный (up->bottom) обмен родителя с б**о**льшим из потомков до тех пор, пока ключ родителя `<` ключа потомка.

Обе операции стоят $O(log N)$, т.к. глубина дерева `h` не превосходит $[log N]$, а наибольшее число сравнений и обменов в этих операциях не превосходит `h`.

### `API`

+ **`top()`, или просмотр**: возвращает значение наибольшего (наименьшего) элемента `a[1]`. Сложность $O(1)$.


+ **`extract()`, или извлечение**: `top()` с удалением элемента из кучи. Производится обмен `a[1]` и `a[N]`, сохраняется `maxEl = a[N]`, размер `N` уменьшается на 1 и возвращается `maxEl`. Далее вызывается `sink()` для `a[1]`. Сложность $O(log N)$.


+ **`insert(new_el)`, или вставка**:  добавление нового элемента. Узел с новым ключом добавляется в конец (на позицию `a[++N]`), вызывается `swim()` для него. Сложность $O(log N)$.

### Реализация

+ Переменная вместимость, т.к. используется `list`
+ Возможность передать функцию-компаратор для объектов (параметр `comparator`, по умолчанию обычное сравнение) 

In [1]:
class BinaryHeap():
    
    def __init__(self, comparator=None):
        self.data = [0]
        self.N = 0
        self.comparator = comparator
        
    def _less(self, i, j):
        if self.comparator is None:
            return (self.data[i] < self.data[j])
        else:
            return self.comparator(self.data[i], self.data[j])
        
    def _exch(self, i, j):
        self.data[i], self.data[j] = self.data[j], self.data[i] 
            
    def _swim(self, ind):
        while (ind > 1 and self._less(ind / 2, ind)):
            self._exch(ind, ind / 2)
            ind /= 2
    
    def _sink(self, ind):
        while (2 * ind <= self.N):
            ch = 2 * ind
            if ch < self.N and self._less(ch, ch + 1):
                ch += 1
            elif not self._less(ind, ch):
                break
            self._exch(ind, ch)
            ind = ch
            
    def size(self):
        return self.N
    
    def top(self):
        if self.N < 1:
            raise ValueError("Heap is empty, nothing to top()")
        return self.data[1]
    
    def insert(self, new_element):
        self.data.append(new_element)
        self.N += 1
        self._swim(self.N)
        
    def extract(self):
        if self.N < 1:
            raise ValueError("Heap is empty, nothing to extract()")
        maxEl = self.data[1]
        self._exch(1, self.N)
        self.N -= 1
        del self.data[self.N + 1]
        self._sink(1)
        return maxEl

### Демонстрация

In [2]:
def test(test_list, comparator=None):
    bh = BinaryHeap(comparator=comparator)
    print "Insertion stage:"
    for el in test_list:
        bh.insert(el)
        print "inserting: %s\t\t" % el, "heap top: %s\t\t" % bh.top(), "data: %s" % bh.data
    print "Heap size = %s\n" % bh.size()
    print "Extraction stage:"  
    for _ in xrange(bh.size()):
        print "extracted: %s\t\t" % bh.extract(), "data: %s" % bh.data
    print "Heap size = %s" % bh.size()

Демонстрация на примере массива случайных чисел:

In [3]:
import numpy as np
test_list = np.random.randint(0, 100, (10,)).tolist()
print test_list

[56, 41, 19, 63, 9, 3, 62, 88, 47, 31]


In [4]:
test(test_list)

Insertion stage:
inserting: 56		heap top: 56		data: [0, 56]
inserting: 41		heap top: 56		data: [0, 56, 41]
inserting: 19		heap top: 56		data: [0, 56, 41, 19]
inserting: 63		heap top: 63		data: [0, 63, 56, 19, 41]
inserting: 9		heap top: 63		data: [0, 63, 56, 19, 41, 9]
inserting: 3		heap top: 63		data: [0, 63, 56, 19, 41, 9, 3]
inserting: 62		heap top: 63		data: [0, 63, 56, 62, 41, 9, 3, 19]
inserting: 88		heap top: 88		data: [0, 88, 63, 62, 56, 9, 3, 19, 41]
inserting: 47		heap top: 88		data: [0, 88, 63, 62, 56, 9, 3, 19, 41, 47]
inserting: 31		heap top: 88		data: [0, 88, 63, 62, 56, 31, 3, 19, 41, 47, 9]
Heap size = 10

Extraction stage:
extracted: 88		data: [0, 63, 56, 62, 47, 31, 3, 19, 41, 9]
extracted: 63		data: [0, 62, 56, 19, 47, 31, 3, 9, 41]
extracted: 62		data: [0, 56, 47, 19, 41, 31, 3, 9]
extracted: 56		data: [0, 47, 41, 19, 9, 31, 3]
extracted: 47		data: [0, 41, 31, 19, 9, 3]
extracted: 41		data: [0, 31, 9, 19, 3]
extracted: 31		data: [0, 19, 9, 3]
extracted: 19		data: [0

Демонстрация на примере строк с символами нижнего регистра. По умолчанию они отсортируются по алфавиту:

In [5]:
import random
import string

generate_string = lambda length : ''.join(random.choice(string.ascii_lowercase) for _ in range(length))

N = 8
test_list = [generate_string(np.random.randint(1, 5)) for _ in xrange(N)]
test_list

['e', 'sqag', 'h', 'ojrk', 'xoi', 'odi', 'do', 'o']

In [6]:
test(test_list)

Insertion stage:
inserting: e		heap top: e		data: [0, 'e']
inserting: sqag		heap top: sqag		data: [0, 'sqag', 'e']
inserting: h		heap top: sqag		data: [0, 'sqag', 'e', 'h']
inserting: ojrk		heap top: sqag		data: [0, 'sqag', 'ojrk', 'h', 'e']
inserting: xoi		heap top: xoi		data: [0, 'xoi', 'sqag', 'h', 'e', 'ojrk']
inserting: odi		heap top: xoi		data: [0, 'xoi', 'sqag', 'odi', 'e', 'ojrk', 'h']
inserting: do		heap top: xoi		data: [0, 'xoi', 'sqag', 'odi', 'e', 'ojrk', 'h', 'do']
inserting: o		heap top: xoi		data: [0, 'xoi', 'sqag', 'odi', 'o', 'ojrk', 'h', 'do', 'e']
Heap size = 8

Extraction stage:
extracted: xoi		data: [0, 'sqag', 'ojrk', 'odi', 'o', 'e', 'h', 'do']
extracted: sqag		data: [0, 'ojrk', 'o', 'odi', 'do', 'e', 'h']
extracted: ojrk		data: [0, 'odi', 'o', 'h', 'do', 'e']
extracted: odi		data: [0, 'o', 'e', 'h', 'do']
extracted: o		data: [0, 'h', 'e', 'do']
extracted: h		data: [0, 'e', 'do']
extracted: e		data: [0, 'do']
extracted: do		data: [0]
Heap size = 0


Теперь передадим в класс функцию, которая будет сравнивать строки по длине:

In [7]:
compare_len = lambda x, y : (len(x) < len(y))
test(test_list, comparator=compare_len)

Insertion stage:
inserting: e		heap top: e		data: [0, 'e']
inserting: sqag		heap top: sqag		data: [0, 'sqag', 'e']
inserting: h		heap top: sqag		data: [0, 'sqag', 'e', 'h']
inserting: ojrk		heap top: sqag		data: [0, 'sqag', 'ojrk', 'h', 'e']
inserting: xoi		heap top: sqag		data: [0, 'sqag', 'ojrk', 'h', 'e', 'xoi']
inserting: odi		heap top: sqag		data: [0, 'sqag', 'ojrk', 'odi', 'e', 'xoi', 'h']
inserting: do		heap top: sqag		data: [0, 'sqag', 'ojrk', 'odi', 'e', 'xoi', 'h', 'do']
inserting: o		heap top: sqag		data: [0, 'sqag', 'ojrk', 'odi', 'e', 'xoi', 'h', 'do', 'o']
Heap size = 8

Extraction stage:
extracted: sqag		data: [0, 'ojrk', 'xoi', 'odi', 'e', 'o', 'h', 'do']
extracted: ojrk		data: [0, 'xoi', 'do', 'odi', 'e', 'o', 'h']
extracted: xoi		data: [0, 'odi', 'do', 'h', 'e', 'o']
extracted: odi		data: [0, 'do', 'o', 'h', 'e']
extracted: do		data: [0, 'e', 'o', 'h']
extracted: e		data: [0, 'h', 'o']
extracted: h		data: [0, 'o']
extracted: o		data: [0]
Heap size = 0


Изображения взяты из презентаций к курсу `"Algorithms. Part I"` (R.Sedgewick, K.Wayne) на `Coursera.org`.