# 堆和堆排序_Heap_and_heapsort

## 堆的概念
堆是一种完全二叉树，有最大堆和最小堆两种。
- 最大堆（大根堆）：对于每个非叶子节点V，V的值都比它的连个孩子大，成为最大堆特性（heap order property） 最大堆里面的根总是存储最大值，最小的值存储在叶子节点。
- 最小堆（小根堆）：和最大堆相反，每个非叶子节点V，V的两个孩子的值都比它大。最小堆里面的根总是存储最小值，最大的值存储在叶节点。

## 堆的操作
- 插入新的值。插入的时候需要维持堆的特性，**每次从底层最右边的节点后插入**， 需要进行sift-up操作。
- 获取并移除根节点的值。每次我们都可以获取最大值或者最小值，然后把最底层最右边的节点值替换到root节点之后执行sift-down操作。

## 堆的表示
因为堆是完全二叉树没有间隙，所以可以使用一维数组来表示二维的堆。

对于数组中的一个下标i，我们可以得到它和父亲和孩子节点对应的下标：


In [None]:
parent = (i-1) // 2   # 取整
left = 2 * i + 1
right = 2 * i + 2

超出数组下标范围表示没有对应的孩子节点。

## 1、实现一个大根堆
关键是需要实现add和extract方法，以及对应方法中为了维持堆的特性进行sift操作。

add方法每次从底层最右边的节点后插入新的节点，进行sift-up操作。

extract方法每次获取根节点的最大值，然后把底层的最右边的节点替换到root节点，之后执行sift-down操作。

In [2]:
class Array(object):
    """使用Python的内置的list实现定长数组
    初始化（分配空间和存储单位_size和_items）, 实现下标访问、实现下标设置值、
    返回规模_size,清空列表、迭代返回对应项
    """
    def __init__(self, size=32):  # 关键属性：分配空间和存储单位（使用列表的单个元素作为一个存储单位）
        self._size = size
        self._items = [None] * size

    def __getitem__(self, index):  # Called to implement evaluation of self[index]实现下标访问.
        return self._items[index]

    def __setitem__(self, index, value):  # Called to implement assignment to self[index].
        self._items[index] = value

    def __len__(self):
        return self._size

    def clear(self, value=None):
        for i in range(len(self._items)):
            self._items[i] = value

    def __iter__(self):
        for item in self._items:
            yield item


class MaxHeap(object):
    """定义最大堆
    初始化、取长度、添加、上调整、下调整
    """
    def __init__(self, maxsize=None):
        self.maxsize = maxsize
        self._elements = Array(maxsize)
        self._count = 0

    def __len__(self):
        return self._count

    def add(self, value):
        if self._count >= self.maxsize:
            raise Exception('full')
        self._elements[self._count] = value

        self._count += 1
        self._siftup(self._count - 1)  # 维持堆的特性

    # 插入新的值。插入时候需要维持堆的特性，每次从底层最右边的节点后插入，使用_sift-up操作
    def _siftup(self, ndx):
        if ndx > 0:
            parent = (ndx - 1) // 2
            if self._elements[ndx] > self._elements[parent]:  # 如果插入的值大于 parent，一直交换
                self._elements[ndx], self._elements[parent] = self._elements[parent], self._elements[ndx]
                self._siftup(parent)

    def extract(self):
        """摘录抽取"""
        if self._count <= 0:
            raise Exception('empty')
        value = self._elements[0]  # 保存 root 值
        self._count -= 1
        self._elements[0] = self._elements[self._count]  # 最右下的节点放到root后siftDown
        self._siftdown(0)  # 维持堆特性
        return value

    # 获取并移除根节点的值。每次我们都可以获取最大值或者最小值，然后把底层最右边的节点值替换到root节点之后执行sift-down操作
    def _siftdown(self, ndx):
        left = ndx * 2 + 1
        right = ndx * 2 + 2
        # 找出当前节点及左右子节点中的最大值，与当前节点交换位置，并递归地对换下去的节点执行siftdown操作
        largest = ndx
        if left < self._count and self._elements[left] > self._elements[largest] and right < self._count and \
                self._elements[left] >= self._elements[right]:
            largest = left
        elif left < self._count and self._elements[left] > self._elements[largest] and right >= self._count:
            largest = left
        elif right < self._count and self._elements[right] > self._elements[largest]:
            largest = right
        if largest != ndx:
            self._elements[ndx], self._elements[largest] = self._elements[largest], self._elements[ndx]
            self._siftdown(largest)


def test_maxheap():
    import random
    n = 10
    h = MaxHeap(n)
    mylist = list(range(n))
    random.shuffle(mylist)
    for i in mylist:
        h.add(i)
    for i in reversed(range(n)):
        assert i == h.extract()

test_maxheap()

## 2、实现一个小根堆
实现同最大堆基本相同，仅仅节点的比较条件不同。

In [3]:
class Array(object):
    def __init__(self, size=32):  # 关键属性：分配空间和存储单位（使用列表的单个元素作为一个存储单位）
        self._size = size
        self._items = [None] * size

    def __getitem__(self, index):  # Called to implement evaluation of self[index]实现下标访问.
        return self._items[index]

    def __setitem__(self, index, value):  # Called to implement assignment to self[index].
        self._items[index] = value

    def __len__(self):
        return self._size

    def clear(self, value=None):
        for i in range(len(self._items)):
            self._items[i] = value

    def __iter__(self):
        for item in self._items:
            yield item


class MinHeap(object):
    def __init__(self, maxsize=None):
        self.maxsize = maxsize
        self._elements = Array(maxsize)
        self._count = 0

    def __len(self):
        return self._count

    def add(self, value):
        if self._count >= self.maxsize:
            raise Exception('full')
        self._elements[self._count] = value
        self._count += 1
        self._siftup(self._count - 1)

    def _siftup(self, ndx):
        if ndx > 0:
            parent = (ndx - 1) // 2
            if self._elements[ndx] < self._elements[parent]:
                self._elements[ndx], self._elements[parent] = self._elements[parent], self._elements[ndx]
                self._siftup(parent)

    def extract(self):
        if self._count <= 0:
            raise Exception('empty')
        value = self._elements[0]
        self._count -= 1
        self._elements[0] = self._elements[self._count]
        self._siftdown(0)
        return value

    def _siftdown(self, ndx):
        left = (ndx * 2) + 1
        right = (ndx * 2) + 2
        # 找出当前节点及左右子节点中的最小值，与当前节点交换位置，并递归地对换下去的节点执行siftdown操作
        smallest = ndx
        if left < self._count and self._elements[left] < self._elements[smallest] and right < self._count and \
                self._elements[left] <= self._elements[right]:
            smallest = left
        elif left < self._count and self._elements[left] < self._elements[smallest] and right >= self._count:
            smallest = left
        elif right < self._count and self._elements[right] < self._elements[smallest]:
            smallest = right
        if smallest != ndx:
            self._elements[ndx], self._elements[smallest] = self._elements[smallest], self._elements[ndx]
            self._siftdown(smallest)


def test_maxheap():
    import random
    n = 10
    h = MinHeap(n)
    mylist = list(range(n))
    random.shuffle(mylist)
    for i in mylist:
        h.add(i)
    for i in range(n):
        assert i == h.extract()
        
test_maxheap()        

## 3、实现一个堆排序
将无序序列中的元素依次add到同样大小的堆中，然后再依次extract对顶的元素，即可的带有序的序列。

### 倒序排序

In [None]:
def heapsort_reverse(array):
    length = len(array)
    maxheap = MaxHeap(length)
    for i in array:
        maxheap.add(i)
    res = []
    for i in range(length):
        res.append(maxheap.extract())
    return res

### 正序排序

In [None]:
def heapsort(array):
    length = len(array)
    minheap = MinHeap(length)
    for i in array:
        minheap.add(i)
    res = []
    for i in range(length):
        res.append(minheap.extract())
    return res

**T(N) = O(N Log N)** 缺点:**需要额外的O（N）空间，并且复制元素需要时间**

### 原地排序
以最大堆为例实现升序的排列：

对于最大堆来说，根几点的元素总是最大的，因此，如果每次都把根节点的元素和最后的元素互换位置，并将堆的元素计数减少一，然后再对推的当前根节点进行一次sift-down，那么最后的一个元素就是整个数组的最大值，不断的进行这样的操作，利用对的性质，就可以让一个数组最终从小到大排序。

In [None]:
def heapsort_inplace(array):
    length = len(array)
    maxheap = MaxHeap(length)
    for i in array:
        maxheap.add(i)
    while maxheap._count > 1:
        maxheap._elements[0], maxheap._elements[maxheap._count - 1] = maxheap._elements[maxheap._count - 1], maxheap._elements[0]
        maxheap._count -= 1
        maxheap._siftdown(0)
    return list(maxheap._elements)

## 下面是完整实现和测试代码

In [4]:
class Array(object):
    def __init__(self, size=32):  # 关键属性：分配空间和存储单位（使用列表的单个元素作为一个存储单位）
        self._size = size
        self._items = [None] * size

    def __getitem__(self, index):  # Called to implement evaluation of self[index]实现下标访问.
        return self._items[index]

    def __setitem__(self, index, value):  # Called to implement assignment to self[index].
        self._items[index] = value

    def __len__(self):
        return self._size

    def clear(self, value=None):
        for i in range(len(self._items)):
            self._items[i] = value

    def __iter__(self):
        for item in self._items:
            yield item


class MaxHeap(object):
    def __init__(self, maxsize=None):
        self.maxsize = maxsize
        self._elements = Array(maxsize)
        self._count = 0

    def __len__(self):
        return self._count

    def add(self, value):
        if self._count >= self.maxsize:
            raise Exception('full')
        self._elements[self._count] = value

        self._count += 1
        self._siftup(self._count - 1)  # 维持堆的特性

    def _siftup(self, ndx):
        if ndx > 0:
            parent = (ndx - 1) // 2
            if self._elements[ndx] > self._elements[parent]:  # 如果插入的值大于 parent，一直交换
                self._elements[ndx], self._elements[parent] = self._elements[parent], self._elements[ndx]
                self._siftup(parent)

                        
    def extract(self):
        """摘出头部"""
        if self._count <= 0:
            raise Exception('empty')
        value = self._elements[0]  # 保存 root 值
        self._count -= 1
        self._elements[0] = self._elements[self._count]  # 最右下的节点放到root后siftDown
        self._siftdown(0)  # 维持堆特性
        return value

    def _siftdown(self, ndx):
        left = ndx * 2 + 1
        right = ndx * 2 + 2
        # 找出当前节点及左右子节点中的最大值，与当前节点交换位置，并递归地对换下去的节点执行siftdown操作
        largest = ndx
        if left < self._count and self._elements[left] > self._elements[largest] and right < self._count and \
                self._elements[left] >= self._elements[right]:
            largest = left
        elif left < self._count and self._elements[left] > self._elements[largest] and right >= self._count:
            largest = left
        elif right < self._count and self._elements[right] > self._elements[largest]:
            largest = right
        if largest != ndx:
            self._elements[ndx], self._elements[largest] = self._elements[largest], self._elements[ndx]
            self._siftdown(largest)


class MinHeap(object):
    def __init__(self, maxsize=None):
        self.maxsize = maxsize
        self._elements = Array(maxsize)
        self._count = 0

    def __len(self):
        return self._count

    def add(self, value):
        if self._count >= self.maxsize:
            raise Exception('full')
        self._elements[self._count] = value
        self._count += 1
        self._siftup(self._count - 1)

    def _siftup(self, ndx):
        if ndx > 0:
            parent = (ndx - 1) // 2
            if self._elements[ndx] < self._elements[parent]:
                self._elements[ndx], self._elements[parent] = self._elements[parent], self._elements[ndx]
                self._siftup(parent)

    def extract(self):
        if self._count <= 0:
            raise Exception('empty')
        value = self._elements[0]
        self._count -= 1
        self._elements[0] = self._elements[self._count]
        self._siftdown(0)
        return value

    def _siftdown(self, ndx):
        left = (ndx * 2) + 1
        right = (ndx * 2) + 2
        # 找出当前节点及左右子节点中的最小值，与当前节点交换位置，并递归地对换下去的节点执行siftdown操作
        smallest = ndx
        if left < self._count and self._elements[left] < self._elements[smallest] and \
                self._elements[left] <= self._elements[right]:
            smallest = left
        elif right < self._count and self._elements[right] < self._elements[smallest]:
            smallest = right
        if smallest != ndx:
            self._elements[ndx], self._elements[smallest] = self._elements[smallest], self._elements[ndx]
            self._siftdown(smallest)


def heapsort_reverse(array):
    '''倒序堆排序'''
    length = len(array)
    maxheap = MaxHeap(length)
    for i in array:
        maxheap.add(i)
    res = []
    for i in range(length):
        res.append(maxheap.extract())
    return res


def heapsort(array):
    '''正序堆排序'''
    length = len(array)
    minheap = MinHeap(length)
    for i in array:
        minheap.add(i)
    res = []
    for i in range(length):
        res.append(minheap.extract())
    return res


# 以最大堆实现升序排列为例：
# 对于最大堆来说，根节点的元素是最大的，因此，如果每次都把根节点的元素和最后的元素互换位置，并将堆的元素计数减少1，然后再对堆的当前的
# 根节点进行一次sift down，那么最后一个元素就是整个数组的最大值，不断进行这样的操作，利用堆的性质，就可以让一个数组最终从小到大排序。
def heapsort_inplace(array):
    '''原地堆排序'''
    length = len(array)
    maxheap = MaxHeap(length)
    for i in array:
        maxheap.add(i)
    while maxheap._count > 1:
        maxheap._elements[0], maxheap._elements[maxheap._count - 1] = maxheap._elements[maxheap._count - 1], \
                                                                      maxheap._elements[0]
        maxheap._count -= 1
        maxheap._siftdown(0)
    return list(maxheap._elements)


def test_heapsort_reverse():
    import random
    mylist = list(range(10))
    random.shuffle(mylist)
    assert heapsort_reverse(mylist) == sorted(mylist, reverse=True)


def test_heapsort():
    import random
    mylist = list(range(10))
    random.shuffle(mylist)
    assert heapsort(mylist) == sorted(mylist)


def test_heapsort_inplace():
    import random
    mylist = list(range(100))
    random.shuffle(mylist)
    assert heapsort_inplace(mylist) == sorted(mylist)
    
test_heapsort_reverse()
test_heapsort()
test_heapsort_inplace()

## Python里的heapq模块
### heapq的特性
使用对所有的k都满足`heapp[k] <= heap[2*k+1]`和`heap[k] <= heap[2*k+2]`条件的数组实现，从0开始计算下标。最小的元素总是为第一个元素`heap[0]`，根节点。heapq实现的是最小堆。

创建一个堆的两种方法:
- 使用一个初始化位`[]`的list作为堆。
- 使用`heapify()`方法将已经填充元素的list转换为堆。

**heapq的常用方法：**
- heapq.heappush(heap,item)
    - 将item push到堆中，并维持堆的特性不变
- heapq.heappop(heap)    
    - pop并返回堆中的最小元素，并维持堆的特性不变。如果堆已空，唤起`IndexError`异常。使用`heap[0]`在不pop的情况获取最小的元素。
- heapq.heappushpop(heap,item)   
    - Push item到堆中，然后从堆中pop出最小的值。比单独使用`heappush()`以及`heappop()`效率更高。
- heapq.heapify(x)    
    - 以线性的时间在原地将list x转换成为一个堆。
- heapq.heapreplace(heap,item)    
    - Pop并且返回堆中的当前最小的元素，然后将新的item push到堆中。操作不会改变堆的大小，因此更加适合用在固定大小的堆中，比单独执行两个操作更加高效。如果堆已空，唤起`IndexError`异常。

## Top K 问题
在内存有限的情况下，使用最小堆求top k 问题。使用到heapq模块。

考虑到使用包含k个元素的最大堆和最小堆，不断加入元素并维持堆的大小不变。先用数组的前面的k个元素建立最大堆，然后对剩余的元素进行比对，最大堆只能**每次获取堆顶最大的一个元素**， 如果我们取下一个大于堆顶的值和堆顶替换，堆底部的小树一直不会被换掉。如果下一个元素小于堆顶就替换可能弹出的最大的元素。

使用最小堆时先迭代前k个元素建立一个最小堆，之后的元素如果小于堆顶的最小值，跳过，否则弹出堆顶的元素并加入元素重新调整堆。最小堆里面的元素慢慢就会被替换成为最大的那些值，并且最后堆顶是最大的topk个值中的最小值。（比如1000个数找10个，最后堆里剩余的是[990,991,992,996,994,993,997,998,999,995], 第一个990最小）

In [5]:
import heapq


class TopK(object):
    """获取大量元素 topk 大个元素，固定内存
    思路：
    1. 先放入元素前 k 个建立一个最小堆
    2. 迭代剩余元素：
        如果当前元素小于堆顶元素，跳过该元素（肯定不是前 k 大）
        否则替换堆顶元素为当前元素，并重新调整堆
    """

    def __init__(self, iterable, k):
        self.minheap = []
        self.capacity = k
        self.iterable = iterable

    def push(self, value):
        if len(self.minheap) >= self.capacity:
            min_value = self.minheap[0]
            if value > min_value:
                heapq.heapreplace(self.minheap, value)  # 返回并且pop堆顶最小值，推入新的 val 值并调整堆
        else:
            heapq.heappush(self.minheap, value)  # 前面 k 个元素直接放入minheap

    def get_topk(self):
        for i in self.iterable:
            self.push(i)
        return self.minheap


def test():
    import random
    mylist = list(range(1000))  # 这里可以是一个可迭代元素，节省内存
    random.shuffle(mylist)
    _ = TopK(mylist, 10) # 取10个元素
    print(_.get_topk())


if __name__ == '__main__':
    test()

[990, 991, 994, 992, 993, 998, 996, 999, 995, 997]
