# 堆和堆排序

堆是一种完全二叉树。
- 最大堆（max-heap）：父结点的值>=子树中每个结点的值。
- 最小堆（min-heap）：父结点的值<=子树中每个结点的值。

## 1 - 堆的表示

完全二叉树适合用数组储存，无需储存左右子结点的指针，直接通过下标即可找到其父结点和子结点。

- 如果数组下标从0开始，对结点 i：
    - 父结点：(i - 1) // 2
    - 左孩子：2 * i + 1
    - 右孩子：2 * i + 2

- 如果数组下标从1开始，对结点 i：
    - 父结点：i // 2
    - 左孩子：2 * i
    - 右孩子：2 * i + 1

## 2 - 堆的基本操作
以最大堆为例：
- H 表示用于储存堆的数组
- size是堆当前容纳的元素数量
- 每个操作的时间复杂度：t <= O(Tree Height) <= O(logn) 


#### SiftUp(i) 上调结点
如果子结点的值大于父结点，则将两者位置交换（即将子结点往上移），直到满足最大堆的性质。

In [1]:
def SiftUp(i):
    if i > 0:
        parent = (i - 1) // 2
        if H[i] > H[parent]:
            H[i], H[parent] = H[parent], H[i]
            SiftUp(parent)

#### SiftDown(i) 下调结点
如果子结点的值大于父结点，则将两者位置交换（即将父结点往下移），直到满足最大堆的性质。

In [2]:
def SiftDown(i):
    left = 2 * i + 1
    right = 2 * i + 2
    max_index = i
    if left < size and H[left] > H[max_index]:
        max_index = left
    if right < size and H[right] > H[max_index]:
        max_index = right
    if i != max_index:
        H[i], H[max_index] = H[max_index], H[i]
        SiftDown(max_index)

#### Insert(p) 插入结点
插入值为p的结点。
1. 先把新结点插入最右侧的空穴中
- 上调该结点，直到找到合适的位置

In [3]:
def Insert(p):
    H.append(p)
    size += 1
    SiftUp(size - 1)

#### ExtractMax() 提取最大结点
提取根节点并返回根节点的值。

1. 先返回根节点的值
- 然后用最右的结点取代根节点
- 下调新的根节点，直到找到合适的位置

In [4]:
def ExtractMax():
    if size < 1:
        return None
    root = H[0]
    H[0] = H[size - 1]
    size -= 1
    SiftDown(0)
    return root

#### Remove(i) 移除结点
去除位置i的元素。

1. 把位置i的元素的值改为“无穷大”
- 上调该结点
- ExtractMax()

In [5]:
def Remove(i):
    H[i] = float('inf')
    SiftUp(i)
    ExtractMax()

#### ChangePriority(i, p) 改变结点
把位置i的元素的值改为p。

In [6]:
def ChangePriority(i, p):
    old_p = H[i]
    if p > old_p:
        SiftUp(i)
    elif p < old_p:
        SiftDown(i)

#### 将上述操作合并到一个类里：

In [7]:
class MaxHeap:
    def __init__(self, array):
        self.arr = array
        self.H = []
        self.size = 0
    
    def SiftUp(self, i):
        if i > 0:
            parent = (i - 1) // 2
            if self.H[i] > self.H[parent]:
                self.H[i], self.H[parent] = self.H[parent], self.H[i]
                self.SiftUp(parent)
    
    def SiftDown(self, i):
        left = 2 * i + 1
        right = 2 * i + 2
        max_index = i
        if left < self.size and self.H[left] > self.H[max_index]:
            max_index = left
        if right < self.size and self.H[right] > self.H[max_index]:
            max_index = right
        if i != max_index:
            self.H[i], self.H[max_index] = self.H[max_index], self.H[i]
            self.SiftDown(max_index)
    
    def Insert(self, p):
        self.H.append(p)
        self.size += 1
        self.SiftUp(self.size - 1)
    
    def ExtractMax(self):
        root = self.H[0]
        self.H[0] = self.H[-1]
        self.H.pop()
        self.size -= 1
        self.SiftDown(0)
        return root
    
    def Remove(self, i):
        self.H[i] = float('inf')
        self.SiftUp(i)
        self.ExtractMax()
    
    def ChangePriority(i, p):
        old_p = self.H[i]
        self.H[i] = p
        if p > old_p:
            self.SiftUp(i)
        elif p < old_p:
            self.SiftDown(i)          

## 3 - 堆排序

### 3.1 - 非原位堆排序

把原始序列中每一个元素作为输入，调用n个Insert(i)把它们放入初始为空的堆中，然后用ExtractMax()逐个提取出最大值。

#### 时间复杂度：
- 建堆：最坏情形O(nlogn)
- 排序：O(nlogn)
- 总的时间复杂度：O(nlogn)

#### 空间复杂度：O(n)

In [8]:
class heap_sort_not_in_place:
    def __init__(self, array):
        self.arr = array
        self.H = []
        self.size = 0
    
    def SiftUp(self, i):
        if i > 0:
            parent = (i - 1) // 2
            if self.H[i] > self.H[parent]:
                self.H[i], self.H[parent] = self.H[parent], self.H[i]
                self.SiftUp(parent)
    
    def SiftDown(self, i):
        left = 2 * i + 1
        right = 2 * i + 2
        max_index = i
        if left < self.size and self.H[left] > self.H[max_index]:
            max_index = left
        if right < self.size and self.H[right] > self.H[max_index]:
            max_index = right
        if i != max_index:
            self.H[i], self.H[max_index] = self.H[max_index], self.H[i]
            self.SiftDown(max_index)
    
    def Insert(self, p):
        self.H.append(p)
        self.size += 1
        self.SiftUp(self.size - 1)
    
    def ExtractMax(self):
        root = self.H[0]
        # 思考：为什么不直接self.H[0]=self.H.pop()?
        # 答：这在H只有一个结点时会报错。
        self.H[0] = self.H[-1]
        self.H.pop()
        self.size -= 1
        self.SiftDown(0)
        return root
    
    # 非原位排序
    def HeapSort(self):
        for i in range(len(self.arr)):
            self.Insert(self.arr[i])
        for i in range(len(self.arr) - 1, -1, -1):
            self.arr[i] = self.ExtractMax()
        return self.arr

In [9]:
# 创建样例：初始的无序序列
S = heap_sort_not_in_place([4, 6, 8, 5, 9])
sorted_arr = S.HeapSort()
print(sorted_arr)

[4, 5, 6, 8, 9]


### 3.2 - 原位堆排序
#### 步骤：
1. 把序列搭建成堆：从最后一个非叶结点（下标为n//2 - 1)到根节点，逐个调用SiftDown(i)
2. 将堆顶元素和最后一个元素交换，使最大元素放到序列的最末端，并将该元素从堆中去除（size-1）
3. 将剩下n-1个元素重构为堆（SiftDown(0)即可）
4. 将步骤2、3重复n-1次，即可完成排序

#### 时间复杂度：
 - 建堆：平均时间复杂度为O(n)
 - 排序：O(nlogn)
 - 总的时间复杂度：O(nlogn)
 
 
 #### 空间复杂度：O(1)

In [10]:
class heap_sort_in_place:
    def __init__(self, array):
        self.H = array
        self.size = len(array)
    
    def SiftDown(self, i):
        left = 2 * i + 1
        right = 2 * i + 2
        max_index = i
        if left < self.size and self.H[left] > self.H[max_index]:
            max_index = left
        if right < self.size and self.H[right] > self.H[max_index]:
            max_index = right
        if i != max_index:
            self.H[i], self.H[max_index] = self.H[max_index], self.H[i]
            self.SiftDown(max_index)
    
    # 原位排序 In-place HeapSort
    def HeapSort(self):
        # Build Heap
        for i in range(self.size // 2 - 1, -1, -1):
            self.SiftDown(i)
        # In-place Sort
        for _ in range(self.size - 1):
            self.H[0], self.H[self.size - 1] = self.H[self.size - 1], self.H[0]
            self.size -= 1
            self.SiftDown(0)
        return self.H

In [11]:
S = heap_sort_in_place([4, 6, 8, 5, 9])
sorted_arr = S.HeapSort()
print(sorted_arr)

[4, 5, 6, 8, 9]


### 附：最小堆及用最小堆进行堆排序的代码

#### 最小堆

In [12]:
class MinHeap:
    def __init__(self, array):
        self.H = []
        self.size = 0
    
    def SiftUp(self, i):
        parent = (i - 1) // 2
        while i > 0 and self.H[i] < self.H[parent]:
                self.H[i], self.H[parent] = self.H[parent], self.H[i]
                i = parent
    
    def SiftDown(self, i):
        left = 2 * i + 1
        right = 2 * i + 2
        min_idx = i
        
        if left < self.size and self.H[left] < self.H[min_idx]:
            min_idx = left
        if right < self.size and self.H[right] < self.H[min_idx]:
            min_idx = right
        
        if min_idx != i:
            self.H[i], self.H[min_idx] = self.H[min_idx], self.H[i]
            self.SiftDown(min_idx)
    
    def Insert(self, p):
        self.H.append(p)
        self.size += 1
        self.SiftUp(self.size - 1)
    
    def ExtractMin(self):
        root = self.H[0]
        self.H[0] = self.H[-1]
        self.H.pop()
        self.size -= 1
        self.SiftDown(0)
        return root
    
    def Remove(self, i):
        self.H[i] = - float('inf')
        self.SiftUp(i)
        self.ExtractMin()
    
    def ChangePriority(self, i, p):
        old_p = self.H[i]
        self.H[i] = p
        if p > old_p:
            self.SiftDown(i)
        elif p < old_p:
            self.SiftUp(i)

#### 最小堆的非原位排序（从小到大排序）

In [13]:
class HeapSort_not_in_place:
    def __init__(self, array):
        self.arr = array
        self.H = []
        self.size = 0
    
    def SiftUp(self, i):
        parent = (i - 1) // 2
        while i > 0 and self.H[i] < self.H[parent]:
                self.H[i], self.H[parent] = self.H[parent], self.H[i]
                i = parent
    
    def SiftDown(self, i):
        left = 2 * i + 1
        right = 2 * i + 2
        min_idx = i
        
        if left < self.size and self.H[left] < self.H[min_idx]:
            min_idx = left
        if right < self.size and self.H[right] < self.H[min_idx]:
            min_idx = right
        
        if min_idx != i:
            self.H[i], self.H[min_idx] = self.H[min_idx], self.H[i]
            self.SiftDown(min_idx)
    
    def Insert(self, p):
        self.H.append(p)
        self.size += 1
        self.SiftUp(self.size - 1)
    
    def ExtractMin(self):
        root = self.H[0]
        self.H[0] = self.H[-1]
        self.H.pop()
        self.size -= 1
        self.SiftDown(0)
        return root
    
    def HeapSort(self):
        for i in range(len(self.arr)):
            self.Insert(self.arr[i])
        for i in range(len(self.arr)):
            self.arr[i] = self.ExtractMin()
        return self.arr

In [14]:
# test case
S = HeapSort_not_in_place([4, 6, 8, 5, 9])
sorted_arr = S.HeapSort()
print(sorted_arr)

[4, 5, 6, 8, 9]


#### 最小堆的原位排序（从大到小排序）

In [15]:
class HeapSort_in_place:
    def __init__(self, array):
        self.H = array
        self.size = len(array)

    def SiftDown(self, i):
        left = 2 * i + 1
        right = 2 * i + 2
        min_idx = i
        
        if left < self.size and self.H[left] < self.H[min_idx]:
            min_idx = left
        if right < self.size and self.H[right] < self.H[min_idx]:
            min_idx = right
        
        if min_idx != i:
            self.H[i], self.H[min_idx] = self.H[min_idx], self.H[i]
            self.SiftDown(min_idx)
            
    def HeapSort(self):
        for i in range((self.size - 1) // 2, -1, -1):
            self.SiftDown(i)
        # 从大到小排序
        for i in range(self.size - 1):
            self.H[0], self.H[self.size - 1] = self.H[self.size - 1], self.H[0]
            self.size -= 1
            self.SiftDown(0)
        return self.H

In [16]:
# test case
S = HeapSort_in_place([4, 6, 8, 5, 9])
sorted_arr = S.HeapSort()
print(sorted_arr)

[9, 8, 6, 5, 4]


## 4 - 直接调用python包实现堆排序

python的**heapq**模块可支持构建**最小堆**。

- heapq.heappush(heap, item)：插入结点。（相当于Insert())
- heapq.heappop(heap)：pop最小结点。（相当于ExtractMin())
- heapq.heappushpop(heap, item)：先插入item，再返回最小值。这个操作比先执行heappush()再执行heappop()快。
- heapq.heapreplace(heap, item)：先pop并返回最小结点，然后再插入item。这个操作比先heappop()后heappush()快。
- heapq.heapify(x)：把列表x转换为堆，该操作为原位操作，时间复杂度O(n)。
- heapq.merge()：将多个已排好序的序列合并成一个排序的序列。

In [17]:
import heapq

In [18]:
H = []
array = [4, 6, 8, 10, 5, 9]

In [19]:
# 原位建堆
heapq.heapify(array)
print(array)

[4, 5, 8, 10, 6, 9]


In [20]:
# 非原位建堆（push）
for i in range(len(array)):
    heapq.heappush(H, array[i])
    print('H:', H)
print('result:', H)

H: [4]
H: [4, 5]
H: [4, 5, 8]
H: [4, 5, 8, 10]
H: [4, 5, 8, 10, 6]
H: [4, 5, 8, 10, 6, 9]
result: [4, 5, 8, 10, 6, 9]


In [21]:
# 先pop后push
heapq.heapreplace(H, 2)
print(H)

[2, 5, 8, 10, 6, 9]


In [22]:
# 先push后pop
heapq.heappushpop(H, 1)
print(H)

[2, 5, 8, 10, 6, 9]


In [23]:
# pop
print('H:', H)
for _ in range(len(array)):
    heapq.heappop(H)
    print('H:', H)

H: [2, 5, 8, 10, 6, 9]
H: [5, 6, 8, 10, 9]
H: [6, 9, 8, 10]
H: [8, 9, 10]
H: [9, 10]
H: [10]
H: []


In [24]:
# 合并多个有序序列为一个有序序列
list(heapq.merge([1, 3, 5], [2, 4, 7], [-1, 2, 9]))

[-1, 1, 2, 2, 3, 4, 5, 7, 9]

#### 用heapq构建最大堆
用最小堆堆储存每个结点的相反值，则最大结点的相反数一定是最小堆里的最小值，即堆顶元素。

## 5 - 堆排序的应用

### 5.1 - 部分排序（Top K 问题）
返回序列中最大的K个元素

#### 对于少量的数据
采用原位堆排序。
1. 对数据建堆。O(n)
2. 执行K次ExtractMax()操作。O(Klogn)

当K<n/logn时，部分排序的时间复杂度为O(n)。

#### 对于海量数据，则不方便对所有元素建堆：
1. 建立一个大小为K的**最小堆**
2. 遍历序列中的每个元素并与堆顶元素进行比较，如果大于堆顶元素，则用该元素取代堆顶元素
3. 堆中始终储存访问过的最大的K个元素

#### 例题1：查找序列中最小的k个数
输入n个整数，找出其中最小的K个数。例如输入4,5,1,6,2,7,3,8这8个数字，则最小的4个数字是1,2,3,4。

In [25]:
import heapq
class Solution:
    def GetLeastNumbers_Solution(self, tinput, k):
        if k > len(tinput):
            return []
        heapq.heapify(tinput)
        result = []
        for _ in range(k):
            result.append(heapq.heappop(tinput))
        return result

In [26]:
# Sample input
sequence = [4,5,1,6,2,7,3,8]
S = Solution()
result = S.GetLeastNumbers_Solution(sequence, 4)
print(result)

[1, 2, 3, 4]


### 5.2 - 求动态数据集合的中位数
如果从数据流中读出奇数个数值，那么中位数就是所有数值排序之后位于中间的数值。如果从数据流中读出偶数个数值，那么中位数就是所有数值排序之后中间两个数的平均值。
#### 策略：
- 维护两个堆，一个最大堆，一个最小堆。将数字按由小到大排序，前半部分放入最大堆，后半部分放入最小堆。
- 为了使两个堆数据数目相差<=1，当数据总数目为奇数时，把新数据插入最大堆；偶数则插入最小堆。
- 为了保证最大堆中所有值都小于最小堆中的任意值：
    - 当数据总数为奇数时：如果新数据大于最小堆的最小值，则先把新数据插入最小堆，然后把最小堆的最小值插入最大堆。
    - 当数据总数为偶数时：如果新数据小于最大堆的最大值，则先把新数据插入最大堆，然后把最大堆的最大值插入最小堆。

In [27]:
import heapq
class GetMedianInStream:
    def __init__(self):
        self.count = 0
        self.max_heap = []
        self.min_heap = []
    
    #  读取数据流
    def Insert(self, num):
        # write code here
        self.count += 1
        # 奇数次的数据，存入最大堆
        if self.count & 1 == 1:
            # 如果num大于最小堆的最小值，则把num插入最小堆，再把最小堆的最小值插入最大堆
            if self.count > 1 and num > self.min_heap[0]:
                tmp = heapq.heappushpop(self.min_heap, num)
                heapq.heappush(self.max_heap, -tmp)
            # 否则直接插入最大堆
            else:
                heapq.heappush(self.max_heap, -num)
        # 偶数次的数据，存在最小堆
        else:
            # 如果num小于最大堆的最大值，则把num插入最大堆，再把最大堆的最大值插入最小堆
            if num < -self.max_heap[0]:
                tmp = heapq.heappushpop(self.max_heap, -num)
                heapq.heappush(self.min_heap, -tmp)
            # 否则直接插入最小堆
            else:
                heapq.heappush(self.min_heap, num)
    
    # 获取当前数据流的中位数
    def GetMedian(self):
        # write code here
        if self.count == 0:
            return None
        elif self.count & 1 == 1:
            return - self.max_heap[0]
        return (-self.max_heap[0] + self.min_heap[0] + 0.0) / 2

In [28]:
# Sample Input
S = GetMedianInStream()
seq = [4, 6, 8, 5, 9]
for num in seq:
    S.Insert(num)
    print(S.GetMedian())

4
5.0
6
5.5
6


### 5.3 - 优先队列（Priority Queue）
优先队列是队列的推广形式。在传统的队列中，元素按“先进先出（FIFO）”的顺序输出；而在优先队列里，每一个元素都会被赋予一个优先次序（priority），各元素按优先次序依次输出。

优先队列的搭建需要用到堆和堆排序，因此可以认为优先队列就是堆。