#  大纲

2022/05/14-2022/05/15

基本概念、实现方法、应用场景以及时间和空间复杂度


- [X] 堆如何实现？
- [X] 在python中有哪些现成的包如何使用？
- [X] 堆的时间空间复杂度？
- [X] 堆的优势与劣势，见我的总结
- [X] 堆的在题目中的典型应用
- [X] 堆在现实中的应用

参考资料：
- [详解数据结构——堆-知乎](https://zhuanlan.zhihu.com/p/85518062)
- [Python堆的基本用法](https://blog.csdn.net/weixin_44731100/article/details/106214614)
- [堆的妙用-力扣](https://leetcode.cn/circle/article/M47Vpo/)
- [宫水三叶-堆-github](https://github.com/SharingSource/LogicStack-LeetCode/wiki/%E5%A0%86)

`import heapq`

- `heapq.heappush(vec, num)`: return Nothing
- `heapq.heappop(vec)`: return the top item
- `heapq.heapify(vec)`: return Nothing, the vec itself will be heapified

# 基本概念

堆的定义，满足以下两个条件
- 完全二叉树：一个二叉树，除了最后一层外，其他所有层都是满的
- 任意节点的值总是大于等于(或小于等于)其子节点, 对应的就是最大堆和最小堆

堆的操作
- 插入：向堆中插入一个新的元素
- 删除：删除堆顶元素
- 建堆：把一个数组转变成堆
- top：查看堆顶元素

# 堆的实现
因为堆是完全二叉树，这意味着我们并不需要真正的使用一颗树来实现堆，可以直接用**数组**来实现，通过计算下标，得到父节点/子节点的对应关系。

- 父子节点的下标关系，假设下标以0开始，父节点的下标为n，则其两个子节点的下标为2n+1，2n+2。其父节点的下标为（n-1）//2.
    - 推导方法1（归纳法）:对于下标为0的节点，其两个子节点的下标分别为1，2，满足该规律；假设下标为n的节点满足此规律，则下标为n+1的节点，其子节点分别为(2n+2)+1=2(n+1)+1, (2n+2)+2=2(n+1)+2.由归纳法知，成立。
    - 推导方法2:设下标为n的节点位于l层的第k个，则其子节点位于l+1层的第2(k-1)+1,和2(k-1)+2个。对于从1-l层，一共有多少个节点？2^l-1个。则对于下标为n的节点来说，满足n + 1 = 2^(l-1)-1+k=> 2n = 2^l + 2k-4 ，其子节点的下标分别是2^l - 1 + 2(k-1)+1 - 1=2^l+2k-2 - 1=2n+4-2=2n+1, 2^l - 1 + 2(k-1)+2 - 1 = 2^l + 2k - 2 = 2n+2.
    - 拓展：如果下标以1开始，则知如果父节点下标为n，则其两个子节点下标为2(n-1)+1+1=2n,2(n-1)+2+1 =2n+1，逆关系是n//2
    
  
- [X] 可以用链表来实现吗。当然可以，插入删除操作的复杂度会不会更小？不会，还是需要不断比较的。

In [None]:
# 堆的数组实现，最小堆
class MinHeap(object):
    def __init__(self, vec=[]):
        self.vec = []
        self.len = 0
        if vec:
            self.heapify(vec)
            
    def push(self, data):
        self.vec.append(data) # 先存放到最尾部
        self.len += 1
        child_id = self.len - 1
        father_id = (child_id - 1) // 2
        while father_id >= 0 and self.vec[child_id] < self.vec[father_id]: # 上浮操作，和更大的父节点交换
            self.vec[father_id], self.vec[child_id] = self.vec[child_id], self.vec[father_id]
            child_id = father_id
            father_id = (child_id - 1) // 2
        
    def isEmpty(self):
        return self.len == 0
    
    
    def top(self):
        if self.isEmpty():
            return False
        return self.vec[0]
    
    def pop(self):
        if self.isEmpty():
            return False
        top_val = self.vec[0] # 删除堆顶元素
        self.vec[0] = self.vec[-1]  # 把堆尾元素放到堆顶，
        self.vec.pop()
        self.len -= 1
        father_id = 0 
        while 2 * father_id + 2 <= self.len: # 再执行下沉操作
            left_child_id = 2 * father_id + 1
            right_child_id = 2 * father_id + 2
            select_id = left_child_id
            if right_child_id < self.len and self.vec[right_child_id] < self.vec[left_child_id]:
                select_id = right_child_id
            if self.vec[father_id] <= self.vec[select_id]: # 和更小的子节点交换
                break
            self.vec[select_id], self.vec[father_id] = self.vec[father_id], self.vec[select_id]
            father_id = select_id
        return top_val

    def heapify(self, vec):
        for dat in vec:
            self.push(dat)
        
        

In [None]:

vec = [7,2,4,6,8,2,5,4]
print("Input: ", vec)
h = MinHeap(vec)
for _ in vec:
    print(h.pop())
    
vec = []
print("Input: ", vec)
h = MinHeap(vec)
for _ in vec:
    print(h.pop())

In [None]:
# 堆的数组实现，最大堆
class MaxHeap(object):
    def __init__(self, vec=[]):
        self.vec = []
        self.len = 0
        if vec:
            self.heapify(vec)
            
    def push(self, data):
        self.vec.append(data) # 先存放到最尾部
        self.len += 1
        child_id = self.len - 1
        father_id = (child_id - 1) // 2
        while father_id >= 0 and self.vec[child_id] > self.vec[father_id]: # 上浮操作，和更小的父节点交换
            self.vec[father_id], self.vec[child_id] = self.vec[child_id], self.vec[father_id]
            child_id = father_id
            father_id = (child_id - 1) // 2
        
    def isEmpty(self):
        return self.len == 0
    
    
    def top(self):
        if self.isEmpty():
            return False
        return self.vec[0]
    
    def pop(self):
        if self.isEmpty():
            return False
        top_val = self.vec[0] # 删除堆顶元素
        self.vec[0] = self.vec[-1]  # 把堆尾元素放到堆顶，
        self.vec.pop()
        self.len -= 1
        father_id = 0 
        while 2 * father_id + 2 <= self.len: # 再执行下沉操作
            left_child_id = 2 * father_id + 1
            right_child_id = 2 * father_id + 2
            select_id = left_child_id
            # 和更大的子节点交换
            if right_child_id < self.len and self.vec[right_child_id] > self.vec[left_child_id]:
                select_id = right_child_id
            if self.vec[father_id] >= self.vec[select_id]: 
                break
            self.vec[select_id], self.vec[father_id] = self.vec[father_id], self.vec[select_id]
            father_id = select_id
        return top_val

    def heapify(self, vec):
        for dat in vec:
            self.push(dat)
        

In [None]:
vec = [7,2,4,6,8,2,5,4]
print("Input: ", vec)
h = MaxHeap(vec)
for _ in vec:
    print(h.pop())
    
    
vec = []
print("Input: ", vec)
h = MaxHeap(vec)
for _ in vec:
    print(h.pop())

在python中的使用，可以用现成的包heapq，默认是**最小堆**。

操作有
- `heapq.heappush(vec, num)`: return Nothing
- `heapq.heappop(vec)`: return the top item
- `heapq.heapify(vec)`: return Nothing, the vec itself will be heapified

In [None]:
import heapq
heap = []
heapq.heappush(heap, 3)
heapq.heappush(heap, 1)
heapq.heappush(heap, 2)
print(heapq.heappop(heap))
print(heapq.heappop(heap))
print(heapq.heappop(heap))

res = [4,2,1,5,2]
heapq.heapify(res)
print(res)

# 复杂度

从上述实现可以看出

- 插入：时间复杂度O(log n)，因为要上浮最多log n次
- 删除：时间复杂度O(log n)，因为要下沉最多log n次
- 建堆：时间复杂度O(nlog n)，因为对每个元素都要做一次插入。
- top：时间复杂度O(1)

空间复杂度 O(n)

# Leetcode例题

- TopK
    - 🌟[(easy)703数据流中的第k大元素](https://leetcode.cn/problems/kth-largest-element-in-a-stream/)。思路：用一个最大长度为k的堆，维护当前最大的k个元素，堆顶是第k大的元素，也就是这k个元素里最小的。所以使用小顶堆。每次遇到新元素，和堆顶比较，决定是否入堆。时间复杂度是O(nlogK)，空间复杂度是O(K)
    - [(easy)40最小的k个数](https://leetcode.cn/problems/zui-xiao-de-kge-shu-lcof/)。思路：同703，只不过要维护当前最小的k个元素，堆顶是第k小的元素，也就是用一个大顶堆。
    - [(medium)215数组中的第k个最大元素](https://leetcode.cn/problems/kth-largest-element-in-an-array/)。思路：同703，用一个最大长度为k的小顶堆来维护。时间复杂度是O(nlogk)
    - [(medium)347前k个高频元素](https://leetcode.cn/problems/top-k-frequent-elements/).思路：同703.稍微复杂的一点是，比较次数，返回原本的数字，也就是说堆中既要存放数字，也要存放该数字出现的次数，且将次数放在第一位用于排序。
    - 🌟[(medium)373查找和最小的k对数字](https://leetcode.cn/problems/find-k-pairs-with-smallest-sums/)
        - 思路一：很直接：用一个大顶堆，记录最多k个当前最小的和。两遍遍历nums1和nums2，对所有可能的数对，进行尝试入堆。最后堆中的k个数对，即为要求的结果。当然，因为nums1和nums2已经升序排好了，可以判断提前停止。时间复杂度是O(k^2logk)。
        - 思路二：巧妙利用已经排好序这个信息，使用一个小顶堆，将出堆元素作为结果。即每次出堆的都是当前最小的。
            - 很容易知道所有数对中最小的，是nums1[0], nums2[0]
            - 那第二小的是谁呢？可能是nums1[0], nums2[1] ，也可能是nums1[1], nums2[0]。这实际上是拿nums1[1]的最小的组合，和nums1[0]的最小的组合做比较。
            - 那第三小的是谁呢？可能是nums1[1]的最小的组合，和nums1[0]的最小的组合做比较；也可能是nums1[2]的最小的组合，和nums1[1]的最小的组合做比较。具体是谁，有上一步的比较结果决定。
            - 依次类推，当出了k个数的时候，就拿到了结果。
            这个解法的时间复杂度是O(klogk)，因为只进行了k次出堆，2k次入堆（k次初始化，k次比较）。
    - [(medium)1705吃苹果的最大数目](https://leetcode.cn/problems/maximum-number-of-eaten-apples/)。思路：先找个例子模拟一下，用一个列表，记录元素（苹果个数，过期日子），发现要吃到最多苹果的方法，就是每天把最先要过期（top1问题）的苹果吃掉（贪心法）。所以，需要一个小顶堆来维护苹果过期的日子。具体的出堆入堆操作是：把每天的新苹果入堆，以及每天吃剩下的苹果入堆；把当前过期了的苹果出堆。注意：最后当不收获苹果之后，也可能有苹果剩余，要继续吃，直到吃完/或全部烂掉。
    

- [(hard)987二叉树的垂序遍历](https://leetcode.cn/problems/vertical-order-traversal-of-a-binary-tree/)。思路：这道题整体思想是，按照col的大小出堆，对于同一个col的，先按照row排序，再按照val排序，将对应的val放到一个队列。需要维护的是出堆的时候，能依次按照col大小，row大小和val大小即可。分两步来做，第一步是把树中的节点存放到堆中，第二步是出堆，并按列保存结果。 
- 🌟[(hard)871最低加油次数](https://leetcode.cn/problems/minimum-number-of-refueling-stops/)
    - 思路一：对于每次到达的一个加油站，选择加油或者不加油，并将新的加油对应的总油量和加油次数记录下来。用一个小顶堆来保存记录，按加油次数找最小，每次先将无法到达该加油站的记录删除掉，然后对剩下的记录，依次进行加油操作，并入堆。对于终点的判断，同加油站。第一个出堆的即为满足条件的记录。
    - 思路二：改进版：上述有很多重复的地方，即相同的加油次数，可能对应着不同的油量，其实只有最大的油量对我们来说是有意义的，无须记录其他较少的油量。这个可以用一个哈希map来过滤。
    - 思路三：改进版2:受思路二的启发，我们真正需要的只是每个加油次数对应的最大剩余油量。在每个加油站，根据此来判断，多花一次加油值不值得。最大加油次数可以early 确定，就是当最大剩余油量大于等于里程数的时候。
    - 思路四：来自https://leetcode.cn/problems/minimum-number-of-refueling-stops/solution/xian-gao-ming-bai-qi-che-wei-shi-yao-xu-qkpug/。 上述三个思路的想法都是，在一个加油站，把加油和不加油两种情况都考虑进去。下一个思路的想法是：当不得不加油的时候，再加油，而且加最多的油。
- [(hard)295数据流的中位数](https://leetcode.cn/problems/find-median-from-data-stream/)。很经典的一道题。思路就是：我想快速找到位于中间的1/2个数。如何？使用两个堆来维护，一个存放较小的那一半，使用大顶堆，一个存放较大的那一半，使用小顶堆。在入堆的时候要注意平衡两个堆的大小。
- 🌟[(hard)41缺失的第一个正数](https://leetcode.cn/problems/first-missing-positive/)
    - 思路一：第一遍遍历使用堆记录所用正整数；第二遍遍历，寻找目标是否在堆中；如果目标在堆中，就进行出堆，同时扩大目标。时间复杂度：第一个遍历O(n)，第二个出堆O(nlogn)，总体是O(nlogn)，空间复杂度O(n)：需要存放数组。
    - 思路二：考虑要求常数的空间复杂度，那我只能借助原来的数组来存放需要的信息。假设原数组已经排好序了且无重复且均为正整数，那这样的最小数是什么？是第一个nums[i] != i + 1的数，即第i个数的值不是i+1的数。所以用原数组整理顺序，希望让值为i+1的数到达下标为i的位置。在进行标记的时候，将该下标i，和下一个下标nums[i]（下标为该数）进行交换，把下一个下标的数进行交换完成的标记，并将其值交换到本下标i。这一过程中，待交换的下标始终没有发生变化，为i。终止交换的条件有
        - 该下标和下一个下标nums[i]一样，对本下标进行完成标记，并开始新的下标的交换。
        - 当前下标不满足交换条件：nums[i]为负，已经有了完成交换标记
        - 下一个下标对应的值不满足交换条件：小于等于零，或已经被交换过
      对每一个数都进行最多一次的交换。这一过程的时间复杂度是O(n)。最后来一次遍历，第一个不符合条件的下标，对应的正整数就是要求结果。否则为总长度+1
- [(hard)23合并k个排序列表](https://leetcode.cn/problems/merge-k-sorted-lists/)
    - 思路一：全部入小顶堆，依次出小顶堆。缺点是：空间复杂度特别高。是O(kn)的，假设k是链表的个数，n是每个链表长度的量级
    - 思路二：优化存储堆，只存储表头。出堆的时候，再将表头后面的数字入堆。注意：因为python的heap无法比较ListNode，所以不能直接保存listnode，但是可以保存该node所在的表的下标。
- 🌟[(hard)480滑动窗口的中位数](https://leetcode.cn/problems/sliding-window-median/)。这道题的细节非常非常的多！本质思想同295数据流的中位数，用两个堆（小的一半，大的一半）来维护中位数。不同点在于出堆需要延迟。如果没能及时出堆，需要记录下来，当堆头是要出堆的元素的时候再出堆。
    - 细节一：入堆和出堆的条件必须一致。否则，因为会存在重复的数，假如入堆和出堆的条件不一致，因为数字相同，extra记录会出现问题。
    - 细节二：维护两个堆的平衡，结束维护的条件是，两个堆的size满足条件，且堆头都不是要出堆的元素。



参考：
- https://blog.csdn.net/qq_37007384/article/details/104899588

In [None]:
# 703

class KthLargest:

    def __init__(self, k: int, nums: List[int]):
        self.heap = []
        self.k = k
        for num in nums:
            self.add(num)
        
        # print(self.heap)

    def add(self, val: int) -> int:
        if len(self.heap) < self.k or self.heap[0] < val:
            self.push(val)
        if len(self.heap) > self.k:
            self.pop()
        return self.heap[0]

    def push(self, val: int):
        child_id = len(self.heap)
        father_id = (child_id - 1) // 2
        self.heap.append(val)
        while father_id >= 0 and self.heap[child_id] < self.heap[father_id]:
            self.heap[father_id], self.heap[child_id] = self.heap[child_id], self.heap[father_id]
            child_id = father_id
            father_id = (child_id - 1) // 2

    def pop(self):
        self.heap[0] = self.heap[-1]
        self.heap.pop()
        father_id = 0
        while True:
            left_child_id = 2 * father_id + 1
            right_child_id = 2 * father_id + 2
            select_child = left_child_id
            if right_child_id < len(self.heap) and self.heap[right_child_id] < self.heap[left_child_id]:
                select_child = right_child_id
            if select_child >= len(self.heap) or self.heap[father_id] <= self.heap[select_child]:
                break
            self.heap[father_id], self.heap[select_child] = self.heap[select_child], self.heap[father_id]
            father_id = select_child
        # print("in pop",self.heap)




# Your KthLargest object will be instantiated and called as such:
# obj = KthLargest(k, nums)
# param_1 = obj.add(val)


In [None]:
# 40 
import heapq
class Solution:
    def getLeastNumbers(self, arr: List[int], k: int) -> List[int]:
        res = []
        if k == 0:
            return res
        for val in arr:
            if len(res) < k or -res[0] > val:
                heapq.heappush(res, -val)
            if len(res) > k:
                heapq.heappop(res)
        return [-val for val in res]

In [None]:
# 373
import heapq
class Solution:
    def kSmallestPairs(self, nums1: List[int], nums2: List[int], k: int) -> List[List[int]]:
        heap = [] # 用一个大顶堆，记录最多k个当前最小的和
        for num1 in nums1[:k]:
            if len(heap) == k and -heap[0][0] <= num1 + nums2[0]: # 提前停止
                break
            for num2 in nums2[:k]: # 两遍循环
                if len(heap) < k or -heap[0][0] > num1 + num2: # 判断和当前堆顶元素的关系
                    heapq.heappush(heap, [-num1 - num2, num1, num2])
                    if len(heap) > k:
                        heapq.heappop(heap)
                else:
                    break
        return [item[1:] for item in heap]


In [None]:
# 373 思路二， 
# 来自题解https://leetcode.cn/problems/find-k-pairs-with-smallest-sums/solution/gong-shui-san-xie-duo-lu-gui-bing-yun-yo-pgw5/
# 和https://leetcode.cn/problems/find-k-pairs-with-smallest-sums/solution/tong-ge-lai-shua-ti-la-you-xian-ji-dui-l-fw7y/
class Solution:
    def kSmallestPairs(self, nums1: List[int], nums2: List[int], k: int) -> List[List[int]]:
        flag, ans = (n := len(nums1)) > (m := len(nums2)), []
        if flag:
            n, m, nums1, nums2 = m, n, nums2, nums1
        pq = []
        for i in range(min(n, k)):
            heapq.heappush(pq, (nums1[i] + nums2[0], i, 0))
        while len(ans) < k and pq:
            _, a, b = heapq.heappop(pq)
            ans.append([nums2[b], nums1[a]] if flag else [nums1[a], nums2[b]])
            if b + 1 < m:
                heapq.heappush(pq, (nums1[a] + nums2[b + 1], a, b + 1))
        return ans

In [None]:
# 215
import heapq
class Solution:
    def findKthLargest(self, nums: List[int], k: int) -> int:
        heap = []
        for num in nums:
            if len(heap) < k or num > heap[0]:
                heapq.heappush(heap, num)
                if len(heap) > k:
                    heapq.heappop(heap)
        return heap[0]


In [None]:
# 347
from collections import Counter
import heapq
class Solution:
    def topKFrequent(self, nums: List[int], k: int) -> List[int]:
        cnts = Counter(nums)
        heap = []
        for key, val in cnts.items():
            if len(heap) < k or val > heap[0][0]:
                heapq.heappush(heap, (val, key))
                if len(heap) > k:
                    heapq.heappop(heap)
        return [item[1] for item in heap]

In [None]:
# 1705
import heapq
class Solution:
    def eatenApples(self, apples: List[int], days: List[int]) -> int:
        apple_heap = [] # 记录（过期日期，剩余苹果个数）
        res = 0
        for i in range(len(apples)):
            apple = apples[i]
            day = days[i] + i
            heapq.heappush(apple_heap, [day, apple]) # 每天新收货的苹果入堆
            while apple_heap and apple_heap[0][0] <= i: # 丢掉过期的苹果
                heapq.heappop(apple_heap)
            if apple_heap: # 决定吃掉一个苹果
                top_day_apple = heapq.heappop(apple_heap)
                res += 1
                if top_day_apple[1] > 1 and top_day_apple[0] > i + 1: # 决定剩下的苹果是否要入堆，如果明天就过期了，就直接扔掉。
                    heapq.heappush(apple_heap, [top_day_apple[0], top_day_apple[1] - 1])
        
        # 继续吃苹果，直到吃完或烂完
        i += 1
        while True:
            while apple_heap and apple_heap[0][0] <= i:
                heapq.heappop(apple_heap)
            if apple_heap:
                top_day_apple = heapq.heappop(apple_heap)
                res += 1
                if top_day_apple[1] > 1 and top_day_apple[0] > i + 1:
                    heapq.heappush(apple_heap, [top_day_apple[0], top_day_apple[1] - 1])
                i += 1
            else:
                break
        return res

In [None]:
# 1705 换汤不换药，修剪版
import heapq
class Solution:
    def eatenApples(self, apples: List[int], days: List[int]) -> int:
        apple_heap = [] # left_days, apple_num
        res = 0
        i = 0
        while True:
            if i < len(apples):
                apple = apples[i]
                day = days[i] + i
                heapq.heappush(apple_heap, [day, apple])
            while apple_heap and apple_heap[0][0] <= i:
                heapq.heappop(apple_heap)
            if apple_heap:
                top_day_apple = heapq.heappop(apple_heap)
                res += 1
                if top_day_apple[1] > 1 and top_day_apple[0] > i + 1:
                    heapq.heappush(apple_heap, [top_day_apple[0], top_day_apple[1] - 1])
            else:
                if i >= len(apples):
                    break
            i += 1
        return res

In [None]:
# 987
# Definition for a binary tree node.
# class TreeNode:
#     def __init__(self, val=0, left=None, right=None):
#         self.val = val
#         self.left = left
#         self.right = right
import heapq
class Solution:
    def verticalTraversal(self, root: TreeNode) -> List[List[int]]:
        heap = []
        left_nodes = [(root, 0, 0)]
        while left_nodes:
            top, row_id, col_id = left_nodes.pop()
            if top.left:
                left_nodes.append((top.left, row_id + 1, col_id - 1))
            if top.right:
                left_nodes.append((top.right, row_id + 1, col_id + 1))
            heapq.heappush(heap, [col_id, row_id, top.val])
        last_col = None
        res = []
        while heap:
            top_item = heapq.heappop(heap)
            if last_col is None or top_item[0] != last_col:
                last_col = top_item[0]
                res.append([top_item[2]])
            else:
                res[-1].append(top_item[2])
        return res

In [None]:
# 871  超时 
import heapq
class Solution:
    def minRefuelStops(self, target: int, startFuel: int, stations: List[List[int]]) -> int:
        fuel_heap = [[0, startFuel]]
        for mile, gas in stations:
            while fuel_heap and fuel_heap[0][1] < mile: # 对于每一个站，删除掉无法到达该站的记录
                heapq.heappop(fuel_heap)
            if not fuel_heap: # 如果没有任何一条记录可以抵达加油站，直接返回-1
                return -1
            refuel_now = []
            for base_time, base_gas in fuel_heap: 
                if base_gas > target:
                    continue
                refuel_now.append([base_time + 1, base_gas + gas]) # 将在该站进行加油操作，对应的总油量和加油次数记录下来
            for cur_time, refuel_gas in refuel_now: # 存放到堆中
                heapq.heappush(fuel_heap, [cur_time, refuel_gas])
        while fuel_heap and fuel_heap[0][1] < target:
            heapq.heappop(fuel_heap)
        if not fuel_heap:
            return -1
        return heapq.heappop(fuel_heap)[0]

In [None]:
# 871  改进版 348ms
import heapq
class Solution:
    def minRefuelStops(self, target: int, startFuel: int, stations: List[List[int]]) -> int:
        fuel_heap = [[0, startFuel]]
        time2maxgas = {0: startFuel}
        for mile, gas in stations:
            while fuel_heap and fuel_heap[0][1] < mile:
                heapq.heappop(fuel_heap)
            if not fuel_heap:
                return -1
            refuel_now = []
            while fuel_heap:
                base_time, base_gas = heapq.heappop(fuel_heap)
                if base_gas >= time2maxgas[base_time]:
                    time2maxgas[base_time] = base_gas # 只有某个次数对应的最大的油量对我们来说是有意义的
                    refuel_now.append([base_time, base_gas])
                if base_gas >= target:
                    continue
                refuel_gas = base_gas + gas
                if refuel_gas > time2maxgas.get(base_time + 1, 0):
                    time2maxgas[base_time + 1] = refuel_gas
                    refuel_now.append([base_time + 1, refuel_gas])
            for cur_time, refuel_gas in refuel_now:
                if refuel_gas == time2maxgas[cur_time]:
                    heapq.heappush(fuel_heap, [cur_time, refuel_gas]) # 只有某个次数对应的最大的油量对我们来说是有意义的
        while fuel_heap and fuel_heap[0][1] < target:
            heapq.heappop(fuel_heap)
        if not fuel_heap:
            return -1
        return heapq.heappop(fuel_heap)[0]

In [None]:
# 871 改进版二 92ms
class Solution:
    def minRefuelStops(self, target: int, startFuel: int, stations: List[List[int]]) -> int:
        min_time, max_time = 0, 0
        time2maxgas = {0: startFuel}
        stations.append([target, 0])
        for mile, gas in stations:
            if time2maxgas[max_time] < mile:  # 当最大次数对应的里程数无法到达该站时，返回-1
                return -1
            for time in range(min_time, max_time + 1):
                if time2maxgas[time] >= mile: # 过滤掉那些无法到达该站的加油次数。
                    min_time = time
                    break
            if gas == 0:
                return min_time
            new_records = {}
            for time in range(min_time, max_time + 1):
                if time + 1 not in time2maxgas or time2maxgas[time + 1] < gas + time2maxgas[time]: # 只有当多花一次加油次数，加的油比现在多一次剩余的油量多的时候，才进行加油。
                    new_records[time + 1] = gas + time2maxgas[time] 
                    if new_records[time + 1] > target: # 最大加油次数可以early 确定，就是当最大剩余油量大于等于里程数的时候。
                        break
            max_time = time + 1
            for key, val in new_records.items(): # 全部加完之后，再更新记录
                time2maxgas[key] = val
        return -1

In [None]:
# 871 思路四 44ms
import heapq
class Solution:
    def minRefuelStops(self, target: int, startFuel: int, stations: List[List[int]]) -> int:
        own_gases = []
        left_gas = startFuel
        add_times = 0
        stations.append([target, 0])
        for mile, gas in stations:
            while own_gases and left_gas < mile:
                left_gas -= heapq.heappop(own_gases)
                add_times += 1
            if left_gas < mile:
                return -1
            heapq.heappush(own_gases, -gas)
            if gas == 0:
                return add_times
        return -1

In [None]:
# 295
import heapq
class MedianFinder:
    def __init__(self):
        self.smaller_half = [] # this is the maxheap
        self.bigger_half = [] # this is the minheap


    def addNum(self, num: int) -> None:
        if not self.smaller_half:
            self.smaller_half.append(-num)
            return
        if len(self.smaller_half) > len(self.bigger_half): 
            if num < -self.smaller_half[0]:
                next_bigger = - heapq.heappop(self.smaller_half)
                heapq.heappush(self.bigger_half, next_bigger)
                heapq.heappush(self.smaller_half, -num)
            else:
                heapq.heappush(self.bigger_half, num)
        else:
            if num < self.bigger_half[0]:
                heapq.heappush(self.smaller_half, -num)
            else:
                next_smaller = heapq.heappop(self.bigger_half)
                heapq.heappush(self.bigger_half, num)
                heapq.heappush(self.smaller_half, -next_smaller)

    def findMedian(self) -> float:
        # print(self.smaller_half, self.bigger_half)
        if len(self.smaller_half) == len(self.bigger_half):
            return ( - self.smaller_half[0] + self.bigger_half[0]) / 2.0
        else:
            return -self.smaller_half[0]


# Your MedianFinder object will be instantiated and called as such:
# obj = MedianFinder()
# obj.addNum(num)
# param_2 = obj.findMedian()

In [None]:
# 41 思路一：堆
import heapq
class Solution:
    def firstMissingPositive(self, nums: List[int]) -> int:
        possible_heap = [] # 用堆记录找到的数字
        for num in nums:
            if num <= 0:
                continue
            heapq.heappush(possible_heap, num) 
        aim_int = 1 # 目标数字
        while possible_heap and aim_int == possible_heap[0]: # 如果找到目标数字，就出堆，把目标增加
            while possible_heap and aim_int == possible_heap[0]:
                heapq.heappop(possible_heap)
            aim_int += 1
        return aim_int

In [None]:
# 41 思路二：原地标记
class Solution:
    def firstMissingPositive(self, nums: List[int]) -> int:
        start_id = 0
        max_val = len(nums) + 1
        for i in range(max_val - 1): # 第一遍循环，处理所有可能的干扰项，即存储的值超过了我们最大可能的正整数时
            if nums[i] >= max_val:
                nums[i] = -1
        while start_id < max_val - 1: # 第二遍循环，进行满足条件标记
            if nums[start_id] == start_id + 1: # 下一个交换的位置是其本身，满足条件，进行下一个起始位置的处理。
                nums[start_id] = max_val
                start_id += 1
            else:
                if nums[start_id] <= 0 or nums[start_id] == max_val or nums[nums[start_id] - 1] == max_val:
                    # 判断是否要和下一个数进行交换，如果当前值为负数，或已经满足条件，或下一个数不需要交换的时候
                    start_id += 1
                else:
                    # 和下一个数进行交换
                    next_id = nums[start_id] - 1
                    nums[start_id] = nums[next_id]
                    nums[next_id] = max_val
        for i in range(max_val -  1): # 第三遍循环，找到最小的不满足条件的数
            if nums[i] != max_val:
                return i + 1
        return max_val

In [None]:
# 23 思路一：全部存到栈中
import heapq
class Solution:
    def mergeKLists(self, lists: List[Optional[ListNode]]) -> Optional[ListNode]:
        heap = []
        for sub_list in lists:
            while sub_list:
                heapq.heappush(heap, sub_list.val)
                sub_list = sub_list.next
        head = None
        res = None
        while heap:
            next_node = ListNode(heapq.heappop(heap))
            if head is None:
                head = next_node
                res = head
            else:
                res.next = next_node
                res = res.next
        return head

In [None]:
# 23 思路二：只把表头的值入堆
import heapq
class Solution:
    def mergeKLists(self, lists: List[Optional[ListNode]]) -> Optional[ListNode]:
        heap = []
        for i, sub_list in enumerate(lists):
            if sub_list:
                heapq.heappush(heap, (sub_list.val, i)) # python不能比较ListNode的大小，所以将该链表对应的下标入堆。
                lists[i] = sub_list.next
        head = ListNode(0) # dummy变量的运用，很巧妙！
        res = head
        while heap:
            top_val, top_id = heapq.heappop(heap)
            if lists[top_id]: # 出堆的时候，判断是否要继续入堆。
                heapq.heappush(heap, (lists[top_id].val, top_id))
                lists[top_id] = lists[top_id].next

            next_node = ListNode(top_val)
            res.next = next_node
            res = res.next
        return head.next


In [None]:
# 480
import heapq
class Solution:
    def __init__(self):
        self.left_heap = [] # a maxheap，记录小的那一半
        self.right_heap = [] # a minheap，记录大的那一半
        self.buffer = {} # 延迟出堆的记录
        self.left_extra_len = 0 # 左边有多少个多余的元素，需要出堆但还没有出堆的，用于计算size的平衡
        self.right_extra_len = 0 # 右边有多少个多余的元素，需要出堆但还没有出堆的，用于计算size的平衡

    def findMedian(self):
        if len(self.left_heap) - self.left_extra_len == len(self.right_heap) - self.right_extra_len:
            return (-self.left_heap[0] + self.right_heap[0])/2.0
        else:
            return -self.left_heap[0]

    def addNumber(self, num):
        if not self.left_heap:
            heapq.heappush(self.left_heap, -num)
            return
        if num <= -self.left_heap[0]:  # 必须和出堆条件一致
            heapq.heappush(self.left_heap, -num)
        else:
            heapq.heappush(self.right_heap, num)
        self.prune()
    
    def prune(self):
        # 清洗堆头，并且维护两个size的平衡
        left_true = False
        right_true = False
        while self.left_extra_len > 0 and self.buffer.get(-self.left_heap[0], 0) > 0:
            self.buffer[-heapq.heappop(self.left_heap)] -= 1
            self.left_extra_len -= 1
        while self.right_extra_len > 0 and self.buffer.get(self.right_heap[0], 0) > 0:
            self.buffer[heapq.heappop(self.right_heap)] -= 1   
            self.right_extra_len -= 1

        # maintain the balance of the left heap and right heap
        while len(self.left_heap) - self.left_extra_len - 1 > len(self.right_heap) - self.right_extra_len:
            to_move = -heapq.heappop(self.left_heap)
            if self.buffer.get(to_move, 0) > 0:
                self.buffer[to_move] -= 1
                self.left_extra_len -= 1
            else:
                heapq.heappush(self.right_heap, to_move)

        while len(self.right_heap) - self.right_extra_len > len(self.left_heap) - self.left_extra_len:
            to_move = heapq.heappop(self.right_heap)
            if self.buffer.get(to_move, 0) > 0:
                self.buffer[to_move] -= 1
                self.right_extra_len -= 1
            else:
                heapq.heappush(self.left_heap, -to_move)
                
        if not self.left_heap or self.buffer.get(-self.left_heap[0], 0) == 0:
            left_true = True
        if not self.right_heap or self.buffer.get(self.right_heap[0], 0) == 0:
            right_true = True
        if left_true and right_true: # 只有当size平衡了，且堆头都不是要清洗的元素，才结束；否则，继续清洗。
            return
        self.prune()

    def delNumber(self, num):
        self.buffer[num] = self.buffer.get(num, 0) + 1
        if num <= -self.left_heap[0]: # 必须和入堆条件一致
            self.left_extra_len += 1
        else:
            self.right_extra_len += 1
        self.prune()

    def medianSlidingWindow(self, nums: List[int], k: int) -> List[float]:
        res = []
        for i in range(k):
            self.addNumber(nums[i])
        res.append(self.findMedian())
        for i in range(k, len(nums)):
            self.delNumber(nums[i-k])
            self.addNumber(nums[i])
            res.append(self.findMedian())
        return res

# 我的总结

- 双堆：求流的中位数问题259，分别用大顶堆和小顶堆来维护小的那一半和大的那一半；进阶版本480，加了一个延迟出堆。
- TopK：使用小顶堆还是大顶堆呢？根据入堆条件来确定。
    - 如果要入堆的数字需要尽可能小（最小的topk），则用大顶，当前最大的放在顶部，比它小就入，入完如果满了就pop一下；
    - 如果要入堆的数字需要尽可能大（最大的topk），则用小顶，当前最小的放在顶部，比它大就入，入完如果满了就pop一下；
    
    
    
堆的优势与劣势：
- 优势：快速找到“最”值
- 劣势：其余的元素是无序状态

# 堆的实际应用

- 优先队列
- 快速取TopK：不需要将数组一次全部加载到内存中，可以处理海量数据。