堆就是**优先队列**(Priority Queue)：特殊的队列，取出元素的顺序是依照元素的**优先权**(关键字)的大小，而不是元素进入队列的先后顺序。

先通过python的自带库感性认识一下

In [1]:
from queue import PriorityQueue
q = PriorityQueue()

In [2]:
q.put((45,'df'))
q.put((12,'bf'))
q.put((8,'af'))
q.put((24,'cf'))
q.put((77,'ef'))

In [3]:
q.get(timeout=2)  # 每次取出的元素是最小的

(8, 'af')

In [4]:
q.get(timeout=2)  # 每次取出的元素是最小的

(12, 'bf')

在进行插入删除时，**使用别的数据结构存储让人不满**

| .       |插入      |删除    |
| --      | --------   | ------     |
| 数组     | $o(1)$         | $o(n)$ |
| 链表     | $o(1)$        | $o(n)$ |
| 有序数组 | $o(n)$ | $o(1)$ |
| 有序链表 | $o(n)$       | $o(1)$ |

## **使用完全二叉树存储**

更应该关注**删除**

- 树结点顺序怎么安排？
- 树结构怎样？

结构性：使用完全二叉树<br>
有序性：任一结点的关键字是其子树所有结点的最小值(**最小堆**)，或最大值(**最大堆**)

![](img/最小堆.jpg)

新插入的位置按照完全二叉树的插法

复习：
- 自己实现一个可以无限长的最大堆

- push(iter, val)
- pop(iter)
- heapify(iter)
- nsmallest(n, iter)

In [167]:
class Heap():
    def __init__(self):
        pass
    
    @staticmethod
    def insert(heap, val):
        heap.append(val)
        
        child = len(heap) - 1
        
        while (child + 1) // 2 - 1 >= 0:
            parent = (child + 1) // 2 - 1
            if val < heap[parent]:
                heap[child] = heap[parent]
                child = parent
            else:
                break
        heap[child] = val
        
    @staticmethod    
    def pop(heap):
        if not heap:
            raise IndexError('pop from empty heap')
        
        res = heap[0]
        val = heap.pop()
        
        parent = 0
        child = parent * 2 + 1
        while child < len(heap):
            if child + 1 < len(heap) and heap[child+1] < heap[child]:
                child += 1
            
            if heap[child] < val:
                heap[parent] = heap[child]
                parent = child
            else:
                break
            
            child = parent * 2 + 1
        if heap:
            heap[parent] = val
        return res
        

In [168]:
heap = []
Heap.insert(heap, 5)
Heap.insert(heap, 3)
Heap.insert(heap, 0)
Heap.insert(heap, 1)
Heap.insert(heap, 4)
Heap.insert(heap, 2)

In [169]:
heap

[0, 1, 2, 5, 4, 3]

In [175]:
Heap.pop(heap), heap

(5, [])

## 堆排序

https://github.com/python/cpython/blob/3.8/Lib/heapq.py

In [92]:
def heap_sort(nums):
    
    # 把数组调整成堆
    for i in range(len(nums)-1, -1, -1):
        heapify(nums, i, len(nums))
    
    # 排序
    #  - 把最大的数放到数组最后
    #  - 把剩下的数组调整成堆
    for i in range(len(nums)-1, -1, -1):
        nums[0], nums[i] = nums[i], nums[0]
        heapify(nums, 0, i)
    
def heapify(nums, root, tail):
    # root: 根节点
    # tail: 对nums[root:tail]进行堆排序
    # 最大堆
    
    val = nums[root]
    
    while root * 2 + 1 < tail:
        child = root * 2 + 1
        if child + 1 < tail and nums[child+1] > nums[child]:
            child += 1
        
        if nums[child] > val:
            nums[root] = nums[child]
            root = child
        else:
            break
    nums[root] = val

In [98]:
nums = [7, 4, 6, 5, 9, 2, 3, 1, 8]
heap_sort(nums)
nums

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [82]:
# 最小堆
class Heap(object):
    def __init__(self, capacity=7):
        self.size = 0  # 堆当前的元素个数
        self.capacity = capacity  # 堆的最大容量
        self.elements = [None] * (self.capacity)
        self.elements[0] = -float('inf')  # 哨兵
        
    def isfull(self):
        return self.size == self.capacity
    
    def isempty(self):
        return self.size == 0
    # 入队
    def push(self, val):
        if self.full():
            raise ValueError('heap full')

        self.size += 1
        i = self.size
        # 加入哨兵可以省一个判断条件使程序效率更高
        #while i > 1 and self.elements[i // 2] > val:
        while self.elements[i//2] > val:  # 和他爸比较，
            self.elements[i] = self.elements[i // 2]  # 比他爸小的话新结点就成为爸爸！
            i = i // 2  # 记住他爸的位置
            
        self.elements[i] = val
    
    # 出队，因为要保证是完全二叉树，就是拿最后一个元素和第一个元素换
    # 然后考虑怎么保证堆的性质
    def pop(self):
        
        if self.empty():
            raise ValueError('heap empty')
            
        res = self.elements[1]  # 保存要出队的最小值
        tmp = self.elements[self.size]  # 暂存堆的最后一个元素
        self.size -= 1 
        parent = 1
        
        while parent*2 <= self.size:
            child = parent*2
            if child != self.size and (self.elements[child+1]<self.elements[child]):
                child += 1
                
            if tmp <= self.elements[child]:
                break
            else:
                self.elements[parent] = self.elements[child]
                parent = child
                
        self.elements[parent] = tmp
        return res
        
        
        
        

In [83]:
h = Heap()

In [84]:
# h = Heap()
h.put(7)
h.put(12)
h.put(5)
h.put(9)
h.put(3)
h.put(6)
h.elements

[-inf, 3, 5, 6, 12, 9, 7]

In [86]:
h.get()

5

##  最大堆的建立

最容易想到：一个一个插入$o(nlogn)$

堆排序$o(n)$https://www.cnblogs.com/chengxiao/p/6129630.html

- 选择最后一个元素的父结点往前遍历，把所有节点都变成堆
- 怎么变成堆。

```c++
void PercDown( MaxHeap H, int p )
{ /* 下滤：将H中以H->Data[p]为根的子堆调整为最大堆 */
    int Parent, Child;
    ElementType X;
 
    X = H->Data[p]; /* 取出根结点存放的值 */
    for( Parent=p; Parent*2<=H->Size; Parent=Child ) {
        Child = Parent * 2;
        if( (Child!=H->Size) && (H->Data[Child]<H->Data[Child+1]) )
            Child++;  /* Child指向左右子结点的较大者 */
        if( X >= H->Data[Child] ) break; /* 找到了合适位置 */
        else  /* 下滤X */
            H->Data[Parent] = H->Data[Child];
    }
    H->Data[Parent] = X;
}
 
void BuildHeap( MaxHeap H )
{ /* 调整H->Data[]中的元素，使满足最大堆的有序性  */
  /* 这里假设所有H->Size个元素已经存在H->Data[]中 */
 
    int i;
 
    /* 从最后一个结点的父节点开始，到根结点1 */
    for( i = H->Size/2; i>0; i-- )
        PercDown( H, i );
}
```

In [124]:
class MaxHeap():
    """
    无限容量的堆
    """
    def __init__(self, elements=None):
        if elements is None:
            self.size = 0
            self.elements = [float('inf')]
        else:
            self.size = len(elements)
            self.elements = [float('inf')] + elements
            
            # 从最后一个结点的父结点向前遍历调整顺序
            for parent in range(self.size//2 ,-1, -1):
                self.adjust(parent)
            
    def empty(self):
        return self.size == 0
    
    # 以idx为根节点的堆调整为最大堆
    def adjust(self, parent):
        x = self.elements[parent]  # 取出根节点值
        while parent*2 <= self.size:
            child = parent*2
            if child+1<=self.size and self.elements[child+1] > self.elements[child]:
                child += 1
            if x < self.elements[child]:  # 如果爹比儿子小，降级
                self.elements[parent] = self.elements[child]  # 提拔孩子
                parent = child
            else:
                break
        self.elements[parent] = x
    
    
    def put(self, val):
        self.size += 1
        self.elements.append(val)
        i = self.size
        while val > self.elements[i//2]:
            self.elements[i] = self.elements[i//2]
            i = i // 2
        self.elements[i] = val
        
    def get(self):
        if self.size == 0:
            raise ValueError
        
        self.size -= 1
        res = self.elements[1]
        tmp = self.elements.pop()  # 取出最后一个元素
        parent = 1
        while parent*2 <= self.size:
            child = parent*2
            if child+1 <= self.size and self.elements[child] < self.elements[child+1]:
                child += 1
                
            if tmp < self.elements[child]:
                self.elements[parent] = self.elements[child]
                parent = child
            else:
                break
                
        if self.size > 0:
            self.elements[parent] = tmp
        return res

In [125]:
h = MaxHeap()
h.put(7)
h.put(12)
h.put(5)
h.put(9)
h.put(3)
h.put(6)
h.elements

[inf, 12, 9, 6, 7, 3, 5]

In [126]:
h = MaxHeap([7, 12, 5, 9, 3, 6])

In [127]:
h.elements

[inf, 12, 9, 6, 7, 3, 5]

In [128]:
h.get()

12

## 哈夫曼树与哈夫曼编码

一篇文章1w个字符，我用8位编码表示一个字符。1w篇文章就要8w位。

1byte == 8bit

1kb = 1024byte

但是字符的出现频率是不一样的。所以引入哈夫曼树。使得空间可以更加节省。不同搜索树，效率是不一样的。

**哈夫曼树的定义**

**带权路径长度(WPL)**：设二叉树有**n个叶子结点**，每个叶子结点带有权值$w_k$，从根节点到每个叶子结点的长度为$l_k$，则每个叶子结点的带权路径的长度之和就是:

$$WPL=\sum_{k=1}^nw_kl_k$$

**最优二叉树**或者**哈夫曼树**就是：**WPL**最小的二叉树

![](img/wpl的计算.jpg)

### 哈夫曼树的构造

每次把**权值最小的两颗二叉树**合并，时间复杂度是$o(nlogn)$

哈夫曼树的特点：

- 没有度为1的节点
- $n$个叶子节点的哈夫曼树共有：$2n-1$个 ($n0 =n2 + 1$)
- 哈夫曼树的任意非叶节点的左右子树交换后仍然是哈夫曼树
- 同一组权值是否存在不同构的两颗哈夫曼树？ 可能的！

### 哈夫曼编码
给定一段字符串，如何对字符进行编码，使得该字符串的编码存储空间最小？

假设有58个字符，并由a, e, i, s, t, 空格(sp), 换行(nl)这7个字符出现次数不同。如何对这7个字符进行编码，使得总编码空间更少？

怎么进行不等长编码？如何避免二义性

满足一个条件：**前缀码：任何字符的编码都不是另一个字符编码的前缀**！可以无二义解码

**二叉树用于编码**

- 左右分支0,1
- 字符只在叶节点上：这点能保证没有前缀的问题

**例子：对下面这个进行哈夫曼编码**

| $C_i$ | a  | e  | i  | s | t | sp | nl |
| ----- | -  | -  | -  | - | - | -- | -- |
| $f_i$ | 10 | 15 | 12 | 3 | 4 | 13 | 1  |



**明天的复习计划**：

- 实现无限的最小堆，并用来验证huffman树

In [136]:
class Node():
    def __init__(self, weight=None, val=None):
        self.weight = weight
        self.val = val
        self.left = None
        self.right = None
        
        self.code = None  # 哈夫曼二进制编码
        
class MinHeap():
    def __init__(self):
        self.elements = [Node(-float('inf'))]
        self.size = 0
    
    def put(self, node):
        
        self.elements.append(None)
        self.size += 1
        child = self.size
        while child // 2 > 0:
            parent = child // 2
            if node.weight < self.elements[parent].weight:
                self.elements[child] = self.elements[parent]
                child = parent
            else:
                break
        self.elements[child] = node
        
    def get(self):
        if self.size == 0:
            raise ValueError('堆已空')
            
        node = self.elements[1]  # 取出开头的元素
        self.size -= 1  # 更新size
        
        if self.size == 0:
            return node
        
        tmp = self.elements.pop()  # 把最后一个元素取出来
        parent = 1
        
        while parent * 2 <= self.size:
            child = parent * 2
            if child + 1 <= self.size and self.elements[child+1].weight <  self.elements[child].weight:
                child += 1
            if self.elements[child].weight < tmp.weight:
                self.elements[parent] = self.elements[child]
                parent = child
            else:
                break
        self.elements[parent] = tmp
        return node
    
    def __iter__(self):
        for i in range(1, self.size+1):
            yield (self.elements[i].weight, self.elements[i].val)
        

In [130]:
h = MinHeap()
h.put(Node(10, 'a'))
h.put(Node(15, 'e'))
h.put(Node(12, 'i'))
h.put(Node(3, 's'))
h.put(Node(4, 't'))
h.put(Node(13, 'sp'))
h.put(Node(1, 'nl'))
list(h)

[(1, 'nl'), (4, 't'), (3, 's'), (15, 'e'), (10, 'a'), (13, 'sp'), (12, 'i')]

In [131]:
from collections import deque
class HuffmanTree():
    def __init__(self, heap):
        """
        data : list [(10, 'a'), (15, 'e'), ...] 第一个元素是字符出现的次数，第二个元素是字符
        """
        self.root = None
        self.heap = heap  # 堆内的元素是节点
        
        for i in range(1, self.heap.size):  # 注意此处不遍历到最后一个节点，否则会溢出
            node = Node()
            node.left = self.heap.get()  # 从最小堆汇总删除一个节点作为左子节点
            node.right = self.heap.get()  # 注意i的范围，否则在这里可能会溢出
            node.weight = node.left.weight + node.right.weight
            
            self.heap.put(node)  # 把合并后的节点再加回去
        
        self.root = self.heap.get()  # 遍历到最后一步的时候，堆内只剩下最后一个元素了。此时获得根节点
        
        
        
    def pre_order_leaf(self, node):
        """
        前序遍历叶子结点
        """
        if node:
#             if node is not self.root:
#                 node.code = ''
            #if node.left is None and node.right is None:
            yield (node.weight, node.val)
            
            yield from self.pre_order_leaf(node.left)
            yield from self.pre_order_leaf(node.right)
            
            
    def level_order(self):
        q = deque()
        q.append(self.root)
        while q:
            node = q.popleft()
            if node.left:
                q.append(node.left)
            if node.right:
                q.append(node.right)
            yield (node.weight, node.val)

In [132]:
ht = HuffmanTree(h)

In [133]:
list(ht.level_order())

[(58, None),
 (25, None),
 (33, None),
 (12, 'i'),
 (13, 'sp'),
 (15, 'e'),
 (18, None),
 (8, None),
 (10, 'a'),
 (4, 't'),
 (4, None),
 (1, 'nl'),
 (3, 's')]

## 验证o(nlogn) 与 o(nlogk)差别

In [130]:
import time
import heapq
import random

In [131]:
n = 100000
k = 5
nums = []
for i in range(n):
    nums.append(random.randint(0, n))
    
nums1 = nums.copy()
nums2 = nums

In [132]:
start = time.time()
nums1.sort()
print("%.4fs"%(time.time()-start))

0.0229s


In [133]:
start = time.time()
heapq.heapify(nums2)
print("%.4fs"%(time.time()-start))

0.0030s


In [136]:
heapq.nsmallest(2, [1, 2, 4, 8, 3])

[1, 2]