# 堆（优先级队列）
- 堆是一棵完全二叉树
- 堆中每个节点的值都不大于（或不小于）其子节点的值
- 堆通常用数组实现
- 堆的插入和删除操作时间复杂度均为O(logn)
- 堆排序：先建堆O(n)，再依次删除堆顶元素O(nlogn)，总时间复杂度O(nlogn)
- 堆常用于实现优先级队列

### 堆的特性
| 操作接口   | 实现方式             | 时间复杂度 |
|------------|----------------------|------------|
| insert()   | 堆上滤               | O(log n)   |
| getMax()   | 取堆顶               | O(1)       |
| delMax()   | 删除堆顶，置换-下滤  | O(log n)   |

是完全二叉树的向量表示，即每个节点的左子节点和右子节点分别位于数组中的2*i+1和2*i+2位置（i为当前节点位置）
- 堆的插入和删除操作时间复杂度均为O(logn)
- 堆排序：先建堆O(n)，再依次删除堆顶元素O(nlogn)，总时间复杂度O(nlogn)
- 堆常用于实现优先级队列
- Python的`heapq`模块实现了一个最小堆，可以通过存储负值来模拟最大堆

![heap](./sources/heap1.png)

### 堆的操作
- 插入即上滤，
    - 插入 : 上滤 直接在向量末尾插入 若新节点大于其父节点，与父节点值进行互换，其它节点不受影响,迭代此过程，直到满足
    - 堆序性要求 实际可缓存新插入节点值，上滤改变每个需要调整节点值，最后用新值取代终止节点值，提高效率
- 删除置换下，
    - 删除 : 置换-下滤 删除堆顶节点后，用最后一个节点值替换堆顶节点值，删除最后一个节点，然后从堆顶开始下滤
    - 下滤：若当前节点值小于其子节点值，则与较大的子节点值互换，迭代此过程，直到满足堆序性要求
- 构建自底下，
    - 构建堆：自底向上调整 从最后一个非叶节点开始，对每个非叶节点执行下滤操作，直到根节点
- 排序先构建，
    - 堆排序：先构建堆，然后依次删除堆顶元素，直到堆为空
- 迭代做删除。
    - 迭代删除：重复执行删除操作，直到堆为空

In [None]:
class MaxHeap:
    def __init__(self):
        self.data = []  # 使用数组存储堆

    def insert(self, val):
        """插入元素，堆上滤"""
        self.data.append(val)
        self._sift_up(len(self.data) - 1)

    def getMax(self):
        """返回堆顶元素（最大值），O(1)"""
        if not self.data:
            raise IndexError("getMax from empty heap")
        return self.data[0]

    def delMax(self):
        """删除堆顶元素，置换-下滤"""
        if not self.data:
            raise IndexError("delMax from empty heap")
        max_val = self.data[0]
        # 把最后一个元素换到堆顶，然后下滤
        last = self.data.pop()
        if self.data:
            self.data[0] = last
            self._sift_down(0)
        return max_val

    def _sift_up(self, idx):
        """堆上滤"""
        parent = (idx - 1) // 2
        while idx > 0 and self.data[idx] > self.data[parent]:
            self.data[idx], self.data[parent] = self.data[parent], self.data[idx]
            idx = parent
            parent = (idx - 1) // 2

    def _sift_down(self, idx):
        """堆下滤"""
        n = len(self.data)
        while True:
            largest = idx
            left = 2 * idx + 1
            right = 2 * idx + 2
            if left < n and self.data[left] > self.data[largest]:
                largest = left
            if right < n and self.data[right] > self.data[largest]:
                largest = right
            if largest == idx:
                break
            self.data[idx], self.data[largest] = self.data[largest], self.data[idx]
            idx = largest

    def makeHeap(self, arr):
        """从数组构建堆"""
        self.data = arr[:]
        n = len(self.data)
        # 从最后一个非叶子节点开始下滤
        for i in range((n - 2) // 2, -1, -1):
            self._sift_down(i)

    def __len__(self):
        """返回堆大小"""
        return len(self.data)

    def __str__(self):
        """打印堆数组"""
        return str(self.data)

if __name__ == "__main__":
    heap = MaxHeap()
    # 构建堆方法一，逐个插入，进行上滤，复杂度正比于深度
    heap.insert(10)
    heap.insert(4)
    heap.insert(15)
    heap.insert(20)
    heap.insert(0)
    heap.insert(8)
    heap.insert(30)
    heap.insert(25)
    print("当前堆:", heap)

    print("最大值:", heap.getMax())
    print("删除最大值:", heap.delMax())
    print("删除后堆:", heap)

    # 构建堆方法二，直接从数组构建堆，进行下滤，复杂度正比于节点数
    heap.makeHeap([5, 3, 8, 1, 2, 7])
    print("从数组构建堆:", heap)


当前堆: [30, 25, 20, 15, 0, 8, 10, 4]
最大值: 30
删除最大值: 30
删除后堆: [25, 15, 20, 4, 0, 8, 10]
从数组构建堆: [8, 3, 7, 1, 2, 5]


### Huffman编码问题
可以用堆来解决
1. 给定的n个权值{$w_1,w_2,….,w_n$}构成森林F={$T_1,T_2,…,T_n$}，其中每棵二叉树$T_i$中只有一个带权为$w_i$的根节点，左右子树均为空
2. 在F中选取两棵根节点的权值最小的树作为左右子树构造一个新的二叉树，且置新的二叉树的根节点的权值为左右子树上根节点的权值之和
3. 在F中删除这两棵树，同时将新得到的二叉树加入F中
4. 重复2和3步骤，直到F中仅含一棵树为止，这棵树即为最优编码树

In [None]:
import heapq

def min_cut_cost(lengths):
    heapq.heapify(lengths)
    total = 0
    while len(lengths) > 1:
        a = heapq.heappop(lengths)
        b = heapq.heappop(lengths)
        total += a + b
        heapq.heappush(lengths, a + b)
    return total

# 示例
print(min_cut_cost([3, 4, 5]))  # 输出 19

19


# 散列（哈希Hash）
查找算法对比
- ![find](./sources/find.png)

- 无需比较，直接定位目标记录存储位置— 存储位置=f（关键码）
- 散列技术在记录的存储位置和关键码之间建立一确定的对应关系f，使得每个关键码对应一个存储位置
- f称之为Hash函数！方法称之为桶查找！
- 是存储技术，也是查找技术，元素无逻辑关系，只与关键码相关

## 重要性质
- **确定性**：相同输入必定产生相同输出。  
- **固定长度输出**：无论输入多长，输出长度固定。  
- **快速计算**：对任意输入，计算哈希值应尽可能高效。  
- **抗碰撞难度**（对加密哈希尤为重要）：很难找到两个不同输入产生相同输出。  
- **抗原像/抗前像难度（preimage resistance）**：给定哈希值，难以找到对应输入。  
- **抗二次前像难度（second-preimage resistance）**：给定输入和其哈希值，难以找到另一个不同输入具有相同哈希。


## 在哈希表中的碰撞处理
- **链式（Separate chaining）**：每个桶维护链表/向量。  
- **开放地址（Open addressing）**：线性探测、二次探测、双重哈希。  
- **再哈希（Rehash / Resize）**：当负载因子超过阈值时扩容并重新哈希。  
- **负载因子（load factor）**：元素数量 / 桶数量，直接影响性能。

## 常用哈希函数
- 直接定址法
- 除余法
- 数字分析，平方取中，折叠法
- （伪）随机数法

## 分类（常见）
### 加密学哈希函数（Cryptographic Hashes）
- **用途**：数据完整性、数字签名、消息认证、密码学协议等。  
- **代表算法**：MD5（已不安全）、SHA-1（已弃用/不推荐）、SHA-2（SHA-256/512）、SHA-3、BLAKE2、BLAKE3。  
- **密码学属性**：需要满足抗前像、抗二次前像、抗碰撞等。

### 密码学专用函数（Password hashing / KDF）
- **用途**：安全存储密码、密钥派生。  
- **代表算法**：bcrypt、scrypt、Argon2（推荐用于新系统）。  
- **特点**：故意计算/内存消耗高以抵抗暴力破解（慢哈希）。

### 非加密哈希（非安全/用于性能）
- **用途**：哈希表、快速查找、负载均衡、布隆过滤器等。  
- **代表算法**：MurmurHash、CityHash、xxHash、FarmHash、FNV、djb2。  
- **特点**：非常快、分布良好，但不抗碰撞/不安全。

### 校验和 / 循环冗余校验（CRC）
- **用途**：检测传输或存储错误（非抗恶意篡改）。  
- **代表算法**：CRC32、Adler-32 等。

---

## 常见应用场景
- 哈希表（字典/映射）索引  
- 数据去重（文件指纹/重复检测）  
- 校验与完整性验证（下载文件、存储）  
- 密码存储（与盐、迭代结合）  
- 数字签名与证书（在加密协议中）  
- 布隆过滤器、局部敏感哈希（近似搜索）  
- 一致性哈希（分布式缓存/负载均衡）  

In [7]:
import hashlib

def sha256_hex(data: bytes) -> str:
    return hashlib.sha256(data).hexdigest()

print(sha256_hex(b"hello world"))  


b94d27b9934d3e08a52e52d7da7dabfac484efe37a5380ee9088f7ace2efcde9
