# 7. 排序与查找

## 7.1 顺序查找
如果数据保存在如列表这样的集合中，称数据项具有线性或者顺序关系。数据项的存储位置称为下标（index），这些下标是有序的整数。通过下标按照顺序来访问和查找数据项的技术称为“顺序查找”（Sequential Search）。

算法分析：无序表和有序表顺序查找的算法复杂度为O(n)。只是在数据项不存在的时候，有序表的查找可以节省一些比对次数，但不改变其数量级，因此复杂度仍然为O(n)。

In [2]:
# 无序表查找
def sequential_search(unordered_list, item):
    pos = 0
    found = False

    while pos < len(unordered_list) and not found:
        if unordered_list[pos] == item:
            found = True
        else:
            pos = pos + 1

    return found, pos if found else -1
test_list = [54, 26, 93, 17, 77, 31, 44, 55, 20]
print(sequential_search(test_list, 93))  # 输出: True

(True, 2)


In [None]:
# 有序表顺序查找
def ordered_sequential_search(ordered_list, item):
    pos = 0
    found = False
    stop = False

    while pos < len(ordered_list) and not found and not stop:
        if ordered_list[pos] == item:
            found = True
        else:
            if ordered_list[pos] > item:    # 设置stop提前终止
                stop = True
            else:
                pos = pos + 1

    return found, pos if found else -1
ordered_list = [17, 20, 26, 31, 44, 54, 55, 77, 93]
print(ordered_sequential_search(ordered_list, 93))  # 输出: True

(True, 8)


## 7.2 二分查找
二分查找：利用有序表的特性提高查找效率。从列表中间开始比对，每次比对范围都缩小到原来的一半。

算法分析：设原来有元素n个，每次比对都剩下二分之一，因此在比对i次时，还剩余$\frac{n}{2^i}$个元素，由于比对次数足够多时，范围内只会剩余1个数据项，因此有$$\frac{n}{2^i} = 1$$
解方程得到$i = log_2(n)$，所以算法复杂度是$O(log n)$。

二分法的算法复杂度固然低，但是二分法是基于有序表实现的，所以也要考虑到数据集排序的开销。

In [4]:
def binary_search(ordered_list, item):
    first = 0
    last = len(ordered_list) - 1
    found = False

    while first <= last and not found:
        midpoint = (first + last) // 2
        if ordered_list[midpoint] == item:
            found = True
        else:
            if item < ordered_list[midpoint]:
                last = midpoint - 1
            else:
                first = midpoint + 1

    return found, midpoint if found else -1
print(binary_search(ordered_list, 93))  # 输出: True

(True, 8)


In [5]:
# 递归算法实现二分法
def recursive_binary_search(ordered_list, item):
    if len(ordered_list) == 0:  # 基本结束条件
        return False, -1
    else:
        midpoint = len(ordered_list) // 2
        if ordered_list[midpoint] == item:
            return True, midpoint
        else:
            if item < ordered_list[midpoint]:
                return recursive_binary_search(ordered_list[:midpoint], item)
            else:
                found, pos = recursive_binary_search(ordered_list[midpoint + 1:], item)
                if found:
                    return True, pos + midpoint + 1
                else:
                    return False, -1
print(recursive_binary_search(ordered_list, 93))  # 输出: True

(True, 8)


## 7.3 冒泡排序
算法思路：对无序表进行多趟比较交换，每趟包括了两两相邻比较，并将逆序的数据项互换位置，最终能将本趟的最大项就位，经过n-1趟比较交换，实现整表排序。类似气泡上升的过程。

算法分析：比对次数为$\frac{n(n-1)}{2}$，复杂度为$O(n^2)$

In [15]:
def bubbleSort(alist):
    count = 0
    compare = 0
    for passnum in range(len(alist)-1, 0, -1):  # 从len(alist)-1到1结束 步长递减-1
        for i in range(passnum):
            if alist[i] > alist[i+1]:
                alist[i], alist[i+1] = alist[i+1], alist[i]
                count = count + 1
                compare = compare + 1
            else:
                compare = compare + 1

    return alist, count, compare
alist, count, compare = bubbleSort([17,54,26,31,44,93,77,55,20])
print(alist)
print("交换次数:", count)  # 输出: 交换次数
print("比较次数:", compare)  # 输出: 比较次数 (n*(n-1))/2

[17, 20, 26, 31, 44, 54, 55, 77, 93]
交换次数: 13
比较次数: 36


冒泡排序的改进：如果某一趟没有发生任何交换，说明此时排序已经完成，可以提前结束。设置一个变量来记录是否发生了交换行为。

In [18]:
def shortBubbleSort(alist):
    compare = 0
    exchange = True
    passnum = len(alist) - 1
    while passnum > 0 and exchange:
        exchange = False
        for i in range(passnum):
            if alist[i] > alist[i+1]:
                alist[i], alist[i+1] = alist[i+1], alist[i]
                exchange = True
                compare = compare + 1
        passnum = passnum - 1
    return alist, compare
alist, compare = shortBubbleSort([17,54,26,31,44,93,77,55,20])
print(alist) 
print("比较次数:", compare)  # 比较次数减少

[17, 20, 26, 31, 44, 54, 55, 77, 93]
比较次数: 13


## 7.4 选择排序
每一趟仅进行一次交换，记录最大项的所在位置，最后再跟本趟最后一项交换。和冒泡排序相比，比对次数不变$O(n^2)$，但是交换次数减少为$O(n)$。

In [20]:
def selectionSort(alist):
    count = 0
    compare = 0
    for fillslot in range(len(alist)-1, 0, -1):
        positionOfMax = 0   # 初始化假设最大值位置在0
        for location in range(1, fillslot+1):
            compare = compare + 1
            if alist[location] > alist[positionOfMax]:
                positionOfMax = location    # 更新最大值的位置
        # 每次只将最大值交换到最后的位置（fillslot）
        alist[fillslot], alist[positionOfMax] = alist[positionOfMax], alist[fillslot]
        count = count + 1
    return alist, count, compare
alist, count, compare = selectionSort([17,54,26,31,44,93,77,55,20])
print(alist)
print("交换次数:", count)  # 输出: 交换次数
print("比较次数:", compare)  # 输出: 比较次数 n*(n-1)/2

[17, 20, 26, 31, 44, 54, 55, 77, 93]
交换次数: 8
比较次数: 36


## 7.5 插入排序
维持一个已排好序的子列表，其位置始终在列表的前部，然后逐步扩大这个子列表直到全表。类似于打扑克牌：左边部分的牌已经整理好顺序，右边的是未整理的牌，每次从右边取一张牌按照顺序插入左边，直到所有的牌都按顺序整理好。

算法分析：时间复杂度仍然是$O(n^2)$。第一趟，子列表只包含一个数据项，将第2个数据项作为新项插入到子列表合适位置中，这样子列表就包含了2个数据项，以此类推，共经过n-1趟比对和插入，子列表扩展到全表，排序完成。

In [None]:
def insertSort(alist):
    count = 0
    compare = 0
    # 外层循环 从第二项（索引1）开始遍历
    for index in range(1, len(alist)):
        currentvalue = alist[index] # 当前要插入的元素（摸到的新牌）
        position = index    # 当前位置指针

        # 内层while循环：从右向左比较
        while position > 0 and alist[position - 1] > currentvalue:  # 从后向前比较
            compare = compare + 1
            alist[position] = alist[position - 1]   # 后移元素
            position = position - 1 # 向左移动指针
        alist[position] = currentvalue  # 在合适位置插入指针
        count = count + 1   # 插入次数
    return alist, count, compare
alist, count, compare = insertSort([17,54,26,31,44,93,77,55,20])
print(alist)
print("插入次数:", count)  # 输出: 插入次数
print("比较次数:", compare)  # 输出: 比较次数

[17, 20, 26, 31, 44, 54, 55, 77, 93]
插入次数: 8
比较次数: 13


## 7.6 谢尔排序
列表越接近有序，插入排序的比对次数就越少（会提前终止比较）。基于此，谢尔排序以插入排序作为基础，对无序表进行间隔划分子列表，每个子列表都执行插入排序。

基本思路：
1. 将数组按一定间隔分组
2. 对每组进行插入排序
3. 逐步缩小索引间隔，组数逐渐减少，重复分组和排序，间隔一般从$\frac{n}{2}$开始，逐渐缩小为$\frac{n}{4}$、$\frac{n}{8}$..
4. 最后间隔为1时，进行标准的插入排序

算法分析：复杂度大致介于$O(n)$和$O(n^2)$之间，略优于插入排序。

In [23]:
def shellSort(alist):
    gap = len(alist) // 2  # 初始间隔
    count = 0
    compare = 0

    while gap > 0:
        for startposition in range(gap):    # 从每组的第一个元素开始
            # 组内元素遍历
            for i in range(startposition + gap, len(alist), gap):
                currentvalue = alist[i]
                position = i
                # 组内插入排序
                while position >= gap and alist[position - gap] > currentvalue:
                    compare = compare + 1
                    alist[position] = alist[position - gap]
                    position = position - gap

                alist[position] = currentvalue
                count = count + 1
        gap = gap // 2  # 逐渐减小间隔

    return alist, count, compare
alist, count, compare = shellSort([17,54,26,31,44,93,77,55,20])
print(alist)
print("插入次数:", count)  # 输出: 插入次数
print("比较次数:", compare)  # 输出: 比较次数

[17, 20, 26, 31, 44, 54, 55, 77, 93]
插入次数: 20
比较次数: 11


## 7.7 归并排序
归并排序是递归算法，思路是将数据表持续分裂为两半，对两半分别进行归并排序。
1. 基本结束条件：数据表仅有1个数据项时，自然是排序好的；
2. 缩小规模：每次规模缩减一半；
3. 调用自身：两半分别调用自身排序，然后将分别排好序的两半进行归并。

算法分析：两个过程，分裂和归并。
1. 分裂：借鉴二分法，复杂度是$O(log n)$
2. 归并：所有数据项都会被比较和放置一次，所以复杂度是$O(n)$
3. 总的时间复杂度是$nO(log n)$

缺点：用了额外一倍的存储空间用于归并。

In [None]:
def mergeSort(alist):
    if len(alist) > 1:  # 基本结束条件
        mid = len(alist) // 2
        lefthalf = alist[:mid]  # 左半部分
        righthalf = alist[mid:] # 右半部分

        # 递归调用 直到子列表长度为1
        mergeSort(lefthalf)
        mergeSort(righthalf)

        i = 0   # 左半部分指针
        j = 0   # 右半部分指针
        k = 0   # 主列表指针
        # 对左右两部分已经排好序的列表进行拉链式的合并
        while i < len(lefthalf) and j < len(righthalf):
            if lefthalf[i] < righthalf[j]:
                alist[k] = lefthalf[i]  # 把更小的元素放到主列表
                i = i + 1
            else:
                alist[k] = righthalf[j]
                j = j + 1
            k = k + 1

        while i < len(lefthalf):    # 左半部分剩余元素
            alist[k] = lefthalf[i]
            i = i + 1
            k = k + 1

        while j < len(righthalf):   # 右半部分剩余元素
            alist[k] = righthalf[j]
            j = j + 1
            k = k + 1

    return alist
alist = mergeSort([17,54,26,31,44,93,77,55,20])
print(alist)

## 7.8 快速排序
快速排序的核心思想：选择一个基准元素，将数组分为两部分，左边都小于基准，右边都大于基准，然后递归地对左右两部分排序。
1. 选择基准：从数组中选择一个元素作为基准（pivot）
2. 分区操作：重新排列数组，使小于基准的都在左边，大于基准的都在右边
3. 递归排序：对左右两个子数组递归地进行快速排序

算法分析：快速排序分为分裂和移动两部分，综合起来复杂度是$O(nlogn)$，不需要额外的内存。

In [None]:
def quickSort(alist):
    quickSortHelper(alist, 0, len(alist) - 1)

def quickSortHelper(alist, first, last):
    if first < last:
        splitpoint = partition(alist, first, last)

        quickSortHelper(alist, first, splitpoint - 1)
        quickSortHelper(alist, splitpoint + 1, last)
        
def partition(alist, first, last):
    pivotvalue = alist[first]  # 选择第一个元素作为基准值

    leftmark = first + 1    # 左指针初始值
    rightmark = last    # 右指针初始值

    done = False
    while not done:
        while leftmark <= rightmark and alist[leftmark] <= pivotvalue:
            leftmark = leftmark + 1

        while alist[rightmark] >= pivotvalue and rightmark >= leftmark:
            rightmark = rightmark - 1

        if rightmark < leftmark:    # 指针交叉，分区完成
            done = True
        else:   # 交换左右指针所指元素
            alist[leftmark], alist[rightmark] = alist[rightmark], alist[leftmark]
    # 将基准值放到正确位置
    alist[first], alist[rightmark] = alist[rightmark], alist[first]

    return rightmark

alist = [17,54,26,31,44,93,77,55,20]
quickSort(alist)
print(alist)

[17, 20, 26, 31, 44, 54, 55, 77, 93]


## 7.9 散列

### 7.9.1 核心思想与定义

散列 是一种用于实现高效查找、插入和删除操作的数据结构技术。它的核心目标是将任意大小的数据（键，Key）通过一个散列函数，映射到一个固定大小的、较小的值域（通常是数组索引）中。

理想情况（完美散列）：每个唯一的键都映射到唯一的索引。这样，查找时间复杂度可以达到 O(1)，即常数时间。
现实情况：由于键空间通常远大于数组大小，不同的键可能映射到相同的索引，这称为哈希冲突。如何处理冲突是散列技术的核心挑战。

实现散列的主要数据结构是：哈希表。

### 7.9.2 核心组件与概念

1. 哈希表：一个用于存储数据的数组（或类似结构），其每个位置称为一个**桶**。数据以 (Key, Value) 对的形式存储，Key用于计算索引。

2. 散列函数：将键 Key 转换为数组索引 h(Key) 的函数。它是散列系统的“心脏”。设计优秀散列函数的目标包括：
- 计算快速：计算复杂度低。
- 确定性：相同的键总是产生相同的哈希值。
- 均匀分布：尽可能将不同的键均匀地映射到整个索引空间，减少冲突。
- 最小化冲突：理想情况下，不同键对应不同索引。

3. 常见散列函数举例：
- 除留余数法：h(key) = key % table_size。最常用，table_size 最好是一个质数，以改善分布。
- 直接定址法：h(key) = a * key + b。
- 数字分析法/折叠法：适用于键是较长数字的情况。
- MD5, SHA-1, SHA-256：密码学哈希，用于安全领域和完整性校验（在数据结构中不常用，因为计算慢）。
   
4. 负载因子：衡量哈希表“满”的程度。重要性：负载因子是决定哈希表是否需要扩容（Rehashing）的主要指标。$\alpha$越大，冲突概率越高，查找性能下降。通常设定一个阈值（如0.75），超过则触发扩容。
$$负载因子 \alpha= 表中已存元素个数 n / 哈希表桶的总数 m$$


5. 哈希冲突：当两个或多个不同的键经过散列函数计算后，得到相同的数组索引时，就发生了冲突。必然性：根据鸽巢原理，只要键的数量可能超过桶的数量，冲突就不可避免。


In [6]:
import hashlib
print(hashlib.md5(b"Hello World").hexdigest())  # MD5值
print(hashlib.sha256(b"Hello World").hexdigest())   # SHA256值

b10a8db164e0754105b7a99be72e3fe5
a591a6d40bf420404a011733cfb7b190d62c65bf0bcda32b57b277d9ad9f146e


### 7.9.3 散列函数设计
1. 折叠法
2. 平方取中法
   
...

### 7.9.4 冲突解决方案
1. 链地址法

思想：不把数据直接存在数组里，而是让每个桶指向一个链表（或其他容器，如红黑树）。所有映射到同一索引的键值对都存储在这个链表里。
即：散列和顺序查找的结合。
操作：

- 插入：计算索引，将新节点插入到对应链表的头部（O(1)）。
- 查找：计算索引，遍历对应链表进行查找。
- 删除：计算索引，在对应链表中找到并删除节点。
- 优点：简单有效；负载因子可以大于1；适合不知道数据量上限的场景。
- 缺点：需要额外的指针空间；链表过长会降低性能（退化为O(n)查找）。
- 优化：当链表过长时，在Java 8+的HashMap中，会将其转换为红黑树，以将最坏情况从O(n)提升到O(log n)。

2. 开放定址法

思想：所有数据都存储在数组本身中。当发生冲突时，按照某种探测序列去寻找数组中下一个可用的空桶。
寻找空槽的过程可以称为“再散列rehashing”。
常见探测方法：

线性探测：当位置i冲突时，依次顺序尝试 i+1, i+2, i+3, ...（模 table_size）。容易产生“一次聚集”，即连续被占用的桶形成长簇，降低性能，连锁性影响其他数据项插入。

跳跃探测：当位置i冲突时，尝试跳跃式的探测，i+n, i+2*n...
- 跳跃式探测中，注意skip取值不能被散列表大小整除，否则会产生周期性，为了方便，可以直接将散列表大小设置为素数。

二次探测：当位置i冲突时，i+1^2, i-1^2, i+2^2, i-2^2, ...。减轻了“一次聚集”，但可能产生“二次聚集”，且不一定能探测到所有桶。

双重散列：使用第二个散列函数来计算探测步长：h(k, i) = (h1(key) + i * h2(key)) % table_size。最好的开放定址方法，能产生最接近随机的探测序列，但计算稍慢。
- 优点：完全利用数组空间，无需额外的链表结构；数据局部性好，缓存性能可能更优。
- 缺点：负载因子必须小于1（通常小于0.7-0.8）；删除操作复杂（不能简单置空，需要特殊标记为“已删除”，否则会中断探测链）；容易受“聚集”现象影响。

## 7.10 映射
映射是一种存储键-值对（Key-Value Pair）的集合，其中每个键都是唯一的，每个键映射到一个特定的值。

映射作为一个抽象数据类型，定义了以下基本操作接口：

```python
# 创建/初始化
Map() -> 创建一个空映射

# 插入/更新
put(key, value) -> 将键值对插入映射，若键已存在则更新值

# 查找
get(key) -> 返回键对应的值，若键不存在则返回特定标志（如null/异常）
containsKey(key) -> 布尔值，检查键是否存在

# 删除
remove(key) -> 删除键及其对应的值，返回被删除的值

# 查询
size() -> 返回映射中键值对的数量
isEmpty() -> 检查映射是否为空
```


In [None]:
class HashTable:
    def __init__(self, size=11):    # size设置为素数较好
        """初始化哈希表"""
        self.size = size
        self.slots = [None] * self.size  # 存储键
        self.data = [None] * self.size   # 存储值
    
    def hash_function(self, key, size):
        """简单哈希函数：除留余数法"""
        return key % size
    
    def rehash(self, old_hash, size):
        """再哈希函数：线性探测"""
        return (old_hash + 1) % size
    
    def put(self, key, value):
        """插入键值对"""
        hash_value = self.hash_function(key, len(self.slots))
        
        if self.slots[hash_value] is None:
            # 空槽，直接插入
            self.slots[hash_value] = key
            self.data[hash_value] = value
        else:
            if self.slots[hash_value] == key:
                # 键已存在，更新值
                self.data[hash_value] = value
            else:
                # 发生冲突，线性探测
                next_slot = self.rehash(hash_value, len(self.slots))
                while (self.slots[next_slot] is not None and 
                       self.slots[next_slot] != key):
                    next_slot = self.rehash(next_slot, len(self.slots))
                
                if self.slots[next_slot] is None:
                    # 找到空槽
                    self.slots[next_slot] = key
                    self.data[next_slot] = value
                else:
                    # 更新现有键的值
                    self.data[next_slot] = value
    
    def get(self, key):
        """获取键对应的值"""
        start_slot = self.hash_function(key, len(self.slots))
        
        position = start_slot
        while self.slots[position] is not None:
            if self.slots[position] == key:
                return self.data[position]
            else:
                position = self.rehash(position, len(self.slots))
                if position == start_slot:
                    break
        
        return None
    
    def __setitem__(self, key, value):
        """支持 H[key] = value 语法"""
        self.put(key, value)
    
    def __getitem__(self, key):
        """支持 value = H[key] 语法"""
        return self.get(key)
    
    def __contains__(self, key):
        """支持 key in H 语法"""
        return self.get(key) is not None
    
    def __str__(self):
        """字符串表示"""
        result = []
        for i in range(len(self.slots)):
            if self.slots[i] is not None:
                result.append(f"{self.slots[i]}: {self.data[i]}")
        return "{" + ", ".join(result) + "}"

In [19]:
H = HashTable()
H[54] = "cat"
H[26] = "dog"
H[93] = "lion"
H[17] = "tiger"
H[77] = "bird"
H[31] = "cow"
H[44] = "goat"
H[55] = "pig"

print(H.slots)
print(H.data)
print(H[93])  # 输出: lion
print(26 in H)  # 输出: True

[77, 44, 55, None, 26, 93, 17, None, None, 31, 54]
['bird', 'goat', 'pig', None, 'dog', 'lion', 'tiger', None, None, 'cow', 'cat']
lion
True
