In [1]:
import random, math

## 8.1 比较排序算法的下界

- 比较排序的概念  
  + **各元素在排序的最终结果中的次序，依赖于它们之间的比较**
  + 除了两个元素相比较之外，不能用其它的方法观察元素的值或者它们之间的次序信息

### 决策树模型   

+ 决策树是一颗满二叉树( full binary tree )
  * 满二叉树是指二叉树的每个节点，要么有 2 个子节点，要么有 0 个子节点  
    - <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20191221093327.png>

- 排序算法的决策树  
  - 图示  
    -  <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20191221093908.png width=400>
  - 每个叶结点是输入的一种可能的排列
  - 每个叶结点都可由根节点，经由某条路径到达，该路径对应于比较排序的一次实际执行过程

### 最坏情况的下界

- 一个比较排序算法中最坏情况的比较次数等于其决策树的高度

- **定理 8.1** 在最坏的情况下，任何比较排序算法都需要做 $\Omega(nlgn)$ 次比较  
  - 设叶子节点的数目为 $l$，输入数据的 $n!$ 种可能的排列都是叶结点，一颗高为 $h$ 的二叉树中，叶结点的数目不多于 $2^h$
    - $$ n! \le l \le 2^h \rightarrow h \ge lg(n!) = \Omega(nlgn)$$


- **推论 8.2** 堆排序和归并排序的运行时间上界为 $O(nlgn)$,都是渐近最优的比较排序算法

## 8.2 计数排序

- 假设 $n$ 个输入元素都是在 $[0, k]$ 区间内的一个整数
- 基本思想  
  - 假设元素互异，则以于每一个输入 $x$， 只需要确认小于 $x$ 的元素的个数，即可直接将 $x$ 放到输出数组的位置上
  - 当几个元素相同时，需要对方案进行相应的修改
- 时间复杂度为 $\Theta(n + k)$
- **稳定** 是计数排序的一个重要性质  
  - 稳定性是指具有相同值的元素在输出数组中的相对次序与它们在输入数组中的相对次序相同
  - 当进和排序的数据，还附带有卫星数据时，稳定性比较重要

### <span id="jump">代码实现</span>

In [2]:
def counting_sort(A, k):
  C = [0 for i in range(k+1)]
  for i in A:
    C[i] += 1
  for i in range(1, len(C)):
    C[i] += C[i-1]
  B = [0 for i in range(len(A))]
  for i in reversed(A):
    B[C[i] - 1] = i
    C[i] -= 1
  return B

In [3]:
k = 5
A = [2, 5, 3, 0, 2, 3, 0, 3]
print('排序前：{}'.format(A))
print('排序后：{}'.format(counting_sort(A, k)))

排序前：[2, 5, 3, 0, 2, 3, 0, 3]
排序后：[0, 0, 2, 2, 3, 3, 3, 5]


### 执行过程

- <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20191221174100.png width=600>

## 8.3 基数排序

- 基数排序是一种用在卡片排序机上的算法
- 基数排序是先按最低有效位进行排序来解决卡片排序问题的  
  - <img src=https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20191221175908.png width=300>
- 为了确保基数排序的正确性，一位数的排序算法必须是稳定的
- 实际应用  
  - 按年，月，日对日期进行排序


**引理8-3：** 给定 $n$ 个 $d$ 位数，其中每一个数位有 $k$ 个可能的取值。如果基数排序使用的一位数稳定排序算法耗时 $\Theta(n+k)$，那么
可以在 $\Theta(d(n+k))$ 的时间内完成排序  
  - 当 $d$ 为常数且 $k=O(n)$ 时，基数排序具有线性的时间代价
  - 更一般的情况下，可以灵活的决定如何将关键字分解为若干位

**引理8.4** 给定 $n$ 个 $b$ 位数(二进制)和任何的正整数 $r \le b$，如果基数排序使用的对数据取值区间是 $[0, k]$ 的输入进行排序
稳定性算法的时间是 $\Theta(n+k)$，那么它可以在 $\Theta(b/r)(n+2^r)$ 时间内完成排序  
  - $b < \lfloor lg(n) \rfloor$ 时，选 $r=b$ 时，运行时间为 $\Theta(n)$
  - $b \ge \lfloor lg(n) \rfloor$ 时，选 $r=\lfloor lg(n) \rfloor$ 可以得到最优时间代价为 $\Theta(bn/lgn)$，如果
  $b=O(lg(n))$，则最优的时间代价为 $\Theta(n)$
    - 如果 $r > \lfloor lg(n) \rfloor$，由于分子中的 $2^r$ 增加得比分母中的 $r$ 快，所以时间代价为 $\Omega(bn/lgn)$
    - 如果 $ r < \lfloor lg(n) \rfloor$, 此时 $n+2^r=\Theta(n)$，而 $b/r$ 会变大

- 基数排序与快速排序的对比  
  - 基数排序的最优运行时间可达 $\Theta(n)$ 看上去比快速排序的期望时间 $\Theta(nlg(n))$ 要好，但是两者隐含在 $\Theta$ 符号后的常
  数项是不相同的  
  - 基数排序执行的循环次数会比快速排序少，但是每轮所耗费的时间更长
  - 利用计算排序作为中间稳定排序算法的基数排序不是原址排序，会占用更多的缓存空间，而快速排序是原址排序

### 代码实现

In [4]:
class NumberWithIndex():
  """定义一个含有原下标的类"""
  def __init__(self, num, index):
    self.num = num
    self.index = index

  def __index__(self):
    return self.num

def sort_digit(A, i):
  """按照第 i 位对数组进行排序"""
  B = [NumberWithIndex(0, index) for index in range(len(A))]
  for index, num in enumerate(A):
    B[index].num = num // (10 ** (i-1)) % 10
  B = counting_sort(B, 9)
  C = list()
  for item in B:
    C.append(A[item.index])
  return C
    


def radix_sort(A, d):
  """对于 d 位十进制数进行排序"""
  for i in range(1, d+1):
    A = sort_digit(A, i)
  return A


In [5]:
d = 3
A = [random.randint(10 ** (d-1), 10 ** d - 1) for i in range(10)]
print("排序前: {}".format(A))
print("排序前: {}".format(radix_sort(A, d)))

排序前: [660, 564, 785, 659, 295, 898, 602, 496, 402, 861]
排序前: [295, 402, 496, 564, 602, 659, 660, 785, 861, 898]


## 8.4 桶排序

- 桶排序假设输入是由一个随机过程产生，该过程将元素均匀、独立的分布在 $[0, 1)$ 区间上
- 实现方法  
  - 将 $[0, 1)$ 区间划分为 $n$ 个相同大小的子区间，称为桶。将 $n$ 个输入数分别放入到各个桶中
  - 对各个桶中的数进行排序（若为列表，可选用插入排序），然后遍历各个桶，将桶中的元素取出

### 运行时间分析

- 假设采用的是插入排序，用 $n_i$ 表示桶 $B[i]$ 中的元素个数，则桶排序运行的时间代价为：
$$ T(n) = \Theta(n) + \sum^{n-1}_{i=0}{O(n^{2}_{i})}$$

- 桶排序的期望运行时间：
$$E(T(n)) = \Theta(n) + \sum^{n-1}_{i=0}{O[n_i^2]}$$  
  - 当输入均匀分布时，$E(n_i^2) = 2 - 1/n$，期望运行时间为 $\Theta(n)$
  - 如果输入不是均匀分布，但满足桶的大小的平方和与总的元素数呈线性关系，则桶排序仍然能在线性时间内完成

### 代码实现

In [6]:
def insertion_sort(A):
  """插入排序"""
  for j in range(1, len(A)):
    key = A[j]
    i = j - 1
    while i >=0 and A[i] > key:
      A[i+1] = A[i]
      i -= 1
    A[i+1] = key


def bucket_sort(A):
  """借助列表来实现桶排序"""
  B = [[] for index in range(len(A))]
  for item in A:
    B[math.floor(len(A)*item)].append(item)
  for item in B:
    insertion_sort(item)
  res = list()
  for item in B:
    res += item
  return res


In [7]:
A = [.78, .17, .39, .26, .72, .94, .21, .12, .23, .68]
print('排序前：{}'.format(A))
print('排序后：{}'.format(bucket_sort(A)))

排序前：[0.78, 0.17, 0.39, 0.26, 0.72, 0.94, 0.21, 0.12, 0.23, 0.68]
排序后：[0.12, 0.17, 0.21, 0.23, 0.26, 0.39, 0.68, 0.72, 0.78, 0.94]


## 练习题

### 8-3 不定长数据项的排序

#### a. 不定长整数的排序

基本思路： 
  - 设最大整数的位数为 $d$，创建 $d$ 个桶，每个桶中装入位数相同的元素
  - 对每个桶中的元素进行基数排序

In [8]:
def get_digits(num):
  """获取一个整数的最大位数"""
  digits = 0
  while num > 0:
    digits += 1
    num //= 10
  return digits

def variable_length_num_sort(A):
  """不定长整数的排序"""
  max_digits = 0
  digits_list = []
  for item in A:
    digits_list.append(get_digits(item)) 
    if max_digits < digits_list[-1]:
      max_digits = digits_list[-1]
  B = [[] for item in range(max_digits)]
  for index, item in enumerate(digits_list):
    B[item-1].append(A[index])
  res = []
  for index, item in enumerate(B):
    res += radix_sort(item, index+1)
  return res

In [9]:
A = [random.randint(0, 10000) for index in range(20)]
print('排序前：{}'.format(A))
print('排序后：{}'.format(variable_length_num_sort(A)))

排序前：[2028, 5193, 4273, 980, 7399, 6883, 7551, 1512, 6290, 9954, 2137, 5986, 6136, 3922, 9450, 9938, 6393, 6854, 423, 8194]
排序后：[423, 980, 1512, 2028, 2137, 3922, 4273, 5193, 5986, 6136, 6290, 6393, 6854, 6883, 7399, 7551, 8194, 9450, 9938, 9954]


#### b. 不定长字符串的排序

- 基本思路
  1. 按照首字母将字符串放入 26 个桶中
  2. 遍历各个桶，如果每个桶中的元素数目大于1，则去掉每个元素的首字母后，再继续步骤 1 中的操作
  3. 实际操作时，可以用递归来简化代码书写。

In [10]:
def variable_length_string_sort(A, depth=1):
  B =[[] for index in range(27)]  # 0 表示长度不符合当前要求
  for item in A:
    if len(item) >= depth:
      B[ord(item[depth-1]) - ord('a') + 1].append(item)
    else:
      B[0].append(item)
  for index in range(1, len(B)):  # python 的切片是浅拷贝，此外不能用 for item in B[1:]
    if len(B[index]) > 1:
      B[index] = variable_length_string_sort(B[index], depth + 1)
  res = []
  for item in B:
    res += item
  return res
  

In [11]:
A = ['z', 'xy', 'a', 'abc', 'ab', 'b', 'cde', 'c', 'za']
print(variable_length_string_sort(A))

['a', 'ab', 'abc', 'b', 'c', 'cde', 'xy', 'z', 'za']


### 8-4 水壶

#### a 确定性算法, $O(n^2)$ 内完成配对

- 基本思路  
  - 采取暴力解法，即每次选中一个红色水壶，然后遍历蓝色水壶去寻找配对项
  - 设共有 $n$ 对水壶，则最坏情况下的需要花费的时间为： $$T(n)=n + (n-1) + (n-2) + \dots + 2 = O(n^2)$$

- 代码实现  
  - $R$ 表示红色水壶， $B$ 表示蓝色水壶，则根据限制条件，$R, B$ 中的元素本身不能相互比较，但是 $R, B$ 中的元素可以互相比较
  - $R, B$ 中元素相同，但是顺序不同
  - 程序运行结束后，$R$, $B$ 中的元素顺序完全相同，其中 $R$ 中的元素顺序保持不变，可以看做是确性性算法

In [12]:
def water_jugs_pairing_brute(R, B):
  for i in range(len(R) - 1):
    for j in range(i, len(B)):
      if R[i] == B[j]:
        B[i], B[j] = B[j], B[i]
        break

In [13]:
R = random.sample(range(100), 10)
B = random.sample(R, 10)
print("配对前:\n R = {} \n B = {}".format(R, B))
water_jugs_pairing_brute(R, B)
print("配对后:\n R = {} \n B = {}".format(R, B))

配对前:
 R = [70, 11, 57, 66, 47, 82, 98, 29, 87, 53] 
 B = [29, 66, 11, 47, 82, 87, 98, 70, 53, 57]
配对后:
 R = [70, 11, 57, 66, 47, 82, 98, 29, 87, 53] 
 B = [70, 11, 57, 66, 47, 82, 98, 29, 87, 53]


#### c. 确定性算法， 期望比较次数为 $O(nlgn)$

- 基本思路  
  1. 采用与快速排序类似的方法，从 $R$ 中随机选择主元，然后将 $B$ 中元素分为左右两组，左边的均小于主元，右边的均大于主元。中间位置的是 $B$ 中与 $R$ 中的主元相同的元素
  2. 再用 1 中求得的 $B$ 中的主元元素去对 $R$ 中的元素进行分组
  3. 递归的对左右数组分别运行1，2 中算法  
    - 因为经过 1，2 步后， $R$ 中左边数组对应的匹配项一定会在 $B$ 中的左边数组中
- 期望的比较次数是快排的两倍，但是其上界仍然为 $O(nlgn)$

In [16]:
def partition(A, p, r, key):
  """按照选定的主元对数组分组"""
  q = p - 1
  for j in range(p, r+1):
    if A[j] < key:
      q += 1
      A[q], A[j] = A[j], A[q]
    elif A[j] == key:
      q += 1
      foo = A[j]
      A[j] = A[q]
      A[q] = A[p]
      A[p] = foo
  A[q], A[p] = A[p], A[q]
  return q


def water_jugs_pairing_quicksort(R, B, p, r):
  """按快排的思想寻找所有匹配的水壶"""
  if p < r:
    i = random.randint(p, r)
    q = partition(B, p, r, R[i])  # 以 R 中的元素为主元对 B 进行分组
    q = partition(R, p, r, B[q])  # 以 B 中的元素为主元对 R 进行分组
    water_jugs_pairing_quicksort(R, B, p, q-1)
    water_jugs_pairing_quicksort(R, B, q+1, r)

In [17]:
size = 10
R = random.sample(range(100), size)
B = random.sample(R, size)
print("配对前:\n R = {} \n B = {}".format(R, B))
water_jugs_pairing_quicksort(R, B, 0, len(R)-1)
print("配对后:\n R = {} \n B = {}".format(R, B))

配对前:
 R = [99, 23, 93, 59, 35, 3, 56, 63, 50, 42] 
 B = [93, 59, 42, 23, 35, 56, 50, 63, 99, 3]
配对后:
 R = [3, 23, 35, 42, 50, 56, 59, 63, 93, 99] 
 B = [3, 23, 35, 42, 50, 56, 59, 63, 93, 99]
