In [180]:
import random

## 9.0 相关概念

- **顺序统计量**
  - 第 $i$ 个顺序统计量是指集合中第 $i$ 小的元素
  - $i=1$ 时，为**最小值**
  - $i=n$ 时，为**最大值**
  - 当 $n$ 为奇数时， $i = (n+1)/2$ 为**中位数**
  - 当 $n$ 为奇数时，存在两个中位数，分别位为 $ i = n/2$ 和 $i = n/2 + 1$ 处
  - 不考虑 $n$ 的奇偶性，则中位数总是出现在 $i=\lfloor (n+1)/2 \rfloor$(**下中位数**) 和 $\lceil (n+2)/2 \rceil$ 处(**上中位数**)

- **选择问题**  
  - 寻找第 $i$ 个顺序统计量，可以抽像为选择问题

> 输入：一个包含 $n$ 个（互异的）数的集合 $A$ 和一个整数 $i$, $1 \le i \le n$  
输出： 元素 $x \in i$, 且$A$中恰好有 $i-1$ 个元素小于它 

## 9.1 最大值和最小值

### 找出最小值

- 可通过 $n-1$ 次比较得出

In [181]:
def minimum(A):
  mini = A[0]
  for i in range(1, len(A)):
    if A[i] < mini:
      mini = A[i]
  return mini

In [182]:
A = random.sample(range(100), 10)
print("A = {}".format(A))
print("{} is the minimun item in A".format(minimum(A)))

A = [74, 27, 26, 64, 38, 35, 13, 78, 17, 19]
13 is the minimun item in A


### 找出最大值

- 与最小值一样，也可通过 $n-1$ 次比较得到

In [183]:
def maxmum(A):
  maxm = A[0]
  for i in range(1, len(A)):
    if A[i] > maxm:
      maxm = A[i]
  return maxm

In [184]:
A = random.sample(range(100), 10)
print("A = {}".format(A))
print("{} is the maxmun item in A".format(maxmum(A)))

A = [32, 95, 64, 12, 48, 46, 23, 0, 61, 98]
98 is the maxmun item in A


### 同时找出最大值和最小值

- 通过成对的处理输入，最多只需要 $3\lfloor n/2 \rfloor$ 次比较即可同时找出最大值和最小值
  - 先比较两个输元素，然后将较小的值与当前的最小值进行比较，将较大的值与当前的最大值进行比较

In [185]:
def mini_maxmum(A):
  n = len(A)
  if n % 2 == 0:
    mini, maxm = A[0], A[1]
    start_index = 2
  else:
    mini = maxm = A[0]
    start_index = 1
  for i in range(start_index, len(A), 2):
    if A[i] > A[i+1]:
      tmp_mini, tmp_maxm = A[i+1], A[i]
    else:
      tmp_mini, tmp_maxm = A[i], A[i+1]
    if tmp_mini < mini:
      mini = tmp_mini
    if tmp_maxm > maxm:
      maxm = tmp_maxm
  return mini, maxm
  

In [186]:
A = random.sample(range(100), random.randint(10, 20))
print("A = {}".format(A))
mini, maxm = mini_maxmum(A)
print("{} is the minimun item in A, {} is the maxmun item in A.".format(mini, maxm))

A = [8, 48, 56, 35, 13, 21, 78, 28, 68, 3, 7, 81, 46, 76, 57]
3 is the minimun item in A, 81 is the maxmun item in A.


### 练习

#### 9.1-1 
最坏情况下，需要经过 $n + \lceil lgn \rceil - 2$ 次比较找到 $n$ 个元素中第二小的元素

- 基本思路
  - 借助[锦标赛树](https://blog.csdn.net/lihao161530340/article/details/78938403)，先找出最小值，需要进行 $n-1$ 次比较
  - 第二小的值一定与最小值的比较过，所以与最小值比较过的值中的最小值，即为第二小的值。
  - 叶子节点为 $n$ 的锦标赛树为满二叉树,其高度最高为 $\lceil lgn \rceil $，则最多有 $\lceil lgn \rceil $ 个元素需要进行 $\lceil lgn \rceil -1 $ 次比较
  - 综上分析，在最坏的情况下，需要进行 $n + \lceil lgn \rceil - 2 $次比较

#### 9.1-2  
在最坏情况下，同时找到 $n$ 个元素中的最大值与最小值的比较次数的下界为 $\lceil 3n/2 \rceil - 2$

- 证明：
  1. 对于 $n$ 个元素来说，刚开始共有 $n$ 个数有可能成为 MAX 或 MIN， 设为集合 $\{MAX\}$ 和 $\{MIN\}$
  2. 当 $n$ 个元素成对比较时，每比较一次，则集合 $\{MAX\}$ 和 $\{MIN\}$ 中的可能值都会减 1  
    - 例： $ a \lt b$ 且 $a$ 不可能在集全 $\{MAX\}$ 中，而 $b$ 则不可能在集合 $\{MIN\}$ 中
  3. 2 中成对的比较共有 $\lfloor n/2 \rfloor$ 次，则此时 $\{MAX\}$ 和 $\{MIN\}$ 中还各有 $n - \lfloor n/2 \rfloor = \lceil n/2 \rceil$ 种可能，
  各需要进行 $\lceil n/2 \rceil - 1$ 次比较才能确定最终值
  - 上述几步中所需要比较次数至少为 $$\lfloor n/2 \rfloor + 2\lceil n/2 \rceil - 2 = n + \lceil n/2 \rceil - 2 = \lceil 3n/2 \rceil - 2$$

## 9-2 期望为线性时间的选择算法

### 代码实现

- 选择排序的分治算法 RANDOMIZED-SELECT 是以快速排序算法为基础的
- 快速排序算法会递归的处理 partition 后两边的数组，而 RANDOMIZED-SELECT 只用处理一边的数组

In [187]:
def partition(A, p, r):
  """以最后一个元素为主元对数组 A 进行分组"""
  q = p - 1
  for j in range(p, r):
    if A[j] < A[r]:
      q += 1
      A[j], A[q] = A[q], A[j]
  A[q+1], A[r] = A[r], A[q+1]
  return q + 1

In [188]:
def randomized_partition(A, p, r):
  """随机选择主元对数组 A 进行划分"""
  i = random.randint(p, r)
  A[i], A[r] = A[r], A[i]
  return partition(A, p, r)

In [189]:
def randomized_select(A, p, r, i):
  """选择数组 A 中在 [p, r] 中的第 k 个顺序统计量"""
  if p == r:
    return A[p]
  q = randomized_partition(A, p, r)
  k = q - p + 1
  if k == i:
    return A[q]
  elif k > i:
    return randomized_select(A, p, q-1, i)
  else:
    return randomized_select(A, q+1, r, i-k)

In [190]:
A = [random.randint(1, 15) for i in range(10)]
print("A = {}".format(A))
i = random.randint(1, 10)
print("A 中的第 {} 个顺序统计量为 {}".format(i, randomized_select(A, 0, len(A)-1, i)))
print("排序后，第 {} 个值为 {}".format(i, sorted(A)[i-1]))

A = [9, 2, 3, 1, 1, 2, 1, 12, 13, 9]
A 中的第 4 个顺序统计量为 2
排序后，第 4 个值为 2


### 期望运行时间的上界

- 定时指标器随机变量：
$$X_k = I\{子数组 \ A[p \cdots q]\} \ 正好包含 k 个元素$$  
  - 假设元素是互异的，有 $$ E[X_k] = 1/n$$
- 根据指示器随机变量的定义，可得下述递归式:  $$T(n) \le \sum_{k=1}^{n}{X_k \times (T(max(k-1, n-k)) + O(n))}$$
- 根据期望的相关性质和代入法，可证得：$$E(T(n)) = O (N)$$

### 练习题

#### 9.2-1  
证明在 RANDOM-SELECT 中，对长度为 0 的数组，不会进行递归调用

- 基本思路： 反证法  
  1. 如果书中伪代码的第 8 行在数组为 $0$ 的情况下发生调用，则 $ p > q - 1$，由此可得 
  $ q - p < 1 \rightarrow k = q - p + 1 < 2 \rightarrow k \le 1 $，要想进入第 8 行，则必须满足 $i < k \le \rightarrow i < 1$, 这与 $ i \ge 1$ 相矛盾  
  2. 如果第 9 行在数组为 $0$ 的情况下发生调用，则 $q + 1 > r \rightarrow k = q - p + 1 > r - p$，而进入第 9 行的前提条件是 $ i > k$，由此可得 $i > k > r - p$, 
  这与 $i \le r - p$ 相矛盾
  - 综合 1，2 可得不会对长度为 $0$ 的数组进行递归调用

#### 9.2-3  
RANDOMIZED-SELECT 的基于循环的版本

In [191]:
def randomized_select_loop(A, i):
  p, r = 0, len(A) - 1
  while p < r:
    q = randomized_partition(A, p, r)
    k = q - p + 1
    if k == i:
      return A[q]
    elif k > i:
      r = q - 1
    else:
      p = q + 1
      i -= k
  return A[p]

In [192]:
A = [random.randint(1, 15) for i in range(10)]
print("A = {}".format(A))
i = random.randint(1, 10)
print("A 中的第 {} 个顺序统计量为 {}".format(i, randomized_select_loop(A, i)))
print("排序后，第 {} 个值为 {}".format(i, sorted(A)[i-1]))

A = [4, 14, 7, 4, 12, 3, 1, 1, 7, 2]
A 中的第 10 个顺序统计量为 14
排序后，第 10 个值为 14


## 9.3 最坏情况下为线性时间的选择算法

### SELECT 算法描述  
  1. 将输入数组的 $n$ 个元素划分为 $\lfloor n/5 \rfloor$ 组，每组 $5$ 个元素，则至多还有一组由剩下的 $n \ mod \ 5 $ 个元素组成
  2. 确定 $\lceil n/5 \rceil$ 组每一组的中位数, 可用插入排序来实现
  3. 对于第 2 步中确认的每组的中位数，递归的调用 SELECT 以找出其下中位数 $x$，
  4. 以 $x$ 为主元，调用 PARTITION，对数组进行分组，设 $x$ 为第 $k$ 小的元素，则有 $n-k$ 个元素在划分的高区
  5. 如果 $i=k$，则返回 $x$, 如果$i < k$, 则在低区递归的调用 SELECT 来找出第 $i$ 小的元素，如果 $i>k$, 则在高区递归的查找第 $i-k$ 小的元素

### 代码实现

In [193]:
def find_median(A, p, r):
  """借助插入排序找出数组 A 指定区域的下中位数"""
  for j in range(p+1, r+1):
    i = j - 1
    key = A[j]
    while i >=p and A[i] > key:
      A[i+1] = A[i]
      i -= 1
    A[i+1] = key
  return A[(p+r)//2]

In [194]:
def select(A, p, r, i):
  if r - p <= 5:
    find_median(A, p, r)
    return A[p + i - 1]
  j = p
  medians = list()
  while True:
    if j+5 <= r:
      medians.append(find_median(A, j, j+5))
      j += 5
    else:
      medians.append(find_median(A, j, r)) 
      break
  key = select(medians, 0, len(medians)-1, (len(medians)- 1)//2)
  index = A.index(key)  # 找到 key 对应的 index
  A[index], A[r] = A[r], A[index]
  q = partition(A, p, r)
  k = q - p + 1
  if k == i:
    return A[q]
  elif k > i:
    return select(A, p, q-1, i)
  else:
    return select(A, q+1, r, i-k)

In [195]:
A = [random.randint(1, 10000) for i in range(random.randint(1, 1000))]
i = random.randint(1, len(A))
print("select 输出的结果: {}".format(select(A, 0, len(A)-1, i)))
print("先排序，再取第 i 个值的结果: {}".format(sorted(A)[i-1])) 

select 输出的结果: 8407
先排序，再取第 i 个值的结果: 8407


### 时间复杂度分析

- 当输入规模为 $n$ 时，设其最坏情况下的运行时间为 $T(n)$
- 第 3 步的运行时间为 $T(\lceil n/5 \rceil)$  
  - 进一步分析，只要第 5 步中递归调用的规模严格的小于 $4n/5$, 即可保证整个算法为线性算法
- 第 4 步划分后，大于 $x$ 的个数至少为: $$3(\lceil{{1 \over 2} \lceil {n \over 5} \rceil} \rceil - 2) \ge {3n \over 10} - 6 $$  
  - 分析过程图示：
    - <img src="https://raw.githubusercontent.com/Lijunjie9502/PicBed/master/20191226083609.png" width = 300>
  - 则第 5 步中，SELECT 递归调用时，最多作用于 $7n\ /\ 10 + 6$ 个元素
- 经过上述分析，可得： $$T(n) \le T(\lceil n/5 \rceil) + T(7n/10) + 6 + O(n)$$  
  - 通过代入法可得： $T(n) = O(n)$


### 练习

#### 9.3-6
在 $O(nlgk)$ 的时间内，找出某一集合的 $k$ 分位数

- 基本思路  
  - 设输入的数组为 $A$ 且 $d = \lfloor n / k \rfloor$，则求解 $k$ 分位数，相当于求解 $A$ 的第 $ d, 2d, 3d, \cdots 
  (k-1)d$ 个顺序统计量  
  - 如果直接调用 SELECT 进行求解，则时间复杂度为 $O((k-1)n)$  
  - 注意到，每次调用 SELECT 后，会对数组 $A$ 进行一定的左右划分，即
  设查找是第 $i$ 个顺序统计量，运行完 SELECT 后， $A[i-1]$ (数组下标从 0 开始)为所需要顺序量，而当 $j \in [0, i-1)$ 时，
  $A[j] \le A[i]$; 当 $j \in (i-1, len(A))$ 时， $A[j] > A[i]$。  
    - 利用这个性质，则可以利用分治法，减小调用 SELECT 时数组的规模，从而减小时间复杂度  
  - 具体是首先查找中间位置的 $k$ 分位数，然后再分别查找左右数组中间位置的 $k$ 分位数，如此，可近似将数组规模减半。递归调用算法，
  即可查找到所有的 $k$ 分位数。 
- 复杂度分析
  - 不妨设 $n, k$ 均为 $2$ 的整数倍幂，设时间复杂度为 $T(n)$， 则可得：  
    - $$\begin{aligned} T(n) &\le cn + 2T(n/2) \\
                  &\le 2cn + 4T(n/4) \\
                  &\le 3cn + 8T(n/8) \\
                  &\cdots \\
                  &\le cnlgk + kT(n/k) \\&= cnlgk + O(k) \\&= O(nlgk) \\
     \end{aligned}$$
    - 由上式可得 $T(n) = O(nlgk)$

In [196]:
def find_k_quantiles_recursive(A, p, r, d, res):
  """找出数组 A 的的第 k - 1 个分位数"""
  while r - p + 1 >= d:
    middle = ( (r-p + 1)//d + 1)// 2  # 中间分组的个数，最小为 1
    q = p + middle * d - 1  # 在 A 中的索引位置
    index = (q+1) // d  - 1  # 在 res 中的索引位置
    if index < len(res):  # 排除最后一个 k 分数
        res[index] = select(A, p, r, middle * d)
    find_k_quantiles_recursive(A, p, q-1, d, res)
    p = q + 1


def find_k_quantiles(A, k):
  d = len(A) // k
  res = [None] * (k-1)
  find_k_quantiles_recursive(A, 0, len(A)-1, d, res)
  return res

In [197]:
a = random.sample(range(1000), 1000)
find_k_quantiles(a, 10)

[99, 199, 299, 399, 499, 599, 699, 799, 899]

#### 9.3-7  
设计一个 $O(n)$ 时间的算法，对于一个给定的包含 $n$ 个互异元素的集合 $S$ 和正整数 $k \le n$，该算法能够确定集合 $S$ 中最接近于中位数的 $k$ 个整数

- 基本步骤  
  1. 借助 SELECT 找出集合 $S$ 的下中位数，设其为 $x$，即第 $\lfloor (n+1)/2 \rfloor $ 个顺序统计量
  2. 将 $S$ 中的元素分别与 $x$ 相减后取绝对值，得到集合 $B$
  3. 通过 SELECT 算法找出 $B$ 中的第 $(k+1)$ 个顺序统计量，记为 $y$
  4. 遍历数组 $B$,如果其值在 $(0, y]$ 之间，即为所需求解的 $k$ 个整数之一

- 代码实现

In [208]:
def find_k_middle(S, k):
  """找出最接近中位数的 k 个整数，假设 S 中元素互异"""
  middle = select(S, 0, len(S)-1, len(S)//2)
  B = [0] * len(S)
  for index, item in enumerate(S):
    B[index] = abs(item - middle)
  C = B.copy()  # 为了避免调用 SELECT 时打乱 B 中的元素顺序
  max_distance = select(C, 0, len(C)-1, k+1)
  res = [None]*k  # 结果数组
  i = 0
  for index, item in enumerate(B):
    if 0 < item <= max_distance:
      if i >= len(res): # 距离为  max_distance 的值可能有两个，为了避免 res 溢出，任意较小的一个
        break
      res[i] = S[index]
      i += 1
  return res

In [223]:
S  = random.sample(range(100), 100)
k = random.randint(1, 9)
print("k = {}".format(k))
find_k_middle(S, k)

k = 3


[47, 48, 50]