# 问题和性质

## 排序问题的定义

对具有序关系 $\leq$的集合S，一个排序算法 $sort:S\rightarrow S$ 对 S 的任意元素序列 s，满足

$$s^{\prime}= sort(s),s^{\prime}\subseteq S$$

并且 $s^{\prime}$的任意2个元素 e 和 $e^{\prime}$ 满足：

$$loc_{s^{\prime}}(e)\leq loc_{s^{\prime}}(e^{\prime}) \Longleftrightarrow e\leq e^{\prime}$$

其中 $loc_{s^{\prime}}(e)$ 为 e 在序列 $s^{\prime}$ 里的位置。

**内排序与外排序**

1. 内排序：如果待排序的记录都保持在内存，称为内排序；

2. 针对外存(磁盘、磁带等)数据的排序工作称为外排序。

本章主要讨论内排序算法，其中的**归并排序算法**是大多数外排序算法的基础。

## 排序的操作、性质和评价

假设我们需要排序的是：$S = \{R_0,R_1,\cdots,R_{n-1}\}$，其中 $R_i$ 的关键码是 $K_i$，我们按照 关键码对元素进行排序。

**排序的基本操作：**

1. 比较关键码的操作，通过比较来确定数据记录的顺序；
2. 移动数据记录的操作，用于调整数据记录的位置 或 顺序。


**排序的时间复杂度和空间复杂度：**

1. 时间复杂度：理论研究，基于关键码的排序操作，任何排序算法的复杂度都不可能优于 $O(\log n\log n)$；

2. 空间复杂度：排序算法的空间复杂度，只要是关注在执行算法过程中所需要的临时辅助空间。

备注：在执行排序算法时，人们特别关注算法的空间复杂度是不是常量的。常量的开销说明，排序可以在原表里完成，只需要几个变量作为操作中的临时存储。具有这种性质的排序算法称为**原地排序算法**。

**排序算法的性质：**

1. 稳定性：对待排序的序列 S 中关键码相等的两个元素 $R_i,R_j$，在排序之后保持 $R_i,R_j$ 的前后顺序不变。就称这个算法是稳定的；

2. 适应性：如果一个排序算法对接近有序的序列工作地更快，时间复杂度更低，就称这种算法具有适应性。

## 排序算法的分类

把经典的排序算法按照基本操作方式或特点进行如下分类：
1. 插入排序；
2. 选择排序；
3. 交换排序；
4. 分配排序；
5. 归并排序；
6. 外部排序。

**记录结构**

在之后章节讨论各种排序算法时，使用的示例数据结构就是一个表。假定表中元素是下面定义的record类的对象：
```python
class record:
    def __init__(self,key,datum):
        self.key=key 
        self.datum=datum
```

另外，我们假定key排序所需的 $>,<,\geq,\leq$ 都已经有定义。并且只考虑 $\leq$，即递增顺序排序问题。

# 简单排序算法

## 插入排序

对一个连续列表，入下图所示，左侧表示已经排序部分；右侧(包含d)代表未排序部分。插入排序就是：
1. 对于未排序部分，从左到右依次处理未排序元素，每次只考虑最左端的元素d;
2. 将元素d从列表中取出，这样列表里就多了一个空位；
3. 通过d与已排序部分从右往左挨个比较，如果比d大就向右平移1个单位；否则d就插入当下的空位；
4. 循环未排序部分，重复以上过程即完成排序。
<img src='picture\sort_1.png'>

In [5]:
class record:
    def __init__(self,key,datum):
        self.key=key 
        self.datum=datum
        
def insert_sort(lst):
    for i in range(1,len(lst)):# 默认第一个元素已经排好序
        x = lst[i]
        j = i
        while j>0 and lst[j-1].key>x.key: 
            lst[j] = lst[j-1] # 如果 j-1位置元素更大，就往后移
            j -= 1 
        lst[j] = x # 因为是基于lst原地修改的，所以不需要返回lst  

In [7]:
a = [3,5,2,8,10,8,66]
lst = [record(i,i) for i in a]
insert_sort(lst)
for j in lst:
    print(j.key)

2
3
5
8
8
10
66


**时间和空间复杂度**

空间复杂度：因为只用到了几个临时变量，所以复杂度是 $O(1)$。

**时间复杂度：**

外层循环：外层循环执行次数就是 n-1 次；

内层循环： 执行次数和实际情况有关。变量j的初始值从 1 逐渐增加到 n-1：

    a. 最坏情况是 $lst[j-1].key>x.key$ 总是失败，也就是说，每次处理的元素比已经排序的所有部分小，这个元素就会移到最前面，执行次数就是 j，结合外层循环，插入算法总执行次数为：
$$1 + 2 + \cdots + (n-1) = n\times (n-1)/2 $$
    
    b. 最好情况是 被处理元素大于已排序部分，内层循环体不执行；

经过以上分析，可知：

1. 关键码比较次数：最少是 n-1(对应的是内层循环不执行)，最多是 $n\times (n-1)/2 $;

2. 记录移动次数：包括内层循环外面的2次(取放被处理元素),最少是 $2(n-1)$，最多是 $2(n-1) + n\times (n-1)/2$。

所以最坏情况的时间复杂度是 $O(n^2)$，最好情况是 $O(n)$,说明这个算法具有适应性；同时根据代码逻辑也可知算法具有稳定性。

平均意义下，时间复杂度是 $O(n^2)$。

**插入排序的变形**

在检索元素的插入位置，可以从原来的顺序检索变成二分法检索，原因在于前面的部分是排好序的，适合二分法；即便如此，找到位置后还是要顺序移动元素，这还是需要线性时间。

另外，二分法要注意稳定性，即遇到相同的关键码，要保证插入位置在其后面。

In [83]:
class record:
    def __init__(self,key,datum):
        self.key=key 
        self.datum=datum
        
def insert_sort(lst):   
    for i in range(1,len(lst)):# 默认第一个元素已经排好序
        x = lst[i]           
        left,right = 0,i-1
        while left<=right:
            midd = int((left+right)/2)
            y = lst[midd]
            if y.key<= x.key: 
                left = midd+1 # 保证稳定性，不影响原来元素的序
            else:
                right = midd-1 
        j = i-1
        while j>=left: # 进行数据记录的倒序移动
            lst[j+1] = lst[j]
            j -= 1
        lst[left] = x

In [84]:
a = [3,5,2,1,10,8,66,8]
lst = [record(i,i) for i in a]
insert_sort(lst)
for j in lst:
    print(j.key)

1
2
3
5
8
8
10
66


其他：
[ 对链表进行插入排序](https://leetcode-cn.com/problems/insertion-sort-list/submissions/)

## 选择排序

选择排序的基本思想：

1. 维护所有数据中最小的i个已排序序列；

2. 每次从剩余未排序部分中选取关键码最小的数据，将其放在已排序序列的后面，作为第i+1个已排序元素；

3. 以空序列作为最开始的已排序序列，循环执行上述步骤，直到未排序部分里只剩下1个未排序元素时(它必然是最大元素)，直接将其放在已排序序列的最后。

<img src='picture\sort_2.png'>

**直接选择排序**

当找到最小数据时，如何腾出已排序部分后面的位置？一种比较直接的做法是：将已排序部分后面的元素和最小元素进行交换。交换时可能会破坏算法的稳定性。原因如下：

1. 最小元素放在已排序部分后面，不会影响稳定性，因为最小元素肯定比之前的已排序部分都大；
2. 已排序部分后面的元素放到最小元素原来的位置，可能会越过关键码相同的元素，这样在下次选取以该关键码为最小值的元素时，就会选择被越过的关键码相同的元素，这就导致了算法的不稳定性。

如果想要保持稳定性，优化的方法在于：

    类似上面的插入排序，先取出最小元素，然后对未排序元素到最小元素之间的部分顺序移动，再将最小元素放在已排序部分的后面。

In [10]:
class record:
    def __init__(self,key,datum):
        self.key=key 
        self.datum=datum
        
def select_sort(lst):   
    for i in range(len(lst)-1):# 最后一个元素必然最大
        min_index = i
        for j in range(i,len(lst)):
            if lst[j].key<lst[min_index].key:
                min_index = j 

        if i != min_index:
            lst[min_index],lst[i] = lst[i],lst[min_index]

In [11]:
a = [3,5,2,1,10,8,66,8]
lst = [record(i,i) for i in a]
select_sort(lst)
for j in lst:
    print(j.key)

1
2
3
5
8
8
10
66


算法的空间复杂度是$O(1)$;

元素比较的次数是固定的，是$n\times (n-1)/2$；记录的次数取决于实际情况，在 0 到 $2\times (n-1)$。综合可知，平均时间复杂度和最坏时间复杂度都是 $O(n^2)$。

从时间复杂度也可以看出，直接选择排序算法的实际平均排序效率是低于插入排序算法，所以很少实际使用。

**提高选择的效率**

直接选择排序算法效率低的原因是，每个元素都要从头开始顺序比较，没有利用上一次排序时的“记忆”。优化的方法就是之前提到的原位排序算法(空间复杂度为常数)堆排序，做到了时间复杂度的理论最优值$O(\log n\log n)$。但是堆排序算法没有稳定性和适应性。

## 交换排序

交换排序的基本思路是：一个序列如果没有完全排序，说明里面存在**逆序对**。交换发现的逆序对，就能更靠近良好排序序列；通过不断减少序列中的逆序，最终可以得到排序序列。采用不同的**确定逆序方法和交换逆序方法**，可以得到不同的**交换排序方法**。

起泡排序便是其中一种。

**起泡排序**

起泡排序的步骤：

1. 从序列的第一个数据下标开始，每个元素从左往右依次与相邻元素进行比较，如果发现是逆序，就交换；
2. 反复进行上述步骤直到序列不存在逆序，即完全有序。

示例如下：
<img src='picture\sort_3.png'>

通过起泡排序的步骤，可知：

1. 每一遍检查可以把一个最大元素交换到位，一些较大元素可以右移一段，可能移动很远；

2. 从左到右比较，导致从右到左换位的小元素每次只左移一个单位，个别距离目标位置很远的元素，可能延误整个排序进度。

3. 在每一遍检查的过程中，表的末端积累的是越来越多排好序的大元素；每编扫描，这段元素增加一个，经过n-1编扫描一定可以完成排序；

4. 每做一遍扫描，扫描的范围可以缩短一项(末端的大元素)。

In [24]:
class record:
    def __init__(self,key,datum):
        self.key=key 
        self.datum=datum
        
def bubble_sort(lst):   
    a = 0 
    for i in range(len(lst)):
        a += 1
        for j in range(1,len(lst)-i):
            if lst[j].key<lst[j-1].key:
                lst[j],lst[j-1] = lst[j-1],lst[j]
    print('循环次数',a)

In [25]:
a = [3,5,2,1,10,8,66,8]
lst = [record(i,i) for i in a]
bubble_sort(lst)
for j in lst:
    print(j.key)


循环次数 8
1
2
3
5
8
8
10
66


**算法的改进**

只有在被排序表的最小元素在序列最末端，起泡排序才需要做满 n-1 遍。其他情况不需要这么多次，如果发现排序完成可以早点结束。

In [22]:
class record:
    def __init__(self,key,datum):
        self.key=key 
        self.datum=datum
        
def bubble_sort_v2(lst): 
    a = 0
    for i in range(len(lst)):
        a += 1 
        found = False
        for j in range(1,len(lst)-i):
            if lst[j].key<lst[j-1].key:
                lst[j],lst[j-1] = lst[j-1],lst[j]
                found = True
        if not found:
            break 
    print('循环次数',a)

In [23]:
a = [3,5,2,1,10,8,66,8]
lst = [record(i,i) for i in a]
bubble_sort_v2(lst)
for j in lst:
    print(j.key)

循环次数 4
1
2
3
5
8
8
10
66


这样做提高了效率，而且使得算法有了效率。

起泡排序的时间复杂度：$O(n^2)$；空间复杂度：$O(1)$

试验表明，起泡排序的实际效果劣于时间复杂度相同的插入排序，原因可能有二：

1. 排序过程中的赋值操作比较多，累积起来代价比较大；

2. 一些距离目标位置很远的小元素可能会拖累整个算法。

改善第2点，可以通过下一节要介绍的快速排序；另一种是交错起泡，具体做法是一遍从左到右扫描，下一遍从右到左，交错进行。如下图所示：

<img src='picture\sort_4.png'>