# 问题和性质

## 排序问题的定义

对具有序关系 $\leq$的集合S，一个排序算法 $sort:S\rightarrow S$ 对 S 的任意元素序列 s，满足

$$s^{\prime}= sort(s),s^{\prime}\subseteq S$$

并且 $s^{\prime}$的任意2个元素 e 和 $e^{\prime}$ 满足：

$$loc_{s^{\prime}}(e)\leq loc_{s^{\prime}}(e^{\prime}) \Longleftrightarrow e\leq e^{\prime}$$

其中 $loc_{s^{\prime}}(e)$ 为 e 在序列 $s^{\prime}$ 里的位置。

**内排序与外排序**

1. 内排序：如果待排序的记录都保持在内存，称为内排序；

2. 针对外存(磁盘、磁带等)数据的排序工作称为外排序。

本章主要讨论内排序算法，其中的**归并排序算法**是大多数外排序算法的基础。

## 排序的操作、性质和评价

假设我们需要排序的是：$S = \{R_0,R_1,\cdots,R_{n-1}\}$，其中 $R_i$ 的关键码是 $K_i$，我们按照 关键码对元素进行排序。

**排序的基本操作：**

1. 比较关键码的操作，通过比较来确定数据记录的顺序；
2. 移动数据记录的操作，用于调整数据记录的位置 或 顺序。


**排序的时间复杂度和空间复杂度：**

1. 时间复杂度：理论研究，基于关键码的排序操作，任何排序算法的复杂度都不可能优于 $O(\log n\log n)$；

2. 空间复杂度：排序算法的空间复杂度，只要是关注在执行算法过程中所需要的临时辅助空间。

备注：在执行排序算法时，人们特别关注算法的空间复杂度是不是常量的。常量的开销说明，排序可以在原表里完成，只需要几个变量作为操作中的临时存储。具有这种性质的排序算法称为**原地排序算法**。

**排序算法的性质：**

1. 稳定性：对待排序的序列 S 中关键码相等的两个元素 $R_i,R_j$，在排序之后保持 $R_i,R_j$ 的前后顺序不变。就称这个算法是稳定的；

2. 适应性：如果一个排序算法对接近有序的序列工作地更快，时间复杂度更低，就称这种算法具有适应性。

## 排序算法的分类

把经典的排序算法按照基本操作方式或特点进行如下分类：
1. 插入排序；
2. 选择排序；
3. 交换排序；
4. 分配排序；
5. 归并排序；
6. 外部排序。

**记录结构**

在之后章节讨论各种排序算法时，使用的示例数据结构就是一个表。假定表中元素是下面定义的record类的对象：
```python
class record:
    def __init__(self,key,datum):
        self.key=key 
        self.datum=datum
```

另外，我们假定key排序所需的 $>,<,\geq,\leq$ 都已经有定义。并且只考虑 $\leq$，即递增顺序排序问题。

# 简单排序算法

## 插入排序

对一个连续列表，入下图所示，左侧表示已经排序部分；右侧(包含d)代表未排序部分。插入排序就是：
1. 对于未排序部分，从左到右依次处理未排序元素，每次只考虑最左端的元素d;
2. 将元素d从列表中取出，这样列表里就多了一个空位；
3. 通过d与已排序部分从右往左挨个比较，如果比d大就向右平移1个单位；否则d就插入当下的空位；
4. 循环未排序部分，重复以上过程即完成排序。
<img src='picture\sort_1.png'>

In [5]:
class record:
    def __init__(self,key,datum):
        self.key=key 
        self.datum=datum
        
def insert_sort(lst):
    for i in range(1,len(lst)):# 默认第一个元素已经排好序
        x = lst[i]
        j = i
        while j>0 and lst[j-1].key>x.key: 
            lst[j] = lst[j-1] # 如果 j-1位置元素更大，就往后移
            j -= 1 
        lst[j] = x # 因为是基于lst原地修改的，所以不需要返回lst  

In [7]:
a = [3,5,2,8,10,8,66]
lst = [record(i,i) for i in a]
insert_sort(lst)
for j in lst:
    print(j.key)

2
3
5
8
8
10
66


**时间和空间复杂度**

空间复杂度：因为只用到了几个临时变量，所以复杂度是 $O(1)$。

**时间复杂度：**

外层循环：外层循环执行次数就是 n-1 次；

内层循环： 执行次数和实际情况有关。变量j的初始值从 1 逐渐增加到 n-1：

    a. 最坏情况是 $lst[j-1].key>x.key$ 总是失败，也就是说，每次处理的元素比已经排序的所有部分小，这个元素就会移到最前面，执行次数就是 j，结合外层循环，插入算法总执行次数为：
$$1 + 2 + \cdots + (n-1) = n\times (n-1)/2 $$
    b. 最好情况是 被处理元素大于已排序部分，内层循环体不执行；

经过以上分析，可知：

1. 关键码比较次数：最少是 n-1(对应的是内层循环不执行)，最坏是 $n\times (n-1)/2 $;

2. 记录移动次数：包括内层循环外面的2次(取放被处理元素),最少是 $2(n-1)$，最多是 $2(n-1) + n\times (n-1)/2$。

所以最坏情况的时间复杂度是 $O(n^2)$，最好情况是 $O(n)$,说明这个算法具有适应性；同时根据代码逻辑也可知算法具有稳定性。

平均意义下，时间复杂度是 $O(n^2)$。