这一章让你熟悉我们在整本书里将使用的框架来思考算法设计和分析。它是自成体系的，但是也包含若干个引用到第3章和第4章里介绍的材料，也包含若干个求和式，在附录A中展示了如何求解这些求和式。

我们从检查第一章中提到的插入排序算法来求解排序问题。我们定义了伪代码，如果你做过计算机编程，则应该非常熟悉。我们使用伪代码来展示如何描述算法。我们先描述插入排序算法，后证明了插入排序的正确性，分析了它的运行时间。这种分析引入了一个重点关注时间如何随着待排序的项的数量而增加的记号。在讨论完插入排序后，我们介绍了算法设计的分而治之方法，使用它来开发归并排序。我们以分析归并排序的运行时间来结尾。

## 2.1 插入排序
我们的第一个算法是插入排序，它求解了在第一章中介绍的**排序问题**：

输入：一个由n个数组成的序列$<a_1,a_2,...,a_n>$。

输出：对输入序列的一个置换$<a_1^{'},a_2^{'},...,a_n^{'}>$满足$a_1^{'}\leq a_2^{'}\leq\cdots\leq a_n^{'}$。

我们希望排序的数也称为键key。虽然从概念上讲我们针对一个序列排序，但是输入是以由n个元素组成的数组呈现给我们的。

在这本书里，我们将算法描述为用**伪代码**编写的程序。伪代码跟C、C++、Java、Python等在许多方面很相似。如果你接触过任何一种编程语言，则你应该理解我们的程序没有困难。将伪代码和真实代码区分开的是：使用伪代码，我们利用的是一种最清晰、最精确的方法来描述一个给定算法。有时，最清晰的方法是英语，所以如果你在一个真实代码的节中碰到一个嵌入的英语语句，请不要惊讶。伪代码和真实代码的另一个区别是：伪代码不关心软件工程问题。为了更精确地表达算法的本质，通常会忽略数据抽象、模块化、错误处理等问题。

我们从**插入排序**开始，它是一个对小型输入有效的算法。

插入排序的工作方式跟人们对一手牌的排序方式一样。
- 最开始，我们的左手是空的，牌都是面查下放在桌子上。
- 然后，我们一次从桌子上拿起一张牌，将它插入到左手中合适的位置。

  为了找到一张牌的合适位置，我们将它和已经在左手里的每张牌进行比较，从左到右。
  
- 无论何时，在左手中的牌都是排好序的。这些牌原本是桌子上这堆牌的最上面的牌。

我们将插入排序的伪代码表示为`INSERTION_SORT`过程，它取一个由长度为n的待排序列组成的数组`A[1,2,...,n]`作为参数。这个算法原地对输入的数进行排序：它重排在数组A内的数字，在任何时候最多有常数个数位于数组外。当`INSERTION_SORT`过程完成后，输入数组A包含的是排好序的输出。

伪代码：
```
INSERTION-SORT(A)
  for j = 2 to A.length
      key = A[j]
      i = j - 1
      while i>0 and A[i]>key
          A[i+1] = A[i]
          i = i - 1
      A[i+1] = key
```

In [1]:
def insertionSort(A):
    """
    假设A是一个有n个数组成的数组
    """
    for j in range(1, len(A)):
        key = A[j]
        #将A[j]插入到已排好序的序列A[0...j-1]
        i = j-1
        while i>=0 and A[i]>key:
            A[i+1] = A[i]
            i = i-1
        A[i+1] = key
#         print(f'{key}的插入位置是{i+1}')
#         print(A[0:j])

In [2]:
def testInsertionSort():
    A = [5,2,4,6,1,3]
    insertionSort(A)
    print(A)

In [3]:
testInsertionSort()

[1, 2, 3, 4, 5, 6]


### 插入排序的循环不变性和正确性
图2.2中展示了这个算法如何对$A=<5,2,4,6,1,3>$排序。

索引`j`表示将要插入到手中的当前牌。

在以`j`为索引的for循环的每次迭代的开始，子数组`A[1...j-1]`表示的是当前已排好序的手，剩余的子数组`A[j+1...n]`表示还在桌子上的这堆牌。实际上，子数组`A[1...j-1]`中的元素最初是位置从1到`j-1`对应的元素，但是现在已排好序了。我们将`A[1...j-1]`具有的性质描述为**循环不变性**：
> 在第1-8行的for循环的每次迭代的开始，子数组`A[1...j-1]`最初由在`A[1...j-1]`的元素组成，但是现在已排好序。

我们使用循环不变性来帮助我们理解为什么一个算法是正确的。

对于一个循环不变性，我们要证明3个性质：
- 初始化：在第一次循环执行前，它为真；
- 维护性：如果在一次循环执行前，它为真，则在下一次循环执行前，它仍保持为真；
- 终止性：当循环终止时，不变性给我们一个非常有用的性质来帮助我们证明算法是正确的。

当前两条性质成立时，在循环每次迭代前，循环不变性为真。

第3条性质可能是最重要的，因为我们使用循环不变性了证明正确性。通常，我们使用带有循环终止条件的循环不变性。终止性使其跟我们使用的数学归纳法不同：在数学归纳法中，我们可以无限应用归纳步骤；在这里，当循环终止时，我们就停止归纳。

注意：这跟**数学归纳法**很相似，为了证明一个性质成立，我们需要证明一个基情形和一个归纳步骤。这里，证明循环不变性在第一次迭代前成立对应于**基情形**，证明从一个迭代到下一次迭代的不变性成立对应的是**归纳步骤**。

使用循环不变性来证明插入排序的正确性：

- 初始化性

  当j=2，在第一次循环执行前，子数组`A[1...j-1]`就只有1个元素，即`A[1]`，显然是排好序的。

- 可维护性

  `for`循环体的工作方式是：向右每次移动`A[j-1]`、`A[j-2]`、`A[j-3]`等一个位置直到找到`A[j]`的合适位置，并将`A[j]`的值插入到前述合适的位置处。子数组`A[1...j]`最初在`A[1...j]`中的元素组成，不过它已排好序。然后，`for`循环下一次迭代递增j仍保有循环不变性。

- 终止性

  引起`for`循环终止的条件是`j>A.length=n`。因为每次迭代时j都会自增1，所以当循环终止时，j=n+1。在循环不变性中用n+1替换j，我们有：`A[1..n]`由在`A[1..n]`中的元素组成，但是已排好序。注意到：`A[1...n]`是整个数组，所以整个数组已排好序。

## 2.2节算法分析
分析算法意味着要预测算法需要的资源。有时，内存、通信带宽、计算机硬件等是主要关心的资源。但是，最常见的是计算时间，这是我们想度量的。一般来说，通过分析针对一个问题的多个候选算法，我们能确定一个最优效率的。虽然这样的分析可能表明问题存在不止一个可行的候选算法，但是在这个过程中，我们通常会丢掉几个较差的算法。

在分析一个算法前，我们必须有一个我们将使用的技术的实现模型，包括那种技术使用的资源和成本等。对这本书的大部分内容来说，我们将假设一个通用的、单处理器、随机访问机器（RAM）的计算模型作为我们的实现技术，并理解：我们的程序将实现为计算机程序。

在RAM模型里，指令是一个接一个被执行，且没有并发操作。

问题：什么是RAM模型？

严格地讲，我们应该精确定义RAM模型的指令和开销。但是，这样做会很乏味，产生很少关于算法设计和分析的洞见。但是，我们必须小心不要滥用RAM模型。

比如，如果RAM模型中有一个排序指令，会怎么样？然后，我们就可以仅用一个指令来实现排序。因为实际的计算机没有这样的指令，所以这样的一个RAM是不切实际的。因此，我们的指导思想是真实计算机是如何被设计的。RAM模型包含有在真实计算机中都找得到的指令：算术指令(比如加法、减法、乘法、除法、取余、向下取整、向上取整等)，数据移动指令(加载、存储、拷贝等)，控制指令(条件跳转、无条件跳转、子例程调用、返回等)等。执行每个这样的指令都花费常数时间。

在RAM模型里的数据类型是整数和浮点数。虽然在这本书里我们不关心精度，但是在有些应用里精度很关键。比如，当处理大小为n的输入时，我们通常都假设整数可用$c\log n$位来表示，其中c是一个大于等于1的常数。我们要求$c\geq 1$是为了让每个字都能保存n的值，是我们能索引单个输入元素。我们要求c为常数，是为了保证字大小不能随意增长。如果我们允许字大小能随意增长，那么我们能在一个字里存储大量的数据，且在常数时间内完成对数据的操作。

真实计算机包含有一些上面没有列出的指令，这些指令表示RAM模型里的一个灰色区域。比如，幂运算是一个常数时间的指令吗？一般情况下，它不是，当x和y都是实数时，计算$x^y$需要花费多条指令。但是，在一些受限情况下，幂运算是一个常数时间操作。许多计算机都有一个左移指令，它在常数时间内将整数的位向左移动k位。在大部分计算机上，向左移动一位等价于乘以2，使得向左移动k位等价于乘以$2^k$。因此，这样的计算机可通过将整数1向左移动k位来用常数时间计算$2^k$，只要k不超过一个计算机字的位数大小。在RAM中，我们将尽力避免这些灰色区域，但是我们将把$2^k$的计算看做是一个常数时间的操作，当k是一个足够小的正整数时。

在RAM模型中，我们不尝试对在现代计算机中常见的内存层级建模。也就是说，我们不对缓存或者虚拟内存建模。有几个计算模型尝试去考虑内存层级的影响，这对在真实机器上真实程序来说是重要的。虽然本书在一撮问题里检查了内存层级的影响，但是大部分时候都不考虑它。包含内存层级的模型要比RAM模型更复杂一点，所以它们也更难处理。而且，RAM模型分析通常是实际机器性能的优秀的预测器。

即使用RAM模型分析一个简单的算法也可能是挑战。所需要的数学工具可能包括组合学、概率论、代数技巧、识别一个公式中最重要的项的能力等。因为一个算法的行为可能对每个可能输入都不同，所以我们需要一种方式来总结这种行为，即用简单且容易理解的公式。

即使我们通常会只选择一个机器模型来分析一个给定算法，在决定如何表示分析方面，我们仍然面临许多选择。我们想要一种方式：写起来和操作起来简单点、展示一个算法资源要求的重要特征、抑制烦人的细节。

### 分析插入排序
![insert-sort.png](attachment:insert-sort.png)


`INSERTION-SORT`过程花费的时间取决于输入：对1000个数排序比对3个数排序花费的时间要长。而且，取决于它们已经排好序的程度，`INSERTION-SORT`花费不同的时间来给两个相同大小的输入序列排序。一般来说，一个算法花费的时间随着输入大小而增长，所以传统的做法是**将一个程序的运行时间描述为它的输入大小的函数**。要做到这一点，我们需要更精确地定义术语“运行时间”和“输入大小”。

**输入大小**的最佳概念取决于被研究的问题。对大多数问题来说，比如，排序或者计算离散傅立叶变换，最自然的度量是输入中的项的数量，比如排序中的数组大小n。对许多其他问题来说，比如将两个数相乘，输入大小的最佳度量是用普通二进制记号来表示输入所需的位的总数量。有时，用两个数而不是一个来描述输入大小是更合适的。比如，如果一个算法的输入是一个图，则可用顶点个数和边个数来描述输入大小。当我们研究每个问题时，我们将表明使用什么样的输入大小度量。

一个算法在特定输入上的**运行时间**是执行基本操作或者步骤的数量。为了使它尽可能地跟机器无关，定义**步骤**这一概念是方便的。目前，让我们采用以下观点：
> 执行每行伪代码所需的是常数量时间。虽然一行可能跟另一行花费不同的时间，但是我们假设执行第i行花费的时间为$c_i$，其中$c_i$是一个常数。

这个观点不仅跟RAM模型保持一致，还反映了如何在大部分真实计算机上实现伪代码。

在接下来的讨论中，`INSERTION-SORT`的运行时间表达式将从一个使用所有语句开销$c_i$的混乱公式向一个更简单的、更精确、更容易操作的记号演变。

我们从展示带有每条语句的时间开销$c_i$和执行次数开始。对每个$j=2,3,...,n$，其中n=A.length，假设$t_j$表示对于某个j值，在第5上的while循环测试被执行的次数。当一个for或者while循环正常推出时，测试要比循环体多执行一次。我们假设注释是不被执行的语句，因此它们不花费时间。

算法的运行时间是对每条语句执行的运行次数求和。一条语句执行花费$c_i$时间，执行它n次，则它的总运行时间为$c_in$。为了计算`INSERTION-SORT`对n个输入值的总运行时间$T(n)$，我们对cost和times两列的乘积求和，可得：
$$ \begin{eqnarray*}
T(n)& = & c_1n+c_2(n-1)+c_4(n-1)+c_5\sum_{j=2}^nt_j+c_6\sum_{j=2}^n(t_j-1)\\
&=&+c_7\sum_{j=2}^n(t_j-1)+c_8(n-1)\end{eqnarray*}$$

即使对于给定大小的输入，一个算法的运行时间可能取决于哪个大小的输入类型。比如，在`INSERTION-SORT`中，如果数组已经排好序了，则发生了最好情形。对于每个$j=2,3,...,n$，我们发现：在第5行里，当i有初始值j-1时，有$A[i]\leq key$。因此，对$j=2,3,...,n$，有$t_j=1$，最好运行时间为
$$ \begin{eqnarray*}
T(n)& = & c_1n+c_2(n-1)+c_4(n-1)+c_5(n-1)+c_8(n-1)\\
&=&(c_1+c_2+c_4+c_5+c_8)n-(c_2+c_4+c_5+c_8)
\end{eqnarray*}$$

我们可将这个运行时间表示为$an+b$，其中a和b是依赖于语句开销$c_i$的常数。因此，它是关于n的线性函数。

如果数组是以相反顺序组织的，即递减顺序，则就遇到了最坏情形。此时，我们必须比较每个`A[j]`和整个排好序的子数组`A[1...j-1]`里的每个元素，所以对于$j=2,3,...,n$，有$t_j=j-1$。注意到：
$\sum_{j=2}^nj=\frac{n(n+1)}{2}-1$和$\sum_{j=2}^n(j-1)=\frac{n(n-1)}{2}$，我们发现，在最坏情形中，`INSERTION-SORT`的运行时间为
$$ \begin{eqnarray*}
T(n)& = & c_1n+c_2(n-1)+c_4(n-1)+c_5(\frac{n(n+1)}{2}-1)\\
& &+c_6(\frac{n(n-1)}{2})+c_7(\frac{n(n-1)}{2})+c_8(n-1))\\
&=& (\frac{c_5}{2}+\frac{c_6}{2}+\frac{c_7}{2})n^2+(c_1+c_2+c_4+\frac{c_5}{2}-\frac{c_6}{2}-\frac{c_7}{2}+c_8)n-(c_2+c_4+c_5+c_8)
\end{eqnarray*}$$

我们可将这个最坏情形的运行时间表示为$an^2+b_n+c$，其中a、b、c是依赖于语句开销$c_i$的常数。因此，它是关于n的二次函数。

通常，跟在插入排序一样，对一个给定输入，一个算法的运行时间是固定的。在后续的章节里，我们将看到一些有趣的、对固定输入来说其行为会变化的随机化算法。

### 最坏情形分析和平均情形分析

在对插入排序的分析里，我们查看了最好情形(输入数组已排好序)和最坏情形(输入数组反向排序)。对这本书剩余部分，我们将重点关注最坏情形时间，也就是对大小为n的任意输入来说的最长运行时间。这么做有3个理由：
- 一个算法的最坏运行时间给我们一个关于任何输入的运行是时间的上界。知道这个上界可提供一个保证：算法永不会比它花费的更久。我们不需要对运行时间做一些有根据的猜测，并希望它永远不会变得更差。
- 对有些算法来说，最坏情形经常发生。比如，当信息不在数据库中时，到数据库中查找一块特定的信息，搜索算法的最坏情形将经常发生。在一些应用中，对缺失信息的搜索可能经常发生。
- 平均情形经常跟最坏情形一样糟。假设我们随机选择n个数，应用插入排序。花费多久能确定在子数组`A[1...j-1]`中找到位置来插入元素`A[j]`？平均来看，在子数组`A[1...j-1]`中有一半的元素小于`A[j]`，另一半的元素大于`A[j]`。因此，平均来看，我们要检测子数组`A[1...j-1]`一半的元素，所以$t_j$大约是$j/2$。结果平均情形运行时间证明是输入大小的二次函数，就跟最坏情形运行时间一眼。

在一些特殊的情形下，我们对算法的平均情形运行时间感兴趣。在整本书里，我们将看到**概率分析技术**应用到各种算法上。平均情形分析的应用范围是有限的，因为对于一个特定问题来说，哪些元素组成了平均输入可能不是那么明显。通常，我们假设给定大小的所有输入是等可能的。在实践中，虽然可能违背这些假设，但是我们有时能使用**随机化算法**，它做随机选择，允许一个概率分析，产生一个期望运行时间，我们将在第5章和几个后续章节里探究随机化算法。


问题：什么是随机化算法？

问题：插入排序的平均情形运行时间为多少？

### 增长阶
我们使用一些抽象简化来使得`INSERTION-SORT`的分析变得容易。

首先，我们忽略每条语句的实际开销，使用$c_i$来表示这些开销。

其次，我们观察到：即使这些常数也给我们的细节比实际所需多：我们将最坏运行时间表示为$an^2+bn+c$，其中a、b、c是取决于常数$c_i$的常数。因此，我们不仅忽略实际的语句开销，而且忽略抽象开销$c_i$。

最后，我们再做一种抽象简化：是我们真正感兴趣的运行时间增长阶或者增长速率。因为对于很大的n值，低阶项相对不重要，所以我们只关注一个公式的主导项，比如$an^2$。因为在确定对大输入的计算效率方面，常系数因子比增长速率的重要性要低，所以我们也忽略主导项的常系数。对插入排序来说，当我们忽略低阶项和主导项的常系数时，我们从主导项中留下了$n^2$这个因子。我们说插入排序的最坏情形运行时间为$\Theta(n^2)$。在这一章里，我们是非正式地使用$\Theta$-记号，将在第3章中精确地定义它。

**算法效率**
> 如果一个算法的运行时间比另一个算法有更低的增长阶，我们就说一个算法比另一个算法更有效率。

由于常系数因子和低阶项的存在，对于小输入来说，一个具有更高运行时间增长阶的算法可能会比一个具有更低运行时间增长阶的算法的执行花费更少的时间。但是对于足够大的输入来说，比如在最坏情形下，一个$\Theta(n^2)$的算法要比一个$\Theta(n^3)$的算法运行地快。