在这一章里，我们将回答以下三个问题：
- 什么是算法？
- 为什么算法值得去研究？
- 相对于其他在计算机中使用的技术，算法的角色是什么？

## 1.1 算法

通俗地说，一个算法是任何一个定义良好的过程，取某个值或者值的集合作为输入，产生某个值或者值的集合作为输出。因此，一个算法是一系列的可将输入转换为输出的计算步骤。

我们也可以把一个算法看作是一个用于求解一个描述良好的计算问题的工具。问题语句用通用术语描述了输入和输出之间的关系。算法描述了一个具体的用于实现输入/输出关系的计算过程。

比如，我们可能需要给一个数列按照递增顺序排序。这个问题在实践中经常出现，为介绍许多标准设计技术和解析工具提供了坚实的基础。这里是我们如何对**排序问题**进行正式定义：

**输入**：一个由n个数组成的序列$<a_1,a_2,...,a_n>$。

**输出**：对输入数列的一个置换$<a_1^{'},a_2^{'},...,a_n^{'}>$满足$a_1^{'}\leq a_2^{'}\leq\cdots\leq a_n^{'}$。

比如，给定输入序列$<31,41,59,26,41,58>$，一个排序算法返回$<26,31,41,41,58,59>$作为输出。这样的一个输入序列被称为排序问题的**实例**。一般来说，**一个问题的实例**由需要来计算一个问题解的输入组成。

因为许多程序使用排序作为一个中间步骤，排序是计算机科学中的一个基本操作。因此，有许多好的排序算法供我们使用。对一个给定的应用来说，哪一个算法是最好的取决于待排序的项的数量、所有项已排好序的程度、对项的值可能的限制、计算机的架构、使用的存储设备的类型(内存还是硬盘等)等。

如果对每个问题实例，算法都会停止并产生一个正确的输出，则这个算法是**正确**的。一个正确的算法**求解**了给定的计算问题。一个不正确的算法可能对某些输入示例不会停止，或者可能停止并产生了一个不正确的结果。跟你期望的可能不一样，如果我们能控制它的出错率的话，则不正确的算法有时是有用的。在第31章里，当我们研究寻找大素数的算法时，我们将介绍一个带有可控制的出错率的算法示例。但是，通常我们只关心正确的算法。

一个算法可用英语表示为一个计算机程序，或者甚至表示为一个硬件设计。唯一的要求是规范必须提供对一份对要遵循的计算过程的精确描述。

### 算法能解决哪些类型的问题？

排序绝不是已开发出算法的唯一计算问题。算法的实际应用非常普遍，包括如下示例：

- 人类基因组计划

  人类基因组计划在确认人类DNA中所有10万个基因、确定组成人类DNA的30亿个化学碱基对序列、将这些信息存储在数据库中、开发数据分析工具等目标方面取得了很大的进步。这些步骤中的每一个都需要复杂的算法。虽然涉及的各种问题的解超出了本书的范围，但是许多求解这些生物学问题的方法使用了来自这本书中若干个章节的思想，从而使科学家们在有效利用资源的同时完成任务。因为可以从实验室技术中提取更多的信息，所以节省了时间，不仅是人类，还有机器以及金钱。

- 互联网

  互联网使得全世界的人们能够快速地访问和检索大量的信息。在聪明算法的帮助下，互联网上的站点能够管理和操作这么大的数据量。需要用到算法的问题示例包括：寻找数据传输的最佳路径(解决这样的问题需要第24章里介绍的技术)、使用搜索引擎来快速找到特定信息驻留的页面(相关的技术请看第11章和32章)等。

- 电子商务

  电子商务使得商品和服务能够以电子形式来谈判和交换，它依赖于个人隐私信息，比如信用卡号、密码、银行对账单等。在电子商务中使用的核心技术包括公钥加密、电子签名(在第31章中有介绍)等，它们都是基于数值算法和数论的。
  
- 制造业

  制造业和其他商业企业经常需要以最有利的方式来分配稀缺资源。一个石油企业可能希望知道在哪里钻井可以获得最大的期望利润。一个政治候选人可能想确定在哪里购买竞选广告能有最大的竞选获胜机率。一家航空公司可能希望以最便宜的方式来给航班分配机组人员，来确保覆盖到每个航班，以及满足关于机组人员调度的政府规定。一个互联网服务提供商可能希望确定在哪里放置额外的资源能更有效地为其客户服务。所有这些示例都可使用在第29章中研究的线性规划来求解。
  
虽然这些示例的一些细节超出了本书的范围，但是我们确实给出了可应用到这些问题和领域的底层技术，比如：
- 给出一张路线图，上面标出了每对相邻交叉口之间的距离。我们希望确定从一个交叉口到另一个之间的最短距离。可能的路线数量可能是很大的，即使我们不允许路线之间彼此交叉。我们如何从这些可能的路线中选择一条最短的路线？这里，我们将路线图建模为图(将在第24章和附录B中碰到)，我们希望找到图中从一个顶点到另一个的最短路径。我们将在第24章里看到如何有效地求解这个问题。

- 给定两个有序的符号序列：$X=<x_1,x_2,...,x_m>$和$Y=<y_1,y_2,...,y_n>$。我们希望找到X和Y的最长公共子序列。X的一个子序列就是从X中删除一些(可能是全部或者一个也没有)元素得到的序列。比如，<A,B,C,D,E,F，G>的一个子序列是<B,C,E,G>。X和Y的最长公共子序列给出了两个序列如何相似的一个度量。比如，如果两个序列是DNA链中的碱基对，那么如果它们有一个长的公共子序列，我们可能认为它们是相似的。如果X有m个符号，Y有n个符号，那么X和Y将相应有$2^m$和$2^n$个可能的子序列。选择X和Y的所有可能子序列，并将它们比对将花费非常长的时间，除非m和n非常小。在第15章里，我们将看到如何使用一种熟知的动态规划技术来更有效地解决这个问题。

- 我们根据零件库给出了一个机械设计，其中每个零件可能包含有其他零件的实例。我们需要按照顺序列出零件，以便每个零件要在任何一个使用它的零件之前出现。如果设计由n个零件组成，那么有n!种可能的顺序。因为阶乘函数比任何一个指数函数增长地快，所以我们没法切实地先生成每个可能的顺序，后验证在该顺序里，每个零件都出现在使用它的零件之前。这个问题是一个拓扑排序的实例，我们将在第22章里看到如何有效地解决这个问题。

- 给定平面上n个点，我们希望找出这些点的凸包。凸包是包含这n个点的最小的凸多边形。从直觉上看，我们将每个点看做是从一个板上伸出的钉子。凸包将被表示为一个包围所有钉子的橡皮筋。每个可使橡皮筋转动的钉子是凸包的一个顶点。这些点的$2^n$个子集中的任何一个都可能是凸包的顶点。知道哪些点是凸包的顶点是不够的，因为我们还需要知道它们出现的顺序。因此，有许多选择可以成为凸包的顶点，第33章给出了两个寻找凸包的好方法。

这些列表不是全部，但是展示了许多有趣算法的共有的两个特征：
1. 它们有许多可选解，其中的绝大多数都不能解决手头的问题。找到其中能做到这一点的，或者做的最好的，将是一个很大的挑战。

2. 它们都有许多实际应用。在上述列出的问题列表里，寻找最短路径提供了最容易的示例。因为采用更短的路径会导致更少的劳动力和燃料成本，所以一家运输公司，比如卡车运输公司或者火车运输公司，有经济利益来寻找在公路网或者铁路网中的最短路径。或者，为了快速路由消息，在互联网上的一个路由节点可能需要寻找在网路中的最短路径。或者一个想从纽约开车到波士顿的人可能想从合适的网站上找到一条行车路线，或者她可能在开车时使用GPS。

不是每个被算法求解的问题都有一组容易识别的候选解集合。比如，假设给定一组表示信号样本的数值，我们想计算这些样本的离散傅里叶变换。离散傅里叶变换将时间域转换成频率域，产生了一组数值系数，以便我们能确定在取样信号中的各种频率的强度。除了是信号处理的核心外，离散傅里叶变换在数据压缩和将大一点的多项式和整数相乘方面也有应用。第30章给出了快速傅里叶变换，它针对这个问题的一个有效算法。第30章也概述了用来计算FFT的硬件电路设计。

### 数据结构
这本书也包含了几种数据结构。一个数据结构是一种为了给访问和修改提供便利来存储和组织数据的方式。没有一种数据结构能适用所有目的。因此，知晓几种数据结构的优缺点是很重要的。

### 技术
虽然你可以使用这本书作为算法的“烹饪手册”，但是总有一天你会遇到一个问题不能轻易地找到一个公开的算法来求解它。

这本书将教你算法设计和分析技术，以便你能开发自己的算法、证明它们的正确性、理解他们的效率。不同的章节处理求解问题算法的不同方面。一些章节处理具体的问题，比如在第9章里寻找中位数和顺序统计量、在第23章中计算最小生成树、在第26章中确定一个网络中的最大流量。其他章节处理技术，比如第4章里的分而治之、第15章里的动态规划、第17章中的均摊分析等。

### 硬核问题
本书的大部分内容是关于有效算法的。通常对有效性的度量用的是速度，即一个算法花费多久来产生结果。但是存在一些问题，它们没有已知的有效解。第34章研究了这些NP完备性问题的一个有意思的子集。

为什么NP完备性问题很有趣？

首先，虽然对一个NP完备问题来说还没有找到一个有效的解，但是也没有人证明它不存在一个有效的解。话句话说，没人知道一个NP完备性问题是否存在有效的算法。

其次，NP完备性问题有着显著的特征：如果对它们其中任意一个存在一个有效的算法，则对所有NP完备性问题都存在有效的算法。在NP完备性问题之间的这种关系使得缺少有效解这个问题更诱人。

再次，虽然几个NP完备性问题跟已知存在有效算法的问题很相似，但不完全相同。

计算机科学家对“问题描述的一个小变化如何能导致已知最好的算法的效率有一个大的变化”这一点很感兴趣。

因为一些NP完备性问题在实际应用中经常出现，所以你应该知道关于NP完备性问题的事。如果你被要求为一个NP完备性问题生成一个有效算法，则你很有可能花费大量时间做无用的查找。如果你能证明一个问题是NP完备的，则你可以把时间花在开发一个有效的、可给出好的但不是最好解的算法上。

举一个具体的例子，考虑一个有中心仓库的配送公司。每天，它在中心仓库为每辆卡车装上货物，然后发送卡车到几个地址来投递货物。在每天的结束时刻，每辆卡车必须回到中心仓库，以便为下一天的装载做好准备。为了降低成本，公司想选择一个可使每辆卡车运输的总距离最低的站点投递顺序。这个问题就是著名的旅行者背包问题。它是一个NP完备性问题，不存在已知的有效算法。但是，在某些假设下，我们知道一些能给出总距离不是远大于最小可能值的有效算法。第35章讨论这些近似算法。

### 并行
多年以来，我们可以指望处理器的时钟速度以一个稳定速率增长。然而物理上的限制展示了对不断增长的时钟速度的一个基本的障碍：**因为能耗密度随着时钟速度是超线性增长的，所以一旦它们的时钟速度变得非常高，芯片就有融化的风险**。

因此，为了每秒钟能执行更多的计算，芯片被设计为不止一个，而是包含多个处理核。我们可以将多核计算机比作是有单个芯片的多台顺序计算机。它们是一类并行计算机。为了从多核计算机中获得最好的性能，我们需要在设计算法时考虑并行机制。第27章展示了一个可利用多核的多线程算法模型。从理论的角度看，这个模型有优势，它形成了几个成功的计算机程序的基础，包括一个国际象棋锦标赛程序。

## 1.2 算法作为一门技术
假设计算机无限快，计算机内存是免费的。那么你还有理由研究算法吗？

答案是YES。如果不是为了其他原因，你还是想展示：你的解方法会终止，且带有正确的答案。

如果计算机无限快，则任何一个求解问题的正确方法都可以。你可能想你的实现在好的软件工程实践范围内，比如你的实现应该经过良好的设计并文档化。但是通常你会选择最容易实现的那个方法。

计算机可能很快，但它不是无限快。内存可能很便宜，但它不是免费的。因此，计算机时间是一种有限资源，内存空间也是一种有限资源。你应该明智地使用这些有限资源。用**时间**或者**空间**来衡量有效的算法将帮助你做到这一点。

### 有效性
为解决同一问题而设计的不同算法通常在效率方面有显著差异。这些差异可能比硬件和软件带来的差异更重要。

举一个例子，在第2章里，我们将看到排序的两种算法。

第一种是插入排序，对n个项排序花费的时间大约是$c_1n^2$，其中$c_1$是一个跟n无关的常数。也就是它花费的时间跟$n^2$成正比。

第二种是归并排序，花费的时间大约是$c_2n\lg n$，其中$\lg n$表示$\log_2n$，$c_2$是一个跟n无关的常数。

通常，插入排序比归并排序有更小的常系数因子，即$c_1<c_2$。

我们将看到：常系数因子对运行时间的影响远小于依赖于输入大小n的项。

让我们把插入排序的运行时间写作$c_1n\cdot n$，归并排序的运行时间写作$c_2n\cdot\lg n$。然后就可以看到：插入排序运行时间的因子为n，归并排序的因子为$\lg n$，其中$\lg n$更小点。比如，当n=1000时，$\lg n$大约是10，当n=1,000,000时，$\lg n$大约是20。虽然对于小型的输入大小来说，插入排序运行地比归并排序快，但是一旦输入大小n变得足够大，$\lg n$vs$n$的优势将超过常系数因子之间的差异。不论$c_1$比$c_2$小多少，总存在一个交叉点，越过它就是归并排序更快。

看一个具体的例子，

假设在一台更快的计算机A上运行插入排序，在一台更慢的计算机上运行归并排序。每台计算机必须对1000万个数进行排序。

假设计算机A每秒钟执行100亿条指令，计算机B每秒钟执行1000万条指令，以便计算机A比计算机B快1000倍。

为了使差异更显著，假设让世界上最熟练的程序员用机器语言为计算机A编写插入排序的代码，结果代码需要$2n^2$条指令来对n个数排序。仅让一个平均水平的程序员使用高级语言和效率低的编译器来实现一个归并排序，结果代码需要$50n\lg n$条指令。

则为了给1000万个数排序，计算机A花费的时间为：
$$\frac{2\cdot(10^7)^2条指令}{10^{10}条指令/秒}=20,000秒(超过了5.5小时)，$$

计算机B花费的时间为：
$$\frac{50\cdot 10^7\cdot\lg 10^7条指令}{10^7条指令/秒}\approx 1163(少于20分钟)。$$


通过使用一个运行时间增长更慢的算法，即使用的是低效的编译器，计算机B的运行时间也比计算机A快17倍。

当对1亿个数字进行排序时，归并排序的优势更明显：插入排序需要花费23天，归并排序需要花费的时间少于4个小时。

一般来说，随着问题大小的增加，归并排序的相对优势也随着增加。

### 算法和其他技术
上面的例子展示了：我们应该把算法看做是一种技术，跟硬件一样。系统的整体性能取决于选择有效的算法，也取决于选择快速的硬件。正如其他计算机技术正在取得快速进步一样，算法正在取得快速进步。

你可能想知道：跟其他先进技术相比，算法对现代计算机是否真的重要，比如：
- 高级计算机架构和制造技术
- 容易使用的、直观的图形用户界面
- 面向对象系统
- 集成Web技术
- 快速网络，既有有线也有无线

答案是YES。虽然一些应用在应用层不显式地要求算法内容，比如基于Web的应用，但是许多应用还是需要算法的。比如，考虑一个基于Web的应用，它确定如何从一个地方到另一个地方旅行。它的实现依赖于快速硬件、图形用户界面、广域网、对象方位等。它也要求某些操作的算法，比如寻找路径、重绘地图、插入地址等。

而且，即使一个在应用层上不要求算法内容的应用也严重依赖算法。应用依赖快速硬件吗？硬件设计使用了算法。应用依赖图形用户界面吗？任何一个GUI的设计都依赖算法。应用依赖算法吗？在网络上的路由严重依赖算法。用语言而不是机器语言编写的应用呢？它被编译器、解释器或者汇编器处理，所有这些都大量使用算法。

算法处在大部分在现代计算机中使用的技术的核心。

而且，随着计算机的能力的不断增长，我们使用计算机来解决比之前规模更大的问题。正如我们在前面的插入排序和归并排序之间中所看到的那样，正是更大的问题大小使得算法在效率上的差异变得更突出。

有坚实的算法知识和技术是区分真的有经验的程序员和新手程序员的一个特征。有了现代计算技术，你能不用知道很多算法知识来完成某些任务。但是有一个好的算法背景，你能做的更多。