在这一章里，我们将回答以下三个问题：
- 什么是算法？
- 为什么算法值得去研究？
- 相对于其他在计算机中使用的技术，算法的角色是什么？

## 1.1 算法

通俗地说，一个算法是任何一个定义良好的过程，取某个值或者值的集合作为输入，产生某个值或者值的集合作为输出。因此，一个算法是一系列的可将输入转换为输出的计算步骤。

我们也可以把一个算法看作是一个用于求解一个描述良好的计算问题的工具。问题语句用通用术语描述了输入和输出之间的关系。算法描述了一个具体的用于实现输入/输出关系的计算过程。

比如，我们可能需要给一个数列按照递增顺序排序。这个问题在实践中经常出现，为介绍许多标准设计技术和解析工具提供了坚实的基础。这里是我们如何对**排序问题**进行正式定义：

**输入**：一个由n个数组成的序列$<a_1,a_2,...,a_n>$。

**输出**：对输入数列的一个置换$<a_1^{'},a_2^{'},...,a_n^{'}>$满足$a_1^{'}\leq a_2^{'}\leq\cdots\leq a_n^{'}$。

比如，给定输入序列$<31,41,59,26,41,58>$，一个排序算法返回$<26,31,41,41,58,59>$作为输出。这样的一个输入序列被称为排序问题的**实例**。一般来说，**一个问题的实例**由需要来计算一个问题解的输入组成。

因为许多程序使用排序作为一个中间步骤，排序是计算机科学中的一个基本操作。因此，有许多好的排序算法供我们使用。对一个给定的应用来说，哪一个算法是最好的取决于待排序的项的数量、所有项已排好序的程度、对项的值可能的限制、计算机的架构、使用的存储设备的类型(内存还是硬盘等)等。

如果对每个问题实例，算法都会停止并产生一个正确的输出，则这个算法是**正确**的。一个正确的算法**求解**了给定的计算问题。一个不正确的算法可能对某些输入示例不会停止，或者可能停止并产生了一个不正确的结果。跟你期望的可能不一样，如果我们能控制它的出错率的话，则不正确的算法有时是有用的。在第31章里，当我们研究寻找大素数的算法时，我们将介绍一个带有可控制的出错率的算法示例。但是，通常我们只关心正确的算法。

一个算法可用英语表示为一个计算机程序，或者甚至表示为一个硬件设计。唯一的要求是规范必须提供对一份对要遵循的计算过程的精确描述。

### 算法能解决哪些类型的问题？

排序绝不是已开发出算法的唯一计算问题。算法的实际应用非常普遍，包括如下示例：

- 人类基因组计划

  人类基因组计划在确认人类DNA中所有10万个基因、确定组成人类DNA的30亿个化学碱基对序列、将这些信息存储在数据库中、开发数据分析工具等目标方面取得了很大的进步。这些步骤中的每一个都需要复杂的算法。虽然涉及的各种问题的解超出了本书的范围，但是许多求解这些生物学问题的方法使用了来自这本书中若干个章节的思想，从而使科学家们在有效利用资源的同时完成任务。因为可以从实验室技术中提取更多的信息，所以节省了时间，不仅是人类，还有机器以及金钱。

- 互联网

  互联网使得全世界的人们能够快速地访问和检索大量的信息。在聪明算法的帮助下，互联网上的站点能够管理和操作这么大的数据量。需要用到算法的问题示例包括：寻找数据传输的最佳路径(解决这样的问题需要第24章里介绍的技术)、使用搜索引擎来快速找到特定信息驻留的页面(相关的技术请看第11章和32章)等。

- 电子商务

  电子商务使得商品和服务能够以电子形式来谈判和交换，它依赖于个人隐私信息，比如信用卡号、密码、银行对账单等。在电子商务中使用的核心技术包括公钥加密、电子签名(在第31章中有介绍)等，它们都是基于数值算法和数论的。
  
- 制造业

  制造业和其他商业企业经常需要以最有利的方式来分配稀缺资源。一个石油企业可能希望知道在哪里钻井可以获得最大的期望利润。一个政治候选人可能想确定在哪里购买竞选广告能有最大的竞选获胜机率。一家航空公司可能希望以最便宜的方式来给航班分配机组人员，来确保覆盖到每个航班，以及满足关于机组人员调度的政府规定。一个互联网服务提供商可能希望确定在哪里放置额外的资源能更有效地为其客户服务。所有这些示例都可使用在第29章中研究的线性规划来求解。
  
虽然这些示例的一些细节超出了本书的范围，但是我们确实给出了可应用到这些问题和领域的底层技术，比如：
- 给出一张路线图，上面标出了每对相邻交叉口之间的距离。我们希望确定从一个交叉口到另一个之间的最短距离。可能的路线数量可能是很大的，即使我们不允许路线之间彼此交叉。我们如何从这些可能的路线中选择一条最短的路线？这里，我们将路线图建模为图(将在第24章和附录B中碰到)，我们希望找到图中从一个顶点到另一个的最短路径。我们将在第24章里看到如何有效地求解这个问题。

- 给定两个有序的符号序列：$X=<x_1,x_2,...,x_m>$和$Y=<y_1,y_2,...,y_n>$。我们希望找到X和Y的最长公共子序列。X的一个子序列就是从X中删除一些(可能是全部或者一个也没有)元素得到的序列。比如，<A,B,C,D,E,F，G>的一个子序列是<B,C,E,G>。X和Y的最长公共子序列给出了两个序列如何相似的一个度量。比如，如果两个序列是DNA链中的碱基对，那么如果它们有一个长的公共子序列，我们可能认为它们是相似的。如果X有m个符号，Y有n个符号，那么X和Y将相应有$2^m$和$2^n$个可能的子序列。选择X和Y的所有可能子序列，并将它们比对将花费非常长的时间，除非m和n非常小。在第15章里，我们将看到如何使用一种熟知的动态规划技术来更有效地解决这个问题。

- 我们根据零件库给出了一个机械设计，其中每个零件可能包含有其他零件的实例。我们需要按照顺序列出零件，以便每个零件要在任何一个使用它的零件之前出现。如果设计由n个零件组成，那么有n!种可能的顺序。因为阶乘函数比任何一个指数函数增长地快，所以我们没法切实地先生成每个可能的顺序，后验证在该顺序里，每个零件都出现在使用它的零件之前。这个问题是一个拓扑排序的实例，我们将在第22章里看到如何有效地解决这个问题。
  