# 第一章 算法分析和面向对象程序设计

本课程的主要内容和目的是
+ 编程的基础: 数据结构 + 算法;
+ C++ 和面向对象编程, 课本到 C++ 11 标准, 我们可以适当引入一些 11 以后的标准;
+ 离散数学, 算法分析和证明; 但这部分主要靠自己看, 相信大家良好的数学基础; 
+ 实际编程训练;
+ 熟练使用计算机从事科学计算和学习, 为后续课程打好基础.


**算法** 算法是一个详细的、定义明确的、能够解决特定问题的、有限长度的步骤序列。每个算法的步骤都应该是清晰且不含歧义的，具有准确性、可执行性和有限性。 流程明确且预测性强是算法的一个重要特征，即给定相同的输入，无论何时运行算法，输出都应始终相同。 算法可以用于执行计算、数据处理、自动推理等任务，是计算机科学中的基本概念。

**例子** 给你 $n$ 个数, 求其中第 $k$ 大的数($n \geq k$). 这个例子经常被称为 **rank$-k$ 问题**,在很多实际应用当中是关键的一步. 

**例子** 单词迷宫; 这是老外非常爱玩的游戏. 我们人类就是执行朴素算法的. 我们会扫视一个布满字母的矩阵的每一行, 每一列和每一斜列, 看看是否有片段和我们记忆中的单词匹配. 

**学习目标:**(之一) 写出效率正确的算法. 

## 算法分析简介

我们明确一些符号约定:
+ 称 $T(N) = O(f(N))$, 如果存在正常数 $c$ 和 $n_0$,
  使得当 $N \geq n_0$ 时, 有 $T(N) \leq cf(N)$.
+ 称 $T(N) = \Omega(g(N))$, 如果存在正常数 $c$ 和 $n_0$,
  使得当 $N \geq n_0$ 时, 有 $T(N) \geq cg(N)$.  
+ 称 $T(N) = \Theta(h(N))$, 当且仅当 $T(N) = O(h(N))$ 且 $T(N) = \Omega(h(N))$.  
+ 称 $T(N) = o(p(N))$ 对于所有的正常数 $c$,
  如果存在 $n_0$ 使得当 $N > n_0$ 时有 $T(N) < cp(N)$.
  不那么正式地说, 如果 $T(N) = O(p(N))$ 且 $T(N) \neq \Theta(p(N))$,
  则 $T(N) = o(p(N))$.

**阶的运算法则**

- 如果 $T_1(N) = O(f(N))$ 和 $T_2(N) = O(g(N))$, 那么
  + $T_1(N) + T_2(N) = O(f(N) + g(N))$;
  + $T_1(N) * T_2(N) = O(f(N) * g(N))$.

- 如果 $T(N)$ 是 $k$ 次多项式, 那么 $T(N) = \Theta(N^k)$.  

- 对于任意常数 $k$, 有 $\log^k N = O(N)$.

在实际工作中, 即便是抽象运行时间或者代价, 也是分场合的. 我们这里强调两个特殊含义的 $T(N)$:
+ **最坏情形时间** $T_{\rm worst} (N)$, 它是默认的含义;
+ **平均情形时间** $T_{\rm avg}(N)$, 它本质上是指在某基本假设下,
比如所有可能情形都等概率发生, 在这一前提假设下的期望时间. 这给估计带来一定的挑战,
但是有时也是有显著参考意义的一个指标.

而所谓的*最佳情形时间* $T_{\rm best}(N)$, 通常是没有意义的. 因为 
+ $T_{\rm worst} (N)$ 是一种保证; 
+ $T_{\rm avg} (N)$ 是一种估计; 而
+ $T_{\rm best}(N)$ 只是一个特例.

以后, 我们用抽象时间或者时间复杂度来称呼 $T(N)$.

**递归简介**

在数学描述或证明一个和自然数有关的问题时(因为是离散的, 所以和自然数相关),
我们经常采用两种不同的策略. 
+ 直接建立和自然数集的一一映射,
比如直接给出一个序列的通项: $a_n = f(n)$, 只要 $f$
是可以用基本初等函数的有限形式表达的, 我们就可以容易地用编程语言写出这个序列的生成程序.
+ 递推形式:
\begin{equation}
  \left\{
  \begin{array}{rcl}
    a_{n + 1} &=& f(a_n), \\
    a_1 &=& f_1. 
  \end{array}\right.
  \label{eq::recursion_formula}
\end{equation}

用编程语言的函数形式实现这种递推公式的生成,
要求该编程语言能够实现一个基本的功能: 函数能自己调用自己. 

一个朴素的伪代码形式实际上可以如此表达:
```
function a(n)
    if n == 1
        return f1
    else
        return f(a(n - 1))
end
```

为了引入递归的算法的抽象算法时间估计的讨论, 我们看这个例子:  
```
Merge(A, p, q, r)
  n1 = q - p + 1
  n2 = r - q 
  L[1...(n1 + 1)]
  R[1...(n2 + 1)]
  for i = 1 to n1
    L[i] = A[p + i - 1]
  for j = 1 to n2
    R[j] = A[q + j]
  L(n1 + 1) = R(n2 + 1) = +inf
  for k = p to r
    if L[i] <= R[j]
      A[k] = L[i]
      i = i + 1
    else
      A[k] = R[j]
      j = j + 1
```

这个例子的功能是, 假设数组 `A` 的 `A[p...q]` 和 `A[q + 1...r]` 是已经排好序的, 
那么经过这个 Merge 过程之后, `A[p...r]` 都是有序的. (注: 我们默认有序都是升序. 且可重复. )
这个过程的时间复杂度是 $O(n)$, 其中 $n = r - p + 1$.

在这个例子的基础上, 我们可以构建一种排序算法, 归并排序(Merge Sort), 它的伪代码如下:
```
  MergeSort(A, p, r)
    if p < r
      q = (p + r) / 2
      MergeSort(A, p, q)
      MergeSort(A, q + 1, r)
      Merge(A, p, q, r)
```
注意这里的 `/` 运算要做下取整. 它的功能是对 `A[p...r]` 进行排序. 这是一个实际上被广泛使用的算法. 
我们可以给一个具体的输入来验证一下它的有效性.

我们注意到, 如果假设 MergeSort 的复杂度是 $T(N)$, 在这里 $N = r - p + 1$, 
那么每一次递归调用都是 $T(N / 2)$, 而 Merge 过程的复杂度是 $O(N)$, 所以我们可以把整个复杂度写成:
\begin{equation}
  T(N) = \left\{
    \begin{array}{ll}
      O(1), & N = 1, \\
      2 T(\frac{N}{2}) + O(N), & N > 1.
    \end{array}
  \right.
\end{equation}
于是复杂度本身也是一个递推公式, 我们可以用递归树来描述它的求解过程.

注意, 尽管这里我们通过递归树得到了一个 $O(N \log N)$ 的复杂度, 但这个复杂度的求解过程并不是很严格.
而严格的证明, 则需要用数学归纳法. 同学们可以自行尝试.

类似地, 对于一般递归过程, 我们可以:
1. 用递归树来描述递归过程的求解过程, 从而得到一个递推公式;
2. 用数学归纳法来证明递推公式的正确性;
将这个思路整理成一个一般性定理, 就是**主定理(Master Theorem)**:

设 $T(N)$ 是一个递归算法的复杂度, 且满足递推公式:
  \begin{equation}
    T(N) = \left\{
      \begin{array}{ll}
        O(1), & N = 1, \\
        a T(\frac{N}{b}) + f(N), & N > 1.
      \end{array}
    \right.
  \end{equation}
其中 $a \geq 1$, $b > 1$, 对充分大的 $N$, $f(N) > 0$. 那么:
+ 若 $f(N) = O(N^{\log_b a - \epsilon})$, $\epsilon > 0$, 那么 $T(N) = O(N^{\log_b a})$;
+ 若 $f(N) = \Theta(N^{\log_b a})$, 那么 $T(N) = O(N^{\log_b a} \log N)$;
+ 若 $f(N) = \Omega(N^{\log_b a + \epsilon})$, $\epsilon > 0$, 且对充分大的 $N$, $a f(\frac{N}{b}) \leq c f(N)$, $c < 1$, 那么 $T(N) = O(f(N))$.

下面举几个例子:

+ $T(N) = 4 T(N / 2) + N$, 那么 $T(N) = O(N^2)$. 

这里, $a = 4$, $b = 2$, $f(N) = N$, $\log_b a = 2$, 所以 $f(N) = \Theta(N^{\log_b a})$, 于是 $T(N) = O(N^2 \log N)$. 这是第一种情况. 
+ $T(N) = 4 T(N / 2) + N^2$, 那么 $T(N) = \Theta(N^2\log N)$. 

这里, $a = 4$, $b = 2$, $f(N) = N^2$, $\log_b a = 2$, 所以 $f(N) = \Theta(N^{\log_b a})$, 于是 $T(N) = O(N^2 \log N)$. 这是第二种情况.
+ $T(N) = 4 T(N / 2) + N^3$, 那么 $T(N) = O(N^3)$. 

这里, $a = 4$, $b = 2$, $f(N) = N^3$, $\log_b a = 2$, 所以 $f(N) = \Omega(N^{\log_b a + \epsilon})$, 于是 $T(N) = O(N^3)$. 这是第三种情况.
+ $T(N) = 4 T(N / 2) + N^2 \log N$, 那么 $T(N) = $ ?  

这里, $a = 4$, $b = 2$, $f(N) = N^2 \log N$, $\log_b a = 2$, 所以 $f(N)$ 不属于上述任何一种情况, 这是主定理三种情形之外的情况, 主定理不是完备的. 这种情形下, $T(N) = O(N^2 \log \log N)$. 

你可以继续去补全主定理, 但显然, 这种思路下的主定理永远会有缝隙. 

**分治策略 (Divide-and-Conquer)**

关于递归算法的设计思路, 通常被称为分治策略, 也就是把整个算法过程归结为三个基本环节: 
+ 分解 (divide): 将问题分解为若干个规模较小, 与原问题形式相同的子问题.
+ 各个治理 (conquer): 递归的求解各个子问题. 当子问题足够小, 直接求解.
+ 合并 (combine): 将各个子问题的解合并为原问题的解.
以 Merge Sort 为例, 我们可以将其分解为两个子问题: 对左半部分排序, 对右半部分排序. 然后递归地出力两个子问题, 
最后将两个子问题的解合并为原问题的解. 除了这三个环节以外, 递归设计一定要有一个最基本情形, 也就是递归的**终止条件**. 

从某种意义上说, 可以将递归策略看作是归纳法证明的一个逆向设计操作.

下面举几个递归算法设计的例子: 

**二分查找 (Binary Search)**. 在一个有序数组 A 中寻找指定元素 x, 如果找到, 返回 x 的下标, 否则返回 NIL. 这里 NIL 是一个抽象的值, 通常在算法中表示不存在. 在具体实现中, 可以用一个不可能出现的值来代替, 比如如果寻找的是数组下标, 那么 NIL 可以是 -1. 整个算法设计思路如下: 
+ 分解: 对比 x 和数组 A 的中间位置的元素 m.
+ 治理: 如果 x == m, 返回 m 的下标; 如果 x < m, 则问题转向在 A 的前半段寻找 x; 如果 x > m, 则在 A 的后半段寻找 x.
+ 合并: 无.
+ 终止条件: 如果 A 为空, 则返回 NIL. 

显然, 算法效率是 $O(\log N)$, 这里 N 是数组 A 的长度.

计算 x 的 n 次幂, 这里 n 是一个自然数. 对于朴素算法而言, 直接循环 n 次做累乘. 显然这个计算量是 $O(n)$. 对于分治策略, 
+ 分解: 如果 n 是偶数, 那么 $x^n = x^{n / 2} \cdot x^{n / 2}$; 如果 n 是奇数, 那么 $x^n = x^{n / 2} \cdot x^{n / 2} \cdot x$. 这里 $/$ 也是向下取整的整除. 
+ 治理: 递归地计算 $x^{n / 2}$.
+ 合并: 已经体现在分解这一步. 
+ 终止条件: 如果 n = 0, 返回 1.

这里要注意, 在实际代码实现时, 下面这个写法是错误的:

```
  double power(double x, int n) { 
    if (n == 0) return 1;
    if (n % 2 == 0)
      return power(x, n / 2) * power(x, n / 2);
    else 
      return power(x, n / 2) * power(x, n / 2) * x; 
  }
```

错误的原因是 `return` 时实际调用 `power(x, n / 2)` 函数两次. 正确的写法是 
```
  double power(double x, int n) { 
    if (n == 0) return 1;
    double p = power(x, n / 2);
    if (n % 2 == 0)
      return p * p;
    else 
      return p * p * x;
  }
```
在这里, 调用一次函数和两次函数, 不仅仅是函数调用更贵的问题, 而是因为这额外的调用发生在递归内部, 所以是
\begin{equation}
  T(n) = T(\frac{n}{2}) + O(1) = O(\log n).
\end{equation}
和
\begin{equation}
  T(n) = 2T(\frac{n}{2}) + O(1) = O(n).
\end{equation}
的区别. 是算法效率的本质损失. 

**生成 Fibonacci 数列**. 这个数列的定义是 
  \begin{equation}
    F_n = \left\{
      \begin{array}{ll}
        0, & n = 0, \\
        1, & n = 1, \\
        F_{n - 1} + F_{n - 2}, & n \geq 2.
      \end{array}
    \right.
    \end{equation}

朴素的生成算法是直接按照定义递归计算. 但是这个算法的效率是 $\Omega(\phi^n)$, 其中 $\phi = \frac{\sqrt{5} + 1}{2}$, 也即最优情形下, 也是一个指数时间算法. 指数时间是一个不可接受的时间, 意味着没有用. 之所以这么慢的原因是, 每次递归调用都会产生两个子问题, 但这两个子问题的规模却几乎没有下降. 

所以尽管很多编程书和算法书, 拿 Fibonacci 数列的朴素生成算法作为递归编程的例子, 但恰恰这是一个绝对不应该用递归实现的例子. 

这个算法的效率远远不如朴素的循环实现, 即从 $F_0$, $F_1$, $...$, 一直求到 $F_n$. 这样的效率是 $O(n)$.

而正确的递归生成算法基于下面的事实:
\begin{equation}
  \left(
  \begin{array}{cc}
    F_{n + 1} & F_n \\
    F_n & F_{n - 1}
  \end{array}
  \right) = \left(
  \begin{array}{cc}
    1 & 1 \\
    1 & 0 
  \end{array}  
  \right)^n.
\end{equation}

该定理不难用归纳法实现. 然后我们只需将求 x 的 n 次幂的算法直接套用, 就可以得到一个 $O(\log n)$ 的算法. 

可能有同学注意到, Fibonacci 序列实际上有一个通项, 
\begin{equation}
  F_n = \mathrm{int} \left( \frac{\phi^n}{\sqrt{5}} \right)
\end{equation}
那是否意味着我们有一个 $O(1)$ 的算法? 

回答是否定的. 直接用上述公式计算, 并不是一个算法. 因为计算机是有限精度的, 上述计算公式在计算机中, 对充分大的 n, 总是错误的. 这里体会一下, 离散的计算机算法和考虑连续估计的数值计算是两个不同的概念. 后者专门会在数值分析课程中讨论. 

最后用一个启发式算法暂时作为分治策略的讨论中止. 

**矩阵乘法**. 设 $A$, $B$ 是两个 $n \times n$ 的矩阵, 我们要计算 $C = AB$. 朴素算法是直接按照定义计算, 但这个算法的效率是 $O(n^3)$. 一直以来, 人们都在寻求突破这个时间下界的算法.

但直接套用分治策略是无效的, 令
\begin{equation}
  A = \left[
    \begin{array}{cc}
      a & b \\
      c & d
    \end{array}
  \right], 
  B = \left[
    \begin{array}{cc}
      e & f \\
      g & h
    \end{array}
  \right], 
  A = \left[
    \begin{array}{cc}
      r & s \\
      t & u 
    \end{array}
  \right], 
\end{equation}
其中 $a$, $b$, $\cdots$, $u$ 都是规模为 $A$ 一半的子块. 那么就有
\begin{equation}
  \begin{array}{ll}
    r = a e + b g, & s = a f + b h, \\
    t = c e + d g, & u = c f + d h.
  \end{array}
\end{equation}
于是 $T(n) = 8 T(\frac{n}{2}) + O(n^2) = O(n^3)$.

这里提供一个思路, 相比矩阵乘法, 矩阵加法要快的多, 因此我们考虑在分治时尽量减少乘法, 而不介意多来几个加法. 一个突破就是 **Strassen 算法**: 

令 
  \begin{equation}
    \begin{array}{ll}
      P_1 = a(f - h), & P_2 = (a + b) h, \\
      P_3 = (c + d) e, & P_4 = d(g - e), \\
      P_5 = (a + d)(e + h), & P_6 = (b - d)(g + h), \\
      P_7 = (a - c)(e + f). & \mbox{以上共 $7$ 个乘法}. \\
      r = P_5 + P_4 - P_2 + P_6, & s = P_1 + P_2, \\
      t = P_3 + P_4, & u = P_1 + P_5 - P_3 - P_7.
    \end{array}
  \end{equation}

计算量: $7$ 个乘法, $18$ 个加法. 
\begin{equation}
  T(n) = 7 T(\frac{n}{2}) + O(n^2) = O(n^{\log_2 7}) \approx O(n^{2.81}).
\end{equation}

注意这并不是迄今为止最优的矩阵乘法算法, 但考虑到实现的便利, 我们一般很少在实际计算时采用比标准乘法操作更复杂操作的算法. 
