# Abstract Data Types

在本篇阅读中，我们将探讨一个强大的思想：抽象数据类型。这一思想使我们能够将程序中使用数据结构的方式与数据结构本身的特定形式区分开来。

抽象数据类型解决了一个特别危险的问题：客户端对type的内部表示做出假设。我们将了解为什么会出现这种危险，以及如何避免。我们还将讨论操作的分类，以及抽象数据类型良好设计的一些原则。

## What abstraction means
抽象数据类型是软件工程中一般原则的一个实例，它有许多含义略有不同的名称。下面是一些用于表达这一概念的名称：

* 抽象。用更简单、更高层次的思想省略或隐藏低层次的细节。
* 模块化。将系统划分为若干组件或模块，每个组件或模块都可以与系统的其他部分分开设计、实施、测试、推理和重复使用。
* 封装。在模块周围筑起一堵墙，使模块只对自己的内部行为负责，系统其他部分的错误不会破坏模块的完整性。
* 信息隐藏。对系统的其他部分隐藏模块实现的细节，这样以后就可以在不改变系统其他部分的情况下改变这些细节。
* 关注点分离（Separation of concerns）。将某项功能（或 "关注点"）集中在一个模块中，而不是分散到多个模块中。

作为一名软件工程师，你应该了解这些术语，因为你会经常遇到它们。所有这些想法的根本目的都是为了帮助实现我们在 6.102 中关心的三个重要特性：避免错误、易于理解和随时应对变化。

事实上，我们在以前的课程中，在编写接受输入并产生输出的函数时，已经接触过其中的一些思想：

抽象： 规范是一种抽象，客户只需理解其前提条件和后置条件即可使用，而无需理解实现的全部内部行为。
模块化： 单元测试和规范有助于将函数转化为模块。
封装性： 函数的局部变量是封装的，因为只有函数本身可以使用或修改它们。而全局变量则恰恰相反，全局变量或指向具有别名的可变对象的局部变量也会威胁到封装性。
信息隐藏： 规范使用信息隐藏，为实现者留出了实现函数的自由空间。
关注点分离： 一个好的函数规范是连贯的，这意味着它只负责一个关注点。
从今天的课程开始，我们将不再局限于函数的抽象，还将关注数据的抽象。但我们会发现，函数仍将在我们如何描述数据抽象中扮演重要角色。

### User-defined types

用户自定义类型
在计算机发展的早期，编程语言带有内置类型（如整数、布尔值、字符串等）和内置函数，如输入和输出函数。用户可以定义自己的函数：大型程序就是这样建立起来的。

软件开发领域的一大进步是提出了抽象类型的概念：编程语言也可以允许用户定义类型。这一想法源于许多研究人员的工作，特别是发明了 Simula 语言的Dahl；开发出我们现在用来推理抽象类型的许多技术的Hoare；Parnas, who coined the term information hiding and first articulated the idea of organizing program modules around the secrets they encapsulated.

在麻省理工学院，芭芭拉-利斯科夫（Barbara Liskov）和约翰-古塔格（John Guttag）在抽象类型的规范和编程语言支持方面做出了开创性的工作，并开发了最初的课程，后来发展成为 6.102。芭芭拉-利斯科夫因其在抽象类型方面的工作获得了图灵奖（相当于计算机科学的诺贝尔奖）。

数据抽象的关键思想是，类型的特征在于你可以对其执行的操作。数字是可以进行加法和乘法运算的；字符串是可以进行连接和取子串运算的；布尔型是可以进行否定运算的，等等。从某种意义上说，用户已经可以在早期的编程语言中定义自己的类型：例如，你可以创建一个日期记录类型，其中的日、月、年都是整数字段。但是，抽象类型的新颖和与众不同之处在于它侧重于操作：类型的用户无需担心其值的实际存储方式，就像程序员可以忽略编译器如何实际存储整数一样。重要的是操作。

#### reading exercise

Consider an abstract data type Bool. The type has the following operations:

true : Bool
false : Bool

and : Bool × Bool → Bool
or : Bool × Bool → Bool
not : Bool → Bool

… where the first two operations construct the two values of the type, and the last three operations have the usual meanings of logical and, logical or, and logical not on those values.

Which of the following are possible ways that Bool might be implemented, and still be able to satisfy the specs of the operations? Choose all that apply.

As a single bit, where 1 means true and 0 means false.
As a number value where 5 means true and 8 means false.
As a reference to a string object where "false" means true and "true" means false.
- [ ] As a number value where all possible values mean true.
As a number value > 1 where prime numbers mean true and composite numbers mean false.

Bool can be implemented by virtually any kind of data structure, as long as it distinguishes the two values true and false. We just have to implement the five operations so that they satisfy their specs: for example, and(true, false) must return false.

That’s the essence of what makes an abstract data type. The operations themselves (and their specs) completely define the data type, abstracting away from the details of data structure, memory storage, or implementation. It’s a Bool data type because it provides these operations, not because of how it’s actually stored inside the machine.

### Classifying types and operations

无论是内置类型还是用户定义的类型，都可以分为可变类型和不可变类型。可变类型的对象可以改变：也就是说，它们提供的操作在执行时会导致对同一对象的其他操作产生不同的结果。比如，Date 是可变的，因为你可以调用 setMonth 并通过 getMonth 操作来观察变化。但是字符串是不可变的，因为它的操作会创建新的字符串对象，而不是改变现有的对象。有时，一种类型会以两种形式提供，一种是可变形式，另一种是不可变形式。例如，ReadonlyArray 就是 Array 的不可变形式。

抽象类型的操作分类如下：

* 创建者创建该类型的新对象。创建者可以将其他类型的值作为参数，但不能将被创建类型的对象作为参数。

  * 创建者（creator）操作通常以构造函数的形式实现，如 new Date()。
  * 但creator也可以是一个静态方法，如 Array.of()。作为静态方法或独立函数实现的创建器通常被称为工厂。

* Producers 也可以创建该类型的新对象，但需要一个或多个该类型的现有对象作为输入。

  * concat：string × string → string 是一个生产者（producer）：它接收两个字符串并产生一个新字符串，表示它们的连接。

* 观察者（Observers）接收抽象类型的对象，并返回不同类型的对象。有些观察者不需要其他参数，例如

  * size : Map<K,V> → number
......而其他观察符除了抽象类型的值外，还接收其他类型的参数：

  * get ： Map<K,V> × K → V

* Mutators可以改变对象。例如

  * push： 例如，push：Array<T> × T → number，通过在数组末尾添加一个元素来改变数组（顺便返回列表的新长度）。

  * Mutators通常以 void 或未定义的返回类型作为信号。调用返回 void 的方法一定是为了某种副作用（side-effect），因为它在其他情况下不会返回任何东西。但并不是所有的mutators都返回 void。例如，Set.add() 返回集合本身，因此可以将多个 add() 调用链在一起。

#### 抽象数据类型示例

下面是一些抽象数据类型的示例，以及它们的一些操作，按类型分组。

number 是 TypeScript 的primitive numeric type。number 不可变，因此没有mutators。

* creators：数字字面 0、1、2...
* producers：算术运算符 +, -, *, /, **
* observers：比较运算符 ===, !==, <, >
* mutators：无（不可变）

Array 是 TypeScript 的数组类型。数组是可变的。

* creators: Array constructor、[ item1、item2 等 ] 字面语法、Array.of、Array.from
* producers: Array.concat
* observers: length, [..] indexing syntax
* mutators: push, pop, shift, unshift, reverse, sort

string 是 TypeScript 的字符串类型。字符串是不可变的。

* creators: String constructor, "quoted text" literal syntax, String.fromCharCode static method
* producers: concat, substring, toUpperCase
* observers: length
* mutators: none (it’s immutable)

这种分类提供了一些有用的术语，但并不完美。例如，在复杂的数据类型中，可能有一种操作既是producer又是mutator。我们会把这样的方法同时称为生产者和变异者，但有些人更愿意只称它为mutator，只为不做出mutation的操作保留producer一词。

#### reading exercise

Number.parseInt()

Number.parseInt() is a creator for number, taking a different type (string) and making an number. It’s an example of a factory method.

--- 

String.toUpperCase()

String.toUpperCase() is a producer for string, taking one string and producing another string.

--- 

Map.keys()

Map.keys() is an observer for Map, taking a Map value and returning information about it as an Iterator value.

Final note: consumer and destructor are not part of our classification of ADT operations.

### An abstract type is defined by its operations
这里的基本思想是，抽象数据类型是由其操作定义的。类型 T 的操作集及其规范，充分体现了我们所说的 T 的含义。

因此，举例来说，当我们谈论数组类型时，我们所指的并不是链接列表、内存块、哈希表或任何其他可能表示值序列的特定数据结构。

相反，Array 类型是一组不透明的值--可能具有 Array 类型的对象--满足 Array 所有操作的规范： [..] (indexing), length, push()，等。赋予抽象类型的值（比如到底是list array还是 sequence array）是不透明的，因为客户端无法检查其中存储的数据，除非操作允许。

将我们对规范防火墙的比喻扩展开来，你可以把抽象类型的值想象成硬壳，它不仅隐藏了单个函数的实现，还隐藏了一组相关函数（与操作相关的类型）和它们共享的数据（存储在类型值内部的私有field）。

![](ref/lect6/2023-07-20-22-26-30.png)

类型相关的操作构成了这个类型的抽象。公共部分，是对使用该类型的客户端可见。

实现该类型的类以及帮助实现复杂数据结构的相关类的字段构成了特定的表示。
这部分是私有的，只有类型的实现者才能看到。


### Designing an abstract type
设计抽象类型需要选择好的操作并确定它们的行为方式。这里有几条经验法则。

最好是有几个简单的操作，这些操作可以以强大的方式组合在一起，而不是有很多复杂的操作。

每个操作都应该有明确的目的，应该有连贯的行为，而不是大量的特例。例如，我们可能不应该在Set中添加求和操作。这可能会对处理数字集的客户有所帮助，但字符串set呢？或者嵌套set呢？所有这些特殊情况都会使求和操作变得难以理解和使用。

操作集应该足够多，因为必须有足够多的操作来完成客户可能希望进行的计算。一个好的测试方法是检查是否可以提取该类型对象的每个属性。
例如，如果字符串没有索引操作 [i]，我们就无法找出字符串的各个字符。基本信息的获取不应过于困难。例如，对于字符串来说，长度属性并不是严格意义上的必要条件，因为我们可以应用 [i] 来增加索引 i，直到得到未定义的结果，但这样做既低效又不方便。

类型可以是通用的：例如list、set或graph。也可以是特定领域的：a street map, an employee database, a phone book, etc。但它不应混合通用特征和特定领域特征。一个用于表示扑克牌序列的 Deck 类型不应该有一个接受任意对象（如整数或字符串）的通用 add 方法。反之，在通用类型 Array 中加入像 dealCards 这样的特定领域方法也是不合理的。

### Representation independence
至关重要的是，一个好的抽象数据类型应与表示无关。这意味着抽象类型的使用独立于其表示形式（用于实现抽象类型的实际数据结构或数据字段），因此表示形式的变化不会对抽象类型本身之外的代码产生影响。例如，数组（Array）提供的操作与数组内部是用连续内存块、链表还是哈希表无关。

作为实现者，只有当 ADT 的操作完全指定了前置条件和后置条件时，您才能安全地更改 ADT 的表示形式，这样客户才能知道应该依赖什么，您也才能知道可以安全地更改什么。

#### Example: different representations for strings
让我们来看一个简单的抽象数据类型，了解representation independence 的含义以及它的用处。下面的 MyString 类型比 TypeScript 内置的字符串操作要少得多，它们的specs也略有不同，但仍能说明问题。下面是 ADT 的规范：

```ts
/** MyString represents an immutable sequence of characters. */
class MyString { 

    //////////////////// Example creator operation ///////////////
    /**
     * @param s 
     * @returns MyString representing the sequence of characters in s
     */
    public constructor(s: string) { ... }

    //////////////////// Example observer operations ///////////////
    /**
     * @returns number of characters in this string
     */
    public length(): number { ... }

    /**
     * @param i character position (requires 0 <= i < string length)
     * @returns character at position i
     */
    public charAt(i: number): string { ... }

    //////////////////// Example producer operation ///////////////
    /** 
     * Get the substring between start (inclusive) and end (exclusive).
     * @param start starting index
     * @param end ending index.  Requires 0 <= start <= end <= string length.
     * @returns string consisting of charAt(start)...charAt(end-1)
     */
    public substring(start: number, end: number): MyString { ... }

    /////// no mutator operations (why not?)
}
```
这些公共操作及其规范是该数据类型的客户端唯一可以知道的信息。但是，实现该数据类型需要一种表示方法（representation）。现在，让我们来看看 MyString 的简单表示法：这只是一个字符数组。每个字符由一个 16 位数字（即其 Unicode 值）表示，我们可以使用 String.charCodeAt() 和 String.fromCharCode() 从原始字符串中获取该值。在 TypeScript 中，字符数组的合适类型是 Uint16Array，意思是 "无符号 16 位整数数组"。除了只能存储 16 位无符号整数且不能增长或缩小外，该类型的行为与数组基本类似。在我们的 MyString 表示法中，数组的长度正好是字符串的长度，末尾没有多余的空间。

下面是如何将内部表示法（我们通常简称为 rep）声明为类中的实例变量：

```ts
private a: Uint16Array;
```