# 线性表的概念

集合 E 上的一个线性表就是 E 中有一组有穷个元素排成的序列 $L = (e_0,e_1,...,e_{n-1})$,其中 $e_i\in E,n\geq 0$。在一个表里包含0个或多个元素，序列中每个元素在表里有一个确定的位置，称为该元素的*下标*。 

一个表具有如下性质：
* 一个表中包含元素的个数称为这个表的长度。显然，空表的长度为0；


* 表元素之间存在一个基本关系，称为**下一个**关系。对于表$L = (e_0,e_1,...,e_{n-1})$,下一个关系是二元组合 $\{<e_0,e_1>,<e_1,e_2>,;;;<e_{n-2},e_{n-1}>\}$。下一个关系是一种顺序关系，即线性关系，线性表是一种线性结构；


* 在一个非空的线性表里，存在唯一的一个 *首元素* 和 *尾元素*，除了*首元素*之外，表中每个元素 e 有且仅有一个 *前驱元素*；同样地，除了尾元素之外的每个元素都有且仅有一个后继元素。

# 线性表的操作

线性表是一种数据结构，现在要考虑如何将其定义为一种抽象数据类型。线性表的实现者和使用者要从各自的角度考虑这种类型的问题：

* 实现者角度，有2个问题需要考虑：
    1. 如何为结构内部的数据设计一种合适的表示；
    2. 如何提供一套有用且必要的操作，并有效实现这些操作。
显然，这两个问题相互关联；


* 使用者角度，线性表是一种有用的结构。需要考虑该结构提供了哪些操作，如何有效解决自己的问题，会对表的实现者提出一些要求。

在设计、定义和使用所有的抽象数据类型时，都会遇到这两个不同的视角，即统一又有分工。

下面，我们首先从**使用者**的角度，考虑一个线性数据结构应该提供哪些操作：

1. (构造)首先，作为抽象类型的线性表是一组数据对象的集合，应该**提供创建线性表对象**的操作：
    * 一种简单操作是创建空表对象，不需要提供其他信息；

    * 如果需要创建包含一些元素的表，就要考虑如何为创建操作**提供初始元素序列**的问题。
    
    
2. (解析)程序需要检查一个表，获取各方面信息，比如：判断一个表是否为空，考察其中元素个数(即表的长度)，检查一个表是否存在特定对象等。需要定义一些获取表中信息的解析操作；


3. (变动)需要动态改变表的内容包括：

    * 加入新的元素：
        * 简单加入，只要求新元素加入表中；
        * 定位加入要求把新元素存放到表中的确定位置。
        
    * 删除已有元素：
        * 定位删除某位置的元素；
        * 按内容删去特定元素：包括删除一个元素 或 删除等于某指定元素的所有元素问题等。
        

4. (组合)涉及一个或两个表的操作，例如表的组合操作、从已有表得到一个新表等；


5. (遍历)涉及对表中每一个元素进行的操作。注意，这是一个**操作类**，任何一个对单个表元素的操作都可以延伸到对表中所有元素进行的操作。

备注：

* 4和5的操作都可以实现为**变动操作**，实际修改被操作的表，在该表上直接实现操作的效果；

* 也可以实现为**非变动操作**，让操作总是建一个新表。

具体如何设计，取决于实际需求。

# 线性表的实现模型

具体实现数据结构，需要主要考虑2方面问题：

1. 计算机内存的特点，以及保存元素和元素顺序信息的需要；


2. 各种重要操作的效率。一个表的创建操作只执行一次，但可能被反复、多次地以各种方式使用，其中最频繁的操作通常包括表的性质判定、访问、加入、删除、遍历元素等。具体实现时，要特别考虑这些操作的实现效率。

基于各方面考虑，人们提出2种基本的实现模型：

1. 将表中元素顺序地存放在一大块连续的存储区里，这样实现的表也称为**顺序表(或者连续表)**。在这种实现里，元素间的顺序关系由它们的存储顺序自然表示；


2. 将表元素存放在通过链接构造起来的一系列存储块里，这样实现的表称为**链接表**，简称**链表**。

参考这两种基本实现模型，可以开发出一些不同的具体实现技术，根据具体情况和需要进行选择。下面我们分别讨论顺序表和链表的实现。

# 顺序表的实现

## 顺序表的存储特点

顺序表的基本存储方式：
    
    表中元素顺序存放在一片足够大的连续存储区里，首元素存入存储区的开始位置，其余元素顺序存放。元素之间的逻辑顺序通过存储区的物理位置隐式表示。

存在两种情况：

1. 表里存储元素类型相同，因此每个元素所需的存储量相同，可以在表里安排同样大小的存储空间。

2. 表元素类型不同，大小不一，可以通过【将实际元素另外存储，在顺序表各单元位置保存相应元素的引用（链接）】来实现，每个链接所需要的存储量是相同的。

这样，两种情况就可以统一对待。

假设一个顺序表对象，元素存储在一片元素存储区，顺序表起始，即首元素 $e_0$ 的内存位置是 $Loc(e_0) = l_0$，假定每个元素所需的存储单元数为 c ，就可以得到任意一个元素 $e_i$ 的内存地址：

$$Loc(e_i) = Loc(e_0) + c\times i$$


|物理地址<img width=100/>|逻辑地址|元素存储|
|--|--|--|
|$l_0$|0|$e_0$|
|$l_0 + 1\times c$|1|$e_1$|
|$l_0 + 2\times c$|2|$e_2$|
|$\vdots$|$\vdots$|$\vdots$|
|$l_0 + (n-1)\times c$|n-1|$e_{n-1}$|

如果存储的是链接，那么【元素存储】的位置实际存储的是*元素对应的链接*，另外需要建立一个映射，实现【链接--->元素】的映射。

**线性表的容量**


线性表的重要性质是可以加入或删除元素，那么安排多大的存储区确定了容量，也确定了元素个数的上限。

在建立顺序表时：

1. 按建立时确定的元素个数分配存储，这种做法适合创建不变的顺序表，例如 tuple对象；
2. 如果是变动表，必须区分表中当前元素的个数和存储区的容量。



所以一个顺序表的完整信息如下图所示：

|||
|--|--|
|容量|8|
|元素个数|4|

|逻辑地址|元素|
|--|--|
|0|1328|
|1|693|
|2|2529|
|3|154|
|4||
|5||
|6||
|7||

## 基本操作的实现

下面我们用max表示表的容量，num表示当前元素的个数。

### 创建空表

创建空表时，需要分配一块元素存储，记录表的容量并将元素计数值设置为0，即将 max 和 num 设置好，保证表的合法性。

### 解析操作

***
**判断表的状态操作**

1. 判断表空：num = 0

2. 判断表满：num = max

上述操作的复杂度都是 $O(1)$

***

***
**访问给定下标 $i$ 的元素**

1. 首先判断 i 是否满足：$0\leq i \leq num-1$，即表是否处于合法范围内；

2. 其次，可以根据公式 $Loc(e_i) = Loc(e_0) + c\times i$ 来确定具体位置，再取出元素的值。

这个操作的复杂度不依赖于表中具体元素的个数，也是 $O(1)$ 操作。

***

***
**遍历**

1. 顺序访问表中元素时，只需要在遍历过程中用一个整数变量k记录此刻遍历到达的位置；

2. 知道具体的k时，可以参照上面来访问给定下标 k 的元素。

遍历操作的复杂度依赖于表的元素数量，复杂度为$O(n)$。
***

***
**查找给定元素d的(第一次出现)位置**

无其他信息时，只能通过顺序遍历来线性检索，找到时返回d在列表中的下标，结束循环；如果遍历结束未找到元素，可以返回一个特殊值(比如-1 或者 None)：

```python
def seartch_d(lst,d):
    for i,element in enumerate(lst):
        if element == d:
            return i
            break
    else:
        return -1
```
同样，这种接近遍历的复杂度也是 $O(n)$.

另一个类似的查找是：

1. 查找给定元素d在位置k之后的第一次出现的位置；

2. 抽象来说是，给定一个条件，要求找到满足该条件的第一个元素。
***

In [16]:
def seartch_d(lst,d):
    for i,element in enumerate(lst):
        if element == d:
            return i
            break
    else:
        return -1

In [18]:
seartch_d(lst=[1,2,3],d=2)

1

In [19]:
seartch_d(lst=[1,2,3],d=4)

-1

上述的操作中除了第一个`“访问第i个元素”`的复杂度是$O(1)$之外，剩余操作的复杂度都基于表的内容的查找和检索操作，复杂度都是$O(n)$。

### 变动操作

***
**加入元素**

新数据存入元素存储区的第i个单元：

1. 首先检查i是否为合法位置，即 $0\leq i \leq num$（包括num，如果表不满），如果合法就可以插入；


2. 通常情况下 i 的位置已经有数据（如果i 恰好为num,可以直接在尾端插入），要插入新数据，就要把原来的数据移走，移动的方式取决于是否要求保序：

    a.如果不要求保序，可以将原来 i 位置的元素 放到 num 位置；腾出位置 i 放新元素，同时更新num的值，操作复杂度为 $O(1)$;
    
    b.如果要求保序，就需要把位置 i 之后的元素按顺序逐一下移，再把数据放入 i 的位置，更新num值，操作复杂度取决于要移动的元素个数，最坏和平均情况都是 $O(n)$。
    
插入元素的情况见下图：
 <img src='picture/liner_1.png'>
***

***
**删除元素**
***
**删除位置i的数据**

删除位置i的数据相当于在位置i加入元素的逆操作，性质类似：

1. 首先检查i是否为合法位置，即 $0\leq i \leq num-1$，确认下标位置合法就可以删除；


2. 通常情况下 i 的位置已经有数据（如果i 恰好为num,可以直接在尾端插入），要插入新数据，就要把原来的数据移走，移动的方式取决于是否要求保序：

    a.如果不要求保序，可以将原来 num-1 位置的元素 拷贝到 位置 i,覆盖原来的元素；操作复杂度为 $O(1)$;
    
    b.如果要求保序，就需要把位置 i 之后的元素按顺序逐一上移，删除后更新num值，操作复杂度最坏和平均情况都是 $O(n)$。
    
    c. 删除尾端元素非常简单，只需要将num值减1即可，原来尾端的元素不再位于合理的下标范围，相当于删除了。
    
删除元素的情况见下图：
<img src='picture/liner_2.png'>
***
**基于条件的删除**

1. 这种删除操作不是给定元素位置，而是删除给定数据项本身d或者符合条件的一系列元素；这种操作首先要通过前面**解析操作**里的方式找到这些元素，再进行删除；

2. 一般需要通过循环来实现，循环逐个检查元素，查到符合条件的元素进行删除；这种一般是线性操作时间，时间复杂度是$O(n)$。
***

## 顺序表的结构

一个顺序表包含两部分信息：表本身需要记录的信息（表的容量和元素个数），表中实际元素的集合。一个具体的数据结构要有一个对象的形态，那么问题就在于如何把上述两部分信息组织为一个顺序表的实际表示。

***
**两种基本实现方式**

<img src='picture/liner_3.png'>

**方式一**：将 表本身固有信息 和 元素集合 以**连续**的方式放在一起，见上图左。

1. 优点：
    * 实现方式比较紧凑，易于管理；
    * 因为连续存放，从表对象L出发，根据下标访问元素，仍然可以沿用前面的公式，只不过整体平移 C 个单位，这里的C 是 表容量 max 和 表元素个数 num 的存储量大小。
    
2. 缺点：
    * 因为这里的表元素 是表对象的一部分，所以会导致不同表对象的大小不一；
    * 创建元素后对象就固定了，当插入元素超过 表容量时，由于表对象的两边可能有其他对象，不可能直接扩大其内存，只能重新创建一个容量更大的对象，但这是一个新对象，要修改当时使用原对象的全部位置，改用新对象，成本很高。
    
**方式二**：将 表本身固有信息 和 实际元素集合 以**分离**的方式分开存储，通过链接进行关联，见上图右。

1. 优点：
    * 表对象大小统一；
    * 不同表的对象可以关联不同大小的元素存储区，但不会影响使用表的位置对表对象的引用；
2. 缺点：
    * 一个表通过多个独立的对象实现，创建和管理工作复杂一些；
    * 基于下标的元素访问仍然只需要常量时间，但是要分两步：先从表对象找到元素存储区，再使用前面的公式计算存储位置。

***

***
**动态顺序表的替换元素存储区**

使用上面方式二来构建一个表对象的好处是，在表对象标识不变的情况下，为表对象更换元素存储区。因为这个优点，我们把采用方式二实现的顺序表叫**动态顺序表**。

采用方式二这种分离技术实现，更换元素存储区过程如下：

1. 另外申请一块更大的元素存储区（具体扩充过程的选择下文会介绍）；
2. 把表中已有元素复制到新存储区；
3. 用新元素存储区替换原来的元素存储区，即改变表对象的元素区链接；
4. 实际加入新元素。
***

***
**后端插入与存储区扩充的方式与优劣**

**为什么是后端插入？**

随着操作进行，动态顺序表大小从0逐渐扩大到n，插入元素时，后端插入时间开销更小：

||单次插入时间|总时间开销|
|--|--|--|
|一般位置插入|$O(n)$|$O(n^2)$|
|后端插入|$O(1)$|$O(n)$|

**存储区扩充**

虽然后端插入本身的时间复杂度是$O(1)$，但是当表的元素存储区被填满时，我们就需要**替换元素存储区**，我们需要思考的问题时，如何选择新存储区的大小，即扩充方式。

**方式一**：线性扩充

假设表对象从0不断扩充到n（假设n是10的倍数），每次线性扩充10个存储位置，第k次复制扩充需要复制的元素个数是 n +10*(k-1)，对应的总复制次数为：

$$10+20+\cdots+ 10\times(\frac{n}{10}-1) \approx O(\frac{n^2}{20})$$

优缺点如下：
1. 缺点：虽然每次后端插入的时间复杂度是$O(1)$，但是加入元素复制后，频繁的替换元素存储区会导致，一次插入操作的平均代价是$O(n)$；

2. 优点：每次后端插入后元素存储区的最大空闲单元是9。

**方式二**：指数型扩充

表对象从0不断扩充到n（假设n是2的指数），按照 1,2,4,8，...方式扩充到n，对应总的复制次数为：

$$ 1+2+4+\cdots +\frac{n}{2} = \sum_{i=0}^{\log_2{n/2}}2^i \approx O(n)$$

优缺点如下：
1. 缺点：端插入后元素存储区的空闲单元差不多可以达到 n/2;

2. 优点：如上述公式，后端插入的总时间复杂度是$O(n)$。

对比两种策略，我们发现，方式二为了获得时间上的优势，需要付出空间上的代价。

另外需要注意的问题是：后端插入的代价不统一，大多数可以在 $O(1)$ 时间内完成，但也会因为替换存储区出现高代价操作；随着表的增大，高代价操作的出现会更稀疏。

**python 中的 list **

python 中的 list 和 tuple 就采用了顺序表的实现技术，tuple是不变的表，因此不存在变动操作，其他方面和list 性质类似。

python的官方实现中，**list就是一种采用了分离式技术实现的动态顺序表**。
***

# 链接表的实现

如果程序需要巨大的线性表，采用顺序表实现就需要巨大块的连续存储空间，这个可能造成存储管理方面的困难。接下来我们考虑线性表的另一种实现技术。