# 第8章 字典和集合
## 8.1 数据存储,检索和字典
计算机的基本功能是存储和处理数据,首先是存储数据,处理也需要先找到被处理的数据,或成为**访问数据**.所以,数据的存储和访问是计算机最基本的功能.
### 8.1.1 数据存储和检索
数据访问的基本方式是基于存储位置.

找到数据的存储位置的操作称为__检索__,类似查字典.
#### 概述
数据检索牵涉到两个方面,一方面是已存储的数据集合,另一方面是用户检索时提供的信息.具体检索可以是确定特定数据是否存在于数据集中,相当于集合成员判断;也可以是希望找到与所提供信息相关的数据,类似与在字典里查询词语的解释.在后一方式中,检索时提供的信息被看做`检索码`或`关键码`(key).这种关键码也常作为数据的一部分,存储在数据集里,这就是**基于关键码的数据存储和检索**,是本章讨论的主题.

作为检索基础的关键码,通常是数据项的某种(可能具有唯一性的)特征,可以是数据内容的一个组成部分,也可以是专门为数据检索建立的标签.后一种情况实际中也很常见.以学校的学生记录为例,原本只需要记录与学生相关的信息.而为每个学生指定一个学号,只是为了检索方便.这一类关键码通常是数据的唯一`标识`.

基本假设(抽象的):需要存储的数据元素由两个部分组成,其中一部分是与检索相关的关键码,另一部分是与之关联的数据.

`字典`就是支持基于关键码的数据存储与检索的数据结构.也被称为`查找表`,`映射`或者`关联表`等.字典实现数据的存储和检索,而需要存储和检索的信息和环境有许多具体情况,因此可能要求不同的实现技术.

在字典的使用中,最重要也是使用最频繁的操作就是检索(search,也称查找).
#### 字典操作和效率
实际中使用的字典可以分为两类:
- 静态字典:在建立之后,这种字典内容和结构都不再变化,主要操作只有检索.对这种字典,需要考虑创建的代价,但最重要的是检索效率.
- 动态字典:在初始创建之后,这种字典的内容(和结构)将一直处于动态变动之中.对这种字典,除了检索之外,最重要的基本操作还包括数据项的插入和删除等.

对于动态字典,还有一个问题也必须重视:这里的插入和删除操作可能导致字典结构的变化.良好设计的字典应该保证其性能不会随着操作的进行而逐渐恶化.

在字典中检索,最终将得到一个结果,或是检索成功而且得到了所需的数据;或是确认了要找的数据不存在,此时可能返回某种特殊标志.有关检索效率的评价标准,通常考虑的是在一次完整检索过程中比较关键码的平均次数,通常称为`平均检索长度`(Average Search Length,ASL),其定义是(其中n为字典中的数据项数):$$ASL=\sum_{i=0}^{n-1}{p_i\cdot{c_i}}$$其中$c_i$和$p_i$分别为第i项数据元素的检索长度和检索概率.上述定义中只考虑了被检索关键码在字典中存在的情况(正确的检索算法保证存在的关键码一定能找到),在很多情况中,还需要考虑字典中不存在被检索关键码的情况.\

#### 字典和索引
实际上,字典是两种功能的统一:
- 作为一种数据存储结构,支持在字典里存储一批数据项.
- 提供支持数据检索的功能,设法维护从关键码找到相关数据的联系信息.

后一功能称为`索引`,其存在的目的就是为检索服务.

做基于关键码的检索,就是要实现从关键码到数据存储位置的映射,而这种映射也就是索引.但是,索引结构本身并不存储数据,只提供(基于关键码的)检索功能,因此它只作为字典的附属结构,不可能独立存在.
### 8.1.2 字典的实现问题
#### 字典抽象数据类型
|ADT Dict:|# 字典抽象数据类型|
|---|---|
|Dict(self)|# 字典构造函数,创建一个新字典|
|is_empty(self)|# 判断self是否为一个空字典|
|num(self)|# 获知字典中的元素个数|
|search(self,key)|# 检索字典里key的关联数据|
|insert(self,key,value)|# 将关联(key,value)加入字典|
|delete(self,key)|# 删除字典中关键码为key的元素|
|values(self)|# 支持以迭代方式取得字典里保存的各项关联中的value|
|entries(self)|# 支持以迭代方式获得字典的关联中的逐堆key和value二元组|

注意,各种字典都不应该允许修改字典关联中的关键码,因为关键码用于确定其所在项在字典里存储的位置,以支持高效检索.如果允许修改关键码,就可能破坏字典数据结构的完整性,导致后续检索操作失败.
#### 字典元素:关联
在支持基于关键码的存储与检索的字典里,一个数据项可以划分为两个部分:其一是与检索有关的关键码部分,另外就是与检索无关的其他数据部分.下面将始终把字典里的数据项简单地分为两部分,一部分是与检索有关的关键码,另一部分称为值,与检索和其他操作(例如插入/删除)的实现方式无关,但在实际应用中却可能非常重要.这样,一个数据项就是一种`二元组`,下面称之为`关联`.


In [1]:
class Assoc:
    def __init__(self, key, value):
        self.key = key
        self.value = value
    def __lt__(self, other):
        return self.key < other.key
    def __le__(self, other):
        return self.key < other.key or self.key == other.key
    def __str__(self):      # 定义字符串表示形式便于输出和交互
        return "Assoc({0},{1})".format(self.key, self.value)

#### 字典的实现
字典实现技术:线性表,连续表,散列表
## 8.2 字典线性表实现
线性表里可以存储信息,因此可以作为字典的实现基础
### 8.2.1 基本实现
基于线性表的字典实现,优点和缺点都非常明显:
- 数据结构和算法都很简单,检索,删除等操作中只需要比较关键码相同(或不同),适用于任何关键码类型(例如,并不要求关键码集合存在某种顺序关系)
- 平均检索效率第(线性时间),表长度n较大时,检索很耗时.
- 删除操作的效率也比较地,因此不太适合频繁变动的字典.

另外,在字典的动态变化中,这种字典的各种操作的效率不变.但这并不时什么优点,因为它们都已经时效率最低的操作了.
### 8.2.2 有序线性表和二分法检索
具有合理内部结构的字典上有可能实现高效检索.

如果关键码取自一个`有序集合`(存在某种内在的序,例如整数的小于等于关系,字符串的字典序等),就可以按照关键码大小的顺序排列字典里的项(从小到大或从大到小).在数据项按序排列时,可以采用`二分法`实现快速检索.

In [2]:
def bisearch(lst, key):
    low, high = 0, len(lst)-1
    while low <= high:        # 范围内还要元素
        mid = low + (high - low) // 2
        if key == lst[mid].key:
            return lst[mid].value
        if key < lst[mid].key:
            high = mid - 1    # 在低半区继续
        else:
            low = mid + 1     # 在高半区继续