本章介绍另一种内置类型:字典。字典是 Python 最好的语言特性之一，它是很多高效而优雅的算法的基本构建块。

## 字典是一种映射

**字典** 类似于列表，但更加通用。在列表中，下表必须是整数；而在字典中，下标几乎可以是任意类型。

In [3]:
dic = {'a':1, 'b':2, 'c':3}
print(dic)

{'a': 1, 'b': 2, 'c': 3}


字典包含下标集合和值集合，字典中的下标也成为**键(key)**。每个键都与一个**值(value)**关联。键和值之间的关联被称为**键值对(key-value-pair)**，或者有时称为一**项(item)**。

在上面的例子中，我们创立了一个字典，其中包含三项，冒号前的部分为键，冒号后的部分为值，每两项之间用逗号分隔。

用数学语言来描述，字典体现了键到值的**映射(mapping)**，所谓映射，是一个集合中的每个元素与另一个集合中的元素所产生的关联。我们可以说，每个键"映射"到一个值。

作为示例，我们构建一个字典，将英语单词映射到汉语中，所以键和值的类型都是字符串。

函数 `dict` 新建一个不包含任何项的字典

In [4]:
eng2cn = dict()
print(eng2cn)

{}


花括号表示一个空的字典，若想要给字典添加新项，可以使用方括号操作符:

In [5]:
eng2cn['one'] = '一'

这一行代码创建一个新项，将键 `'one'` 映射到值 `'一'` 上。如果我们再次打印这个字典，可以看到一个键值对，以冒号分隔:

In [6]:
print(eng2cn)

{'one': '一'}


这种输出格式也是输入的格式，我们按照这种格式创建一个包含三项的字典:

In [11]:
eng2cn = {'one':'一','two':'二','three':'三'}
print(eng2cn)

{'one': '一', 'two': '二', 'three': '三'}


需要注意的是，字典中键值对的顺序可能并不相同，虽然我这里输出是按顺序输出，不过不同的电脑输出的可能是另一个不同的结果。

不过，字典中的元素并不使用整数下标进行查找。相对地，它使用键来查找对应的值:

In [14]:
eng2cn['two']

'二'

如果一个键不在字典之中，会得到一个异常:

In [17]:
eng2cn['four']

KeyError: 'four'

`len` 函数也可以用在字典上，它返回键值对的数量:

In [16]:
len(eng2cn)

3

`in` 操作符也可以用在字典上，它告诉你一个值是不是字典中的键(是字典中的值则不算)

In [18]:
'one' in eng2cn

True

In [19]:
'一' in eng2cn

False

若要查看一个值是不是出现在字典的值中，可以使用方法`values`，它会返回一个值集合，并可以应用 `in` 操作符:

In [20]:
vals = eng2cn.values()
'一' in vals

True

`in` 操作符对列表和字典使用不同的算法实现。对于列表，它按顺序搜索列表的元素。当列表变长时，搜索时间会随之变长。

而对于字典，Python 使用一个称为 **散列表** 的算法，不管字典中有多少项，`in` 操作符花费的时间都差不多。

## 使用字典作为计数器集合

假设给定一个字符串，若想计算每个字母出现的次数，有几种可能的实现方法:

* 可以创建26个变量，每个变量对应字母表上的一个字母。接着遍历字符串，对每一个字符，增加对应的计数器。可能需要使用一个链式条件判断。
* 可以创建一个包含26个元素的列表。接着可以将每个字符转换为一个数字(使用内置函数`ord`),使用这个数字作为列表的下标，并增加对应的计数器。
* 可以建立一个字典，以字符作为键，以计数器作为相应的值。第一次遇到某个字符时，在字典中添加对应的项。之后可以增加一个已经存在的项的值。

这几种方案进行相同的计算，但实现计算的方式不一样。

**实现(implementation)** 是进行某种计算的一个具体方式。有的实现比其他的更好。例如，字典实现的优势之一是我们并不需要预先知道字符串中可能会出现哪些字母，因而只需为真正出现过的字母分配空间。

实现代码如下:

In [1]:
def histogram(s):
    d = dict()
    for c in s:
        if c not in d:
            d[c] = 1
        else:
            d[c] += 1
    return d

这个函数的名称是**直方图(histogram)**,它是一个统计学术语，表示一个计数器(或者说频率)的集合。

函数第一行创建一个空的字典。 `for` 循环遍历字符串。每次迭代中，如果字符 `c` 不在字典中，我们就创建一个新项，其键是 `c`，其初始化为1。如果 `c` 已经在字典之中，我们增加 `d[c]`。

函数使用方式如下:

In [2]:
h = histogram('brontosaurus')
print(h)

{'b': 1, 'r': 2, 'o': 2, 'n': 1, 't': 1, 's': 2, 'a': 1, 'u': 2}


这个直方图显示，字母 `a` 和 `b` 出现了一次，`o` 出现了两次，依此类推。

字典有一个方法`get`，接收一个键以及一个默认值。如果键出现在字典中，`get` 返回对应的值，否则返回默认值。例如:

In [3]:
h = histogram('a')
print(h)

{'a': 1}


In [6]:
h.get('a',0)

1

In [5]:
h.get('b',0)

0

## 循环和字典

如果在 `for` 循环中使用字典，会遍历字典的键。例如，下面的函数 `print_hist` 函数打印字典的每一个键以及对应的值:

In [7]:
def print_hist(h):
    for c in h:
        print(c,h[c])

函数输出如下:

In [8]:
h = histogram('parrot')
print_hist(h)

p 1
a 1
r 2
o 1
t 1


同样地，键的出现没有特定的顺序。要按顺序遍历所有键，可以使用内置函数 `sorted`:

In [9]:
for key in sorted(h):
    print(key,h[key])

a 1
o 1
p 1
r 2
t 1


## 反向查找

给定一个字典 `d` 和键 `k`，找到对应的值 `v = d[k]` 非常容易。这个操作称为**查找**。

但有时我们只有 `v`，而需要找到 `k`。这时有两个问题需要摆在面前:
* 可能存在多个键映射到同一个值`v`上。随不同的应用场景，也许可以挑其中一个，也许需要建立一个列表来保存所有的键
* 并没有可以进行 **反向查找** 的简单语法

下面的函数接收一个值，并返回映射到该值的第一个键:

In [10]:
def reverse_lookup(d,v):
    for k in d:
        if d[k] == v:
            return k
    raise LookupError()

这个函数是搜素模式的又一个示例。但它使用了一个我们还没见过的语言特性， `raise` 语句。 **`raise` 语句** 会生成一个异常; 在这个例子里，它生成一个 `LookupError`，这是一个内置异常，通常用来表示查找操作失败。

如果我们到达了循环的结尾，就意味着 `v` 在字典中没有作为值出现过，所以我们抛出一个异常。

下面我们展示一个成功的反向查找:

In [11]:
h = histogram('parrot')
k = reverse_lookup(h,2)
print(k)

r


再展示一个不成功的反向查找:

In [12]:
k = reverse_lookup(h,3)

LookupError: 

当你自己抛出异常时，效果和 Python 抛出异常是一样的: 它会打印出一个回溯和一个错误信息。

`raise` 语句也可以接收一个可选的参数用来详细描述错误，例如:

In [13]:
def reverse_lookup(d,v):
    for k in d:
        if d[k] == v:
            return k
    raise LookupError('值不在所找的字典中')

In [15]:
h = histogram('parrot')
k = reverse_lookup(h,3)

LookupError: 值不在所找的字典中

反向查找远远慢于正向查找; 如果频繁这么做，或者字典非常大时，会得程序的性能有很大影响。

## 字典和列表

列表可以在字典中以值的形式出现。例如，如果遇到一个将字母映射到频率的字典，可能会想要反转它; 也就是说，建立一个字典，将频率映射到字母上。因为可能出现多个字母频率相同的情况，在反转的字典中，每项的值应当是字母的列表。

下面的函数 `invert_dict` 是一个反转字典的函数:

In [16]:
def invert_dict(d):
    inverse = dict()
    for key in d:
        val = d[key]
        if val not in inverse:
            inverse[val] = [key]
        else :
            inverse[val].append(key)
    return inverse

每次循环中，`key` 从 `d` 中获得一个键，而 `val` 获得相应的值。如果 `val` 不在 `inverse` 字典中，意味着我们还没有见到过它，所以新建一个项，并将它初始化为一个**单件**(singleton,即只包含一个元素的列表)。否则我们已经见过这个值了，因此将相应的键附加到列表末尾。

下面是一个示例:

In [18]:
hist = histogram('parrot')
print(hist)

{'p': 1, 'a': 1, 'r': 2, 'o': 1, 't': 1}


In [20]:
inverse = invert_dict(hist)
print(inverse)

{1: ['p', 'a', 'o', 't'], 2: ['r']}


列表可以用作字典的值，但它们不能用作键。尝试如下;

In [21]:
t = [1,2,3]
d = dict()
d[t] = 'oops'

TypeError: unhashable type: 'list'

这是因为字典是通过散列表（hashtable) 的方式实现的，因此键必须是**可散列**的，是不可变的。

**散列**是一个函数，接收(任意类型)的值并返回一个整数称为。字典使用这些被散列值的整数来保存和查找键值对。

另外，因为字典是可变的，它也不能用作键，但它可以用作字典的值。

## 备忘

之前我们讲过 `fibonacci` 函数

In [22]:
def fibonacci(n):
    if n==0:
        return 0
    elif n==1:
        return 1
    else:
        return fibonacci(n-1) + fibonacci(n-2)

该函数提供的参数越大，函数运行的时间越长，并且运行时间增长很快。

为了更好的理解，给出 `fibonocci` 函数 `n=4` 时的 **调用图**

<img src='figures/调用图11-1.jpg'>

调用图显示了一组函数帧，并用箭头将函数的帧和它调用的函数帧连接起来。在图的顶端，`n=4` 的 `fibonacci` 调用了 `n=3` 和 `n=2` 的 `fibonacci`。同样地，`n=3` 的 `fibonacci` 调用了 `n=2` 和 `n=1` 的`fibonacci`。依此类推。

数一下 `fibonacci(0)` 和 `fibonacci(1)` 被调用了多少次。这是本问题的一个很低效的解决方案，而且当参数变大时，事情会变得更糟。

一个解决办法是记录已经计算过的值，并将它们保存在一个字典中。将之前计算的值保存起来以便后面使用的方法称为**备忘(memo)**。下面给出一个使用了备忘的 `fibonacci` 版本:

In [1]:
known ={0:0,1:1}

def fibonacci(n):
    if n in known:
        return known[n]
    res = fibonacci(n-1)+fibonacci(n-2)
    known = res
    return res

`known` 是一个用来记录我们已知的 `Fabonacci` 数的字典。开始时它有两项:`0` 映射到 `0`，`1` 映射到 `1`。

每当 `fibonacci` 被调用时，它会先检查 `known`。如果结果已经存在，则可以立刻返回。如果不存在，它需要计算这个新值，并将其添加进字典，并返回。

如果运行 `fibonacci` 的这个版本，并将其与原始版本进行比较，会发现，这个版本快得多。

## 全局变量

在前一个例子中，`known` 是函数之外创建的，所以它属于被称为 `__main__` 的特殊帧。`__main__` 之中的变量有时被称为**全局**变量，因为它们可以在任意函数中访问。和局部变量在函数结束消失不同，全局变量可以在不同函数的调用之间持久存在。

全局变量常常用作**标志(flag)**; 它是一种布尔变量，可以标志一个条件是否为真。例如，有的函数使用一个叫 `verbose` 的标志来控制输出的详细程度:

In [2]:
verbose = True

def example1():
    if verbose:
        print('Running example1')

如果我们尝试给全局变量重新赋值，可能会感到惊讶。下面例子的本意是想记录函数是否有被调用过:

In [3]:
been_called = False

def example2():
    been_called = True

但我们运行它时，会发现 `been_called` 的值并不会变化。问题在于函数 `example2` 会新建一个局部变量 `been_called`。局部变量在函数结束时就会消失，并且对全局变量没有任何影响。

要想在函数中给全局变量重新赋值，需要在使用它之前**声明**这个全局变量:

In [4]:
been_called = False

def example2():
    global been_called
    been_called = True

`globle` 语句告诉编译器，“在这个函数里，当我说 `been_called` 时，指的是全局变量; 不要新建一个局部变量。”

下面给出一个尝试更新全局变量的例子:

In [5]:
count = 0

def example3():
    count = count + 1

运行该函数,会产生下列错误:

In [7]:
example3()

UnboundLocalError: local variable 'count' referenced before assignment

`Python` 会假设 `count` 是局部的，在这种假定下你在写入它之前先读取了。解决方案也是声明 `count` 为全局变量。

In [8]:
def example3():
    global count
    count += 1

如果全局变量指向的是可变的值，可以不用声明该变量就可以修改该值:

In [9]:
known = {0:0,1:1}

def example4():
    known[2] = 1

所以可以添加、删除和替换一个全局的列表或字典的元素，但如果想要给全局变量重新赋值，则需要声明它:

In [10]:
def example5():
    global known
    known = dict()

全局变量很有用，但如果使用太多，并且频繁修改，可能会让代码比较难调试。

## 调试

在使用更大的数据集时，通过打印和手动检查输出的方式来调试已经变得很笨拙了。下面是一些调试大数据集的建议:

###  缩小输入

如果可能，减小数据集的尺寸。例如，程序如果读入文本文件，可以从开头10行开始，或者使用你能找到的最小样本。你可以编辑文件本身，或者修改程序只让它读入前 *n* 行

如果出现了错误，可以调小 *n*，小到足够展现出错误的最低程度，并在修改之后逐渐增大 *n*。

### 检查概要信息和类型

与其打印和检查整个数据集，可以考虑打印出数据的概要信息: 例如，字典中条目的数量，或者一个列表中数的和。

运行时错误的一个常见原因是某个值的类型不对。调试这种错误时，常常只需要打印出值的类型就足够了。

### 编写自检查逻辑

哟时候可以写代码自动检查错误。例如，如果你要计算一系列数的平均值，可以检查结果是否比列表中最大的数小，或者比最小的数大。这种检查称为"健全检查"(sanity check)，因为它会发现那些"发疯"的结果。

另一种检查可以对比两种不同的计算的结果，查看它们是否一致。这样的检查称为"一致性检查"。

### 格式化输出

格式化调试输出，可以更容易发现错误。我们之前在6.9节中已经看到过一个例子。`pprint` 模块提供了一个 `pprint` 函数，可以将内置类型的值以更人性化的可读的格式打印出来。(`pprint` 代表"pretty print")

另外，再提醒一次，花费时间构建脚手架代码，可以减少未来进行调试的时间。