# 第十一章 字典

## 11.1 字典是一种映射

字典类似于列表，但更加**通用**。<br>
通用体现在：在列表中，下标必须是整数；而在字典中，下标几乎可以是任何类型。<br>
字典包含键集合和值集合。每个键都与一个值关联。键和值之间的关联称为**键值对(key-value pair)**，或者有时称为一**项(item)**。<br>
用数学语言来描述，字典体现了键到值的**映射**，所以可以说每个键“映射”到一个值。<br><br>

构建一个字典，将英语单词映射到西班牙语上。首先创建一个空的字典。

In [2]:
eng2sp = dict()
eng2sp

{}

给字典添加新项，可以使用方括号操作符：

In [3]:
eng2sp['one']='uno'
eng2sp

{'one': 'uno'}

创建一个包含3项的新字典，并打印：

In [4]:
eng2sp = {'one':'uno','two':'dos','three':'tres'}
eng2sp

{'one': 'uno', 'two': 'dos', 'three': 'tres'}

字典的元素不像列表那样用整数下标进行查找，而是使用键来查找对应的值：

In [5]:
eng2sp['two']

'dos'

In [6]:
len(eng2sp)    # 内置函数len()同样也可以用于字典，返回字典中键值对的数量

3

In [7]:
'one' in eng2sp,'uno' in eng2sp  # in操作符同样也可以用于字典，判断是不是字典的键。注意！判断的不是值

(True, False)

若要查看一个值是不是出现在字典的值中，可以使用方法values，返回一个值集合，然后再应用in操作符进行判断：

In [8]:
vals = eng2sp.values()
vals,'uno' in vals

(dict_values(['uno', 'dos', 'tres']), True)

Tip：in操作符对列表和字典使用不同的算法实现。<br>
>对于列表，按**顺序**搜索列表的元素，所以当列表的长度变长时，搜索时间也会随之变长。<br>
>对于字典，使用**散列表(hash table)**进行查找,所以不管字典有多少项，搜索时间都是差不多的。

## 11.2 使用字典作为计数器集合
给定一个字符串，计算每个字母出现的次数，有几种可能的实现方式：<br>
1. 创建26个变量，每个变量对应字母表上的一个字母。接着遍历字符串，对每一个字符，增加对应的计数器，可能需要一个链式条件判断。
2. 创建一个包含26个元素的列表，将每个字符转换为一个数字（使用内置函数ord）,使用这个数字作为列表的下标，并增加对应的计数器。
3. 建立一个字典，以字符作为键，以计数器作为相对应的值。第一次遇到某个字符时，在字典中添加相对应的项，之后增加对应已经存在项的值。

**实现(implementation)** 是进行某种计算的一个具体方式:
字典实现的优势之一是我们并不需要预先知道字符串中可能出现哪些字母，只需要为真正出现过的字母分配空间。

In [9]:
def histogram(s):
    d = dict()
    for letter in s:
        if letter not in d:
            d[letter] = 1
        else:
            d[letter] += 1
    return d

In [10]:
h = histogram('brontosaurus')
h

{'b': 1, 'r': 2, 'o': 2, 'n': 1, 't': 1, 's': 2, 'a': 1, 'u': 2}

字典有一个方法get,接收一个键和一个默认值。<br>
如果键出现在字典中，get返回对应的值；否则返回默认值。

In [11]:
h = histogram('a')
h

{'a': 1}

In [12]:
h.get('a',0)

1

In [13]:
h.get('b',0)

0

In [14]:
h

{'a': 1}

作为练习，使用get和histogram写的更紧凑些，消除if语句。

In [15]:
def histogram(s):
    d = dict()
    for letter in s:
        d[letter]= d.get(letter,0) + 1
    return d

In [16]:
h = histogram('brontosaurus')
h

{'b': 1, 'r': 2, 'o': 2, 'n': 1, 't': 1, 's': 2, 'a': 1, 'u': 2}

## 11.3 循环和字典 

在for循环中使用字典，会遍历字典的键。

In [17]:
for key in h:
    print(key)

b
r
o
n
t
s
a
u


打印字典的每一个键和对应的值

In [18]:
def print_hist(d):
    for key in d:
        print(key,d[key])
        
print_hist(h)

b 1
r 2
o 2
n 1
t 1
s 2
a 1
u 2


# 11.4 反向查找
给定一个字典d和键k，找到对应的值v=d[k]非常容易。这个操作称为**查找(lookup)**。<br>
**反向查找**需要使用搜索。下面是一个函数，接收一个值，返回映射到该值的第一个键：

In [19]:
def reverse_lookup(d,v):
    for key in d:
        if d[key] == v: 
            return key
    raise LookupError()

成功的反向查找：

In [20]:
reverse_lookup(h,2)

'r'

不成功的反向查找：

In [21]:
reverse_lookup(h,3)

LookupError: 

**raise**语句也可以接收一个可选的参数用来详细描述错误：

In [24]:
raise LookupError('Value does not appear in the dictionary')

LookupError: Value does not appear in the dictionary

## 11.5 字典和列表 
列表在字典中以值的形式出现：<br> 
将上述字母映射到频率的字典反转，建立一个将频率映射到字母上的字典，因为可能出现多个字母频率相同的情况。<br> 
反转字典的函数:

In [27]:
def invert_dict(d):
    inverse = dict()
    for key in d:
        value = d[key]
        if value not in inverse:
            inverse[value]= [key]   # 
        else:
            inverse[value].append(key)
    return inverse

`inverse[value]= [key]`新建一个项，并将它初始化为一个**单件**（singleton，即只包含一个元素的列表）

In [25]:
hist = histogram('parrot')
hist

{'p': 1, 'a': 1, 'r': 2, 'o': 1, 't': 1}

In [26]:
inverse = invert_dict(hist)
inverse

{1: ['p', 'a', 'o', 't'], 2: ['r']}

![](https://www.greenteapress.com/thinkpython2/html/thinkpython2016.png '状态图')

列表可以作为字典中的值，但是不能作为字典的键：

In [28]:
t = [1,2,3]
d = dict()
d[t] = 'ops'

TypeError: unhashable type: 'list'

字典是通过散列表的方式实现的，意味着键必须是**可散列的（hashable）**。<br>
**散列**是一个函数，接收任意类型的值并返回一个整数。字典使用整数来保存和查找键值对。



键必须是可散列的，类似列表这样的可变类型是不可散列的，字典是可变的，所以也不能用作键，可以用作值。<br>
**可变类型不能用作键。因为键必须是可散列的。**

## 11.6 备忘
6.7节中的fibonacci函数，参数越大，函数运行时间越长，并且运行时间增长很快。<br>
下图为fibonacci函数n=4时的调用图：
![](https://www.greenteapress.com/thinkpython2/html/thinkpython2017.png)

用字典保存已经计算过的值，将之前计算的值保存起来以方便后面使用的方法称为**备忘（memo）**。<br>
使用memo的fibonacci函数：

In [34]:
known = {0:0,1:1}

def fibonacci(n):
    if n in known:
        return known[n]
    
    res = fibonacci(n-1) + fibonacci(n-2)
    known[n] = res
    
    return res

In [39]:
fibonacci(0),fibonacci(1),fibonacci(2),fibonacci(3),fibonacci(4),fibonacci(5),fibonacci(6),fibonacci(7)

(0, 1, 1, 2, 3, 5, 8, 13)

In [40]:
known

{0: 0, 1: 1, 2: 1, 3: 2, 4: 3, 5: 5, 6: 8, 7: 13}

## 11.7 全局变量
前一个例子中，known是在函数之外创建的，所以它属于被称为`__main__`的特殊帧。`__main__`之中的变量有时被称为全局变量，与之相对的是局部变量。
全局变量常常用作**标志（flag）**。比如下面这个例子，用来控制输出。

In [41]:
verbose = True

def example1():
    if verbose:
        print('Running example1')

尝试在函数中给全局变量重新赋值，会发现全局变量的值并不会发生变化。这是因为在函数example2中会新建一个局部变量been_called。局部变量在函数结束时会消失，对全局变量没有影响。

In [45]:
been_called = False

def example2():
    been_called = True # 在这里重新赋值并不会改变全局变量been_called的值

example2()
been_called

False

如果想在函数中给全局变量重新赋值，需要在赋值之前先**声明**这个全局变量：

In [46]:
been_called = False

def example2():
    global been_called
    been_called = True

example2()
been_called

True

如果全局变量指向的是可变的值，可以不用声明该变量就修改该值：

In [49]:
known ={0:0,1:1}

def example4():
    known[2] = 1
    
example4()
known

{0: 0, 1: 1, 2: 1}

可以添加、删除和替换一个全局的列表或字典的元素，但要给全局变量重新赋值，则需要声明：

In [50]:
def example5():
    global known
    known = dict()
    
example5()
known

{}

## 11.8 调试
## 11.9 术语表
- 映射（mapping）
- 字典（dictionary）
- 键值对（key-value pair）
- 项（item）
- 键（key）
- 值（value）
- 实现（implementation）
- 散列表（hashtable）
- 散列函数（hash function）
- 可散列（hashable）
- 查找（lookup）
- 反向查找（reverse lookup）
- raise语句
- 单件（singleton）：只包含一个元素的列表（或其他序列）
- 调用图（call graph）
- 备忘（memo）：将计算的结果存储起来，以避免将来进行不必要的计算。
- 全局变量（global variable）
- 全局语句（global statement）
- 标志（tag）
- 声明（declaration）