# 复合数据类型

* 列表
* 元组
* 字典
* 集合

## 列表

* 构建列表
* 访问列表元素
* 列表切片
* 修改列表元素
* 列表遍历
* 列表解析表达式
* 列表的特性

列表的操作灵活，用途广泛，是我们学习的重点。

学习要点：
* 如何访问列表元素
* 如何对列表元素进行各种操作

### 列表的构建

* 列表用于处理一系列数据，列表的元素可以修改。
* 列表使用方括号'['和']'作为定界符。
* list函数可以将一个对象强制转换为列表。

In [1]:
l1 = [1,2,3,4,5]; l2=[]; l3=['1','2','3'] # 列表元素可以是任何对象
type(l1),type(l2),type(l3)

(list, list, list)

In [2]:
l4=[1,'a',2,'b',3,'c'] # 列表元素不要求相同类型
type(l4)

list

In [3]:
l5=[l1,l2,l3,l4] # 列表元素不要求相同长度
type(l5)

list

In [4]:
print(l5)  # 可以看到l5是多个列表构成的列表

[[1, 2, 3, 4, 5], [], ['1', '2', '3'], [1, 'a', 2, 'b', 3, 'c']]


In [5]:
l6 = list()  # 空列表
l7 = list('3.1415926') # 将字符串转换为列表
l6,l7

([], ['3', '.', '1', '4', '1', '5', '9', '2', '6'])

## 列表的属性

列表的属性可以通过一系列内置函数来获取。

这些属性包括列表长度、最大值、最小值、和、是否全为True或部分为True等等。

In [6]:
len(l1), len(l2), len(l5)  # 获取列表长度，注意列表长度指的是顶层元素的个数

(5, 0, 4)

In [7]:
#print(max(l4))  # 使用max和min函数时，需要注意列表元素之间必须可比较
max(l1), max(l3) 

(5, '3')

In [8]:
min(l7), max(l7)  # 注意列表的最小元素并不是'1'

('.', '9')

In [2]:
max([1, 2, 3, 9], [4, 5, 8], [6])  # 对于嵌套列表的max值并非是简单的数值比较 比较的是第一个元素的大小

[6]

In [10]:
sum(l1)  # sum只能用于求算术和，如果有其他类型元素可能导致TypeError

15

In [11]:
l6 = [1 < 2, 3 < 4, 5 < 8, 9 > 10]
print(l6)
all(l6), any(l6)

[True, True, True, False]


(False, True)

In [12]:
print(l4)
print(l5)
all(l4), all(l5)

[1, 'a', 2, 'b', 3, 'c']
[[1, 2, 3, 4, 5], [], ['1', '2', '3'], [1, 'a', 2, 'b', 3, 'c']]


(True, False)

练习：
* 已知数值列表，如何判断列表元素是否都大于5？
* 已知字符串列表，如何判断列表中有一个以字母‘a’结尾？

In [13]:
x1 = [2, 3, 5, 7, 9, 6]
result = True
for i in x1:
    if i<= 5:
        result = False
        break
print(result)

False


In [14]:
x2 = ['Emma', 'Emily', 'Anna', 'Alice']
result = False
for i in x2:
    if i[-1] == 'a':
        result = True
        break
print(result)

True


有没有更简洁的办法来完成这样的任务呢？

In [4]:
x1 = [2,3,5,7,9,6]
all(i>=5 for i in x1)

False

In [5]:
x2 = ['Emma', 'Emily', 'Anna', 'Alice']
any(i[-1]=='a' for i in x2)

True

### 列表元素的访问

* 列表的元素使用对应的下标访问。
* 列表下标需要置于方括号中。
* 列表下标从0开始
* 若访问下标超过列表范围，则报错 'index out of range'

In [15]:
l8 = list('2.71828')
l8[0],l8[3]

('2', '1')

列表下标可以是负数。猜猜看，下标[-1]的含义是什么？

In [16]:
l8[-1], l8[-2]

('8', '2')

In [17]:
#l8[9]  # 下标越界 index out of range

### 列表切片

* 列表切片操作是从列表中选取若干元素。
* 列表切片第一个冒号':'前后数值为指定下标范围
* 若切片起始位置分别为i和j, 则实际切片包含i,不包含j.
* 切片操作第二个冒号后的数值为切片步长

In [18]:
import string
l9 = list(string.ascii_lowercase)
print(l9)
l9[:3],l9[2:5],l9[18:]

['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']


(['a', 'b', 'c'], ['c', 'd', 'e'], ['s', 't', 'u', 'v', 'w', 'x', 'y', 'z'])

在切片中使用冒号时，若start缺省，则默认为列表头0，若end缺省，则默认为列表尾。若冒号前后的序号都缺省，则代表的范围是什么？

In [19]:
print(l9[:])

['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']


使用切片操作时，默认步长为1。也可以指定步长为其他整数。

In [20]:
l9[:10:2], l9[::5]

(['a', 'c', 'e', 'g', 'i'], ['a', 'f', 'k', 'p', 'u', 'z'])

列表切片也可以反向遍历。

In [21]:
l9[6:1:-1]  # 注意切片的起始位置

['g', 'f', 'e', 'd', 'c']

如果我们要将当前的列表头尾反转，不使用函数，怎样处理比较便捷？

In [22]:
print(l9[::-1])

['z', 'y', 'x', 'w', 'v', 'u', 't', 's', 'r', 'q', 'p', 'o', 'n', 'm', 'l', 'k', 'j', 'i', 'h', 'g', 'f', 'e', 'd', 'c', 'b', 'a']


In [23]:
l9[20:50]  # 切片操作若起始位置超出下标范围，不会报错

['u', 'v', 'w', 'x', 'y', 'z']

练习：
* 已知列表中存放了评委的评分（从低到高排序），舍弃一个最高分和一个最低分，求平均分。
* 已知列表中存放了评委的评分（从低到高排序），舍弃两个最高分和两个最低分，求平均分。

In [11]:
scores = [65, 65, 68, 70, 75, 78, 80, 88, 88, 89, 95]
print(sum(scores[1:-1])/len(scores[1:-1]))
print(sum(scores[2:-2])/len(scores[2:-2]))

77.88888888888889
78.14285714285714


## 列表连接和重复

* 可以使用加号'+'将两个或多个列表连接成为更长的列表，此时加号为连接操作符。
* 可以使用乘号'\*'将列表进行重复，此时乘号为重复操作符。

In [25]:
[1, 3, 4] + [2, 5, 9]

[1, 3, 4, 2, 5, 9]

In [26]:
l1*2

[1, 2, 3, 4, 5, 1, 2, 3, 4, 5]

## 列表的成员关系操作

常用成员操作包括：判断元素是否在列表中，查找元素在列表中出现位置及次数。

In [27]:
print(l1); print(l3)
1 in l1, 3 in l3

[1, 2, 3, 4, 5]
['1', '2', '3']


(True, False)

In [28]:
6 not in l1, not 6 in l1

(True, True)

In [29]:
l1.count(3), l1.index(3)

(1, 2)

In [30]:
#l3.index(3)  # 对于不在列表中的元素，使用index进行查询时会报ValueError

In [31]:
print(l8)
l8.index('8')  # index返回需要查找子串的第一次出现

['2', '.', '7', '1', '8', '2', '8']


4

练习：
* 3的100次方中9出现了几次？
* 5的100次方中第一次出现3是在第几位，最后一次出现3是在第几位？

In [2]:
num = 3**100
l1 = list(str(num))
print("3的100次方中9出现了%d次" % l1.count('9'))

num2 = 5**100
l2 = list(str(num2))
print("5的100次方中第一次出现3在第%d位" % (l2.index('3')+1))
print("5的100次方中最后一次出现3在第%d位" % (len(l2) - l2[::-1].index('3')))

3的100次方中9出现了1次
5的100次方中第一次出现3在第39位
5的100次方中最后一次出现3在第62位


In [5]:
list(str(5**100))


['7',
 '8',
 '8',
 '8',
 '6',
 '0',
 '9',
 '0',
 '5',
 '2',
 '2',
 '1',
 '0',
 '1',
 '1',
 '8',
 '0',
 '5',
 '4',
 '1',
 '1',
 '7',
 '2',
 '8',
 '5',
 '6',
 '5',
 '2',
 '8',
 '2',
 '7',
 '8',
 '6',
 '2',
 '2',
 '9',
 '6',
 '7',
 '3',
 '2',
 '0',
 '6',
 '4',
 '3',
 '5',
 '1',
 '0',
 '9',
 '0',
 '2',
 '3',
 '0',
 '0',
 '4',
 '7',
 '7',
 '0',
 '2',
 '7',
 '8',
 '9',
 '3',
 '0',
 '6',
 '6',
 '4',
 '0',
 '6',
 '2',
 '5']

## 列表比较和排序

列表比较运算按顺序逐个比较各个列表中的对应元素，若比较当前元素之后已经可以确定大小关系，则不再比较剩余元素。

In [33]:
[1, 2, 3] < [2, 1]

True

In [34]:
[ ] < [1], [ ] < [0], [ ] < [-1]

(True, True, True)

In [35]:
[1, 2, -1] > [1, 2]

True

列表排序可以使用内置函数sorted实现。sorted函数的形式如下：

**sorted(iterable, key = None, reverse = False)**  

其中key表示排序关键值， reverse表示是否降序。默认按原值排序，升序排列。

In [36]:
exam = [78, 88, 60, 90, 52, 80, 72, 85]
print(sorted(exam))  # 默认按原值升序排列
print(exam)  # 原始列表未改变

[52, 60, 72, 78, 80, 85, 88, 90]
[78, 88, 60, 90, 52, 80, 72, 85]


In [37]:
l8 = list('2.71828')
print(l8)
print(sorted(l8))

['2', '.', '7', '1', '8', '2', '8']
['.', '1', '2', '2', '7', '8', '8']


In [38]:
print(sorted(l8, reverse = True))

['8', '8', '7', '2', '2', '1', '.']


In [39]:
l10 = ['this', 'is', 'not', 'the', 'only', 'case', 'that']  # 按长度排序
sorted(l10, key = len)

['is', 'not', 'the', 'this', 'only', 'case', 'that']

In [40]:
sorted(l10, key = lambda s: s[-1])  # 按尾字母排序

['the', 'case', 'this', 'is', 'not', 'that', 'only']

排序也可以使用列表对象的sort()方法。**注意如果这样做，列表对象本身被修改了！**

In [41]:
print(l10)
l10.sort()
print(l10)

['this', 'is', 'not', 'the', 'only', 'case', 'that']
['case', 'is', 'not', 'only', 'that', 'the', 'this']


练习：
* 已知列表元素均为两位数，将列表按照元素的个位和十位数之和大小排序。

In [4]:
exam = [78, 88, 60, 90, 52, 80, 72, 85]
print(sorted(exam,key=lambda s: s%10+s//10))

[60, 52, 80, 90, 72, 85, 78, 88]


In [10]:
exam = [78, 88, 60, 90, 52, 80, 72, 85]
print(sorted(exam,key=lambda s: abs(s%10-s//10)))

[88, 78, 52, 85, 72, 60, 80, 90]


### 列表元素的修改

* 使用列表下标指定元素之后进行修改
* 使用列表切片指定元素列表之后进行修改
* 使用列表方法增加和删除列表元素

* 修改单个列表元素

利用下标指定元素，为其赋新的值即修改了该下标对应的元素。

In [43]:
import string
l9 = list(string.ascii_lowercase)
print(l9)
l9[2] = 3
l9[-1] = 'end'
print(l9)

['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']
['a', 'b', 3, 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'end']


* 列表元素批量修改

使用列表切片指定列表元素范围，为其赋新值。

需要注意的是，列表切片赋值时，右端必须是可迭代对象或切片。

In [44]:
l9[2:6] = [3, 4]  # 注意不是将切片每个元素替换，而是整个切片替换为另一个列表
print(l9)

['a', 'b', 3, 4, 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'end']


In [45]:
l9[:10]=[]  # 将切片赋值为空列表，将删除对应元素
print(l9)

['m', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'end']


列表切片赋值操作后，列表长度可能不变，可能缩短，也可能变长。

In [46]:
l9[5:6] = [5] * 5

In [47]:
print(l9)

['m', 'n', 'o', 'p', 'q', 5, 5, 5, 5, 5, 's', 't', 'u', 'v', 'w', 'x', 'y', 'end']


列表切片操作是非常复杂的操作，在调试程序时一定要注意切片操作的下标是否符合预期。比如，以下的切片赋值语句都是合法的，但是可能与程序设计者的最初期望不一致。

注意：列表切片可以为空，不影响切片的赋值操作。

In [48]:
l8 = list('2.71828')
print(l8)
l8[10:2] = [3] * 3
print(l8)

['2', '.', '7', '1', '8', '2', '8']
['2', '.', '7', '1', '8', '2', '8', 3, 3, 3]


In [49]:
l8[20:20] = [5] * 3
print(l8)

['2', '.', '7', '1', '8', '2', '8', 3, 3, 3, 5, 5, 5]


In [50]:
l8[-20:3] = [6] * 3
print(l8)

[6, 6, 6, '1', '8', '2', '8', 3, 3, 3, 5, 5, 5]


In [51]:
l8[-20:-30] = [7] * 3
print(l8)

[7, 7, 7, 6, 6, 6, '1', '8', '2', '8', 3, 3, 3, 5, 5, 5]


注意：连续切片的处理与__不连续切片__的处理规则是不一样的。

In [52]:
l8 = list('2.71828')
print(l8)
l8[:3] = 'ab'  # 合法
print(l8)
#l8[::2] = 'cc'  # 不合法，赋值左右端长度不一致
l8[::2] = 'xyz'  # 合法
print(l8)

['2', '.', '7', '1', '8', '2', '8']
['a', 'b', '1', '8', '2', '8']
['x', 'b', 'y', '8', 'z', '8']


注意：切片赋值和列表下标赋值时，__右端对象的解释机制不同__。**列表下标赋值时，右端解释为单个对象，切片赋值时，右端解释为可迭代对象。**

In [53]:
l8 = list('2.71828')
print(l8)
l8[2] = 'abc'  # 字符串被解释为一个单变量
l8[-2:-1] = 'abc'  # 字符串被解释为一个序列
print(l8)

['2', '.', '7', '1', '8', '2', '8']
['2', '.', 'abc', '1', '8', 'a', 'b', 'c', '8']


* 用列表方法增加和删除列表元素。

In [54]:
l8 = list('2.71828')
print(l8)
l8.append('a') # 在列表尾部增加元素
print(l8)

['2', '.', '7', '1', '8', '2', '8']
['2', '.', '7', '1', '8', '2', '8', 'a']


In [55]:
l8.insert(1,'a')
print(l8)

['2', 'a', '.', '7', '1', '8', '2', '8', 'a']


In [56]:
del(l8[-1])  # 删除列表某个元素
print(l8)

['2', 'a', '.', '7', '1', '8', '2', '8']


其他列表操作函数

* clear 删除所有元素
* copy 复制列表
* extend 追加一个序列到列表尾部
* pop 移除并返回一个元素
* remove(x) 移除第一个出现的x
* reverse 列表反转
* sort 列表元素排序

为什么要使用列表复制？

当我们需要将数据进行备份，然后再对数据进行一些修改操作时，需要先将原有的列表进行拷贝。简单的将原列表复制给另一个变量并不能达到目标。

In [57]:
l0 = [1, 2, 3, 4, 5]
l1 = l0
l0[3] = 3**2
print(l0); print(l1)
id(l0), id(l1)

[1, 2, 3, 9, 5]
[1, 2, 3, 9, 5]


(92978696, 92978696)

In [58]:
l2 = l0[:]  # 使用列表切片进行复制
l0[4] = 4**2
print(l0); print(l2)
id(l0), id(l2)

[1, 2, 3, 9, 16]
[1, 2, 3, 9, 5]


(92978696, 93028424)

In [59]:
l3 = l0.copy()  # 使用copy函数进行复制
l0[1] = 'a'
print(l0); print(l3)
id(l0), id(l3)

[1, 'a', 3, 9, 16]
[1, 2, 3, 9, 16]


(92978696, 92123208)

### 列表解析表达式

列表解析式(list comprehension)对一个可迭代对象进行遍历，按照指定表达式计算，生成一个新的列表。列表解析式可以高效的对一个可迭代对象进行快速遍历计算，代码简洁高效。

In [60]:
[i**2 for i in range(10)]

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

列表解析式可以指定条件，筛选需要操作的对象。

In [61]:
[i for i in range(100) if i%3==1 and i%5==2]

[7, 22, 37, 52, 67, 82, 97]

列表解析式可以包含多个for循环。

In [62]:
[[x,y,x*y] for x in range(1,5) for y in range(1,5) if x<y]

[[1, 2, 2], [1, 3, 3], [1, 4, 4], [2, 3, 6], [2, 4, 8], [3, 4, 12]]

练习回顾：
* 已知数值列表，如何判断列表元素是否都大于5？
* 已知字符串列表，如何判断列表中有一个以字母‘a’结尾？

In [10]:
x1 = [2,3,5,7,9,6]
print(all(i>=5 for i in x1))
x2 = ['Emma', 'Emily', 'Anna', 'Alice']
print(any(i[-1]=='a' for i in x2))
 

False
True


### 列表的特性总结

* 列表是一个按序号存取的数据结构
* 列表的元素可以为任意对象
* 列表元素不要求同类型
* 列表的长度不需要预定义
* 列表的长度随着列表元素的增加和删除而改变

## 元组

元组与列表很相似，但**元组不能修改。**

In [63]:
t1 = (3, 2, 1)
print(t1[2])
type(t1)

1


tuple

In [64]:
t2 = tuple('abcde')
#t2[2] = 3  # 元组不可修改

注意：单个元素的元组表达形式

In [65]:
t3 = 1,
t4 = (1)
type(t3), type(t4)

(tuple, int)

In [66]:
string1 = 'h',
print(len(string1))  # 答案正确只是巧合
string2 = 'hello',
print(len(string2))

1
1


### 元组解包操作

可以利用元组的解包操作为多个变量便捷的赋值。

* 定长元组赋值

左端变量个数需与右端序列等长度，赋值时一一对应。若左右两端元素个数不一致，将导致错误。

In [67]:
a, b = (1, 2)
a, b

(1, 2)

In [68]:
# 若元组为嵌套元组，则赋值时左端也必须是相同结构
name, age, (math, english) = ('Ann', 18, (89, 85))
math

89

* 不定长元组赋值

可以使用**\*元组变量将多个值作为元组赋值给元组变量。**

\*元组变量只能出现一次。

In [11]:
first, *middles, last = range(10)
print(type(middles))
middles


<class 'list'>


[1, 2, 3, 4, 5, 6, 7, 8]

In [14]:
scores = [75, 76, 85, 90, 78, 88, 94, 81]
low, *middles, high = sorted(scores)
print(middles)
average = sum(middles)/len(middles)
average

[76, 78, 81, 85, 88, 90]


83.0

In [11]:
# 去掉两个最高分，两个最低分，如何重写上面的平均分计算过程
scores = [75, 76, 85, 90, 78, 88, 94, 81]
low,low2, *middles2, high2,high = sorted(scores)
print(sorted(scores)[2:-2])
average = sum(middles2)/len(middles2)
average

[78, 81, 85, 88]


83.0

## 字典
* 字典是由键-值对构成的数据结构。又称为关联数组或哈希表hash。
* 利用字典可以根据键快速的找到对应的值。
* 字典中的键没有重复。

In [72]:
# 创建一个字典
dic1 = {'apple':'red',
       'banana':'yellow',
       'pear':'white',
       'orange':'orange'}

In [73]:
dic1

{'apple': 'red', 'banana': 'yellow', 'orange': 'orange', 'pear': 'white'}

字典也可以使用dict()方法来创建。

In [74]:
dic2 = dict(math = 90, english = 80, physics =85)
dic2

{'english': 80, 'math': 90, 'physics': 85}

In [75]:
dic3 = dict(zip('abcdef',range(6)))  # 可以将zip想象为拉链
dic3

{'a': 0, 'b': 1, 'c': 2, 'd': 3, 'e': 4, 'f': 5}

In [76]:
dict()  # 建立一个空字典/集合

{}

### 在字典中查询键

In [77]:
'apple' in dic1, 'lemon' not in dic1

(True, True)

注意：**in 只能用来查询键，不能用来查询值。**

In [78]:
'orange' in dic1, 'red' in dic1

(True, False)

### 字典元素的访问和修改。
访问字典元素时，将字典的键作为索引，置于中括号中。

In [79]:
dic1['apple'], dic2['math'], dic3['c']

('red', 90, 2)

In [80]:
dic1['cherry'] = 'pink'
dic1

{'apple': 'red',
 'banana': 'yellow',
 'cherry': 'pink',
 'orange': 'orange',
 'pear': 'white'}

In [81]:
del(dic3['d'])
dic3

{'a': 0, 'b': 1, 'c': 2, 'e': 4, 'f': 5}

In [30]:
if '520' in str(3**100):
    print(True)


True


In [29]:
str = 'jack'
strnew = str + '$' + str
#print(strnew)
list = []
for i in range(4):
    list.append(strnew[i:i+5])
print(list)
del str

['jack$', 'ack$j', 'ck$ja', 'k$jac']


__字典的访问规则__：

* 使用 d[k] 形式访问时，若存在键k,则返回对应的值；若不存在键k，则导致错误KeyError
* 使用 d[k] = v 形式赋值时，若该键k已存在，则覆盖原值；若不存在该键k，则新增一个键，赋予新值。

In [82]:
print(dic1)
dic1['pear'] = 'yellow'
print(dic1)

{'apple': 'red', 'banana': 'yellow', 'pear': 'white', 'orange': 'orange', 'cherry': 'pink'}
{'apple': 'red', 'banana': 'yellow', 'pear': 'yellow', 'orange': 'orange', 'cherry': 'pink'}


练习：
* 给定字符串，统计每个字符出现的次数。
* 给定字符串，统计每个字符出现的位置列表。  

enumerate（）函数接受一个集合（例如元组），并将其作为枚举对象返回。  
enumerate（）函数添加一个计数器作为枚举对象的键。  

In [83]:
sent = 'Well, I do not mind telling you I have been at work upon this geometry of Four Dimensions for some time'

In [84]:
cnt = {}
for i,v in enumerate(sent.lower()):
    if v in cnt:
        cnt[v] += 1
    else:
        cnt[v] = 1
print(cnt)

{'w': 2, 'e': 10, 'l': 4, ',': 1, ' ': 20, 'i': 8, 'd': 3, 'o': 11, 'n': 7, 't': 6, 'm': 5, 'g': 2, 'y': 2, 'u': 3, 'h': 2, 'a': 2, 'v': 1, 'b': 1, 'r': 4, 'k': 1, 'p': 1, 's': 4, 'f': 3}


In [85]:
cnt['n'], cnt['t']

(7, 6)

In [86]:
places = {}
for i,v in enumerate(sent.lower()):
    if v in places:
        places[v].append(i)
    else:
        places[v] = [i]
print(places)

{'w': [0, 47], 'e': [1, 21, 37, 40, 41, 63, 66, 82, 97, 102], 'l': [2, 3, 22, 23], ',': [4], ' ': [5, 7, 10, 14, 19, 27, 31, 33, 38, 43, 46, 51, 56, 61, 70, 73, 78, 89, 93, 98], 'i': [6, 16, 24, 32, 59, 80, 85, 100], 'd': [8, 18, 79], 'o': [9, 12, 29, 48, 54, 64, 71, 75, 86, 91, 95], 'n': [11, 17, 25, 42, 55, 83, 87], 't': [13, 20, 45, 57, 67, 99], 'm': [15, 65, 81, 96, 101], 'g': [26, 62], 'y': [28, 69], 'u': [30, 52, 76], 'h': [34, 58], 'a': [35, 44], 'v': [36], 'b': [39], 'r': [49, 68, 77, 92], 'k': [50], 'p': [53], 's': [60, 84, 88, 94], 'f': [72, 74, 90]}


In [87]:
places['n'], places['t']

([11, 17, 25, 42, 55, 83, 87], [13, 20, 45, 57, 67, 99])

### 字典的遍历

In [88]:
for k in places:
    print('{0}:{1}'.format(k,places[k]))

w:[0, 47]
e:[1, 21, 37, 40, 41, 63, 66, 82, 97, 102]
l:[2, 3, 22, 23]
,:[4]
 :[5, 7, 10, 14, 19, 27, 31, 33, 38, 43, 46, 51, 56, 61, 70, 73, 78, 89, 93, 98]
i:[6, 16, 24, 32, 59, 80, 85, 100]
d:[8, 18, 79]
o:[9, 12, 29, 48, 54, 64, 71, 75, 86, 91, 95]
n:[11, 17, 25, 42, 55, 83, 87]
t:[13, 20, 45, 57, 67, 99]
m:[15, 65, 81, 96, 101]
g:[26, 62]
y:[28, 69]
u:[30, 52, 76]
h:[34, 58]
a:[35, 44]
v:[36]
b:[39]
r:[49, 68, 77, 92]
k:[50]
p:[53]
s:[60, 84, 88, 94]
f:[72, 74, 90]


字典中键、值的遍历也可以通过字典的以下视图对象实现：
* dict.keys() 返回字典键的列表
* dict.values() 返回字典值的列表
* dict.items() 返回键-值对的列表

In [89]:
for (k, v) in dic1.items():
    print(k, '->', v)

apple -> red
banana -> yellow
pear -> yellow
orange -> orange
cherry -> pink


In [90]:
print(cnt.keys())

dict_keys(['w', 'e', 'l', ',', ' ', 'i', 'd', 'o', 'n', 't', 'm', 'g', 'y', 'u', 'h', 'a', 'v', 'b', 'r', 'k', 'p', 's', 'f'])


练习：
* 已知一个由英文单词构成的字符串，查找由某个字母开头的单词列表。

In [91]:
sent2 = '''The Time Traveller smiled round at us.  Then, still smiling faintly,
and with his hands deep in his trousers pockets, he walked slowly
out of the room, and we heard his slippers shuffling down the long
passage to his laboratory.'''

In [92]:
words_1 = sent2.lower().split() # 切分成单词
words_2 = [i.strip(',.;:!\'\"?') for i in words_1]  # 去除单词前后符号

In [93]:
print(words_1)
print(words_2)

['the', 'time', 'traveller', 'smiled', 'round', 'at', 'us.', 'then,', 'still', 'smiling', 'faintly,', 'and', 'with', 'his', 'hands', 'deep', 'in', 'his', 'trousers', 'pockets,', 'he', 'walked', 'slowly', 'out', 'of', 'the', 'room,', 'and', 'we', 'heard', 'his', 'slippers', 'shuffling', 'down', 'the', 'long', 'passage', 'to', 'his', 'laboratory.']
['the', 'time', 'traveller', 'smiled', 'round', 'at', 'us', 'then', 'still', 'smiling', 'faintly', 'and', 'with', 'his', 'hands', 'deep', 'in', 'his', 'trousers', 'pockets', 'he', 'walked', 'slowly', 'out', 'of', 'the', 'room', 'and', 'we', 'heard', 'his', 'slippers', 'shuffling', 'down', 'the', 'long', 'passage', 'to', 'his', 'laboratory']


In [94]:
leading = {}
for w in words_2:
    letter0 = w[0]
    if letter0 in leading:
        if w not in leading[letter0]:
            leading[letter0].append(w)
    else:
        leading[letter0] = [w]

In [95]:
leading['t']

['the', 'time', 'traveller', 'then', 'trousers', 'to']

### 字典编程的注意事项

注意： **字典的键必须是可hash对象，如int/float/str等不可变对象。**但是，可变对象通常不是可hash对象，不能作为字典的键。字典的值没有要求。

In [96]:
hash(100), hash(3.14), hash('123')

(100, 322818021289917443, -989510251869451035)

In [97]:
hash(float('inf'))

314159

注意：在程序设计中，需要从字典中取出某个键值时，若该键不存在会导致KeyError，中断程序执行。为避免出现这样的问题，可以先检查该键是否存在，或者使用字典的get方法来获取键值。  
get函数原型：  
**dict.get(key, default=None)**

In [98]:
if 'cherry' in dic1:
    print(dic1['cherry'])

pink


In [99]:
dic1.get('cherry'), dic1.get('lemon')

('pink', None)

In [100]:
dic1.get('nobody', 'default_color')

'default_color'

## 集合及其操作

集合是不重复的元素构成的数据结构。

### 创建集合

可以使用花括号或者集合对象的构造方法创建集合。

In [101]:
s1 = {1, 2, 2, 3, 2, 5}
s1

{1, 2, 3, 5}

In [102]:
s2 = set([1, 1, 21, 37, 40, 41, 5, 2])
s2

{1, 2, 5, 21, 37, 40, 41}

In [103]:
# 注意：集合元素是无序的。所以无法使用下标索引访问
s3 = set(['apple', 'banana', 'cake','apple', 'lemon', 'juice'])
#s3[3]
s3

{'apple', 'banana', 'cake', 'juice', 'lemon'}

**集合元素是无序的，不能使用下标索引访问，访问顺序也不确定**

In [104]:
for i in s3:
    print(i, end= ',')  # 不要预测集合元素的遍历顺序

juice,cake,banana,lemon,apple,

### 集合的各种运算

In [105]:
s1 | s2, s1 & s2

({1, 2, 3, 5, 21, 37, 40, 41}, {1, 2, 5})

In [106]:
s1 - s2, s2 - s1

({3}, {21, 37, 40, 41})

In [107]:
s1 ^ s2

{3, 21, 37, 40, 41}

In [108]:
s1.intersection(s2), s1.union(s2)

({1, 2, 5}, {1, 2, 3, 5, 21, 37, 40, 41})

In [109]:
s3.intersection_update(s2)  # 类似_update方法会改变原集合对象
s3

set()

## 序列对象的通用操作

列表、元组、字符串、字节串都属于序列对象，可以使用一些通用的操作。

* 下标索引
* 切片
* 连接和重复
* 成员检测
* 比较
* 排序

In [110]:
first, second, *_, last = 'whatever'
print(first,second, last)

w h r


## 复合结构的通用操作

列表、字典、集合等可变数据结构

* 成员检测 in, not in
* 比较
* 长度len()
* 复制copy(), 清除clear()

* 解析表达式

列表、字典和集合都有解析表达式，可以对可迭代对象进行遍历，生成一个新的列表、字典或集合。

In [111]:
phrase = '复合结构的通用操作'
hash1 = {i:phrase[i] for i in range(len(phrase))}
hash2 = {phrase[i]:i for i in range(len(phrase))}
print(hash1)
print(hash2) # 注意这个字典的元素可能更少

{0: '复', 1: '合', 2: '结', 3: '构', 4: '的', 5: '通', 6: '用', 7: '操', 8: '作'}
{'复': 0, '合': 1, '结': 2, '构': 3, '的': 4, '通': 5, '用': 6, '操': 7, '作': 8}


# 复合数据的复制拷贝

* 浅拷贝--使用copy()可以实现

In [112]:
copy1 = [1, [2, 3, 4], [4, 5, 6,7]]
copy2 = copy1.copy()
copy3 = copy1[:]
id(copy1), id(copy2), id(copy3)  # different instances

(93165512, 93100424, 93121800)

In [113]:
copy1[0] = 'a'
print(copy1)  # changed
print(copy2)  # not changed
print(copy3)  # not changed

['a', [2, 3, 4], [4, 5, 6, 7]]
[1, [2, 3, 4], [4, 5, 6, 7]]
[1, [2, 3, 4], [4, 5, 6, 7]]


In [114]:
id(copy1[1]), id(copy2[1]), id(copy3[1])  # the same instance

(93119112, 93119112, 93119112)

In [115]:
copy2[1][0] = 'x'
print(copy1)  # changed
print(copy2)  # changed
print(copy3)  # changed

['a', ['x', 3, 4], [4, 5, 6, 7]]
[1, ['x', 3, 4], [4, 5, 6, 7]]
[1, ['x', 3, 4], [4, 5, 6, 7]]


* 深拷贝

In [116]:
import copy
copy3 = copy.deepcopy(copy1)
id(copy1[1]), id(copy3[1])  # different instances

(93119112, 93165704)

In [117]:
copy3[2][0] = 'y'
print(copy1)  # not changed
print(copy3)  # changed

['a', ['x', 3, 4], [4, 5, 6, 7]]
['a', ['x', 3, 4], ['y', 5, 6, 7]]
