## 3.1 数据结构和序列

元组、列表、字典、集合是一些最常用的序列类型；

### 3.1.1 元组

元组是一个长度固定、不可变的有序（排列的顺序）序列；创建元组的方法是在圆括号中使用逗号分隔值；在许多情况下，圆括号是可以省略的；

In [1]:
# empyt tuple
empty_tuple = ()
empty_tuple = tuple()

In [2]:
# one element tuple contains one element and a comma
one_element_tuple = (1,)

In [3]:
tup = (4,5,6)
tup

(4, 5, 6)

In [5]:
# omit parentheses
tup = 4,5,6

使用 `tuple` 对象将任何序列或者迭代器转换为元组

In [7]:
tuple([4,5,6])

(4, 5, 6)

In [8]:
tuple('string')

('s', 't', 'r', 'i', 'n', 'g')

元组使用方括号`[]`访问元素，索引从 `0` 开始；

In [9]:
tup[0]

4

In [12]:
# 通过更复杂的表达式创建元组，比如，嵌套元组
nested_tuple = ((1,2),(4,5))
nested_tuple

((1, 2), (4, 5))

In [1]:
# list 是可变的，但是转为元组后就不可变了
tup = tuple(['foo',1,True])
tup[1] = 3

TypeError: 'tuple' object does not support item assignment

In [14]:
# 元组本身是不可变的，但是元组元素可以是可变的
tup = ('foo',[1,2],1)
tup[1].append(3)
tup

('foo', [1, 2, 3], 1)

In [18]:
# 使用 `+` 连接两个元组，组成新元组
(4,None,'foo')+(6,0)+('bar',)

(4, None, 'foo', 6, 0, 'bar')

In [19]:
# 将一个元组乘以一个整数，具有连接多个副本的效果；
('foo','bar') * 4
#不会复制对象，只会复制其引用

('foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar')

#### 3.1.1.1 元组的拆包

In [22]:
# 将元组的元素分配给变量；
tup = (4,5,6)
a,b,c = tup
print(a,b,c)

4 5 6


In [23]:
# 拆包嵌套元组
tup = 4,5,(6,7)
a,b,(c,d) = tup
c

6

In [24]:
# 使用拆包可以方便的交换两个元素
# temp = a
# a = b
# b = temp
a,b = 1,2
b,a = a,b
print(a,b)

2 1


In [25]:
# 拆包的一个常见用途就是遍历元组的列表或者元组
seq = [(1,2,3),(4,5,6),(7,8,9)]
for a,b,c in seq:
    print(f'a={a},b={b},c={c}')

a=1,b=2,c=3
a=4,b=5,c=6
a=7,b=8,c=9


In [26]:
# 拆包的另一个常见用途是从函数返回多个值；

In [27]:
# 使用 *变量名 获取元组中的一部分数据;
tup = (1,2,3,4,5)
a,b,*rest = tup
rest
#这样用法也可以在函数签名中捕获任意长度的位置参数列表；

[3, 4, 5]

In [28]:
# _ 表示不想要的数据
a,b,*_= tup
a

1

#### 3.1.1.2 元组的方法

由于元组的内容和长度是不可变的，所以实例方法比较少；

In [29]:
# count() 用于计量某个数值在元组中出现的次数
tup = (1,2,3,4,5,5,5,5)
(tup.count(1),tup.count(5))

(1, 4)

In [32]:
# index() 找到某个元素在元组中的最左索引位置
tup = (1,2,3,4,5,5,5,5)
tup.index(5)

4

In [33]:
tup[::-1]

(5, 5, 5, 5, 4, 3, 2, 1)

### 3.1.2 列表

列表可以使用内建函数 `list()` 或者 方括号`[]` 创建;

In [2]:
a_list = [2,3,7,None]

In [3]:
tup = ['foo','bar','baz']

In [4]:
b_list = list(tup)

In [5]:
b_list

['foo', 'bar', 'baz']

In [6]:
b_list[1] = 'peekaboo'

In [7]:
b_list

['foo', 'peekaboo', 'baz']

列表与元组很多函数的用法是相似的；`list` 函数在数据处理中常用于将迭代器或者生成器转化为`list`;

In [8]:
gen = range(10)
gen

range(0, 10)

In [9]:
list(gen)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

#### 3.1.2.1 增加和移除元素

- `append()` 添加元素到列表末尾
- `insert()` 添加元素到指定位置

In [10]:
b_list.append('dwarf')

In [11]:
b_list

['foo', 'peekaboo', 'baz', 'dwarf']

In [12]:
b_list.insert(0,'red')

In [13]:
b_list

['red', 'foo', 'peekaboo', 'baz', 'dwarf']

> `insert` 与 `append` 相比，计算代价较高；因为在给定位置插入元素，首先要将其后元素后移以空出插入位置；如果想要在列表头部插入元素，可以探索一下双端队列——`collection.deque`

- `pop()` 是 `insert()` 的反操作，删除指定位置的元素，不指定位置，则删除最后一个元素；
- `remove()` 定位到第一个符合要求的值并删除它；

In [14]:
b_list.pop(2)
b_list

['red', 'foo', 'baz', 'dwarf']

In [15]:
b_list.append('foo')

In [16]:
b_list.remove('foo')

In [17]:
b_list

['red', 'baz', 'dwarf', 'foo']

使用 `in` 检查一个值是否在列表中；使用 `not in` 检查一个值是否不在列表中；

In [18]:
'dwarf' in b_list

True

In [20]:
'dwarf' not in b_list

False

> 与字典、集合相比，检查列表中是否包含一个值是非常缓慢的。这是因为要对列表进行线性扫描，而字典和集合则使用哈希表；

#### 3.1.2.2 连接和联合列表

与元组类似，两个列表可以使用 `+` 连接：

In [21]:
[4,None,'foo'] + [7,8,(2.3)]

[4, None, 'foo', 7, 8, 2.3]

还可以使用`extend()`方法向已定义的列表中添加多个元素：

In [22]:
x = [4,None,'foo']

In [23]:
x.extend([7,8,(2,3)])
x

[4, None, 'foo', 7, 8, (2, 3)]

> 使用 `extend()` 方法连接列表要比使用`+`连接要快得多；这是因为使用`+`连接会创建新对象并且还要复制对象；

#### 3.1.2.3 排序

使用`sort()` 方法对列表进行内部排序（无需新建一个对象）：

In [26]:
a = [3,1,2,7,5]

In [27]:
a.sort()
a

[1, 2, 3, 5, 7]

可以给`sort()` 方法指定一个生成排序值的函数，用于排序：

In [28]:
b = ['saw','small','six','he','foxes']

In [29]:
b.sort(key=len)
b

['he', 'saw', 'six', 'small', 'foxes']

#### 3.1.2.4 二分搜索和已排序列表的维护

内建的 `bisect` 模块实现了二分搜索和已排序列表的插值；`bisect.bisect` hi找到元素应当被插入的位置，并保持序列排序；而 `bisect.insort` 将元素插入到相应位置；

In [30]:
import bisect
c = [1,2,2,3,4,7]
bisect.bisect(c,2)

3

In [31]:
c

[1, 2, 2, 3, 4, 7]

In [32]:
bisect.insort(c,3)

In [33]:
c

[1, 2, 2, 3, 3, 4, 7]

> `bisect` 模块的函数不会检查列表是否已排序，因为这样做代价太大；对未排序的列表使用 `bisect` 的函数虽然不会报错，但可能导致不正确的结果！

#### 3.1.2.5 切片

使用切片可以对大多数的序列取子集；基本形式是：`seq[start:end]`;包含 `start`不包含`end`;

In [35]:
seq = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
seq[1:5]

[1, 2, 3, 4]

In [36]:
# 可以修改切片的值
seq[3:4] = [3,0]

In [37]:
seq

[0, 1, 2, 3, 0, 4, 5, 6, 7, 8, 9]

`start` 和 `end` 是可以省略的，省略后默认传入序列的起始或者结束位置；

In [40]:
seq[:5]

[0, 1, 2, 3, 0]

In [51]:
seq[3:]

[3, 0, 4, 5, 6, 7, 8, 9]

`start` 和 `end` 可以是正数也可以是负数：
- 负数 ——`-1`表示末位，`-len(seq)`表示首位；
- 正数 —— `len(seq)-1` 表示末位，`0` 表示首位；

In [42]:
seq[-4:]

[6, 7, 8, 9]

In [43]:
seq[-6:-2]

[4, 5, 6, 7]

切片还可以指定步长，在第二个冒号后面使用：

In [45]:
seq[::2]

[0, 2, 0, 5, 7, 9]

步长位`-1`可以实现列表的翻转；

In [46]:
seq[::-1]

[9, 8, 7, 6, 5, 4, 0, 3, 2, 1, 0]

![](./python切片示例.png)

### 3.1.3 内建序列函数 

#### 3.1.3.1 `enumerate`

`enumerate` 内建函数返回`(i, value)` 元组序列；其中，`i` 表示元素的索引，`value` 表示元素的值；

```
for i, value in enumerate(collection):
    # do something
```

可以通过`enumerate` 构建数据对索引的映射：

In [4]:
some_list =['foo','bar','baz']

In [7]:
mapping={}
for i, v in enumerate(some_list):
    mapping[v] = i

mapping

{'foo': 0, 'bar': 1, 'baz': 2}

#### 3.1.3.2 `sorted`

`sorted` 函数返回一个根据任意序列中的元素新建的已排序列表：`sorted`函数接收的参数与列表的 `sort`方法一致；

In [9]:
sorted([7,1,3,6,0,3,2])

[0, 1, 2, 3, 3, 6, 7]

In [11]:
sorted('horse race')

[' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']

#### 3.1.3.3 `zip` 

`zip` 将列表、元组或其他序列的元素配对，构建成一个新的元组组成的列表；`zip` 可以处理任意长度的序列，它生成的序列长度由最短的序列决定；

In [1]:
seq1 = ['foo','bar','baz']

In [2]:
seq2 = ['one','two','three']

In [12]:
list(zip(seq1,seq2))

[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

In [13]:
seq3 = [False,True]
list(zip(seq1,seq2,seq3))

[('foo', 'one', False), ('bar', 'two', True)]

`zip` 的使用场景是同时遍历多个序列，有时候会与`enumerate` 同时使用

In [15]:
for i, (a,b) in enumerate(zip(seq1,seq2)):
    print(f'{i}: {a}, {b}')

0: foo, one
1: bar, two
2: baz, three


给定一个已“配对”的序列，`zip`函数可以将序列拆分 —— 行转列

In [16]:
pitchers = [('Nolan', 'Ryan'),('Roger','Clemens'),('Schilling','Curt')]

In [17]:
first_name,last_name = zip(*pitchers)

In [18]:
first_name

('Nolan', 'Roger', 'Schilling')

In [19]:
last_name

('Ryan', 'Clemens', 'Curt')

#### 3.1.3.4 `reversed `

`reversed` 函数将序列的元素倒序排列：

In [20]:
list(reversed(range(10)))

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

> `reversed` 是一个生成器，因此如果没有实例化（例如使用list函数或进行for循环），它并不会产生一个倒序列表！

### 3.1.4 字典

`dict` （字典） 存储键值对；使用`{}`或者`dict()`函数创建；

In [21]:
empty_dict = {}

In [22]:
d1 = {'a':'some value','b':[1,2,3,4]}
d1

{'a': 'some value', 'b': [1, 2, 3, 4]}

使用方括号`[]` 访问、插入、修改字典元素；

In [23]:
# 插入元素
d1[7] = 'an integer'

In [24]:
# 访问元素
d1['b']

[1, 2, 3, 4]

In [25]:
# 修改元素
d1['a'] = 'modify the value'

In [26]:
d1

{'a': 'modify the value', 'b': [1, 2, 3, 4], 7: 'an integer'}

使用 `in` 检查字典中是否存在某个指定的 `key`

In [27]:
'b' in d1

True

使用 `del` 关键字或者 `pop()` 方法删除值，`pop()`方法会在删除的同时返回被删除的值，并删除键；

In [29]:
d1[5] = 'some value'
d1['dummy'] = 'another value'
d1

{'a': 'modify the value', 'b': [1, 2, 3, 4], 7: 'an integer', 5: 'some value'}

In [31]:
# 使用 del 删除值
del d1[5]
d1


{'a': 'modify the value',
 'b': [1, 2, 3, 4],
 7: 'an integer',
 'dummy': 'another value'}

In [32]:
# pop 删除指定元素
ret = d1.pop('dummy')
ret

'another value'

In [33]:
d1

{'a': 'modify the value', 'b': [1, 2, 3, 4], 7: 'an integer'}

In [34]:
# popitem 删除最后一个元素
ret = d1.popitem()
ret

(7, 'an integer')

In [35]:
d1

{'a': 'modify the value', 'b': [1, 2, 3, 4]}

`keys()` 和 `values` 方法分别返回键、值迭代器；`items()`方法返回键值元组的别表；

In [39]:
d1.items()

dict_items([('a', 'modify the value'), ('b', [1, 2, 3, 4])])

In [40]:
d1.keys()

dict_keys(['a', 'b'])

`update()` 方法可以合并两个字典；如果字典中存在重复键值，原有键值会被覆盖；

In [42]:
d1.update({'b':'foo','c':12})
d1

{'a': 'modify the value', 'b': 'foo', 'c': 12}

#### 3.1.4.1 从序列生成字典

`dict()` 函数可以接收一个 2-元组的列表，创建字典；

In [44]:
mapping = dict(zip(range(5),reversed(range(5))))

In [45]:
mapping

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

#### 3.1.4.2 默认值

字典的 `get(key,default)` 和 `pop(key,default)` 方法可以指定默认值，在字典中不存在指定键时，返回默认值；在未指定 `default` 参数时，`get()` 方法获取不存在的键会返回`None`,而`pop()` 则会抛出 `KeyError`异常；

In [50]:
a = d1.pop('d')
a

KeyError: 'd'

In [51]:
a = d1.pop('d','d')
a

'd'

如果字典中的值时列表，并且想给列表中添加值；如果字典中的这个列表在添加值之前还未创建，可以通过 `setdefault` 设置默认值；如果不存在，则使用默认值添加元素；

In [52]:
words = ['apple','bat','bar','actom','book']
by_letter = {}
for word in words:
    # 根据首字母进行分类
    letter = word[0]
    by_letter.setdefault(letter,[]).append(word)
by_letter

{'a': ['apple', 'actom'], 'b': ['bat', 'bar', 'book']}

内置 `collections` 模块的一个类 `defaultdict`,可以传递一个类型或者函数来为字典的每个槽生成默认值！

In [54]:
from collections import defaultdict
by_letter = defaultdict(list)
for word in words:
    by_letter[word[0]].append(word)
by_letter

defaultdict(list, {'a': ['apple', 'actom'], 'b': ['bat', 'bar', 'book']})

#### 3.1.4.3 有效的键类型

键必须时不可变对象；比如标量类型或者元组（元组元素必须也是不可变对象）；可以使用`hash()` 函数检查；如果要使用列表作为键，一种方式时将列表转为元组，条件是内部元素都是不可变的即可以哈希化；

In [55]:
hash('string')

8480243417226916217

In [56]:
hash((1,3,[1,3]))

TypeError: unhashable type: 'list'

  ### 3.1.5 `set`

集合是一种无序且元素唯一的容器。集合的创建方式有两种：`set()` 函数和 `{字面值集合}`

In [60]:
set([1,2,2,2,1,3,3,3])

{1, 2, 3}

In [61]:
{2,3,3,2,3,1,3,3}

{1, 2, 3}

- 添加单一元素使用`add()`方法；
- 添加多个元素使用`update()`方法；

In [66]:
st = set()
st.add('item1')
st.update(['item2','item3'])
st

{'item1', 'item2', 'item3'}

- 使用  `remove(item)` 方法删除指定元素，如果指定元素在集合中不存在，则抛出异常；
- 而使用`discard(item)` 删除元素不会抛出任何异常；
- 还可以使用 `pop()` 方法随机删除一个元素，并且可以返回删除的值；


In [70]:
st.remove('item1')

KeyError: 'item1'

In [68]:
st.discard('item4')
st

{'item2', 'item3'}

In [69]:
pop_item = st.pop()
pop_item

'item2'

集合支持数学集合运算，如并集、交集、差集和对称差集等；

![](./Python%E9%9B%86%E5%90%88%E6%93%8D%E4%BD%9C.png)
![](./Python%E9%9B%86%E5%90%88%E6%93%8D%E4%BD%9C%EF%BC%88%E7%BB%AD%EF%BC%89.png)

In [72]:
a = {1,2,3,4,5}
b = {3,4,5,6,7,8,9}

In [73]:
# 并集
a.union(b)

{1, 2, 3, 4, 5, 6, 7, 8, 9}

In [78]:
# 并集
a | b

{1, 2, 3, 4, 5, 6, 7, 8, 9}

In [80]:
# 将操作结果赋值给左边变量
c = a.copy()
c.update(b)
# c |= b
c

{1, 2, 3, 4, 5, 6, 7, 8, 9}

In [76]:
# 交集
a.intersection(b)

{3, 4, 5}

In [77]:
# 交集
a & b

{3, 4, 5}

In [82]:
# 交集
d = a.copy()
d.intersection_update(b)
#d &= b
d

{3, 4, 5}

集合中的元素必须是不可变的。类似于字典的键；

还可以检查一个集合是否是另一个集合的子集（包含在）或者超集（包含所有元素；

In [85]:
a_set= {1,2,3,4,5}
{1,2,3}.issubset(a_set)

True

In [86]:
a_set.issuperset({1,2,3})

True

### 3.1.6 列表、集合和字典的推导式

列表推导式的基本形式为：
```
[expr for val in collection if condition]
```
等价形式：
```
result = []
for val in colletion:
    if condition:
        result.append(expr)
```

In [87]:
strings = ['a','as','bat','car','dove','python']
[x.upper() for x in strings if len(x) > 2]

['BAT', 'CAR', 'DOVE', 'PYTHON']

集合和字典的推导式是列表推导式的自然扩展。字典的推导式形式为：
```
dict_comp = {key-expr:value-expr for value in collection if condition}
```
集合的推导式只是把列表推导式的中括号改成大括号：
```
set_comp = {expr for value in collection if condition}
```

In [88]:
# 集合推导式
unique_lengths = {len(s) for s in strings}
unique_lengths

{1, 2, 3, 4, 6}

也可以使用高阶函数`map()`，表达更简洁：

In [89]:
# map 高阶函数
set(map(len,strings))

{1, 2, 3, 4, 6}

In [90]:
# 字典推导式
loc_mapping = {val:index for index,val in enumerate(strings)}
loc_mapping

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

#### 3.1.6.1 嵌套列表推导式

对多维列表的遍历；

In [95]:
all_data = [['John','Emily','Michael','Mary','Steven'],['Maria','Juan','Javier','Natalia','Pilar']]
# 获取包含 2个以上 e字母的名字
# 普通遍历
names_of_interest =[]
for names in all_data:
    enough_es = [name for name in names if name.count('e')>=2]
    names_of_interest.extend(enough_es)
names_of_interest

['Steven']

In [99]:
# 列表推导式
[name for names in all_data for name in names if name.count('e') >= 2 ]

['Steven']

In [102]:
# 将含有整数元组的列表扁平化为一个简单的整数列表
some_tuples = [(1,2,3),(4,5,6),(7,8,9)]
flattenen = [x for tup in some_tuples for x in tup]
flattenen

[1, 2, 3, 4, 5, 6, 7, 8, 9]

列表生成式的 `for` 循环时根据嵌套的顺序排列的，所有过滤条件都放在最后；当然，你也可以使用嵌套列表推导式，但是超过两到三层可读性就会变得很差；

In [97]:
# 嵌套列表推导式
[[name for name in names] for names in all_data]

[['John', 'Emily', 'Michael', 'Mary', 'Steven'],
 ['Maria', 'Juan', 'Javier', 'Natalia', 'Pilar']]