## 内置序列类型概览

Python标准库用C实现了丰富的序列类型，列举如下：。

1. 容器序列
   - list, tuple和collections.deque这些序列能存放不同类型的数据。
2. 扁平序列
   - str, bytes, btearray, memoryview和array.array，这些序列只能容纳一种类型。

> **容器序列存放的是它们所包含的任意类型的对象的引用**，而**扁平序列存放的是值而不是引用，即扁平序列其实是一段连续的内存空间**。索引扁平序列更加紧凑，但是它里面只能存放字符、字节和数值这种基础类型。

序列还能按照能否被修改来分类。

1. 可变序列
   - list, bytearray, array.array, collections.deque和memoryview
2. 可变序列
   - tuple, str和bytes



## 列表推导式

列表(list)是一个可变序列，并且能同时存放不同类型的元素。列表推导式(list comprehension)是一种构建列表的方法，它异常强大。

列表推导式的作用只有一个：**生成列表**。

In [1]:
# ex2-1 把一个字符串编程Unicode码位的列表
symbols = 'αβζΠ'
codes = []
for symbol in symbols:
    codes.append(ord(symbol))
codes

[945, 946, 950, 928]

In [2]:
# ex2-2 列表推导式写法
symbols = 'αβζΠ'
codes = [ord(symbol) for symbol in symbols]
codes

[945, 946, 950, 928]

In [3]:
# ex2-3 列表推导式和filter/map比较
symbols = 'αβζΠ'
beyond_ascii = [ord(s) for s in symbols if ord(s) > 945]
beyond_ascii

[946, 950]

In [7]:
# beyond_ascii = list(filter(lambda c: ord(c)>945, symbols))  # ['β', 'ζ']
beyond_ascii = list(filter(lambda x: x>945, map(ord, symbols)))
beyond_ascii

[946, 950]

In [8]:
# ex2-4 使用列表推导式计算笛卡尔积
colors = ['black', 'white']
sizes = ['S', 'M', 'L']
tshirts = [(color, size) for color in colors for size in sizes]
tshirts

[('black', 'S'),
 ('black', 'M'),
 ('black', 'L'),
 ('white', 'S'),
 ('white', 'M'),
 ('white', 'L')]

## 生成器表达式(generator expressions)

生成器表达式遵守了迭代器协议，可以逐个产出元素，而不是先建立一个完整的列表，然后再把这个列表传递到某个构造函数里。

生成器表达式的语法跟列表推导差不多，只不过把方括号换成圆括号而已。

In [20]:
# ex2-5 用生成器表达式初始化元组和数组
symbols = 'αβζΠ'
tuple(ord(symbol) for symbol in symbols)    # 当生成器表达式是一个函数的唯一参数时，不需要额外再用括号把它围起来

(945, 946, 950, 928)

In [21]:
import array
array.array('I', (ord(symbol) for symbol in symbols))   # array构造方法需要两个参数，所以括号时必须的，第一个参数指定了数组中数字的存储方式。

array('I', [945, 946, 950, 928])

In [22]:
# 生成器表达式会逐个产生元素
colors = ['black', 'white']
sizes = ['S', 'M', 'L']
for tshirt in (f'{c} {s}' for c in colors for s in sizes):
    print(tshirt)

black S
black M
black L
white S
white M
white L


## 2.3 元组不仅仅是不可变的列表

元组其实是对数据的记录：元组中的每个元素都存放了记录中一个字段的数据，外加字段的位置。正是这个位置信息给数据赋予了意义。

In [1]:
# ex2-7 把元组用作记录
lax_coordinates = (33.9425, -118.408056)
city, year, pop, chg, area = ('Tokyo', 2003, 32450, 0.66, 8014)
traveler_ids = [('USA', '31195855'), ('BRA', 'CE342567'), ('ESP', 'XDA205856')]
for passport in sorted(traveler_ids):
    print('%s/%s' % passport)

BRA/CE342567
ESP/XDA205856
USA/31195855


In [2]:
for country, _, in traveler_ids:
    print(country)

USA
BRA
ESP


In [1]:
lax_coordinates = (33.9425, -118.408056)
lat, long = lax_coordinates
lat, long

(33.9425, -118.408056)

In [2]:
# 不使用中间变量交换交换两个变量的值
a, b = 10, 20
a, b = b, a
a, b

(20, 10)

In [3]:
# *运算符把一个可迭代对象拆分开作为函数的参数
divmod(20, 8) # (2, 4)
t = (20, 8)
divmod(*t)

(2, 4)

In [5]:
quotient, remainder = divmod(*t)
quotient, remainder

(2, 4)

In [7]:
# 对不感兴趣的，使用_占位符处理
import os
_, filename = os.path.split('./README.md')
filename

'README.md'

In [8]:
# 用*来处理剩下的元素
a, b, *rest = range(5)
a, b, rest

(0, 1, [2, 3, 4])

### 具名元组

`collections.namedtuple`，可以构建一个带字段名的元组和一个有名字的类。

创建一个具名元组需要两个参数，一个类名，另一个是类的各字段的名字。后者可以是由数个字符组成的可迭代对象，或者是由空格分隔开的字段名组成的字符串。

In [9]:
import collections
City = collections.namedtuple('City', 'name country population coordinates')
tokyo = City('Tokyo', 'JP', '36.933', (35, 139))
tokyo

City(name='Tokyo', country='JP', population='36.933', coordinates=(35, 139))

In [10]:
tokyo.population

'36.933'

In [11]:
tokyo.coordinates

(35, 139)

In [12]:
tokyo[1]

'JP'

具名元组还有一些自己的专有的属性。例如：_fields类属性, 类方法_make(iterable)和实例方法_asdict()

- `_fields`属性是一个包含这个类所有字段名称的元组
- `_make()`通过接受一个可迭代对象来生成这个类的一个实例，它的作用跟`City(*delhi_data)`是一样的。
- `_asdict()`把具名元组以`collections.OrderedDict`的形式返回

In [14]:
City._fields

('name', 'country', 'population', 'coordinates')

In [15]:
LatLong = collections.namedtuple('LatLong', 'lat long')
delhi_data = ('Delhi NCR', 'IN', 21.935, LatLong(28, 77))
delhi = City._make(delhi_data)
delhi._asdict()

{'name': 'Delhi NCR',
 'country': 'IN',
 'population': 21.935,
 'coordinates': LatLong(lat=28, long=77)}

In [16]:
for key, value in delhi._asdict().items():
    print(key + ':', value)

name: Delhi NCR
country: IN
population: 21.935
coordinates: LatLong(lat=28, long=77)


## 2.4 切片

### 2.4.1 切片和区间会忽略最后一个元素

- 当只有最后一个位置信息时，可以快速看出切片和区间里有几个元素：如range(3), my_list[:3]都返回3个元素
- 当起止位置信息都可见时，可以快速计算出区间切片和区间的长度，用后一个数减去第一个下标(stop-start)即可
- 可以利用任意一个下标把序列分割成不重叠的两部分，如my_list[:3], my_list[3:]

### 2.4.2 对对象进行切片

可以用`s[a:b:c]`的形式对s在a和b之间以c为间隔取值。c还可以为负数，表示反向取值。

In [17]:
s = 'bicycle'
s[::3], s[::-1], s[::-2]

('bye', 'elcycib', 'eccb')

a:b:这种用法只能作为索引或者下标用在[]中来返回一个切片对象：slice(a, b, c)。

seq[start:stop:step]进行求值的时候，Python会调用seq.__getitem__(slice(start, stop, step))。

### 2.4.4 给切片赋值

如果把切片放在赋值语句的左边，或者把它作为del操作的对象，就可以对序列进行嫁接、切除或就地修改操作。

In [23]:
l = list(range(10))
l

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [24]:
l[2:5] = [20, 30]
l

[0, 1, 20, 30, 5, 6, 7, 8, 9]

In [25]:
del l[5:7]
l

[0, 1, 20, 30, 5, 8, 9]

In [26]:
l[3::2] = [11, 22]
l

[0, 1, 20, 11, 5, 22, 9]

In [27]:
l[2:5] = 100

TypeError: can only assign an iterable

In [28]:
# 如果赋值的对象是一个切片，那么赋值语句的右侧必须是个可迭代对象。即便只有单独一个值，也要把它转换乘可迭代的序列
l[2:5] = [100]
l

[0, 1, 100, 22, 9]

## 2.5 对序列使用+和*

Python程序默认序列是支持+和*操作的。

- 通常+号两侧的序列由相同类型的数据所构成，在拼接的过程中，两个被操作的序列都不会被修改，Python会新建一个包含同样类型数据的序列来作为拼接的结果。
- 把一个学历乘以以一个整数可以把序列复制几分然后再拼接起来

In [29]:
l = [1, 2, 3]
l * 5

[1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3]

In [30]:
5 * 'abcd'

'abcdabcdabcdabcdabcd'

如果在a*n这个语句中，序列a里的元素是对其他可变对象的引用的话，需要格外注意。

如果`l = [[]] * 3`来初始化以初始化一个由列表组成的列表，但是列表里包含的3个元素是3个引用，而且3个引用都指向的是同一个列表。

In [31]:
board = [['-'] * 3 for i in range(3)]
board

[['-', '-', '-'], ['-', '-', '-'], ['-', '-', '-']]

In [32]:
board[1][2] = 'X'
board

[['-', '-', '-'], ['-', '-', 'X'], ['-', '-', '-']]

In [33]:
# 含有3个指向同一个对象的引用的列表是毫无用处的
weird_board = [['-'] * 3] * 3
weird_board

[['-', '-', '-'], ['-', '-', '-'], ['-', '-', '-']]

In [34]:
weird_board[1][2] = '0'
weird_board

[['-', '-', '0'], ['-', '-', '0'], ['-', '-', '0']]

## 2.6 序列的增量赋值

增量赋值运算符+=和*=的表现取决于它们的第一个操作对象。

+=背后的特殊方法是`__iadd__`方法(用于“就地加法”)。如果一个类没有实现这个方法的话，Python就会调用`__add__`。
```python
a += b
```

- 如果a实现了`__iadd__`方法，就会调用这个方法，同时对可变序列(list, bytearray, array.array)来说，a就会就地改动，就像调用`a.extend(b)`一样。
- 如果a没有实现，a+=b表达式的效果就变得和a=a+b一样。首先计算a+b得到一个新的对象，然后赋值给a。

In [35]:
l = [1, 2, 3]
print(l, id(l))
l *= 2
print(l, id(l))
t = (1, 2, 3)
print(t, id(t))
t *= 2
print(t, id(t))

[1, 2, 3] 1583723724928
[1, 2, 3, 1, 2, 3] 1583723724928
(1, 2, 3) 1583740841728
(1, 2, 3, 1, 2, 3) 1583740387488


一个关于+=的谜题

In [36]:
t = (1, 2, [30, 40])
# t是元组不可变，而其中元素列表可变，结果会报错，但t被修改
print(t, id(t))
t[2] += [50, 60]
print(t, id(t))

(1, 2, [30, 40]) 1583740894400


TypeError: 'tuple' object does not support item assignment

In [37]:
# 通过t[2].extend([50, 60])可以避免报错
t

(1, 2, [30, 40, 50, 60])

## 2.7 list.sort方法和内置函数sorted

- list.sort方法会就地排序列表，也就是说不会把原列表复制一份。其返回值为None，按时该方法不会创建一个新的列表。
- 内置函数sorted，会新建一个列表作为返回值，该方法可以接受任何形式的可迭代对象作为参数，甚至包括不可变序列或生成器。不管接受的参数是什么，其最后的返回都是一个列表。
- list.sort()和sorted()都有两个可选的关键字参数
- reverse：默认值为False，设定为True时，被排序的序列里的元素会以降序输出
- key：指定排序规则的函数。例如，在对一些字符串排序时，可以用key=str.lower来实现忽略大小写的排序，或者是用key=len进行基于字符串长度的排序。默认为恒等函数，即根据元素本身值进行排序。

In [38]:
fruits = ['grape', 'raspberry', 'apple', 'banana']
sorted(fruits)

['apple', 'banana', 'grape', 'raspberry']

In [39]:
fruits

['grape', 'raspberry', 'apple', 'banana']

In [40]:
sorted(fruits, key=len, reverse=True)

['raspberry', 'banana', 'grape', 'apple']

In [41]:
fruits.sort() # 就地排序
fruits

['apple', 'banana', 'grape', 'raspberry']

## 2.8 用bisect来管理已排序的序列

bisect模块包含两个主要函数，bisect和insort，两个函数都利用二分查找算法在有序序列中查找或插入元素。

### 2.8.1 用bisect来搜索

bisect(haystack, needle)在haystack里搜索needle的位置，该位置满足的条件是，把needle插入这个位置之后，haystack还能保持升序。也就是说这个函数返回的位置前面的值，都小于或等于needle的值。

haystack必须是一个有序的序列。

可以先用bisect(haystack, needle)查找位置index,再用haystack.insert(index, needle)来插入新值。也可以用insort来一步到位，后者速度更快。

In [44]:
import bisect

HAYSTACK = [1, 4, 5, 6, 8, 12, 15, 20, 21, 23, 26, 29, 30]
NEEDLES = [0, 1, 2, 5, 8, 10, 22, 23, 29, 30, 31]

ROW_FMT = '{0:2d} @ {1:2d}    {2}{0:<2d}'

def demo(bisect_fn):
    for needle in reversed(NEEDLES):
        position = bisect_fn(HAYSTACK, needle)
        offset = position * '  |'
        print(ROW_FMT.format(needle, position, offset))

In [45]:
print('haystack ->', ' '.join(f'{n:2d}' for n in HAYSTACK))
demo(bisect.bisect)

haystack ->  1  4  5  6  8 12 15 20 21 23 26 29 30
31 @ 13      |  |  |  |  |  |  |  |  |  |  |  |  |31
30 @ 13      |  |  |  |  |  |  |  |  |  |  |  |  |30
29 @ 12      |  |  |  |  |  |  |  |  |  |  |  |29
23 @ 10      |  |  |  |  |  |  |  |  |  |23
22 @  9      |  |  |  |  |  |  |  |  |22
10 @  5      |  |  |  |  |10
 8 @  5      |  |  |  |  |8 
 5 @  3      |  |  |5 
 2 @  1      |2 
 1 @  1      |1 
 0 @  0    0 


bisect的表现可以从两个方面调整

- 两个可选参数——lo和hi来缩小搜寻的范围。lo的默认值是0，hi的默认值是序列的长度，即len()作用于该序列的返回值。
- bisect函数其实是bisect_right函数的别名，后者还有一个姊妹函数叫bisect_left。它们区别在于，bisect_left返回的插入位置是原序列中跟被插入元素相等的元素的前面。bisect则是后面。

In [46]:
print('haystack ->', ' '.join(f'{n:2d}' for n in HAYSTACK))
demo(bisect.bisect_left)

haystack ->  1  4  5  6  8 12 15 20 21 23 26 29 30
31 @ 13      |  |  |  |  |  |  |  |  |  |  |  |  |31
30 @ 12      |  |  |  |  |  |  |  |  |  |  |  |30
29 @ 11      |  |  |  |  |  |  |  |  |  |  |29
23 @  9      |  |  |  |  |  |  |  |  |23
22 @  9      |  |  |  |  |  |  |  |  |22
10 @  5      |  |  |  |  |10
 8 @  4      |  |  |  |8 
 5 @  2      |  |5 
 2 @  1      |2 
 1 @  0    1 
 0 @  0    0 


In [47]:
# ex2-18 根据一个分数，找到它所对应的成绩
def grade(score, breakpoints=[60, 70, 80, 90], grades='FDCBA'):
    index = bisect.bisect_left(breakpoints, score)
    return grades[index]

In [48]:
for i in (grade(score) for score in [33, 99, 77, 70, 89, 90, 100]):
    print(i)

F
A
C
D
B
B
A


### 2.8.2 用bisect.insort插入新元素

bisect.insort(seq, item)把变量item插入到序列seq中，并能保持seq的升序顺序

In [49]:
import random

SIZE = 7
random.seed(1729)
my_list = []
for _ in range(SIZE):
    item = random.randrange(SIZE*2)
    bisect.insort(my_list, item)
    print(f'{item:2d} ->', my_list)

10 -> [10]
 0 -> [0, 10]
 6 -> [0, 6, 10]
 8 -> [0, 6, 8, 10]
 7 -> [0, 6, 7, 8, 10]
 2 -> [0, 2, 6, 7, 8, 10]
10 -> [0, 2, 6, 7, 8, 10, 10]


## 2.9 当列表不是首选时

> 如果操作中包含操作(比如检查一个元素是否出现在一个集合中)的频率很高，用set集合会更合适，set专为检查元素是否存在做过优化。但是set不是序列，因为其是无序的。

### 2。9.1 数组

如果需要一个只包含数组的列表，那么array.array比list更高效。数组支持所有跟可变序列有关的操作，包括.pop, .insert, .extend。另外，数组还提供了文件读取和存入文件的更快的方法，如.frombytes, .tofilie。

创建数组需要一个类型码，表示在底层C语言存放怎样的数据类型。比如b类型码表示有符号的字符(signed char)，因此array('b')创建出的数组就只能存放一个字节大小的整数，范围从-128到+127，当序列很大时能节省很多空间。而且Python不允许在数组里存放除指定类型之外的数据。

In [50]:
# ex2-20 一个浮点型数组的创建、存入文件和从文件读取的过程
from array import array
from random import random
floats = array('d', (random() for _ in range(10**7)))
print(floats[-1])
fp = open('floats.bin', 'wb')
floats.tofile(fp)
fp.close()

floats2 = array('d')
fp = open('floats.bin', 'rb')
floats2.fromfile(fp, 10**7)
fp.close()
print(floats2[-1])

0.5963321947530882
0.5963321947530882


In [51]:
floats == floats2

True

In [52]:
floats.typecode

'd'