# 第2章 序列构成的数组

## 2.1 内置序列类型概览
容器序列

&emsp;list, tuple和collections.deque这些序列能存放不同类型的数据。

扁平序列

&emsp;str,bytes,bytearray,memoryview和array.array, 这类序列只能容纳一种类型。


## 2.2 列表推导和生成器表达式
列表推导是构建列表的快捷方式, 而生成器表达式则可以用来创建其他任何类型的序列。

### 2.2.1 列表推导和可读性
把字符串编程Unicode码位的列表

In [1]:
symbols = "abcd"

In [2]:
# 方法一
codes = []
for s in symbols:
    codes.append(ord(s))
    
codes

[97, 98, 99, 100]

In [3]:
# 方法二
codes = [ord(s) for s in symbols]
codes

[97, 98, 99, 100]

### 2.2.2 列表推导同filter和map的比较

In [4]:
#fliter和map
codes = list(filter(lambda c: c > 0, map(ord, symbols)))
codes

[97, 98, 99, 100]

### 2.2.3 笛卡尔积
用列表推导可以生成两个或以上的可迭代类型的笛卡尔积。

In [6]:
colors = ["black", "white"]
sizes = ["S", "M", "L"]
tshirts = [(color, size) for color in colors for size in sizes]
tshirts

[('black', 'S'),
 ('black', 'M'),
 ('black', 'L'),
 ('white', 'S'),
 ('white', 'M'),
 ('white', 'L')]

### 2.2.4 生成器表达式
一般列表推导作用只是用来生成列表, 如果想要生成其他类型的序列, 就可以用到生成器表达式。

生成器表达式是懒加载的。

生成器表达式的语法和列表表达式差不多, 只不过把方括号换成圆括号即可。

In [10]:
tuple(ord(s) for s in symbols)  # 如果生成器表达式是函数中唯一的参数, 那么就不需要再加那个圆括号了

(97, 98, 99, 100)

In [11]:
import array
array.array("I", (ord(s) for s in symbols))

array('I', [97, 98, 99, 100])

In [14]:
ge = ((c, s) for c in colors for s in sizes)
ge  # 懒加载

<generator object <genexpr> at 0x7fe9d3d1b5c8>

In [15]:
for c, s in ge:
    print(c, s)

black S
black M
black L
white S
white M
white L


## 2.3 元组不仅仅是不可变的列表
元组除了用作不可变的列表, 它还可以用作没有字段名的记录。

### 2.3.1 元组和记录
元组表示记录的时候, 每一个位置就相当于一个有明确意义的字段

### 2.3.2 元组拆包
元组的拆包可以用\*忽略多余的元素

In [31]:
lax_coordinates = (33.9, 118.2)
lat, lon = lax_coordinates
print(lat, lon)

33.9 118.2


In [34]:
t = (20, 8)
divmod(*t)  # 使用*将元组拆开成函数参数

(2, 4)

In [36]:
import os
filepath, filename = os.path.split("./home/lsl/a.txt")
print(filepath, filename)

./home/lsl a.txt


In [41]:
a, *rest, b = range(5)  # *的拆包作用
print(a, b, rest, sep="\n")

0
4
[1, 2, 3]


### 2.3.3 嵌套元组拆包

In [44]:
t = ("Tokyo", "JP", (35.6, 139.6))
cityname, country, (lat, lon) = t
print(cityname, country, lat, lon)

Tokyo JP 35.6 139.6


### 2.3.4 具名元组
collections.namedtuple

In [50]:
from collections import namedtuple
City = namedtuple("City", "name country population coordinates")
tokyo = City("Tokyo", "JP", 36.9, (35.6, 139.6))
tokyo  # 并不是使用__dict__储存key-value, 字段都是类属性, 所以实例比普通类小一点

City(name='Tokyo', country='JP', population=36.9, coordinates=(35.6, 139.6))

In [51]:
# 实例属性
tokyo._fields

('name', 'country', 'population', 'coordinates')

In [54]:
# 类方法
City._make(("Bazhong", "China", 400, (36.1, 110)))  # 这个类方法和直接构造一样

City(name='Bazhong', country='China', population=400, coordinates=(36.1, 110))

In [57]:
# 对象方法
tokyo._asdict()

OrderedDict([('name', 'Tokyo'),
             ('country', 'JP'),
             ('population', 36.9),
             ('coordinates', (35.6, 139.6))])

### 2.3.5 作为不可变列表的元组
这部分是大多教材在讲的

## 2.4 切片

### 2.4.1 为什么切片和区间会忽略最后一个元素
* 相互不重叠
* 快速计算区间长度

### 2.4.2 对对象进行切片

In [58]:
s = "bicycle"

In [60]:
s[::3]

'bye'

In [61]:
s[::-1]

'elcycib'

In [63]:
# 切片对象可以这样声明
UNIT_PRICE = slice(40, 52)
UNIT_PRICE

slice(40, 52, None)

### 2.4.3 多维切片和省略
这部分语法主要是外部库用的多点, 例如Numpy使用的多维切片就比较多, 而...就代表省略(ellipsis), 如果x是四维数组, x[i, ...] = x[x, :, :, :]


### 2.4.4 给切片赋值

In [65]:
l = list(range(10))
l

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [66]:
l[2:5] = [20, 30]
l # 长度可以直接减少一个

[0, 1, 20, 30, 5, 6, 7, 8, 9]

In [68]:
l[2:5] = 100  # 要想给切片赋值, 右边也必须是一个可迭代的对象

TypeError: can only assign an iterable

## 2.5 对序列使用+和*

In [69]:
l = [1, 2, 3]
5 * l

[1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3]

In [71]:
board = [["_"] * 3 for i in range(3)]
board

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]

In [72]:
# 尝试修改一下
board[1][2] = "X"
board

[['_', '_', '_'], ['_', '_', 'X'], ['_', '_', '_']]

In [74]:
weird_board = [["_"] * 3] * 3  # 这样写就是错误的
weird_board

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]

In [86]:
weird_board[1][2] = "X"
weird_board # 外面的列表包含了3个指向同一个地方的列表
# 上面的例子说明了*在进行拷贝的时候其实是一个浅拷贝

[['_', '_', 'X'], ['_', '_', 'X'], ['_', '_', 'X']]

## 2.6 序列的增量赋值
+=就相当于调用了\_\_iadd()\_\_, 其他的类似。如果一个类型实现了该方法, 那么就相当于a.extend(), 而如果没有实现的话就相当于a = a+b。

In [89]:
l = [1, 2, 3]
id(l)

140642236608264

In [91]:
l *= 3
id(l)  # list就实现了iadd()

140642236608264

In [92]:
t = (1, 2, 3)
id(t)

140642250137392

In [94]:
t *= 3
id(t)  # tuple没有实现iadd, 因为这是一个不可变的序列

140642239095384

注意: str是一个例外, 虽然str是一个不可变对象, 但是字符串的+=很普遍, 所以CPython对其进行了优化

In [95]:
# 下面演示一个奇怪的现象
t = (1, 2, [30, 40])
t[2] += [50, 60]

TypeError: 'tuple' object does not support item assignment

In [96]:
t  # 虽然抛出了异常, 但是还是执行了

(1, 2, [30, 40, 50, 60])

## 2.7 list.sort方法和内置函数sorted
list.sort函数会就地排序, sorted则会返回一个新的列表

## 2.8 用bisect来管理自己排序的序列
bisect模块主要包括两个主要的函数, bisect和insort, 两个函数都利用二分查找算法在有序序列中查找和插入元素。

### 2.8.1 用bisect来搜索

In [110]:
import bisect
HAYSTACK = [1, 4, 5, 6, 8, 12, 15]
needle = 5
bisect.bisect(HAYSTACK, needle)  # 这是bisect_right

3

### 2.8.2 用bisect.insort插入新元素
排序很耗时, 所以排好序之后, 我们不希望插入新元素破坏原有顺序

In [112]:
bisect.insort(HAYSTACK, 5)

In [113]:
HAYSTACK

[1, 4, 5, 5, 6, 8, 12, 15]

## 2.9 当列表不是首选时
虽然列表既简单又灵活, 但是面对各种需求的时候, 例如我们要存放1000万个浮点数的话,数组(array)的效率要高很多, 因为数组的背后存的并不是float对象, 而是数字的字节表述。而如果需要频繁对序列进行先进先出的操作,deque的速度会更快。

### 2.9.1 数组
数组支持可变序列的pop, insert和extend操作, 此外它还支持从文件中读取和存入的更快方法frombytes和tofile

In [114]:
from array import array
from random import random

In [115]:
floats = array("d", [random() for i in range(10**7)])  # 创建1kw个浮点数

In [116]:
floats[-1]

0.4086899913313964

In [117]:
with open("floats.bin", "wb") as fp:
    c.tofile(fp)

In [128]:
# 从Python3.4开始array不再支持list.sort这种就地排序
floats[0]

0.12456491699933836

In [130]:
floats.sort()

AttributeError: 'array.array' object has no attribute 'sort'

In [132]:
a = array(floats.typecode, sorted(floats))  # 因为sorted只是返回列表, 所以需要再给a构造为array

### 2.9.2 内存视图
memoryview是一个内置类, 他可以让用户不复制内存的情况下操作同一个数组的不同切片。

In [133]:
numbers = array("h", [-2, -1, 0, 1, 2])

In [134]:
memv = memoryview(numbers)

In [136]:
memv

<memory at 0x7fe9d3b67e88>

In [137]:
len(memv)

5

In [138]:
memv_oct = memv.cast("B")
memv_oct.tolist()

[254, 255, 255, 255, 0, 0, 1, 0, 2, 0]

In [139]:
memv_oct[5] = 4

In [140]:
numbers

array('h', [-2, -1, 1024, 1, 2])

### 2.9.3 Numpy和Scipy
这部分略过

### 2.9.4 双向队列和其他形式的队列
deque是一个线程安全的双端队列

In [141]:
from collections import deque

In [143]:
dq = deque(range(10), maxlen = 10)
dq

deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [144]:
dq.rotate(3)
dq

deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6])

In [145]:
dq.appendleft(-1)
dq

deque([-1, 7, 8, 9, 0, 1, 2, 3, 4, 5])