Python继承了ABC用统一的风格处理序列数据这一特点，支持迭代、切片、排序和拼接。
## 2.1 内置序列类型概览
* 容器类型 - 存放不同类型的数据，存放的是引用\
list, tuple and collections.deque
* 扁平序列 - 容纳一种类型的数据，存放的是值而非引用，扁平序列是一段连续的内存空间。\
str, bytes, bytearray, memoryview and array.array


* 可变序列MutableSequence - list, bytearray, array.array, collections.deque and memoryview.
* 不可变序列Sequence - tuple, str and bytes.\
ABC(Abstract Base Class, 抽象基类)\
内置的序列类型不是从MutableSequence和Sequence两个ABC继承来的。

## 2.2 列表推导和生成器表达式
list comprehension(listcomps) 构建列表\
generator expression(genexps) 生成各种类型的元素以填充序列
### 2.2.1 列表推导式和可读性
一般只用列表推导式来创建新的列表，如果列表推导式太复杂，比如超过两行，就可以考虑用for循环了。

In [5]:
# chr函数/ ord函数
code = ord('a')
symbol = chr(code)
print(code)
print(symbol)

97
a


In [6]:
# for 循环
symbols = '$^&*g@'
codes = []
for symbol in symbols:
    codes.append(ord(symbol))
print(codes)

# list comprehension
codes = [ord(symbol) for symbol in symbols]
print(codes)

[36, 94, 38, 42, 103, 64]
[36, 94, 38, 42, 103, 64]


列表推导式内部的变量和赋值有局部作用域。

In [1]:
x = 'test'
dummy = [x for x in 'ABC']
print(x, dummy)

test ['A', 'B', 'C']


### 2.2.2 列表推导同`filter`和`map`的比较
首先了解map。

In [8]:
symbols

'$^&*g@'

In [9]:
map(ord, symbols)

<map at 0x7fab3c3f27d0>

In [10]:
list(map(ord, symbols))

[36, 94, 38, 42, 103, 64]

In [13]:
list(filter(lambda c: c > 70, map(ord, symbols)))

[94, 103]

In [4]:
print(list(range(10)))
print(list(filter(lambda n: n%2==1, list(range(10)))))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[1, 3, 5, 7, 9]


用列表推导和map/filter组合来创建同样的表单。

In [12]:
# 用列表推导和map/filter组合来创建同样的表单
symbols = '#$%^&*~!'
beyond_ascii1 = [ord(s) for s in symbols if ord(s)>40]
beyond_ascii2 = list(filter(lambda c:c>40, map(ord, symbols)))
print(beyond_ascii1)
print(beyond_ascii2)

[94, 42, 126]
[94, 42, 126]


### 2.2.3 笛卡尔积
笛卡尔积是一个列表，其中元素为输入的可迭代类型的元素对组成的元组。

In [21]:
# 使用列表推导计算笛卡尔积
colors = ['black', 'white']
sizes = ['S', 'M', 'L']
tshirts1 = [(color, size) for color in colors for size in sizes]  # 先以颜色排列，再按尺寸排列
print(tshirts1)

# tshirts2 = [(size, color) for color in colors for size in sizes]  # 先以颜色排列，再按尺寸排列
tshirts2 = [(color, size) for size in sizes for color in colors]  # 先以尺寸排列，再按颜色排列
print(tshirts2)

[('black', 'S'), ('black', 'M'), ('black', 'L'), ('white', 'S'), ('white', 'M'), ('white', 'L')]
[('black', 'S'), ('white', 'S'), ('black', 'M'), ('white', 'M'), ('black', 'L'), ('white', 'L')]


### 2.2.4 生成器表达式
列表推导也可以初始化元组、数组或其他序列类型：先建立一个完整的列表，再把这个列表传递到某个构造函数。\
但生成器表达式是更好的选择，它遵循迭代器协议，可以逐个地产出元素，比起列表推导更节省内存，将列表推导的方括号换成圆括号即可。

In [1]:
# 用生成器表达式初始化元组
symbols = '#$%^&*~!'
tuple(ord(s) for s in symbols)
# 如果生成器表达式是一个函数的唯一参数，那么不需要用圆括号

(35, 36, 37, 94, 38, 42, 126, 33)

In [29]:
# 用生成器表达式初始化数组
import array
array.array('d', (ord(s) for s in symbols))  
# array() argument 1 must be a unicode character, not generator
# 该参数指定了数组中数字/元素的存储方式
# must be b, B, u, h, H, i, I, l, L, q, Q, f or d

array('d', [35.0, 36.0, 37.0, 94.0, 38.0, 42.0, 126.0, 33.0])

In [52]:
# array不只能存数字, 'u' - Unicode character
array.array('u', ['a','b','c'])

array('u', 'abc')

In [6]:
# 使用生成器表达式计算笛卡尔积
# 相比列表推导式，节省for循环的开销，即列表
colors = ['blue', 'yellow']
sizes = ['S', 'M', 'L']
for tshirt in ('%8s %3s' % (c,s) for c in colors for s in sizes):
    print(tshirt)

    blue   S
    blue   M
    blue   L
  yellow   S
  yellow   M
  yellow   L


## 2.3 元组不仅仅是不可变的列表
元组还可以用于没有字段名的记录，其中每个元素存放了记录中一个字段的数据，外加这个字段的位置。如果对元组进行排序，这些元素携带的位置信息就丢失了。
### 2.3.1 元组和记录

In [59]:
# 元组用作记录
lax_coordinates = (33.9425, -118.408056)
city, year, pop, chg, area = ('Tokyo', 2003, 32450, 0.66, 8014)  # 利用元组拆包
traveler_ids = [('USA', '31195855'), ('BRA', 'CE342567'), ('ESP', 'XDA205856')]  # 元组列表
for passport in sorted(traveler_ids):
    print('%s %s' % passport)
    
for country, _ in traveler_ids:  # for循环分别提取元组里的元素，叫做unpacking拆包
    print(country)

BRA CE342567
ESP XDA205856
USA 31195855
USA
BRA
ESP


### 2.3.2 元组拆包
元组拆包可以用到任何可迭代对象上，可以用`*`处理多余的元素。

In [62]:
# 平行赋值，把一个可迭代对象中的元素一并赋值到对应的变量组成的元组中。
lax_coordinates = (33.9425, -118.408056)
latitude, longitude = lax_coordinates
latitude, longitude  # 元组

(33.9425, -118.408056)

In [63]:
latitude

33.9425

In [65]:
# 不使用中间变量交换两个变量的值
a = 2
b = 3
a, b = b, a

In [68]:
# 使用*运算符把一个可迭代对象拆开作为函数的参数
print(divmod(20, 8))
t = (20, 8)
print(divmod(*t))
quotient, remainder = divmod(*t)
quotient, remainder

(2, 4)
(2, 4)


(2, 4)

In [69]:
# 让函数以元组的形式返回多个值, _作为占位符
import os
_, filename = os.path.split('/home/python/chapter2.txt')
filename

'chapter2.txt'

In [75]:
# 用*处理剩下的元素，函数用*args获取不确定数量的参数是一种经典写法
a, b, *rest = range(5)
print(a, b, rest)
print(a, b, *rest)

0 1 [2, 3, 4]
0 1 2 3 4


In [76]:
a, b, *rest = range(2)
a, b, rest

(0, 1, [])

In [77]:
# 平行赋值中，*只能出现在一个变量前面，但是该变量可以出现在赋值表达式的任意位置
a, *body, c, d = range(5)
print(a, body, c, d)

*head, b, c, d = range(5)
print(head, b, c, d)

0 [1, 2] 3 4
[0, 1] 2 3 4


### 2.3.3 嵌套结构元组拆包

In [82]:
scores = [
    ('Ming', 178, (135, 96)),
    ('Wu', 167, (45, 99)),
    ('Zhang', 175, (144, 125))
]

print('{:^9} | {:^9} | {:^9}'.format('Name', 'Math', 'Chinese'))
fmt = '{:^9} | {:^9} | {:^9}'

for name, height, (math, chinese) in scores:
    print(fmt.format(name, math, chinese))

  Name    |   Math    |  Chinese 
  Ming    |    135    |    96    
   Wu     |    45     |    99    
  Zhang   |    144    |    125   


在Python3之后，元组不再可以作为形参放在函数声明中，但是该变动对函数调用没有影响。
### 2.3.4 具名元组`namedtuple`

In [7]:
# 定义和使用具名元组
from collections import namedtuple
City = namedtuple('City', 'name country population coordinates')
# 第一个参数是类名，第二个是各个字段的名字，可以用数个字符串组成的可迭代对象，也可以是由空格分隔开的字段名组成的字符串
tokyo = City('Tokyo', 'JP', 36.933, (35.689722, 139.691667))
tokyo

City(name='Tokyo', country='JP', population=36.933, coordinates=(35.689722, 139.691667))

In [8]:
print(tokyo.name)
print(tokyo[0])

Tokyo
Tokyo


In [9]:
# 具名元组的属性和方法
City._fields

('name', 'country', 'population', 'coordinates')

In [10]:
LatLong = namedtuple('LatLong', 'lat long')
delhi_data = ('Delhi NCR', 'IN', 21.935, LatLong(28.613889, 77.208889))
delhi = City(*delhi_data)
# delhi = City._make(delhi_data)
delhi

City(name='Delhi NCR', country='IN', population=21.935, coordinates=LatLong(lat=28.613889, long=77.208889))

In [93]:
delhi._asdict()

OrderedDict([('name', 'Delhi NCR'),
             ('country', 'IN'),
             ('population', 21.935),
             ('coordinates', LatLong(lat=28.613889, long=77.208889))])

In [97]:
for key, value in delhi._asdict().items():
    print(key+':', value)

name: Delhi NCR
country: IN
population: 21.935
coordinates: LatLong(lat=28.613889, long=77.208889)


### 2.3.5 作为不可变列表的元组

In [142]:
l = [1,2,3,4,5]
t = (1,2,3,4,5)
# 拼接
print('拼接')
l2 = [2,3,4,5]
t2 = (2,3,4,5)
print(l+l2)
print(t+t2)

# 就地拼接
print('就地拼接')
l += l2
t += t2
print(l)
print(t)

# s是否包含e
print('s是否包含e')
print(1 in l)
print(1 in t)

# e在s中出现的次数
print('e在s中出现的次数')
print(l.count(2))
print(t.count(2))

# 索引
print('索引')
print(l[0])
print(t[0])

# 在s中找到e第一次出现的位置
print('在s中找到e第一次出现的位置')
print(l.index(2))
print(t.index(2))


拼接
[1, 2, 3, 4, 5, 2, 3, 4, 5]
(1, 2, 3, 4, 5, 2, 3, 4, 5)
就地拼接
[1, 2, 3, 4, 5, 2, 3, 4, 5]
(1, 2, 3, 4, 5, 2, 3, 4, 5)
s是否包含e
True
True
e在s中出现的次数
2
2
索引
1
1
在s中找到e第一次出现的位置
1
1


In [12]:
# 列表独有性质(不全)
l = [1,2,3,4,5]
t = (1,2,3,4,5)
# 在尾部添加新元素
l.append(6)

# 列表的浅复制，不改变原列表
print('列表的浅复制')
l_copy = l.copy()
print('l', l)
print('l_copy', l_copy)
l_copy.pop()
print('l', l)
print('l_copy', l_copy)

# 删除指定元素
print('删除')
print('l', l)
l.remove(2)
print('l', l)

# 把可迭代对象追加给s，可以是元组
print('把可迭代对象追加给s')
print('l', l)
l.extend(t)
print('l', l)

# 删除全部元素
print(l.clear())

列表的浅复制
l [1, 2, 3, 4, 5, 6]
l_copy [1, 2, 3, 4, 5, 6]
l [1, 2, 3, 4, 5, 6]
l_copy [1, 2, 3, 4, 5]
删除
l [1, 2, 3, 4, 5, 6]
l [1, 3, 4, 5, 6]
把可迭代对象追加给s
l [1, 3, 4, 5, 6]
l [1, 3, 4, 5, 6, 1, 2, 3, 4, 5]
None


## 2.4 切片
### 2.4.1 为什么切片和区间会忽略最后一个元素？
这是Python的风格，因为Python下标从0开始。
* 当只有最后一个位置信息时，切片和区间操作比如`range(3)`和`my_list[:3]`都很容易看出是返回三个元素。
* 当起止位置信息都存在时，`stop-start`即为区间长度。
* 方便利用任意一个下标把序列分成互不重叠的两部分，`my_list[:x]`和`my_list[x:]`。

### 2.4.2 对对象进行切片
`seq[start:stop:step]`

In [1]:
s = 'bicycle'
print(s[::3])
print(s[::-1])
print(s[::-2])

bye
elcycib
eccb


`a:b:c`只能作为索引或者下标用在`[]`中返回一个切片对象：`slice(a, b, c)`，可以对切片对象命名。Python调用`seq._getitem_(slice(start, stop, step))`来实现切片。

In [4]:
s = 'lizzie female 32 174'
age = slice(14,16)
s[age]

'32'

### 2.4.3 多维切片和省略
多维切片是指`[ ]`中可以使用以逗号分隔的多个索引或切片，但是Python内置序列类型都是一维的，不存在多维切片。
省略写作三个英文句号(`...`)，ellipsis是类名，其单一内置实例为Ellipsis，这与bool是类名，而其实例写作True和False异曲同工。省略号用作切片的例子如下：

In [5]:
import numpy as np
a = np.random.randn(3,4)
a

array([[ 0.39296848,  0.81170955, -0.20385544, -0.79524803],
       [ 2.06787032,  0.58366645, -1.3020033 ,  1.38212702],
       [-0.81606383, -0.84069606, -1.08333361,  0.23267115]])

In [6]:
a[2,...]

array([-0.81606383, -0.84069606, -1.08333361,  0.23267115])

In [8]:
a[2, :]

array([-0.81606383, -0.84069606, -1.08333361,  0.23267115])

### 2.4.4 给切片赋值
切片方便对序列进行嫁接、切除或就地修改。
如果赋值对象是一个切片，赋值语句右侧必须是可迭代对象，即使是单个值也要转换成可迭代的对象。

In [39]:
l = list(range(10))
l

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [40]:
l[2:5] = [20]
l

[0, 1, 20, 5, 6, 7, 8, 9]

In [41]:
# 切除
del l[2:4]
l

[0, 1, 6, 7, 8, 9]

In [42]:
# 就地修改
l[2::2] = [20,20]
l

[0, 1, 20, 7, 20, 9]

## 2.5 对序列使用`+`和`*`
`+`两侧的序列由同类型数据所构成，两种操作符都是生成新对象，而不改变原有对象。

In [43]:
l = [1,2,3]
5*l

[1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3]

In [44]:
5*'abc'

'abcabcabcabcabc'

如果在`a*n`语句中，序列`a`中的元素是***其他可变对象的引用***的话，比如下例，我们以为会初始化一个由列表组成的列表，但其实该列表中的三个元素是指向同一个列表的三个引用。

In [45]:
my_list = [[]]*3
my_list

[[], [], []]

In [46]:
my_list[0].append(1)
my_list

[[1], [1], [1]]

正确：应该用列表推导式来建立。

In [49]:
board = [['_']*3 for i in range(3)]
board

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]

In [50]:
board[1][2] = 'X'
board

[['_', '_', '_'], ['_', '_', 'X'], ['_', '_', '_']]

含有3个指向同一对象的引用的列表是毫无用处的。

In [52]:
weird_board = [['_']*3] * 3
weird_board

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]

In [53]:
weird_board[1][2] = 'X'
weird_board

[['_', '_', 'X'], ['_', '_', 'X'], ['_', '_', 'X']]

In [55]:
# 另一种等同的错误写法
row = ['_']*3
board = []
for i in range(3):
    board.append(row)
print(board)
board[1][2] = 'X'
print(board)

# 另一种等同的正确写法
board = []
for i in range(3):
    row = ['_']*3
    board.append(row)
print(board)
board[1][2] = 'X'
print(board)

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
[['_', '_', 'X'], ['_', '_', 'X'], ['_', '_', 'X']]
[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
[['_', '_', '_'], ['_', '_', 'X'], ['_', '_', '_']]


## 2.6 序列的增量赋值
`+=`背后的特殊方法是`__iadd__`(对于可变序列，`a+=b`使`a`就地改变，与`a.extend(b)`效果相同)，但是如果一个类没有实现该方法，Python会调用`__add__`(`a+=b`等于`a=a+b`，即得到一个新对象赋值给`a`)。\
`*=`背后的特殊方法是`__imul__`。

In [56]:
l = [1, 2, 3]
l_id = id(l)
l *= 3
print(l_id == id(l))
t = (1, 2, 3)
t_id = id(t)
t *= 3
print(t_id == id(t))

True
False


对不可变序列进行重复拼接操作，效率很低，因为每次都有一个新对象，解释器需要把原来对象中的元素复制到新元素，再追加新的元素。但`str`是个特例，因为字符串的`+=`操作太频繁了，所以CPython进行了优化，为`str`初始化内存时会预留额外的空间。

In [58]:
# t[2]被改动了，但是tuple不支持修改，所以会抛出异常。
t = (1, 2, [20,30])
t[2] += [40, 50, 60]

TypeError: 'tuple' object does not support item assignment

In [59]:
t

(1, 2, [20, 30, 40, 50, 60])

In [60]:
t = (1, 2, [20,30])
t[2].extend([40, 50, 60])
t

(1, 2, [20, 30, 40, 50, 60])

In [63]:
# 查看字节码
import dis
dis.dis('s[a]+=b')

  1           0 LOAD_NAME                0 (s)
              2 LOAD_NAME                1 (a)
              4 DUP_TOP_TWO
              6 BINARY_SUBSCR
              8 LOAD_NAME                2 (b)
             10 INPLACE_ADD
             12 ROT_THREE
             14 STORE_SUBSCR
             16 LOAD_CONST               0 (None)
             18 RETURN_VALUE


* 6 将`s[a]`的值存入TOS（Top of Stack，栈的顶端）。
* 10 计算`TOS += b`，因为TOS指向的是可变对象，所以该操作可以完成。
* 14 `s[a]=TOS赋值`失败，因为s是不可变序列。\
\
3个教训：
* 不要把可变对象放在元组中。
* 增量赋值不是原子操作。
* 学会查看Python字节码。

## 2.7 `list.sort`方法和内置函数`sorted`
`list.sort`方法是就地排序，返回为`None`，提示没有产生新对象。(该类方法无法串联使用，而返回新对象的方法可以串联调用，形成连贯接口(fluent interface))。\
`sorted`方法接受任何可迭代对象作为参数，包括不可变序列和生成器，最终返回一个列表。\
这两种方法都有两个关键字参数：
* `reverse`, 默认为`False`，若为`True`，则降序输出。
* `key`, 一个函数，该函数会作用在序列的每一个元素上，所产生的结果是排序算法依赖的对比关键字，比如`key=str.lower`忽略大小写排序，`key=len`基于字符串长度排序，默认为`identity function`，即按照元素自己的值排序。(key还可以用于`min()`，`max()`，`itertools.groupby()`和`heapq.nlargest()`。)

In [13]:
# sorted方法接受任何可迭代对象作为参数，包括不可变序列和生成器，最终返回一个列表。
a = 'string'
sorted(a)

['g', 'i', 'n', 'r', 's', 't']

In [64]:
fruits = ['grape', 'raspberry', 'apple', 'banana']
sorted(fruits)

['apple', 'banana', 'grape', 'raspberry']

In [65]:
sorted(fruits, reverse=True)

['raspberry', 'grape', 'banana', 'apple']

In [66]:
sorted(fruits, key=len, reverse=True)
# 因为用到的排序算法Timsort是稳定的，也就是当比不出大小时，两个元素的相对位置不会变化。

['raspberry', 'banana', 'grape', 'apple']

In [67]:
fruits

['grape', 'raspberry', 'apple', 'banana']

In [69]:
fruits.sort()
fruits

['apple', 'banana', 'grape', 'raspberry']

## 2.8 用`bisect`来管理已排序的序列
`bisect`模块包含两个主函数，`bisect`和`insort`，两个函数都利用二分查找算法在有序序列中查找或插入元素。
### 2.8.1 用`bisect`来搜索
`bisect(haystack, needle)`在haystack干草垛中查找needle针的位置，其中`haystack`必须是有序的序列。要求是在该位置插入`needle`后原序列还能保持升序。

In [15]:
import bisect
import sys

In [16]:
HAYSTACK = [1,4,5,6,8,12,15,20,21,23,23,26,29,30]
NEEDLES = [0,1,2,5,8,10,22,23,29,30,31]

def demo(haystack, needles, mode='right'):
    if mode == 'right':
        bisect_fn = bisect.bisect
    else:
        bisect_fn = bisect.bisect_left
        
    fmt = '{0:2d} @ {1:2d}    {2}{0:<2d}'

    print('haystack ->', ' '.join('%2d' % i for i in HAYSTACK))
    for needle in reversed(NEEDLES):
        position = bisect_fn(haystack, needle)
        offset = '  |'* position
        print(fmt.format(needle, position, offset))
        
demo(HAYSTACK, NEEDLES)
    

haystack ->  1  4  5  6  8 12 15 20 21 23 23 26 29 30
31 @ 14      |  |  |  |  |  |  |  |  |  |  |  |  |  |31
30 @ 14      |  |  |  |  |  |  |  |  |  |  |  |  |  |30
29 @ 13      |  |  |  |  |  |  |  |  |  |  |  |  |29
23 @ 11      |  |  |  |  |  |  |  |  |  |  |23
22 @  9      |  |  |  |  |  |  |  |  |22
10 @  5      |  |  |  |  |10
 8 @  5      |  |  |  |  |8 
 5 @  3      |  |  |5 
 2 @  1      |2 
 1 @  1      |1 
 0 @  0    0 


`bisect`有两个可选参数`lo`和`hi`，其默认值分别为0和序列的长度，如此可以缩小搜寻的范围。`bisect`可以在很长的序列中作为`index`的替代。

In [5]:
# 另一个例子，根据分数查找对应的成绩
import bisect
def grade(score, breakpoints=[60, 70, 80, 90], grades='FDCBA'):
    i = bisect.bisect(breakpoints, score)
    return grades[i]

[grade(score) for score in [44, 65, 76, 82, 99]]

['F', 'D', 'C', 'B', 'A']

### 2.8.2 用`bisect.insort`插入新元素

因为排序很耗时，所以得到一个有序序列后，我们最好保持其有序性。`insort(seq, item)`把变量`item`插入`seq`中，仍保持其有序性。同`bisect`一样有`lo`和`hi`两个参数，且有变体`insort_left`。

In [17]:
import bisect
import random

SIZE = 7
my_list = []
for i in range(SIZE):
    new_item = random.randrange(SIZE*3)
    bisect.insort(my_list, new_item)
    print('%2d -> %s' % (new_item, my_list))

 0 -> [0]
 1 -> [0, 1]
 0 -> [0, 0, 1]
 1 -> [0, 0, 1, 1]
10 -> [0, 0, 1, 1, 10]
 2 -> [0, 0, 1, 1, 2, 10]
14 -> [0, 0, 1, 1, 2, 10, 14]


以上提到的内容不只适用于列表和元组，几乎其他序列类型都支持。因为列表太好用了，Python程序员有时会过度使用。如果只需要处理数字列表的话，数组可能是更好的选择。
## 2.9 当列表不是首选时
存放1000万个浮点数 -> 数组（数组背后存放的不是float对象，而是数字的机器翻译，也就是字节表述）\
频繁进行先进先出操作 -> 双端队列deque\
频繁执行`包含`操作 -> 集合set
### 2.9.1 数组
数组支持所有可变序列有关的操作，比如`.pop`,`.insert`, `.extend`，数组还提供了从文件中读取和存入文件更快的方法`.frombytes`和`.tofile`。\
创建数组需要指定一个类型码，用来表示底层的C语言应该存放怎样的数据类型。比如b表示signed char，只能存放一个字节大小的整数，范围从-128到127，不允许存放其他类型的数据。

>1个字节（Byte）等于8位（b）二进制。 位（bit，Binary Digits）：存放一位二进制数，即0或1，为最小的存储单位，8个二进制位为一个字节单位。 一个英文字母（不分大小写）占一个字节的空间，一个中文汉字占两个字节的空间。

In [19]:
# 一个浮点型数组的创建、存入文件和从文件读取的过程
from array import array
import random

floats = array('d', (random.random() for i in range(10**7)))
print(floats[-1])

fp = open('floats.bin', 'wb')  # 'w' must for str
floats.tofile(fp)
fp.close()

floats2 = array('d')
fp = open('floats.bin', 'rb')
floats2.fromfile(fp, 10**7)
print(floats==floats2)

0.4434402223677243
True


从一个二进制文件中用`fromfile`读取浮点数比从文本文件中快得多，因为后者会使用内置的`float`函数把文字转换成浮点数。`tofile`也更快，而且占内存更小。\
`pickle.dump`处理浮点数组的速度几乎跟`array.tofile`一样快。不过前者可以处理几乎所有的内置数字类型，包含复数、嵌套集合，甚至用户自定义的类。\
注意以下用法：`s.frombytes(b)`，`s.fromfile(f, n)`，`s.fromlist(l)`；`s.tobytes(b)`，`s.tofile(f, n)`，`s.tolist(l)`。\
\
从Python3.4开始，数组不再支持`list.sort`这种就地排序，而是得新建一个数组。

In [20]:
a = array('d', (random.random() for i in range(10)))
a = array(a.typecode, sorted(a))
a

array('d', [0.05138881357718883, 0.28050068371916215, 0.3521191743088158, 0.42652354002297366, 0.4332509680085018, 0.5111336588215861, 0.5455012808863621, 0.54737491838606, 0.5801848626452715, 0.8306026247518866])

### 2.9.2 内存视图`memoryview`
`memoryview`让用户在不复制内容的情况下操作同一个数组的不同切片。`memoryview.cast`用不同的方式读写同一块内存数据，而且内容字节不会随意移动，即把同一块内存里的内容打包成一个全新`memoryview`对象给你。

In [18]:
# 通过改变数组中的一个字节来更新数组中某个元素的值
numbers = array('h', [-2, -1, 0, 1, 2])  # 16位二进制
memv = memoryview(numbers)
memv[0]

-2

In [20]:
memv_oct = memv.cast('B') # 转成无符号字符
memv_oct.tolist()

[254, 255, 255, 255, 0, 0, 1, 0, 2, 0]

In [21]:
memv_oct[5] = 4
numbers
# 因为我们把占两个字节的整数的高位字节改成了4,所以这个有符号整数的值就变成了1024，why？？？

array('h', [-2, -1, 1024, 1, 2])

### 2.9.3 Numpy和Scipy
提供高阶数组和矩阵操作。Numpy实现了多维同质数组(homogeneous array)和矩阵；Scipy是基于Numpy的专为线性代数、数值积分和统计学而设计。Scipy把基于C和Fortran的工业级数学计算功能用交互式且高度抽象的Python包装起来，让科学家如鱼得水。

In [21]:
import numpy as np
a = np.arange(12)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [23]:
a.shape

(12,)

In [24]:
a.shape = 3,4
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [25]:
a[2]

array([ 8,  9, 10, 11])

In [26]:
a[2,1]

9

In [27]:
a[:,1]

array([1, 5, 9])

In [28]:
a.transpose()

array([[ 0,  4,  8],
       [ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11]])

* `np.loadtxt(txtpath)`
* `np.save(txtpath, object)`
* `np.load('xx.npy', 'r+')`
* `from time import perf_counter as pc`精度和性能都比较高的计时器

### 2.9.4 双向队列和其他形式的队列
组合利用`.append`和`.pop`可以把列表当作栈或者队列来使用，但是删除列表的第一个元素或者在第一个元素之前添加元素很耗时，因为涉及到移动所有的元素。\
`collections.deque`是一个线程安全、可以快速从两端添加或者删除元素的数据类型，比如适合存放"最近用到的几个元素"，因为新建`deque`可以指定大小，如果满了，就从反向端删除过期的元素，然后在尾端添加新的元素。\
从队列中间删除元素的操作会慢一些，因为只对头部和尾部进行了优化。

In [23]:
from collections import deque
dq = deque(range(10), maxlen=10)
dq

deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [24]:
dq2 = deque([1,2,3], maxlen=10)
dq2

deque([1, 2, 3])

In [44]:
dq.rotate(3)  # 旋转操作，若参数n大于0，右端的n个元素移动到左端，若参数小于0，左端的n个元素移动到右端。
dq

deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6])

In [45]:
dq.rotate(-4)
dq

deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 0])

In [46]:
dq.appendleft(20)
dq
# 因为dq已满，向其头部添加元素，其尾部元素会被删除。

deque([20, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [47]:
dq.extend([22,33,44])
dq

deque([3, 4, 5, 6, 7, 8, 9, 22, 33, 44])

In [48]:
dq.extendleft([11,22,90])  # 注意，是把迭代器中的元素逐个添加到deque的左边
dq

deque([90, 22, 11, 3, 4, 5, 6, 7, 8, 9])

In [32]:
import queue

q = queue.Queue(range(10))
q

<queue.Queue at 0x7febea218210>

Python标准库也有对队列的实现
* queue - 提供了同步（线程安全）类Queue, LifoQueue, PriorityQueue，不同的线程可以利用这些数据类型来交换信息，在满员的时候不会丢弃旧的元素，而是锁住，直到另外的线程移除了某个元素而腾出了位置。
* multiprocessing - 同queue.Queue一样是设计给进程间通信使用的。
* asyncio
* heapq
\
`str`和二进制序列将在第四章专门介绍。

## 2.10 本章小结
* Python数据类型最常见的分类是可变和不可变；另一种分类将其分为扁平序列和容器序列，前者体积更小、速度更快且用起来更方便，但只能保存一些原子性的数据，比如数字、字符和字节；而容器序列比较灵活，但是当容器序列遇到可变对象时，需要小心，尤其是带嵌套的数据结构。
* 列表推导和生成器表达式灵活且强大。
* 元组既可以作为无名称字段的记录，又可以看作不可变的列表；元组拆包；具名元组和元组一样省空间，但是提供了字段名，而且有个`._asdict()`方法。
* Python最受欢迎的一个语言特性是序列切片，用户自定义的数据类型也可以支持多维切片和省略。
* 重复拼接`seq*n`；增量赋值区别对待可变序列和不可变序列，对于后者实际是生成一个新序列而非就地操作。
* 序列的`sort`和`sorted`方法都很好用，支持一个可选参数`key`来接受一个函数来指定排序算法如何比较大小，`key`还可以用在`max`和`min`里。如果插入新元素的时候希望保持有序，可以用`bisect.insort`。
* 列表不是唯一的选择：`array.array`; `Numpy`; `Scipy`; `collections.deque`.

> 容器：包含对其他对象的引用的对象。

* 容器但非序列：`dict`和`set`。
* 列表虽然支持容纳不同类型的元素，但是我们通常不这样做；而元组常用来存放不同类型的元素。
* key参数很妙，只需要提供一个单参数函数来提取或者计算一个值作为比较大小的标准即可，而且让我们能对混有数字字符和数值的列表进行排序，只需要决定是把字符看成数字还是相反。 