# ch02. 序列
> Python 中存在许多序列，如列表、元组、字典、集合、字符串等，并且具有很多的通用之处，可以对序列进行迭代，拼接，切片，排序等。

<mark>第二章的主要内容有:</mark>
- __列表推导式__ 和 __生成器__ 的基本用法
- 元组的用法
- **序列拆包** 、 **序列模式**
- 专门的序列类型

## 2.2 内置序列

Python的标准库使用 C 语言实现了丰富的序列类型，比如<mark>容器序列</mark>（可以存不同类型的项，并且可以嵌套）、<mark>扁平序列</mark>（只能存一种简单类型的项）

**容器序列**存放的是所包含对象的引用，对象可以是任何类型，如图所示。

<div> <img src="./assets/ch02/img/container-sequence.png" width="600"/> </div>

**扁平序列**在自己的内存空间存储了所含内容的值，而不是存的引用的对象，如图所示。

<div> <img src="./assets/ch02/img/flat-sequence.png" width="600"/> </div>

任何 Python 对象在内存中都有一个标头，里面包含了对象的元数据。

比如最简单的 float 类型，内存标头中存在这个 float 对象的值字段和两个元数据字段
- ob_refcnt: 对象的引用技术
- ob_type: 指向对象类型的指针
- ob_fval: 一个 C 语言 double 类型值，存放 float 的值

对于 float 类型的数组和元组，前者在计算机内存中的分布更加的紧凑，原因如下：

- 数组整体是一个对象，存放了各个项的原始值
- 而元组的每一项是一个对象，需要记录自身和各个对象

__这些序列有些是可变的，而有些是不可变的__

<mark>可变序列</mark>
  - 例如：list, bytearray, array.array, collections.deque

<mark>不可变序列</mark>
  - 例如：tuple, str, bytes

list 是最基本的序列类型，它是一种可变容器。

可以通过列表推导式构造列表

熟悉了列表推导式，就打开了生成器的大门

## 2.3 列表推导式和生成器表达式

> 可以使用列表推导式（针对列表）或者生成器表达式（其他序列类型）可以快速构造一个序列

> 通过这两种方式，写出的代码不仅更容易理解，而且速度很快

以下两段代码的意图是一样的，第一种方式使用的是 for 循环，第二种方式使用的是 列表推导式

In [1]:
symbols = '$¢£¥€¤'
codes = []
for symbol in symbols:
    codes.append(ord(symbol))

codes

[36, 162, 163, 165, 8364, 164]

In [2]:
symbols = '$¢£¥€¤'
codes = [ord(symbol) for symbol in symbols]
codes

[36, 162, 163, 165, 8364, 164]

for 循环可以做很多事情，可以遍历一个序列，统计项数或者挑选部分项，也可以计算总数和平均数等

列表推导式的代码可读性可能会更高，但是要 __防止滥用__

<mark> 如果不打算使用生成的列表，就不要使用列表推导式语句</mark>

<mark> 列表推导式应该保持简洁，若超过两行，最好把语句拆开，或者采用传统的 for 循环的写法 </mark>

Python 会忽略 [], {}, () 内部的换行，因此，列表，列表推导式，元组，字典等结构完全可以分成几行来写，而不需要使用 __续行转义符__`\`

Python3 中的列表推导式、生成器表达式，以及类似的集合推导式和字典推导式，for 子句中的赋值的变量在局部作用域内

<mark> 

- 使用「海象运算符」`:=` 赋值的变量在推导式或者生成器表达式返回后依旧可以访问，这个行为与函数内的局部变量的行为不同。

- 海象运算符赋值的变量，其作用域限定在函数内，除非目标类变量使用 global 或者 nonlocal 声明 
</mark>

In [3]:
x = 'ABC'
codes = [ord(x) for x in x]
x

'ABC'

In [4]:
codes

[65, 66, 67]

In [5]:
codes = [last := ord(c) for c in x]
last

67

可以看到，last 可以访问，因为 last 通过海象运算符修饰

In [6]:
c

NameError: name 'c' is not defined

c 无法被访问，因为 c 定义在for循环内部，是个局部变量

### 列表推导式和 map, filter 的比较

<mark> 列表推导式涵盖了 map 和 filter 两个函数的功能，而且写出的代码不像 lambda 表达式那么晦涩难懂

In [7]:
symbols = '$¢£¥€¤'
beyond_ascii = [ord(s) for s in symbols if ord(s) > 127]
beyond_ascii

[162, 163, 165, 8364, 164]

In [8]:
beyond_ascii = list(
    filter(
        lambda c: c > 127, 
        map(ord, symbols)
    )
)

beyond_ascii

[162, 163, 165, 8364, 164]

上面两种方式第一种使用的是 __列表推导式__, 第二种方式使用的 map 和 filter，第二种方式不一定快

In [9]:
help(map)

Help on class map in module builtins:

class map(object)
 |  map(func, *iterables) --> map object
 |  
 |  Make an iterator that computes the function using arguments from
 |  each of the iterables.  Stops when the shortest iterable is exhausted.
 |  
 |  Methods defined here:
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __iter__(self, /)
 |      Implement iter(self).
 |  
 |  __next__(self, /)
 |      Implement next(self).
 |  
 |  __reduce__(...)
 |      Return state information for pickling.
 |  
 |  ----------------------------------------------------------------------
 |  Static methods defined here:
 |  
 |  __new__(*args, **kwargs) from builtins.type
 |      Create and return a new object.  See help(type) for accurate signature.



In [10]:
help(filter)

Help on class filter in module builtins:

class filter(object)
 |  filter(function or None, iterable) --> filter object
 |  
 |  Return an iterator yielding those items of iterable for which function(item)
 |  is true. If function is None, return the items that are true.
 |  
 |  Methods defined here:
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __iter__(self, /)
 |      Implement iter(self).
 |  
 |  __next__(self, /)
 |      Implement next(self).
 |  
 |  __reduce__(...)
 |      Return state information for pickling.
 |  
 |  ----------------------------------------------------------------------
 |  Static methods defined here:
 |  
 |  __new__(*args, **kwargs) from builtins.type
 |      Create and return a new object.  See help(type) for accurate signature.



### 使用列表推导式构造多个可迭代对象的笛卡尔乘积

> 比如有一个需求，有两种颜色，三种尺寸的衬衫，如何得到所有结果呢？

In [11]:
colors = ['black', 'white']
sizes = ['S', 'M', 'L']

shirts = [
    (color, size)
    for color in colors
    for size in sizes
]

shirts

[('black', 'S'),
 ('black', 'M'),
 ('black', 'L'),
 ('white', 'S'),
 ('white', 'M'),
 ('white', 'L')]

上面这种方式先按照颜色再按尺寸排序，生成一个元组列表

In [12]:
for color in colors:
    for size in sizes:
        print((color, size))

('black', 'S')
('black', 'M')
('black', 'L')
('white', 'S')
('white', 'M')
('white', 'L')


这种方式的两层循环的嵌套顺序与上面列表推导式的for子句的顺序一致

如果想要先按照尺寸再按照颜色排序，只需要调整for子句的顺序，如下所示

In [14]:
shirts = [(color, size)
            for size in sizes
            for color in colors
]

shirts

[('black', 'S'),
 ('white', 'S'),
 ('black', 'M'),
 ('white', 'M'),
 ('black', 'L'),
 ('white', 'L')]

### 生成器表达式

列表推导式可以生成元组，数组，或者其他类型的序列

但是 __生成器表达式__ 占用更少的内存，因为生成器表达式使用 **迭代器协议** 逐个产出项，而不是一下子构造整个列表

<mark> 生成器表达式的语句和列表推导式几乎一样，只不过列表推导式使用的是`[]`，而生成器表达式使用的是`()`

使用生成器表达式构建一个元组

In [16]:
symbols = '$¢£¥€¤'
tuple(ord(s) for s in symbols)

(36, 162, 163, 165, 8364, 164)

- <mark> 如果生成器是函数唯一的参数，不需要额外再使用()括起来 </mark>

- 如果还有额外的参数，就需要在生成器表达式的两边加上圆括号

In [17]:
import array
array.array('I', (ord(s) for s in symbols))

array('I', [36, 162, 163, 165, 8364, 164])

使用生成器表达式计算笛卡尔积，打印不同色号和型号的衬衫

In [18]:
colors = ['black', 'white']
sizes = ['S', 'M', 'L']

for shirt in (f'{c} {s}' for c in colors for s in sizes):
    print(shirt)

black S
black M
black L
white S
white M
white L


In [21]:
colors = ['black', 'white']
sizes = ['S', 'M', 'L']
shirts_g = ((c, s) for c in colors for s in sizes)
print(type(shirts_g))
for shirt in shirts_g:
    print(f'{shirt[0]} {shirt[1]}')

<class 'generator'>
black S
black M
black L
white S
white M
white L


<mark> 生成器表达式产生的列表并不是在内存中构造的，而是生成器表达式一次产出一项， 提供给for循环。 </mark>

如果两项都有超级多列表, 则使用生成器表达式计算笛卡尔乘积可以节省大量的内存，因为不同先构建 mxn 项的列表给 for 循环

## 2.4 元组不仅仅是不可变列表

> 元组有两个作用：
- 作为不可变列表
- 还可以用作 __没有字段名称的记录__

<span style='color:green'> 元组作为没有字段名的记录 </span>

### 用作记录

- 可以使用元组存放数据，每一项代表一条记录，项中字段的位置决定了数据的意义
- 如果把元组当作字段的容器使用的话，项通常是固定的，顺序也变得尤为重要

In [1]:
traveler_ids = [('USA', '31195855'), ('BRA', 'CE342567'), ('ESP', 'XDA205856')]
for country, _ in traveler_ids:
    print(country)

USA
BRA
ESP


上面 for 循环列表中的元组时，可以进行拆包，country 获取元组的第一项，_ 将第二项舍弃掉

> `_` 一般被用来表示虚拟变量，在 match 中，`_` 是通配符，匹配值但是不绑定值，而且在 Python 的控制台，如果前一个命令的结果不是 None，则赋值给 `_`

### 用作不可变列表

> Python 解释器和标准库经常把元组当作不可变列表使用

好处如下：
- 意图清晰
- 性能优越（长度相同的元组和列表，<mark>元组占用的内存更少</mark>, 而且 Python 对元组做了优化

<span style='color:red'>元组的不可变性仅仅针对的是元组中的引用而言</span>

元组中的引用不可替换，不可删除。

但是若时元组引用的类型是可变的，当对其改动后，元组的值是随着变化的。

In [3]:
a = (10, 'alpha', [1, 2])
b = (10, 'alpha', [1, 2])

一开始，a 和 b 是相等的，b 的内存布局如下所示


<div> <img src="./assets/ch02/img/tuple-memory.png" width="600"/> </div>

<span style='color:red'>元组的内容自身是不变的，但这仅仅表明元组中存放的引用始终指向同一批对象。</span>

> 若存放的引用是可变的，那么元组的值就会发生改变（比如列表

In [4]:
before = a == b
print(f"before: a == b: ? {before}")

b[-1].append(99)
after = a == b
print(f"after: a == b: ? {after}")


before: a == b: ? True
after: a == b: ? False


<span style='color:blue'> 存放可变项的元组可能导致 bug </span>

__只有值永不可变的对象才是可哈希的__

*不可哈希的元组不能作为字典的键，也不能作为集合的元素*

**tuples are more efficient than lists**

- Python 编译器求解元组字面量时，经过一次操作就可以生成元组常量的字节码
  
- 给定一个元组 t，tuple(t) 直接返回 t 的引用，<mark>不涉及复制</mark>；而 对一个列表 t1 来说，list(t1) 会<mark>创建</mark> t1 的<mark>副本</mark>

- tuple 实例长度固定，分配的内存空间刚好够用，而 list 实例的内存通常会更加富余一些，时刻准备追加元素。

- 元组中的项的引用存储在元组结构体内的一个数组中，而列表把引用数组的指针存储在别的地方。
  > 因为列表是可变长的，一旦超出当前分配的空间，就需要重新分配引用计数腾出位置，CPU缓存会降低

## 2.5 序列和可迭代对象拆包

> 拆包可以让我们不用动手通过索引提取元素，减少出错的可能

> 任何可迭代对象都能拆包，<mark>唯一的要求</mark>就是一次只能产出一项，提供给接收端变量, `*` 可以捕获余下的变量

In [6]:
res = divmod(20, 8)
print(res)

t = (20, 8)
res1 = divmod(*t)
print(res1)

quotient, remainder = divmod(*t)
print(quotient, remainder)

(2, 4)
(2, 4)
2 4


上面的列子表明了如何进行拆包，调用函数时在参数前面加上`*`，利用的也是拆包

还有就是提供了为函数的多返回值更加便于调用方使用的方法

### 使用 `*` 获取余下的项

定义函数时可以使用 `*args` 捕获余下的仁义数量的变量（Python的经典特性

同样适用于<mark>并行赋值</mark>

In [7]:
a, b, *rest = range(6)
print(a, b, rest)

0 1 [2, 3, 4, 5]


In [8]:
a, b, *rest = range(3)
print(a, b, rest)

0 1 [2]


In [9]:
a, b, *rest = range(2)
print(a, b, rest) 

0 1 []


<span style='color:green'> 并行赋值时，`*` 前缀只能应用到一个变量上，对位置没要求</span>（因为是进行匹配，如果多个的话，不知道每个该分配多少

### 在函数调用和序列字面量中使用 `*` 拆包

<span style='color:green'> 可以在函数调用中多次使用 `*` </span>

In [1]:
def func(a, b , c, *rest):
    return a, b, c, rest

func(*[1, 2], 3, *range(4, 7))

(1, 2, 3, (4, 5, 6))

定义 __列表__, __元组__, __集合__ 字面量时，也可以使用 `*`

In [2]:
*range(4), 4

(0, 1, 2, 3, 4)

In [3]:
[*range(4), 4]

[0, 1, 2, 3, 4]

In [4]:
{*range(4), 4, *{5, 6 , 7}}

{0, 1, 2, 3, 4, 5, 6, 7}

### 元组拆包可以嵌套拆包

元组的拆包可以处理嵌套结构

In [5]:
metro_areas = [
    ('Tokyo', 'JP', 36.933, (35.68, 139.69)),
    ('Delhi NCR', 'IN', 21.935, (28.613889, 77.208889)),
    ('Mexico City', 'MX', 20.142, (19.433333, -99.133333)),
    ('New York-Newark', 'US', 20.104, (40.808611, -74.020386)),
    ('São Paulo', 'BR', 19.649, (-23.547778, -46.635833)),
]

print(f"{'':15} | {'latitude':>9} | {'longitude':>9}")
for name, _, _, (lat, lon) in metro_areas:
    if lon <=0:
        print(f"{name:15} | {lat:9.4f} | {lon:9.4f}")

                |  latitude | longitude
Mexico City     |   19.4333 |  -99.1333
New York-Newark |   40.8086 |  -74.0204
São Paulo       |  -23.5478 |  -46.6358


## 2.6 序列的模式匹配

> Python3.10 提出了 `match/case` 语句实现模式匹配

- [ ] 阅读以下文档

  - Python 核心开发者对模式匹配进行了精彩介绍，链接如下[Structural Pattern Matching](https://docs.python.org/3/whatsnew/3.10.html#pep-634-structural-pattern-matching)
  - 具体的PEP，链接如下：[PEP 636 – Structural Pattern Matching: Tutorial](https://peps.python.org/pep-0636/)

`match` 关键字后面的表达式是匹配对象，每一个 `case` 子句中的模式尝试匹配

`case` 中可以对模式进行拆包，支持析构

In [6]:
print(f"{'':15} | {'latitude':>9} | {'longitude':>9}")
for record in metro_areas:
    match record:
        case [name, _, _, (lat, lon)] if lon <= 0:
            print(f"{name:15} | {lat:9.4f} | {lon:9.4f}")

                |  latitude | longitude
Mexico City     |   19.4333 |  -99.1333
New York-Newark |   40.8086 |  -74.0204
São Paulo       |  -23.5478 |  -46.6358


`case` 子句由两部分组成：一部分是模式， 另一部分是使用 `if` 关键字指定的卫语句（guard clause，可选）

<span style='color:red'> 一般来说，匹配的对象需要同时满足以下条件方能匹配序列模式</span>

- 匹配对象是<mark>序列</mark>
- 匹配对象和模式的项数要相等
- 对应的项相互匹配，包括嵌套的项

<span style="color:blue"> 序列模式可以是 __元组__ , 也可以是 __序列__ </span>, 序列模式中，方括号和圆括号的意思是一样的

标准库中以下类型可以与序列模式兼容
- list
- tuple
- memoryview
- range
- array.array
- collections.deque

模式中的任何一部分均可使用 as 关键字绑定到变量上。

## 2.7 切片

Python 中列表、元组、字符串等<mark>所有序列类型</mark>都支持切片操作

用户自定义类也可以实现切片方法

### **为什么切片和区间排除最后一项**

<span style="color: green"> 排除最后一项的好处 </span>

- 如果只有停止位置，很容易判断切片或者区间的长度。比如：`range(3)` 和 `my_list[:3]` 都只产生3项
- 同时指定起始和停止位置时，容易计算切片或者区间的长度，只需要做个减法就行：stop - start
- 方便在索引 x 处把一个序列拆分成两部分而<mark>不产生重叠</mark>，直接使用`my_list[:x]` 和 `my_list[x:]` 即可

In [8]:
l = [10, 20, 30, 40, 50, 60]
print(l[:2])
print(l[2:])

[10, 20]
[30, 40, 50, 60]


> Dijkstra 写了一篇文章讲了为什么从零开始索引以及为什么不包含右边界值

### 切片对象

可以使用 `s[a:b:c]` 进行跳步，其中 c 可以是负数，向前跳

In [11]:
s = 'bicycle'
print(s[::3])
print(s[::-1])
print(s[::-2])

bye
elcycib
eccb


`a:b:c` 这种表示法只在 `[]` 内部有效，表示索引或下标运算符，得到一个切片对象：`slice(a, b, c)`
> 比如为了求解表达式 `seq[start:stop:step]`, 实际上是调用了 `seq.__getitem__(slice(start, stop, step))`

此外，可以给切片对象进行命名，就像在电子表格软件里给单元格区域命名一样。

对于纯文本数据，与其让代码充斥大量晦涩的切片，不如为切片命名。

In [3]:
invoice = """
0.....6.................................40........52...55........
1909  Pimoroni PiBrella                     $17.50    3    $52.50
1489  6mm Tactile Switch x20                 $4.95    2     $9.90
1510  Panavise Jr. - PV-201                 $28.00    1    $28.00
"""

SKU = slice(0, 6)
DESCRIPTION = slice(6, 40)
UNIT_PRICE = slice(40, 52)
QUANTITY = slice(52, 55)
ITEM_TOTAL = slice(55, None)

line_items = invoice.split('\n')[2:]

for item in line_items:
    print(item[UNIT_PRICE], item[DESCRIPTION])

    $17.50   Pimoroni PiBrella                 
     $4.95   6mm Tactile Switch x20            
    $28.00   Panavise Jr. - PV-201             
 


### 多维切片和省略号

`[]` 运算符还可以接受多个索引或者切片，用逗号进行分隔。

处理 `[]` 运算符的特殊方法 `__getitem__` 和 `__setitem__` 把接收到的 `a[i, j]` 中的索引当作元组。

为了求解 `a[i, j]`, Python 调用 `a.__getitem__((i, j))`

### 为切片赋值

赋值语句的左侧使用切片表示法，或者作为`del`语句的目标，可以就地移除、切除、修改可变序列

In [2]:
l = list(range(10))
print(l)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [3]:
l[2:5] = [20, 30]
print(l)

[0, 1, 20, 30, 5, 6, 7, 8, 9]


In [4]:
del l[5:7]
print(l)

[0, 1, 20, 30, 5, 8, 9]


In [5]:
l[3::2] = [11, 22]
print(l)

[0, 1, 20, 11, 5, 22, 9]


In [6]:
l[2:5] = 100

TypeError: can only assign an iterable

In [7]:
l[2:5] = [100]
print(l)

[0, 1, 100, 22, 9]


## 2.8 使用 `+` 和 `*` 处理序列

通常，`+` 的两个运算对象必须是同一种序列，而且都<mark>不可修改</mark>, 拼接结果是<mark>同类型的新序列</mark>

<span style="color: green"> 
`+`和`*`始终创建一个新对象，绝不更改操作数.

`a * n` 表达式中的 a 中若包含可变项，则结果可能出乎意料
</span>

### 构建嵌套列表

In [8]:
board = [['_'] * 3 for i in range(3)]
print(board)

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]


In [9]:
board[1][2] = 'X'
print(board)

[['_', '_', '_'], ['_', '_', 'X'], ['_', '_', '_']]


下面的做法看似省事，其实是错的

In [10]:
weird_board = [
    ['_'] * 3
] * 3

print(weird_board)

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]


外层列表内部的三个引用指向了同一个列表

In [11]:
weird_board[1][2] = '0'
print(weird_board)

[['_', '_', '0'], ['_', '_', '0'], ['_', '_', '0']]


出现此问题的原因是，本质上来说，它的行为如下

In [None]:
row = ['_'] * 3
weird_board = []
for i in range(3):
    weird_board.append(row)

print(weird_board)

可以看到，同一个 row 向 board 追加 3 次


而 `board = [['_'] * 3 for i in range(3)]` 列表推导式等价于以下代码

In [13]:
board = []
for i in range(3):
    row = ['_'] * 3
    board.append(row)

print(board)

board[2][0] = 'X'
print(board)

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
[['_', '_', '_'], ['_', '_', '_'], ['X', '_', '_']]


### 增量赋值运算符

> 支持 `+=` 运算符的特殊方法是 `__iadd__` (就地相加)

> 如果没有实现 `__iadd__`, 那么就会调用 `__add__`

以下面这个表达式为例

```python
a += b
```

- 若 a 实现了 __iadd__, 那么就调用它。

    - 若 a 是可变序列（如 list， array.array）则就地修改 a

- 若 a 没有实现 __iadd__, `a += b` 作用等同于 `a = a + b`

<span style="color:green"> 可变序列最好实现 `__iadd__` 方法， `+=` 运算符就地修改 </sapn>

不可变序列，重复拼接效率低下，因为解释器必须复制整个目标序列创建一个新序列

> Python Tutor 可以以图解方式阐释 Python 运行机制 

- 不要在元组中存放可变的项
- 增量赋值不是原子操作
- 可以使用 `dis.dis` 检查字节码

## 2.9 `list.sort` 和 内置函数 `sorted`

- `list.sort` 就地排序，不创建副本，返回值为 None
- `sorted` 函数返回创建的新列表

> Python API 一个重要的约定：<mark>就地更改对象的函数或者方法应该返回 None</mark>。 让调用方清楚知道接收者已被更改，没有创建新对象。

但是同样存在了缺点，这种方法不能级联调用。

如果返回了新的对象，可以在流式接口中级联调用

list.sort() 和 sorted 都可以接受两个可选的关键字参数

- `reverse`: 值为 True 时，降序返回，默认为 False
- `key`: 一个只接收一个参数的函数，应用到每一项，作为排序依据

> 排序后的序列，搜索效率非常高。

> Python 标准库中的 bisect 模块提供了一种二进制搜索算法，随取随用。
> 该模块中的 `bisect.insort` 函数还可以确保排序后的序列始终保持有序 

## 2.10 当列表不适用时

list 类型简单灵活，不过针对具体需求，可能有更好的选择

- 使用**数组**处理上百万个浮点数值可以节省大量内存
- 需要在列表的两端添加和删除项，使用 deque(双端队列)更合适
- 如果经常检查某项是否存在于容器中，使用 `set` 类型更合适，<mark> Python 对 set 成员检查做了优化，速度更快 </mark>
  - set 是可迭代对象，但不是序列，因为 set 是无序的

### 数组

如果列表中只包含数值，那么使用 `array.array` 会更高效。

数组支持所有可变序列操作（`.pop`, `.insert`, `.extend`

Python 数组像 C 语言数组一样精简。一个存放了 float 的数组，并不是存放的 float 实例，而是表示相应机器值的压缩字节

<mark>创建 array 对象时要提供类型代码，是一个字母，用来确定底层使用什么 C 类型存储数组中的各项。</mark>

一个例子

> 创建一个含有 1000 万个随机浮点数的数组，把这些浮点数存入文件，再从文件中读取出来

In [1]:
from array import array
from random import random

# 从生成器中（或者一个可迭代对象）中创建一个双精度浮点数数组
floats = array('d', (random() for i in range(10**7)))

print(floats[-1])

fp = open('floats.bin', 'wb')
floats.tofile(fp)
fp.close()

floats2 = array('d')
fp = open('floats.bin', 'rb')
floats2.fromfile(fp, 10**7)
fp.close()

print(floats2[-2])
print(floats2[-1])

print(floats2 == floats)

0.8678986984896265
0.8152332559101132
0.8678986984896265
True


`array.tofile` 和 `array.fromfile` 使用起来并不难，而且二者运行速度非常快。

`array.fromfile` 会比直接从文本文件中读取快近 60 倍，而且无需使用内置函数 float 去解析每一行

`array.tofile` 保存文件的速度约比一行一个浮点数写入文本文件快 7 倍

### memoryview

`memoryview` 类可以用来创建内存视图，用于访问内存中的数据, 并且共享内存

`memoryview` 在 `Numpy` 中普遍使用，本质上就是 Python 中的数组。

`memoryview` 在数据结构之间共享内存，而不是事先复制，对大型数据集来说非常重要

### NumPy

科学计算中的高级数组和矩阵运算得益于 NumPy，Python成为主流。

Numpy 实现了多维同构数组和矩阵类型，除了存放数值，还可以存放用户定义的记录，而且提供了高效的元素层面操作。

以 NumPy 为基础的 SciPy 提供了许多科学计算方法，从线性代数到数值积分和统计学

SciPy 速度快，运行可靠

### 双端队列和其他队列

> 借助 `.pop` 和 `.append` 方法，列表可以当作栈或者队列使用，但是在列表头部插入和删除项有一定的开销，整个列表必须在内存中移动

`collections.deque` 实现了一种线程安全的双端队列，旨在快速在两端插入和删除项

如果需要「保留最后几项」，或者实现类似的行为，双端队列是唯一选择，因为 deque 对象可以有界。

In [2]:
from collections import deque

dq = deque(range(10), maxlen=10)
print(dq)

# 轮转，当 n > 0, 从右端取几项到左端；当 n < 0, 从左端取几项到右端
dq.rotate(3)
print(dq)

dq.rotate(-4)
print(dq)

dq.appendleft(-1)
print(dq)

dq.extend([11, 22, 33])
print(dq)

# `extendleft` 依次把 iter 参数中的各项追加到 deque 对象的左端
dq.extendleft([10, 20, 30])
print(dq)

deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6], maxlen=10)
deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 0], maxlen=10)
deque([-1, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
deque([3, 4, 5, 6, 7, 8, 9, 11, 22, 33], maxlen=10)
deque([30, 20, 10, 3, 4, 5, 6, 7, 8, 9], maxlen=10)


- deque 实现了多数 list 方法，而且增加了额外的专用方法
- 从 deque 中部删除项的速度并不快，双端队列优化的是在两端增减项的操作
- `append` 和 `popleft` 是原子操作，因此可以放心的在多线程应用中把 deque 作为先进先出队列使用，无需加锁 

----

queue 模块提供了几个线程安全的队列类：SimpleQueue, Queue, LifoQueue 和 PriorityQueue

这些类可以在线程之间安全通信

---

## 小结
- 序列可以从多个角度去划分，比如 __可变性__, __扁平/容器__
- 扁平的序列的结构更加紧凑、处理速度更快，也易于使用，但仅限于存储原子数据，比如数值、字符、字节等
- 列表推导式和生成器表达式是构建和初始化序列的强大表达法
- 元组在 Python 可以在作为**不具名字段记录**和**不可变列表**
  - 当作不可变列表时，仅当元组所有项都是不可变对象时，才能保证元组值是固定的
  - 可以使用 `hash(t)` 函数快速判断元组的值是否固定
  - 把元组当作不具名字段记录时，可以使用元组拆包，它是最安全、可读性最高的方法
- `*` 还适用于列表和可迭代对象
- 序列切片的功能很强大，甚至可以用户自定义序列
- 重复拼接很方便，若使用得当，<mark>可用于初始化内含不可变项的嵌套列表。</mark>
  - `+=` 和 `*=` 两个增量赋值运算符的行为因序列的可变形而异。
  - 对于不可变序列，必须构建新序列
  - 若是可变的，大部分情况下，就地修改，不过也要看具体的序列的实现
- sort 方法和内置的 `sorted` 函数易于使用，十分灵活，这要归功于可选的 key 参数，key的值是一个计算排序标准的函数。
- ... 

---

## 扩展（~~精华部分~~

- Python 官方文档中的 "Sorting HOW TO" 列举了几个例子，说明了 `sorted` 和 `list.sort` 的高级技巧，参见 [Sorting HOW TO](https://docs.python.org/3.10/howto/sorting.html)

- > 了解并行赋值语句左手边可用的新句法 *extra，“PEP 3132—Extended Iterable Unpacking”是最权威的资料。如果你想了解 Python 的发展过程，可以查看 bug 跟踪程序中的“Missing *-unpacking generalizations”工单，这里提议增强可迭代对象的拆包表示法。这个工单的讨论结果汇集为“PEP 448—Additional Unpacking Generalizations”。
  
- todo: [Less copies in Python with the buffer protocol and memoryviews](https://eli.thegreenplace.net/2011/11/28/less-copies-in-python-with-the-buffer-protocol-and-memoryviews) 是一篇简短的 memoryview 教程
  
- todo: [Container datatypes](https://docs.python.org/3.10/library/collections.html)是一份关于 Python 容器的示例和实践技巧
- todo: [Why Numbering Should Start at Zero](https://www.cs.utexas.edu/users/EWD/transcriptions/EWD08xx/EWD831.html) 是 Dijkstra 写的一份简短备忘录对 Python 排除区间和切片中最后一项的方法做了最好的辩护。
- > 一些对象包含对其他对象的引用，这种对象称为容器
- <mark> `list.sort`, `sorted`, `max`, `min` 都有 `key` 参数，使用key既简单又高效，哪怕掺杂数值和类似数值的字符串，也可以排序。只需要决定把所有的项全部视为整数还是字符串</mark>

In [1]:
l = [28, 14, '28', 5, '9', '1', 0, 6, '23', 19]
sorted(l)

TypeError: '<' not supported between instances of 'str' and 'int'

In [2]:
sorted(l, key=int)

[0, '1', 5, 6, '9', 14, 19, '23', 28, '28']

In [3]:
sorted(l, key=str)

[0, '1', 14, 19, '23', 28, '28', 5, 6, '9']

`list.sort` 使用的排序算法是 Timsort，这是一种自适应算法，可以根据数据的排序方式在插入排序和归并排序之间切换。这样做的效率高。