# CH02 丰富的序列

## 列表推导式（list comprehension）和生成器表达式（generator expression）

- 如果你不打算使用生成的列表，那就不要使用列表推导式句法。
- 列表推导式应保持简短。如果超过两行，那么最好把语句拆开，或者使用传统的 for 循环重写。

In [2]:
symbols = '$¢£¥€¤'

# 常规的
codes = []
for symbol in symbols:
    codes.append(ord(symbol))
print(codes)

# 列表推导
codes2 = [ord(symbol) for symbol in symbols]
print(codes2)

[36, 162, 163, 165, 8364, 164]
[36, 162, 163, 165, 8364, 164]


In [4]:
# 笛卡尔积
colors = ['black', 'white']
sizes = ['S', 'M', 'L']
tshirts = [(color, size) for color in colors for size in sizes]
print(tshirts)

# 换行也一样
tshirts = [(color, size) for color in colors 
                         for size in sizes]
print(tshirts)

[('black', 'S'), ('black', 'M'), ('black', 'L'), ('white', 'S'), ('white', 'M'), ('white', 'L')]
[('black', 'S'), ('black', 'M'), ('black', 'L'), ('white', 'S'), ('white', 'M'), ('white', 'L')]


In [6]:
# 使用生成器表达式构建一个元组和一个数组
tup = tuple(ord(symbol) for symbol in symbols)
print(tup)

import array

arr = array.array('I', (ord(symbol) for symbol in symbols))
print(arr)

(36, 162, 163, 165, 8364, 164)
array('I', [36, 162, 163, 165, 8364, 164])


In [7]:
# 使用生成器表达式计算笛卡儿积
# 生成器表达式逐个产出项。这个示例不会构建包含 6 种 T 恤衫组合的列表。
for tshirt in ('%s %s' % (c, s) for c in colors for s in sizes):
    print(tshirt)


black S
black M
black L
white S
white M
white L


## 元组不仅仅是不可变列表

In [9]:
lax_coordinates = (33.9425, -118.408056)
city, year, pop, chg, area = ('Tokyo', 2003, 32_450, 0.66, 8014)
traveler_ids = [('USA', '31195855'), ('BRA', 'CE342567'), ('ESP', 'XDA205856')]

for passport in sorted(traveler_ids):
    # % 格式化运算符理解元组结构，把每一项当作不同的字段
    print('%s/%s' % passport)

print('---')
# for 循环知道如何获取元组中单独的每一项，这叫“拆包”。
# 这里我们对第二项不感兴趣，因此把它赋值给虚拟变量 _
for country, _ in traveler_ids:
    print(country)

BRA/CE342567
ESP/XDA205856
USA/31195855
---
USA
BRA
ESP


In [11]:
# 元组作为不可变列表
a = (10, 'alpha', [1, 2])
b = (10, 'alpha', [1, 2])
print(a == b)

b[-1].append(99)
print(a == b)
print(b)

True
False
(10, 'alpha', [1, 2, 99])


In [12]:
# 如果你想显式判断一个元组（或其他对象）的值是否固定，则可以使用内置函数 hash 定义如下所示的 fixed 函数
def fixed(o):
    try:
        hash(o)
    except TypeError:
        return False
    return True


tf = (10, 'alpha', (1, 2))  # Contains no mutable items
tm = (10, 'alpha', [1, 2])  # Contains a mutable item (list)
print(fixed(tf))
print(fixed(tm))

True
False


## 序列和可迭代对象拆包

In [4]:
lax_coordinates = (33.9425, -118.408056)
latitude, longitude = lax_coordinates  # unpacking
print(latitude)
print(longitude)

# 利用拆包还可以轻松对调两个变量的值，省掉中间的临时变量
a, b = (1, 2)
print(f"a={a}, b={b}")
a, b = b, a
print(f"a={a}, b={b}")

33.9425
-118.408056
a=1, b=2
a=2, b=1


In [6]:
# 使用 * 获取余下的项
a, b, *rest = range(5)
print(a, b, rest)

# 并行赋值时，* 前缀只能应用到一个变量上，不过可以是任何位置上的变量
a, *body, c, d = range(5)
print(a, body, c, d)

0 1 [2, 3, 4]
0 [1, 2] 3 4


In [9]:
# 使用 * 拆包
x = *range(4), 4
print(x)

x = [*range(4), 4]
print(x)

x = {*range(4), 4, *(5, 6, 7)}
print(x)

(0, 1, 2, 3, 4)
[0, 1, 2, 3, 4]
{0, 1, 2, 3, 4, 5, 6, 7}


##  序列模式匹配

In [None]:
def handle_command(self, message):
    match message:
        case ['BEEPER', frequency, times]:
            self.beep(times, frequency)
        case ['NECK', angle]:
            self.rotate_neck(angle)
        case ['LED', ident, intensity]:
            self.leds[ident].set_brightness(ident, intensity)
        case ['LED', ident, red, green, blue]:
            self.leds[ident].set_color(ident, red, green, blue)
        case _:
            raise InvalidCommand(message)

## 切片

### 为什么切片和区间排除最后一项
排除最后一项可以带来以下好处（以前只觉得不方便。。）：
- 在仅指定停止位置时，容易判断切片或区间的长度。例如， range(3) 和 my_list[:3] 都只产生 3 项。
- 同时指定起始和停止位置时，容易计算切片或区间的长度，做个减法即可：stop - start。
- 方便在索引 x 处把一个序列拆分成两部分而不产生重叠，直接使用 my_list[:x] 和 my_list[x:] 即可

In [1]:
# seq[start:stop:step]
s = 'bicycle'
print(s[::3])
print(s[::-1])
print(s[::-2])

bye
elcycib
eccb


In [3]:
invoice = """
0.....6.................................40........52...55........
1909 Pimoroni PiBrella                      $17.50    3    $52.50
1489 6mm Tactile Switch x20                  $4.95    2    $9.90
1510 Panavise Jr. - PV-201                  $28.00    1    $28.00
1601 PiTFT Mini Kit 320x240                 $34.95    1    $34.95
"""

SKU = slice(0, 5)
DESCRIPTION = slice(5, 40)
UNIT_PRICE = slice(40, 52)
QUANTITY = slice(52, 55)
ITEM_TOTAL = slice(55, None)

line_items = invoice.split('\n')[2:]

for item in line_items:
    print(item[UNIT_PRICE], item[DESCRIPTION])

    $17.50   Pimoroni PiBrella                  
     $4.95   6mm Tactile Switch x20             
    $28.00   Panavise Jr. - PV-201              
    $34.95   PiTFT Mini Kit 320x240             
 


In [7]:
# 为切片赋值
l = list(range(10))
print(l)

l[2:5] = [20, 30]
print(l)

del l[5:7]
print(l)

l[3::2] = [11, 22]
print(l)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[0, 1, 20, 30, 5, 6, 7, 8, 9]
[0, 1, 20, 30, 5, 8, 9]
[0, 1, 20, 11, 5, 22, 9]


## 使用 + 和 * 处理序列

In [2]:
l = [1, 2, 3]
print(l * 5)

print(5 * 'abc')

[1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3]
abcabcabcabcabc


In [5]:
# 构建嵌套列表
board = [['_'] * 3 for i in range(3)]
print(board)

board[1][2] = 'X'
print(board)

print('\n')

# 相当于
board = []
for i in range(3):
    row = ['_'] * 3 # 新的 row 追加到 board 中
    board.append(row)

print(board)

board[1][2] = 'X'
print(board)


[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
[['_', '_', '_'], ['_', '_', 'X'], ['_', '_', '_']]


[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
[['_', '_', '_'], ['_', '_', 'X'], ['_', '_', '_']]


In [6]:
# 不能在一个列表中 3 次引用同一个列表
weird_board = [['_'] * 3] * 3
print(weird_board)
 
weird_board[1][2] = 'O'
print(weird_board)

print('\n')

# 相当于
row = ['_'] * 3 
weird_board = [] 
for i in range(3): 
    weird_board.append(row) # 同一个 row 追加了3次

print(weird_board)
 
weird_board[1][2] = 'O'
print(weird_board)

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
[['_', '_', 'O'], ['_', '_', 'O'], ['_', '_', 'O']]


[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
[['_', '_', 'O'], ['_', '_', 'O'], ['_', '_', 'O']]


In [9]:
l = [1, 2, 3]
print(f'{id(l)}: {l}')

l *= 2 # 追加
print(f'{id(l)}: {l}')

print('\n')

t = (1, 2, 3)
print(f'{id(t)}: {t}')

t *= 2 # 新建
print(f'{id(t)}: {t}')

2056869615296: [1, 2, 3]
2056869615296: [1, 2, 3, 1, 2, 3]


2056869448832: (1, 2, 3)
2056865188928: (1, 2, 3, 1, 2, 3)


## list.sort 与内置函数 sorted
list.sort 方法就地排序列表，即不创建副本。返回值为 None，目的就是提醒我们，它更改了接收者， 没有创建新列表。这是 Python API 的一个重要约定：就地更改对象的函数或方法应该返回 None，让调用方清楚地知道接收者已被更改，没有创建新对象。

与之相反，内置函数 sorted 返回创建的新列表。该函数接受任何可迭代对象作为参数，包括不可变序列和生成器。

In [16]:
fruits = ['grape', 'raspberry', 'apple', 'Banana']
sorted(fruits)

['Banana', 'apple', 'grape', 'raspberry']

In [11]:
fruits # 原列表没变

['grape', 'raspberry', 'apple', 'banana']

In [12]:
sorted(fruits, reverse=True)

['raspberry', 'grape', 'banana', 'apple']

In [13]:
# 按长度排序
sorted(fruits, key=len)

['grape', 'apple', 'banana', 'raspberry']

In [17]:
# 忽略大小写
sorted(fruits, key=str.lower)

['apple', 'Banana', 'grape', 'raspberry']

In [19]:
fruits.sort()
fruits # 改变了原列表

['Banana', 'apple', 'grape', 'raspberry']

## 当列表不适用时

In [21]:
from array import array

In [None]:
### 数组
# 如果一个列表只包含数值，那么使用 array.array 会更高效。
# Python 不允许向数组中添加与指定类型不同的值。

# 从 Python3.10 开始，array 类型没有列表那种就地排序方法 sort。如果需要对数组进行排序，请使用内置函数 sorted 重新构建数组。
a = array.array(a.typecode, sorted(a))

In [26]:
# memoryview
# 内置的 memoryview 类是一种共享内存的序列类型，可在不复制字节的情况下处理数组的切片。

# 创建一个 6 字节数组
octets = array('B', range(6))
# 根据这个数组创建一个 memoryview 对象
m1 = memoryview(octets)
print(m1.tolist())

# 根据前一个 memoryview 对象构建一个新 memoryview 对象，不过是 2 行 3 列
m2 = m1.cast('B', [2, 3])
print(m2.tolist())

m3 = m1.cast('B', [3, 2])
print(m3.tolist())

m2[1,1] = 22
m3[1,1] = 33

# 证明 octets、m1、m2 和 m3 之间的内存是共享的
print(m2.tolist())
print(m3.tolist())
print(octets)


[0, 1, 2, 3, 4, 5]
[[0, 1, 2], [3, 4, 5]]
[[0, 1], [2, 3], [4, 5]]
[[0, 1, 2], [33, 22, 5]]
[[0, 1], [2, 33], [22, 5]]
array('B', [0, 1, 2, 33, 22, 5])


In [36]:
# NumPy
import numpy as np

# 构建一个从整数 0 到 11 的 numpy.ndarray 对象
a = np.arange(12)
print(a)
print(type(a))
# 查看数组的维度：这是一个一维数组，含有 12 个元素
print(a.shape)

# 改变数组的维度：增加一个维度
a.shape = 3, 4
print(a)
print(a.shape)

print(a[2])
print(a[2, 1])
# 获取索引位 1 上的列
print(a[:, 1])

# 转置数组（行列交换），创建一个新数组
# print(a.transpose)
a.transpose

[ 0  1  2  3  4  5  6  7  8  9 10 11]
<class 'numpy.ndarray'>
(12,)
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
(3, 4)
[ 8  9 10 11]
9
[1 5 9]


<function ndarray.transpose>

In [6]:
# NumPy 还支持一些高级操作，例如加载、保存和操作 numpy.ndarray对象的所有元素
from random import random, seed
seed(10)  # Use seed to make the output consistent

with open('floats-1M-lines.txt', 'wt') as fp:
    for _ in range(1_000_000):
        fp.write(f'{random()}\n')

In [10]:
import numpy as np

floats = np.loadtxt('floats-1M-lines.txt')
# 使用序列切片表示法查看最后 3 个数
print(floats[-3:])

# 把 floats 数组中的每个元素都乘以 .5
floats *= .5
print(floats[-3:])

# 导入高分辨率性能衡量计时器
from time import perf_counter as pc

# 把每个元素除以 3。1000 万个浮点数耗时不超过 40 毫秒
t0 = pc()
floats /= 3
print(pc() - t0)

# 把数组保存到一个 .npy 二进制文件中
np.save('floats-1M', floats)

# 以内存映射文件的形式把数组加载到另一个数组中。即使文件较大，内存放不下，这样做也能高效处理数组切片
floats2 = np.load('floats-1M.npy', 'r+')
floats2 *= 6
print(floats2[-3:])

[0.09401318 0.24871    0.52655976]
[0.04700659 0.124355   0.26327988]
0.0010980000001836743
[0.09401318 0.24871    0.52655976]


In [17]:
### Deques and Other Queues
import collections

# 可选的 maxlen 参数设定 deque 实例中最多允许存放多少项。 
# maxlen 也是 deque 实例的一个只读属性
dq = collections.deque(range(10), maxlen=10)
print(dq)

# 轮转，当 n > 0，从右端取几项放到左端；当 n < 0，从左端取几项放到右端
dq.rotate(3)
print(dq)

dq.rotate(-4)
print(dq)

# 向已满（len(d) == d.maxlen）的 deque 对象中的一端追加几项，则另一端要丢弃几项。注意下一行，可以看到 0 没有了
dq.appendleft(-1)
print(dq)

# 在右端添加 3 项，把左端前 3 项 -1、1 和 2 挤出队列
dq.extend([11, 22, 33])
print(dq)

# 注意，extendleft(iter) 依次把 iter 参数中的各项追加到 deque 对象的左端，因此项之间的位置顺序得到保留
dq.extendleft([10, 20, 30, 40])
print(dq)

deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6], maxlen=10)
deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 0], maxlen=10)
deque([-1, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
deque([3, 4, 5, 6, 7, 8, 9, 11, 22, 33], maxlen=10)
deque([40, 30, 20, 10, 3, 4, 5, 6, 7, 8], maxlen=10)


In [19]:
# 聪明的 key
l = [28, 14, '28', 5, '9', '1', 0, 6, '23', 19]

try:
    sorted(l)
except TypeError as e:
    print(repr(e))

print(sorted(l, key=int))
print(sorted(l, key=str))

TypeError("'<' not supported between instances of 'str' and 'int'")
[0, '1', 5, 6, '9', 14, 19, '23', 28, '28']
[0, '1', 14, 19, '23', 28, '28', 5, 6, '9']
