# 第二部分 数据结构
## 第二章 序列构成的数组

### 数组操作
迭代、切片、排序、拼接

### 内置序列类型
* 容器序列：list tuple collections.deque
* 扁平序列：str bytes bytearray memoryview array.array

另一种分法：
* 可变序列：list、bytearray、array.array、collections.deque
* 不可变序列： tuple、string、bytes

# 列表推导式和生成器表达式
## 简洁和省内存

In [2]:
# 列表推导式
dummy = [ord(x) for x in 'ABCDEF']
print(dummy)

# 列表推导式作用只有一个：生成列表（list only）

[65, 66, 67, 68, 69, 70]


In [4]:
# 列表推导 vs map/filter方法
symbols = '$¢£¥€¤'
beyond_ascii = [ord(s) for s in symbols if ord(s) > 127]
print(beyond_ascii)

# map/filter
beyond_ascii_mf = list(filter(lambda c: c > 127, map(ord, symbols)))
print(beyond_ascii_mf)

[162, 163, 165, 8364, 164]
[162, 163, 165, 8364, 164]


In [5]:
# 生成器表达式
# 可以用表达式生成任意类型的序列！

"""
这是因为生成器表达式背后遵守了迭代器协议，可以逐个地产出元素，
而不是先建立一个完整的列表，然后再把这个列表传递到某个构造函数里。
前面那种方式显然能够节省内存。

方法和列表推导式一样，只是需要将中括号换成小括号。
"""
symbols = '$¢£¥€¤'
tuple(ord(symbol) for symbol in symbols)

(36, 162, 163, 165, 8364, 164)

In [8]:
# 生成器表达式可以避免浪费内存
# 笛卡尔的积
colors = ['black', 'white']
sizes = ['S','M','L']
for shirt in ('%s %s'%(C,S) for C in colors for S in sizes):
    print(shirt)
'''
生成器表达式逐个产出元素，从来不会一次性产出一个含有 6 个 T 恤样式的列表。
详细在14章
'''

black S
black M
black L
white S
white M
white L


# 元组
## 不可变和记录（拆包）

### Tuple Unpacking 元组拆包

In [112]:
# 拆包 Unpacking
pos = (20,30,50)
x,y,z = pos
print("x:%s,y:%s,z:%s"%(x,y,z))

x:20,y:30,z:50


In [14]:
# 交换其实也是unpacking的应用
a = 30
b = 50
print("a = %s,b = %s"%(a,b))

a,b = b,a

print("a = %s,b = %s"%(a,b))

a = 30,b = 50
a = 50,b = 30


In [18]:
# *运算符：把一个可迭代对象拆开作为函数的参数：
t = tuple((3,4))
print(t)
print(*t)

(3, 4)
3 4


In [20]:
# 函数用元组返回多个值
import os
_,filename = os.path.split('/home/liuzhongkai/.ssh/example.exe')
print(filename)

# 将不用的数据通常用单下划线代替

example.exe


In [21]:
# *args来处理剩下的元素（不知道具体几个）
a,b,*args = range(5)
a,b,args

# 这里的*arg可以是任意个参数，可以是0个也可以是多个

(0, 1, [2, 3, 4])

In [22]:
# 嵌套元组拆包
metro_area = [
    ('Tokyo','JP',36.933,(35.689722,139.691667)),
    ('Delhi NCR', 'IN', 21.935, (28.613889, 77.208889)), 
    ('Mexico City', 'MX', 20.142, (19.433333, -99.133333)), 
    ('New York-Newark', 'US', 20.104, (40.808611, -74.020386)), 
    ('Sao Paulo', 'BR', 19.649, (-23.547778, -46.635833)),
]
print('{:15} | {:^9} | {:^9}'.format('','lat.','long.'))
fmt = '{:15} | {:9.4f} | {:9.4f}'
for city, cc, pop, (latitude, longitude) in metro_area:
    if longitude < 0 :
        print(fmt.format(city,latitude,longitude))

                |   lat.    |   long.  
Mexico City     |   19.4333 |  -99.1333
New York-Newark |   40.8086 |  -74.0204
Sao Paulo       |  -23.5478 |  -46.6358


### 具名元组 collections.namedtuple

In [23]:
# 创建具名元组

from collections import namedtuple
Student = namedtuple('Student',['name','score']) 
# Student = namedtuple('Student','name score') 直接用一个字符串用空格隔开也行
Liu = Student('Liu','99')
Zhang = Student('Zhang','88')
print(Liu)
print(Zhang[0])
print(Zhang.score)

Student(name='Liu', score='99')
Zhang
88


In [30]:
# 具名元组的方法

# 所有名字
from collections import namedtuple
Student = namedtuple('Student',['name','score']) 
print(Student._fields)

# 转具名元组
Wang = ('Wang','78')
Wang_t = Student._make(Wang)
print(Wang_t)
Wang_s = Student(*Wang)  # 相同的方法
print(Wang_s)

# 转字典
Miao = Student('Miao','98')
Miao_d = Miao._asdict()
print(Miao_d)
print(type(Miao_d))

('name', 'score')
Student(name='Wang', score='78')
Student(name='Wang', score='78')
{'name': 'Miao', 'score': '98'}
<class 'dict'>


## 不可变序列

除了跟增减元素相关的方法之外，元组支持列表的其他所有方法。

# 切片

a:b:c 这种用法只能作为索引或者下标用在 [] 中来返回一个切片对象:slice(a, b, c)。在 10.4.1 节中会讲到，对seq[start:stop:step] 进行求值的时候，Python 会调用seq.__getitem__(slice(start, stop, step))。

In [46]:
# 切片对象slice（a，b，c）

invoice = """
0.....6................................40........52...55........
1909  Pimoroni PiBrella                    $17.50    3    $52.50
1489  6mm Tactile Switch x20                $4.95    2     $9.90
1510  Panavise Jr. - PV-201                $28.00    1    $28.00
1601  PiTFT Mini Kit 320x240               $34.95    1    $34.95
"""

Sku = slice(0,6)
Description = slice(6,40)
Unit_price = slice(40,52)
Quantity = slice(52,55)
Item_total = slice(55,None)

line_items = invoice.split('\n')[2:]

# print(line_items)

# print(line_items[0][Unit_price])

for item in line_items:
    print(item[Description],item[Quantity],item[Item_total])

Pimoroni PiBrella                   3     $52.50
6mm Tactile Switch x20              2      $9.90
Panavise Jr. - PV-201               1     $28.00
PiTFT Mini Kit 320x240              1     $34.95
  


In [75]:
# 多维切片

import numpy as np
a = [x for x in range(16)]
n = np.array(a)
n2 = n.reshape(4,4)
print(n2)
print('n2[2,2]   =',n2[2,2])
print('n2[2]     =',n2[2])
print('n2[2,...] =',n2[2,...])
print('n2[2,:]   =',n2[2,:])
print('n2[2,1:3] =',n2[2,1:3])

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
n2[2,2]   = 10
n2[2]     = [ 8  9 10 11]
n2[2,...] = [ 8  9 10 11]
n2[2,:]   = [ 8  9 10 11]
n2[2,1:3] = [ 9 10]


In [88]:
# 使用切片赋值

l = list(range(10))
print('l = ',l)

'''
如果赋值的对象是一个切片，那么赋值语句的右侧必须是个可迭代对象。
即便只有单独一个值，也要把它转换成可迭代的序列。
'''
l[5:6] = [10]
print('l = ',l)

l[5:8] = [55,66,77]
print('l = ',l)

l = list(range(10))
l[1::2] = [99,88,77,66,55] #赋值的数组必须和切片长度一致！
print('l = ',l)

l =  [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
l =  [0, 1, 2, 3, 4, 10, 6, 7, 8, 9]
l =  [0, 1, 2, 3, 4, 55, 66, 77, 8, 9]
l =  [0, 99, 2, 88, 4, 77, 6, 66, 8, 55]


# 序列使用+和*
\+ 和 \* 都遵循这个规律，不修改原有的操作对象，而是构建一个全新的序列。

**但是一旦数组中有引用时，\*得到的重复元素其实是指向同一块内存的**

## 建立由列表组成的列表

In [91]:
board = [['_'] * 3 for i in range(3)]
print(board)
board[1][2] = 'X'
print(board)

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
[['_', '_', '_'], ['_', '_', 'X'], ['_', '_', '_']]


In [94]:
# 上面的方法和这里的原理类似：

board = []
for i in range(3):
    row = ['_'] * 3 # 每次都是一个新的列表
    board.append(row)
    
print(board)
board[1][2] = 'X'
print(board)

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
[['_', '_', '_'], ['_', '_', 'X'], ['_', '_', '_']]


In [116]:
weird_board = [['_'] * 3] * 3
print(weird_board)
weird_board[1][2] = 'X'
print(weird_board)

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
[['_', '_', 'X'], ['_', '_', 'X'], ['_', '_', 'X']]


In [117]:
# 上面的方法和这里的方法原理类似：

row = ['_'] * 3
board = []
for i in range(3):
    board.append(row) # 每次都是在重复同一个列表

print(board)
board[1][2] = 'X'
print(board)

[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
[['_', '_', 'X'], ['_', '_', 'X'], ['_', '_', 'X']]


# 序列的增量赋值

+=：\_\_iadd\_\_

\*=: \_\_imul\_\_

可以实现就地赋值

但是对于不可变序列，如元组，是返回一个新的元组

In [96]:
# 可变序列
l = [1,2,3,4]
print("id(l) = ",id(l))
l *= 2
print('l = ',l)
print("id(l) = ",id(l))

id(l) =  140663209138048
l =  [1, 2, 3, 4, 1, 2, 3, 4]
id(l) =  140663209138048


In [97]:
# 不可变序列
t = (1,2,3,4)
print('id(t)',id(t))
t *= 2
print('t = ',t)
print('id(t)',id(t))

# 不可变序列做增量赋值的效率非常低。但是str除外。

id(t) 140663213029952
t =  (1, 2, 3, 4, 1, 2, 3, 4)
id(t) 140664688393408


In [98]:
# 一个奇怪的现象
t = (1,2,[30,40])
t[2] += [50, 60]

TypeError: 'tuple' object does not support item assignment

In [99]:
# 先运行上面的代码，会导致报错
# 但是打印t，我们会得到我们想得到的结果
print(t)

(1, 2, [30, 40, 50, 60])


In [101]:
# 查看字节码

dis.dis('t[a] += b')

NameError: name 'dis' is not defined

* 不要把可变对象放在元组里面。
* 增量赋值不是一个原子操作。我们刚才也看到了，它虽然抛出了异常，但还是完成了操作。
* 查看 Python 的字节码并不难，而且它对我们了解代码背后的运行机 制很有帮助。

# 序列排序

- list.sort : 就地排序
- sorted ： 返回一个新的排序序列

**排序算法——Timsort——是稳定的，意思是就算两个元素比不出大小，在每次排序的结果里它们的相对位置是固定的。**

In [102]:
fruits = ['grape','raspberry','apple','banana']

In [106]:
# 会返回一个新的排序列表
sorted(fruits, reverse=True)

['raspberry', 'grape', 'banana', 'apple']

In [104]:
# 列表依然没有变化
fruits

['grape', 'raspberry', 'apple', 'banana']

In [107]:
# 参数key需要传入只有一个参数的函数。这个函数会被用在序列的每一个元素上。
sorted(fruits, reverse=True, key=len)

['raspberry', 'banana', 'grape', 'apple']

In [110]:
# 使用列表的就地排序
fruits.sort()
fruits

['apple', 'banana', 'grape', 'raspberry']

In [111]:
# 有同样的两个参数
fruits.sort(reverse=False,key=len)
fruits

['apple', 'grape', 'banana', 'raspberry']

# 管理已经排序的序列-bisect 

你可以先用 bisect(haystack, needle) 查找位置 index，再用haystack.insert(index, needle) 来插入新值。 但你也可用 insort 来一步到位，并且后者的速度更快一些。

## bisect 搜索

In [125]:
import bisect

HAYSTACK = [1, 4, 5, 6, 8, 12, 15, 20, 21, 23, 23, 26, 29, 30] 
NEEDLES = [0, 1, 2, 5, 8, 10, 22, 23, 29, 30, 31]
ROW_FMT = '{0:2d} @ {1:2d} {2}{0:<2d}'
print('haystack', ' '.join('%2d' %n for n in HAYSTACK))
for needle in reversed(NEEDLES):
    position = bisect.bisect(HAYSTACK, needle)# 插入右边的位置（后面）
    offset = position * '  |'
    print(ROW_FMT.format(needle, position, offset))

haystack  1  4  5  6  8 12 15 20 21 23 23 26 29 30
31 @ 14   |  |  |  |  |  |  |  |  |  |  |  |  |  |31
30 @ 14   |  |  |  |  |  |  |  |  |  |  |  |  |  |30
29 @ 13   |  |  |  |  |  |  |  |  |  |  |  |  |29
23 @ 11   |  |  |  |  |  |  |  |  |  |  |23
22 @  9   |  |  |  |  |  |  |  |  |22
10 @  5   |  |  |  |  |10
 8 @  5   |  |  |  |  |8 
 5 @  3   |  |  |5 
 2 @  1   |2 
 1 @  1   |1 
 0 @  0 0 


In [126]:
import bisect

HAYSTACK = [1, 4, 5, 6, 8, 12, 15, 20, 21, 23, 23, 26, 29, 30] 
NEEDLES = [0, 1, 2, 5, 8, 10, 22, 23, 29, 30, 31]
ROW_FMT = '{0:2d} @ {1:2d} {2}{0:<2d}'
print('haystack', ' '.join('%2d' %n for n in HAYSTACK))
for needle in reversed(NEEDLES):
    position = bisect.bisect_left(HAYSTACK, needle)# 插入左边的位置（前面）
    offset = position * '  |'
    print(ROW_FMT.format(needle, position, offset))

haystack  1  4  5  6  8 12 15 20 21 23 23 26 29 30
31 @ 14   |  |  |  |  |  |  |  |  |  |  |  |  |  |31
30 @ 13   |  |  |  |  |  |  |  |  |  |  |  |  |30
29 @ 12   |  |  |  |  |  |  |  |  |  |  |  |29
23 @  9   |  |  |  |  |  |  |  |  |23
22 @  9   |  |  |  |  |  |  |  |  |22
10 @  5   |  |  |  |  |10
 8 @  4   |  |  |  |8 
 5 @  2   |  |5 
 2 @  1   |2 
 1 @  0 1 
 0 @  0 0 


In [128]:
import bisect

def grade(score, breakpoints=[60,70,80,90], grades='FDCBA'):
    i = bisect.bisect(breakpoints, score)
    return grades[i]

grade_result = [grade(s) for s in [56,66,70,74,83,90,94]]
print(grade_result)

['F', 'D', 'C', 'C', 'B', 'A', 'A']


## insort 插入

In [130]:
import bisect
import random

SIZE = 7

my_list = []

for i in range(SIZE):
    new_item = random.randrange(SIZE * 2)
    bisect.insort(my_list, new_item)
    print('%2d -> '%new_item, my_list)

 8 ->  [8]
 2 ->  [2, 8]
 1 ->  [1, 2, 8]
10 ->  [1, 2, 8, 10]
13 ->  [1, 2, 8, 10, 13]
13 ->  [1, 2, 8, 10, 13, 13]
 4 ->  [1, 2, 4, 8, 10, 13, 13]


# 当列表不是首选时

如果只存浮点数float，使用数组（array），进行了优化，背后存的是机器翻译。

如果需要频繁对序列做先进先出的操作，deque（双端队列）速度应该会更快。

如果需要频繁检查一个元素是否出现在一个序列中，set（几何）会更合适。（第三章详解）

## 数组

用 array.fromfile 从一个二进制文件里读出 1000 万个双精度浮点数只需要 0.1 秒，这比从文本文件里读取的速度要快 60 倍，因为后者会使用内置的 float 方法把每一行文字转换成浮点数。
另外，使用 array.tofile 写入到二进制文件，比以每行一个浮点数
的方式把所有数字写入到文本文件要快 7 倍。另外，1000 万个这样的 数在二进制文件里只占用 80 000 000 个字节(每个浮点数占用 8 个字 节，不需要任何额外空间)，如果是文本文件的话，我们需要 181 515 739 个字节。

In [133]:
from array import array
from random import random
floats01 = array('d', (random() for i in range(10**7))) # 'd'表示双精度浮点
print('floats01[-1] = ', floats01[-1])

# wirte to bin file
fp = open('floats.bin','wb')
floats01.tofile(fp)
fp.close()

# read from bin file
floats02 = array('d') # 空的，双精度浮点
fp = open('floats.bin', 'rb')
floats02.fromfile(fp, 10**7) #需要知道长度
fp.close()
print('floats02[-1] = ', floats02[-1])

floats01[-1] =  0.499502400161294
floats02[-1] =  0.499502400161294


## memoryview 内存视图

在不复制内容的情况下操作同一个数组的不同切片

In [147]:
from array import array
import sys
numbers = array('h', [-2,-1,0,1,2]) # 'h' 带符号整数类型
memv = memoryview(numbers)
sys.getsizeof(memv)

184

In [141]:
memv_oct = memv.cast('B') # 'B'无符号字符
memv_oct.tolist()

[254, 255, 255, 255, 0, 0, 1, 0, 2, 0]

In [146]:
sys.getsizeof(memv_oct[0])

28

In [142]:
memv_oct[5] = 4
memv_oct.tolist()

[254, 255, 255, 255, 0, 4, 1, 0, 2, 0]

In [143]:
memv.tolist()

[-2, -1, 1024, 1, 2]

# 队列

## 双向队列 和 其他形式的队列

# 双向队列

collections.deque 类(双向队列)是一个线程安全、可以快速从 两端添加或者删除元素的数据类型。

In [155]:
from collections import deque
dq = deque(range(10), maxlen=10)
dq

deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [156]:
dq.rotate(3)
dq

deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6])

In [157]:
dq.rotate(-4)
dq

deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 0])

In [158]:
dq.appendleft(-1)
dq

deque([-1, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [159]:
dq.extend([11,22,33])
dq

deque([3, 4, 5, 6, 7, 8, 9, 11, 22, 33])

In [160]:
dq.extendleft([10,20,30,40])
dq

deque([40, 30, 20, 10, 3, 4, 5, 6, 7, 8])