# 数据结构

## 元组

占位符：

In [1]:
a, _ = (3, 4)
a

3

使用 \* 处理剩下元素：

In [2]:
a, b, *rest = range(5)
rest

[2, 3, 4]

In [3]:
a, b, *rest = range(3)
rest

[2]

In [4]:
a, b, *rest = range(2)
rest

[]

\* 前缀只能用在一个变量名前，但是这个变量可以出现在赋值表达式的任意位置：

In [5]:
a, *body, c, d = range(5)
body

[1, 2]

In [6]:
*head, b, c, d = range(5)
head

[0, 1]

嵌套元组拆包：

In [7]:
name, cc, pop, (latitude, longitude) = ('Tokyo', 'JP', 36.933, (35.689722, 139.691667))
name, cc, pop, latitude, longitude

('Tokyo', 'JP', 36.933, 35.689722, 139.691667)

## 具名元组

In [8]:
from collections import namedtuple
Point = namedtuple('Point', ['x', 'y'])
p = Point(1, 2)
"x: {}, y: {}".format(p.x, p.y)

'x: 1, y: 2'

除了从普通元组继承来的属性之外，具名元祖还有一些自己专用的属性：

In [9]:
Point._fields  # _fields 属性包含这个类所有字段名称的元组

('x', 'y')

In [10]:
data = (3, 4)
pt = Point._make(data)  # 作用等效于 Point(*data)
pt._asdict()

OrderedDict([('x', 3), ('y', 4)])

## 列表

切片操作里不包含区间范围的最后一个元素是 Python 的风格，这个习惯带来的好处如下：
- 当只有最后一个位置信息时，可以快速看出有几个元素：`range(3)` 和 `my_list[:3]` 都返回 3 个元素
- 当起止位置信息都可见时，可以快速计算出区间长度，即 `stop - start`
- 可以利用任意一个下标把序列分割成不重叠的两部分，只需写成：`my_list[:3]` 和 `my_list[3:]`

In [11]:
s = 'bicycle'
s[::3]

'bye'

In [12]:
s[::-1]  # 反序

'elcycib'

In [13]:
s[:]     # 复制序列

'bicycle'

切片赋值：

In [14]:
l = list(range(10))
l

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [15]:
l[2:5] = [20, 30]
l

[0, 1, 20, 30, 5, 6, 7, 8, 9]

In [16]:
del l[5:7]
l

[0, 1, 20, 30, 5, 8, 9]

In [17]:
l[3::2] = [11, 22]
l

[0, 1, 20, 11, 5, 22, 9]

In [18]:
try:
    l[2:5] = 100
except Exception as e:
    print(e)

can only assign an iterable


In [19]:
l[2:5] = [100]
l

[0, 1, 100, 22, 9]

## bisect

使用 `bisect` 来搜索：

In [20]:
import bisect
def grade(score, breakpoints=[60, 70, 80, 90], grades='FDCBA'):
    i = bisect.bisect(breakpoints, score)
    return grades[i]

[grade(score) for score in [33, 99, 77, 70, 89, 90, 100]]

['F', 'A', 'C', 'C', 'B', 'A', 'A']

使用 `bisect` 插入新元素：

In [21]:
import bisect
import random
random.seed(1729)
SIZE = 20
my_list = []
for i in range(SIZE):
    new_value = random.randrange(SIZE*2)
    bisect.insort(my_list, new_value)
    
my_list    

[0, 2, 3, 9, 10, 11, 13, 18, 18, 23, 23, 25, 26, 29, 29, 31, 32, 33, 35, 39]

## 数组

如果需要一个只包含数字的列表，使用 `array.array` 比 `list` 更高效。

创建数组需要一个类型码，用来表示底层的 C 语言应存放怎样的数据类型。

In [22]:
from array import array
from random import random
floats = array('d', (random() for i in range(1000)))  # 'd' 表示双精度浮点
floats[-1]

0.970088201571867

## 内存视图

memoryview 是一个内置类，能让用户在不复制内容的情况下，在数据结构之间共享内存，这个功能在处理大型数据集合时非常重要。

In [23]:
# 通过改变数组中的一个字节来更新数组里某个元素的值
import array
numbers = array.array('h', [-2, -1, 0, 1, 2])  # 'h' 表示 16 位二进制整数
memv = memoryview(numbers)

# memoryview.cast 会把同一块内存里的内容打包成一个全新的 memoryview
memv_oct = memv.cast('B')   # 'B' 表示无符号字符
memv_oct[5] = 4
numbers

array('h', [-2, -1, 1024, 1, 2])

## 双向队列

collection.deque 是一个线程安全，可以快速从两端添加或删除元素的数据类型。

使用 list 存储数据时，按索引访问元素很快，但是插入和删除元素就很慢了，因为 list 是线性存储，数据量大的时候，插入和删除效率很低。 
deque 是为了高效实现插入和删除操作的双向列表，适合用于队列和栈。

如果想要一种数据结构来存放“最近用到的几个元素”，deque 是一个很好的选择。

In [24]:
from collections import deque
dq = deque(range(10), maxlen=10)
dq

deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [25]:
dq.rotate(3)
dq

deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6])

In [26]:
dq.rotate(-4)
dq

deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 0])

In [27]:
dq.appendleft(-1)
dq

deque([-1, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [28]:
dq.extend([11, 22, 33])
dq

deque([3, 4, 5, 6, 7, 8, 9, 11, 22, 33])