# 第二部分 数据结构

# 第二章 序列构成的数组




## 内置序列类型概览

+ 容器序列: list/tuple/collections.deque 可以存放不同类型的数据
+ 扁平序列: str/bytes/bytearray/memoryview/array.array 只能容纳一种类型

+ 可变序列：list/bytearray/array.array/collections.deque/memoryview
+ 不可变序列: tuple/str/bytes

> 容器序列存储的只是引用，而扁平序列直接是一段连续的内存空间


## 列表推导和列表生成式

In [1]:
x = 'ABC'
[x for x in x]

['A', 'B', 'C']

Python会忽略(),[],{}中的换行，因此不必特意地写\

In [2]:
colors = ['black', 'white']
sizes =['S', 'M', 'L']
tshits = [(color, size) for color in colors
                        for size in sizes]
tshits

[('black', 'S'),
 ('black', 'M'),
 ('black', 'L'),
 ('white', 'S'),
 ('white', 'M'),
 ('white', 'L')]

### 生成器表达式

生成器表达式背后遵守了迭代器协议，可以逐个地产生元素，因此显得更加节省内存。

In [3]:
symbols = '$%GYA'
tuple(ord(symbol) for symbol in symbols)


(36, 37, 71, 89, 65)

In [4]:
import array
array.array('I', (ord(symbol) for symbol in symbols))


array('I', [36, 37, 71, 89, 65])

## 元组不仅仅是不可变的列表



### 元组拆包

+ 擅用 `_` 占位符来替代不需要的元素
+ 擅用 `*` 来进行函数的传参, 同时可以获取不确定数量的参数


### 元组嵌套

In [1]:
a,b,*s = range(5)
a,b,s

(0, 1, [2, 3, 4])

In [2]:
a,*s,b,c = range(5)
a,s,b,c

(0, [1, 2], 3, 4)

In [9]:
metro_areas = [
    ('Tokyo', 'JP', 36.933, (35.689722, 139.691667)),
    ("Delhi NCR", "IN", 21.935, (28.1778, 77.208889)),
    ("Mexico City", 'MX', 20.104, (40.808611, -74.03036))
]

print('{:15}  | {:^9}  | {:^9}'.format('', 'lat.', 'long.'))
fmt = '{:15}  | {:9.4f}  | {:9.4f}'
for name, cc, pop, (latitude, longtitude) in metro_areas:
    if longtitude >=0:
        print(fmt.format(name, latitude, longtitude))

                 |   lat.     |   long.  
Tokyo            |   35.6897  |  139.6917
Delhi NCR        |   28.1778  |   77.2089


### namedtuple
创建的实例所消耗的内存与元组是一样的，因为字段名都被存在对应的类里面。这个实例跟普通的对象实例比起来也要小一点，因为Python不会用__dict__来存放这些实例的属性

In [10]:
from collections import namedtuple
City = namedtuple('City', 'name country population coordinates')

In [12]:
tokyo = City('Tokyo', 'JP', 36.933, (35.6897, 139.691667))
tokyo

City(name='Tokyo', country='JP', population=36.933, coordinates=(35.6897, 139.691667))

In [14]:
City._fields

('name', 'country', 'population', 'coordinates')

In [20]:
Latlong = namedtuple('Latlong', 'lat log') # 俩维的nametuple
delhi_data = ("Delhi NCR", "IN", 21.935, Latlong(28.1778, 77.208889))
delhi = City(*delhi_data)
delhi

City(name='Delhi NCR', country='IN', population=21.935, coordinates=Latlong(lat=28.1778, log=77.208889))

In [21]:
dehi_2 = City._make(delhi_data)
dehi_2

City(name='Delhi NCR', country='IN', population=21.935, coordinates=Latlong(lat=28.1778, log=77.208889))

In [22]:
# 将nametuple转化为ordereddict
dehi_2._asdict()

OrderedDict([('name', 'Delhi NCR'),
             ('country', 'IN'),
             ('population', 21.935),
             ('coordinates', Latlong(lat=28.1778, log=77.208889))])

## 切片

### 为什么切片和区间会忽略最后一个元素

+ 对于只有最后一个位置信息时，通过切片直接可以知道有多少个元素，如: `range(3), list[:3]`
+ 对于有起始元素的，可以计算end-start得到元素个数
+ 有助于将序列切分为不重叠的两个部分: `my_list[:20], my_list[20:]`

左闭右开

In [3]:
l = [20,30,45,23,89,12]
l[:2], l[2:], l[2:4]

([20, 30], [45, 23, 89, 12], [45, 23])

### 对对象进行切片
[start:end:间隔]

In [7]:
"asnkjnkjnkjn"[5:1:-1]

'njkn'

In [9]:
# 切片对象命名，之后进行复用
top2 = slice(0,2)
top5 = slice(0,5)

lines = "anskknjkn ansjknasnkaskj asnuiniuqwni"
for item in lines.split():
    print(item[top2], item[top5])

an anskk
an ansjk
as asnui


### 2.4.3 多维切片与省略

Python标准库只支持单一的索引，成对出现的索引是没有的。numpy中`a[i,j]`，其实是以元组形式来接收，即调用`a.__getitem__((i,j))`

+ 省略

numpy 中,若a是四维数组，可以使用`a[i:,...]`来表示`a[i:,:,:,:]`

### 2.4.4 给切片赋值

对切片进行赋值是，赋值语句的右侧必须是一个可迭代对象，即使只有单独一个值，也要将它转化为可迭代对象。

In [10]:
l = list(range(10))
l

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [11]:
l[2:3] = [5, 89]
l

[0, 1, 5, 89, 3, 4, 5, 6, 7, 8, 9]

In [12]:
l[5:7] = 100

TypeError: can only assign an iterable

In [13]:
l[5:7] = [100]
l

[0, 1, 5, 89, 3, 100, 6, 7, 8, 9]

## 序列的增量赋值

+= 背后的特殊方法是 `__iadd__`，但是如果一个类没有实现这个功能的话，Python会退一步调用`__add__`

+ 可变序列一般都有这个方法，所以他也是就地改动。
+ 对不可变序列进行拼接的话，效率会比较低，因为每次都要新建一个对象。


In [14]:
t = (1, 2, [30, 40])
t[2] += [50,60]

TypeError: 'tuple' object does not support item assignment

In [15]:
t

(1, 2, [30, 40, 50, 60])

+ 不要把可变对象放在元组里；
+ 增量操作不是一个原子操作，它虽然抛出了异常，可还是完成了操作


## 2.7 list sort 和 sorted的区别
如果一个函数或者方法对对象进行的是就地改动，那它就应该返回None

In [16]:
fruits = ['grape', 'raspberry', 'apple', 'banana']
sorted(fruits)

['apple', 'banana', 'grape', 'raspberry']

In [18]:
fruits.sort(key=len)
fruits

['grape', 'apple', 'banana', 'raspberry']

## bisect

In [1]:
import bisect
import sys

In [27]:
HAYSTACK = [1, 4, 5, 6, 8, 12, 15, 20, 21, 23, 26, 29, 30]
NEEDLES = [0, 1, 2, 5, 8, 10, 22, 23, 29, 30, 31]

ROW_FORMAT = '{0:2d} @ {1:2d}    {2}{0:<2d}'

def demo(bisect_fn):
    for needle in reversed(NEEDLES):
        position = bisect_fn(HAYSTACK, needle)
        offset = position * '  |'
       
        print(ROW_FORMAT.format(needle, position, offset))

In [28]:
print('haystack ->', ' '.join('%2d' % n for n in HAYSTACK))
demo(bisect.bisect_left)

haystack ->  1  4  5  6  8 12 15 20 21 23 26 29 30
31 @ 13      |  |  |  |  |  |  |  |  |  |  |  |  |31
30 @ 12      |  |  |  |  |  |  |  |  |  |  |  |30
29 @ 11      |  |  |  |  |  |  |  |  |  |  |29
23 @  9      |  |  |  |  |  |  |  |  |23
22 @  9      |  |  |  |  |  |  |  |  |22
10 @  5      |  |  |  |  |10
 8 @  4      |  |  |  |8 
 5 @  2      |  |5 
 2 @  1      |2 
 1 @  0    1 
 0 @  0    0 


In [29]:
print('haystack ->', ' '.join('%2d' % n for n in HAYSTACK))
demo(bisect.bisect)

haystack ->  1  4  5  6  8 12 15 20 21 23 26 29 30
31 @ 13      |  |  |  |  |  |  |  |  |  |  |  |  |31
30 @ 13      |  |  |  |  |  |  |  |  |  |  |  |  |30
29 @ 12      |  |  |  |  |  |  |  |  |  |  |  |29
23 @ 10      |  |  |  |  |  |  |  |  |  |23
22 @  9      |  |  |  |  |  |  |  |  |22
10 @  5      |  |  |  |  |10
 8 @  5      |  |  |  |  |8 
 5 @  3      |  |  |5 
 2 @  1      |2 
 1 @  1      |1 
 0 @  0    0 


### bisect.insort

In [30]:
import bisect
import random

SIZE=7

random.seed(1200)

my_list=[]
for i in range(SIZE):
    new_item = random.randrange(SIZE*2)
    bisect.insort(my_list, new_item)
    print('%2d  -> '%new_item, my_list)

 4  ->  [4]
 9  ->  [4, 9]
 5  ->  [4, 5, 9]
 1  ->  [1, 4, 5, 9]
12  ->  [1, 4, 5, 9, 12]
10  ->  [1, 4, 5, 9, 10, 12]
10  ->  [1, 4, 5, 9, 10, 10, 12]


In [34]:
import bisect
import random

SIZE=7

random.seed(1200)

my_list=[]
for i in range(SIZE):
    new_item = random.randrange(SIZE*2)
    bisect.insort(my_list, new_item)
    print('{0:2d}  -> '.format(new_item), my_list)

 4  ->  [4]
 9  ->  [4, 9]
 5  ->  [4, 5, 9]
 1  ->  [1, 4, 5, 9]
12  ->  [1, 4, 5, 9, 12]
10  ->  [1, 4, 5, 9, 10, 12]
10  ->  [1, 4, 5, 9, 10, 10, 12]


## 当列表不是首选时

### 数组

如果我们只需要一个包含数字的列表，那么array.array比list高效。

In [19]:
from array import array
from random import random

In [20]:
floats = array('d', (random() for i in range(10**7)))
floats[-1]

0.30302345686766585

### 内存视图

一个内置类，可以让用户在不复制内容的情况下操作同一个数组的不同切片。

In [22]:
numbers = array('h', [-2, -1, 0, 1, 2])
memv = memoryview(numbers)
len(memv)

5

In [23]:
memv[4] = 12
numbers

array('h', [-2, -1, 0, 1, 12])

### 双向队列和其他形式的队列

虽然list可以进行append和pop来模拟栈和队列，但是删除第一个元素，或者添加在列表开头等操作十分耗时。
双向队列是一个线程安全、可以快速在两端添加与删除元素的数据类型。

In [24]:
from collections import deque

In [25]:
dq = deque(range(10), maxlen=10)
dq

deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [26]:
dq.rotate(3) # 进行旋转,最右边的3个元素会被移动到队列的左边。当n小于0的时候，最左边的n个元素会被移动到右边
dq

deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6])

In [27]:
dq.appendleft(-1)
dq

deque([-1, 7, 8, 9, 0, 1, 2, 3, 4, 5])

In [28]:
dq.extend([11,12])
dq

deque([8, 9, 0, 1, 2, 3, 4, 5, 11, 12])

In [29]:
dq.extendleft([56,34])
dq

deque([34, 56, 8, 9, 0, 1, 2, 3, 4, 5])

+ `queue`: 线程安全类Queue，LifQueue，PriorityQueue。如果队列满了，就会被锁住，知道另外的线程移除了某个元素而腾出位置。很适合用来控制活跃线程的数量；
+ `multiprocessing`：和Queue类似，是设计给进程间通信用的。
+ `asyncio`: 为异步编程李的任务管理提供了专门的便利；
+ `heapq`: heapq没有队列类，而是提供了heappush和heappop方法，让用户可以把可变序列当做堆队列或者优先队列来使用。