# 序列构成的数组

## Python的内置序列类型

Python内置了相当丰富的序列类型

若按照存储的方式区分，可以分为容器序列和扁平序列。**值得注意的是这里所谓的容器序列和扁平序列实际上是作者自创的名称**。
其中容器序列实际上描述的是允许存放其他对象的序列，例如list中可以存放list，即一个对象中包含其他对象的引用。相对的，扁平序列实际上指的是不能够存放其他对象，仅能存放数值、字符的序列类型。

* 容器序列
    * list
    * tuple
    * collections.deque
* 扁平序列
    * str
    * bytes
    * memoryview
    * array.array

在Python中容器序列存放的是其存储内容的引用，这意味着Python中的容器序列能够存放不同类型的数据；而Python中的扁平序列则存放的是值，通常仅能存放字符、字节以及数值等基础类型的数据。

若按照能否被修改进行区分，则可以分为可变序列以及不可变序列

* 可变序列
    * list
    * bytearray
    * array.array
    * collections.deque
    * memoryview
* 不可变序列
    * tuple
    * str
    * bytes

容器(Container)、迭代(iterable)以及空间大小(Sized)构成了序列的基石。不可变序列在此基础上添加各类查询以及统计方法(\_\_getitem\_\_等)。可变序列则在不可变序列的基础上添加各类删改以及排序方法(insert, append, reverse等)

## 列表推导和生成器表达式

### 列表推导
列表推导是一种创建列表的快捷方式，生成器表达式则可以用来创建其他任何类型的序列。

列表推导的语法很简单：

```Python
[statements for i in iter]
```

列表推导主要是以相当简单的形式创建了一个列表。当然，利用其他函数，例如filter、map以及zip之类的方法也能很快的创建。从可读性来说，直接使用列表推导创建列表是比较简单且明了的方式。

列表推导中可以有复数个iter，例如
```Python
colors = ["black", "white"]
sizes = ["S", "M", "L"]
tshirts = [(color, size) for color in colors for size in sizes]
```

当然，列表推导可以有大于等于2个iter，但是此时可能写成普通的for循环形式更易于阅读

### 生成器表达式

列表推导仅可以用于生成列表。若想要生成其他类型的序列，一种选择是首先生成列表，然后转换为其他序列类型；其次还可以直接生成对应类型的序列，即利用生成器表达式。

直接生成对应类型的序列最为明显的好处是：避免多余的内存开销。若将生成器表达式作为iter用于循环中，则会每次生成对应的数据，而不是先生成整个序列存放到内存中然后从对应位置读取数据。对于大规模数据来说，这样显然可以有效避免不必要的内存开销。

In [1]:
# -------------- 列表推导测试 -------------- 
colors = ["black", "white"]
sizes = ["S", "M", "L"]
tshirts = [(color, size) for color in colors for size in sizes]
print(tshirts)
tshirts_2 = [(color, size) for size in sizes for color in colors]
print(tshirts_2)

[('black', 'S'), ('black', 'M'), ('black', 'L'), ('white', 'S'), ('white', 'M'), ('white', 'L')]
[('black', 'S'), ('white', 'S'), ('black', 'M'), ('white', 'M'), ('black', 'L'), ('white', 'L')]


## 元组

元组最大的特征是其不可变性。不可变性实际上暗含多种含义，其一是元组记录的值不会改变，**其二是元组记录的值的顺序不会改变**。第二条相当重要，但是常被忽略。有些时候单纯的数值没有意义，只有结合值与该值在序列中的位置才会有明确的意义（例如经纬度记录，抑或是按照一定顺序采集到的数据）。

### 元组拆包（Unpacking）

元组能够很方便的进行拆包以提取特定位置的数据，不需要的数据则可以使用_占位符以确保拆包正确。

拆包可以以多种方式进行：
* 平行赋值：对于一个可迭代对象，使用相同数量的变量接收其中的元素
* \* 运算符拆包：\* 可以将一个可迭代对象拆包并作为传入函数的参数
* \* 运算符处理剩余元素：\* 除了可以拆包可迭代对象外，还可以用于接收不确定数量的拆包结果（非常神奇的功能，类似于*args。对于同一个赋值表达式的左式最多仅能使用一个\*，并且带有\*运算符的变量总会自动接受合适数量的拆包结果）

#### 嵌套拆包

嵌套元组也可以进行拆包，只需要使用足够的变量接收拆包结果即可

### 具名元组

有些情况下，我们希望元组能带有一个可以解释各位置数据的含义的字段。collections.namedtuple即可实现这一功能(collections.namedtuple实际上创建了一个类)。使用collections.namedtuple创建的类的实例可以使用对应的字段名或者索引来获取对应的值。此外，还有如下常用功能：
* ._fields：返回包括所有字段名称的元组
* ._make()：接受一个可迭代对象以生成一个实例
* ._asdict()：将具名元组以collections.OrderedDict形式返回 —— [(key1, value1), (key2, value2), ...]

In [11]:
# --------------- 平行赋值 --------------- 
lax_coordinates = (33.3, 44.4)
latitude, longitude = lax_coordinates
print(latitude, longitude)

# --------------- *运算符拆包 --------------- 
def add_func(x1, x2):
    return x1 + x2

input_data = (1, 2)
output_value = add_func(*input_data)
print(output_value)

# --------------- *运算符处理剩余元素 --------------- 
a, b, *c = range(5)
print(a, b, c)
a, *b, c = range(5)
print(a, b, c)
*a, b, c = range(5)
print(a, b, c)

# --------------- 嵌套元组拆包 ---------------

name, cc, pop, (latitude, longitude) = ("Tokyo", "JP", 36.33, (35.7, 139.7))
print(name, cc, pop, latitude, longitude)

# --------------- 具名元组 ---------------
from collections import namedtuple

City = namedtuple("City", "name country population coordinates")
# tokyo = City("Tokyo", "JP", 36.33, (35.7, 139.7))
tokyo = City._make(("Tokyo", "JP", 36.33, (35.7, 139.7)))
print(tokyo._fields)
print(tokyo._asdict())

33.3 44.4
3
0 1 [2, 3, 4]
0 [1, 2, 3] 4
[0, 1, 2] 3 4
Tokyo JP 36.33 35.7 139.7
('name', 'country', 'population', 'coordinates')
OrderedDict([('name', 'Tokyo'), ('country', 'JP'), ('population', 36.33), ('coordinates', (35.7, 139.7))])


## 切片

切片是操作序列类型数据的重要操作

### Python中进行切片会忽略最后一个元素的原因

* 能够快速识别切片区间内的元素数量（若包含最后一个元素，计数的时候需要注意在头尾索引相减的基础上+1）
* 能够快速定位切片的索引值（主要感觉还是因为在这些语言中0是计数的起始下标）
* 更够很轻松的将一个序列拆分为不重叠的两个子序列（若首尾都包含，在进行拆分时需要额外考虑切片位置的索引）

### 具有名称标识的切片操作

```Python
slice(startIndex, endIndex, step=1)
```

这个用法很实用，主要是能够对切片操作进行单独的定义。方便对不同的序列使用相同的切片操作进行切片。同样的，slice对象也会忽略最后一个元素

### 多维切片和省略

多维切片在处理实际数据时经常用到，例如处理图像数据或者更高维的数据。Python内置的序列类型均是一维的，**因此内置的序列类型仅支持一维的**。

总的来说，若想实现多维切片，需要实现\_\_getitem__和\_\_setitem__。前者用于读取数据，后者用于赋值。

省略符号（...）则被用于省略无需额外指定的参数。例如，对于一个四维数组，若仅对第一维和最后一维进行切片，在Numpy可以写为：
```Python
test_list[i, ..., j]
test_list[i:j, ..., k:z]
```

### 赋值

切片同样可以用于删改数据。值得注意的是，对于内置序列类型，**若赋值的对象是一个切片，则赋值语句的右侧也必须是一个可迭代对象**；但是在Numpy等库中，则可以直接用单个数值对切片进行赋值，这一操作主要依赖Numpy等库中的broadcast机制；基于broadcast机制，一些shape没有完全对应上的情况在Numpy中也可以进行赋值和运算

In [26]:
# --------------- 简单切片 ---------------
test_list = [i for i in range(10)]
print("\n 切片：")
print(test_list[:3], test_list[3:])

# --------------- slice对象切片 ---------------
slice_obj = slice(1, 3)
print("\n slice对象切片：")
print(test_list[slice_obj])

# --------------- ...符号使用 ---------------
import numpy as np

test_array = np.zeros((4, 4, 4, 4))
slice_list = test_array[1:3, ..., :1]
print("\n...省略：")
print("原数组shape：{}\n新数组shape：{}".format(test_array.shape, slice_list.shape))

# --------------- 赋值 ---------------

test_array = np.zeros((4,))

test_array2 = np.zeros((4,4))

print("\nNumpy Array赋值：")
print(test_array)
print(test_array + 1)
print(test_array2[:1, :] + np.ones((4)))

test_list = [1, 2, 3, 4]
print("\n内置list类型使用非可迭代对象赋值（报错）：")
test_list += 1


 切片：
[0, 1, 2] [3, 4, 5, 6, 7, 8, 9]

 slice对象切片：
[1, 2]

...省略：
原数组shape：(4, 4, 4, 4)
新数组shape：(2, 4, 4, 1)

Numpy Array赋值：
[0. 0. 0. 0.]
[1. 1. 1. 1.]
[[0. 0. 0. 0.]]

内置list类型使用非可迭代对象赋值（报错）：


TypeError: 'int' object is not iterable

## + & *

Python内置的序列支持+和*
注意：**可变序列以及不可变序列均支持这些操作**，因为这些操作本质上并不是修改原序列，而是创建一个新的序列。原位操作(*=，+=)对于可变序列以及不可变序列也均是可行的，可变序列进行原位操作后会直接修改原来的序列，**不可变序列进行原位操作虽然不会报错，但是实际上是创建了一个新序列**。

不同于内置的序列，Numpy由于主要是运算，因此+和*在Numpy中会被视为算数运算符，此时是对原Array中值的修改。

内置序列使用\*或者+进行操作时，要尤其注意是对"值"进行的操作还是对"引用"进行的操作。对于内置序列a，若a中的元素是其他可变对象的引用，进行\*或者+操作实际上是对引用进行的操作，**这会导致严重的问题**。

### 一个有趣的极限情况

```Python
test_tuple = (1, 2, [3, 4])
test_tuple[2] += [5, 6]
```

上述操作按理来说应当是直接报错，因为元组中的元素不可赋值。但是实际情况是报错的同时，元组包含的列表被修改了。

对上述代码的字节码进行分析可以发现，顺序执行了下述三个操作
1. 读取test_tuple[2]并将其存入栈顶，记为TOS
2. 完成操作TOS += [5, 6]
3. 将结果存入原位置：test_tuple[2] = TOS

其中，第二步是对list进行的操作，由于list是可变序列因此该操作不会报错；第三步是对tuple进行的操作，由于tuple是不可变序列，当尝试赋值时会抛出错误。但是tuple中存放的是list的引用，因此此时tuple中的list实际上已经被修改。

上述结果反映：
1. 将可变对象放置于不可变对象中是十分危险的操作
2. 上述操作不是原子操作，因此发生了上述既完成了操作又抛出了错误的结果。

In [1]:
# ---------------- 原位操作 ----------------
print("可变序列——list进行原位操作：")
test_list = [1, 2]
print("list原位操作前地址: ", id(test_list))
test_list += [1, 2]
print("list原位操作后地址: ",id(test_list))

print("\n不可变序列——tuple进行原位操作：")
test_tuple = (1, 2)
print("tuple原位操作前地址: ", id(test_tuple))
test_tuple += (1, 2)
print("tuple原位操作后地址: ",id(test_tuple))

# ---------------- 引用和值 -------------------
print("\n* 和 +处理多维序列：")

print("\n正确操作，此时多维序列中的每一个元素相互独立，互不影响")
board = [["_"] * 3 for i in range(3)]
print("赋值前")
print(board)
board[1][2] = "X"
print("赋值后")
print(board)

print("\n错误操作，此时多维序列中同一个指向同一个位置的引用被复制了多次")
board = [["_"] * 3] * 3
print("赋值前")
print(board)
board[1][2] = "X"
print("赋值后")
print(board)

# ---------------- +=的陷阱 -------------------

print("\n+=的陷阱：")
test_tuple = (1, 2, [30, 40])
print("对元组包含的list进行操作前：")
print(test_tuple)
try:
    test_tuple[2] += [50, 60]
except TypeError:
    print("抛出TypeError，对元组包含的list进行操作后")
    print(test_tuple)

可变序列——list进行原位操作：
list原位操作前地址:  1911764213384
list原位操作后地址:  1911764213384

不可变序列——tuple进行原位操作：
tuple原位操作前地址:  1911762902728
tuple原位操作后地址:  1911764201368

* 和 +处理多维序列：

正确操作，此时多维序列中的每一个元素相互独立，互不影响
赋值前
[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
赋值后
[['_', '_', '_'], ['_', '_', 'X'], ['_', '_', '_']]

错误操作，此时多维序列中同一个指向同一个位置的引用被复制了多次
赋值前
[['_', '_', '_'], ['_', '_', '_'], ['_', '_', '_']]
赋值后
[['_', '_', 'X'], ['_', '_', 'X'], ['_', '_', 'X']]

+=的陷阱：
对元组包含的list进行操作前：
(1, 2, [30, 40])
抛出TypeError，对元组包含的list进行操作后
(1, 2, [30, 40, 50, 60])


## 排序

Python内置了两种排序方式。对于可变序列list，Python允许使用list.sort()对list进行排序，此外还可以使用sorted()函数进行排序。值得注意的是，list.sort()的返回值是None，即这个方法总是在原list上进行，而sorted()则会创建一个新的对象作为返回值。

这两个内置方法均可以通过reverse参数控制排序方式（升序或降序），也可以通过key参数控制排序依赖的对比关键字

### 有序序列的元素查找以及插入

bisect模块提供了对有序序列进行元素查找以及插入的方法。其中bisect.bisect可以用于元素插入位置查找：寻找一个位置，使得插入待插入元素后，有序序列仍是有序的。bisect.insort函数则可以将元素插入有序序列中。

bisect()和insort()均有两种形式，分别被命名为_right，_left。若遇到相等的元素，_right会将元素插入到序列中相同值的元素的后面，而_left则会插入到前面。

In [13]:
fruits = ["grape", "raspberry", "apple", "banana"]

def sort_key(_str):
    count = 0
    
    for s in _str:
        if s == "p":
            count += 1
    
    return count

print("\nsorted()排序：")
print(sorted(fruits))
print("\nsorted()降序：")
print(sorted(fruits, reverse=True))
print("\n自定义排序方法，依照p字母的数量：")
print(sorted(fruits, key=sort_key, reverse=True))
print("\nlist.sort()排序：")
print(fruits.sort())
print(fruits)

# -------------- 有序序列的元素查找以及插入 ---------------

import bisect

haystack = [1, 4, 5, 6, 8, 12, 15, 20, 21, 23, 23, 26, 29, 30]
needles = [0, 1, 2, 5, 8, 10, 22, 29, 30, 31]

row_fmt = "{0:2d} @ {1:2d}   {2}{0:<2d}"

print("\n有序序列元素插入位置查找")
print("haystack ->", " ".join("%2d" % n for n in haystack))
for needle in reversed(needles):
    position = bisect.bisect(haystack, needle)
    offset = position * "  |"
    print(row_fmt.format(needle, position, offset))


sorted()排序：
['apple', 'banana', 'grape', 'raspberry']

sorted()降序：
['raspberry', 'grape', 'banana', 'apple']

自定义排序方法，依照p字母的数量：
['apple', 'grape', 'raspberry', 'banana']

list.sort()排序：
None
['apple', 'banana', 'grape', 'raspberry']

有序序列元素插入位置查找
haystack ->  1  4  5  6  8 12 15 20 21 23 23 26 29 30
31 @ 14     |  |  |  |  |  |  |  |  |  |  |  |  |  |31
30 @ 14     |  |  |  |  |  |  |  |  |  |  |  |  |  |30
29 @ 13     |  |  |  |  |  |  |  |  |  |  |  |  |29
22 @  9     |  |  |  |  |  |  |  |  |22
10 @  5     |  |  |  |  |10
 8 @  5     |  |  |  |  |8 
 5 @  3     |  |  |5 
 2 @  1     |2 
 1 @  1     |1 
 0 @  0   0 


## 数组

数组专为处理仅包含同类数值类型数据的场合设计。Python自带的数组基本上支持所有和可变序列相关的操作，此外还提供快速存读的方法（array.frombytes 和 array.tofile）

不同于Numpy中定义的array，Python内置的数组类型不能处理多维数组。

Python array的创建方式很简单，除了传入数据外，还需要指定存储类型 —— 这和Numpy array的初始化类似。

```Python
test_array = array(type, data)
```

### 内存视图（memoryview）

实际上提供了一种在不需要赋值内容的前提下，实现不同数据结构之间的内存共享。即指定一块区域，能够使用不同的方式去存读数据，例如可以以list的形式创建一个序列，然后以Numpy array的形式去处理这个序列，而不需要额外再创建一个包含相同内容的新array。

## 双向队列

collections.deque类可以很方便的创建双向队列，用于快速进行队列两端添加或者删除元素的操作。其基本操作如下，还是很简单的，有需要的时候再详细阅读。

In [21]:
from collections import deque

dq = deque(range(10), maxlen=10)
print(dq)
# ------------------ 旋转元素 ------------------0
print("\n将后3个数移动到队列头部:")
dq.rotate(3)
print(dq)
print("\n将前4个数移动到队列尾部:")
dq.rotate(-4)
print(dq)
print("\n从头部添加元素：")
dq.appendleft(-1)
print(dq)
print("\n从尾部添加元素：")
dq.append(-1)
print(dq)
print("\n从尾部逐项添加元素：")
dq.extend([10, 20, 30, 40])
print(dq)
print("\n从头部逐项添加元素：")
dq.extendleft([10, 20, 30, 40])
print(dq)

deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)

将后3个数移动到队列头部:
deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6], maxlen=10)

将前4个数移动到队列尾部:
deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 0], maxlen=10)

从头部添加元素：
deque([-1, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)

从尾部添加元素：
deque([1, 2, 3, 4, 5, 6, 7, 8, 9, -1], maxlen=10)

从尾部逐项添加元素：
deque([5, 6, 7, 8, 9, -1, 10, 20, 30, 40], maxlen=10)

从头部逐项添加元素：
deque([40, 30, 20, 10, 5, 6, 7, 8, 9, -1], maxlen=10)


## 总结

1. 不同任务需求应当使用不同的序列类型进行数据存储。仅能存放数值或是字符的序列类型，例如str、array.array能够以更快的速度执行操作并且在相同规模数据的前提下能够减少内存开销。能存放其他对象的引用的序列类型，例如list、tuple等则更灵活，但是灵活有时会带来一些意想不到的问题，同时，这些序列类型执行操作的速度更慢，内存开销也更大。
2. 列表推导和生成器表达式提供了灵活而易读的初始化序列方法
3. 元组作为不可变序列，其存储的值以及对应的索引均是重要的数据。拆包则可以安全且可靠的从元组中提取数据，同时*运算符的引入能够更好的处理不需要的拆包结果。具名元组namedtuple的引入则在记录数据的同时也记录了对应的名称，这在处理某些问题时是必要的（若不使用具名元组则可能使用dict之类的方法去存储名称和索引之间的关系）。值得注意的是，Python中的元组不仅仅是一种元素不可变的记录工具，其同样是一种序列类型和可迭代类型，也能够利用索引进行元素的提取和切片 —— **牺牲了概念上的纯粹性，以换取实际使用中的灵活性**
4. 切片是序列中的重要操作，slice()方法则可以为切片操作建立相应的对象，以方便对不同的数据进行相同的切片操作。此外，Python原生的序列类型仅支持一维序列，而Numpy等库的引入则可以方便处理多维序列，这在实际应用中显然是非常关键的
5. 排序是非常重要的操作，Python提供了sorted()函数以及某些序列类型自带.sort()方法以执行排序。key这一参数的设置则可以很方便的设置排序依照的规则。