## 内置序列类型概览
序列型数据共有的特征：**迭代、切片、排序、拼接**.

从数学上说，存放东西的容器有很多，例如向量（存放的元素是数）、矩阵、集合，对于向量与矩阵，我们要求其中存放的东西只能是同类型的数，而对于集合我们不要求它是同一类的，就像一个袋子，什么东西都可以往里放.Python中实现了类似的数据结构：
- 容器类型【可以存放不同数据类型】
    - ```list```
```PYTHON
L=[1,2,"A"]
```
    - ```tuple```
```PYTHON
(1,2,'A')
```
    - ```set```
```python
{1,2,'A',2} # 集合类型会自动去重
```   
    -```collections.deque```队列

In [30]:
from collections import deque
d = deque(['A', 'B', 'C', 'D'])
d.append('E')
print("d:",d)
print("-"*35)

d.appendleft('f')
print("左添加:",d)
print("-"*35)

print("弹出最右边:",d.pop())
print("d:",d)
print("-"*35)

print("逆序:",deque(reversed(d)))
print("-"*35)

print("清空:",d.clear())

d: deque(['A', 'B', 'C', 'D', 'E'])
-----------------------------------
左添加: deque(['f', 'A', 'B', 'C', 'D', 'E'])
-----------------------------------
弹出最右边: E
d: deque(['f', 'A', 'B', 'C', 'D'])
-----------------------------------
逆序: deque(['D', 'C', 'B', 'A', 'f'])
-----------------------------------
清空: None


- 扁平类型

```str```、```bytes```、```bytearray```、```memoryview``` 和 ```array.array```，这类序列只能容纳一种类型.

>[注] 
>
>Python 3最重要的新特性之一是对字符串和二进制数据流做了明确的区分。
>
>文本总是Unicode，由str类型表示，二进制数据则由bytes类型表示。Python 3不会以任意隐式的方式混用str和bytes，你不能拼接字符串和字节流，也无法在字节流里搜索字符串（反之亦然），也不能将字符串传入参数为字节流的函数（反之亦然）。


In [41]:
A = "学习"
print("A 的类型:",type(A))
# bA = b"学习" 这样会报错，因为bytes只能编码ASCII
bA = b"ABC"
print("bA 的类型:",type(bA))

b = bytes(A, encoding = 'utf-8') # 通过这样可以将str，非ASCII转换为bytes
print(b)

A 的类型: <class 'str'>
bA 的类型: <class 'bytes'>
b'\xe5\xad\xa6\xe4\xb9\xa0'


需要注意以下几点
1. 在将字符串存入磁盘和从磁盘读取字符串的过程中，Python自动地帮你完成了编码和解码的工作，你不需要关心它的过程。

2. 使用bytes类型，实质上是告诉Python，不需要它帮你自动地完成编码和解码的工作，而是用户自己手动进行，并指定编码格式。

3. Python已经严格区分了bytes和str两种数据类型，你不能在需要bytes类型参数的时候使用str参数，反之亦然。这点在读写磁盘文件时容易碰到。

容器序列存放的是它们所包含的任意类型的对象的引用，而扁平序列里存放的是值而不是引用。换句话说，扁平序列其实是一段连续的内存空间。

在python中，有些序列中的值是不能修改的，按照这个区别分类可以分为**可变类型**与**不可变类型**.

- ✅可变序列

```list```、```bytearray```、```array.array```、```collections.deque``` 和 ```memoryview```.

- ❌不可变序列

```tuple```、```str``` 和 ```bytes```
下图展现了不可变类型与可变类型的继承关系：

![jupyter](./image/图2-1可变序列与不可变序列.png)


## 列表推导（list comprehension）和生成器表达式（generator expression）

列表推导式就是你在看大多数Github大牛代码时，看不懂的一个主要原因，因为他是一种简便写法.对于一般的列表循环，如打印列表所有元素，学过循环你肯定会写：

In [43]:
for i in range(5):
    print(i)

0
1
2
3
4


如果我们希望将它存成一个list，那么可以写成：

In [48]:
A = []
for i in range(5):
    A.append(i)
print(A)

[0, 1, 2, 3, 4]


如果用列表推导式可以更简单的写成:

In [49]:
[i for i in range(5)]

[0, 1, 2, 3, 4]

列表推导式的好处是利用for函数来生成一个新列表，满足某种性质，使用的场景一般是：**只用列表推导来创建新的列表，并且尽量保持简短**.有一个好消息是：Python3的列表推导式不会造成变量泄露的问题.

![](./image/图2-2Python3列表推导不会变量泄露.png)

不仅如此，列表推导还可以多重嵌套：
假如你有3件T恤衫A，B，C；另外还有4条裤子a，b，c，d.那么你的穿衣搭配一共有十二种，分别为：

In [2]:
Tshirt = ["A", "B", "C"]
Jeans = ["a", "b", "c", "d"]
len([(clothes, jeans) for clothes in Tshirt for jeans in Jeans])

12

更清晰可以这么写：

In [3]:
len([(clothes, jeans) for clothes in Tshirt 
                      for jeans in Jeans])

12

### map 与filter 用法
- **map**

顾名思义，```map```是一个映射，对于map(f,s)而言，相当于对序列s的每个元素作用f函数，其中f一般为一些默认的特殊方法或者lambda函数.


In [1]:
a = [3, 1, 4, 1, 5, 3, 2]
b = list(map(lambda x: x**2, a))
b

[9, 1, 16, 1, 25, 9, 4]

在map中，第一个参数是一个lambda函数，作用是把输入元素乘方，结果作为输出.第二个参数就是可迭代序列a，a的每一个元素都会经过lambda函数变成另一个数字.所有经过lambda函数的数字的输出都作为map函数的输出，形成一个可迭代序列.然后用list函数把可迭代序列变成list形式.


- **filter**

```filter```可以理解为一种滤波器，对于filter(f,s)而言，f代表一个判断函数(条件)，只有s中的条件满足这个条件，才能被保留到结果中.

In [5]:
a = [3, 1, 4, 1, 5, 3, 2]
filter(lambda x: x>2, a)

<filter at 0x28bd255eee0>

In [6]:
a = [3, 1, 4, 1, 5, 3, 2]
b = list(filter(lambda x: x>2, a))
b

[3, 4, 5, 3]

In [7]:
a = [3, 1, 4, 1, 5, 3, 2]
b = tuple(filter(lambda x: x>2, a))
b

(3, 4, 5, 3)

需要注意的是，filter得到的结果是一个对象，只有用list、tuple类型的容器承接后，才能显式的表现出来.

通常，map与filter会结合在一起使用，例如对于上述的```a```，过滤出其中大于2的元素，并将这些元素平方可以写成：

In [11]:
list(map(lambda x: x**2, tuple(filter(lambda x: x>2, a))))

[9, 16, 25, 9]

事实上用列表推导有更简便的表达方式：

In [12]:
[x**2 for x in a if x>2]

[9, 16, 25, 9]

如果想生成其他类型的序列，例如数组、元组等，我们可以用**生成器表达式**
### 生成器表达式
用生成器表达式初始化元组和数组.

In [5]:
symbols = '$¢£¥€¤'
tuple(ord(symbol) for symbol in symbols)


(36, 162, 163, 165, 8364, 164)

In [6]:
import array
array.array('I', (ord(symbol) for symbol in symbols))

array('I', [36, 162, 163, 165, 8364, 164])

In [7]:
{ord(symbol) for symbol in symbols}

{36, 162, 163, 164, 165, 8364}

有一点需要注意的是，生成器表达式比列表推导式节省内存空间！因为生成器表达式会在每次 for 循环运行时才生成一个组合

In [9]:
['%s %s' % (t, j) for t in Tshirt for j in Jeans]

['A a',
 'A b',
 'A c',
 'A d',
 'B a',
 'B b',
 'B c',
 'B d',
 'C a',
 'C b',
 'C c',
 'C d']

In [8]:
('%s %s' % (t, j) for t in Tshirt for j in Jeans) 

<generator object <genexpr> at 0x0000028F15F12270>

生成器表达式与列表推导不同的是，生成器产生的不是一个具体的数据结构，而是一个生成器对象，因此并不会每次都占用大量空间

## 元组
一个元组实际上是类似于“数据库”中的一条记录，怎么理解呢，例如书中的例子2-7：

![](./image/图2-3元组与记录.png)

当我们规定好每条记录相对应的字段，元组就是一条记录，数据库就可以用一个列表将所有元组存放进去.


### 元组拆包
元组拆包指的是，一个元组对应的本质上有多个信息，所以我们可以通过位置，对应的解析相应的位置的参数.我们看书中的一个例子.

我们知道，对于元组而言，它可以拆开赋值，如下面所示:

In [16]:
name, age, gender, weight = ("Mike", 50, "Male", 80)
print("{}'s weight:{}".format(name,weight))

Mike's weight:80


上面这种操作就被称之为拆包.

有了拆包，对于一个旅行者数据库，我们可以直接解析每个旅行者的第一个元素，既可以获得所有旅行者的国籍

In [17]:
traveler_ids = [('USA', '31195855'), ('BRA', 'CE342567'), ('ESP', 'XDA205856')]
for Contry, Id in traveler_ids:
    print(Contry)

USA
BRA
ESP


元组拆包可以应用到任何可迭代对象上，唯一的硬性要求是，被可迭代对象中的元素数量必须要跟接受这些元素的元组的空档数一致。除非我们用 ```*``` 来表示忽略多余的元素

- 平行拆包

**例子1** 对应位置解析

In [20]:
latitude, longitude = (33.9425, -118.408056)
print(latitude)
print(longitude)

33.9425
-118.408056


**例子2** 不使用中间变量交换两个值

In [21]:
a, b = 1, 2
b, a = a, b
print(a)
print(b)

2
1


**例子3** 用 ```*```运算符把一个可迭代对象拆开作为函数的参数

In [25]:
t = (20, 8)
divmod(*t)

(2, 4)

此外，在 Python 中，函数用 ```*args``` 来获取不确定数量的参数算是一种经典写法，例如在Pytorch中，对于可选参数，一般都会加上一个```*args```

**例子4** 使用占位符仅读取需要的元素

在进行拆包的时候，我们不总是对元组里所有的数据都感兴趣，_ 占位符能帮助处理这种情况

In [30]:
import os
_, filename = os.path.split('/Ch.2 Sequence.ipynb')
filename

'Ch.2 Sequence.ipynb'

在平行赋值中，* 前缀只能用在一个变量名前面，但是这个变量可以出现在赋值表达式的任意位置：

In [34]:
a, *body, c, d = range(5)
a, body, c, d

(0, [1, 2], 3, 4)

In [35]:
*head, b, c, d = range(5)
head

[0, 1]

- 嵌套拆包

**例子5** 用嵌套元组来获取经度

In [36]:
metro_areas = [
 ('Tokyo','JP',36.933,(35.689722,139.691667)), 
 ('Delhi NCR', 'IN', 21.935, (28.613889, 77.208889)),
 ('Mexico City', 'MX', 20.142, (19.433333, -99.133333)),
 ('New York-Newark', 'US', 20.104, (40.808611, -74.020386)),
 ('Sao Paulo', 'BR', 19.649, (-23.547778, -46.635833)),
]

for name, cc, pop, (latitude, longitude) in metro_areas:
    print(latitude)

35.689722
28.613889
19.433333
40.808611
-23.547778


事实上，如果要利用元组构造一个成熟的数据库，那么还需要给其中每个字段进行命名，下面我们介绍**具名元组**

### 具名元组```namedtuple```

In [37]:
from collections import namedtuple

创建一个具名元组需要两个参数，一个是类名，另一个是类的各个字段的名字。后者可以是由数个字符串组成的可迭代对象，或者是由空格分隔开的字段名组成的字符串。

In [40]:
City = namedtuple('City', 'name country population coordinates') 
tokyo = City('Tokyo', 'JP', 36.933, (35.689722, 139.691667))

In [41]:
tokyo

City(name='Tokyo', country='JP', population=36.933, coordinates=(35.689722, 139.691667))

In [43]:
tokyo.population

36.933

## 参考文献
[[1]Python3中的bytes和str类型](https://blog.csdn.net/lyb3b3b/article/details/74993327)

