# 5. 数据结构
[https://docs.python.org/zh-cn/3.8/tutorial/datastructures.html](https://docs.python.org/zh-cn/3.8/tutorial/datastructures.html)

列表 append 和 extend 区别:

- list.append(x)  在列表的末尾添加一个元素。相当于 a[len(a):] = [x] 
- ist.extend(iterable) 使用可迭代对象中的所有元素来扩展列表。相当于 a[len(a):] = iterable 。

In [1]:
lst = [1,2,3]
lst.append(4)
print(lst)
lst.extend([5,6,7])
print(lst)

[1, 2, 3, 4]
[1, 2, 3, 4, 5, 6, 7]


列表其他方法


In [11]:
fruits = ['orange', 'apple', 'pear', 'banana', 'kiwi', 'apple', 'banana']

print("insert" + "-------->")
fruits.insert(0,'aaa')
fruits.insert(2,'aaa')
print(fruits)

print("remove" + "-------->")
# 移除列表中第一个值为 x 的元素。如果没有这样的元素，则抛出 ValueError 异常
fruits.remove('aaa')
print(fruits)

print("pop" + "-------->")
# 删除列表中给定位置的元素并返回它。如果没有给定位置，a.pop() 将会删除并返回列表中的最后一个元素
a = fruits.pop(1)
b = fruits.pop()
print(a)
print(b)
print(fruits)

print("index" + "-------->")
# 返回列表中第一个值为 x 的元素的从零开始的索引。如果没有这样的元素将会抛出 ValueError 异常
i1 = fruits.index('apple')
# 用于将搜索限制为列表的特定子序列。返回的索引是相对于整个序列的开始计算的，而不是 start 参数。
i2 = fruits.index('apple',1,4)
print(i1,i2)

print("count" + "-------->")
c = fruits.count('apple')
print(c)

print("sort" + "-------->")
fruits.sort(reverse=True)
print(fruits)

print("reverse" + "-------->")
fruits.reverse()
print(fruits)

print("copy" + "-------->")
cf = fruits.copy()
cf[0] = 'aaa'
print(fruits)
print(cf)


insert-------->
['aaa', 'orange', 'aaa', 'apple', 'pear', 'banana', 'kiwi', 'apple', 'banana']
remove-------->
['orange', 'aaa', 'apple', 'pear', 'banana', 'kiwi', 'apple', 'banana']
pop-------->
aaa
banana
['orange', 'apple', 'pear', 'banana', 'kiwi', 'apple']
index-------->
1 1
count-------->
2
sort-------->
['pear', 'orange', 'kiwi', 'banana', 'apple', 'apple']
reverse-------->
['apple', 'apple', 'banana', 'kiwi', 'orange', 'pear']
copy-------->
['apple', 'apple', 'banana', 'kiwi', 'orange', 'pear']
['aaa', 'apple', 'banana', 'kiwi', 'orange', 'pear']


### 5.1.1. 列表作为栈使用

In [12]:
lst = []
lst.append(1)
lst.append(2)
lst.append(3)
print(lst)

print(lst.pop())
print(lst.pop())
print(lst.pop())
print(lst)

[1, 2, 3]
3
2
1
[]


### 5.1.2. 列表作为队列使用

列表用作这个目的相当低效

若要实现一个队列，可使用 `collections.deque`，
它被设计成可以快速地从两端添加或弹出元素

In [13]:
from collections import deque
queue = deque(['a','b','c'])
queue.append('d')
queue.append('e')
print(queue)

print(queue.popleft())
print(queue.popleft())

deque(['a', 'b', 'c', 'd', 'e'])
a
b


### 5.1.3. 列表推导式

列表推导式的结构是由一对方括号所包含的以下内容：

- 一个表达式，
- 后面跟一个 for 子句，
- 然后是零个或多个 for 或 if 子句。 

其结果将是一个新列表

In [15]:
tmp1 = [(i,j) for i in [1,2,3] for j in [3,1,2] if i!=j]
print(tmp1)

from math import pi
tmp2 = [str(round(pi, i)) for i in range(1, 6)]
print(tmp2)

[(1, 3), (1, 2), (2, 3), (2, 1), (3, 1), (3, 2)]
['3.1', '3.14', '3.142', '3.1416', '3.14159']


### 5.1.4. 嵌套的列表推导式

In [17]:
matrix = [
    [1, 2, 3, 4],
    [5, 6, 7, 8],
    [9, 10, 11, 12],
]

t1 = [[row[i] for row in matrix] for i in range(4)]
print(t1)

t2 = list(zip(*matrix))
print(t2)

[[1, 5, 9], [2, 6, 10], [3, 7, 11], [4, 8, 12]]
[(1, 5, 9), (2, 6, 10), (3, 7, 11), (4, 8, 12)]


## 5.2. del 语句

In [18]:
a = [-1, 1, 66.25, 333, 333, 1234.5]
del a[0]  # 索引
print(a)

del a[2:4]  # 切片
print(a)

del a[:] # 清空
print(a) 

# del 也可以删除整个变量
del a
print(a)

[1, 66.25, 333, 333, 1234.5]
[1, 66.25, 1234.5]
[]


NameError: name 'a' is not defined

## 5.3. 元组和序列

一个元组由几个被逗号隔开的值组成

- 索引
- 切片
- 可被嵌套
- 不可变
- 可以创建包含可变对象的元组

In [23]:
t1 = 'a','b','c'
print(t1.__class__)
print(t1)
print(t1[0])
print(t1[0:2])

t2 = t1,'d'
print(t2.__class__)
print(t2)

# t2[0] = 'aa'
# print(t2)

t3 = (['a'],['b'])
print(t3)

<class 'tuple'>
('a', 'b', 'c')
a
('a', 'b')
<class 'tuple'>
(('a', 'b', 'c'), 'd')
(['a'], ['b'])


元组和列表的区别

- 元组是 immutable ，其序列通常包含不同种类的元素，
并且通过解包或者索引来访问（如果是 namedtuples 的话甚至还可以通过属性访问）。

- 列表是 mutable ，并且列表中的元素一般是同种类型的，并且通过迭代访问。


构造包含0个或1个元素的元组

In [25]:
t1 = ()
t2 = 'a',
print(t1)
print(len(t1))
print(t2)
print(len(t2))

()
0
('a',)
1


元组打包和序列解包

解包操作的等号右侧可以是任何序列。

序列解包要求等号左侧的变量数与右侧序列里所含的元素数相同

In [26]:
t1 = 'a','b','c'
print(t1)
a,b,c = t1
print(a,b,c)

('a', 'b', 'c')
a b c


In [27]:
l = ['a','b','c']
a,b,c = l
print(a,b,c)

a b c


In [28]:
t1 = 'a','b','c'
for i in t1:
    print(i)

a
b
c


## 5.4. 集合


集合是由不重复元素组成的无序的集。

花括号或 set() 函数可以用来创建集合。

它的基本用法包括

- 成员检测
- 消除重复元素。

注意：要创建一个空集合你只能用 set() 而不能用 {}，因为后者是创建一个空字典

In [31]:
s1 = {'a','b','c'}
s2 = set('abc')
s3 = set()
s4 = {'a','b','c','a'}
print(s1)
print(s2)
print(s3)
print(s4)

if 'a' in s1:
    print('true')

l = ['a','b','c','a']
print(set(l))

{'c', 'a', 'b'}
set()
{'c', 'a', 'b'}
{'c', 'a', 'b'}
true
{'c', 'a', 'b'}


集合对象也支持像 联合，交集，差集，对称差分等数学运算。

In [32]:
s1 = {'a','b','c'}
s2 = {'a','d','e'}
print(s1-s2)  # letters in a but not in b
print(s1|s2)  # letters in a or b or both
print(s1&s2)  # letters in both a and b
print(s1^s2)  # letters in a or b but not both


{'c', 'b'}
{'a', 'b', 'd', 'c', 'e'}
{'a'}
{'c', 'b', 'e', 'd'}


集合也支持推导式形式

In [35]:
s = {i for i in range(10) if i!=1}
print(s)

{0, 2, 3, 4, 5, 6, 7, 8, 9}


## 5.5. 字典

一个 `键: 值` 对的集合，键必须是唯一的（在一个字典中）。

一对花括号可以创建一个空字典：{} 

键可以是任意【不可变类型】，通常是字符串或数字。

如果一个元组只包含字符串、数字或元组，那么这个元组也可以用作键。

但如果元组直接或间接地包含了可变对象，那么它就不能用作键。

列表不能用作键，因为列表可以通过索引、切片或 append() 和 extend() 之类的方法来改变。

In [38]:
d1 = {}
d2 = {1:'a'}
d3 = {'a':'a'}
d4 = {(1,'a'):'a'}
d5 = {(1,['a']):'a'} # TypeError: unhashable type: 'list'
# d6 = {[1]:'a'} # TypeError: unhashable type: 'list'
print(d1)
print(d2)
print(d3)
print(d4)
# print(d5)
# print(d6)

TypeError: unhashable type: 'list'

主要的操作是

- 使用关键字存储和解析值。
- 也可以用 del 来删除一个键值对。
- 如果你使用了一个已经存在的关键字来存储值，那么之前与这个关键字关联的值就会被遗忘。
- 用一个不存在的键来取值则会报错。
- 对一个字典执行 list(d) 将返回包含该字典中所有键的列表，按插入次序排列 (如需其他排序，则要使用 sorted(d))。
- 要检查字典中是否存在一个特定键，可使用 in 关键字。

In [42]:
d = {1:'a',2:'b',3:'c'}
print(d[1])

del d[3]
print(d)

d[1] = 'aa'
print(d)

# print(d[3]) # KeyError: 3

print(list(d))
print(sorted(list(d),reverse=True))

print(1 in d)

a
{1: 'a', 2: 'b'}
{1: 'aa', 2: 'b'}
[1, 2]
[2, 1]
True


dict() 构造函数可以直接从键值对序列里创建字典。

In [43]:
print(dict([('sape', 4139), ('guido', 4127), ('jack', 4098)]))

{'sape': 4139, 'guido': 4127, 'jack': 4098}


字典推导式可以从任意的键值表达式中创建字典

In [45]:
print({x: x**2 for x in (2, 4, 6)})

{2: 4, 4: 16, 6: 36}


当关键字是简单字符串时，有时直接通过关键字参数来指定键值对更方便

In [44]:
print(dict(sape=4139, guido=4127, jack=4098))

{'sape': 4139, 'guido': 4127, 'jack': 4098}


## 5.6. 循环的技巧

字典遍历

In [48]:
d = {1:'a',2:'b',3:'c'}

for k,v in d.items():
    print(k,v)
    
print("-----------")
for k in d.keys():
    print(k,d[k])
    
print("-----------")
for v in d.values():
    print(v)

1 a
2 b
3 c
-----------
1 a
2 b
3 c
-----------
a
b
c


序列遍历

In [52]:
# 列表
for index,item in enumerate(['a','b']):
    print(index,item)

print("-----------")
# 元组
for index,item in enumerate(('a','b')):
    print(index,item)

print("-----------")
# 集合
for index,item in enumerate({'a','b'}):
    print(index,item)

print("-----------")
# 字符串
for index,item in enumerate('ab'):
    print(index,item)

print("-----------")
# 字典
for index,item in enumerate({1:'a',2:'b'}):
    print(index,item)

0 a
1 b
-----------
0 a
1 b
-----------
0 a
1 b
-----------
0 a
1 b
-----------
0 1
1 2


当同时在两个或更多序列中循环时，可以用 zip() 函数将其内元素一一匹配。

In [53]:
questions = ['name', 'quest', 'favorite color']
answers = ['lancelot', 'the holy grail', 'blue']
print(zip(questions, answers))

for q, a in zip(questions, answers):
    print('What is your {0}?  It is {1}.'.format(q, a))


<zip object at 0x0000015D08246F40>
What is your name?  It is lancelot.
What is your quest?  It is the holy grail.
What is your favorite color?  It is blue.


如果要逆向循环一个序列，可以先正向定位序列，然后调用 reversed() 函数

In [None]:
for i in reversed(range(1, 10, 2)):
    print(i)

如果要按某个指定顺序循环一个序列，可以用 sorted() 函数，
它可以在不改动原序列的基础上返回一个新的排好序的序列

In [None]:
basket = ['apple', 'orange', 'apple', 'pear', 'orange', 'banana']
for f in sorted(set(basket)):
    print(f)

有时可能会想在循环时修改列表内容，一般来说改为创建一个新列表是比较简单且安全的

In [None]:
import math
raw_data = [56.2, float('NaN'), 51.7, 55.3, 52.5, float('NaN'), 47.8]
filtered_data = []
for value in raw_data:
    if not math.isnan(value):
        filtered_data.append(value)


## 5.7. 深入条件控制

while 和 if 条件句中可以使用任意操作，而不仅仅是比较操作。

In [2]:
if 1+2:
    print("---")

---


比较操作符 in 和 not in 校验一个值是否在（或不在）一个序列里。

操作符 is 和 is not 比较两个对象是不是同一个对象，这只对像列表这样的可变对象比较重要。

所有的比较操作符都有相同的优先级，且这个优先级比数值运算符低。

比较操作可以传递。例如 `a < b == c` 会校验是否 a 小于 b 并且 b 等于 c。

比较操作可以通过布尔运算符 and 和 or 来组合，

并且比较操作（或其他任何布尔运算）的结果都可以用 not 来取反。

这些操作符的优先级低于比较操作符；在它们之中，not 优先级最高， or 优先级最低，

因此 `A and not B or C` 等价于 (A and (not B)) or C。和之前一样，

你也可以在这种式子里使用圆括号。

布尔运算符 and 和 or 也被称为 短路 运算符：

它们的参数从左至右解析，一旦可以确定结果解析就会停止。

例如，如果 A 和 C 为真而 B 为假，那么 `A and B and C` 不会解析 C。

当用作普通值而非布尔值时，短路操作符的返回值通常是最后一个变量。

In [11]:
if '' and 'a':
    print("true")
else:
    print("false")
    
print("~~~~~~~~~~~~~~") 
if 'a' or '':
    print("true")
else:
    print("false")  

print("~~~~~~~~~~~~~~") 
print('' and 'a')
print('a' or '' or 'b')

false
~~~~~~~~~~~~~~
true
~~~~~~~~~~~~~~

a


把比较操作或者逻辑表达式的结果赋值给一个变量，例如

In [5]:
string1, string2, string3 = '', 'Trondheim', 'Hammer Dance'
non_null = string1 or string2 or string3
print(non_null)

non_null2 = string3 or string2 or string1  
print(non_null2)

Trondheim
Hammer Dance


## 5.8. 比较序列和其他类型

序列对象通常可以与相同序列类型的其他对象比较。 

这种比较使用 字典式 顺序：

- 首先比较开头的两个对应元素，如果两者不相等则比较结果就由此确定；

- 如果两者相等则比较之后的两个元素，以此类推，直到有一个序列被耗尽。 

- 如果要比较的两个元素本身又是相同类型的序列，则会递归地执行字典式顺序比较。 

如果两个序列中所有的对应元素都相等，则两个序列也将被视为相等。 

如果一个序列是另一个的初始子序列，则较短的序列就被视为较小（较少）。 

对于字符串来说，字典式顺序是使用 Unicode 码位序号对单个字符排序。 

下面是一些相同类型序列之间比较的例子:

```
(1, 2, 3)              < (1, 2, 4)
[1, 2, 3]              < [1, 2, 4]
'ABC' < 'C' < 'Pascal' < 'Python'
(1, 2, 3, 4)           < (1, 2, 4)
(1, 2)                 < (1, 2, -1)
(1, 2, 3)             == (1.0, 2.0, 3.0)
(1, 2, ('aa', 'ab'))   < (1, 2, ('abc', 'a'), 4)
```

注意对不同类型对象来说，只要待比较对象提供了合适的比较方法，就可以使用 < 和 > 来比较。

例如，混合数值类型是通过他们的数值进行比较的，所以 0 等于 0.0，等等。

否则，解释器将抛出一个 TypeError 异常，而不是随便给出一个结果。
