# 基本数据结构：进阶

在前面的学习中，我们已经掌握了Python的基本数据结构，如列表、元组和字典，了解了它们的创建、元素访问、修改以及遍历等基础操作，并且熟悉了列表推导式和字典推导式等高效构建数据结构的方法。

本章节将在此基础上，进一步介绍数据结构的一些进阶用法和相关的内置函数。主要内容包括：

1.  **嵌套数据结构**：学习如何构建和访问由基本数据结构相互嵌套形成的复杂数据结构。
2.  **排序专题**：深入讨论列表和字典的排序方法，特别是如何使用`key`参数和`lambda`函数实现自定义的复杂排序规则。
3.  **其他实用函数**：介绍`enumerate`、`zip`和`pop`等在数据处理中非常实用的函数及其应用场景。

掌握这些进阶技巧，能够帮助我们更灵活、更有效地处理和组织数据，为后续进行数据分析和应用开发奠定更坚实的基础。


## 嵌套数据结构

数据结构可以相互嵌套。比如List嵌套List，后面我们会知道这是表示矩阵的一种方式。

In [2]:
a = [[1,2,3],[3,5,1],[6,4,2]] # List of List
a[0] 

[1, 2, 3]

列表嵌套元组：

In [3]:
b = [('A',2),('B',3),('C',1)]
b[2]

('C', 1)

字典的值为列表或元组：

In [4]:
c = {'A':[1,2,3],'B':(3,4,5),'C':[2,3,4]}
c['B']

(3, 4, 5)

当然嵌套可以多层嵌套下去。

嵌套的数据结构，其取值的方法也和原来一样，按照索引或者key逐级排列即可。

In [5]:
a[0][1]

2

In [6]:
b[1][0]

'B'

In [7]:
c['B'][1]

4

## 排序专题

### 列表

列表的排序很简单

1. `sorted()`函数返回一个排序后的新列表，原列表不变。
2. 列表的`.sort()`方法，对原列表进行“原地排序”，不返回值，但原列表会改变。

In [8]:
a = [3,2,1,5]

In [9]:
print(sorted(a)) #返回排序后的新列表
print(a) # 注意sorted函数不会改变a

[1, 2, 3, 5]
[3, 2, 1, 5]


In [10]:
a.sort() # 原地排序，会改变a
print(a)

[1, 2, 3, 5]


逆序的话，需要加入`reverse=True`参数。

In [11]:
a = [2,5,1,3]

print(sorted(a, reverse=True)) # 逆序，sorted返回一个排序好的新列表，不改变原值
print(a) # a保持不变
a.sort(reverse=True) # 逆序，原地排序，这个方法不返回值。
print(a) # a已经被改变

[5, 3, 2, 1]
[2, 5, 1, 3]
[5, 3, 2, 1]


### 任意排序规则

对于嵌套数据结构和字典等等，我们可以构造任意的排序规则。例如，一个嵌套的List：

In [12]:
a = [['C',1,2],['A',3,1],['B',2,6]]
a

[['C', 1, 2], ['A', 3, 1], ['B', 2, 6]]

我们想根据每个子List的第二个元素来排序，需要用到参数`key`（上面两种排序方法都适用）

1. `key`参数接受一个函数
2. 这个函数接受List的一个元素，返回一个"可以比较大小的值"（比如一个数字）。

换句话说，你给出一个排序的凭据，要构造一个比较不同子List大小办法，这个办法的结果，体现在你要算出一个可比较的值，如一个数字。

落实到本例，如果只是比较第二个元素的大小，则直接返回第二个元素即可。

**注意**：是的，函数也是可以作为参数传递给另一个函数！你可以想象，sorted函数（将会在其内部）对列表a的每个元素，都调用一次get_2nd_item()，等于把a中的每个元素内部第二个子元素提取出来，然后按这个值来排序！


In [None]:
def get_2nd_item(x):
    return x[1]

# 你看到的没错！get_2nd_item是一个函数，我们把get_2nd_item传递给sorted，提供给后者使用！
# 等于说：hey，sorted函数！你就用get_2nd_item这个函数算出来的值来排序吧！
sorted(a, key=get_2nd_item)

[['C', 1, 2], ['B', 2, 6], ['A', 3, 1]]

也可以采用匿名函数，见前面的章节。

In [14]:
# 写成匿名函数的版本
sorted(a, key=lambda x: x[1]) 

[['C', 1, 2], ['B', 2, 6], ['A', 3, 1]]

有如，比如你要根据 “第2和第3个元素的和”来排序，你只要构造一个函数，返回这两者的和即可。

In [15]:
def sum_2_3(x):
    return x[1] + x[2]

print(a[0]) # 测试一下是否正常

sorted(a, key=sum_2_3)

['C', 1, 2]


[['C', 1, 2], ['A', 3, 1], ['B', 2, 6]]

In [16]:
# 写成匿名函数的版本
sorted(a, key=lambda x: x[1] + x[2])

[['C', 1, 2], ['A', 3, 1], ['B', 2, 6]]

### 字典排序

前面说过，字典大约也可以“看成”一个嵌套数据结构，以前面的字典c为例

In [17]:
c.items()

dict_items([('A', [1, 2, 3]), ('B', (3, 4, 5)), ('C', [2, 3, 4])])

注意到value是一个3个元素的List或者Tuple，我们要根据value的第一个元素来排序。

In [18]:
sorted_items = sorted(c.items(), key=lambda x: x[1][0])
sorted_items

[('A', [1, 2, 3]), ('C', [2, 3, 4]), ('B', (3, 4, 5))]

注意，其中x是一个字典中的item，即一个(key,value)对。那么x[0]就是key，x[1]就是value，x[1][0]就是value中的第一个元素了。

注意上面得到的是一个List of Tuple，即单纯的嵌套数据结构。如果需要转为字典，调用dict()函数即可（简单类型转换）

In [19]:
dict(sorted(c.items(), key=lambda x: x[1][0]))

{'A': [1, 2, 3], 'C': [2, 3, 4], 'B': (3, 4, 5)}

注意：在 Python 3.7 及更高版本中，字典会记住元素的插入顺序。因此，当我们将排序后的 `items()` 列表（它是一个有序的元组列表）转换回字典时，新的字典会保持这个排序后的顺序。 在 Python 3.6 及更早版本中，字典不保证顺序，所以这样做可能得不到一个按值排序的有序字典。

当然，大家当前的版本肯定都没问题。

最后，也可以用key参数实现多级排序。`lambda` 函数可以返回一个元组，Python 在比较元组时，会按元组中元素的顺序逐个比较。

例如：按成绩降序，成绩相同再按姓名升序。

In [20]:
data = [{'name': 'Alice', 'score': 85, 'age': 20},
        {'name': 'Bob', 'score': 92, 'age': 21},
        {'name': 'Clare', 'score': 85, 'age': 19}]

# 按分数降序，如果分数相同，则按年龄升序
sorted_data = sorted(data, key=lambda x: (-x['score'], x['age']))
# 注意：分数取负数来实现降序，年龄正常是升序
print(sorted_data)


[{'name': 'Bob', 'score': 92, 'age': 21}, {'name': 'Clare', 'score': 85, 'age': 19}, {'name': 'Alice', 'score': 85, 'age': 20}]


注意：同样为85分，Clare 年龄小，排在了 Alice 前面。

## 其他

### 枚举 enumerate函数

`enumerate()`函数一般用于遍历一个可迭代对象的时候，同时还可以获得对应的索引。

或者说，你遍历一个a_list = ['a','b','c']的时候，还想获得当前值是“第几个”，我们用以下循环

`for i,value in enumerate(a_list):`

In [21]:
a_list = list('apple')

for i,value in enumerate(a_list):
    print(i,value) # 此时，i就表示遍历过程中的索引

0 a
1 p
2 p
3 l
4 e


显然，和字典`.items()`类似，`enumerate(a_list)`也是获得可以 `[(index, value), (index, value), ...]`的序列。

注：`enumerate(a_list)`返回一个 enumerate 对象（迭代器），当你要具体访问其中的值时才会逐个产生；如果要打印出来看，需要转为 list（当然也可以转为字典）。

In [22]:
# 把a_list，转为带有索引的list
print(list(enumerate(a_list)))

# 把a_list，转为以index为key的字典
print(dict(enumerate(a_list)))

[(0, 'a'), (1, 'p'), (2, 'p'), (3, 'l'), (4, 'e')]
{0: 'a', 1: 'p', 2: 'p', 3: 'l', 4: 'e'}


进一步，可以获得“某个元素的索引”，比如问'p'是几号元素？

In [23]:
a_list = list('apple')
[i for i,value in enumerate(a_list) if value == 'p']

[1, 2]

### zip函数

把几个序列结构，每个元素对位组合，形成一个Tuple，再组成一个List。

注意：zip以最短的元素为主。

In [24]:
list1= ('a', 'b', 'c')
list2 = [1, 2, 3, 4]

print(list(zip(list1, list2)))
print(list(zip(list1, list2, list1))) # 可以组合不止2个序列

[('a', 1), ('b', 2), ('c', 3)]
[('a', 1, 'a'), ('b', 2, 'b'), ('c', 3, 'c')]


稍微发散一下，这不就是一个Dict的结构吗？所以可以直接转为字典。

In [25]:
dict(zip(list1, list2))

{'a': 1, 'b': 2, 'c': 3}

当然也可以多序列循环

In [26]:
for i, j in zip(list1, list2):
    print(i,j)

a 1
b 2
c 3


回忆函数的拆包操作，我把一个List（等）传递给一个函数，前面加一个*，就会自动把List中的元素逐一拆出来，传递给函数。

In [27]:
def add(a,b):
    return a + b

add(*[1,2]) # 对[1,2]进行拆包：按顺序传递给a和b

3

对于zip函数也可以这样做，比如你有一个序列

`a_list = [(1, 'one'), (2, 'two'), (3, 'three')]`

你希望第一位的元素组成序列，第二位的元素组成一个序列....

In [28]:
a_list = [(1, 'one'), (2, 'two'), (3, 'three')]
list(zip(*a_list))

[(1, 2, 3), ('one', 'two', 'three')]

In [29]:
x, y = list(zip(*a_list)) # 如果要赋值的话，可以这么写

### pop函数

`pop()`函数用于“返回并移除一个元素”，近似理解就是把队尾的一个元素“拿出来”。

对于List，默认是最后一个元素（队尾）。

In [30]:
a = list('apple')

print(a.pop()) # 获取最后一个元素，并删除。
print(a) # 最后一个元素已经删除

e
['a', 'p', 'p', 'l']


也可以指定index，比如拿出1号元素。

In [31]:
print(a.pop(1))
print(a)

p
['a', 'p', 'l']


对于 Dict，需要指定 key；`pop(key[, default])` 会返回对应的 value，并移除该键；提供 `default` 可避免 `KeyError`。

In [32]:
b = {'a': 1, 'b': 2, 'c': 3}

print(b.pop('b')) # 获取'b'对应的value，并删除'b'。
print(b) # 'b'已经删除

2
{'a': 1, 'c': 3}


## 更多练习

以下是同学的姓名，学号和考试分数的数据

```
names = ["Alice", "Bob", "Clare"]
ids = [101,102,103]
scores = [85, 92, 78]
```

1. 构建一个字典data，其中key是名字，value是另一个字典key和value是id和score以及对应的值。

构建出来大概是这样：
`{'Alice': {'id': 101, 'score': 85},
 ...}`

2. 对data按分数排序，高分的在前面。

3. 找出分数最高的同学，打印“分数最高的同学是: ??? ，学号是???，分数是： ???。”

## 进阶补充：

### 更强的排序 key

- 使用 `operator.itemgetter/attrgetter` 提升可读性。
- 多键排序时，`reverse=True` 作用于整体；若需混合方向，可用“带符号的元组 key”或利用稳定排序分两步。


In [33]:
from operator import itemgetter

a = [['C', 1, 2], ['A', 3, 1], ['B', 2, 6]]
print(sorted(a, key=itemgetter(1)))  # 等价于 key=lambda x: x[1]

data = [
    {'name': 'Alice', 'score': 85, 'age': 20},
    {'name': 'Bob',   'score': 92, 'age': 21},
    {'name': 'Clare', 'score': 85, 'age': 19},
]
# 多键（均升序）
print(sorted(data, key=itemgetter('score', 'age')))

# 混合方向：先按 age 升序稳定排序，再按 score 降序
tmp = sorted(data, key=itemgetter('age'))
print(sorted(tmp, key=itemgetter('score'), reverse=True))


[['C', 1, 2], ['B', 2, 6], ['A', 3, 1]]
[{'name': 'Clare', 'score': 85, 'age': 19}, {'name': 'Alice', 'score': 85, 'age': 20}, {'name': 'Bob', 'score': 92, 'age': 21}]
[{'name': 'Bob', 'score': 92, 'age': 21}, {'name': 'Clare', 'score': 85, 'age': 19}, {'name': 'Alice', 'score': 85, 'age': 20}]


### enumerate 从 1 开始

通过 `start=` 参数让索引从 1 开始计数，更贴近人类习惯。


In [34]:
a_list = ['a', 'b', 'c']
for idx, val in enumerate(a_list, start=1):
    print(idx, val)


1 a
2 b
3 c


### zip_longest（保留最长序列）

当序列长度不一时，`zip` 按最短截断；如需保留最长，可用 `itertools.zip_longest`。


In [35]:
from itertools import zip_longest

list1 = ('a', 'b', 'c')
list2 = [1, 2, 3, 4]
print(list(zip_longest(list1, list2, fillvalue=None)))


[('a', 1), ('b', 2), ('c', 3), (None, 4)]


### 队列操作与性能

`list.pop(0)` 为 O(n)；频繁从头部出队建议用 `collections.deque`（`popleft()` 为 O(1)）。


In [36]:
from collections import deque

dq = deque([1, 2, 3])
dq.popleft()
print(dq)


deque([2, 3])


## 常见错误速查

- `enumerate` 是迭代器：被消费后需重新构造；打印需 `list(...)`。
- `zip` 截断：长度不齐会丢后续元素；需要保留用 `itertools.zip_longest`。
- `sorted` vs `.sort()`：`sorted()` 返回新列表；`.sort()` 原地修改并返回 `None`。
- `dict.pop(key)`：key 不存在会抛 `KeyError`，可用 `pop(key, default)`。
- `list.pop(i)`：索引越界抛 `IndexError`；`pop(0)` 性能差，队列用 `deque.popleft()`。
- 混合排序方向：`reverse=True` 作用于整体；需“分字段正/逆序”时，用带符号的元组 key 或稳定排序两步法。
- key 函数下标错误：确认嵌套结构索引，如 `x[1][0]` 是否匹配实际结构。
- 负号降序仅适用于数值；字符串等不可取负时用 `reverse=True` 或映射策略。



## 小结

本章节主要介绍了Python数据结构的一些进阶操作和实用函数。我们学习了：

*   **嵌套数据结构**的构建方式以及如何通过多级索引或键来访问其内部元素。
*   **列表的排序**，区分了`sorted()`函数和列表自身的`.sort()`方法，并重点掌握了通过`key`参数和`lambda`函数来定义复杂排序逻辑，例如根据嵌套列表或元组中的特定元素进行排序。
*   **字典的排序**，通常是对字典的键、值或键值对（items）进行排序，排序结果一般是列表，如果需要变回字典，可以使用`dict()`转换（注意Python 3.7+版本字典保持插入顺序的特性）。
*   **`enumerate()`函数**，它可以在遍历序列时同时返回元素的索引和值。
*   **`zip()`函数**，它可以将多个可迭代对象中对应位置的元素打包成一个个元组。
*   **`pop()`方法**，它可以从列表（按索引）或字典（按键）中移除一个元素并返回该元素的值。

这些内容是数据处理和算法实现中经常使用的工具。熟练掌握它们，将有助于提高代码的效率和可读性，并能更有效地解决实际数据问题。建议通过课后练习，将这些知识点应用于具体的数据处理场景中，以加深理解和记忆。
