# 0410第7次上机：组合数据结构（2）


## 1. 字典、集合补充

1）字典 dict 和集合 set 都是**无序**数据结构，区别于序列数据结构list、tuple等。

这种无序是和计算机存储密切相关的，比如我们默认一个二分的结构：

In [None]:
# set:
#       A
#      / \
#     B   C
#    / \   \
#   D   E   F
#      / \
#     G   H

# list:
# A → B → C → D → E → F → G → H

# dict：增加一个“查找表”，比如我们建立一个从str到int的映射，本质上就是将查找集合结构之后，把对应节点的项取出来
# A -> 1
# B -> 10
# ...
# H -> 100


2）集合和字典在逻辑抽象上等同于高一数学的集合和映射。

### 1.1 集合

接口很多很杂？采用如下的思考/记忆方式：

|**类型**|**口诀**|**要求**|
|---|---|---|
|元素操作|增、删、改、查（CRUD）|add、in需要记忆|
|逻辑运算|交并补集，空集|会做作业即可（见课件）|
|遍历|for i in s|必须掌握|

考试可能会考的：

In [None]:
# 初始化集合
s = set()  # 不能 {} 会生成一个空字典

# 判断空集
print(len(s) == 0)      # True
print(not s)            # True（推荐）

# 初始化一个有元素的集合
s = {1, 2, 3}

for item in s:
    print(item)


if 1 in s:
    print("1 in s")
else:
    print("1 not in s")
if 4 in s:
    print("4 in s")
else:
    print("4 not in s")


True
True
1
2
3
1 in s
4 not in s


作业题需要会的（增删改查）：

In [None]:
s = {1, 2, 3}

# 增：add() 添加单个元素，update() 添加多个元素
s.add(4)          # {1, 2, 3, 4}
s.update([5, 6])  # {1, 2, 3, 4, 5, 6}

# 删：remove() 删除指定元素（不存在则报错），discard() 删除（不报错），pop() 随机删除
s.remove(1)       # {2, 3, 4, 5, 6}
s.discard(10)     # 无变化（不报错）
s.pop()           # 随机删除一个元素，如 2

# 改：集合元素不可直接修改，只能先删后增
s.discard(3)
s.add(30)         # {30, 4, 5, 6}

# 查：用 in 判断元素是否存在
print(4 in s)     # True
print(10 in s)    # False

### 1.2 字典

理解一个概念键-值对（key-value pair），就相当于映射中的定义域（key的集合）和值域（value的集合）。

| **类型**       | **口诀**                | **要求**                     |
|---------------|-------------------------|-----------------------------|
| **元素操作**   | 增删改查（CRUD）        | `d[key] = value` 必须掌握    |
| **逻辑运算**   | 无直接运算              | 需手动实现（如键的交并）     |
| **遍历**       | `keys()`, `values()`, `items()` | **必须掌握**               |

必会考点：

In [None]:
# 声明空字典
d = dict()
d = {}

# 声明有键值对的字典
d = {"a": 1, "b": 2}

# 增：直接赋值
d["c"] = 3         # {"a": 1, "b": 2, "c": 3}

# 删：pop() 删除指定键
d.pop("a")         # {"b": 2, "c": 3}

# 改：直接赋值修改
d["b"] = 20        # {"b": 20, "c": 3}

# 查：get() 或直接访问
print(d["b"])      # 20
print(d.get("d", "默认值"))  # "默认值"（键不存在时返回默认值）

# 遍历
for k, v in d.items():
    print(k, v)


20
默认值
b 20
c 3


#### 必会题型模板：统计

In [None]:
words = []
count_dict = {}

# 输入
words = "hello world hello python".split()

# 遍历
for word in words:
    # 方法1：直接判断key是否存在
    if word in count_dict:
        count_dict[word] += 1
    else:
        count_dict[word] = 1
    # 方法2（推荐）：用get()方法设置默认值
    # count_dict[word] = count_dict.get(word, 0) + 1

# 输出
for k, v in count_dict.items():
    print(k, v)

hello 2
world 1
python 1


## 2. 例题讲解

### 统计必会模板题！自由练习045:词频统计2
究极好好好好题，必须会！**标签**：统计模板+复杂排序

**题目描述：**

输入多个单词，统计输出每个单词出现的次数。

要求按照出现次数由高到低的顺序输出单词，当不同单词出现次数相同时，按照单词字典序输出单词。

**输入**：多行，每行一个单词，输入空行表示输入结束。
**输出**：多行，每行一个用空格分隔的单词出现次数和对应单词。

首先默写模板：

In [None]:
words = []
count_dict = {}

# 输入

# 遍历
for word in words:
    # 方法2（推荐）：用get()方法设置默认值
    count_dict[word] = count_dict.get(word, 0) + 1

# 输出
for k, v in count_dict.items():
    print(k, v)

本题的输入使用 while 循环输入，因为不知道多少次:

In [None]:
words = []

while True:
    word = input()
    if word == "":
        break
    words.append(word)
    
# 如果知道多少次，就用
# for i in range(n):
#   xxx

输出部分，排序，并使用控制输出：

注意这里排序有两重，需要指定一下，如何理解？

python 的排序具有稳定性，第一次排序之后，就可以保证第二次排序的指标相同时，仍然保留第一次排序的结果，即单词序。


In [None]:
# "cat dog apple cat bee dog apple cat"
# 统计得到：
# {'cat': 3, 'dog': 2, 'apple': 2, 'bee': 1}
# 第一次排序（按单词名）：
# [('apple', 2), ('bee', 1), ('cat', 3), ('dog', 2)]
# 第二次排序（按次数降序）：
# [('cat', 3), ('apple', 2), ('dog', 2), ('bee', 1)]

In [None]:
count_items = sorted(count_dict.items(), key=lambda x: (-x[1], x[0]))

# 或者

count_items = sorted(count_dict.items(), key=lambda x: x[0])
count_items.sort(key=lambda x: x[1], reverse=True)

In [None]:
words = []
count_dict = {}

# 输入
while True:
    word = input()
    if word == "":
        break
    words.append(word)

# 遍历
for word in words:
    # 方法2（推荐）：用get()方法设置默认值
    count_dict[word] = count_dict.get(word, 0) + 1

# 输出
for k, v in sorted(count_dict.items(), key=lambda x: (-x[1], x[0])):
    print(v, k)

text 3
is 2
demo 1
this 1


变式优化：边输入边遍历

In [None]:
count_dict = {}

# 边输入边遍历
while True:
    word = input()
    if word == "":
        break
    count_dict[word] = count_dict.get(word, 0) + 1

# 输出
for k, v in sorted(count_dict.items(), key=lambda x: (-x[1], x[0])):
    print(v, k)

### 数据类型的组合或复合

理解列表和集合是一群元素的总和，元组、字典本质上就是标明元素间的关系，所以可以相互转换。

但要注意集合和字典没有顺序。

自由练习052:病人排队

病人登记看病，编写一个程序，将登记的病人按照以下原则排出看病的先后顺序：
1. 老年人（年龄 >= 60岁）比非老年人优先看病。
2. 老年人按年龄从大到小的顺序看病，年龄相同的按登记的先后顺序排序。
3. 非老年人按登记的先后顺序看病。

**输入**

第1行，输入一个小于100的正整数，表示病人的个数；

后面按照病人登记的先后顺序，每行输入一个病人的信息，包括：一个长度小于10的字符串表示病人的ID（每个病人的ID各不相同且只含数字和字母），一个整数表示病人的年龄，中间用单个空格隔开。

**输出**

按排好的看病顺序输出病人的ID，每行一个。




In [None]:
# 使用三元组的列表（list+tuple）
n = int(input())
patients = []
for i in range(n):
    id, age = input().split()
    age = int(age)
    patients.append((id, age, i))  # (ID, 年龄, 登记顺序)

# 分离老年人和非老年人
seniors = [p for p in patients if p[1] >= 60]
non_seniors = [p for p in patients if p[1] < 60]

# 老年人排序：年龄降序，年龄相同则按登记顺序升序
seniors.sort(key=lambda x: (-x[1], x[2]))

# 非老年人保持原顺序（无需排序）

# 合并结果：老年人在前，非老年人在后
result = seniors + non_seniors

# 输出ID
for p in result:
    print(p[0])

观察老年人的顺序不重要，所以换用dict，能进一步提升运行效率。

在这门课程的解题层面没有必要，但是数据结构课程或者实际项目中有意义，如果有n=100,000,000个老人保存在系统中，list查询需要n=100,000,000次，但是dict查询需要log n ≈ 10,000次。

In [None]:
n = int(input())
senior_dict = {}  # 字典存储老年人，格式：{ID: (年龄, 登记序号)}
non_senior_list = []  # 列表存储非老年人，格式：[ (ID, 年龄, 登记序号) ]

for i in range(n):
    id, age = input().split()
    age = int(age)
    if age >= 60:
        senior_dict[id] = (age, i)  # 字典存储
    else:
        non_senior_list.append((id, age, i))  # 列表存储（自动保持顺序）

# 老年人排序：年龄降序 → 登记序号升序
sorted_seniors = sorted(senior_dict.items(), 
                    key=lambda x: (-x[1][0], x[1][1]))  # 元组解包

# 合并结果（老年人ID + 非老年人ID）
result = [item[0] for item in sorted_seniors] + [item[0] for item in non_senior_list]

# 输出
for id in result:
    print(id)