# 高效工具


## collections


### defaultdict 快速定义字典类型


#### 字典与整数的结合：defaultdict(int)


In [1]:
# 依依课堂实践
# Question: 统计字符串中每个字母出现的次数
ls = ["a", "b", "a", "b", "c", "a", "b", "c"]
ls1 = []  # 创建一个空列表，占空间了
set1 = set(ls)  # 创建一个集合，去重，但是也是重复了，去重也消耗资源
for i in set1:
    n = ls.count(i)  # 统计每个字母出现的次数也是把列表遍历了一遍
    ls1.append(n)
a = dict(zip(set1, ls1))
print(a)
# 上面的思路是：先遍历一遍去重，然后再遍历字母数量那么多次来统计其出现次数，最后把结果放到字典中
# 以上代码的时间复杂度是O(n^2)，空间复杂度是O(n)
# 优化代码：只把列表遍历一遍就统计出来每个字母出现的次数
dict1 = dict()
for i in ls:
    if i not in dict1:  # 每次都需要判断是否在字典中，需要手动添加
        dict1[i] = 1
    else:
        dict1[i] += 1
print(dict1)

{'c': 2, 'a': 3, 'b': 3}
{'a': 3, 'b': 3, 'c': 2}


defaultdict 可以快速定义字典的值的类型：**int**, **list**, **set**

它还提供一个功能，如果新的键不在字典里，会为你自动生成一个**新的键值对**{}：

- 如果值的类型是 int，则默认 dict['new_key'] = 0
- 如果值的类型是 list，则默认 dict['new_key'] = []
- 如果值的类型是 set，则默认 dict['new_key'] = {}


In [2]:
import collections  # 导入collections模块

di = collections.defaultdict(
    int
)  # 从collections模块中导入defaultdict类，并指定默认值的类型为int
ls = ["a", "b", "a", "b", "c", "a", "b", "c"]  # 定义一个列表
for i in ls:  # 遍历列表中的每个元素
    di[i] += 1  # 将每个元素的值加1
di  # 打印结果

defaultdict(int, {'a': 3, 'b': 3, 'c': 2})

In [3]:
# 从collections模块中导入defaultdict类，这样子可以直接使用defaultdict，省略collections前缀
from collections import defaultdict

di1 = defaultdict(int)  # 创建一个defaultdict对象，默认值为int类型
for i in ls:  # 遍历列表中的每个元素
    di1[i] += 1  # 将每个元素的值加1
di1  # 打印结果

defaultdict(int, {'a': 3, 'b': 3, 'c': 2})

In [4]:
# 课堂实践
# 用defauldict来实现，往不同的班级中添加不同的学生
students = [
    ("张三", "一班"),
    ("李四", "二班"),
    ("王五", "一班"),
    ("赵六", "三班"),
    ("钱七", "二班"),
    ("孙八", "三班"),
]
from collections import defaultdict

dt1 = defaultdict(list)
for i in students:  # 遍历列表中的元组
    # 依依写的：
    # name = list(i)  # 将元祖变为列表
    # dt1[name[1]].append(name[0])  # 把班级作为key，人名作为value

    # 豆哥改进的：
    dt1[i[1]].append(i[0])  # 把班级作为key，人名加入value
print(dt1)  # 打印结果

# 参考答案
dt2 = defaultdict(list)
for name, class_name in students:
    dt2[class_name].append(name)
print(dt2)

defaultdict(<class 'list'>, {'一班': ['张三', '王五'], '二班': ['李四', '钱七'], '三班': ['赵六', '孙八']})
defaultdict(<class 'list'>, {'一班': ['张三', '王五'], '二班': ['李四', '钱七'], '三班': ['赵六', '孙八']})


#### 字典与列表的结合：defaultdict(list)


In [5]:
dl = defaultdict(list)  # 创建一个defaultdict对象，默认值为list类型
key_value = [("a", 1), ("b", 2), ("a", 3), ("b", 4), ("c", 5)]  # 定义一个包含元组的列表

for key, value in key_value:  # 遍历列表中的每个元组
    dl[key].append(value)  # 将元组的第二个元素添加到字典中对应键的列表中
dl  # 打印结果

defaultdict(list, {'a': [1, 3], 'b': [2, 4], 'c': [5]})

In [6]:
# 课堂实践
# 用defaultdict来实现，统计每个班级获得过的奖励，不同年份的奖励算同样的
awards = [
    ("一班", "一等奖", 2022),
    ("二班", "二等奖", 2022),
    ("三班", "一等奖", 2023),
    ("一班", "二等奖", 2023),
    ("二班", "一等奖", 2023),
    ("三班", "二等奖", 2024),
    ("一班", "一等奖", 2024),
    ("二班", "二等奖", 2024),
    ("三班", "一等奖", 2025),
    ("一班", "二等奖", 2025),
    ("二班", "一等奖", 2025),
    ("三班", "二等奖", 2025),
]
from collections import defaultdict

dt1 = defaultdict(list)
for class_name, award, year in awards:
    if award not in dt1[class_name]:
        dt1[class_name].append(award)
print(dt1)

# 参考答案
dt2 = defaultdict(set)
for class_name, award, year in awards:
    dt2[class_name].add(award)
print(dt2)

defaultdict(<class 'list'>, {'一班': ['一等奖', '二等奖'], '二班': ['二等奖', '一等奖'], '三班': ['一等奖', '二等奖']})
defaultdict(<class 'set'>, {'一班': {'一等奖', '二等奖'}, '二班': {'二等奖', '一等奖'}, '三班': {'一等奖', '二等奖'}})


#### 字典与集合的结合：defaultdict(set)


In [7]:
ds = defaultdict(set)  # 创建一个defaultdict对象，默认值为set类型
key_value = [("a", 1), ("b", 2), ("a", 3), ("b", 4), ("c", 5)]  # 定义一个包含元组的列表

for key, value in key_value:  # 遍历列表中的每个元组
    ds[key].add(value)  # 将元组的第二个元素添加到字典中对应键的集合中
ds  # 打印结果

defaultdict(set, {'a': {1, 3}, 'b': {2, 4}, 'c': {5}})

### counter 计数器


In [8]:
from collections import Counter  # 从collections模块中导入Counter类

# Counter是一个字典子类，用于计数可哈希对象。可哈希对象是指具有固定哈希值的对象，通常是不可变对象，例如字符串、数字和元组。
string = "abcaabbccdee"  # 定义一个字符串
counter = Counter(string)  # 创建一个Counter对象，统计字符串中每个字符的出现次数
# 大写C
counter  # 打印结果

Counter({'a': 3, 'b': 3, 'c': 3, 'e': 2, 'd': 1})

In [9]:
print(counter.most_common(2))  # 打印出现次数最多的两个字符及其次数
print(counter.most_common())  # 打印所有字符及其出现次数
print(counter.keys())  # 打印所有字符
print(counter.values())  # 打印所有字符的出现次数
print(counter.items())  # 打印所有字符及其出现次数的元组
print(counter["a"])  # 打印字符'a'的出现次数
print(counter["z"])  # 打印字符'z'的出现次数，如果不存在则返回0

[('a', 3), ('b', 3)]
[('a', 3), ('b', 3), ('c', 3), ('e', 2), ('d', 1)]
dict_keys(['a', 'b', 'c', 'd', 'e'])
dict_values([3, 3, 3, 1, 2])
dict_items([('a', 3), ('b', 3), ('c', 3), ('d', 1), ('e', 2)])
3
0


In [10]:
# Counter对象的加法操作
counter1 = Counter(a=1, b=2)  # 创建一个Counter对象
counter2 = Counter(a=2, b=1)  # 创建另一个Counter对象
counter3 = counter1 + counter2  # 将两个Counter对象相加
print(counter3)  # 打印结果

Counter({'a': 3, 'b': 3})


### deque


- queue 队列
  1. 先进先出 First In First Out (FIFO)
  2. 入队 Enque
  3. 出队 Deque
- stack 栈
  1. 后进先出 Last In First Out (LIFO)
  2. 入栈 Push
  3. 出栈 Pop


In [11]:
from collections import deque  # 从collections模块中导入deque类

# deque是一个双端队列，可以在两端高效地添加和删除元素
dq = deque()  # 创建一个空的deque对象
dq.append(1)  # 在队列的右端添加元素1
dq.append(2)  # 在队列的右端添加元素2
dq  # 打印结果

deque([1, 2])

In [12]:
dq.appendleft(0)  # 在队列的左端添加元素0
dq  # 打印结果

deque([0, 1, 2])

In [13]:
dq.pop()  # 从队列的右端删除元素
dq  # 打印结果

deque([0, 1])

In [14]:
dq.popleft()  # 从队列的左端删除元素
dq  # 打印结果

deque([1])

In [15]:
dq.extend([2, 3, 4, 5])  # 在队列的右端添加多个元素
dq.extendleft([0, -1, -2])  # 在队列的左端添加多个元素，注意添加顺序是反向的
dq  # 打印结果

deque([-2, -1, 0, 1, 2, 3, 4, 5])

In [16]:
dq.rotate(2)  # 将队列中的元素向右旋转2个位置
dq  # 打印结果

deque([4, 5, -2, -1, 0, 1, 2, 3])

In [17]:
dq.rotate(-2)  # 将队列中的元素向左旋转2个位置
dq  # 打印结果

deque([-2, -1, 0, 1, 2, 3, 4, 5])

In [18]:
# deque对象的索引操作
print(dq.index(5))  # 打印元素5的索引
print(dq.count(3))  # 打印元素3的出现次数

7
1


In [19]:
# deque对象的反转操作
dq.reverse()  # 反转deque对象
dq  # 打印结果

deque([5, 4, 3, 2, 1, 0, -1, -2])

## itertools 迭代工具


In [20]:
from itertools import product, permutations, combinations, cycle, accumulate, groupby

### product 笛卡尔积


In [21]:
print(
    list(product([1, 2, 3], ["a", "b"]))
)  # [(1, 'a'), (1, 'b'), (2, 'a'), (2, 'b'), (3, 'a'), (3, 'b')]

[(1, 'a'), (1, 'b'), (2, 'a'), (2, 'b'), (3, 'a'), (3, 'b')]


### permutations 全排列


In [22]:
# 返回所有可能的排列
print(list(permutations([1, 2, 3], 2)))  # [(1, 2), (1, 3), (2, 1), ...]
string = "abcd"
print(
    list(permutations(string, 3))
)  # [('a', 'b', 'c'), ('a', 'b', 'd'), ('a', 'c', 'b'), ...]
print(
    permutations(string, 2)
)  # 返回所有可能的排列，返回的是一个迭代器，里面的元素是元组
# 返回的是一个迭代器，里面的元素是元组
# 要想要返回列表，可以用list()函数转换

[(1, 2), (1, 3), (2, 1), (2, 3), (3, 1), (3, 2)]
[('a', 'b', 'c'), ('a', 'b', 'd'), ('a', 'c', 'b'), ('a', 'c', 'd'), ('a', 'd', 'b'), ('a', 'd', 'c'), ('b', 'a', 'c'), ('b', 'a', 'd'), ('b', 'c', 'a'), ('b', 'c', 'd'), ('b', 'd', 'a'), ('b', 'd', 'c'), ('c', 'a', 'b'), ('c', 'a', 'd'), ('c', 'b', 'a'), ('c', 'b', 'd'), ('c', 'd', 'a'), ('c', 'd', 'b'), ('d', 'a', 'b'), ('d', 'a', 'c'), ('d', 'b', 'a'), ('d', 'b', 'c'), ('d', 'c', 'a'), ('d', 'c', 'b')]
<itertools.permutations object at 0x107dd62f0>


### combinations 组合


In [23]:
print(list(combinations([1, 2, 3], 2)))  # [(1, 2), (1, 3), (2, 3)]
string = "abcd"
print(list(combinations(string, 3)))
print(combinations(string, 2))

[(1, 2), (1, 3), (2, 3)]
[('a', 'b', 'c'), ('a', 'b', 'd'), ('a', 'c', 'd'), ('b', 'c', 'd')]
<itertools.combinations object at 0x107d949a0>


### cycle 无限循环


In [24]:
cycle_list = cycle([1, 2])
print(next(cycle_list), next(cycle_list), next(cycle_list), next(cycle_list))
# 无限循环
# 每当调用next()函数时，都会返回下一个元素
# 直到循环结束

1 2 1 2


### accumulate 累积求和


In [25]:
print(list(accumulate([1, 2, 3, 4])))  # [1, 3, 6, 10]

[1, 3, 6, 10]


### 匿名函数 lambda 函数

lambda 参数: 表达式 / lambda arguments: expression

lambda 函数可以有多个参数，参数之间用逗号隔开。但只能有一个表达式，表达式描述了想要的操作


In [26]:
pairs = [[1, 2], [3, 4], [5, 6]]

# lambda函数可以用于对列表进行排序，按照第二个元素大小降序排序
sorted_pairs = sorted(pairs, key=lambda x: x[1], reverse=True)  # 按照第二个元素排序
print(sorted_pairs)  # 打印结果

pairs_1 = [(1, 2), (3, 4), (5, 6)]
# 我要把列表中的每个元素的顺序反过来
reversed_pairs = list(map(lambda x: (x[1], x[0]), pairs_1))

# 这里的x和y是两个不同的变量，分别代表列表中的两个元素
print(reversed_pairs)  # 打印结果

# 把两个列表中的元素反过来配对
reversed_pairs_2 = list(
    map(lambda x, y: (y, x), pairs, pairs_1)
)  # 这里的x和y是两个不同的变量，分别代表列表中的两个元素。x是pairs中的元素，y是pairs_1中的元素
print(reversed_pairs_2)  # 打印结果


pairs_2 = [(1, 2), (3, 4, 5), (6, 7, 8)]
# 给列表中的元素长度排序
sorted_pairs_2 = sorted(pairs_2, key=lambda x: len(x))
print(sorted_pairs_2)  # 打印结果

[[5, 6], [3, 4], [1, 2]]
[(2, 1), (4, 3), (6, 5)]
[((1, 2), [1, 2]), ((3, 4), [3, 4]), ((5, 6), [5, 6])]
[(1, 2), (3, 4, 5), (6, 7, 8)]


### groupby 分组

1. 检查相邻元素
2. 当键值变化时，创建一个新组
3. 如果相同键值的元素不连续，会被分成不同组


In [27]:
data = [
    {"name": "Alice", "age": 30},
    {"name": "Bob", "age": 25},
    {"name": "Charlie", "age": 26},
    {"name": "David", "age": 30},
    {"name": "Eve", "age": 25},
]
# grouped = groupby(sorted(data, key=lambda x: x["age"]), key=lambda x: x["age"])
data_sorted = sorted(data, key=lambda x: x["age"])  # 按照年龄排序
print(data_sorted)

grouped = groupby(data_sorted, key=lambda x: x["age"])  # 按照年龄分组
print(grouped)  # 打印结果
# groupby返回的是一个迭代器，里面的元素是元组，元组的第一个元素是key，第二个元素是一个迭代器
for k, v in grouped:
    print(k, list(v))

[{'name': 'Bob', 'age': 25}, {'name': 'Eve', 'age': 25}, {'name': 'Charlie', 'age': 26}, {'name': 'Alice', 'age': 30}, {'name': 'David', 'age': 30}]
<itertools.groupby object at 0x107d513c0>
25 [{'name': 'Bob', 'age': 25}, {'name': 'Eve', 'age': 25}]
26 [{'name': 'Charlie', 'age': 26}]
30 [{'name': 'Alice', 'age': 30}, {'name': 'David', 'age': 30}]


In [28]:
# 课堂实践
# 用groupby实现，对职业进行分组
people = [
    {"name": "Alice", "job": "Engineer"},
    {"name": "Bob", "job": "Doctor"},
    {"name": "Charlie", "job": "Engineer"},
    {"name": "David", "job": "Teacher"},
    {"name": "Eve", "job": "Doctor"},
]
grouped1 = groupby(sorted(people, key=lambda x: x["job"]), key=lambda x: x["job"])
for k, v in grouped1:
    print(k, list(v))

Doctor [{'name': 'Bob', 'job': 'Doctor'}, {'name': 'Eve', 'job': 'Doctor'}]
Engineer [{'name': 'Alice', 'job': 'Engineer'}, {'name': 'Charlie', 'job': 'Engineer'}]
Teacher [{'name': 'David', 'job': 'Teacher'}]


In [29]:
# 对列表长度进行分组
# 按照格式输出，“长度：元素1，元素2，...”，元素依次输出
lists = [[1, 2], [3, 4, 5], [6, 7, 8], [9, 10, 11, 12], [13, 14]]
grouped2 = groupby(sorted(lists, key=lambda x: len(x)), key=lambda x: len(x))
for k, v in grouped2:
    # s = ""
    # for ls in v:
    #     s += str(ls) + ","
    # s = s[:-1]  # 去掉最后一个逗号
    # print(f"{k}:{s}")
    print(f'{k}:{",".join(map(str, v))}')

2:[1, 2],[13, 14]
3:[3, 4, 5],[6, 7, 8]
4:[9, 10, 11, 12]


## heapq 堆


In [30]:
from heapq import heappush, heappop, heapify  # 从heapq模块中导入相关函数

# 堆是一个特殊的树形数据结构，通常用于实现优先队列
# 堆的实现
heap = []
heappush(heap, 10)
print(heap)  # 打印堆的内容
heappush(heap, 20)
print(heap)  # 打印堆的内容
heappush(heap, 5)
print(heap)  # 打印堆的内容
heappush(heap, 1)
print(heap)  # 打印堆的内容

[10]
[10, 20]
[5, 20, 10]
[1, 5, 10, 20]


## bisect 二分查找


## math, statistics 数学工具


In [31]:
import math
import statistics

print(math.gcd(48, 18))  # 6
print(math.factorial(5))  # 120
print(math.isqrt(10))  # 3
print(math.comb(5, 2))  # 10  (5 选 2 组合)
print(statistics.median([1, 3, 3, 6, 7, 8, 9]))  # 6

6
120
3
10
6


## pandas 数据表格


## re, textwrap 字符串处理


In [32]:
import re
import textwrap

text = "hello 123 world 456"
print(re.findall(r"\d+", text))  # ['123', '456']
print(re.sub(r"\d+", "X", text))  # 'hello X world X'

wrapped_text = textwrap.wrap(
    "This is a very long sentence that needs wrapping.", width=10
)
print("\n".join(wrapped_text))  # 自动换行

['123', '456']
hello X world X
This is a
very long
sentence
that needs
wrapping.
