# python的collections模块

这个模块封装了一些非常好用的容器类型，可以作为Python的标准容器类型dict、list、set 和 tuple 的补充。甚至可以替代它们。

中文文档：https://docs.python.org/zh-cn/3.14/library/collections.html#module-collections

## 一个用于计数的类----Counter

这个类的作用是将输入的序列或者可哈希的对象进行计数统计的。Counter类是继承自dict的，Counter会存储输入的每个元素以及该元素出现的次数。

### 1、Counter类的统计功能

请统计下边字符串中每个字符出现的次数以及出现次数最多的前5个元素

"This module implements specialized container datatypes providing alternatives to Python’s general purpose built-in containers, dict, list, set, and tuple."

In [27]:
from collections import Counter

s = "This module implements specialized container datatypes providing alternatives to Python’s general purpose built-in containers, dict, list, set, and tuple."

c = Counter(s)
print(c)

c.most_common(5)

Counter({' ': 18, 'e': 15, 't': 14, 'i': 13, 'n': 11, 's': 10, 'a': 9, 'l': 8, 'o': 7, 'p': 7, 'd': 6, 'r': 6, 'u': 4, 'c': 4, ',': 4, 'm': 3, 'h': 2, 'y': 2, 'v': 2, 'g': 2, 'T': 1, 'z': 1, 'P': 1, '’': 1, 'b': 1, '-': 1, '.': 1})


[(' ', 18), ('e', 15), ('t', 14), ('i', 13), ('n', 11)]

可以看到Counter的实例对象c是以字典的方式存储每个元素以及每个元素出现的次数的

### 2、Counter类的初始化方式

Counter类的初始化方式有很多，但是实际上就两种，

一种是不传递参数，直接创建一个Counter类的对象，二是传递一个可迭代的对象，例如字符串，列表，元组，字典等。

| 注意：在使用字典创建Counter对象的时候，通常使用key作为元素名称，value作为元素个数，例如: {"apple": 3, "orange": "20", "pear": 12},表示apple有3个，orange有20个，pear有12个。如果使用这样的数据{"a": "aa", "b": "b", "c": "cc"}来创建Counter，倒是也能创建，但是创建出来的Counter对象可能没有什么意义，因为毕竟Counter是用来做统计的。

In [28]:
c = Counter()
c

Counter()

In [29]:
c = Counter("asdfasdfasdfasdfsadfasdfasdfasdfasdf")
c

Counter({'a': 9, 's': 9, 'd': 9, 'f': 9})

In [30]:
c = Counter(['apple', 'banana', 'orange', 'apple', 'orange', 'banana', 'apple'])
print(c)

Counter({'apple': 3, 'banana': 2, 'orange': 2})


In [31]:
c = Counter({'apple': 3, 'banana': 2, 'orange': 2})
c

Counter({'apple': 3, 'banana': 2, 'orange': 2})

In [32]:
d = {"a": "aa", "b": "b", "c": "cc"}
c = Counter(d)
c

Counter({'c': 'cc', 'b': 'b', 'a': 'aa'})

### 3、Counter类继承自Dict类

Counter类继承自Dict类，所以Counter可以使用字典类的一些方法，但是需要注意的是，当从Counter的实例中获取一个不存在的key的时候，Counter类不会像字典一样抛异常，而是会返回0

In [33]:
c = Counter({"a": 4, "b": 2, "c": 3, "d": 1})
print(c["e"])

0


### 4、Counter的常用方法

#### (1).elements()方法

返回一个迭代器，其中每个元素将重复出现计数值所指定次。 元素会按首次出现的顺序返回。 如果一个元素的计数值小于1，elements() 将会忽略它。

In [34]:
c = Counter(a=5, b=3, c=2, d=0, e=-2)
list(c.elements())

['a', 'a', 'a', 'a', 'a', 'b', 'b', 'b', 'c', 'c']

#### (2).most_common()方法
返回一个列表，其中包含n个最常见的元素及出现次数，按常见程度由高到低排序。 如果n被省略或为None，most_common()将返回计数器中的所有元素。

In [35]:
s = "JetBrains是一家捷克的软件开发公司，该公司位于捷克的布拉格，并在俄罗斯的圣彼得堡及美国马萨诸塞州波士顿都设有办公室，该公司最为人所熟知的产品是Java编程语言开发撰写时所用的集成开发环境：IntelliJ IDEA。"
c = Counter(s)
print(c.most_common())
print(c.most_common(3))

[('的', 5), ('公', 4), ('J', 3), ('a', 3), ('开', 3), ('发', 3), ('司', 3), ('，', 3), ('e', 2), ('t', 2), ('i', 2), ('n', 2), ('是', 2), ('捷', 2), ('克', 2), ('该', 2), ('所', 2), ('I', 2), ('l', 2), ('B', 1), ('r', 1), ('s', 1), ('一', 1), ('家', 1), ('软', 1), ('件', 1), ('位', 1), ('于', 1), ('布', 1), ('拉', 1), ('格', 1), ('并', 1), ('在', 1), ('俄', 1), ('罗', 1), ('斯', 1), ('圣', 1), ('彼', 1), ('得', 1), ('堡', 1), ('及', 1), ('美', 1), ('国', 1), ('马', 1), ('萨', 1), ('诸', 1), ('塞', 1), ('州', 1), ('波', 1), ('士', 1), ('顿', 1), ('都', 1), ('设', 1), ('有', 1), ('办', 1), ('室', 1), ('最', 1), ('为', 1), ('人', 1), ('熟', 1), ('知', 1), ('产', 1), ('品', 1), ('v', 1), ('编', 1), ('程', 1), ('语', 1), ('言', 1), ('撰', 1), ('写', 1), ('时', 1), ('用', 1), ('集', 1), ('成', 1), ('环', 1), ('境', 1), ('：', 1), (' ', 1), ('D', 1), ('E', 1), ('A', 1), ('。', 1)]
[('的', 5), ('公', 4), ('J', 3)]


#### (3).subtract()方法和update()方法

减去一个可迭代对象。类似于 dict.update() 但是是减去而非替换。输入和输出都可以是 0 或负数。

而

update方法与subtract方法相反，是加上

In [36]:
c1 = Counter(a=5, b=3, c=2)
c2 = Counter(a=2, b=1, c=2, d=4)
c1.subtract(c2)
print(c1)

Counter({'a': 3, 'b': 2, 'c': 0, 'd': -4})


In [37]:
c1 = Counter(a=5, b=3, c=2)
c2 = Counter(a=2, b=1, c=2, d=4)
c1.update(c2)
print(c1)

Counter({'a': 7, 'b': 4, 'c': 4, 'd': 4})


#### (4).total()方法

计算总计数值。

In [38]:
c = Counter(a=10, b=5, c=0)
c.total()

15

#### (5).Counter的其他常用案例

In [39]:
c.total()                       # 所有计数的总和
c.clear()                       # 重置所有计数
list(c)                         # 列出不同的元素
set(c)                          # 转换为集合
dict(c)                         # 转换为常规字典
c.items()                       # 访问 (元素, 计数) 对
#Counter(dict(list_of_pairs))    # 转换自 (元素, 计数) 对的列表
#c.most_common()[:-n-1:-1]       # n 个最不常见的元素
+c                              # 移除为零和负的计数

Counter()

# dict的子类----defaultdict

### defaultdict 方法详解

**基本概念：**
`defaultdict` 是 `collections` 模块中的一个字典子类，它为字典提供了默认值功能。

**基本语法：**
```python
from collections import defaultdict
d = defaultdict(default_factory)
```

**参数说明：**
- `default_factory`：一个可调用对象（函数、类型等），用于为不存在的键提供默认值
- 常用的 default_factory：`list`、`int`、`set`、`str`、自定义函数等

**工作原理：**
- 当访问不存在的键时，自动调用 `default_factory()` 创建默认值
- 不需要手动检查键是否存在
- 特别适合分组、计数、累积等场景

**与普通字典的区别：**
- 普通字典：访问不存在的键会抛出 `KeyError`
- defaultdict：访问不存在的键会自动创建默认值

**与 setdefault() 的对比：**
- `setdefault()`：每次都需要显式调用，适合偶尔使用
- `defaultdict`：自动处理，适合频繁访问不存在的键

### 常用 default_factory 类型总结

| default_factory | 默认值 | 适用场景 | 示例 |
|----------------|--------|----------|------|
| `list` | `[]` | 分组、收集多个值 | 按类别分组数据 |
| `int` | `0` | 计数、累加 | 统计词频 |
| `set` | `set()` | 去重收集 | 收集唯一值 |
| `str` | `''` | 字符串拼接 | 构建文本 |
| `lambda: []` | 自定义 | 复杂默认值 | 嵌套结构 |

**最佳实践：**
1. 分组操作首选 `defaultdict(list)`
2. 计数操作首选 `defaultdict(int)` 或 `Counter`
3. 需要去重时使用 `defaultdict(set)`
4. 嵌套结构用 `lambda` 创建复杂默认值
5. 最后可以用 `dict()` 转换为普通字典

In [40]:
from collections import defaultdict

# 示例1: 使用 list 作为默认值（最常见）- 分组
data = [('fruit', 'apple'), ('vegetable', 'carrot'), ('fruit', 'banana'), ('vegetable', 'potato')]
grouped = defaultdict(list)
for category, item in data:
    grouped[category].append(item)  # 不需要检查 category 是否存在
print("示例1 - 分组:", dict(grouped))

# 示例2: 使用 int 作为默认值 - 计数
words = ['apple', 'banana', 'apple', 'cherry', 'banana', 'apple']
counter = defaultdict(int)  # 默认值为 0
for word in words:
    counter[word] += 1  # 第一次访问时自动初始化为 0
print("\n示例2 - 计数:", dict(counter))

# 示例3: 使用 set 作为默认值 - 去重收集
data = [('A', 1), ('B', 2), ('A', 3), ('B', 2), ('A', 1)]
unique_values = defaultdict(set)
for key, value in data:
    unique_values[key].add(value)
print("\n示例3 - 去重:", dict(unique_values))

# 示例4: 嵌套 defaultdict - 多层分组
nested = defaultdict(lambda: defaultdict(list))
data = [('2024', 'Jan', 'item1'), ('2024', 'Feb', 'item2'), ('2024', 'Jan', 'item3')]
for year, month, item in data:
    nested[year][month].append(item)
print("\n示例4 - 嵌套:", dict(nested))

# 示例5: 与普通字典对比
print("\n示例5 - 对比:")
# 普通字典
normal_dict = {}
try:
    normal_dict['key'] += 1  # KeyError
except KeyError:
    print("普通字典: KeyError - 键不存在")

# defaultdict
default_dict = defaultdict(int)
default_dict['key'] += 1  # 自动初始化为 0，然后 +1
print("defaultdict: 自动处理,值为", default_dict['key'])

示例1 - 分组: {'fruit': ['apple', 'banana'], 'vegetable': ['carrot', 'potato']}

示例2 - 计数: {'apple': 3, 'banana': 2, 'cherry': 1}

示例3 - 去重: {'A': {1, 3}, 'B': {2}}

示例4 - 嵌套: {'2024': defaultdict(<class 'list'>, {'Jan': ['item1', 'item3'], 'Feb': ['item2']})}

示例5 - 对比:
普通字典: KeyError - 键不存在
defaultdict: 自动处理,值为 1
