In [11]:
from IPython.core.interactiveshell import InteractiveShell

InteractiveShell.ast_node_interactivity = 'all'

# defaultdict

1. 使用 list 作为 default_factory，很轻松地将（键-值对组成的）序列转换为（键-列表组成的）字典：

In [1]:
from collections import defaultdict

s = [('yellow', 1), ('blue', 2), ('yellow', 3), ('blue', 4), ('red', 1)]
d = defaultdict(list)
for k, v in s:
    d[k].append(v)

sorted(d.items())

[('blue', [2, 4]), ('red', [1]), ('yellow', [1, 3])]

- 当每个键第一次遇见时，它还没有在字典里面，所以自动创建该条目，即调用 default_factory 方法，返回一个空的 list。
- list.append() 操作添加值到这个新的列表里。当再次存取该键时，就正常操作，list.append() 添加另一个值到列表中。
- 这个计数比它的等价方法 dict.setdefault() 要快速和简单：

In [2]:
d = {}
for k, v in s:
    d.setdefault(k, []).append(v)

sorted(d.items())

[('blue', [2, 4]), ('red', [1]), ('yellow', [1, 3])]

2. 设置 default_factory 为 int，使 defaultdict 用于计数（类似其他语言中的 bag 或 multiset）：

In [4]:
s = 'mississippi'
d = defaultdict(int)
for k in s:
    d[k] += 1

sorted(d.items())

[('i', 4), ('m', 1), ('p', 2), ('s', 4)]

- 当一个字母首次遇到时，它会查询失败，则 default_factory 会调用 int() 来提供一个整数 0 作为默认值。
- 后续的自增操作建立起对每个字母的计数。
- 函数 int() 总是返回 0，这是常数函数的特殊情况。
- 一个更快和灵活的方法是使用 lambda 函数，可以提供任何常量值（不只是0）：

In [5]:
def constant_factory(value):
    return lambda: value


d = defaultdict(constant_factory('<missing>'))
d.update(name='John', action='ran')
'%(name)s %(action)s to %(object)s' % d

'John ran to <missing>'

## 自定义defaultdict的默认值
defaultdict  还可以接受一个函数作为参数，用于动态生成默认值。

例如，下面是一个使用  lambda  函数作为默认值生成器的示例

In [14]:
# 创建一个名为 defaultdict 的 defaultdict 对象,其默认值为 -1
from collections import defaultdict

d = defaultdict(lambda: -1)
print(d.get(1))  # None
d[2]  # -1

d = defaultdict(lambda: None)
d[2]  # None

# 创建一个 defaultdict 对象，设置默认值为 0
d = defaultdict(int)
# 访问一个不存在的键，会自动创建一个默认值
d['a'] += 1
d['b'] += 2
d['c'] += 3
# 输出结果
print(d)  # defaultdict(<class 'int'>, {'a': 1, 'b': 2, 'c': 3})

# 创建一个 defaultdict 对象，设置默认值生成器为 lambda 函数
d = defaultdict(lambda: [])
# 等价于
# d = defaultdict(list)
# 访问一个不存在的键，会自动创建一个空列表作为默认值
d['a'].append(1)
d['b'].append(2)
d['c'].append(3)
# 输出结果
print(d)  # defaultdict(<function <lambda> at 0x7f9c3a7f8d08>, {'a': [1], 'b': [2], 'c': [3]})

None


-1

defaultdict(<class 'int'>, {'a': 1, 'b': 2, 'c': 3})
defaultdict(<function <lambda> at 0x7f910a848820>, {'a': [1], 'b': [2], 'c': [3]})


In [26]:
t = "CABBC"
dic_t = defaultdict(int)
for ch in t:
    dic_t[ch] += 1

# dic_t['D'] == 0
dic_t['E'] = 0
sorted(dic_t.items())
len(dic_t)
'D' in dic_t

[('A', 1), ('B', 2), ('C', 2), ('E', 0)]

4

False

3. 设置 default_factory 为 set 使 defaultdict 用于构建 set 集合：

In [6]:
s = [('red', 1), ('blue', 2), ('red', 3), ('blue', 4), ('red', 1), ('blue', 4)]
d = defaultdict(set)
for k, v in s:
    d[k].add(v)

sorted(d.items())

[('blue', {2, 4}), ('red', {1, 3})]

# deque 对象

deque底层实现是一个双向链表，虽然它支持在队列两端进行O(1)的添加和删除操作，

但是在中间位置进行删除操作时，需要先遍历链表找到要删除的元素，然后再进行删除操作，因此时间复杂度是O(n)。

class collections.deque([iterable[, maxlen]])

- 返回一个新的双向队列对象，从左到右初始化(用方法 append()) ，从 iterable （迭代对象) 数据创建。如果 iterable 没有指定，新队列为空。

- Deque队列是由栈或者queue队列生成的（发音是 “deck”，”double-ended queue”的简称）。Deque 支持线程安全，内存高效添加(append)和弹出(pop)，从两端都可以，两个方向的大概开销都是 O(1) 复杂度。

- 虽然 list 对象也支持类似操作，不过这里优化了定长操作和 pop(0) 和 insert(0, v) 的开销。它们引起 O(n) 内存移动的操作，改变底层数据表达的大小和位置。

- 如果 maxlen 没有指定或者是 None ，deques 可以增长到任意长度。否则，deque就限定到指定最大长度。一旦限定长度的deque满了，当新项加入时，同样数量的项就从另一端弹出。限定长度deque提供类似Unix filter tail 的功能。它们同样可以用与追踪最近的交换和其他数据池活动。

- 双向队列(deque)对象支持以下方法：

    - append(x)
    添加 x 到右端。

    - appendleft(x)
    添加 x 到左端。

    - clear()
    移除所有元素，使其长度为0.

    - pop()
    移去并且返回一个元素，deque 最右侧的那一个。 如果没有元素的话，就引发一个 IndexError。

    - popleft()
    移去并且返回一个元素，deque 最左侧的那一个。 如果没有元素的话，就引发 IndexError。

    - remove(value)
    移除找到的第一个 value。 如果没有的话就引发 ValueError。

    - reverse()
    将deque逆序排列。返回 None 。

    - count(x)
    计算 deque 中元素等于 x 的个数。

    - extend(iterable)
    扩展deque的右侧，通过添加iterable参数中的元素。

    - extendleft(iterable)
    扩展deque的左侧，通过添加iterable参数中的元素。注意，左添加时，在结果中iterable参数中的顺序将被反过来添加。

    - index(x[, start[, stop]])
    返回 x 在 deque 中的位置（在索引 start 之后，索引 stop 之前）。 返回第一个匹配项，如果未找到则引

In [14]:
from collections import deque

dq = deque()
dq.append(1)
dq.appendleft(2)
dq[0]
sorted()

2

# Counter 对象
一个计数器工具提供快速和方便的计数。比如

class collections.Counter([iterable-or-mapping])
A Counter is a dict subclass for counting hashable objects. It is a collection where elements are stored as dictionary keys and their counts are stored as dictionary values. Counts are allowed to be any integer value including zero or negative counts. The Counter class is similar to bags or multisets in other languages.

元素从一个 iterable 被计数或从其他的 mapping (or counter)初始化：

In [1]:
from collections import Counter

c = Counter()  # a new, empty counter
c = Counter('gallahad')  # a new counter from an iterable
dict(c)  # {'g': 1, 'a': 3, 'l': 2, 'h': 1, 'd': 1}
c = Counter({'red': 4, 'blue': 2})  # a new counter from a mapping
dict(c)  # {'red': 4, 'blue': 2}
c = Counter(cats=4, dogs=8)  # a new counter from keyword args
dict(c)  # {'cats': 4, 'dogs': 8}

'cats' in c

True

Counter对象有一个字典接口，如果引用的键没有任何记录，就返回一个0，而不是弹出一个 KeyError :

In [3]:
c = Counter(['eggs', 'ham'])
c['bacon']  # count of a missing element is zero

# 设置一个计数为0不会从计数器中移去一个元素。使用 del 来删除它:
c['sausage'] = 0  # counter entry with a zero count
c  # Counter({'eggs': 1, 'ham': 1, 'sausage': 0})
del c['sausage']  # del actually removes the entry
c  # Counter({'eggs': 1, 'ham': 1})

0

Counter 对象在对所有字典可用的方法以外还支持一些附加方法:
elements()
返回一个迭代器，其中每个元素将重复出现计数值所指定次。
元素会按首次出现的顺序返回。
如果一个元素的计数值小于一，elements() 将会忽略它。

most_common([n])
返回一个列表，其中包含 n 个最常见的元素及出现次数，按常见程度由高到低排序。
如果 n 被省略或为 None，most_common() 将返回计数器中的 所有 元素。
计数值相等的元素按首次出现的顺序排序：

subtract([iterable-or-mapping])
从 迭代对象 或 映射对象 减去元素。像 dict.update() 但是是减去，而不是替换。输入和输出都可以是0或者负数。

In [9]:
c = Counter(a=4, b=2, c=0, d=-2)
sorted(c.elements())  # ['a', 'a', 'a', 'a', 'b', 'b']

['a', 'a', 'a', 'a', 'b', 'b']

In [10]:
Counter('abracadabra').most_common(3)  # [('a', 5), ('b', 2), ('r', 2)]

[('a', 5), ('b', 2), ('r', 2)]

In [11]:
c = Counter(a=4, b=2, c=0, d=-2)
d = Counter(a=1, b=2, c=3, d=4)
c.subtract(d)
c  # Counter({'a': 3, 'b': 0, 'c': -3, 'd': -6})

Counter({'a': 3, 'b': 0, 'c': -3, 'd': -6})

In [20]:
c = Counter('abcdeabcdabcaba')  # count elements from a string
c.most_common(3)  # three most common elements
# [('a', 5), ('b', 4), ('c', 3)]
sorted(c)  # list all unique elements
# ['a', 'b', 'c', 'd', 'e']
''.join(sorted(c.elements()))  # list elements with repetitions
# 'aaaaabbbbcccdde'
sum(c.values())
#  15
for elem in 'shazam':  # update counts from an iterable
    c[elem] += 1  # by adding 1 to each element's count
c['a']  # now there are seven 'a'
# 7
del c['b']  # remove all 'b'
c['b']  # now there are zero 'b'
# 0

d = Counter('simsalabim')  # make another counter
c.update(d)  # add in the second counter
c['a']  # now there are nine 'a'
# 9

c.clear()  # empty the counter
c
# Counter()

[]

set()

{}

dict_items([])

Counter({'a': 'b', 1: 3})

[]

Counter()

# OrderedDict

- OrderedDict底层是通过维护一个双向链表来实现的。
- 这个链表中的每个节点都包含了键值对的信息，以及指向前一个节点和后一个节点的指针。

1. 具体来说，OrderedDict维护了一个名为_map的字典，其中键是元素的键，值是指向元素在链表中的节点的指针。
此外，OrderedDict还维护了两个指针：_root指向链表的第一个节点，_last指向链表的最后一个节点。

2. 当一个元素被添加到OrderedDict中时，它会被封装成一个节点，并插入到链表的末尾。同时，它的键和指向它的节点的指针会被添加到_map字典中。

3. 当一个元素被访问时，OrderedDict会将它对应的节点移动到链表的末尾，从而保持元素的顺序。

4. 当一个元素被弹出时，它对应的节点会从链表中移除，并从_map字典中删除。

由于OrderedDict底层使用了双向链表，所以它的一些操作，比如弹出最后一个元素和将某个元素移动到末尾，是非常高效的。
但是，由于它需要维护额外的指针和链表结构，所以它的空间复杂度比普通的dict要高一些。

In [None]:
# 以下是Python标准库中collections模块中OrderedDict类的部分源代码，供你参考
class OrderedDict(dict):
    # 一个名为 Node 的内部类，用于封装键值对和指向前一个节点和后一个节点的指针
    class Node(object):
        __slots__ = 'prev', 'next', 'key', 'value'

        def __init__(self, prev, next, key, value):
            self.prev = prev
            self.next = next
            self.key = key
            self.value = value

    # 初始化方法，用于创建一个空的 OrderedDict
    def __init__(self, *args, **kwds):
        """Initialize an ordered dictionary.  Signature is the same as
        regular dictionaries, but keyword arguments are not recommended
        because their insertion order is arbitrary.
        """
        if len(args) > 1:
            raise TypeError('expected at most 1 arguments, got %d' % len(args))
        try:
            self.__root
        except AttributeError:
            self.__root = root = self.Node(None, None, None, None)
            root.prev = root.next = root
            self.__map = {}
        self.__update(*args, **kwds)

    # 内部方法，用于将一个节点插入到链表的末尾
    def __setitem__(self, key, value, dict_setitem=dict.__setitem__):
        # 如果字典中已经存在这个键，则将对应的节点移动到链表的末尾
        if key in self:
            self.__map[key].value = value
        # 否则，将这个键值对封装成一个节点，插入到链表的末尾，并将键和指针添加到 __map 字典中
        else:
            root = self.__root
            last = root.prev
            last.next = last.prev = self.__map[key] = self.Node(last, root, key, value)
        dict_setitem(self, key, value)

    # 内部方法，用于从字典中删除一个键值对，并从链表中移除对应的节点
    def __delitem__(self, key, dict_delitem=dict.__delitem__):
        # 如果字典中不存在这个键，则抛出 KeyError 异常
        if key not in self:
            raise KeyError(key)
        # 否则，将对应的节点从链表中移除，并从 __map 字典中删除键和指针
        node = self.__map.pop(key)
        node.prev.next = node.next
        node.next.prev = node.prev
        dict_delitem(self, key)

    # 内部方法，用于将一个字典或键值对序列更新到当前 OrderedDict 中
    def __update(self, *args, **kwds):
        # 如果参数为一个字典，则将它的键值对一个一个添加到当前字典中
        if len(args) > 1:
            raise TypeError('expected at most 1 arguments, got %d' % len(args))
        elif args:
            other = args[0]
            if isinstance(other, Mapping):
                for key in other:
                    self[key] = other[key]
            else:
                for key, value in other:
                    self[key] = value
        # 将关键字参数一个一个添加到当前字典中
        for key, value in kwds.items():
            self[key] = value

    # 内部


## 常用方法示例
popitem(last=True)
弹出并返回字典中最后一个添加的键值对。如果last参数为False，则弹出第一个添加的键值对。

In [2]:
from collections import OrderedDict

od = OrderedDict([('a', 1), ('b', 2), ('c', 3)])

key, value = od.popitem()  # 弹出最后一个键值对
print(key, value)  # 输出 c 3


c 3


move_to_end(key, last=True)
将指定键的元素移动到字典的末尾。如果last参数为False，则将其移动到字典的开头。

In [4]:
from collections import OrderedDict

od = OrderedDict([('a', 1), ('b', 2), ('c', 3)])

od.move_to_end('a')  # 将键为 'a' 的元素移动到末尾
print(list(od.keys()))  # 输出 ['b', 'c', 'a']


['b', 'c', 'a']


clear()
清空字典中的所有元素。

update()
使用另一个字典或键值对序列更新当前字典。

In [6]:
from collections import OrderedDict

od = OrderedDict([('a', 1), ('b', 2), ('c', 3)])

od.clear()  # 清空字典
print(od)  # 输出 OrderedDict()

od1 = OrderedDict([('a', 1), ('b', 2)])
od2 = OrderedDict([('c', 3), ('d', 4)])

od1.update(od2)  # 将 od2 合并到 od1 中
print(od1)  # 输出 OrderedDict([('a', 1), ('b', 2), ('c', 3), ('d', 4)])


OrderedDict()
OrderedDict([('a', 1), ('b', 2), ('c', 3), ('d', 4)])


 ## `collections.OrderedDict`  和  `sortedcontainers.SortedDict` 的区别
 都是用于有序字典的数据结构，它们之间有以下区别：
 1. 实现方式： `collections.OrderedDict`  是Python标准库中的一个类，它使用了双向链表和哈希表来实现有序字典。而  `sortedcontainers.SortedDict`  是一个第三方库  `sortedcontainers`  中的类，它使用了平衡二叉搜索树（红黑树）来实现有序字典。
 2. 性能：由于底层实现的不同， `collections.OrderedDict`  的插入、删除和查找操作的时间复杂度是O(1)，而  `sortedcontainers.SortedDict`  的插入、删除和查找操作的时间复杂度是O(log n)。在大多数情况下， `collections.OrderedDict`  的性能更好，但是当需要频繁进行范围查询、迭代和排序操作时， `sortedcontainers.SortedDict`  的性能更好。
 3. 功能： `collections.OrderedDict`  提供了一些额外的功能，比如  `popitem(last=True)`  方法可以按照插入顺序删除最后一个键值对，而  `sortedcontainers.SortedDict`  则提供了一些额外的方法，比如  `bisect_left(key)`  方法可以返回键在有序字典中的插入位置。
 综上所述，如果你只需要简单的有序字典，并且对性能要求较高，可以使用  `collections.OrderedDict` 。如果你需要频繁进行范围查询、迭代和排序操作，并且对性能要求适中，可以考虑使用  `sortedcontainers.SortedDict` 。

# namedTuple
1. namedtuple是一个函数，它可以用来创建具有命名字段的元组。
2. 与普通元组不同，命名元组中的每个字段都有一个可读的名称，可以通过这个名称来访问元组中的值。
3. 这使得命名元组比普通元组更易于阅读和维护

以下是一个namedtuple的例子：

In [8]:
from collections import namedtuple

# 创建一个名为 Point 的命名元组
Point = namedtuple('Point', ['x', 'y'])

# 创建一个 Point 对象
p = Point(1, 2)

# 访问 Point 对象的 x 和 y 字段
print(p.x)  # 输出 1
print(p.y)  # 输出 2


1
2


## 注意点
在这个例子中，namedtuple函数接受两个参数：元组的名称（在这个例子中是Point），以及元组中的字段名称列表（在这个例子中是['x', 'y']）。
namedtuple函数返回一个新的类，这个类可以用来创建具有指定字段的元组。

注意，与普通的元组一样，命名元组是不可变的。
这意味着一旦创建了一个命名元组，就不能修改它的值。
如果你需要修改命名元组的值，可以使用_replace()方法创建一个新的命名元组。

In [10]:
# 以下是namedtuple的一些常见的抽象方法：
#
# _asdict()
# 将命名元组转换为一个有序字典。
from collections import namedtuple

Point = namedtuple('Point', ['x', 'y'])

p = Point(1, 2)
d = p._asdict()

print(d)  # 输出 OrderedDict([('x', 1), ('y', 2)])

{'x': 1, 'y': 2}


In [12]:
# _replace(**kwargs)
# 创建一个新的命名元组，其中指定的参数将被替换为新的值。
from collections import namedtuple

Point = namedtuple('Point', ['x', 'y'])

p1 = Point(1, 2)
p2 = p1._replace(x=3)

print(p1)  # 输出 Point(x=1, y=2)
print(p2)  # 输出 Point(x=3, y=2)


Point(x=1, y=2)
Point(x=3, y=2)


In [14]:
# _fields
# 元组的字段名称列表。
from collections import namedtuple

Point = namedtuple('Point', ['x', 'y'])

print(Point._fields)  # 输出 ['x', 'y']


('x', 'y')


In [15]:
# _make(iterable)
# 使用可迭代对象中的值创建一个新的命名元组。
from collections import namedtuple

Point = namedtuple('Point', ['x', 'y'])

lst = [1, 2]
p = Point._make(lst)

print(p)  # 输出 Point(x=1, y=2)


Point(x=1, y=2)
