# 2.2 collections: 容器数据类型

## 2.2.3 defaultdict: 缺少的键返回一个默认值

标准字典包含的 ***setdefault( )*** 方法 可用于获取一个值，若不存在则建立一个默认值。
<br>与之相反，初始化容器时 *defaultdict* 会让调用者提前指定默认值。

***dictionary.setdefault(keyname, value)***
<br> value: optional, 如果键存在，则此参数无效。如果键不存在，则此值将成为键的值。默认值 None。

In [22]:
car = {
  "brand": "Porsche",
  "model": "356a",
  'color': 'black',
  "year": 1963
}

x = car.setdefault("model", "Macan")
y = car.setdefault('owner', 'Gin')

print(x,y)
print(car)

356a Gin
{'brand': 'Porsche', 'model': '356a', 'color': 'black', 'year': 1963, 'owner': 'Gin'}


In [18]:
# CODE LIST 2-23
import collections

def default_factory():
    return 'default value'

d = collections.defaultdict(default_factory, foo='bar')
print('d:', d)
print('foo =>', d['foo'])
print('bar =>', d['bar'])

d: defaultdict(<function default_factory at 0x000002AD3AA0EB88>, {'foo': 'bar'})
foo => bar
bar => default value


## 2.2.1 ChainMap 搜索多个字典

（官方文档）一个 ChainMap 类是为了将多个映射快速的链接到一起，这样它们就可以作为一个单元处理。<br>
它通常比创建一个新字典和多次调用 update() 要快很多。

即 将多个词典放在一个列表中

***m = collections.ChainMap(dict1, dict2, ...)***

### 2.2.1.1 Accessing Values

同常规词典相同的API来访问现有的值

- 当有重复名时，按照子映射传递到构造函数的顺序搜索&emsp;(如下例中'c'报告的值来自a字典)

- ***m.keys( ), m.values( )*** 获得ChainMap的键名与值列表
- ***m.items( )***
- ***m.maps***

In [10]:
# CODE LIST 2-11
import collections

a = {'a': 'A', 'c': 'C'}
b = {'b': 'B', 'c': 'D'}

m = collections.ChainMap(a, b)
print(m,'\n',m.items(),'\n',m.maps,'\n')

print('Individual Values')
print('a = {}'.format(m['a']))
print('b = {}'.format(m['b']))
print('c = {}'.format(m['c']))
print()

print('Keys = {}'.format(list(m.keys())))
print('Values = {}'.format(list(m.values())))
print()

# m, m.items() 都显示了原各个词典，但在迭代操作时重复名只出现第一次
print('Items:')
for k, v in m.items():
    print('{} = {}'.format(k, v))
print()

print('"d" in m: {}'.format(('d' in m)))

ChainMap({'a': 'A', 'c': 'C'}, {'b': 'B', 'c': 'D'}) 
 ItemsView(ChainMap({'a': 'A', 'c': 'C'}, {'b': 'B', 'c': 'D'})) 
 [{'a': 'A', 'c': 'C'}, {'b': 'B', 'c': 'D'}] 

Individual Values
a = A
b = B
c = C

Keys = ['b', 'c', 'a']
Values = ['B', 'C', 'A']

Items:
b = B
c = C
a = A

"d" in m: False


### 2.2.1.2 Reordering

*m.maps* &emsp; maps 属性中储存要搜索的映射列表。<br>
此列表是可变的，故可直接增加新映射，或者改变元素顺序以控制查找和更新行为。

In [3]:
# CODE LIST 2-12
import collections

a = {'a': 'A', 'c': 'C'}
b = {'b': 'B', 'c': 'D'}

m = collections.ChainMap(a, b)

print(m.maps)
print('c = {}\n'.format(m['c']))

# reverse the list
m.maps = list(reversed(m.maps))

print(m.maps)
print('c = {}'.format(m['c']))

[{'a': 'A', 'c': 'C'}, {'b': 'B', 'c': 'D'}]
c = C

[{'b': 'B', 'c': 'D'}, {'a': 'A', 'c': 'C'}]
c = D


### 2.2.1.3 Updating Values

两种方法：修改子映射 或 直接通过ChainMap设置值

注意：重复名情况下也只有第一个映射会被修改。

- ***m.new_child( )***

In [11]:
# CODE LIST 2-13
import collections

a = {'a': 'A', 'c': 'C'}
b = {'b': 'B', 'c': 'D'}

m = collections.ChainMap(a, b)
print('Before: {}'.format(m['c']))
a['c'] = 'E'
print('After : {}'.format(m['c']))

Before: C
After : E


In [12]:
# CODE LIST 2-14
import collections

a = {'a': 'A', 'c': 'C'}
b = {'b': 'B', 'c': 'D'}

m = collections.ChainMap(a, b)
print('Before:', m)
m['c'] = 'E' # 只有a映射中的被修改了
print('After :', m)
print('a:', a)

Before: ChainMap({'a': 'A', 'c': 'C'}, {'b': 'B', 'c': 'D'})
After : ChainMap({'a': 'A', 'c': 'E'}, {'b': 'B', 'c': 'D'})
a: {'a': 'A', 'c': 'E'}


*.new_child( )* 方法会在maps列表最前端添加一个新的映射列表，以避免修改现有的底层数据结构

In [13]:
# CODE LIST 2-15
import collections

a = {'a': 'A', 'c': 'C'}
b = {'b': 'B', 'c': 'D'}

m1 = collections.ChainMap(a, b)
m2 = m1.new_child()

print('m1 before:', m1)
print('m2 before:', m2)

m2['c'] = 'E'

print('m1 after:', m1)
print('m2 after:', m2)

m1 before: ChainMap({'a': 'A', 'c': 'C'}, {'b': 'B', 'c': 'D'})
m2 before: ChainMap({}, {'a': 'A', 'c': 'C'}, {'b': 'B', 'c': 'D'})
m1 after: ChainMap({'a': 'A', 'c': 'C'}, {'b': 'B', 'c': 'D'})
m2 after: ChainMap({'c': 'E'}, {'a': 'A', 'c': 'C'}, {'b': 'B', 'c': 'D'})


In [14]:
# CODE LIST 2-16
import collections

a = {'a': 'A', 'c': 'C'}
b = {'b': 'B', 'c': 'D'}
c = {'c': 'E'}

m1 = collections.ChainMap(a, b)
m2 = m1.new_child(c)

print('m1["c"] = {}'.format(m1['c']))
print('m2["c"] = {}'.format(m2['c']))

m1["c"] = C
m2["c"] = E


## 2.2.2 Counter: 统计可散列的对象

Counter 容器，可以跟踪等效值增加的次数。<br>
这个类可以用于实现其他语言中 常用包(bag) 或多集合(multiset) 数据结构实现的算法

### 2.2.2.1 初始化

三种形式的初始化：元素序列，字典，关键字。

- ***c = collections.Counter(...)***

- ***c.update(...)*** &emsp;可用于更新或添加计数。或 c[key] = x 直接修改

In [3]:
# CODE LIST 2-17
import collections

print(collections.Counter(['a', 'b', 'c', 'a', 'b', 'b'])) # 直接计数元素名出现次
print(collections.Counter({'a': 2, 'b': 3, 'c': 1})) # 键和计数的字典
print(collections.Counter(a=2, b=3, c=1)) # 利用关键字参数，将字符串名映射到计数
# 打印时，默认按计数降序

Counter({'b': 3, 'a': 2, 'c': 1})
Counter({'b': 3, 'a': 2, 'c': 1})
Counter({'b': 3, 'a': 2, 'c': 1})


In [12]:
# CODE LIST 2-18
import collections

c = collections.Counter()
print('Initial :', c)

c.update('abcdaab') # 添加计数
print('Sequence:', c) 

c.update({'a': 1, 'd': 5}) # 更新计数
print('Dict    :', c)
c.update('dda') # 更新计数.2
print('Dict    :', c)
c['d'] = 10 # 更新.3
print('Dict    :', c)

Initial : Counter()
Sequence: Counter({'a': 3, 'b': 2, 'c': 1, 'd': 1})
Dict    : Counter({'d': 6, 'a': 4, 'b': 2, 'c': 1})
Dict    : Counter({'d': 8, 'a': 5, 'b': 2, 'c': 1})
Dict    : Counter({'d': 10, 'a': 5, 'b': 2, 'c': 1})


### 2.2.2.2 访问计数

同字典，使用字典API获取值。

注意：对于**未知元素**不会产生 *KeyError*，而是计数为0.

- *c[letter]*

- ***c.elements( )*** &emsp; 返回迭代器，注意和前不同，重复元素会重复出现
- ***c.most_common(n)*** &emsp; 生成一个序列，包含n个最常遇到的输入值和相应的计数。缺省则为所有元素的频度排序。

In [9]:
# CODE LIST 2-19
import collections

c = collections.Counter('abcdaab')

for letter in 'abcde':
    print('{} : {}'.format(letter, c[letter])) # c[...] 通过名访问

a : 3
b : 2
c : 1
d : 1
e : 0


In [14]:
# CODE LIST 2-20
import collections

c = collections.Counter('extremely')
c['z'] = 0
print(c)
print(list(c.elements()))
for letter in c.elements():
    print(c[letter],end=' ')

Counter({'e': 3, 'x': 1, 't': 1, 'r': 1, 'm': 1, 'l': 1, 'y': 1, 'z': 0})
['e', 'e', 'e', 'x', 't', 'r', 'm', 'l', 'y']
3 3 3 1 1 1 1 1 1 

In [16]:
# CODE LIST 2-21
import collections

c = collections.Counter()
with open('./spelling_wordlist.txt', 'rt') as f:
    for line in f:
        c.update(line.rstrip().lower())

print('Most common:')
for letter, count in c.most_common(3):
    print('{}: {:>7}'.format(letter, count))

Most common:
e:     109
t:      75
r:      72


### 2.2.2.3 算数操作

Counter 实例支持使用算术和集合操作 完成 **结果的聚集**。<br>
*+=, -=, &=, |=* 等原地执行的操作符也支持。

In [5]:
# CODE LIST 2-22
import collections

c1 = collections.Counter(['a', 'b', 'c', 'a', 'b', 'b'])
c2 = collections.Counter('alphabet')

print('C1:', c1)
print('C2:', c2)

print('\nCombined counts:')
print(c1 + c2)

print('\nSubtraction:')
print(c1 - c2)

# 相同元素的值，交集取最小，并集取最大
print('\nIntersection (taking positive minimums):')
print(c1 & c2)

print('\nUnion (taking maximums):')
print(c1 | c2)

C1: Counter({'b': 3, 'a': 2, 'c': 1})
C2: Counter({'a': 2, 'l': 1, 'p': 1, 'h': 1, 'b': 1, 'e': 1, 't': 1})

Combined counts:
Counter({'a': 4, 'b': 4, 'c': 1, 'l': 1, 'p': 1, 'h': 1, 'e': 1, 't': 1})

Subtraction:
Counter({'b': 2, 'c': 1})

Intersection (taking positive minimums):
Counter({'a': 2, 'b': 1})

Union (taking maximums):
Counter({'b': 3, 'a': 2, 'c': 1, 'l': 1, 'p': 1, 'h': 1, 'e': 1, 't': 1})
