# 第3章 字典和集合

## 泛映射类型

In [1]:
from collections import abc, OrderedDict, UserDict

# isinstance和type区别
# isinstance()：认为子类是一种父类类型，考虑继承关系
# type()：不会认为子类是一种父类类型，不考虑继承关系。
# 如果要判断两个类型是否相同推荐使用 isinstance()。
my_dict = {}
print(isinstance(my_dict, abc.Mapping), type(my_dict).__name__ == 'dict')
my_dict2 = OrderedDict([])
print(isinstance(my_dict2, abc.Mapping), type(my_dict2).__name__ == 'dict')


class StrkeyDict(UserDict):
    pass


my_dict3 = StrkeyDict()
print(isinstance(my_dict3, abc.Mapping), type(my_dict2).__name__ == 'dict')


True True
True False
True False


In [3]:
# 散列表
tt = (1, 2, (5, 4))
hash(tt)

-2764265307498484889

In [7]:
t1 = (1, 2, (5, 4))
tt == t1

True

In [9]:
hash(t1)

-2764265307498484889

In [8]:
t2 = (1, 2, [5, 4])
hash(t2)

TypeError: unhashable type: 'list'

In [36]:
t3 = (1, 2, frozenset([30, 40]))
print(hash(t2))

5149391500123939311


## 字典推导
字典推导（dictcomp）可以从任何以键值对作为元素的可迭 代对象中构建出字典

In [17]:
# 字典的创造
a = dict(one=1, two=2, three=3)
b = {'one': 1, "two": 2, "three": 3}
c = dict(zip(["one", "two", "three"], [1, 2, 3]))  # 拉链函数:可迭代对象 打包成元组
d = dict([("two", 2), ('one', 1), ("three", 3)])  #
e = dict({"two": 2, 'one': 1, "three": 3})
print(a == b == c == e == d)

print("----------")

a = [1, 2, 3]
b = [4, 5, 6]
c = [4, 5, 6, 7, 8]
zipped = zip(a, b)  # 打包为元组的列表
print(type(zipped))
print(*zipped)  # 与 zip 相反，*zipped 可理解为解压，返回二维矩阵式
print(*zip(a, c))  # 元素个数与最短的列表一致

True
----------
<class 'zip'>
(1, 4) (2, 5) (3, 6)
(1, 4) (2, 5) (3, 6)


In [25]:
for i,j in zip(a, c):
    print(i, j)

1 4
2 5
3 6


In [34]:
dial_codes = [(86, 'China'),
              (91, 'India'),
              (1, 'United States'),
              (62, 'Indonesia'),
              (55, 'Brazil'),
              (92, 'Pakistan'),
              (880, 'Bangladesh'),
              (234, 'Nigeria'),
              (7, 'Russia'),
              (81, 'Japan')]

print(dial_codes)
print("-"*100)
# 利用推导来获取数据
country_code = {country: code for code, country in dial_codes}
print(country_code)
print("-"*100)
# 对字典创建进行判断
country_code2 = {code: country.upper() for code, country in dial_codes  if code < 66}
print(country_code2)

[(86, 'China'), (91, 'India'), (1, 'United States'), (62, 'Indonesia'), (55, 'Brazil'), (92, 'Pakistan'), (880, 'Bangladesh'), (234, 'Nigeria'), (7, 'Russia'), (81, 'Japan')]
----------------------------------------------------------------------------------------------------
{'China': 86, 'India': 91, 'United States': 1, 'Indonesia': 62, 'Brazil': 55, 'Pakistan': 92, 'Bangladesh': 880, 'Nigeria': 234, 'Russia': 7, 'Japan': 81}
----------------------------------------------------------------------------------------------------
{1: 'UNITED STATES', 62: 'INDONESIA', 55: 'BRAZIL', 7: 'RUSSIA'}



## 常见的映射方法

### 键值缺失情况

In [99]:
#　当键值不存在时
item = {}
item["python"]

KeyError: 'python'

In [100]:
# 后处理不存在值
values = item.get("python", [])
values

[]

In [101]:
# 添加步骤
# 两步查找，先查找取出默认，后查找放入取值
values.append(5)
item["python"] = values
item

{'python': [5]}

### 默认字典 defaultdict

In [134]:
import sys
import re

WORD_RE = re.compile(r'\w+')
index = {}
with open(sys.argv[0], encoding='utf-8') as fp:
    for line_no, line in enumerate(fp, 1):
        for match in WORD_RE.finditer(line):
            word = match.group()
            column_no = match.start() + 1
            location = (line_no, column_no)
            # 方法一
            # occurrences = index.get(word, []) # 提取 word 出现的情况，如果还没有它的记录返回 【】
            # occurrences.append(location) # 把新单词出现的位置添加到列表的后面
            # index[word] = occurrences # 把新的列表放回到字典中 #又涉及一次到查询
            # 方法二
            index.setdefault(word,[]).append(location)
# 以字母顺序打印结果
for word in sorted(index, key=str.upper):
    print(word, index[word])

0 [(12, 17), (13, 22)]
added [(11, 15)]
after [(4, 1)]
an [(1, 30)]
app [(15, 40), (16, 5)]
as [(15, 37)]
avoid [(3, 55)]
back [(11, 21)]
by [(11, 26)]
can [(3, 51)]
cwd [(4, 20)]
CWD [(10, 18)]
del [(13, 9)]
doing [(3, 61)]
Entry [(1, 4)]
for [(1, 16)]
from [(3, 18), (4, 24), (10, 22), (15, 5)]
if [(9, 1), (12, 5)]
import [(7, 1), (15, 20)]
imports [(3, 67)]
init_path [(11, 49)]
InteractiveShellApp [(11, 29)]
ipykernel [(3, 27), (15, 10)]
IPython [(1, 33)]
is [(3, 6), (11, 12)]
kernel [(1, 41)]
kernelapp [(15, 27)]
launching [(1, 20)]
launch_new_instance [(16, 9)]
load [(10, 45)]
package [(3, 37)]
path [(4, 33), (10, 31), (12, 12), (13, 17)]
point [(1, 10)]
Remove [(10, 7)]
removing [(4, 7)]
separate [(3, 9)]
so [(3, 45)]
stuff [(10, 50)]
sys [(4, 29), (7, 8), (10, 27), (12, 8), (13, 13)]
the [(3, 23), (4, 16), (10, 14)]
This [(3, 1), (11, 7)]
until [(3, 75)]
we [(3, 48), (10, 42)]
while [(10, 36)]
__main__ [(9, 17)]
__name__ [(9, 4)]


In [103]:
from collections import defaultdict
# 前处理不存在值
# 默认字典保证键有值
#参数是类型
# 默认字典，一致性：表示同一类型
# 例如:当key值存在，而无value值时，会默认生成{key:默认类型}
d=defaultdict(list)
d['a'].append(1)
d['a'].append(2)
d['a'].append(2)
d['b'].append(3)
# 只有键，默认[]
d["c"]
print(d)

defaultdict(<class 'list'>, {'a': [1, 2, 2], 'b': [3], 'c': []})


In [48]:
d2=defaultdict(set)
d2['a'].add(1)
d2['a'].add(2)
d2['a'].add(2)
d2['b'].add(3)
print(d2)

defaultdict(<class 'set'>, {'a': {1, 2}, 'b': {3}})


In [49]:
d3 = {}
d3.setdefault('a', []).append(1)
d3.setdefault('a', []).append(2)
d3.setdefault('b', []).append(3)
print(d3)  # {'a': [1, 2], 'b': [3]}

{'a': [1, 2], 'b': [3]}


In [61]:
# 默认在value不存在的情况下，用整数0进行补充
d4 = defaultdict(int)
d4["4"] = 1
d4["5"]
d4

defaultdict(int, {'4': 1, '5': 0})

In [77]:
# 普通字典类型
d5 = {}
# 增加默认字典类型
d5.setdefault("a", [])
d5.setdefault("b", set())
d5["a"].append(1)
d5["a"].append(1)
d5["b"].add(88)
d5["b"].add(8)
d5["b"].add(8)
d5

{'a': [1, 1], 'b': {8, 88}}

### 有序字典 OrderedDict

In [126]:
# 一个 OrderedDict 的大小是一个普通字典的两倍，因为它内部维 护着另外一个链表
# OrderedDict 内部维护着一个根据键插入顺序排序的双向链表。
# 每次当一个新的元素插入进来的时候，它会被放到链表的尾部。对于一个已经存在的键的重复赋值不会 改变键的顺序
from collections import OrderedDict

d4 = OrderedDict()
d4['a'] = 1
d4['b'] = 2
d4['c'] = 3
d4['d'] = 4
for k, v in d4.items():
    print(k, '=====', v)

a ===== 1
b ===== 2
c ===== 3
d ===== 4


In [127]:
import json
print(json.dumps(d4)) # {"a": 1, "b": 2, "c": 3, "d": 4}

{"a": 1, "b": 2, "c": 3, "d": 4}


In [128]:
# 删除
d4.popitem() #默认一处字典中最先插入的元素（先进后出）
print(json.dumps(d4)) # {"a": 1, "b": 2, "c": 3}

{"a": 1, "b": 2, "c": 3}


In [111]:
d4.popitem(last=False) #默认一处字典中最先插入的元素（先进先出）
print(json.dumps(d4)) # {"b": 2, "c": 3}

{}


In [108]:
print("-----循环-----")
prices = {
    'ACME': 45.23,
    'AAPL': 612.78,
    'IBM': 205.55,
    'HPQ': 37.20,
    'FB': 10.75
}
price1 = zip(prices.values(), prices.keys())
for k, v in price1.__iter__():
    print(k, '==', v)

-----循环-----
45.23 == ACME
612.78 == AAPL
205.55 == IBM
37.2 == HPQ
10.75 == FB


In [132]:
# 普通字典无序，但按照存储顺序读写
dicta = {"a": 1, "b": 2}
dictb = {"b": 2, "a": 1, }
print(dicta, dictb)
print(dicta == dictb)

{'a': 1, 'b': 2} {'b': 2, 'a': 1}
True


In [133]:
# 列表有序
print("------列表-------")
lista = ["a", "b"]
listb = ["b", "a", ]
print(lista, listb)
print(lista==listb)

------列表-------
['a', 'b'] ['b', 'a']
False


In [131]:
print("------有序字典-------")
from collections import OrderedDict
d4 = OrderedDict()
d4['a'] = 1
d4['b'] = 2
d5 = OrderedDict()
d5['b'] = 2
d5['a'] = 1
print(d4,d5)
print(d4==d5)

------有序字典-------
OrderedDict([('a', 1), ('b', 2)]) OrderedDict([('b', 2), ('a', 1)])
False


In [140]:
dddd = {}
type(dddd)

dict

## 链映射ChainMap
该类型可以容纳数个不同的映射对象，然后在进行键查找操作的时候，这些对象会被当作一个整体被逐个查找，直到键被找到为止。因此，ChainMap实际上是把放入的字典存储在一个队列中，当进行字典的增加删除等操作只会在第一个字典上进行，当进行查找的时候会依次查找

In [208]:
from collections import ChainMap

a = {"x": 1, "z": 3}
b = {"y": 2, "z": 4}
c = ChainMap(a, b)
print(c)

ChainMap({'x': 1, 'z': 3}, {'y': 2, 'z': 4})


In [212]:
# 查找操作：依次查找
c["z"], c["y"]

(3, 2)

In [197]:
# 对象的引用
a.update({"z": 2})
print(c)  # 同步更新

ChainMap({'x': 1, 'z': 2}, {'y': 2, 'z': 4})


In [198]:
# 当对ChainMap进行修改的时候总是只会对第一个字典进行修改
print(c["z"])
c["z"]=5
print(c)

2
ChainMap({'x': 1, 'z': 5}, {'y': 2, 'z': 4})


In [199]:
# 只对第一个字典进行修改，即使key在后面的字典中存在
c["y"] = 100
c

ChainMap({'x': 1, 'z': 5, 'y': 100}, {'y': 2, 'z': 4})

In [200]:
c.pop('z')
print(c)

ChainMap({'x': 1, 'y': 100}, {'y': 2, 'z': 4})


In [201]:
c.pop('z')  # 报错

KeyError: "Key not found in the first mapping: 'z'"

In [204]:
del c["z"]    # 报错

KeyError: "Key not found in the first mapping: 'z'"

In [203]:
print('-------------------')
a = ChainMap()
a["x"]=1
print(a) # ChainMap({'x': 1})

-------------------
ChainMap({'x': 1})


In [206]:
b=a.new_child()
b

ChainMap({}, {'x': 1})

## Counter

In [226]:
from collections import Counter

s = 'To be,or not to be:that is the question'
# Counter存储为键值对的形式，因此按照字典的形式进行处理
c = Counter(s)
print(c)

Counter({' ': 7, 't': 6, 'o': 5, 'e': 4, 'b': 2, 'n': 2, 'h': 2, 'i': 2, 's': 2, 'T': 1, ',': 1, 'r': 1, ':': 1, 'a': 1, 'q': 1, 'u': 1})


In [227]:
#Counter({' ': 7, 't': 6, 'o': 5, 'e': 4, 'b': 2, 'n': 2, 'h': 2, 'i': 2, 's': 2, 'T': 1, ',': 1, 'r': 1, ':': 1, 'a': 1, 'q': 1, 'u': 1})
total = sum([v for k, v in c.items() if k in ['y', 'a', 'n', 'g', 'o']])
print(total) # 简单理解c是一个dict，使用items()方法可以遍历dict的key和value。 如果 k

8


In [228]:
# 同样的，可以对list统计
elements = ['jack', 'JACK', 'lucy', 'April', 'Lucy', 'mike', 'JAck']
c = Counter(elements)
print(c) # Counter({'jack': 1, 'JACK': 1, 'lucy': 1, 'April': 1, 'Lucy': 1, 'mike': 1, 'JAck': 1})

Counter({'jack': 1, 'JACK': 1, 'lucy': 1, 'April': 1, 'Lucy': 1, 'mike': 1, 'JAck': 1})


In [230]:
# 众数
c.most_common(3)

[('jack', 1), ('JACK', 1), ('lucy', 1)]

In [217]:
# 更新子键值
new_elements=['alice','steven']
c.update(new_elements)
print(c) # Counter({'jack': 1, 'JACK': 1, 'lucy': 1, 'April': 1, 'Lucy': 1, 'mike': 1, 'JAck': 1, 'alice': 1, 'steven': 1})

Counter({'jack': 1, 'JACK': 1, 'lucy': 1, 'April': 1, 'Lucy': 1, 'mike': 1, 'JAck': 1, 'alice': 1, 'steven': 1})


In [218]:
# 消除子键值
new_elements=['JACK','JAck','jaCK']
c.subtract(new_elements)
print(c) # Counter({'jack': 1, 'lucy': 1, 'April': 1, 'Lucy': 1, 'mike': 1, 'alice': 1, 'steven': 1, 'JACK': 0, 'JAck': 0, 'jaCK': -1})

Counter({'jack': 1, 'lucy': 1, 'April': 1, 'Lucy': 1, 'mike': 1, 'alice': 1, 'steven': 1, 'JACK': 0, 'JAck': 0, 'jaCK': -1})


In [219]:
del c['jack']
print(c) # Counter({'lucy': 1, 'April': 1, 'Lucy': 1, 'mike': 1, 'alice': 1, 'steven': 1, 'JACK': 0, 'JAck': 0, 'jaCK': -1})

Counter({'lucy': 1, 'April': 1, 'Lucy': 1, 'mike': 1, 'alice': 1, 'steven': 1, 'JACK': 0, 'JAck': 0, 'jaCK': -1})


In [220]:
a = Counter('aaab')
b = Counter('ccdd')

In [231]:
a, b

(Counter({'a': 3, 'b': 1}), Counter({'c': 2, 'd': 2}))

In [221]:
# +
a_sum_b = a + b
print(a_sum_b)

Counter({'a': 3, 'c': 2, 'd': 2, 'b': 1})


In [222]:
# -
a_sub_b = a - b
print(a_sub_b)

Counter({'a': 3, 'b': 1})


In [223]:
# &， 交集
a_and_b = a & b
print(a_and_b)

Counter()


In [224]:
# |， 并集
a_union_b = a | b
print(a_union_b)

Counter({'a': 3, 'c': 2, 'd': 2, 'b': 1})


## 特殊方法__mission__

In [147]:
"""
查询的时候，映射类型里面的键，统统换成str
如果一个类例如StrKeyDict0继承了dict。然后这个继承类提供了一个__missing__方法，
那么在__getitem__碰到找不到的键的时候，Python会自动调用它
"""


class StrKeyDict0(dict):
    # 该类继承了dict
    def __missing__(self, key):
        print("i'm missing")
        # 如果找不到的键，本身就是字符串，抛异常
        if isinstance(key, str):
            raise KeyError(key)
        return self[str(key)]

    def get(self, key, default=None):
        try:
            return self[key]  # 通过这种形式委托给__getitem__.如果这个时候再找不到那就走__missing__
        except KeyError:
            return default  # 如果__missing__也是失败

    def __contains__(self, key):
        # 先按照传入键的原本的值来查找（我们的映射类型中可能含有非字符串的键），如果没 找到，再用 str() 方法把键转换成字符串再查找一次。
        return key in self.keys() or str(key) in self.keys()

In [148]:
# 当有非字符串的键被查找的时候，StrKeyDict0 是如何在该键不存在的情况下， 把它转换为字符串的
d = StrKeyDict0([('2', 'two'), ('4', 'four')])
print(d['2'])
print("-------非字符串查找,转换成字符串后存在--------")
print(d[4])
print("-------非字符串查找,转换成字符串后仍然不存在--------")
print(d[1])

two
-------非字符串查找,转换成字符串后存在--------
i'm missing
four
-------非字符串查找,转换成字符串后仍然不存在--------
i'm missing
i'm missing


KeyError: '1'

In [149]:
d.get('2')
d.get(4)
# get方法不存在，则以默认值的形式表示
print(d.get(1))
# __contains__方法
print( 2 in d )
print( 1 in d )

i'm missing
i'm missing
i'm missing
None
True
False


## 子类化 UserDict

In [232]:
from collections import UserDict


class StrkeyDict(UserDict):
    def __missing__(self, key):
        if isinstance(key,str):
            raise KeyError
        return self[str(key)]

    def __setitem__(self, key, value):
        self.data[str(key)]=value

    def __contains__(self, key):
        return str(key) in self.data

In [236]:
# 当有非字符串的键被查找的时候，StrkeyDict 是如何在该键不存在的情况下， 把它转换为字符串的
d = StrkeyDict([('2', 'two'), ('4', 'four')])
print(d['2'])
print("-------非字符串查找,转换成字符串后存在--------")
print(d[4])
print("-------非字符串查找,转换成字符串后仍然不存在--------")
# print(d[1]) # 报错

two
-------非字符串查找,转换成字符串后存在--------
four
-------非字符串查找,转换成字符串后仍然不存在--------


In [240]:
d.get('2')

'two'

In [241]:
d.get(4)

'four'

In [239]:
# 返回默认值None
print(d.get(1))

None


In [237]:
print( 2 in d )
print( 1 in d )

None
True
False


## 不可变的映射类型（只读）
如果给这个类一个映射，它会返回一个只读的映射视图。虽然是个只读视图，但是它是<font color=red>动态的</font>。这意味着如果对原映射做出了改动，我们通过这个视图可以观察到，但是无法通过这个视图对原映射做出修改。

In [255]:
from types import MappingProxyType

d = {1: 'A'}
d_proxy = MappingProxyType(d)
print(d_proxy)  # {1: 'A'}
print(d_proxy[1])  # A

{1: 'A'}
A


In [256]:
# 改变原始映射, 其对应的视图也进行变化(动态的)
d[2] = "B"
d_proxy

mappingproxy({1: 'A', 2: 'B'})

In [257]:
# 对视图不能直接进行修改，即映射后的视图属于不可修改类型
d_proxy[2] = 'x' #直接赋值就报错

TypeError: 'mappingproxy' object does not support item assignment

## 集合

In [278]:
# 空集合创建的误区
a = {}  # 默认为字典类型
b = {1}  # 包含集合类型的元素时为集合
c = {2: "B"}  # 包含字典类型的元素时为集合
d = set()  # 创建空集合
type(a), type(b), type(c), type(d)

(dict, set, dict, set)

In [272]:
a = {1, 2, 3}
b = {3, 4, 5}

In [273]:
# 交集  s &= z
print(a & b, a, b)  # {3} {1, 2, 3} {3, 4, 5}
print(b & a, a, b)

{3} {1, 2, 3} {3, 4, 5}
{3} {1, 2, 3} {3, 4, 5}


In [274]:
# 差集  s -= z
print(a - b, a, b)  # {1, 2} {1, 2, 3} {3, 4, 5}
print(b - a, a, b)  # {4, 5} {1, 2, 3} {3, 4, 5}

{1, 2} {1, 2, 3} {3, 4, 5}
{4, 5} {1, 2, 3} {3, 4, 5}


In [275]:
# 并集  s |= z
print(a | b, a, b)  # {3} {1, 2, 3} {3, 4, 5}
print(b | a, a, b)

{1, 2, 3, 4, 5} {1, 2, 3} {3, 4, 5}
{1, 2, 3, 4, 5} {1, 2, 3} {3, 4, 5}


In [276]:
# 补集  s ^= z
print(a ^ b, a, b)  # {1, 2, 4, 5} {1, 2, 3} {3, 4, 5}
print(b ^ a, a, b)  # {1, 2, 4, 5} {1, 2, 3} {3, 4, 5}

{1, 2, 4, 5} {1, 2, 3} {3, 4, 5}
{1, 2, 4, 5} {1, 2, 3} {3, 4, 5}


In [277]:
# <= 子集（包含本身）, < 真子集（不包含本身）
c = {1, 2}
e = 2
f = {1, 2, 3}
print("-----比较运算符-----")
print(e in a)  # 元素 e 是否属于 s
print(f<=a,c<=a)
print(f<a,c<a)

-----比较运算符-----
True
True True
False True


## 参考
[python collections模块详解](https://www.cnblogs.com/dahu-daqing/p/7040490.html)  
[流畅的Python](https://weread.qq.com/web/reader/ab832620715c017eab864a6)