# 字典和集合

都是依赖散列表。

什么是可散列的数据类型？

如果一个对象是可散列的，那么在这个对象的生命周期中，它 的散列值是不变的，而且这个对象需要实现 __hash__() 方
法。另外可散列对象还要有 __qe__() 方法，这样才能跟其 他键做比较。如果两个可散列对象是相等的，那么它们的散列
值一定是一样的......

In [None]:
# 当元组包涵的所有元素都是可散列类型时才是可散列的：
tt = (1,2,(3,4))
hash(tt)

In [2]:
# 列表不是可散列的，因此包含列表的元组也不是可散列的了
tl = (1,2,[3,4])
hash(tl)

TypeError: unhashable type: 'list'

In [None]:
# frozenset只能容纳可散列类型
tf = (1,2,frozenset([30,40]))
hash(tf)

*一般可以认为不可变类型是可散列的（上面的元组的例子其实就是意外之一）*

一般来讲**用户自定义的类型**的对象都是可散列的，散列值就是它们的 id() 函数的返回值，所以所有这些对象在比较的时候都是不相等的。如果一个对象实现了 __eq__ 方法，并且在方法中用到了这个对象的内部状态的话，那么只有当所有这些内部状态都是不可变的情况下，这个对象才是可散列的。

## 字典的构造方法

### 直接构造 和 推导式

In [None]:
# 直接构造

a = dict(one=1, two=2, three=3)                 # 使用构造函数
b = {'one':1, 'two':2, 'three':3}               # 使用{}大括号
c = dict(zip(['one', 'two', 'three'],[1,2,3]))  # 使用构造函数和zip将两个列表混合
d = dict([('two',2),('one',1),('three',3)])     # 使用构造函数和一组元组组成的列表
e = dict({'three':3, 'one':1, 'two':2})         # 使用构造函数和大括号
a == b == c == d == e                           # 离散并不会在乎顺序

In [None]:
# 推导式

DIAL_CODES = [
                (86, 'China'),
                (91, 'India'),
                (1, 'United States'),
                (62, 'Indonesia'),
                (55, 'Brazil'),
                (92, 'Pakistan'),
                (880, 'Bangladesh'),
                (234, 'Nigeria'),
                (7, 'Russia'),
                (81, 'Japan'),
                ]
country_code = {country:code for code , country in DIAL_CODES}
country_code

In [None]:
{code:country.upper() for country, code in country_code.items() if code < 66}

### setdefault处理找不到的键

In [9]:
"""
一个不好的示范
"""

import sys
import re

file = "zen.txt"
WORD_RE = re.compile(r'\w+')

index={}
with open(file, encoding='utf-8') as fp:
    for line_no, line in enumerate(fp, 1):
        for match in WORD_RE.finditer(line):
            word = match.group()
            column_no = match.start()+1
            location = (line_no, column_no)
            # 不推荐这么使用
            occurrences = index.get(word,[]) # 查询一次，查找该键的值，如果没有就返回空列表
            occurrences.append(location)     # 将查到的列表添加当前的位置数据
            index[word] = occurrences        # 再次查找，将修改后的值写入该键对应的值中
            #index.get(word,[]).append(location) # 这样写是不行的，将无法赋值
    fp.close()
            
for word in sorted(index, key=str.upper):
    print(word, index[word])

a [(19, 48), (20, 53)]
Although [(11, 1), (16, 1), (18, 1)]
ambiguity [(14, 16)]
and [(15, 23)]
are [(21, 12)]
aren [(10, 15)]
at [(16, 38)]
bad [(19, 50)]
be [(15, 14), (16, 27), (20, 50)]
beats [(11, 23)]
Beautiful [(3, 1)]
better [(3, 14), (4, 13), (5, 11), (6, 12), (7, 9), (8, 11), (17, 8), (18, 25)]
break [(10, 40)]
by [(1, 20)]
cases [(10, 9)]
complex [(5, 23)]
Complex [(6, 1)]
complicated [(6, 24)]
counts [(9, 13)]
dense [(8, 23)]
do [(15, 64), (21, 48)]
Dutch [(16, 61)]
easy [(20, 26)]
enough [(10, 30)]
Errors [(12, 1)]
explain [(19, 34), (20, 34)]
Explicit [(4, 1)]
explicitly [(13, 8)]
face [(14, 8)]
first [(16, 41)]
Flat [(7, 1)]
good [(20, 55)]
great [(21, 28)]
guess [(14, 52)]
hard [(19, 26)]
honking [(21, 20)]
idea [(19, 54), (20, 60), (21, 34)]
If [(19, 1), (20, 1)]
implementation [(19, 8), (20, 8)]
implicit [(4, 25)]
In [(14, 1)]
is [(3, 11), (4, 10), (5, 8), (6, 9), (7, 6), (8, 8), (17, 5), (18, 16), (19, 23), (20, 23)]
it [(15, 67), (19, 43), (20, 43)]
let [(21, 42)]
m

In [2]:
"""
使用setdefault方法可以只用一次查询解决该问题：
"""
import sys
import re

file = 'zen.txt'
WORD_RE = re.compile(r'\w+')

index = {}
with open(file, encoding='utf-8') as pf:
    for line_no, line in enumerate(pf, 1):
        for match in WORD_RE.finditer(line):
            word = match.group()
            column_no = match.start()+1
            location = (line_no, column_no)
            # 使用一行代码（只查询一次）就达到目标
            index.setdefault(word,[]).append(location)
    pf.close()
            
for word in sorted(index,key=str.upper):
    print( word, index[word])

a [(19, 48), (20, 53)]
Although [(11, 1), (16, 1), (18, 1)]
ambiguity [(14, 16)]
and [(15, 23)]
are [(21, 12)]
aren [(10, 15)]
at [(16, 38)]
bad [(19, 50)]
be [(15, 14), (16, 27), (20, 50)]
beats [(11, 23)]
Beautiful [(3, 1)]
better [(3, 14), (4, 13), (5, 11), (6, 12), (7, 9), (8, 11), (17, 8), (18, 25)]
break [(10, 40)]
by [(1, 20)]
cases [(10, 9)]
complex [(5, 23)]
Complex [(6, 1)]
complicated [(6, 24)]
counts [(9, 13)]
dense [(8, 23)]
do [(15, 64), (21, 48)]
Dutch [(16, 61)]
easy [(20, 26)]
enough [(10, 30)]
Errors [(12, 1)]
explain [(19, 34), (20, 34)]
Explicit [(4, 1)]
explicitly [(13, 8)]
face [(14, 8)]
first [(16, 41)]
Flat [(7, 1)]
good [(20, 55)]
great [(21, 28)]
guess [(14, 52)]
hard [(19, 26)]
honking [(21, 20)]
idea [(19, 54), (20, 60), (21, 34)]
If [(19, 1), (20, 1)]
implementation [(19, 8), (20, 8)]
implicit [(4, 25)]
In [(14, 1)]
is [(3, 11), (4, 10), (5, 8), (6, 9), (7, 6), (8, 8), (17, 5), (18, 16), (19, 23), (20, 23)]
it [(15, 67), (19, 43), (20, 43)]
let [(21, 42)]
m

In [None]:
# setdefault代表：
if key not in my_dict:
    my_dict[key] = []
my_dict[key].append(new_value)

# 映射的弹性键查询
- 一个类型：**defaultdict**
- 一个特殊的方法： **\_\_missing\_\_**

## defaultdict的default_factory可以代替setdefault()方法

In [4]:
import sys
import re
import collections


file = 'zen.txt'
WORD_RE = re.compile(r'\w+')

# 使用defaultdict类型！
index = collections.defaultdict(list)

with open(file, encoding='utf-8') as fp:
    for line_no, line in enumerate(fp, 1):
        for match in WORD_RE.finditer(line):
            word = match.group()
            column = match.start() + 1
            location = (line_no, column)
            # ***********************************************************************
            # 因为使用了defaultdict类型，因此使用__getitem__方法时，可以调用default_factory
            # 因此当是一个新值时，index[word]会返回一个利用list创建一个新值（空列表）
            # ***********************************************************************
            index[word].append(location)
    fp.close()
    
for word in sorted(index, key=str.upper):
    print(word, index[word])            

a [(19, 48), (20, 53)]
Although [(11, 1), (16, 1), (18, 1)]
ambiguity [(14, 16)]
and [(15, 23)]
are [(21, 12)]
aren [(10, 15)]
at [(16, 38)]
bad [(19, 50)]
be [(15, 14), (16, 27), (20, 50)]
beats [(11, 23)]
Beautiful [(3, 1)]
better [(3, 14), (4, 13), (5, 11), (6, 12), (7, 9), (8, 11), (17, 8), (18, 25)]
break [(10, 40)]
by [(1, 20)]
cases [(10, 9)]
complex [(5, 23)]
Complex [(6, 1)]
complicated [(6, 24)]
counts [(9, 13)]
dense [(8, 23)]
do [(15, 64), (21, 48)]
Dutch [(16, 61)]
easy [(20, 26)]
enough [(10, 30)]
Errors [(12, 1)]
explain [(19, 34), (20, 34)]
Explicit [(4, 1)]
explicitly [(13, 8)]
face [(14, 8)]
first [(16, 41)]
Flat [(7, 1)]
good [(20, 55)]
great [(21, 28)]
guess [(14, 52)]
hard [(19, 26)]
honking [(21, 20)]
idea [(19, 54), (20, 60), (21, 34)]
If [(19, 1), (20, 1)]
implementation [(19, 8), (20, 8)]
implicit [(4, 25)]
In [(14, 1)]
is [(3, 11), (4, 10), (5, 8), (6, 9), (7, 6), (8, 8), (17, 5), (18, 16), (19, 23), (20, 23)]
it [(15, 67), (19, 43), (20, 43)]
let [(21, 42)]
m

**defaultdict的default_factory只能在__getitem__中调用！**

## 背后实现原理是： 特殊方法\_\_missing\_\_

**所有的映射类型**在处理不到键的时候，都会调用\_\_missing\_\_方法。而且只会在\_\_getitem\_\_中调用。

### 实现\_\_missing\_\_

### 继承dict：

In [37]:
"""
继承dict

实现一个key即可以是string类型，也可以是int类型的字典
"""

class StrKeyDict0(dict):
    
    def __missing__(self, key):
        if isinstance(key, str) :
            raise KeyError(key)
        return self[str(key)]
    
    def get(self, key, default=None):
        try:
            return self[key]
        except KeyError:
            return default
        
    def __contains__(self, key):
        # 记住我们无法确定新定义的key到底是str还是其他类型，因此要两方面检查。
        return key in self.keys() or str(key) in self.keys()

    # 这样定义是有问题，只会陷入死循环，不停调用自己。触发RecursionError
#     def __setitem__(self, key, item):
#         self[str(key)] = item
    


d = StrKeyDict0(zip(["1","2","3","4"],["Pin1","Pin2","Pin3","Pin4"]))
print(d)
# 正常的调用__getitem__
print(d['2'])
# 调用__getitem__后，因为输入的是数字，因此会触发__missing__
# 而在__missing__中，我们已经将实现了数字转字符的功能
print(d[2])
print(3 in d)
print(d['4'] == d[4])

{'1': 'Pin1', '2': 'Pin2', '3': 'Pin3', '4': 'Pin4'}
Pin2
Pin2
True
True


In [38]:
# 虽然我们实现了__missing__和数字转字符，但是如果转为字符后，经查询也没有该key
# 就会提起数据错误。
# 这就是__missing__中实现的功能，首先判断是不是字符，不是字符转成字符，然后调用
# __getitem__,这时如果getitem找不到key，又会调用__missing__来处理，此时就会
# 提出数据错误。
print(d['6'])
print(d[6])

KeyError: '6'

In [39]:
# 我们自定义一个get函数，可以实现键不存在时，返回一个默认值。
print(d.get(6))

None


In [40]:
print(d.get('6'))

None


In [41]:
d[7] = "pin7"

# 问题出来了！
# 我们可以发现，如果我们新定义了一个数字的健值。无论是__getitem__还是我们自己定义的get函数
# 都不能正确的返回我们想要的返回值（我们想7和‘7’是等价的）

print( 7 in d) # True

print('7' in d) # False

print(d.get('7')) # None

print(d[7]) # pin7

print(d['7']) # KeyError: '7'

AttributeError: 'StrKeyDict0' object has no attribute 'data'

如过我们在StrKeyDict0中也定义了一摸一样的__setitem__方法就会：

RecursionError                            Traceback (most recent call last)
<ipython-input-31-ca03ac154b5c> in <module>
----> 1 d[7] = "pin7"
      2 
      3 # 问题出来了！
      4 # 我们可以发现，如果我们新定义了一个数字的健值。无论是__getitem__还是我们自己定义的get函数
      5 # 都不能正确的返回我们想要的返回值（我们想7和‘7’是等价的）

<ipython-input-27-51405db3aa3d> in __setitem__(self, key, item)
     23 
     24     def __setitem__(self, key, item):
---> 25         self[str(key)] = item
     26 
     27 

... last 1 frames repeated, from the frame below ...

<ipython-input-27-51405db3aa3d> in __setitem__(self, key, item)
     23 
     24     def __setitem__(self, key, item):
---> 25         self[str(key)] = item
     26 
     27 

RecursionError: maximum recursion depth exceeded while calling a Python object

### 继承Collections.UserDict

**因为真是数据存储在data中，因此可以从新定义\_\_setitem\_\_来避免
上面方法无法使用不是字符健值来定义新健值对时的问题。**

In [44]:
'''
使用Collections.UserDict为基类，可以轻松实现健值的数字和字符的转换。
而且！我们还能解决上面7和‘7’的问题！
'''
import collections

class StrKeyDict(collections.UserDict):
    
    def __missing__(self, key):
        if isinstance(key, str) :
            raise KeyError(key)
        return self[str(key)]
    
    def __contains__(self, key):
        return str(key) in self.data
    
    def __setitem__(self, key, item):
        self.data[str(key)] = item
    
dd = StrKeyDict([(1,'pin1'),(2,'pin2'),(3,'pin3')])
print(dd)

{'1': 'pin1', '2': 'pin2', '3': 'pin3'}


In [45]:
dd['2']

'pin2'

In [46]:
dd[3]

'pin3'

In [47]:
dd[4]

KeyError: '4'

In [49]:
dd['5'] = 'pin5'
dd[5]

'pin5'

另外一个值得注意的地方是，UserDict 并不是 dict 的子类，但是 UserDict 有一个叫作 data 的属性，是 dict 的实例，这个属性实际 上是 UserDict 最终存储数据的地方。这样做的好处是，比起示例 3- 7，UserDict 的子类就能在实现 \_\_setitem\_\_ 的时候避免不必要的 递归，也可以让 \_\_contains\_\_ 里的代码更简洁。

In [50]:
dd[6] = 'pin6'
dd['6']

'pin6'

# 其他常用三种字典变形
# OrderedDict ;  ChainMap  ; Counter ; UserDict

In [None]:
'''
************* Collections.OrderedDict *************

这个类型在添加键的时候会保持顺序，因此键的迭代次序总是一致的。
OrderedDict 的 popitem 方法默认删除并返回的是字典里的最
后一个元素，但是如果像 my_odict.popitem(last=False) 这样 
调用它，那么它删除并返回第一个被添加进去的元素。

'''


In [None]:
'''
************* Collections.ChainMap *************

该类型可以容纳数个不同的映射对象，然后在进行键查找操作的时 
候，这些对象会被当作一个整体被逐个查找，直到键被找到为止。这个 
功能在给有嵌套作用域的语言做解释器的时候很有用，可以用一个映射
对象来代表一个作用域的上下文。

'''

import builtins
pylookup = ChainMap(locals(), globals(), vars(builtins))

In [51]:
'''
************* Collections.Counter *************

这个映射类型会给键准备一个整数计数器。每次更新一个键的时候 都会增加这个计数器。
所以这个类型可以用来给可散列表对象计数，或 者是当成多重集来用.

'''

import collections
ct = collections.Counter('aabbddabdabdadab')
ct

Counter({'a': 6, 'b': 5, 'd': 5})

In [52]:
# 更新数据
ct.update('aboshaeoznca')
ct

Counter({'a': 9,
         'b': 6,
         'd': 5,
         'o': 2,
         's': 1,
         'h': 1,
         'e': 1,
         'z': 1,
         'n': 1,
         'c': 1})

In [53]:
# 出现最多的三个 TOP3
ct.most_common(3)

[('a', 9), ('b', 6), ('d', 5)]

In [54]:
'''
************* Collections.UserDict *************

这个类其实就是把标准 dict 用纯 Python 又实现了一遍。就是提供给用户来定义
自己的字典的（因为dict做了很多底层的优化）

'''

'\n************* Collections.UserDict *************\n\n这个类其实就是把标准 dict 用纯 Python 又实现了一遍。就是提供给用户来定义\n自己的字典的（因为dict做了很多底层的优化）\n\n'

# 不可变映射类型 MappingProxyType
基本的映射类型都是可变的。但是可以使用一个MappingProxyType来间接实现不可变映射

In [56]:
from types import MappingProxyType

original = {1 : 'A'}
proxy = MappingProxyType(original)
proxy

mappingproxy({1: 'A'})

In [57]:
# proxy只读
proxy[1]

'A'

In [58]:
# proxy只读
proxy[1] = "B"

TypeError: 'mappingproxy' object does not support item assignment

In [59]:
# 可以同步元数据
original[2] = "B"
proxy

mappingproxy({1: 'A', 2: 'B'})

# 集合 set 和 forzenset
- 集合的本质是许多**唯一**对象的聚集。因此，集合可以用于去重
- 集合中的元素必须是**可散列**的，set 类型本身是不可散列的，但是frozenset 可以。因此可以创建一个包含不同 frozenset 的 set。
- 中缀**运算符**：合集：a｜b；交集: a & b;差集：a - b
- 除了速度**极快的查找**功能(这也得归功于它背后的散列表)

## 如何定义集合

非空： a = {1,2,3,4}

空  ： a = set()     *不能使用{},会和字典的定义相混淆。*

集合的定义也可以使用推导式，和列表类似：

In [62]:
from unicodedata import name

# 把编码在 32~255 之间的字符的名字里有“SIGN”单词的挑出来，放到一个集合里。
{chr(i) for i in range(32, 256) if 'SIGN' in name(chr(i),'')}

{'#',
 '$',
 '%',
 '+',
 '<',
 '=',
 '>',
 '¢',
 '£',
 '¤',
 '¥',
 '§',
 '©',
 '¬',
 '®',
 '°',
 '±',
 'µ',
 '¶',
 '×',
 '÷'}

# dict和set的背后
- Python 里的 dict 和 set 的效率有多高? 为什么它们是无序的?
- 为什么并不是所有的 Python 对象都可以当作 dict 的键或 set 里 的元素?
- 为什么 dict 的键和 set 元素的顺序是跟据它们被添加的次序而定 的，以及为什么在映射对象的生命周期中，这个顺序并不是一成不变的?
- 为什么不应该在迭代循环 dict 或是 set 的同时往里添加元素?


dict和set采用了一个新的查找方法，总结起来大体是：

1. 计算键值的散列值（哈希值）
2. 使用散列值的一部分来定位三列表中的表元
3. 如果表元为空，则抛出KeyError
4. 不为空，判断表元和键是否相等
5. 如果相等返回值
6. 如果不想等，增加散列值位数继续重复234步

三列表是标准的用空间换效率。因为要一直确保散列表里有至少三分之一的表元是空的。如果填的快满时，会转移到一块更大的表元。而此时表元顺序就有可能变化。