1. 字典至关重要，Python 对它的实现做了高度优化，而散列表则是字典类型性能出众的根本原因
2. 集合（ set ）的实现其实也依赖于散列表
3. 如果一个对象是可散列的
    1. 那么在这个对象的生命周期中，它的散列值是不变的，而且这个对象需要实现 __hash__() 方法。
    2. 可散列对象还要有 __qe__(),方法， 这样才能跟其他键做比较
    3. 原子不可变数据类型（ str 、 bytes 和数值类型）都是可散列类型
    4. frozenset 也是
    5. 元组的话，只有当一个元组包含的所有元素都是可散列类型的情况下，它才是可散列的

In [3]:
tt = (1,2,(3,4))
hash(tt)

3794340727080330424

In [4]:
tl = (1, 2, [30, 40]) # 里面有可变的元素[30,40] 所以不可以散列
hash(t1)

NameError: name 't1' is not defined

# 泛映射类型
1. collections.abc 模块中有 Mapping 和 MutableMapping 这两个抽象基类，它们的作用是为dict 和其他类似的类型定义形式接口
2. 非抽象映射类型一般不会直接继承这些抽象基类，它们会直接对 dict 或是collections.User.Dict 进行扩展

![image.png](attachment:image.png)

In [2]:
from collections import abc
my_dic = {}
isinstance(my_dic,abc.Mapping)

True

# 字典推导

In [6]:
 DIAL_CODES = [ 
... (86, 'China'),
... (91, 'India'),
... (1, 'United States'),
... (62, 'Indonesia'),
... (55, 'Brazil'),
... (92, 'Pakistan'),
... (880, 'Bangladesh'),
... (234, 'Nigeria'),
... (7, 'Russia'),
... (81, 'Japan'),
... ]
country_code = {country: code for code, country in DIAL_CODES} # 通过字典推导构建字典
country_code

{'China': 86,
 'India': 91,
 'United States': 1,
 'Indonesia': 62,
 'Brazil': 55,
 'Pakistan': 92,
 'Bangladesh': 880,
 'Nigeria': 234,
 'Russia': 7,
 'Japan': 81}

# 常见的映射方法
1. dict
2. defaultdict 和 OrderedDict 是dict的变形

1. dict.keys()：返回一个包含字典所有键的可迭代对象。
2. dict.values()：返回一个包含字典所有值的可迭代对象。
3. dict.items()：返回一个包含字典所有键值对的可迭代对象，每个元素是一个二元组（键, 值）。
4. dict.get(key[, default])：获取指定键的值，如果键不存在则返回默认值。
5. dict.setdefault(key, default)：获取指定键的值，如果键不存在则添加该键，并设置默认值作为该键的值。
6. dict.update(other_dict)：用另一个字典中的键值对更新当前字典。
7. dict.pop(key[, default])：移除指定键的键值对，并返回对应的值。如果键不存在，则返回默认值或引发 KeyError 异常。
8. dict.popitem()：随机移除并返回一个键值对。如果字典为空，则引发 KeyError 异常。

### 用 setdefault 处理找不到的键

In [None]:
# 也许每个 Python 程序员都知道可以用 d.get(k, default) 来代替 d[k] ，给找不到的键一个默认的返回值（这比处理 KeyError 要方便不少）
import sys
import re

WORD_RE = re.compile(r'\w+')
index = {}

with open(sys.argv[1], encoding='utf-8') as fp:
    for line_no, line in enumerate(fp, 1):
        for match in WORD_RE.finditer(line):
            word = match.group()
            column_no = match.start()+1
            location = (line_no, column_no)
            # 获取单词的出现情况列表，如果单词不存在，把单词和一个空列表放进映射，然后返回这个空列表
            # 这样就能在不进行第二次查找的情况下更新列表了
            index.setdefault(word, []).append(location)
            

In [3]:
# 也就是有下面的等效有效果
# 但有所不同的是，setdefault只需要一次查询
if key not in my_dict:
    my_dict[key] = []
my_dict[key].append(new_value)

NameError: name 'key' is not defined

### defaultdict ：处理找不到的键的一个选择

 dd = defaultdict(list) ，如果键 'new-key' 在 dd 中还不存在的话，表达式 dd['new-key'] 会按照以下的步骤来行事。
1. 调用 list() 来建立一个新列表。
2. 把这个新列表作为值， 'new-key' 作为它的键，放到 dd 中。
3. 返回这个列表的引用
4. 里面的list是可选的，代表 default_factory 的实例属性：default_factory，用这个default_factory创建对应的实例

### 特殊方法 __missing__
1. 所有的映射类型在处理找不到的键的时候，都会牵扯到 __missing__ 方法。这也是这个方法称作“missing”的原因。
2. 虽然基类 dict 并没有定义这个方法，但是 dict 是知道有这么个东西存在的。
    1. 也就是说，如果有一个类继承了 dict ，然后这个继承类提供了 __missing__ 方法，那么在 __getitem__ 碰到找不到的键的时候，Python 就会自动调用它，而不是抛出一个KeyError 异常

In [2]:
# 一个类
class StrKeyDict0(dict): 
    def __missing__(self, key):
        if isinstance(key, str):  # 这个判断为什么是必须的，因为如果不加入这个判断，会陷入无穷的missing过程
            raise KeyError(key)
        return self[str(key)] 
    
    def get(self, key, default=None):
        try:
            return self[key]
        except KeyError:
            return default
        
    def __contains__(self, key):
        return key in self.keys() or str(key) in self.keys() # 用keys()是因为它的行为很像一个集合，能够快速查询

# 字典的变种
1. collections.OrderedDict
    1. popitem 方法默认删除并返回的是字典里的最后一个元素
    2. my_odict.popitem(last=False) 这样调用它，那么它删除并返回第一个被添加进去的元素
2. collections.ChainMap
3. collections.Counter

# 子类化 UserDict
1. 就创造自定义映射类型来说，以 UserDict 为基类，总比以普通的 dict 为基类要来得方便
2. 更倾向于从 UserDict 而不是从 dict 继承的主要原因是，后者有时会在某些方法的实现上走一些捷径，导致我们不得不在它的子类中重写这些方法
3. UserDict 并不是 dict 的子类，但是 UserDict 有一个叫作data 的属性，是 dict 的实例，这个属性实际上是 UserDict 最终存储数据的地方

In [7]:
import collections
class StrKeyDict(collections.UserDict): 
     def __missing__(self, key): 
        if isinstance(key, str):
            raise KeyError(key)
        return self[str(key)]
        
     def __contains__(self, key): # 查询键是否存在，str（key），交给属性data来处理
        return str(key) in self.data 
        
     def __setitem__(self, key, item): # 设置键的值交给了属性data来处理
        self.data[str(key)] = item  

1.  UserDict 继承的是 MutableMapping ，所以 StrKeyDict 里剩下的那些映射类型的方法都是从 UserDict 、 MutableMapping 和 Mapping 这些超类继承而来的
2.  Mapping类，它虽然是一个抽象基类（ABC），但它却提供了好几个实用的方法
    1. MutableMapping.update
        1. 这个方法不但可以为我们所直接利用，它还用在 __init__ 里,让构造方法可以利用传入的各种参数来新建实例
        2. 这个方法在背后是用 self[key] = value 来添加新值的，所以背后是__setitem__方法
    2. Mapping.get

# 不可变映射类型
1. 标准库里所有的映射类型都是可变的
2. 从 Python 3.3 开始， types 模块中引入了一个封装类名叫 MappingProxyType 
    1. 给这个类一个映射，它会返回一个只读的映射视图
    2. 这个视图是动态的，原映射改变了会反映到这个视图上
    3. 但无法通过这个视图改变原映射

In [8]:
# MappingProxyType
from types import MappingProxyType
d = {1:'A'}
d_proxy = MappingProxyType(d)
d_proxy

mappingproxy({1: 'A'})

In [9]:
d_proxy[1]

'A'

In [10]:
d_proxy[2] = 'B' # 无法通过这个动态视图改变原映射

TypeError: 'mappingproxy' object does not support item assignment

In [11]:
d[2] = 'B' # 原映射改变

In [12]:
d_proxy[2] # 这个动态视图会反应原映射的改变

'B'

# 集合论
1. 集合的本质是许多唯一对象的聚集。因此，集合可以用于去重
2. 集合中的元素必须是可散列的， set 类型本身是不可散列的，但是 frozenset 可以。因此可以创建一个包含不同 frozenset 的 set 。

In [13]:
l = ['spam', 'spam', 'eggs', 'spam']
set(l)

{'eggs', 'spam'}

In [14]:
list(set(l))

['spam', 'eggs']

1. 集合还实现了很多基础的中缀运算符  a | b 返回的是它们的合集， a & b 得到的是交集，而 a - b 得到的是差集
2. 例如，我们有一个电子邮件地址的集合（ haystack ），还要维护一个较小的电子邮件地址集合（ needles ），然后求出 needles 中有多少地址同时也出现在了 heystack 里。借助集合操作，我们只需要一行代码就可以了

## 集合字面量
像 {1, 2, 3} 这种字面量句法相比于构造方法（ set([1, 2, 3]) ）要更快且更易读

In [16]:
 {1} 
{1, 2}

{1, 2}

## 集合推导

## 集合的操作

![image.png](attachment:image.png)

#  dict 和 set 的背后

1. 散列表其实是一个稀疏数组（总是有空白元素的数组称为稀疏数组）
2. 散列表里的单元通常叫作表元（bucket）
3. 在 dict 的散列表当中，每个键值对都占用一个表元，每个表元都有两个部分，一个是对键的引用，另一个是对值的引用。
4. 因为所有表元的大小一致，所以可以通过偏移量来读取某个表元
5. 因为 Python 会设法保证大概还有三分之一的表元是空的，所以在快要达到这个阈值的时候，原有的散列表会被复制到一个更大的空间里面

![image.png](attachment:image.png)

##  dict 的实现及其导致的结果

1. 键必须是可散列的
    1. 支持 hash() 函数，并且通过 __hash__() 方法所得到的散列值是不变的
    2. 支持通过 __eq__() 方法来检测相等性
    3. 若 a == b 为真，则 hash(a) == hash(b) 也为真
2. 字典在内存上的开销巨大
3. 键查询很快
4. 键的次序取决于添加顺序
5. 往字典里添加新键可能会改变已有键的顺序

# 小结