## Pythonic数据结构
### 列表和数组优化
- 列表的特性
  - 列表像数组一样具有可变数据结构
  - Python中的列表排序时具有确定的权重
  - 列表和数组一样是从`0` 开始索引，并可以容纳重复元素
  - 列表可以有效保留数据序列以供将来迭代
  - 优化特性：Python的列表会在头尾部保留指针，这使得任何列表可以随意拼接，且追加或插入的复杂度为`O(1)`
- 列表推导式
  - 当迭代操作基于现有数据时，列表推导式比循环更清晰简洁
  - Cpython对列表推导式有额外优化，基础操作可能更快(会先扩展列表，再添加数据，而不是循环扩展)
  - 不是多重嵌套的情况，列表推导式的可读性更高
- 列表推导式、`map()`，`filter()`
  - 列表推导式比`map()`和`filter`更简洁可读性更好
- 反向访问
  - 列表可通过负数进行反向索引，比常规方法更简洁可读性更好
- `all()`和`any()`
  - `all()`元素全部为真，或可迭代对象为空，则返回`True`（类似对所有对象使用`and`），特性：一旦知道结果便'短路'
  - `any()`元素全部为假，则返回`Flase`，任一为真，则返回`True`
- 剩余序列
  - `*`可获取未知个数个元素，可读性更高更简洁
- `array`类型获取基本类型数组
  - 数组仅支持单一数据类型
  - 数组元素是可变对象
  - 数组元素占用固定大小内存，比列表或元组更节省空间
  - 数组和列表的API一致，数组可转换为列表
- `str`类型
  - `str`类型是不可变对象
  - `str`类型中每个字符都是单位长度的`str`对象
  - 改变序列必须创建副本
- `bytearray`类型
  - `bytearray`是单字节可变类型（`bytes`类型是不可变类型）
  - 简单的`bytearray`和`bytes`的数据类型可以相互转换，但繁杂的数据转换时需注意转换时创建的副本和复杂性
- `bytes`类型
  - `bytes`类型与`str`类型同样是不可变类型，不同在于字节必须是0~255范围之间的单字节，所以更节省空间
  - 在程序中值需要多次引用，但值又保持相对不变的情况（类似布尔映射或单字符存储），可以考虑使用`bytes`类型，以此减少使用空间和优化读取效率


In [19]:
%%timeit data = range(10000000)
# 测试：for和列表推导式的append操作效率比较
some_list = list()
for element in data:
    some_list.append(element)

706 ms ± 8.46 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [20]:
%%timeit data = range(10000000)
# 测试：for和列表推导式的append操作效率比较
some_list = [ele for ele in data]

471 ms ± 18.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [22]:
# 示例：filter,map,列表推导式可读性比较，找出奇数数字
nums = [1,2,3,4,5,6,7,8,9]

# filter
def is_odd_number(number: int):
    return number % 2 == 1

odd_numbers = filter(is_odd_number,nums)
print(odd_numbers)

# map
odd_numbers_doubled = list(map(lambda x: x * 2, odd_numbers))
print(odd_numbers_doubled)

# 列表推导式
odd_numbers_doubled_ = [n * 2 for n in nums if n % 2 == 1]
print(odd_numbers_doubled_)

<filter object at 0x0000023D8C296D30>
[2, 6, 10, 14, 18]
[2, 6, 10, 14, 18]


In [28]:
# 示例：取剩余序列
my_list = ['a','b','c','d','e']

(el1, el2, *remaining) = my_list
print(remaining)

(el1, *middle, eln) = my_list
print(middle)

(*el1, elminus1, eln) = my_list
print(el1)

['c', 'd', 'e']
['b', 'c', 'd']
['a', 'b', 'c']


In [32]:
# 示例：array对象
import array

my_arr = array.array('f',(12.0, 1.25, 21.0, 12.5))
print(my_arr)
my_arr[1] = 2.33
print(my_arr)

array('f', [12.0, 1.25, 21.0, 12.5])
array('f', [12.0, 2.3299999237060547, 21.0, 12.5])


### 高效的字典
- 检测值和提供默认参数
  - `Dict`类型中有`.get()`方法，可提供检测值的功能，并可以提供默认返回值，使代码更简洁和健壮
- 缺失键的默认值
  - `defaultdict`类型是`dict`的子类，重载了一个方法并添加了一个可写的实例变量
  - `defaultdict`类型包含一个`default_factory`属性，构造时，第一个参数用于该属性提供初始值，默认为`None`。所有其它参数（包括关键字参数）相当于传递给`dict`的构造参数
  - `defaultdict`类型如果属性`default_factory`为`None`则调用`__missing__(key)`抛出`KeyError`异常，附带参数`key`；如果不为`None`，则它会被（不带参数地）调用来为`key`提供一个默认值，这个值和`key`作为一对键值对插入到字典中，并作为`__missing__()`的返回值返回
  - `defaultdict`类型更加灵活
- 模拟switch-case
  - 虽然Python可以使用if-elif实现多路复用，但是当条件增加时需要频繁修改条件表达式，这是对设计使用了封闭办法不利于后期拓展，违背了面向对象的开发原则
  - 另一种解决办法是利用`dict`的`key`作为switch的条件，`value`作为对case的操作
  - 如果涉及设计模式可以采用工厂模式，对传入参数的参数分别返回需要的类型
  - `Pyton v3.10+`中提供match-case可以实现switch-case的功能
- 字典推导式
  - Python也会对字典推导式算法优化（优化的效率比列表推导的效率更低）
  - 简洁的字典推导式也会增加可读性
- `OrderedDict`类型
  - Python3中的字典默认按插入的顺序排序，python2中的字典是乱序（hash值）
  - Python2中可以使用`OrderedDict`类型默认按插入的顺序排序
- `ChainMap`类型（python3）
  - 链接多个映射（字典）成一个单元，可对这个单元进行操作，通常比创建新字典和运行多个`update`方法要快
  - 搜索时依次搜索映射，增加/修改/删除字典时会原地操作（第一个字典）,删除时未找到`key`会报错
  - 若有`x`个字典和`y`个`key`，`ChainMap`类型的创建/搜索的复杂度为`O(x)`；如果使用`Dict.update()`方法时间复杂度为`O(x*y)`，搜索复杂度为`O(n)`；所以`ChainMap`类型对写操作效率更高，但读操作效率更低
- `MappingProxyType`类型（python3）
  - `MappingProxyType`本质上是`Dict`的包装器，一旦创建便把字典设为只读代理
  - 若原字典发生修改，`MappingProxyType`类型会同步修改；若原字典发生删除，`MappingProxyType`类型不会删除（备份）
  - 举例应用场景：在并发中，一般采用锁机制解决冲突，但只读状态不会影响并发，若想修改值可以通过队列通知只读队列做变更
- 字典自定义排序
  - `sorted()`函数可以实现排序，默认按字典的`key`值进行排序，可以指定`key`参数自定义排序规则，`reverse`参数为真时实现倒序排列
  - `operator.itemgetter()`方法可以实现类似操作
- 合并字典
  - 合并字典时可能出错的是有共同的`key`值，因为`hash`值必须是唯一的，所以这会使合并字典产生冲突
  - 合并字典最简单的是`.update()`方法，但会覆盖之前同名的值
  - 另一种办法是使用`Dict(dcit1, **dict2)`进行合并，但也会覆盖之前同名的值
  - Python3.5+支持`{**dict1, **dict2, ...}`的方式合并更多字典，但也会覆盖之前同名的值；这种操作被解释器优化，在大型字典的操作中更快
- 漂亮打印字典
  - 默认会打印一行，且没有缩进，可读性差
  - 可使用`pprint`模块来优化输出，缺点是不能更好展示嵌套关系
  - 通过`print`函数输出`json`格式的文本信息，可以优化输出层级关系，缺点是可能无法序列化某些数据结构或关键字、内建函数等
  - 通过`print`函数输出`yaml`格式的文本信息(需安装第三方库`pip install pyyaml`)
- 奇怪的表达式
  -  布尔值可以是字典的`key`，当`key`里存在多个布尔值，相等的布尔值会替代之前字典里的`value`值

In [4]:
# 示例：defaultdict类型的使用
from collections import defaultdict

my_dict = defaultdict(list)  # 如果`key`不存在则会使用参数`list`实例化对象
my_dict['missing'].append('apple')
my_dict['missing'].append('banana')
my_dict['missing'].append('123')
print(my_dict)

defaultdict(<class 'list'>, {'missing': ['apple', 'banana', '123']})
defaultdict(<class 'int'>, {'t': 2, 'h': 1, 'i': 2, 's': 3, 'p': 1, 'a': 2, 'r': 1})


In [15]:
%%timeit str_ = "thisissparta" * 10000
# 示例：defaultdict类型的效率对比，统计字符出现次数
dd = defaultdict(int)
for key in str_:
    dd[key] += 1
dd

9.97 ms ± 123 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [16]:
%%timeit str_ = "thisissparta" * 10000
# 示例：传统方法的效率对比，统计字符出现次数
dd = {}
for key in str_:
    dd.setdefault(key,0)
    dd[key] += 1
dd

16.5 ms ± 151 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [17]:
# 示例：灵活的defaultdict
from collections import defaultdict

def constant_factory(value):
    return lambda: value
dd = defaultdict(constant_factory('<missing>'))
dd.update(name='Sancho', action='ran')
"%(name)s %(action)s to %(unknown)s" % dd

'Sancho ran to <missing>'

In [18]:
# 示例：模拟switch-case
import operator as op

def calculate(var1, var2, operator):
    operator_dict = {
        '+': op.add,
        '-': op.sub,
        '*': op.mul,
        '/': op.truediv
    }
    return operator_dict[operator](var1,var2)

calculate(10, 20, '*')

200

In [26]:
# 示例：ChainMap类型的使用
from collections import ChainMap

m1 = {'soccer': 100, 'basetball': 200, 'vollyball': 300, }
m2 = {'tennis': 400, 'golf': 500, 'soccer': 600, }
cmap = ChainMap(m1,m2)
cmap['soccer']

100

In [28]:
# 示例：MappingProxyType类型的使用
from types import MappingProxyType

read_write_dict = {'benz': 1010, 'ferrari': 2000}
read_only_dict = MappingProxyType(read_write_dict)
print(read_only_dict)

read_only_dict['benz'] = 2077

{'benz': 1010, 'ferrari': 2000}


TypeError: 'mappingproxy' object does not support item assignment

In [29]:
# 示例：字典自定义排序，sorted按值排序
d = {'a':400, 'c':200, 'b':300, 'd':100}
sorted(d.items(), key=lambda x: x[1])

[('d', 100), ('c', 200), ('b', 300), ('a', 400)]

In [30]:
# 示例：字典自定义排序，operator.itemgetter()方法实现按值排序
from operator import itemgetter
sorted(d.items(), key=itemgetter(1))

[('d', 100), ('c', 200), ('b', 300), ('a', 400)]

In [40]:
# 示例：使用pprint模块，更好的打印字典
from pprint import pprint

my_map = {'name': 'Sancho', 'job': 'coder', 'hobby': {'music':'ROCK', 'computer game': 'SLG', 'cola': 'Pepsi'}}
pprint(my_map, indent=4, sort_dicts=False)   # `indent`:缩进层级，`sort_dicts`:是否排序

{   'name': 'Sancho',
    'job': 'coder',
    'hobby': {'music': 'ROCK', 'computer game': 'SLG', 'cola': 'Pepsi'}}


In [41]:
# 示例：使用json模块，更好的打印字典
from json import dumps

print(dumps(my_map, indent=4, sort_keys=False))

{
    "name": "Sancho",
    "job": "coder",
    "hobby": {
        "music": "ROCK",
        "computer game": "SLG",
        "cola": "Pepsi"
    }
}


In [42]:
# 示例：奇怪的表达式
{True: 'apple', 1: 'orange', 1.0: 'banana'}

{True: 'banana'}

## 更多内容：
<!-- 
## class与OPP约定
## Python模块与元编程
## Decorator与Context管理
## 正确的数据处理过程
## Iterators,Generators,Coroutines
## Pythonic的设计与架构
## Python的Descriptors
## 有效的测试Python代码
## 生产环境的代码管理 
-->
