# Python数据结构

## 序列数组

### 内置序列类型概览

* 容器序列，list、tuple和collections.deque这些序列可以存放不同类型的数据
* 扁平序列，str、bytes、bytearray、memoryview和array.array，这些序列只能容纳一种类型

容器序列存放的是它们所包含的任意类型对象的引用，而扁平序列里存放的是值而不是引用。换句话说，扁平序列其实是一种连续的内存空间。

序列还可以分类为：

* 可变序列，list、bytearray、array.array、collections.deque和memoryview
* 不可变序列，tuple、str和bytes

![](https://bj.bcebos.com/ipic/Python-MutableSequence.jpg)

### 列表推导

In [21]:
symbols = '$¢£¥€¤'
codes = [ord(symbol) for symbol in symbols]
codes    

[36, 162, 163, 165, 8364, 164]

### 元组不仅仅是不可变的记录

一些Python教程把元组描述成"不可变的列表"，然而这并没有完全概括元组的特点。

#### 元组和记录

元组其实是对数据的记录：元组的每个元素都存放了记录中中一个字段的数据。

In [22]:
cooridnator = (33.9425, -118.408056)

#### 元组拆包

In [24]:
latitude, longitude = (33.9425, -118.408056)
print(latitude, longitude)

33.9425 -118.408056


In [25]:
a, b, *tail = range(10)
print(a, b, tail)

0 1 [2, 3, 4, 5, 6, 7, 8, 9]


#### 命名元组

In [29]:
from collections import namedtuple

City = namedtuple('City', 'name country population coordinates')
tokyo = City('Tokyo', 'JP', 36.933, (35.689722, 139.691667))
tokyo, tokyo.country

(City(name='Tokyo', country='JP', population=36.933, coordinates=(35.689722, 139.691667)),
 'JP')

### 切片

[] 运算符里还可以使用以逗号分开的多个索引或者是切片，外部库 NumPy 里就用到了这 个特性。

In [36]:
l = list(range(10))
l[3:6]

[3, 4, 5]

In [30]:
slice(1, 10, 2)

slice(1, 10, 2)

#### 切片赋值

In [31]:
l = list(range(10))
l

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [33]:
l[2:5] = [20, 30]
l

[0, 1, 20, 30, 6, 7, 8, 9]

### list.sort方法和内置函数sorted

list.sort 方法会就地排序列表，与 list.sort 相反的是内置函数 sorted，它会新建一个列表作为返回值

## 字典和集合

dict类型是Python语言的基石。模块的命名空间、实例的属性和函数关键字参数都可以看到dict的身影。

![](http://processon.com/chart_image/6178fa067d9c08459fb6c1f3.png)

标准库里的所有映射类型都使用dict来实现的，**只有可散列的类型才能作为映射的健**。

什么是可散列的数据类型？

如果一个对象是可散列的，那么在这个对象的生命周期内，它的散列值是不变的，而且这个对象要实现`__hash__`方法。另外可散列对象还要有`__eq__`方法，这样才能跟其他健比较。如果两个可散列对象是相等的，那么它们的散列值一定是一样的。

> https://docs.python.org/3/glossary.html#term-hashable

原子不可变数据类型（str、bytes和数值类型）是可散列的，frozenset也是可散列的。

### 字典推导

dict comprehension.

字典推导(dictcomp)可以从任何以键值对作为元素的可迭 代对象中构建出字典。

In [6]:
import json


DIAL_CODES = [(86, 'China'), (91, 'India'),  (1, 'United States')]

country_codes = {code: country for code, country in DIAL_CODES}
print(json.dumps(country_codes, ensure_ascii=False))

{"86": "China", "91": "India", "1": "United States"}


### defaultdict处理健值找不到的情况

In [7]:
import collections

In [8]:
dd = collections.defaultdict(list)

In [9]:
dd['key']

[]

### 特殊的方法`__missing__`

如果一个类继承了`dict`，然后这个继承类提供了`__missing__`方法，那么在`__getitem__`碰到找不到健的时候，Python会自动调用它，而不是抛出一个KeyError的遗产。

> `__missing__`只会被`__getitem__`调用，对get或`__contains__`方法没有影响。

In [13]:
class MyDict(dict):
    
    def __missing__(self, key):
        print('Call __missing__ method')


o = MyDict()
o['key']

Call __missing__ method


### 字典的变种

* `collections.OrderDict`
* `collections.ChainMap`
* `collections.Counter`

### 不可变的映射类型

types 模块中引入了一个封装类名叫 MappingProxyType。如果给这个类 一个映射，它会返回一个只读的映射视图。虽然是个只读视图，但是它是动态的。这意味 着如果对原映射做出了改动，我们通过这个视图可以观察到，但是无法通过这个视图对原 映射做出修改。

In [14]:
from types import MappingProxyType

In [15]:
d = {'key': 'value'}

In [16]:
d_proxy = MappingProxyType(d)

In [17]:
d_proxy['key']

'value'


抛出异常

```python
# d_proxy['key'] = 'value'

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-18-3bfdada09354> in <module>()
----> 1 d_proxy['key'] = 'value'

TypeError: 'mappingproxy' object does not support item assignment


```

## 文本和字符序列

### 了解编解码问题

虽然有个一般性的 UnicodeError 异常，但是报告错误时几乎都会指明具体的异常: 
* UnicodeEncodeError(把字符串转换成二进制序列时)
* UnicodeDecodeError(把二进制序列转换成字符串时)