# 内置数据结构

我们已经看过 Python 的一些基本数据类型： ``int``, ``float``, ``complex``, ``bool``, ``str`` 等等。
Python 同样也拥有一些内置的复合类型作为其它类型的容器。
这些复合类型有：

| 类型名     | 举例                       |描述                                    |
|-----------|---------------------------|---------------------------------------|
| ``list``  | ``[1, 2, 3]``             | 列表，有序集合                    |
| ``tuple`` | ``(1, 2, 3)``             | 元组，不可变的有序集合          |
| ``dict``  | ``{'a':1, 'b':2, 'c':3}`` | 字典，无序的键-值映射 (key,value)          |
| ``set``   | ``{1, 2, 3}``             | 集合，具有无序性和唯一性 |

正如你所见，圆括号、方括号和大括号对于这些集合类型有着不同的意义。
接下来，我们将在这里快速认识这些数据结构。

## 列表
列表是 Python 中基本的**有序**且**不变**的数据集合类型。
列表用方括号表示，元素之间用逗号隔开，下面是一个包括前几项质数的列表：

In [1]:
L = [2, 3, 5, 7]

列表有着许多好用的方法。
这里我们将快速介绍那些最常用的方法：

In [2]:
# 列表长度
len(L)

4

In [3]:
# 在列表尾部添加一个元素
L.append(11)
L

[2, 3, 5, 7, 11]

In [4]:
# 用 + 连接
L + [13, 17, 19]

[2, 3, 5, 7, 11, 13, 17, 19]

In [5]:
# 进行原地排序
L = [2, 5, 1, 6, 3, 4]
L.sort()
L

[1, 2, 3, 4, 5, 6]

除此之外，还有许多内置的列表方法，它们在 Python 的[官方文档](https://docs.python.org/3/tutorial/datastructures.html)中有详细介绍。

我们已经演示了列表包含单一类型元素的使用方法，然而 Python 复合类型的强大之处在于它可以包含**任何**类型的对象，甚至是不同类型的混合，例如：

In [6]:
L = [1, 'two', 3.14, [0, 3, 5]]

这种灵活性是 Python 动态类型系统的结果，
而在 C 这种静态类型语言中创建这样一个复合类型的序列可以说是非常让人头疼了，
然而，Python 的列表甚至还能将其它列表作为其元素。
正是这种变量类型的灵活性使得 Python 的代码写起来更为快速和简单！

到现在为止，我们一直着眼于将列表作为一个整体来操作，而相对的，列表另外一个重要的部分就是访问其中的元素个体。
这一部分通过*索引(indexing)*以及*切片(slicing)*来完成，我们将在下面讨论它们。

### 列表索引与切片
Python 对于复合类型变量的元素访问提供了*索引(indexing)*和*切片(slicing)*的方法，前者用于访问单个元素，后者用于多个元素。
我们会看到，两者都使用一个方括号的语法来表示。
让我们回到之前的质数列表：

In [7]:
L = [2, 3, 5, 7, 11]

Python 使用了**从零开始**的索引，所以我们用下面的语法来取得列表中的第一个以及第二个元素：

In [8]:
L[0]

2

In [9]:
L[1]

3

位于列表末尾的元素可以用负数来访问，``-1`` 代表最后一个元素，依次类推：

In [10]:
L[-1]

11

In [11]:
L[-2]

7

你可以用下面这种更直观可视的方式来理解索引：

![List Indexing Figure](fig/list-indexing.png)

列表中的元素用方框中字号更大的数字表示；列表索引则用方框上下的较小的数字来表示。
在这里，``L[2]`` 返回数字 $5$，因为那是索引 ``2`` 下的数值。

*索引(indexing)* 用来取出列表中的单个元素，而*切片(slicing)*则是取出在子列表中取出多个值的方法。
它用一个冒号来表示子序列的起点（包含）和终点（不包含）。
举个例子，为了得到列表中的前三个元素，我们可以这样做：

In [12]:
L[0:3]

[2, 3, 5]

留意 ``0`` 和 ``3`` 在语法中的位置以及切片在两个索引之间的取值方式。
如果我们把第一个索引值（也就是``0``）省去，那么我们也会得到同样的结果：

In [13]:
L[:3]

[2, 3, 5]

同样的，如果我们省去后面的索引值，它的默认值为列表的长度。
这样一来，访问列表最后 $3$ 个元素可以用下面这种方式：

In [14]:
L[-3:]

[5, 7, 11]

最后，我们可以用第三个整数来表示步长；例如，要在列表中每 ``2`` 个元素选取一个，我们可以这样写：

In [15]:
L[::2]  # 等同于 L[0:len(L):2]

[2, 5, 11]

另外一个特别有用的方法是定义一个负数的步长，它可以把序列翻转：

In [16]:
L[::-1]

[11, 7, 5, 3, 2]

索引和切片都不仅可以被用来访问元素，它们也可以改变元素。
语法就和你所想象的一样：

In [17]:
L[0] = 100
print(L)

[100, 3, 5, 7, 11]


In [18]:
L[1:3] = [55, 56]
print(L)

[100, 55, 56, 7, 11]


切片的类似用法也同样出现在许多其它的科学计算包中，包括 NumPy 和 Pandas（在简介中提到过）。

既然我们已经学习了 Python 的列表，并且知道了如何在顺序复合类型中访问其中的元素，那么现在我们可以看看之前提到的其它三种标准复合数据类型。

## 元组
元组在各种意义上都和列表非常相似，但是它们是用圆括号而不是方括号来定义的：

In [19]:
t = (1, 2, 3)

它们也可以完全不用括号来进行定义：

In [20]:
t = 1, 2, 3
print(t)

(1, 2, 3)


和列表相似的，元组也有长度，其单个元素也可以用方括号来提取：

In [21]:
len(t)

3

In [22]:
t[0]

1

元组和列表最主要的区别还是在于元组是**不可变**的，这意味着一旦它们被创建，它们的大小和内容都不能被改变：

In [23]:
t[1] = 4

TypeError: 'tuple' object does not support item assignment

In [24]:
t.append(4)

AttributeError: 'tuple' object has no attribute 'append'

元组经常被用在 Python 的编程中；一个特别常见的例子就是函数返回多个值。
举个例子，浮点对象的方法 ``as_integer_ratio()`` 可以返回浮点数对应的分子和分母，这个双值就是以元组的形式返回的：

In [25]:
x = 0.125
x.as_integer_ratio()

(1, 8)

这些返回的多个值也可以用下面的方法一个个单独赋值：

In [26]:
numerator, denominator = x.as_integer_ratio()
print(numerator / denominator)

0.125


之前提到的列表索引和切片的逻辑同样也适用于元组，同时还有一些别的方法。
详细的方法列表请参考 Python 的[官方文档](https://docs.python.org/3/tutorial/datastructures.html)。

## 字典
字典是一种非常灵活的键-值对的映射，它也是 Python 许多内部实现的基础。
创建字典可以用一个花括号来维护一连串用冒号分隔的形如 ``key:value`` 的键值对：

In [27]:
numbers = {'one':1, 'two':2, 'three':3}

我们可以用列表和元组中提到的索引的方式来访问和改变字典中的项，只是这里的索引不再是从零开始的顺序下标，而是一个有效的字典索引键：

In [28]:
# 通过键来访问字典中的值
numbers['two']

2

我们也可以用索引来加入新的项：

In [29]:
# 设置一个新的 key:value 对
numbers['ninety'] = 90
print(numbers)

{'one': 1, 'two': 2, 'three': 3, 'ninety': 90}


需要留心的是字典中并没有任何顺序的概念，这是设定好的。
这种顺序的缺失使得字典的实现非常有效率，不论字典的大小如何，元素的随机访问都非常快（如果你对此感到好奇，你可以试着了解一下*哈希表(hash table)*的概念）。
Python 的[官方文档](https://docs.python.org/3/library/stdtypes.html)中列出了字典可用方法的完整列表。

## 集合

第四种基本元素集是集合，它和数学上的集合定义相同，元素具有唯一性和无序性。
集合的定义和列表、元组非常相似，除了它使用和字典一样的花括号这一点：

In [30]:
primes = {2, 3, 5, 7}
odds = {1, 3, 5, 7, 9}

如果你熟悉集合的数学定义，你也一定不会对并、交、差、对等差分等操作感到陌生。
Python 的集合通过方法和运算符实现了所有这些操作。
对每一个操作，我们都会展示两种等价的方式：

In [31]:
# 并集：包含出现在任意一个集合中的元素
primes | odds      # 使用运算符
primes.union(odds) # 等价地使用对象的方法

{1, 2, 3, 5, 7, 9}

In [32]:
# 交集：包含同时出现在两个集合中的元素
primes & odds             # 使用运算符
primes.intersection(odds) # 等价地使用对象的方法

{3, 5, 7}

In [33]:
# 差分：属于primes但不属于odds的元素
primes - odds           # 使用运算符
primes.difference(odds) # 等价地使用对象的方法

{2}

In [34]:
# 对称差分: 只出现在其中一个集合的元素
primes ^ odds                     # 使用运算符
primes.symmetric_difference(odds) # 等价地使用对象的方法

{1, 2, 9}

集合还有更多的方法和运算法，你可能已经猜到了我想说什么：详情参考 Python [官方文档](https://docs.python.org/3/library/stdtypes.html)。

## 更特殊的数据结构

Python 包含了许多其他你可能觉得非常有用的数据结构，它们通常可以在内置的 ``collections`` 模块中得到。
``collections`` 模块的完整文档在[这里](https://docs.python.org/3/library/collections.html)，你可以自行了解这些多种多样的对象。

特别地，我偶然发现下面几个类型非常好用：

- ``collections.namedtuple``: 像是一个元组，但是每一个值都有自己的名字
- ``collections.defaultdict``: 像是一个字典，但是未定义的键对应一个用户设定的默认值
- ``collections.OrderedDict``: 像是一个字典，但是键的顺序是被维护的

一旦你了解了这些标准的内置集合类型，使用那些扩展的特性就非常符合直觉，同时我建议阅读它们的[使用方法](https://docs.python.org/3/library/collections.html)。