<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="fig/cover-small.jpg">

*本文摘自 Jake VanderPlas 的《Python 之旅》；内容可在 [GitHub](https://github.com/jakevdp/WhirlwindTourOfPython) 上找到。*

*文本和代码根据 [CC0](https://github.com/jakevdp/WhirlwindTourOfPython/blob/master/LICENSE) 许可证发布；另见配套项目 [Python 数据科学手册](https://github.com/jakevdp/PythonDataScienceHandbook)。*

<!--NAVIGATION-->
< [内置类型：简单值](05-Built-in-Scalar-Types.ipynb) | [目录](Index.ipynb) | [控制流](07-Control-Flow-Statements.ipynb) >

# 内置数据结构

我们已经看到了 Python 的简单类型：``int``、``float``、``complex``、``bool``、``str`` 等。
Python 还有一些内置的复合类型，它们是容器，用于存储其他类型。
这些复合类型包括：

| 类型名称 | 示例                   | 描述                            |
|-----------|---------------------------|---------------------------------------|
| ``list``  | ``[1, 2, 3]``             | 有序集合                    |
| ``tuple`` | ``(1, 2, 3)``             | 不可变有序集合          |
| ``dict``  | ``{'a':1, 'b':2, 'c':3}`` | 无序 (键, 值) 映射         |
| ``set``   | ``{1, 2, 3}``             | 无序唯一值集合 |

正如你所见，圆括号、方括号和花括号在确定生成的集合类型时具有不同的含义。
接下来我们将快速浏览这些数据结构。

## 列表
列表是 Python 中基本的 *有序* 和 *可变* 数据集合类型。
它们可以通过方括号中的逗号分隔值来定义；例如，这里是一个包含前几个质数的列表：

In [2]:
L = [2, 3, 5, 7]

列表有许多有用的属性和方法。
这里我们将快速浏览一些常见且有用的方法：

In [3]:
# 列表长度
len(L)

4

In [4]:
# 在末尾追加一个值
L.append(11)
L

[2, 3, 5, 7, 11]

In [5]:
# 加号用于连接列表
L + [13, 17, 19]

[2, 3, 5, 7, 11, 13, 17, 19]

In [6]:
# sort() 方法用于原地排序
L = [2, 5, 1, 6, 3, 4]
L.sort()
L

[1, 2, 3, 4, 5, 6]

此外，还有许多其他内置的列表方法；它们在 Python 的 [在线文档](https://docs.python.org/3/tutorial/datastructures.html) 中有详细说明。

虽然我们一直在演示包含单一类型值的列表，但 Python 的复合对象的一个强大特性是它们可以包含 *任何* 类型的对象，甚至是多种类型的混合。例如：

In [7]:
L = [1, 'two', 3.14, [0, 3, 5]]

这是 Python 动态类型系统的后果。
在像 C 这样的静态类型语言中创建这样一个混合序列可能会更加令人头痛！
我们看到列表甚至可以包含其他列表作为元素。
这种类型灵活性是使 Python 代码相对快速且易于编写的重要部分。

到目前为止，我们一直在考虑对整个列表进行操作；另一个重要部分是访问单个元素。
这在 Python 中通过 *索引* 和 *切片* 来完成，我们接下来将探讨它们。

### 列表索引和切片
Python 通过 *索引* 访问复合类型中的单个元素，通过 *切片* 访问多个元素。
正如我们将看到的，两者都使用方括号语法。
假设我们回到前几个质数的列表：

In [8]:
L = [2, 3, 5, 7, 11]

Python 使用 *从零开始的索引*，因此我们可以使用以下语法访问第一个和第二个元素：

In [9]:
L[0]

2

In [10]:
L[1]

3

列表末尾的元素可以通过负数索引访问，从 -1 开始：

In [11]:
L[-1]

11

In [12]:
L[-2]

7

你可以这样可视化索引方案：

![List Indexing Figure](fig/list-indexing.png)

图中，列表中的值用大数字表示，索引用小数字表示。
在这种情况下，``L[2]`` 返回 ``5``，因为那是索引 ``2`` 处的下一个值。

在 *索引* 是一种获取列表中单个值的方法时，*切片* 是一种访问多个值的子列表的方法。
它使用冒号来表示子数组的起始点（包含）和结束点（不包含）。
例如，要获取列表的前三个元素，我们可以这样写：

In [13]:
L[0:3]

[2, 3, 5]

注意 ``0`` 和 ``3`` 在前面的图中的位置，以及切片是如何只取索引之间的值的。
如果我们省略第一个索引，``0`` 就是默认值，因此我们可以这样写：

In [14]:
L[:3]

[2, 3, 5]

同样，如果我们省略最后一个索引，它默认为列表的长度。
因此，最后三个元素可以通过以下方式访问：

In [15]:
L[-3:]

[5, 7, 11]

最后，还可以指定一个第三个整数来表示步长；例如，要选择列表中的每第二个元素，我们可以这样写：

In [16]:
L[::2]  # 等同于 L[0:len(L):2]

[2, 5, 11]

一个特别有用的版本是指定一个负步长，这将反转数组：

In [17]:
L[::-1]

[11, 7, 5, 3, 2]

索引和切片不仅可以用来访问元素，还可以用来设置元素，语法如下：

In [18]:
L[0] = 100
print(L)

[100, 3, 5, 7, 11]


In [19]:
L[1:3] = [55, 56]
print(L)

[100, 55, 56, 7, 11]


这种切片语法在许多面向数据科学的包中也有使用，包括 NumPy 和 Pandas（在介绍中提到过）。

现在我们已经了解了 Python 列表以及如何访问有序复合类型的元素，接下来我们来看看前面提到的其他三种标准复合数据类型。

## 元组
元组在许多方面与列表相似，但它们是用圆括号而不是方括号定义的：

In [20]:
t = (1, 2, 3)

它们也可以完全不用括号来定义：

In [25]:
t = 1, 2, 3
print(t)

(1, 2, 3)


和前面讨论的列表一样，元组也有长度，可以通过方括号索引访问单个元素：

In [26]:
len(t)

3

In [27]:
t[0]

1

元组的主要区别在于它们是 *不可变的*：这意味着一旦它们被创建，它们的大小和内容就不能改变：

In [28]:
t[1] = 4

TypeError: 'tuple' object does not support item assignment

In [None]:
t.append(4)

AttributeError: 'tuple' object has no attribute 'append'

元组在 Python 程序中经常使用；一个特别常见的案例是函数有多个返回值。
例如，浮点对象的 ``as_integer_ratio()`` 方法返回一个分子和一个分母；这个双重返回值以元组的形式给出：

In [None]:
x = 0.125
x.as_integer_ratio()

(1, 8)

这些多个返回值可以分别赋值如下：

In [None]:
numerator, denominator = x.as_integer_ratio()
print(numerator / denominator)

0.125


前面为列表介绍的索引和切片逻辑也适用于元组，以及许多其他方法。
有关这些的更完整列表，请参阅 Python 的 [在线文档](https://docs.python.org/3/tutorial/datastructures.html)。

需要注意的是，元组的切片仍然是元组，而元组的元素为该元素本身。

In [37]:
r = t[0]
print(r)

1


In [36]:
s = t[0:2]
print(s)

(1, 2)


## 字典
字典是非常灵活的键值映射，是 Python 内部实现的基础。
它们可以通过花括号内的逗号分隔的 ``key:value`` 对来创建：

In [None]:
numbers = {'one':1, 'two':2, 'three':3}

通过索引语法访问和设置项目，就像列表和元组一样，只是这里的索引不是基于零的顺序，而是字典中的有效键：

In [None]:
# 通过键访问值
numbers['two']

2

也可以通过索引添加新项目到字典：

In [None]:
# 设置一个新的键值对
numbers['ninety'] = 90
print(numbers)

{'three': 3, 'ninety': 90, 'two': 2, 'one': 1}


请注意，字典并不维护输入参数的任何顺序；这是有意为之。
这种缺乏排序使得字典能够非常高效地实现，因此随机元素访问非常快速，无论字典的大小如何（如果你好奇这是如何工作的，可以阅读 *哈希表* 的概念）。
Python 的 [在线文档](https://docs.python.org/3/library/stdtypes.html) 有关于字典方法的完整列表。

## 集合

第四种基本集合是集合，它包含无序的唯一项集合。
它们的定义方式与列表和元组类似，只是使用了字典的花括号：

In [None]:
primes = {2, 3, 5, 7}
odds = {1, 3, 5, 7, 9}

如果你熟悉集合的数学概念，你会熟悉并集、交集、差集、对称差集等操作。
Python 的集合内置了所有这些操作，通过方法或运算符实现。
对于每个操作，我们将展示两种等效的方法：

In [None]:
# 并集：出现在任一集合中的项
primes | odds      # 使用运算符
primes.union(odds) # 或者使用方法

{1, 2, 3, 5, 7, 9}

In [None]:
# 交集：出现在两个集合中的项
primes & odds             # 使用运算符
primes.intersection(odds) # 或者使用方法

{3, 5, 7}

In [None]:
# 差集：出现在 primes 中但不在 odds 中的项
primes - odds           # 使用运算符
primes.difference(odds) # 或者使用方法

{2}

In [None]:
# 对称差集：仅出现在一个集合中的项
primes ^ odds                     # 使用运算符
primes.symmetric_difference(odds) # 或者使用方法

{1, 2, 9}

还有更多集合方法和操作可用。
你可能已经猜到了我要说的：参阅 Python 的 [在线文档](https://docs.python.org/3/library/stdtypes.html) 以获取完整参考。

## 更专业的数据结构

Python 还包含一些其他数据结构，你可能会觉得有用；这些通常可以在内置的 ``collections`` 模块中找到。
``collections`` 模块在 Python 的 [在线文档](https://docs.python.org/3/library/collections.html) 中有完整说明。

特别是，我偶尔发现以下内容非常有用：

- ``collections.namedtuple``：像元组一样，但每个值都有名称
- ``collections.defaultdict``：像字典一样，但未指定的键具有用户指定的默认值
- ``collections.OrderedDict``：像字典一样，但键的顺序得以保持

一旦你看到了标准内置集合类型，使用这些扩展功能就非常直观了，我建议 [阅读有关它们的使用](https://docs.python.org/3/library/collections.html)。

<!--NAVIGATION-->
< [内置类型：简单值](05-Built-in-Scalar-Types.ipynb) | [目录](Index.ipynb) | [控制流](07-Control-Flow-Statements.ipynb) >