本章讨论 Python 语言内置的功能，这些功能将在本书中普遍使用。虽然 pandas 和 NumPy 等附加库为更大的数据集添加了高级计算功能，但它们旨在与 Python 的内置数据操作工具一起使用。

我们将从 Python 的主力数据结构开始：元组、列表、字典和集合。然后，我们将讨论创建您自己的可重用 Python 函数。最后，我们将了解 Python 文件对象以及与本地硬盘交互的机制。

# 3.1 Data Structures and Sequences

Python 的数据结构简单但功能强大。掌握它们的使用是成为熟练的 Python 程序员的关键部分。我们从元组、列表和字典开始，它们是一些最常用的序列类型。

## 1. Tuple 元组

元组是一种固定长度、不可变的Python对象序列。创建元组最简单的方式是用逗号分隔的值序列，包裹在括号中：

```python
In [2]: tup = (4, 5, 6)

In [3]: tup
Out[3]: (4, 5, 6)
```

在许多上下文中，可以省略括号，因此我们也可以这样写：

```python
In [4]: tup = 4, 5, 6

In [5]: tup
Out[5]: (4, 5, 6)
```

你可以通过调用`tuple`将任何序列或迭代器转换为元组：

```python
In [6]: tuple([4, 0, 2])
Out[6]: (4, 0, 2)

In [7]: tup = tuple('string')

In [8]: tup
Out[8]: ('s', 't', 'r', 'i', 'n', 'g')
```

元素可以用方括号`[]`访问，就像大多数其他序列类型一样。和C、C++、Java以及许多其他语言一样，Python的序列是从0开始索引的：

```python
In [9]: tup[0]
Out[9]: 's'
```

在更复杂的表达式中定义元组时，通常需要将值括在括号中，如下例创建了一个元组的元组：

```python
In [10]: nested_tup = (4, 5, 6), (7, 8)

In [11]: nested_tup
Out[11]: ((4, 5, 6), (7, 8))
```

虽然存储在元组中的对象可能本身是可变的，但一旦创建了元组，就不可能修改存储在每个槽中的对象：

```python
In [14]: tup = tuple(['foo', [1, 2], True])

In [15]: tup[2] = False
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-15-b89d0c4ae599> in <module>
----> 1 tup[2] = False
TypeError: 'tuple' object does not support item assignment
```

如果元组内的对象是可变的，比如列表，你可以原地修改它：

```python
In [16]: tup[1].append(3)

In [17]: tup
Out[17]: ('foo', [1, 2, 3], True)
```

你可以使用`+`运算符将元组连接起来，以产生更长的元组：

```python
In [18]: (4, None, 'foo') + (6, 0) + ('bar',)
Out[18]: (4, None, 'foo', 6, 0, 'bar')
```

将元组乘以一个整数，就像列表一样，会有将那么多份拷贝的元组连接起来的效果：

```python
In [19]: ('foo', 'bar') * 4
Out[19]: ('foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar')
```

请注意，对象本身没有被复制，只是引用它们的引用。

### 元组解包

尝试将一个类似元组的表达式的变量赋值，Python将尝试解包等号右边的值：

```python
In [20]: tup = (4, 5, 6)

In [21]: a, b, c = tup

In [22]: b
Out[22]: 5
```

即使序列中包含嵌套元组，也可以进行解包：

```python
In [23]: tup = 4, 5, (6, 7)

In [24]: a, b, (c, d) = tup

In [25]: d
Out[25]: 7
```

这种功能可以轻松地交换变量名，这在许多语言中可能看起来像这样：

```python
tmp = a
a = b
b = tmp
```

但是，在Python中，交换可以这样做：

```

python
In [26]: a, b = 1, 2

In [29]: b, a = a, b

In [30]: a
Out[30]: 2

In [31]: b
Out[31]: 1
```

变量解包是一种常见用法，特别是在遍历由元组或列表组成的序列时：

```python
In [32]: seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]

In [33]: for a, b, c in seq:
   ....:     print(f'a={a}, b={b}, c={c}')
a=1, b=2, c=3
a=4, b=5, c=6
a=7, b=8, c=9
```

另一个常见的用途是从函数返回多个值。稍后我将更详细地介绍这一点。

有些情况下，你可能想要从元组的开头“摘取”几个元素。有一个特殊的语法可以做到这一点，`*rest`，它也用在函数签名中以捕获任意长度的位置参数列表：

```python
In [34]: values = 1, 2, 3, 4, 5

In [35]: a, b, *rest = values

In [38]: rest
Out[38]: [3, 4, 5]
```

这里的`rest`部分有时是你想要丢弃的；`rest`名称没有什么特别的。作为惯例，许多Python程序员会使用下划线（`_`）作为不想要的变量：

```python
In [39]: a, b, *_ = values
```

### 元组方法

由于元组的大小和内容不能被修改，它的实例方法非常少。特别有用的一个（列表也有）是`count`，它计数值出现的次数：

```python
In [40]: a = (1, 2, 2, 2, 3, 4, 2)

In [41]: a.count(2)
Out[41]: 4
```

元组是Python中不可变序列的一个基本例子，提供了一种通过组合不同值来创建不可更改的数据结构的方式。尽管元组本身不可变，但它们可以存储可变对象，如列表。

## 2. List 列表

与元组不同，列表具有可变长度，且其内容可以就地修改。列表是可变的。可以使用方括号`[]`或`list`类型函数来定义列表：

```python
In [42]: a_list = [2, 3, 7, None]

In [43]: tup = ("foo", "bar", "baz")

In [44]: b_list = list(tup)

In [45]: b_list
Out[45]: ['foo', 'bar', 'baz']

In [46]: b_list[1] = "peekaboo"

In [47]: b_list
Out[47]: ['foo', 'peekaboo', 'baz']
```

列表和元组在语义上相似（尽管元组不能被修改），并且在许多函数中可以互换使用。

列表的内置函数`list`经常用于数据处理中，作为实现迭代器或生成器表达式的一种方式：

```python
In [48]: gen = range(10)

In [49]: gen
Out[49]: range(0, 10)

In [50]: list(gen)
Out[50]: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
```

### 添加和移除元素

可以使用`append`方法将元素添加到列表的末尾：

```python
In [51]: b_list.append("dwarf")

In [52]: b_list
Out[52]: ['foo', 'peekaboo', 'baz', 'dwarf']
```

使用`insert`可以在列表的特定位置插入一个元素：

```python
In [53]: b_list.insert(1, "red")

In [54]: b_list
Out[54]: ['foo', 'red', 'peekaboo', 'baz', 'dwarf']
```

插入索引必须在0和列表长度之间，包括两端。

警告：与`append`相比，`insert`在计算上代价较高，因为需要内部移动后续元素以腾出空间给新元素。如果你需要在序列的开始和结束处插入元素，你可能想探索`collections.deque`（双端队列），它为此目的进行了优化，并且包含在Python标准库中。

`pop`操作的逆操作是`insert`，它移除并返回特定索引处的元素：

```python
In [55]: b_list.pop(2)
Out[55]: 'peekaboo'

In [56]: b_list
Out[56]: ['foo', 'red', 'baz', 'dwarf']
```

可以通过值来移除元素，`remove`会找到第一个这样的值并从列表中移除它：

```python
In [57]: b_list.append("foo")

In [58]: b_list
Out[58]: ['foo', 'red', 'baz', 'dwarf', 'foo']

In [59]: b_list.remove("foo")

In [60]: b_list
Out[60]: ['red', 'baz', 'dwarf', 'foo']
```

如果性能不是问题，通过使用`append`和`remove`，你可以将Python列表用作类似集合的数据结构（尽管Python有实际的集合对象，稍后讨论）。

使用`in`关键字检查列表是否包含某个值：

```python
In [61]: "dwarf" in b_list
Out[61]: True
```

可以使用`not`关键字来否定`in`：

```python
In [62]: "dwarf" not in b_list
Out[62]: False
```

检查列表是否包含某个值比字典和集合慢，因为Python需要在线性扫描列表的值中进行，而后者（基于哈希表）可以在常数时间内完成检查。

### 排序

你可以通过调用列表的`sort`函数就地排序（不创建新对象）：

```python
In [67]: a = [7, 2, 5, 1, 3]

In [68]: a.sort()

In [69]: a
Out[69]: [1, 2, 3, 5, 7]
```

`sort`有一些偶尔会派上用场的选项。其中一个是能够传递一个次级排序键——即，一个产生用来排序对象的值的函数。例如，我们可以根据字符串的长度对一组字符串进行排序：

```python
In [70]: b = ["saw", "small", "He", "foxes", "six"]

In [71]: b.sort(key=len)

In [72]: b
Out[72]: ['He', 'saw', 'six', 'small', 'foxes']
```

不久，我们将查看`sorted`函数，它可以产生一个排序后的序列副本。

### 切片

你可以使用切片表示法选择大多数序列类型的部分，其基本形式由`start:stop`传递给索引运算符`[]`：

```python
In [73]: seq = [7, 2, 3, 7, 5, 6, 0, 1]

In [74]: seq[1:5]
Out[74]: [2, 3, 7, 5]
```

切片也可以通过序列进行赋值：

```python
In [75]: seq[3:5] = [6, 3]

In [76]: seq
Out[76]: [7, 2, 3, 6, 3, 6, 0, 1]
```

虽然开始索引处的元素被包括在内，但停止索引处的元素不包括，所以结果中的元素数量是`stop - start`。

开始或停止的索引可以省略，在这种情况下，它们默认为序列的开始和序列的结束：

```python
In [77]: seq[:5]
Out[77]: [7, 2, 3, 6, 3]

In [78]: seq[3:]
Out[78]: [6, 3, 6, 0, 1]
```

负索引可以相对于末尾切片序列：

```python
In [79]: seq[-4:]
Out[79]: [3, 6, 0, 1]

In [80]: seq[-6:-2]
Out[80]: [3, 6, 3, 6]
```

切片语义需要一些习惯，特别是如果你来自R或MATLAB。图3.1有助于理解正负整数切片的约定。

在第二个冒号后面可以使用步长，比如，取每个第二个元素：

```python
In [81]: seq[::2]
Out[81]: [7, 3, 3, 0]
```

这个的一个巧妙用法是传递-1，它有反转列表或元组的有用效果：

```python
In [82]: seq[::-1]
Out[82]: [1, 0, 6, 3, 6, 3, 2, 7]
```

切片是Python中处理序列的强大工具，它提供了一种简洁的方式来访问和修改序列的子集。

## 3. 字典 Dictionary

字典（或`dict`）可能是Python中最重要的内置数据结构。在其他编程语言中，字典有时被称为哈希图或关联数组。字典存储一组键值对，其中键和值都是Python对象。每个键都与一个值相关联，这样就可以方便地根据特定键检索、插入、修改或删除值。创建字典的一种方法是使用花括号`{}`，并使用冒号分隔键和值：

```python
In [83]: empty_dict = {}

In [84]: d1 = {"a": "some value", "b": [1, 2, 3, 4]}

In [85]: d1
Out[85]: {'a': 'some value', 'b': [1, 2, 3, 4]}
```

你可以使用与访问列表或元组元素相同的语法来访问、插入或设置元素：

```python
In [86]: d1[7] = "an integer"

In [87]: d1
Out[87]: {'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}

In [88]: d1["b"]
Out[88]: [1, 2, 3, 4]
```

你可以使用与检查列表或元组是否包含某个值相同的语法来检查字典是否包含某个键：

```python
In [89]: "b" in d1
Out[89]: True
```

你可以使用`del`关键字或`pop`方法（同时返回值并删除键）来删除值：

```python
In [94]: del d1[5]

In [95]: d1
Out[95]: {'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer', 'dummy': 'another value'}

In [96]: ret = d1.pop("dummy")

In [97]: ret
Out[97]: 'another value'

In [98]: d1
Out[98]: {'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}
```

`keys`和`values`方法分别给你字典键和值的迭代器。键的顺序取决于它们的插入顺序，这些函数以相同的顺序输出键和值：

```python
In [99]: list(d1.keys())
Out[99]: ['a', 'b', 7]

In [100]: list(d1.values())
Out[100]: ['some value', [1, 2, 3, 4], 'an integer']
```

如果你需要同时遍历键和值，可以使用`items`方法以2元组的形式遍历键和值：

```python
In [101]: list(d1.items())
Out[101]: [('a', 'some value'), ('b', [1, 2, 3, 4]), (7, 'an integer')]
```

你可以使用`update`方法将一个字典合并到另一个字典中：

```python
In [102]: d1.update({"b": "foo", "c": 12})

In [103]: d1
Out[103]: {'a': 'some value', 'b': 'foo', 7: 'an integer', 'c': 12}
```

`update`方法就地更改字典，因此传递给`update`的数据中任何已存在的键都将丢弃其旧值。

### 从序列创建字典 Creating dictionaries from sequences

从序列创建字典是一个常见的场景，你可能会有两个序列，希望将它们按元素对应配对成字典。最直接的方式可能是这样写代码：

```python
mapping = {}
for key, value in zip(key_list, value_list):
    mapping[key] = value
```

由于字典本质上是2元组的集合，`dict`函数接受一个2元组的列表：

```python
In [104]: tuples = zip(range(5), reversed(range(5)))

In [106]: mapping = dict(tuples)

In [107]: mapping
Out[107]: {0: 4, 1: 3, 2: 2, 3: 1, 4: 0}
```

稍后我们将讨论字典推导式，这是构造字典的另一种方式。

### 默认值

有时，你可能有这样的逻辑：

```python
if key in some_dict:
    value = some_dict[key]
else:
    value = default_value
```

因此，字典的`get`和`pop`方法可以接受一个默认值，如果键不存在时返回，使得上面的if-else块可以简单地写为：

```python
value = some_dict.get(key, default_value)
```

如果键不存在，`get`默认会返回`None`，而`pop`会抛出异常。在设置值时，字典中的值可能是另一种集合类型，如列表。例如，你可以想象将一系列单词按它们的首字母分类为字典的列表：

```python
In [108]: words = ["apple", "bat", "bar", "atom", "book"]

In [111]: by_letter
Out[111]: {'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}
```

字典的`setdefault`方法可以用来简化这个工作流。上面的for循环可以重写为：

```python
In [112]: by_letter = {}

In [114]: by_letter
Out[114]: {'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}
```

内置的`collections`模块有一个有用的类，`defaultdict`，它使这个过程更简单。创建一个`defaultdict`时，你传递一个类型或函数来为字典中的每个槽生成默认值：

```python
In [115]: from collections import defaultdict

In [117]: for word in words:
   .....:     by_letter[word[0]].append(word)
```

使用`defaultdict`可以使代码更简洁，并且在处理不存在的键时自动创建默认值，这在某些应用场景下非常有用。

### 有效的字典键类型 Valid dictionary key types

虽然字典的值可以是任何Python对象，但键通常必须是不可变对象，如标量类型（`int`、`float`、`string`）或元组（元组中的所有对象也需要是不可变的）。这里的技术术语是可哈希性（hashability）。你可以使用`hash`函数检查一个对象是否是可哈希的（可以用作字典中的键）：

```python
In [118]: hash("string")
Out[118]: 4022908869268713487

In [119]: hash((1, 2, (2, 3)))
Out[119]: -9209053662355515447

In [120]: hash((1, 2, [2, 3])) # 失败，因为列表是可变的
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-120-473c35a62c0b> in <module>
----> 1 hash((1, 2, [2, 3])) # 失败，因为列表是可变的
TypeError: unhashable type: 'list'
```

当你使用`hash`函数时看到的哈希值通常会依赖于你正在使用的Python版本。

要将列表用作键，一种选择是将其转换为元组，只要其元素也可以被哈希，元组就可以被哈希：

```python
In [121]: d = {}

In [122]: d[tuple([1, 2, 3])] = 5

In [123]: d
Out[123]: {(1, 2, 3): 5}
```

这表明，尽管某些类型（如列表）本身是不可哈希的，但你可以通过转换为不可变形式（如元组）来绕过这个限制。这在需要将可变数据类型用作键时尤其有用，但要记住，一旦将这些数据转换为不可变类型，就无法再修改它们以反映原始数据的任何更新或变化。

## 4. 集合 Set

集合是一种无序的唯一元素集。可以通过两种方式创建集合：通过`set`函数或使用花括号的集合字面量：

```python
In [124]: set([2, 2, 2, 1, 3, 3])
Out[124]: {1, 2, 3}

In [125]: {2, 2, 2, 1, 3, 3}
Out[125]: {1, 2, 3}
```

集合支持数学上的集合操作，如并集、交集、差集和对称差。考虑以下两个示例集合：

```python
In [126]: a = {1, 2, 3, 4, 5}

In [127]: b = {3, 4, 5, 6, 7, 8}
```

这两个集合的并集是出现在任一集合中的不同元素的集合。这可以通过`union`方法或`|`二进制运算符来计算：

```python
In [128]: a.union(b)
Out[128]: {1, 2, 3, 4, 5, 6, 7, 8}

In [129]: a | b
Out[129]: {1, 2, 3, 4, 5, 6, 7, 8}
```

交集包含在两个集合中都出现的元素。可以使用`&`运算符或`intersection`方法：

```python
In [130]: a.intersection(b)
Out[130]: {3, 4, 5}

In [131]: a & b
Out[131]: {3, 4, 5}
```

集合的这些操作提供了一种非常灵活的方式来处理唯一性问题，以及在多个集合之间执行常见的数学集合运算。

以下是常用集合方法的列表，见表3.1：

**表3.1：Python集合操作**

| 函数                          | 替代语法   | 描述                                               |
| :----------------------------- | :----------: | :-------------------------------------------------- |
| `a.add(x)`                    | N/A        | 将元素x添加到集合a中                               |
| `a.clear()`                   | N/A        | 将集合a重置为一个空状态，丢弃其所有元素             |
| `a.remove(x)`                 | N/A        | 从集合a中移除元素x                                 |
| `a.pop()`                     | N/A        | 从集合a中移除一个任意元素，如果集合为空则抛出KeyError |
| `a.union(b)`                  | `a | b`    | a和b中所有唯一元素的集合                           |
| `a.update(b)`                 | `a |= b`   | 将a的内容设置为a和b中元素的并集                     |
| `a.intersection(b)`           | `a & b`    | a和b中都有的所有元素                               |
| `a.intersection_update(b)`    | `a &= b`   | 将a的内容设置为a和b中元素的交集                     |
| `a.difference(b)`             | `a - b`    | 在a中但不在b中的元素                               |
| `a.difference_update(b)`      | `a -= b`   | 将a设置为在a中但不在b中的元素                       |
| `a.symmetric_difference(b)`   | `a ^ b`    | 在a或b中的所有元素，但不是两者共有的                |
| `a.symmetric_difference_update(b)` | `a ^= b` | 将a设置为在a或b中的元素，但不是两者共有的          |
| `a.issubset(b)`               | `<=`       | 如果a的所有元素都包含在b中，则为True                |
| `a.issuperset(b)`             | `>=`       | 如果b的所有元素都包含在a中，则为True                |
| `a.isdisjoint(b)`             | N/A        | 如果a和b没有共同的元素，则为True                    |

注意：如果你向像`union`和`intersection`这样的方法传递一个非集合的输入，Python会在执行操作前将输入转换为集合。使用二进制运算符时，两个对象都必须已经是集合。

所有逻辑集合操作都有就地对应的方法，这使你能够将操作左侧的集合内容替换为结果。对于非常大的集合，这可能更高效：

```python
In [132]: c = a.copy()
In [133]: c |= b
In [134]: c
Out[134]: {1, 2, 3, 4, 5, 6, 7, 8}

In [135]: d = a.copy()
In [136]: d &= b
In [137]: d
Out[137]: {3, 4, 5}
```

像字典键一样，集合元素通常必须是不可变的，并且必须是可哈希的（这意味着对值调用`hash`不会引发异常）。为了在集合中存储类似列表的元素（或其他可变序列），你可以将它们转换为元组：

```python
In [138]: my_data = [1, 2, 3, 4]
In [139]: my_set = {tuple(my_data)}
In [140]: my_set
Out[140]: {(1, 2, 3, 4)}
```

你还可以检查一个集合是否是另一个集合的子集（包含在内）或超集（包含另一个集合的所有元素）：

```python
In [141]: a_set = {1, 2, 3, 4, 5}
In [142]: {1, 2, 3}.issubset(a_set)
Out[142]: True

In [143]: a_set.issuperset({1, 2, 3})
Out[143]: True
```

集合相等当且仅当它们的内容相等：

```python


In [144]: {1, 2, 3} == {3, 2, 1}
Out[144]: True
```

## 5. 内置序列函数 Built-In Sequence Functions

### 内置序列函数

Python有一些非常有用的序列函数，你应该熟悉并在任何机会中使用它们。

#### enumerate
在迭代序列时，常常需要跟踪当前项的索引。一个自己动手的方法看起来像这样：

```python
index = 0
for value in collection:
   # 对value做一些处理
   index += 1
```

由于这非常常见，Python有一个内置函数`enumerate`，它返回一个（i, value）元组的序列：

```python
for index, value in enumerate(collection):
   # 对value做一些处理
```

#### sorted
`sorted`函数从任何序列的元素返回一个新的排序列表：

```python
In [145]: sorted([7, 1, 2, 6, 0, 3, 2])
Out[145]: [0, 1, 2, 2, 3, 6, 7]

In [146]: sorted("horse race")
Out[146]: [' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']
```

`sorted`函数接受和列表的`sort`方法相同的参数。

#### zip
`zip`将多个列表、元组或其他序列的元素“配对”，以创建元组的列表：

```python
In [147]: seq1 = ["foo", "bar", "baz"]

In [148]: seq2 = ["one", "two", "three"]

In [149]: zipped = zip(seq1, seq2)

In [150]: list(zipped)
Out[150]: [('foo', 'one'), ('bar', 'two'), ('baz', 'three')]
```

`zip`可以接受任意数量的序列，它产生的元素数量由最短的序列决定：

```python
In [151]: seq3 = [False, True]

In [152]: list(zip(seq1, seq2, seq3))
Out[152]: [('foo', 'one', False), ('bar', 'two', True)]
```

`zip`的一个常见用途是同时迭代多个序列，可能还与`enumerate`结合使用：

```python
In [153]: for index, (a, b) in enumerate(zip(seq1, seq2)):
   .....:     print(f"{index}: {a}, {b}")
   .....:
0: foo, one
1: bar, two
2: baz, three
```

#### reversed
`reversed`以相反的顺序迭代序列的元素：

```python
In [154]: list(reversed(range(10)))
Out[154]: [9, 8, 7, 6, 5, 4, 3, 2, 1, 0]
```

请记住，`reversed`是一个生成器（稍后将更详细地讨论），所以它不会创建反向序列，直到实现化（例如，通过`list`或`for`循环）。


## 6. 列表、集合和字典推导式 List, Set, and Dictionary Comprehensions

列表推导式是Python语言中一个方便且广泛使用的特性。它们允许你通过过滤一个集合的元素，将通过过滤的元素转换为一个简洁的表达式，从而简洁地形成一个新的列表。它们的基本形式是：

```python
[expr for value in collection if condition]
```

这等价于以下的for循环：

```python
result = []
for value in collection:
    if condition:
        result.append(expr)
```

过滤条件可以省略，只留下表达式。例如，给定一个字符串列表，我们可以过滤出长度大于2的字符串，并将它们转换为大写，像这样：

```python
In [155]: strings = ["a", "as", "bat", "car", "dove", "python"]
In [156]: [x.upper() for x in strings if len(x) > 2]
Out[156]: ['BAT', 'CAR', 'DOVE', 'PYTHON']
```

集合和字典推导式是自然的扩展，以类似习惯的方式产生集合和字典而不是列表。

字典推导式看起来像这样：

```python
dict_comp = {key-expr: value-expr for value in collection if condition}
```

集合推导式看起来与列表推导式相似，只是使用大括号而不是方括号：

```python
set_comp = {expr for value in collection if condition}
```

像列表推导式一样，集合和字典推导式主要是方便之处，但它们同样可以使代码更易于编写和阅读。考虑之前的字符串列表。假设我们想要一个集合，只包含集合中字符串的长度；我们可以使用集合推导式轻松计算这个：

```python
In [157]: unique_lengths = {len(x) for x in strings}
In [158]: unique_lengths
Out[158]: {1, 2, 3, 4, 6}
```

我们也可以使用`map`函数以更函数式的方式表达这个，`map`函数将很快介绍：

```python
In [159]: set(map(len, strings))
Out[159]: {1, 2, 3, 4, 6}
```

作为一个简单的字典推导式例子，我们可以为这些字符串及其在列表中的位置创建一个查找映射：

```python
In [160]: loc_mapping = {value: index for index, value in enumerate(strings)}
In [161]: loc_mapping
Out[161]: {'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}
```

#### 理解嵌套列表

嵌套列表推导式是一种处理多层序列数据的强大工具。假设我们有一个包含一些英文和西班牙名字的列表的列表：

```python
In [162]: all_data = [["John", "Emily", "Michael", "Mary", "Steven"],
   .....:             ["Maria", "Juan", "Javier", "Natalia", "Pilar"]]
```

假设我们想要获取一个包含所有名字中包含两个或更多个'a'的单个列表。我们当然可以用一个简单的for循环来完成这个任务：

```python
In [163]: names_of_interest = []
In [164]: for names in all_data:
   .....:     enough_as = [name for name in names if name.count("a") >= 2]
   .....:     names_of_interest.extend(enough_as)
In [165]: names_of_interest
Out[165]: ['Maria', 'Natalia']
```

实际上，你可以将整个操作包装在一个单独的嵌套列表推导式中，它看起来像这样：

```python
In [166]: result = [name for names in all_data for name in names if name.count("a") >= 2]
In [167]: result
Out[167]: ['Maria', 'Natalia']
```

起初，嵌套列表推导式可能有点难以理解。列表推导式中的for部分根据嵌套的顺序排列，任何过滤条件都放在最后，如之前所述。这里有另一个例子，我们将一个整数元组的列表“扁平化”成一个简单的整数列表：

```python
In [168]: some_tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
In [169]: flattened = [x for tup in some_tuples for x in tup]
In [170]: flattened
Out[170]: [1, 2, 3, 4, 5, 6, 7, 8, 9]
```

请记住，如果你写了一个嵌套的for循环而不是列表推导式，for表达式的顺序将是相同的：

```python
flattened = []
for tup in some_tuples:
    for x in tup:
        flattened.append(x)
```

你可以有任意多层的嵌套，尽管如果你有超过两三层的嵌套，你可能应该开始质疑这是否从代码可读性的角度讲是有意义的。重要的是要区分刚刚展示的语法和列表推导式内的列表推导式，这也是完全有效的：

```python
In [172]: [[x for x in tup] for tup in some_tuples]
Out[172]: [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
```

这产生了一个列表的列表，而不是所有内部元素的扁平化列表。