# 2：Python进阶

<a href="https://nb.bohrium.dp.tech/detail/8841858962?utm_source=ck-github" target="_blank"><img src="https://cdn.dp.tech/bohrium/web/static/images/open-in-bohrium.svg" alt="Open In Bohrium"/></a>

## 2.1 语法糖

*语法糖*是赋予编程语言中任何不扩展语言功能的部分的绰号。如果这些功能中的任何一个突然从语言中移除，语言仍然具有相同的功能，但被称为“语法糖”的任何东西的优点是，它使代码更快/更短地编写或更易于阅读。以下是你可能会遇到并觉得有用的Python语言的一些示例。

### 2.1.1 增强赋值

增强赋值是语法糖的一个简单示例，允许用户修改分配给变量的值。如果我们想要将值增加1，我们可以将变量递归地指定为自身加1，如下所示。

In [None]:
x = 5

In [None]:
x = x + 1 
x

这当然不难，但它确实涉及多次输入变量，当你的变量名变得越来越长时，这就变得不那么令人满意了。作为替代方案，我们还可以使用下面展示的*增强赋值*来完成相同的任务。 `+=`表示“增加”。

In [None]:
x += 1
x

增强赋值也可以用于加法、减法、乘法和除法，如表1所示。

**表1** 增强赋值

| 增强赋值 | 常规赋值 | 描述 |
|:------:| :-----: | :--- |
|`x += a` | `x = x + a` | 增 |
|`x -= a` | `x = x - a` | 减 |
|`x *= a` | `x = x * a` | 乘 |
|`x /= a` | `x = x / a` | 除 |

### 2.1.2 列表推导式

```{index} comprehension
```

到目前为止，你可能已经注意到，生成一个由一系列数字填充的列表是相当普遍的。如果值是间隔均匀的整数，只需使用 `range()` 函数并使用 `list()` 将其转换为列表。在所有其他情况下，你需要创建一个空列表，使用 `for` 循环计算值，并在生成值时将值 `append` 到列表中。下面是一个使用这种方法生成从 0 $\rightarrow$ 9 的所有整数平方的列表的示例。

In [None]:
squares = []
for integer in range(10):
    sqr = integer**2
    squares.append(sqr)

In [None]:
squares

整个过程可以通过在方括号中表示 `for` 循环来压缩成一行，如下所示。这被称为*列表推导式*。

````{margin}
```{note}
Python 还支持用于创建其他对象的类似代码结构，例如*元组推导式*和*字典推导式*，这里不再赘述。
```
````

In [None]:
squares = [integer**2 for integer in range(10)]
squares

列表推导可能需要一些时间适应,但它非常值得。它既节省时间又节省空间,使代码更加简洁。

```{note}
除了列表推导之外,还有相关的字典推导和集合推导,如下所示。
~~~python
[1]: {n: 2*n**2 for n in range(5)}
[1]: {0: 0, 1: 2, 2: 8, 3: 18, 4: 32, 5: 50}
~~~
~~~python
[2]: {(n, 2*n**2) for n in range(5)}
[2]: {(0, 0), (1, 2), (2, 8), (3, 18), (4, 32)}
```

### 2.1.3 复合赋值

在程序或计算的开始,经常需要用值填充一系列变量。每个变量可能在代码中单独占据一行,如果变量很多,这可能会使你的代码显得混乱。一种替代方法是像下面显示的那样,在同一赋值语句中赋值多个变量,这里是前三个元素的原子质量。

In [None]:
H, He, Li = 1.01, 4.00, 5.39

In [None]:
H

每个变量被分配到相应的值。这被称为*元组解包*，因为`H`、`He`、`Li`和`1.01`、`4.00`、`5.39`会被Python自动转换为元组（在幕后进行），如下所示。

In [None]:
1.01, 4.00, 5.39

因此，上述赋值等同于以下代码。

In [None]:
(H, He, Li) = (1.01, 4.00, 5.39)

### 2.1.4 Lambda 函数

```{index} anonymous function
```
```{index} lambda function
```

*Lambda 函数* 是用于生成简单 Python 函数的匿名函数。它们的价值在于，它们可以用比标准的 `def` 语句更少的代码行来生成函数，而且它们不一定需要分配给一个变量...因此是匿名的。后者在需要 Python 函数但用户不希望通过分配给变量或花时间正常定义函数来破坏命名空间的应用中非常有用。lambda 函数的定义如下所示，其中 lambda 语句后面的变量是函数中的独立变量。

In [None]:
lambda x: x**2

由于它没有附加到变量上，所以需要立即使用。或者，可以像下面示例中那样将它附加到变量上，然后像其他Python函数一样操作。

In [None]:
f = lambda x: x**2

In [None]:
f(9)

作为一个示例，`scipy.integrate` 模块中的 `quad()` 函数是用于计算数学函数下面积的通用方法。除了上下限之外，积分函数还需要以 Python 函数的形式提供数学函数（即，不仅仅是数学表达式）。这通常需要一个正式定义的 Python 函数，但使用 lambda 函数作为单一用途的 Python 函数通常更方便，如下所示。在以下示例中，我们使用积分来查找在长度为1的盒子中，在 0 和 0.4 之间找到处于最低状态的粒子的概率，方法是执行以下积分。

$$ p = 2 \int_0^{0.4} sin^2(\pi x) $$

In [None]:
from scipy.integrate import quad
import math

In [None]:
quad(lambda x: 2 * math.sin(math.pi*x)**2, 0, 0.4)

In [None]:
def particle_box(x):
    return 2 * math.sin(math.pi*x)**2

In [None]:
quad(particle_box, 0, 0.4)

返回元组中的第一个值是积分结果，第二个值是估计的不确定性。因此，粒子在0 到 0.4 区域内被发现的概率约为30.6%。通过使用`def`定义函数来执行相同的计算如下所示。这比使用lambda表达式需要更多的代码行。

## 2.2 字典

```{index} dictionaries
```

Python *字典* 是一种多元素的 Python 对象类型，它将键和值相互关联，类似于现实中的字典将单词（键）与定义（值）相连接。这也被称为*关联数组*。字典允许用户使用键访问存储的值，而不需要了解字典中项目的顺序。可以将字典视为一个充满变量和赋值值的对象。例如，如果我们希望编写一个脚本来根据其分子式计算化合物的分子量，我们需要根据元素符号访问每个元素的原子量。这里的键是符号，值是原子量。它看起来像一个带有花括号的列表，每个项目是一个由冒号分隔的`键:值`对。以下是一个包含周期表前十个元素的原子量的字典示例。


In [None]:
AM = {'H':1.01, 'He':4.00, 'Li':6.94, 'Be':9.01,
      'B':10.81, 'C':12.01, 'N':14.01, 'O':16.00,
      'F':19.00, 'Ne':20.18}

手头有这本字典，我们可以使用原子符号作为键来查找其中任何元素的质量。

In [None]:
AM['Li']

尽管我们通常称之为键值对，但值并不一定要是数值类型。它也可以是字符串或其他对象类型，而键也可以是任何对象类型。

如果你有一个字典，但不知道其中的键，你可以使用`keys()`字典方法来查找。

In [None]:
AM.keys()

我们还可以使用`items()`方法查看键：值对，或者遍历字典以获取键、值或两者的访问权限。

In [None]:
AM.items()

In [None]:
for key, values in AM.items():
    print(values)

可以通过调用键并将其分配给一个值来向已有的字典中添加额外的键值对，如下例所示。这样做不会产生错误，而是将键值对插入到字典中。


In [None]:
AM['Na'] = 22.99
AM

注意，在向原子质量字典中添加钠元素后，所有键值对的顺序都发生了改变。与元组或列表不同，字典中的顺序并不重要，因此不会保留顺序。

另一种生成字典的方法是使用`dict()`函数，它接受嵌套列表或元组中的键值对，并按如下方式生成键值对：

In [None]:
dict([('H',1), ('He',2), ('Li',3)])

## 2.3 集合

```{index} sets
```

集合是另一种您可能会在某些场合遇到并使用的Python对象类型。这些对象与列表类似，都是多元素对象，但关键区别在于集合中的每个元素只能出现一次。这在代码需要对现有内容进行清点的应用中可能很有用。例如，如果我们正在对化学存储室进行盘点，了解哪些化学化合物现有可用于实验，那么这些化合物的名称可以存储在一个集合中。如果存储室里有一个化合物的多个瓶子，集合中只会包含一次该化合物的名称，因为我们只关心哪些化合物可用，而不关心有多少个可用。集合看起来像列表，只是使用大括号而不是方括号。

In [None]:
compounds = {'ethanol', 'sodium chloride', 'water',
             'toluene', 'acetone'}

我们可以使用 `add()` 集合方法向集合中添加附加项。

````{margin}
```{note}
这个方法称为 `add()` 而不是列表中使用的 `append()`，因为与列表不同，集合不保留其中包含的项目的顺序。
```
````

In [None]:
compounds.add('calcium chloride')
compounds

In [None]:
compounds.add('ethanol')
compounds

注意，当将乙醇添加到集合中时，没有任何变化。这是因为乙醇已经在集合中，而集合不会存储元素的冗余副本。

可以使用`|`和`-`运算符将多个集合连接或相互减去，并且可以使用布尔运算符比较两个集合。下面是两个包含氮（N）和钙（Ca）原子中的原子轨道的集合。尽管氮中有三个2p轨道，但它只出现一次，告诉我们存在哪些类型的轨道，而不是有多少个

In [None]:
N = {'1s','2s','2p'}
Ca = {'1s','2s','2p', '3s', '3p', '4s'}

In [None]:
N | Ca # 返回并集

In [None]:
Ca - N  # 返回差集

In [None]:
N & Ca  # 返回交集

**表2** Python集合操作符

| 操作符 | 名称                 | 描述                |     |
| :------: | :---------:          | :--------                  | :-- |
| `&`      | 交集         | 返回两个集合中的公共项 | ![](https://bohrium-example.oss-cn-zhangjiakou.aliyuncs.com/notebook/SciCompforChemists/notebooks/chapter_02/img/intersection.png) |
| `-`      | 差集           | 返回第一个集合中减去两个集合中的公共项的元素 | ![](https://bohrium-example.oss-cn-zhangjiakou.aliyuncs.com/notebook/SciCompforChemists/notebooks/chapter_02/img/difference.png) |
| <code>&#124;</code>  | 并集    | 合并两个集合；自动去除重复项 | ![](https://bohrium-example.oss-cn-zhangjiakou.aliyuncs.com/notebook/SciCompforChemists/notebooks/chapter_02/img/union.png) |
| `^`      | 对称差集 | 合并两个集合减去公共项（即，“异或”） | ![](https://bohrium-example.oss-cn-zhangjiakou.aliyuncs.com/notebook/SciCompforChemists/notebooks/chapter_02/img/exclusion.png) |

## 2.4 Python模块

```{index} module
```

请记住，从上一章开始，*模块* 是具有共同主题的函数和数据的集合。你已经在[1.1.3节](1.1.3)中看到了`math`模块，但是Python还包含许多其他与Python一起安装的原生模块。表3列出了一些常见的示例，但肯定还有很多其他值得探索的示例。鼓励你访问Python网站并探索其他模块。本节将介绍一些有用的模块以及它们的用途示例。

````{margin}
```{note}
请参阅[https://docs.python.org/3/py-modindex.html](https://docs.python.org/3/py-modindex.html)，以获取更完整的Python内置模块列表和描述。
```
````

**表3**一些有用的Python模块

| 名称 | 描述 |
|:----:| :-------    |
|`os`  | 提供对您的计算机文件系统的访问 |
|`itertools` | 迭代器和组合工具 |
|`random` | 用于伪随机数生成的函数 |
|`datetime` | 处理日期和时间信息 |
|`csv` | 用于编写和读取CSV文件 |
|`pickle` | 保留文件系统上的Python对象 |
|`timeit` | 计算代码执行时间  |
|`audioop` | 用于读取和处理音频文件的工具 |
|`statistics` | 统计函数 |

### 2.4.1 `os`模块

`os`模块提供了对计算机上的文件和目录（即文件夹）的访问。到目前为止，我们一直在打开与Jupyter笔记本相同的目录中的文件，因此Jupyter无法轻松找到文件。但是，如果你想在计算机上的其他地方打开文件或打开多个文件，此模块特别有用。下面您将学习如何使用os模块在非本地目录（即不在您的Jupyter笔记本中的目录）中打开文件以及打开整个文件夹中的文件。

**表4**选择os模块功能

| 函数 | 描述 |
| :------: | :--------   |
|`os.chdir()` | 将当前工作目录更改为所提供路径 |
|`os.getcwd()` | 返回当前工作目录路径 |
|`os.listdir()`| 返回当前或指定目录中的所有文件列表 |

表4提供了我们将使用的三个函数的描述。要打开不在Jupyter笔记本目录中的文件，你需要使用`chdir()`方法更改Python当前查找的目录，称为*当前工作目录*。它需要一个字符串参数，该参数以字符串格式表示包含感兴趣文件的文件夹的路径。例如，如果文件位于计算机桌面上名为“my_folder”的文件夹中，则可以使用以下内容。具体格式将根据您的计算机以及您使用的是macOS、Windows还是Linux而有所不同。

~~~python
import os
os.chdir('/Users/me/Desktop/my_folder')
~~~

如果你不确定当前工作目录是哪个目录，可以使用`getcwd()`函数。它不需要任何参数。

~~~python
os.getcwd()
~~~

另一个来自 os 模块的有用功能是 `listdir()` 方法，它列出了文件夹中的所有文件和目录。它不仅可以用来确定文件夹的内容，还可以用来遍历文件夹中的所有文件。假设你不仅有一个包含数据的 CSV 文件，而是有一个整个文件夹的类似 CSV 文件，你需要将它们导入到 Python 中。你可以让 Python 遍历文件夹，而不是逐个处理这些文件，并导入找到的每个 CSV 文件。以下是在计算机桌面上导入并打印每个 CSV 文件的演示。

```{index} single: file input/output; multiple files
```

~~~python
import numpy as np
os.chdir('/Users/me/Desktop') # changes directory
for file in os.listdir():
    if file.endswith('csv'): # only open csv files
        data = np.genfromtxt(file)
        print(data)
~~~

上述代码会遍历计算机桌面上的每个文件，如果文件名以“csv”结尾，Python 将导入并打印其内容。即使你有一个文件夹，你认为它只包含 CSV 文件，检查文件扩展名也是一个重要步骤。这是因为许多计算机上的文件夹包含计算机操作系统使用的不可见文件。用户通常看不到它们，但是 Python 可以，如果 Python 尝试将其作为 CSV 文件打开，将会产生错误。检查文件扩展名可以确保 Python 只尝试打开 CSV 文件。

### 2.4.2 `itertools` 模块

`itertools` 模块包含了各种用于以高效方式循环访问数据的工具。该模块中有很多好用的函数，但我们将重点介绍组合学函数 `combinations()` 和 `permutations()`。

`combinations(collection, n)` 函数从一个集合（如列表、元组或范围对象）中生成所有 n 大小的元素组合。在 `combinations()` 中，顺序无关紧要，所以 `(1, 2)` 等同于 `(2, 1)`。在下面的代码中，`combinations()` 函数从数字中生成所有元素对。

In [None]:
import itertools
numbers = range(5)

In [None]:
itertools.combinations(numbers, 2)

所以刚刚发生了什么？它没有返回一个列表，而是返回了一个*组合对象*。你只需要知道它们可以被转换成列表或迭代以提取元素，并且它们是一次性使用的。一旦你迭代过它们，如果需要再次使用它们，就需要再次生成。 

```{index} generator
```

````{margin}
```{note}
`combinations()`是一种称为*生成器*的函数。它只在需要时生成值，以减少内存使用。这与`range()`函数类似。
```
````

In [None]:
for pair in itertools.combinations(numbers, 2):
    print(pair)

每个组合都以元组的形式返回，如果将组合对象转换为列表，那么它将是一个元组列表。

`permutations()`函数与combinations()非常相似，不同之处在于`permutations()`中，顺序很重要。因此，`(2, 1)`和`(1, 2)`是不等价的。这在概率和统计学中尤为重要。像上面的组合示例一样，可以生成一组项目的排列。

In [None]:
for pair in itertools.permutations(numbers, 2):
    print(pair)

注意到排列中包含了（0，2）和（2，0），而组合中只列出了其中之一。

### 2.4.3 `random` 模块

```{index} single: random numbers; with Python
```

`random` 模块提供了一组用于生成随机值的函数。随机值可以是整数或浮点数，并且可以从各种范围和分布中生成。表5中显示了来自 `random` 模块的一些常用函数。 `random` 模块的一个关键局限性是这些函数通常一次只生成一个值。 如果你想要多个随机值，你需要使用循环或者使用 NumPy 的随机值函数。

**表5** 来自 random 模块的函数

| 函数 | 描述 |
|:-------: | :---------  |
|`random.random()`| 生成来自 [0, 1) 的值 |
|`random.uniform(x, y)` | 生成来自范围 [x, y) 的浮点数，并具有均匀概率 |
|`random.randrange(x, y)` | 生成来自所提供范围 [x, y) 的整数 |
|`random.choice()` | 从列表、元组或其他多元素对象中随机选择一项 |
|`random.shuffle()` | 洗牌多元素对象 |

值得注意的一点是，方括号表示 *包含*，而括号表示排除，所以 [0, 9) 表示从 0 → 9 包括0但不包括9。

In [None]:
import random
random.random()

In [None]:
random.randrange(0, 10)

In [None]:
a = [1,2,3,4,5,6]
random.shuffle(a)
a

## 2.5 拉链与枚举

有时候，我们需要同时遍历两个列表。例如，假设我们有一个原子序数（`AN`）的列表和一个最丰富同位素的近似原子质量（`mass`）的列表，它们表示周期表上前六个元素。

In [None]:
AN = [1, 2, 3, 4, 5, 6]
mass = [1, 4, 7, 9, 11, 12]

如果我们想要计算每个同位素中的中子数量，我们需要从原子质量中减去每个原子序数（等于质子数量）。为了实现这一点，我们需要同时遍历两个列表。以下是实现这一目标的一些方法。

### 2.5.1 拉链

```{index} zipping
```

同时遍历两个列表的最简单方法是将两个列表合并成一个可迭代对象，然后遍历它。`zip()`函数正是通过将两个列表或元组（如夹克上的拉链）合并成类似于嵌套列表的列表来实现这一点。然而，与返回列表或元组不同，`zip()`函数返回一个一次性使用的拉链对象。

In [None]:
zipped = zip(AN, mass)

In [None]:
for pair in zipped:
    print(pair[1] - pair[0])

如上所述，这些是一次性使用的对象，因此，如果我们尝试再次使用它，什么也不会发生。

In [None]:
for pair in zipped:
    print(pair[1] - pair[0])

如果两个列表的长度不同，`zip()`会在较短列表的结尾处停止，并返回一个长度为较短列表长度的压缩对象。

### 2.5.2 枚举

```{index} enumeration
```

与 `zip()` 相似的一个函数是 `enumerate()` 函数。它不是将两个列表或元组压缩在一起，而是将列表或元组压缩到该列表的索引值。与 `zip()` 类似，它返回一个一次性使用的可迭代对象。

In [None]:
enum = enumerate(mass)

In [None]:
for pair in enum:
    print(pair)

通过将一个列表与一个与其长度相同的范围对象进行压缩，`zip()` 函数可以实现相同的功能，如下所示，但是 `enumerate()` 可能会稍微方便一些。

In [None]:
zipped = zip(range(len(mass)), mass)
for item in zipped:
    print(item)

## 2.6 编码数字

```{index} 编码数字
```

在使用 Python 的过程中，你大多数时候不需要考虑如何以及在哪里存储值，因为 Python 会为你处理这个问题。如果将一个数字赋值给一个变量，Python 将确定如何正确地存储这个信息。然而，在某些情况下，你需要了解一些关于数字编码的知识，比如在灰度图像（第7章）中。

计算机中的数字以*二进制*形式存储，它是一个基数为2的计数系统。也就是说，用0和1来表示一个数字，而不是用0到9的数字。

````{margin}
```{note}
人们通常使用的标准数字是十进制，因为我们用十个数字（0、1、2、3、4、5、6、7、8和9）的组合来描述数值。一旦到9，数字就返回到0，并在左侧放置一个1。在一个二进制计数系统中，我们只用0和1来描述数值。类似地，一旦到1，数字就返回到0，并在左侧放置一个1。因此，“10”在二进制中表示2。
```
````

当一个数字存储在内存中时，一组固定的0/1被分配用来存储这个信息，根据要存储的数字的大小或精度，这个分组可能需要更大或更小。按照惯例，分组通常为8、16、32、64或128位（即0或1）大小。表6列出了一些Python术语的例子。

**表6** Python数据类型

| 数据类型 | 描述 |
|:--------: | :---------  |
|`uint8`    | 整数从0到255 |
|`uint16`   | 整数从0到65535 |
|`uint32`   | 整数从0到4294967295 |
|`int8`     | 整数从-128到127 |
|`int16`    | 整数从-32768到32767 |
|`int32`    | 整数从-2147483648到2147483647 |
|`float32`  | 单精度浮点数 |
|`float64`  | 双精度浮点数 |

可能编码数字的最简单方法是无符号8位整数。 “无符号”表示不能有负号，而“8位”表示可以使用8个零和一来描述数字。例如，如果我们要编码数字3，它是00000011。即使并非所有位都严格需要，它们也已用于存储此值，而且使用8位，我们可以编码从0到255的数字（即00000000到11111111）。如果我们想要编码更大的数字，需要分配更长的位块，比如16位或32位。

要编码负整数，需要带符号整数。带符号整数和无符号整数之间的关键区别在于无符号整数总是正数，而带符号整数可以通过使用第一个位来描述正负值。正数的第一位是0，负数的第一位是1。因为第一位保留给符号，带符号整数只能描述与同位长的无符号整数相同数量级的一半值。例如，8位带符号整数可以描述从-128到127的值。所有以0开头的0/1组合定义了从0到127的正值，而所有以1开头的0/1组合定义了从-128到-1的值。也就是说，10000000等于-128，而11111111表示-1。

对于非整数值，我们需要浮点数。用于描述浮点数的位数决定了值的精度...或者说是浮点数扩展的小数位数。上面列出的各种类型既支持正数也支持负数，位数越多，它们提供的精度越高。

## 2.7 高级函数

```{index} single: functions; variable arguments
```

第1.9节描述了位置参数和关键字参数作为向函数提供信息和指令的两种方法，但到目前为止，这些方法只允许函数接受预定数量的参数。虽然通过设置默认关键字参数的能力提供了一定的灵活性，用户可以选择覆盖或保留默认值，但函数中参数的数量仍然受到限制。当我们需要编写一个接受未指定数量参数的函数时该怎么办？本节提供了解决此问题的两种方法。

### 2.7.1 可变位置参数

作为一个可能的用例，实验室中常见的做法是通过重结晶来纯化固体化合物，科学家通常会从同一溶液中收获多个结晶作物以获得尽可能高的收率。如果我们想要编写一个函数，该函数使用理论产率和每个重结晶作物的产率返回合成化合物的百分收率，我们面临着不知道有多少作物的挑战。一个解决方案是使用可变位置参数。

*可变位置参数*（通常为 **arg***）是一个接受可变数量输入的位置参数。然后，参数作为一个本地元组存储在函数中，并附加到 `arg` 变量上。尽管在示例中使用 `arg` 作为变量非常常见，但只要在函数定义中加上一个星号，就可以使用任何非保留变量。例如，下面的函数用于计算百分收率，其中 `g_theor` 是理论产率（以克为单位），`g_crops` 是作为可变位置参数存储每个结晶作物质量（以克为单位）。

In [None]:
def per_yield(g_theor, *g_crops):
    g_total = sum(g_crops)
    percent_yield = 100 * (g_total / g_theor)
    return percent_yield

In [None]:
per_yield(1.32, 0.50, 0.11, 0.27)

有趣的是，根据你编写函数内部的方式，可变位置参数对于函数的运作并不是严格必要的。在这种情况下，因为`sum()`函数在没有传递任何参数的情况下会返回`0`，所以`per_yield()`函数仍然可以正常工作，不会返回错误。

In [None]:
per_yield(1.32)

### 2.7.2 可变关键字参数

类似地，Python 函数还可以使用*可变关键字参数*接受未指定数量的关键字参数。在这种情况下，用户不仅决定参数的数量，还可以选择变量名。用户定义的变量和值以键值对的形式存储在本地字典中。例如，我们可以编写一个函数，根据化合物中所含元素的数量和类型计算摩尔质量。当然可以编写一个函数，将每个化学元素作为关键字参数，但从这么多化学元素中选择会变得荒谬。相反，我们可以像下面演示的那样使用可变关键字参数。可变关键字参数用 `**` 标记在变量名前。下面的函数仅设计为处理前九个元素以简洁为主。

In [None]:
def mol_mass(**elements):
    m = {'H':1.008, 'He':4.003, 'Li':6.94, 'Be':9.012,
         'B':10.81, 'C':12.011, 'N':14.007, 'O':15.999,
         'F':18.998}
    masses = []  # mass total from each element
    for key in elements.keys():
        masses.append(elements[key] * m[key])
    return sum(masses)

让我们通过计算咖啡因的摩尔质量来测试这个功能，咖啡因的分子式为 $C_8H_{10}N_4O_2$.

In [None]:
mol_mass(C=8, H=10, N=4, O=2)

用户体验将与我们编写的函数相同，如果我们编写的函数接受具有默认值为零的关键字参数，但是对于编写代码的人来说，设计函数接受可变关键字参数有时更方便。

### 2.7.3 递归函数

```{index} single: functions; recursive
```

函数可以调用其他函数。这可能并不奇怪，因为我们已经看到函数调用了 `math.sqrt()` 和 `append()`，但可能令人惊讶的是，Python 允许一个函数调用自己。这就是所谓的*递归函数*。

如果我们想编写一个计算残余放射性物质质量的函数，在给定的半衰期之后，这可以使用 `for` 或 `while` 循环来完成，但它也可以使用递归来完成。我们首先让函数将提供的质量（`mass`）除以二，然后将半衰期数（`hl`）减一。这是函数的核心组件。如果 `hl` 为零，函数完成并返回质量。如果不是，函数再次调用自己，传入剩余质量和半衰期数。这是递归部分。第二次运行函数时，质量再次减半，半衰期递减一，然后再次检查半衰期数。

In [None]:
def half_life(mass, hl=1):
    '''(float, hl=int) -> float 
    Takes in mass and number of half-lives and returns 
    remaining mass of material. Half-lives need to be 
    integer values.
    '''
    mass /= 2
    hl -= 1
      
    if hl == 0:
        return mass
    else:
        return half_life(mass, hl=hl)

In [None]:
half_life(4.00, hl=2)

In [None]:
half_life(4.00, hl=4)

在上面的第二个例子中，`half_life()`函数运行了四次，因为函数额外调用了自己三次。如果我们向函数输入1.5个半衰期会发生什么？就像有一个错误终止条件的`while`循环一样，这个函数将不断运行下去，因为`hl`永远不等于零。幸运的是，Python有一个保护措施，可以防止递归函数运行超过一千次迭代，但这仍然是一个问题。我们可以在函数开始时进行检查，确保使用`isinstance()`函数提供一个整数，该函数接受两个参数，变量和对象类型。

~~~python
isinstance(x, type)
~~~

````{margin}
```{tip}
如果您无法保证代码的输入将符合某些要求（例如，是一个整数），那么在代码开始时进行检查是明智的。特别是当您的代码的输入或数据来自于代码作者以外的人时，这一点尤为重要。
```
````

In [None]:
def half_life(mass, hl=1):
    '''(float, hl=int) -> float
    Takes in mass and number of half-lives and returns
    remaining mass of material. Half-lives need to be
    integer values.
    '''

    if not isinstance(hl, int):
        print('Invalid hl. Integer required.')
        return None
        
    mass /= 2
    hl -= 1
    
    if hl <= 0:
        return mass
    else:
        return half_life(mass, hl=hl)

In [None]:
half_life(4.00, hl=1.5)

尽管没有人喜欢看到错误信息，但这是一件好事。与其让代码失控地运行或返回错误的答案，还不如让代码产生错误而无法工作。

关于递归函数的最后一点，你可能已经注意到，你同样可以轻松地用`while`或`for`循环来完成上述任务。通常可以避免使用递归函数，但有时候递归函数会显著简化你的代码。这是一个很好的技巧，可以在你需要的时候随时使用，但你可能不会经常使用它们。

## 2.8 错误处理

```{index} error handling
```

很快你就会意识到，错误消息是计算机编程中不可避免的一部分，因此了解不同类型的错误消息是什么意思以及如何处理它们是很有帮助的。本节简要介绍了主要类型的错误消息以及如何在适当的时候让 Python 解决它们。

### 2.8.1 错误类型

每当你遇到一个错误信息时，它都会包含错误类型以及更多详细信息。有许多类型的错误，但有一些错误类型更为常见，值得熟悉。以下是一些常见错误类型的简短列表。

|错误类型| 描述 |
|:-----------:|:-----------|
|`NameError` | 使用的变量或名称未定义 |
| `SyntaxError` | 代码中的无效语法 |
|`TypeError` | 使用了错误的对象类型 |
|`ValueError` | 使用了一个函数或特定应用不接受的值 |
|`ZeroDivisionError` | 尝试除以零 |
|`IndentationError` | 存在无效的缩进 |
|`IndexError` | 使用了无效的索引或指数 |
|`KeyError` | 字典或 DataFrame 中存在无效的键 |
|`DeprecationWarning` | 代码使用了一个将在未来版本中更改的函数或特性 |

以下是每个示例和更多详细信息。

#### `NameError`

`NameError`意味着代码使用了一个未定义的变量或函数名。这通常是因为变量名输入错误，但也可能是由于在Jupyter笔记本中运行代码单元格时没有先运行必要的之前的代码单元格等其他原因。如果您刚刚打开一个Jupyter笔记本，通常值得从顶部菜单选择**运行**→**运行所有单元格**，以确保后者不会发生。

In [None]:
print(root)

#### `SyntaxError`

编程语言的语法是一组规则，规定了代码的格式、适当的符号、有效值和变量等。`SyntaxError` 表示你的代码违反了这些规则。为了帮助解决问题，错误信息会显示出语法无效的代码行，并指出问题似乎出现在该行的哪个位置。

在下面的第一个示例中，错误是因为 `<>` 不是 Python 中的有效操作符。


In [None]:
5 <> 6

以下示例生成了一个 `SyntaxError`，因为变量名不能以数字开头。

In [None]:
5sdq = 52

#### `TypeError`

`TypeError`（类型错误）是在使用错误的对象类型进行特定函数或应用时发生的。例如，Python无法获取字母的绝对值，所以这会产生一个`TypeError`。

In [None]:
abs('a')

遇到下面的`TypeError`是因为无法在列表上执行布尔运算

In [None]:
[1,2,3] > 5

#### `ValueError`

`ValueError` 与 `TypeError` 有些相似，只不过在这种情况下，它表示对于特定函数来说，数值是无效或不适当的。有些函数要求它们的参数在一定范围内，例如 `math.sqrt()` 不接受负数。因此，用这个函数求 -1 的平方根会产生一个 `ValueError`。

In [None]:
import math
math.sqrt(-1)

#### `ZeroDivisionError`

`ZeroDivisionError`错误正如其名字所示 - 代码试图除以零。

In [None]:
4 / 0

#### `IndentationError`

Python 不关心除行首空格之外的空格，因为这些空格或缩进是有意义的。在下面的示例中，`print(x)` 应该在 `for` 循环的开始下方进行缩进，否则会产生 `IndentationError`。

In [None]:
for x in range(5):
print(x)

#### `IndexError` and `KeyError`

当对一个复合对象（如列表）进行索引时，如果索引值超出范围，将会导致`IndexError`。在下面的列表中，索引值从`0`到`4`，所以使用索引`5`会返回一个`IndexError`。

In [None]:
lst = [1,5,7,4,3]
lst[5]

同样地，如果代码尝试使用不在字典中的键查找值，它会返回如下所示的`KeyError`。

In [None]:
elements = {'H':1, 'He':2, 'Li':3, 'Be':4, 'B':5, 'C':6}
elements['Li']

In [None]:
elements['N']

#### `DeprecationWarning`

`DeprecationWarning` 出现在代码使用了将在未来的 Python 或第三方库版本中被移除或更改的功能时。这个错误不会停止你的代码，只是一个友好的提示，表示你的代码在未来可能无法正常工作。

```{tip}
Python 错误信息会指明错误发生在哪一行，但有时你可能在那一行代码中找不到错误。在这些情况下，错误很可能出现在前一行。这是因为 Python 提供了将一行代码延续到后面几行的方法，例如在第一行使用左括号 `(`，但直到后面的行才使用右括号 `)` 关闭括号。以下示例中，Python 将执行这些代码，就像它们都在同一行上。

~~~python
V = (n * R * T_K
     / P_atm)
~~~

### 2.8.2 使用 `try` 和 `except` 处理错误

```{index} try
```
```{index} except
```

虽然乍一看这似乎是一个坏主意，但有时候你可能希望 Python 在遇到错误时不会完全停止。一个常见的情况是从不同来源导入大量数据文件。并非所有数据源都可能以相同的方式格式化数据或文件，有些文件可能格式不正确，或者可能存在其他意外的边缘情况。为了让 Python 在遇到错误消息时不停止，你可以使用一个 `try`/`except` 代码块。

`try`/`except` 代码块的一般结构是在 `try` 语句下包含你原本打算运行的代码，然后在后面的 `except` 语句下，包含 Python 在遇到特定错误时应该执行的操作。一般结构如下所示。

~~~python
try:
    regular code
    regular code
except ErrorType:
    contingency code
~~~~

举个例子，假设我们正在遍历一个数字列表，并将平方根追加到第二个列表。因为原始数字列表中的一个项目是 `four`，这会导致 `TypeError`。

In [None]:
import math

In [None]:
sqr_nums = [4, 25, 9, 81, 144, 'four', 49]
sqr_root = []

for num in sqr_nums:
    sqr_root.append(math.sqrt(num))

相反，`for`循环被放置在一个`try:`下，告诉Python尝试执行这段代码。`except TypError:`下的代码告诉Python在发生`TypeError`时运行以下代码。

In [None]:
sqr_nums = [4, 25, 9, 81, 144, 'four', 49]
sqr_root = []

for num in sqr_nums:
    try:
        sqr_root.append(math.sqrt(num))
    except TypeError:
        print(f'{num} is not a float or int')

在上面的例子中，除了告知用户存在问题外，没有对字符串做任何处理。不让未解决的错误悄无声息地通过是一种谨慎的做法。如果你对可能出现错误的地方有所了解，并且有解决方案，你也可以在`except:`下面包含这些代码。

由于我们知道上述错误是由字符串引起的，我们可以使用下面的字典将其转换为浮点数。

In [None]:
sqr_nums = [4, 25, 9, 81, 144, 'four', 49]
sqr_root = []

txt_to_int = {'one':1, 'two':2, 'three':3, 'four':4, 'five':5, 'six':6}

for num in sqr_nums:
    try:
        sqr_root.append(math.sqrt(num))
    except TypeError:
        integer = txt_to_int[num]
        sqr_root.append(math.sqrt(integer))

In [None]:
sqr_root

值得注意的是，可以使用下面的`if`/`else`代码块来避免使用`try`/`except`代码块。

In [None]:
sqr_nums = [4, 25, 9, 81, 144, 'four', 49]
sqr_root = []

for num in sqr_nums:
    if type(num) in [float, int]:
        sqr_root.append(math.sqrt(num))
    else:
        print(f'{num} is not a float or int')

那么你应该何时使用`try`/`except`而不是`if`/`else`呢？如果你预料到异常经常发生，那么`if`/`else`可能更高效，但是如果异常很少发生，使用`try`/`except`可能更为高效。

## 参考
[https://github.com/weisscharlesj/SciCompforChemists](https://github.com/weisscharlesj/SciCompforChemists)

## 练习

1. 使用`append`生成一个列表，包含自然对数从2到23（包括23）的整数，然后再使用[*列表推导*](2.1.2)生成。

2. 编写一个使用[*增强赋值*](2.1.1)的函数，该函数接收原子的起始*xyz*坐标，以及原子在每个轴上应该平移的距离，并返回最终坐标。该函数的文档字符串如下所示。

    ~~~python
    def trans(coord, x=0, y=0, z=0):
        '''((x,y,z), x=0, y=0, z=0) -> (x,y,z)
        '''
    ~~~
    
    
3. 使用[*lambda函数*](2.1.4)生成一个返回数字平方的函数。将其赋值给一个变量以便重复使用，并进行测试。

4. 生成一个[*字典*](2.2)，名为`aacid`，将单字母氨基酸缩写转换为三字母缩写。你需要从教科书或在线资源中查找缩写。

5. 对于以下两个[集合](2.3)：
        acids1 = {'HCl', 'HNO3', 'HI', 'H2SO4'}
        acids2 = {'HI', 'HBr', 'HClO4', 'HNO3'}
        
    a) 生成一个包含acids1和acids2中所有项的新集合。

    b) 生成一个包含acids1和acids2之间重叠部分的新集合。

    c) 将一个新项HBrO3添加到acids1。

    d) 生成一个包含来自任一集合但不在两个集合中的项的新集合。
    
6. 使用`for`循环和`listdir()`方法打印计算机上某个文件夹中每个文件的名称。将Python打印出的内容与使用文件浏览器查看文件夹时看到的内容进行比较。Python是否打印出了你在文件浏览器中看不到的文件？

7. 使用[`random`](2.4.3)模块进行以下操作。

    a) 生成10个从0到9的随机整数，并计算这些值的平均值。这个数据集的理论平均值是多少？

    b) 生成10,000个从0到9的随机整数，并计算这些值的平均值。这个平均值比第a部分的平均值更接近还是更远？合理化你的答案。提示：查找“大数定律”以获得帮助。
    
8. 下面的代码在3D空间中随机生成五个原子。编写一个Python脚本，计算每对原子之间的距离，并返回最短距离。在这里itertools模块可能会有所帮助。参见[第1.9.1节](1.9.1)以获取计算距离的帮助。

    ~~~python
    from random import randint
    atoms = []
    for a in range(5):
        x, y, z = randint(0,20), randint(0,20), randint(0,20)
        atoms.append((x,y,z))
    ~~~
    
    
9. 使用[zip](2.5.1)合并列表

    a) 生成一个包含周期表前十个原子符号的列表。

    b) 将第a部分的列表转换为（原子序数，符号）对。
    
10. 将包含周期表前六个元素的符号和名称的两个列表[压缩](2.5.1)在一起，并使用`dict()`函数将它们转换为[字典](2.2)。通过将Li转换为其名称来测试字典。

11. 编写一个Python脚本，遍历从0到20的随机整数集合，并返回大于10的所有值的索引值列表。首先生成一个随机整数列表，然后使用`zip()`或`enumerate()`将它们与其索引值组合在一起。

12. 编写一个函数，计算原点与任意维空间（1D、2D、3D等...）中某个点之间的距离，允许函数接受任意数量的坐标值（例如x、xy、xyz等...）。你的函数应该通过以下测试。

    `[in]: dist(3)`
    
    `[out]: 3`

    `[in]: dist(1,1)`
    
    `[out]: 1.4142135623730951`

    `[in]: dist(3, 2, 1)`
    
    `[out]: 3.7416573867739413`
    
13. 下面是一个函数，计算经过x个阿尔法衰变后剩余的质子(p)和中子(n)的理论数量。将此函数转换为[递归函数](2.7.3)。提示：去掉`for`循环并用`if`语句替换它。

    ~~~python
    def alpha_decay(x, p, n):
        '''(alpha decays(x), protons(int), neutrons(int)) -> prints p and n remaining         
        Takes in the number of alpha decays(x), protons(p), and number of neutrons(n) 
        and all as integers and prints the final number of protons and neutrons.
    
        # tests
        >> alpha_decay(2, 10, 10)
        6  protons and 6  neutrons remaining.
        >> alpha_decay(1, 6, 6)
        4  protons and 4  neutrons remaining.
        '''
        for decay in range(x):
            p -= 2
            n -= 2

        print(f'{str(p)} protons and {str(n)} neutrons remaining.')
    ~~~