## 18 测试

测试：建立软件正确执行的信任机制。

对代码进行可靠性测试。
对代码要做有罪推断。

测试是将代码的预期结果与实际运行该代码的观察结果进行比较的过程，测试通常与需要测试的代码一起诞生。

测试套件：针对给定代码的所有测试的集合。
测试套件是一组任何人都可以运行的预先设置好的实验。
如果所有测试都能通过，那么代码至少在某种程度上是可信赖的。
如果有一个测试失败，那么就表明代码有一部分是不正确的。

没有必要花太多时间去编写测试的测试。
即使一个测试只是测试主代码而没有测试自身，也是非常有帮助的。代码只要通过这个测试，就能获得几乎所有的科学价值。因为只有这一层是与物理有关。
足够严格的测试套件能发现所有物理和计算错误，不用在哲学和数学的角度担心测试本身是否经过充分测试。

测试没有通过时，任何人都不应信任代码。

此处使用nose测试框架。

## 18.1 为什么要做测试

测试是科学软件的核心原则，能在核心层面影响知识的产生。

科学方面，代码控制飞机、武器系统、卫星、农业，以及最重要的物理模拟和实验。如果管理计算或物理实验的软件是错误的，那么基于其结果做出的任何决定都是完全不可信的。

## 18.2 什么情况下要写测试

任何情况下都要写测试。

测试应该包含科学软件开发过程中，测试应与要测试的代码一起创建。
在新项目的开始时，可以使用测试来帮助和指导项目的整体架构，这类似于实验科学领域中的实验设计。

编写测试的行为可以帮助理清软件的执行方式。
甚至可以在编写要测试的软件之前开始编写测试。

《Working Effectively with Legacy Code》（Prentice Hall）:
1.遗留代码定义为“所有没有测试的代码”。
2.测试能够向其他开发者介绍代码中的每个函数的使用方式。

## 18.3 在哪里编写测试

编写代码时可以添加异常和断言，用来报告运行时问题。
这些类型的测试需要嵌入在软件本身中。最好尽可能将代码与测试分开。
外部测试更适合用于检查代码的实现是否符合其预期行为。

外部测试是所谓的测试套件.
运行时异常和断言不算是测试套件的组成部分。

**测试套件的可能位置：**
1.创建名为test/的顶层目录，其中含有测试套件，其中通常是源目录的镜像目录结构。
2.将测试放置在所需测试的源代码旁边。

测试代码的一致性：
一致性是安排测试目录的位置时最重要的方面。所以选定一种方法，然后根据这种方式在项目中写入所有测试。
在一个已有的项目上工作，那么就要符合项目之前所使用的模式。

## 18.4 如何测试？测试哪些内容

使用“测试重点内容”的方式组织测试内容。
软件测试应该涵盖普通行为和极端行为，但不用覆盖其中的每个值。

测试会比较根据已知输入求得的值与观察值，不直接检查函数的主体。
在编写测试时甚至还不需要编写函数的主体。

#### 测试方法

对于一个通过开普勒定律计算木星未来位置的函数：

```python
def kepler_loc(p1, p2, dt, t):
    ...
    return p3
```

在实际路径上选择三个点，测试是否符合预期。

测试的编写内容（基本测试模式）：
1.将测试命名为所测试的代码加上test前缀。。
测试函数的名称与需要被测试的函数名称相似，只是会加上test前缀或后缀。
2.载入或设置预期结果。
3.运行代码计算观察结果。
4.比较预期和观察结果，验证相等。
在期望值不等于观察值的情况引发一个异常，来表示此时测试失败。
伪代码：

def test_func():
    exp = get_expected()
    obs = func(*args, **kwargs)
    assert exp == obs

```python
# 测试函数示例
def test_kepler_loc():  # test_kepler_loc()函数用来测试kepler_loc()。
    # 获取数据作为kepler_loc()的输入参数
    p1 = jupiter(two_days_ago)
    p2 = jupiter(yesterday)
    # 从实验数据获得期望结果
    exp = jupiter(today)
    # 调用kepler_loc()获得计算结果
    obs = kepler_loc(p1, p2, 1, 1)
    # 测试预期结果与观察结果比较，如果不相等，则抛出异常来通知测试失败。
    if exp != obs:
        raise ValueError("Jupiter is not where it should be!")
```

注意：
1.测试通常应该检查值相等（==）而不是同一性（is）。
2.比较的是期望值和观察值在实际上是否相等，而不在乎是否是存储器中的相同对象。
3.浮点数据的近似相等比精确相等通常更重要。

#### 断言（assert）

assert适合在测试代码中进行报错。
判定为真，那么继续执行。
断言为假，则引发AssertionError。

将代码重写为：

```python
def test_keppler_loc():
    p1 = jupiter(two_days_ago)
    p2 = jupiter(yesterday)
    exp = jupiter(today)
    obs = keppler_loc(p1, p2, 1, 1)
    assert exp == obs
```

缺点：缺乏灵活性，虽然遇到问题时能够通知测试失败。但没有看到预期值和观察值来帮助定位故障。
nose框架：自定义断言。

#### nose框架

nose拥有各种有用的、专用的断言函数，在断言失败时会显示额外的调试信息，可以通过nose.tools模块访问这些函数。

assert_equal()：需要两个参数，即期望值和观察值，并检查两个值的等价性（==）。

```python
from nose.tools import assert_equal  # 导入nose.tools的assert_equal()


def test_kepler_loc():
    p1 = jupiter(two_days_ago)
    p2 = jupiter(yesterday)
    exp = jupiter(today)
    obs = keppler_loc(p1, p2, 1, 1)
    assert_equal(exp, obs)  # nose断言语句
```

## 18.5 运行测试

测试框架的好处主要是能够自动查找和运行测试。

#### nosetests命令行工具

运行nosetests时，该程序将搜索以test开头或结尾的所有目录，在这些目录中找到所有以test开头或结尾的Python模块，导入并运行所有以test开头或结尾的函数和类。
nose会查找与正则表达式<code>(?:^|[\\b_\ \.-])[Tt]est</code>匹配的所有名称。

nosetests的回复（打印内容）：
.：测试通过。
F：测试失败。
E：意外错误。
S：测试跳过。
K：已知失败。

## 18.6 边界情形

线性情况：倾向于具有清楚的起始、中间、结束状态。程序输出值应位于这个有效范围中。
边界情形：测试检查范围的起始或结束位置。
错误一般都会出现在边界情形。

#### 极端条件

极端条件：两个或多个边界条件组合在一起。
如果一个函数是由两个独立的变量参数化，极端条件测试用来验证当两个变量都是边界条件时的情况。


In [None]:
# 边界情形示例：斐波那契函数
from nose.tools import assert_equal


# 斐波那契数列
def fib(n):
    if n == 0 or n == 1:
        return 1
    else:
        return fib(n - 1) + fib(n - 2)

# 测试边界条件0
def test_fib0():
    obs = fib(0)
    assert_equal(1, obs)

# 测试边界条件1
def test_fib1():
    obs = fib(1)
    assert_equal(1, obs)

# 测试内部点
def test_fib6():
    obs = fib(6)
    assert_equal(13, obs)

In [None]:
# 极端条件示例：二维sinc函数
"""二维sinc函数。
x和y都为零时，是极端条件。
x或y只有一个为零，是边缘条件。"""
import numpy as np
from nose.tools import assert_equal


# 二维sinc函数
def sinc2d(x, y):
    if x == 0.0 and y == 0.0:
        return 1.0
    elif x == 0.0:
        return np.sin(y) / y
    elif y == 0.0:
        return np.sin(x) / x
    else:
        return (np.sin(x) / x) * (np.sin(y) / y)

# 最小测试套件：
# 测试内部点
def test_internal():
    exp = (2.0 / np.pi) * (-2.0 / (3.0 * np.pi))
    obs = sinc2d(np.pi / 2.0, 3.0 * np.pi / 2.0)
    assert_equal(exp, obs)

# 测试x边界点和y内部点
def test_edge_x():
    exp = (-2.0 / (3.0 * np.pi))
    obs = sinc2d(0.0, 3.0 * np.pi / 2.0)
    assert_equal(exp, obs)

# 测试y边界点和x内部点
def test_edge_y():
    exp = (2.0 / np.pi)
    obs = sinc2d(np.pi / 2.0, 0.0)
    assert_equal(exp, obs)

# 测试极端条件
def test_corner():
    exp = 1.0
    obs = sinc2d(0.0, 0.0)
    assert_equal(exp, obs)


## 18.7 单元测试

为了应对内部、边缘、极端情况，需要为测试本身建立一个分类系统。

#### 单元测试

单元测试：测试查询各个函数和方法来检查代码的功能，函数和方法与外部是不可分割的。通常认为是软件的原子单元。
1.这种最小代码单元的判断是主观的。
2.较短的函数比较长的函数更适合称为单元。
3.如果代码不能在逻辑上（比如不能拆分加法运算符）或实际上（函数是自包含且定义明确）进一步简化，那么就是一个单位。

单元测试的目的：鼓励代码和测试尽可能小、定义明确且模块化。
在Python中，单元测试通常使用测试框架自动调用测试函数。

单元测试的其他测试配件（fixture）：可以添加到测试中的任何东西、创建或删除测试成功运行所需的环境。（可选）

#### 测试的准备和善后

测试之前执行准备环境的附属工具称为setup函数。
运行测试之后执行擦除副作用的工具称为teardown函数。

nose有一个装饰器可以用来自动运行这些附属工具
为了确保两个附属工具都能执行，必须使用nose的with_setup()装饰器。这个装饰器可以应用于任何测试，并将setup 和teardown函数作为参数。


In [12]:
# 装饰器使用
import os
from nose.tools import assert_equal, with_setup

# f函数
def f():
    if os.path.exists('./no.txt'):
        return True
    else:
        fl = open('./yes.txt', 'w')
        fl.write('42')
        fl.close()


# f_setup()函数用来保证yes.txt和no.txt文件都不存在
def f_setup():
    files = os.listdir('.')
    if 'no.txt' in files:
        os.remove('no.txt')
    if 'yes.txt' in files:
        os.remove('yes.txt')

# f_teardown()函数用来移除测试和可能创建的yes.txt文件
def f_teardown():
    files = os.listdir('.')
    if 'yes.txt' in files:
        os.remove('yes.txt')

@with_setup(setup=f_setup, teardown=f_teardown)
def test_f():
    f_setup()  # 保证当前文件系统是干净的
    exp = 42
    f()
    with open('yes.txt', 'r') as fhandle:
        obs = int(fhandle.read())
    assert_equal(exp, obs)
    f_teardown()  # 对测试进行清理工作

f()
test_f()

## 18.8 集成测试

集成测试：一类验证代码的多个活动部分能否在一起工作的测试方式。
能确保代码能够正确运行，从不同的尺度验证系统。
在概念上的层次通常比单元测试更高。
需要将代码组织在一起，测试套件中通常比单元测试要少。
集成测试对于充分测试至关重要。其中能涵盖所有不能用普通单元测试处理的情况。

在概率性或随机性代码中，无法事先确定集成测试的精确行为。
集成测试可以验证平均或聚合行为，而不是精确值。

集成测试的判断：
1.若一个测试不是单元测试，那么就是集成测试。
2.一个函数或类只合并两个或多个单元测试的代码，那么就需要一个集成测试。
3.一个函数实现了未被测试的新行为，则需要一个单元测试。


In [None]:
from nose.tools import assert_equal


def a(x):
    return x + 1

def b(x):
    return 2 * x
# a()和b()函数都可以进行单元测试，因为各自都只做一件事
# c()不能进行真正地单元测试，因为所有的真正的工作都分配到a()和b()上

def c(x):
    return b(a(x))

# 测试c()
def test_c():
    exp = 6
    obs = c(2)
    assert_equal(exp, obs)

## 18.9 回归测试

回归测试（regression test）：不假定测试作者知道预期的结果，而是假设过去计算结果是“正确的”，预期结果是老版本代码对相同输入的计算结果。
回归测试适合让开发人员了解代码库何时以及发生了哪些改动，但不适合告知改动的原因。
代码当前的计算结果和之前的计算结果之间的变化称为回归。
往往也是高层次测试，通常处理整个代码库。
对物理模拟特别常见和有用。

常见的回归测试策略会跨越多个代码版本。
对下一个版本运行老版本的测试，如果输出文件有明显差别，则测试失败。
**失败原因：**
1.必须要添加一些向后不兼容的修改。
2.物理计算出错。

可以捕获集成和单元测试漏掉的问题。
能够作为项目中自动的短期记忆。

测试框架提供了工具用来帮助构建回归测试。

是否需要回归测试取决于项目的种类。
如果项目是一个模拟器，那么就需要回归测试。
大多数其他情况下，单元和集成测试就够了。

## 18.10 测试生成器

测试生成器能够自动创建测试。
假设有一个需要测试的函数，还有一个含有函数的输入参数和预期结果列表（测试矩阵），测试生成器将获取列表并生成所需的测试。

在nose中，使用yield语句将测试函数转成生成器，以此来生成测试生成器。
yield给出矩阵中每个元素的断言，以及期望值和函数输入。
测试生成器中相应的检查函数来执行实际工作。

这种测试机制非常强大，因为向其中添加或删除测试与修改案例列表一样简单。


In [None]:
# 测试生成器
from nose.tools import assert_equal


def add2(x, y):  # 需要测试的函数add2()
    return x + y

def check_add2(exp, x, y):  # 检查函数、检测输出值的等价性
    obs = add2(x, y)
    assert_equal(exp, obs)

def test_add2():  # 测试函数现在变成了测试生成器
    cases = [  # 测试矩阵。元组的第一个元素是预期值，之后的元素是add2()的参数
        (4, 2, 2),
        (5, -5, 10),
        (42, 40, 2),
        (16, 3, 13),
        (-128, 0, -128),
        ]
    for exp, x, y in cases:  # 遍历测试矩阵的用例，yield出检查函数、期望值、add2()的参数
        yield check_add2, exp, x, y

## 18.11 测试覆盖

测试覆盖率（test coverage）：代码中与测试关联的百分比。
计算：运行测试套件并计算已执行的代码行数，将其除以软件项目中的总行数。

#### coverage

安装：<code>pip install coverage</code>或<code>conda install coverage</code>
在命令行中使用--with-coverage标志来运行nose以生成覆盖统计信息：
<code> nosetests --with-coverage</code>

测试覆盖率通常越高越好，但不代表一定会按预期工作，即使代码的测试覆盖率是100％。

代码覆盖率是一个重要的且经常使用的衡量标准。但这并不是测试的顶峰，只是其中一款测试工具。所以按需使用，同时了解其局限性。

注意区分代码路径覆盖率和代码覆盖率。
在完整的软件项目中，100％的代码覆盖率远远达不到50％的代码路径覆盖率。


In [None]:
# 下面两个单元测试让g()函数具有100％的覆盖率
from nose.tools import assert_equal

def g(x, y):
    if x:
        ...
    else:
        ...
    if y:
        ...
    else:
        ...
    return ...

def test_g_both_true():
    exp = ...
    obs = g(True, True)
    assert_equal(exp, obs)

def test_g_both_false():
    exp = ...
    obs = g(False, False)
    assert_equal(exp, obs)

"""
这两个函数执行了g()函数的每一行代码。但只覆盖了一半的可能情况。
当x = True且y = False或当x = False且y = True时没有测试。
这种情况下，100％的覆盖率仅涵盖了50%的代码路径。
"""

## 18.12 测试驱动开发

测试驱动开发（TDD）：一个软件开发过程，在这种过程中要首先编写测试。即在编写函数之前，首先要编写该函数的测试。
TDD的工作流程将编写代码测试的步骤放在编写代码之前。

TDD的中心要求：走完这个过程就有了一个经过良好测试的实现，从而大幅提高效率。
只要测试通过就不要添加其他功能。所以无需花时间实现目前还用不到的选项和功能，只实现目前要用到的功能。

测试驱动开发中最重要的是在开始编写代码时就应该考虑如何测试代码。
测试应与实现一起编写，不能在事后再实现。

#### 编写过程：用TDD驱动开发标准差函数std()

第一代：最简std()+测试套件

```python
from nose.tools import assert_equal


# 最简版本std()函数
def std(vals):
    # surely this is cheating...
    return 1.0

# 用于从数字列表计算标准差的测试
def test_std1():
    obs = std([0.0, 2.0])
    exp = 1.0
    assert_equal(obs, exp)

# 传入空列表时的基准测试
def test_std2():
    obs = std([])
    exp = 0.0
    assert_equal(obs, exp)

# 结果不为1的情形
def test_std3():
    obs = std([0.0, 4.0])
    exp = 2.0
    assert_equal(obs, exp)
```

第二代：针对测试写std()函数

```python
def std(vals):
    # a little better
    if len(vals) == 0:  # 针对空列表的特殊处理
        return 0.0
    return vals[-1] / 2.0  # 未进行真正的处理
```

第三代：扩展测试套件。

```python
# 用于从数字列表计算标准差的测试
def test_std1():
    obs = std([0.0, 2.0])
    exp = 1.0
    assert_equal(obs, exp)

# 传入空列表时的基准测试
def test_std2():
    obs = std([])
    exp = 0.0
    assert_equal(obs, exp)

# 结果不为1的情形
def test_std3():
    obs = std([0.0, 4.0])
    exp = 2.0
    assert_equal(obs, exp)

# 以下为新添加
# 第一个值不是0
def test_std4():
    obs = std([1.0, 3.0])
    exp = 1.0
    assert_equal(obs, exp)

# 有2个以上的值，但值都相同
def test_std5():
    obs = std([1.0, 1.0, 1.0])
    exp = 0.0
    assert_equal(obs, exp)
```

第四代：std函数

```python
def std(vals):
    # finally, some math
    n = len(vals)
    if n == 0:
        return 0.0
    mu = sum(vals) / n
    var = 0.0
    for val in vals:
        var = var + (val - mu)**2
    return (var / n)**0.5
```

总代码

```python
from nose.tools import assert_equal


# std()函数
def std(vals):
    # finally, some math
    n = len(vals)
    if n == 0:
        return 0.0
    mu = sum(vals) / n
    var = 0.0
    for val in vals:
        var = var + (val - mu)**2
    return (var / n)**0.5

# 用于从数字列表计算标准差的测试
def test_std1():
    obs = std([0.0, 2.0])
    exp = 1.0
    assert_equal(obs, exp)

# 传入空列表时的基准测试
def test_std2():
    obs = std([])
    exp = 0.0
    assert_equal(obs, exp)

# 结果不为1的情形
def test_std3():
    obs = std([0.0, 4.0])
    exp = 2.0
    assert_equal(obs, exp)

# 以下为新添加
# 第一个值不是0
def test_std4():
    obs = std([1.0, 3.0])
    exp = 1.0
    assert_equal(obs, exp)

# 有2个以上的值，但值都相同
def test_std5():
    obs = std([1.0, 1.0, 1.0])
    exp = 0.0
    assert_equal(obs, exp)
```
