# [函数与模块](https://introcs.cs.princeton.edu/python/20functions/)

In [1]:
def isPrime(n):
    if n < 2:
        return False
    i = 2
    while i * i <= n:
        if n % i == 0:
            return False
        i += 1
        return True
    else:
        return n

In [2]:
isPrime(0.1)

False

In [3]:
isPrime(2)

2

In [4]:
isPrime(4)

False

In [5]:
isPrime(7)

True

设计软件的一个指导原则为：定义变量的作用范围越小越好。使用函数的一个重要原因在于，修改函数的内容不会影响程序其他不相关的部分。所以，尽管在函数中的代码可以引用全局变量，但强烈建议不要在函数中引用全局变量：调用者应该使用函数形式参数变量实现与其函数的所有通信；而函数则应该使用函数的 `return` 语句实现与其调用者的所有通信。

In [7]:
def harmonic(n, r = 1):
    total = 0.0
    for i in range(1, 1 + n):
        total += 1./(i ** r)
    return total

In [8]:
harmonic(100000, 3)

1.2020569031097323

In [9]:
!python gaussian.py 820 1019 209

0.17050966869132106


##### 在计算任务中，任何时候只要可以清晰地分离任务，则建议使用函数分离任务。

In [10]:
a = 9

In [11]:
id(a)

1387487648

In [12]:
type(a)

int

In [13]:
repr(a)

'9'

## 传递参数和返回值

理解参数传递和返回值的原理机制是学习任何一门新的程序设计语言的关键。在 python 中，**不可变性**（immutability）和**别名**（aliasing）的概念扮演着重要的角色。

### 通过对象引用实现调用

在函数体的任何位置都可以使用形式参数变量，这和使用局部变量一样。形式参数变量和局部变量的唯一区别在于，python 使用调用代码传递对应的实际参数来初始化形式参数变量。我们称这种方法为“通过对象引用实现调用（call by object reference）”（更常见的说法称之为“值调用”，这里的值通常为对象引用，而不是对象的值）。

如果一个参数变量指向一个可变对象（对象的值可以改变），在函数中又想改变该对象的值，则在调用代码中，该对象的值也被改变（因为二者指向同一对象）。

一个数据类型是不可变的（immutable），是指该数据类型对象的值不可以被更改。对于不可变数据类型，有些操作表面上看起来修改了对象的值，但实际上是创建了一个新的对象。

In [14]:
a = 99

In [15]:
before = id(a)

In [16]:
a += 1

In [17]:
id(a) == before

False

#### 别名

如果两个变量指向同一对象，则两个变量互为别名。

In [18]:
a1 = a

In [19]:
id(a1) == id(a) 

True

在 python 语言中，关于函数参数传递必须铭记的关键点是，**无论用户在什么时候传递实际参数给一个函数，实际参数和函数的形式参数互为别名**。

In [20]:
def inc(x):
    x += 1

In [21]:
x = 2
inc(x)

In [22]:
x

2

上述例子表明：

**在 python 语言中，一个函数无法改变一个不可变对象是值（即函数无法产生副作用）。若要改变需要借用 `return` 和赋值语句。**

In [23]:
def inc(x):
    x += 1
    return x

In [24]:
x = 2
x = inc(x)

In [25]:
x

3

In [26]:
!python playthattunedeluxe.py < introcs-data/freebird.txt

python 程序一般可以分为以下两类：
- 模块（module）：模块包含可被其他程序调用的函数。
- 客户端（client）：客户端是调用其他模块中的函数的程序。

一个程序可以同时是模块和客户端。

创建和使用一个模块一般需要五个步骤：
- 在客户端中导入模块；`import module` / `from a import b`
- 在客户端限定函数调用；
- 编写模块的测试客户端；
- 删除模块的全局代码；
- 使得模块可被客户端使用。

##### 示例

`gaussian.py` 模块是程序 `gauss.py` 的模块化版本，用于计算高斯分布函数；
客户端：`gaussiantable.py` 则使用模块计算和输出值的列表。

- 客户端：`gaussiantable.py` 包含语句 `import gaussian`，所以该客户端可以调用定义在 `gauss.py` 中的任何函数。
- 在客户端限定函数调用：`gaussian.cdf` 等等。
- 编写模块的测试客户端：
    **优秀的程序员已经坚持了几十年的最佳编程实践，那就是编写代码以测试模块中各函数的功能并且将测试代码包括在模块内。python 语言长久以来的传统是把测试代码放置在名为 `main()` 的函数中**。`gaussian.py` 模块包含一个 `main()` 函数，该函数接收三个命令行参数，然后调用模块中的函数，最后在标准输出中写入结果。

```py
def main():
    z = float(sys.argv[1])
    mu = float(sys.argv[2])
    sigma = float(sys.argv[3])

    stdio.writeln(cdf(z, mu, sigma))

if __name__ == '__main__':
    main()
```

In [2]:
!python gaussiantable.py 1019 209

 400  0.0015
 500  0.0065
 600  0.0225
 700  0.0635
 800  0.1474
 900  0.2845
1000  0.4638
1100  0.6508
1200  0.8068
1300  0.9106
1400  0.9658
1500  0.9893
1600  0.9973


- 删除模块的全局代码：
    python 的 `import` 语句会执行导入模块中的所有全局代码（包括函数定义和任意全局代码）。因为 python 每次导入模块时都会执行这些全局代码，所以在模块中不能遗留全局代码（这些测试代码常常向标准输出中写入内容）。替代的方法是，将测试代码放置在 `main()` 函数中，并指定当且仅当从命令行执行程序时 python 才会调用测试函数 `main()`，使用的方法如下：
    ```py
    if __main__ == '__main__': main()
    ```
    
    通常上述代码指示 python 当 `.py` 文件从命令行直接执行时（而不是通过 `import` 语句）调用 `main()`。其效果是当通过命令行命令 `!python module.py` 调试程序时，才会执行 `main()` 函数。而在客户端使用模块时，`import` 导入模块过程则不会执行  `main()` 函数。
    
- 使得模块可被客户端调用：
    把客户端程序文件和模块文件放置在相同目录下。

## 模块化程序设计

通过定义多个文件，每个文件为一个包含多个函数的独立模块的方法称为：模块化程序设计（modular programming）

假设自己编写的每个程序都会在将来某个时候被使用，你很快就会发现自己拥有各种有用的工具。模块化程序设计的视角就是，**将每个计算问题的解决方案作为我们计算环境的附加值**。

模块化的好处：
    模块化程序鼓励我们把计算任务分解为较小的部分，以便独立排错和测试。一般而言，编写然后程序时，都应该采用合适的方法把计算任务分解为可管理的部分，然后分别实现各部分，以便其他程序使用。这样做可以大大节省重新编写和调试代码的精力。

### 模块化程序设计的抽象概念

#### 实现（Implementation）

我们采用通用术语“实现”来描述实现重用的若干函数的代码。一个 Python 模块就是一种实现：若干函数的集合使用名称 module 表示，并保存在一个 `module.py`  文件中。

模块设计的指导原则是：**为客户端提供需要的函数，不要包含其他多余内容**。实现包含大量函数的模块会成为一个负担，而缺少重要函数的模块对客户端而言没有必要。比如，Python 的 math 模块就不包含正割函数、余割函数和余切函数，因为这些函数可以通过其他函数计算得到。

#### 客户端（Client）：表示使用一个实现的程序。

一个调用定义在文件名为 `module.py` 中函数的 python 程序（脚本或模块）就是模块 module 的一个客户端。

实现一个新的模块时，必须明确清楚模块将为客户端做什么。例如，所有用户编写的调用 `math.sqrt()` 的程序都是 Python 的 math 模块的客户端。

#### 应用程序编程接口（API）

程序员通常认为在客户端和实现之间的*契约*（contract）是一个明确的规范，规定“实现”的具体功能是什么。这种方法可保证代码的重用性。用户可编写 python 模块以及其客户端程序，因为存在一个非正式的契约（描述函数作用的非正式自然语言），以及可用函数签名的精确规范。将两者结合起来，就统称为“应用程序编程接口（API）”

#### 私有函数（Private function）
用于辅助模块的定义，但不能被客户端直接调用，称为**私有函数**（使用下划线开头的函数）。

API 一般不包括私有函数，因为私有函数不属于客户端和模块实现之间的契约。

In [3]:
def _phi(x):
    return math.exp(- x * x / 2.0) / math.sqrt(2 * math.pi)

def pdf(x, mu= 0.0, sigma= 1.0):
    return _phi(float((x - mu) / sigma))/ sigma

#### 库（Library）

库是若干相关模块的集合。

#### 文档（Documentation）
通过 python 交互式的内置函数 `help()`，可查看标准库、扩展库和模块的 API。

每个 Python 模块和每个用户自己编写的模块都是 API 的一种实现，未被实现的 API 没有任何使用价值，如果没有客户端，实现的模块也没有意义。开发一种实现的目标是遵循某种契约。

通过 API 将客户端代码和实现代码分离的思想，给我们替换新的实现或改进实现的自由。

### 随机数

`stdrandom` 模块包含基于不同概率分布产生随机数的函数，以及一个生成数组混排的函数。

#### API 设计
我们对于传递给 stdrandom 模块中函数的参数对象做出一定的假设，以此达到我们的设计目标：**清晰地表述客户端对 API 的需求，并将其与代码分离。**这种实践方法可避免修改代码，也可修改实现以获取更有效、更准确的结果。

#### 单元测试（Unit testing）
程序设计的最佳实践是至少包含一个基本**测试客户端**函数 `main()`，并且至少完成如下功能：
- 运行所有的代码；
- 保证代码运行正常；
- 从命令行接收参数，以运行测试的灵活性。

我们使用 `main()` 函数进行调试、测试、改进模块中的函数的实践方法称为“单元测试”。

通常而言，如果库使用得越广泛，单元测试做得越详尽，就越能完善 `main()` 函数的功能。

In [11]:
!python booksite/stdrandom.py 10

 27 60.65914 False    41 9.01682  0 
 55 46.88378  True    48 8.90171  0 
 58 92.96468  True    52 9.12770  0 
 79 64.41387 False    47 9.49241  0 
 29 32.30299  True    45 8.77630  1 
 56 56.83097 False    54 9.40042  1 
 88 49.36358 False    58 9.17674  0 
 24 86.17152  True    41 8.87098  1 
 58 55.77126  True    46 9.07062  1 
 96 67.34019 False    48 8.83406  1 


编写测试客户端的一个有效方法是使用 数据可视化的客户端。

In [1]:
import sys 
from booksite import stddraw, stdrandom

trials = 1000000
stddraw.setPenRadius(0.)
for i in range(trials):
    x = stdrandom.gaussian(0.5, 0.2)
    y = stdrandom.gaussian(0.5, 0.2)
    stddraw.point(x, y)
stddraw.show()

SystemExit: 

  warn("To exit: use 'exit', 'quit', or Ctrl-D.", stacklevel=1)


#### 压力测试（Stress testing）
一种广泛使用的模块还应该接受**压力测试**。通过压力测试，可确保它不会意外失败，即使在客户不遵照契约，或做出一些不存在假设的情况下。通过逐行检查代码，推断在某些条件下是否会导致故障。任何想到的问题都必须考虑到，这些条件有时也称为**边界条件**（corner case）。

### 迭代函数系统设计

#### [Sierpinski triangle](http://mathworld.wolfram.com/SierpinskiSieve.html)

In [2]:
!python ifs.py 10000 < introcs-data/barnsley.txt

In [7]:
!python ifs.py 10000 < introcs-data/spiral.txt

#### 绘制图形

In [8]:
from booksite import stdstats

In [1]:
!python bernoulli.py 20 10000

### 模块化程序设计

当编写一个新程序以解决一个新的问题时，代码不是包含在一个文件中，而是把每个大任务分解为更小的易于管理的子任务，然后独立实现并调试解决各子任务的代码。在计算任务中，任何时候只要可以清晰地分离任务，则建议使用函数分离任务。然后在封装为模块以供客户端使用。

为了描述一个模块程序中各模块之间的关系，我们可以绘制一个模块**依赖关系图**（dependency graph）。

模块化程序设计的**优越性**：
- 可编写合理规模或超大系统的程序；
    - 不存在复杂到无法分解为小的子任务的大型任务。
- 调试可限制在少量的代码范围；
    - **尽可能使变量的作用范围局部化**，可以大大限制调试时需要考虑的可能性。
- 可重用代码，而无须重复实现；
- 维护（以及改进）代码会更容易。

如何一个 `.py` 文件中没有使用任意全局代码，则才可以称其为**模块**。

## [递归](https://introcs.cs.princeton.edu/python/23recursion/)

函数自身调用自己的机制称为：递归（recursion）

使用一个优雅的递归程序解决问题对每个程序员而言是一个令人满意的经验。递归远不只是一种编程技术，在许多环境中，它是描述自然界的有用方法。
推崇递归的一个重要原因是：递归提供了一个直接的证明技术称为**数学归纳法**（mathematical induction）。

### factorial function（阶乘函数）

$n! = n \times (n-1) \times (n-2) \times \cdots \times 2  \times 1$

In [10]:
def factorial(n):
    '''n 必须是整数'''
    if n == 1: return 1
    return n * factorial(n - 1)

In [11]:
factorial(1)

1

In [12]:
factorial(4)

24

### 欧几里得算法

If $p > q$, the gcd of $p$ and $q$ is the same as the gcd of $q$ and $p % q$. 

In [14]:
def gcd(p, q):
    if q == 0: return p
    return gcd(q, p % q)

In [18]:
gcd(24, 300)

12

In [23]:
!python euclid.py 1440 408

24


### Towers of Hanoi （汉诺塔或河内塔）

所谓**汉诺塔**问题，就是假设有 $3$ 个柱子和 $n$ 个圆盘，圆盘可套在圆柱上。圆盘大小各不相同，最初按从大到小的顺序依次排列在一个圆柱上，最大的圆盘（圆盘 $n$ ）在最底部，最小的圆盘在最顶部。要求按照下列规则把所有 $n$ 个圆盘移动到另一个圆柱上：
- 一次只能移动一个圆盘；
- 不能把大的圆盘放在小的圆盘之上。

In [30]:
!python towersofhanoi.py 3

1 left
2 right
1 left
3 left
1 left
2 right
1 left


为了更好地理解包括多个递归调用的模块化程序的运行过程，我们可以采用一种称为**函数调用树**的可视化方法。

In [32]:
!python beckett.py 4  # 格雷码

enter 1
enter 2
exit  1
enter 3
enter 1
exit  2
exit  1
enter 4
enter 1
enter 2
exit  1
exit  3
enter 1
exit  2
exit  1


In [33]:
!python htree.py 3   # 递归图形

In [38]:
!python brownian.py .01  # 布朗桥

In [39]:
def harmonic(n):
    if n == 1:return 1
    return harmonic(n - 1) + 1 / n

In [40]:
harmonic(5)

2.283333333333333

### Pitfalls of Recursion（递归的陷阱）
#### Missing base case（缺少基本情况）
This recursive function is supposed to compute Harmonic numbers, but is missing a base case:
```py
def H(n):
   return H(n-1) + 1.0/n;
```

If you call this function, it will repeatedly call itself and never return.

#### No guarantee of convergence（不能保证收敛）
Another common problem is to include within a recursive function a recursive call to solve a subproblem that is not smaller. For example, this recursive function will go into an infinite recursive loop if it is invoked with an argument n having any value other than $1$:
```py
def H(n):
    if n == 1:
        return 1.0
    return H(n) + 1.0/n
```

#### Excessive space requirements（过量的内存需求）
Python needs to keep track of each recursive call to implement the function abstraction as expected. If a function calls itself recursively an excessive number of times before returning, the space required by Python for this task may be prohibitive. For example, this recursive function correctly computes the nth harmonic number. However, we cannot use it for large $n$ because the recursive depth is proportional to $n$, and this creates a `StackOverflowError`.
```py
def H(n):
    if n == 0:
        return 0.0
    return H(n-1) + 1.0/n
```

#### Excessive recomputation（过量重计算）
The temptation to write a simple recursive program to solve a problem must always be tempered by the understanding that a simple program might require exponential time (unnecessarily), due to excessive recomputation. For example, the Fibonacci sequence：
```py
0 1 1 2 3 5 8 13 21 34 55 89 144 233 377 ...
```
is defined by the formula $Fn = Fn-1 + Fn-2$ for $n ≥ 2$ with $F0 = 0$ and $F1 = 1$.
A novice programmer might implement this recursive function to compute numbers in the Fibonacci sequence:
```py
def fib(n):
    if n == 0:
        return 0
    if n == 1:
        return 1
    return fib(n-1) + fib(n-2)
```

However, this program is spectacularly inefficient! For example, consider what the function does to compute $fib(7) = 13$. It first computes $fib(6) = 8$ and $fib(5) = 5$. To compute $fib(6)$, it recursively computes $fib(5) = 5$ again and $fib(4) = 3$. Things rapidly get worse because both times it computes $fib(5)$, it ignores the fact that it already computed $fib(4)$, and so forth. The number of times this program computes $fib(1)$ when computing $fib(n)$ is precisely $Fn$. The mistake of recomputation is compounded, exponentially. No imaginable computer will ever be able to do that many calculations.

Incidentally, a systematic technique known as **memoization**（记忆） allows us to avoid this pitfall while still taking advantage of the compact recursive description of a computation. In memoization, **we maintain an array that keeps track of the values we have computed so that we can return those values and make recursive calls only for new values**. This technique is a form of **dynamic programming**（动态编程）, a well-studied technique for organizing computations that you will learn if you take courses in algorithms or operations research.

## [ Case Study: Percolation（渗透原理）](https://introcs.cs.princeton.edu/python/24percolation/)

We conclude our study of functions and modules by considering a case study of developing a program to solve an interesting scientific problem: a **Monte Carlo** simulation to study a natural model known as percolation.

