# python语言与计算机科学引论
***
2017/11/18 第六次课

在之前的课程里，同学们已经学习了所有Python（面向过程）的基础语法。

它们分别是：

* Python基本数据类型（```int, float, bool, str, NoneType```）
* 输入与输出
* 字符串与编码
* 四种带有集合性质的数据类型（```list, tuple, dict, set```）
* 条件判断
* 两种循环（```while, for ... in ...```）
* 函数（调用，定义，参数，递归，匿名函数）

事实上，在熟悉这些基本语法后，大家已经可以将许多复杂的程序通过Python表达了。

在接下来的课程中，我们将进入Python的高级内容，以及**计算机科学**的部分。

### 切片
取一个list或tuple的部分元素是非常常见的操作。比如，一个list如下：

In [2]:
L = ['Michael', 'Sarah', 'Tracy', 'Bob', 'Jack']

取前3个元素，应该怎么做？

笨办法：

In [3]:
[L[0], L[1], L[2]]

['Michael', 'Sarah', 'Tracy']

之所以是笨办法是因为扩展一下，取前N个元素就没辙了。

取前N个元素，也就是索引为0-(N-1)的元素，可以用循环：

In [5]:
r = []
n = 3
for i in range(n):
    r.append(L[i])
r

['Michael', 'Sarah', 'Tracy']

对这种经常取指定索引范围的操作，用循环十分繁琐，因此，Python提供了**切片（Slice）**操作符，能大大简化这种操作。

对应上面的问题，取前3个元素，用一行代码就可以完成切片：

In [6]:
L[0:3]

['Michael', 'Sarah', 'Tracy']

```L[0:3]```表示，从索引```0```开始取，直到索引```3```为止，但不包括索引```3```。即索引```0```，```1```，```2```，正好是3个元素。

如果第一个索引是```0```，还可以省略：

In [7]:
L[: 3]

['Michael', 'Sarah', 'Tracy']

也可以从索引```1```开始，取出2个元素出来：

In [8]:
L[1: 3]

['Sarah', 'Tracy']

类似的，既然Python支持```L[-1]```取倒数第一个元素，那么它同样支持倒数切片，试试：

In [9]:
L[-2:]

['Bob', 'Jack']

In [10]:
L[-2: -1]

['Bob']

记住倒数第一个元素的索引是```-1```。

切片操作十分有用。我们先创建一个0-99的数列：

In [6]:
L = list(range(100))         # 记住range产生的是一个迭代器，并不是一个list。

可以通过切片轻松取出某一段数列。比如前10个数：

In [14]:
L[: 10]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

后10个数：

In [15]:
L[-10: ]

[90, 91, 92, 93, 94, 95, 96, 97, 98, 99]

前11-20个数：

In [16]:
L[10: 20]

[10, 11, 12, 13, 14, 15, 16, 17, 18, 19]

前10个数，每两个取一个：

In [18]:
L[: 10: 2]

[0, 2, 4, 6, 8]

原列表倒序：

In [19]:
L[::-1]

[99,
 98,
 97,
 96,
 95,
 94,
 93,
 92,
 91,
 90,
 89,
 88,
 87,
 86,
 85,
 84,
 83,
 82,
 81,
 80,
 79,
 78,
 77,
 76,
 75,
 74,
 73,
 72,
 71,
 70,
 69,
 68,
 67,
 66,
 65,
 64,
 63,
 62,
 61,
 60,
 59,
 58,
 57,
 56,
 55,
 54,
 53,
 52,
 51,
 50,
 49,
 48,
 47,
 46,
 45,
 44,
 43,
 42,
 41,
 40,
 39,
 38,
 37,
 36,
 35,
 34,
 33,
 32,
 31,
 30,
 29,
 28,
 27,
 26,
 25,
 24,
 23,
 22,
 21,
 20,
 19,
 18,
 17,
 16,
 15,
 14,
 13,
 12,
 11,
 10,
 9,
 8,
 7,
 6,
 5,
 4,
 3,
 2,
 1,
 0]

In [9]:
L[-2::-1]

[98,
 97,
 96,
 95,
 94,
 93,
 92,
 91,
 90,
 89,
 88,
 87,
 86,
 85,
 84,
 83,
 82,
 81,
 80,
 79,
 78,
 77,
 76,
 75,
 74,
 73,
 72,
 71,
 70,
 69,
 68,
 67,
 66,
 65,
 64,
 63,
 62,
 61,
 60,
 59,
 58,
 57,
 56,
 55,
 54,
 53,
 52,
 51,
 50,
 49,
 48,
 47,
 46,
 45,
 44,
 43,
 42,
 41,
 40,
 39,
 38,
 37,
 36,
 35,
 34,
 33,
 32,
 31,
 30,
 29,
 28,
 27,
 26,
 25,
 24,
 23,
 22,
 21,
 20,
 19,
 18,
 17,
 16,
 15,
 14,
 13,
 12,
 11,
 10,
 9,
 8,
 7,
 6,
 5,
 4,
 3,
 2,
 1,
 0]

```tuple```和```str```都与```list```相似，它们也可以用切片操作。结果的数据类型与被切片前保持一致。以字符串为例：

In [20]:
'ABCDEFG'[:3]

'ABC'

### 迭代
如果给定一个list或tuple，我们可以通过```for```循环来遍历这个list或tuple，这种遍历我们称为**迭代（Iteration）**。

在Python中，迭代是通过```for ... in```来完成的，而很多语言比如C语言，迭代list是通过下标完成的，看一看C的写法：

```c
int i;
T n;
for (i = 0; i < sizeof(list)/sizeof(list[0]); i++) {
    n = list[i];
}
```

可以看出，Python的```for```循环抽象程度要高于C的```for```循环，因为Python的```for```循环不仅可以用在list或tuple上，还可以作用在其他可迭代对象上。

list这种数据类型虽然有下标，但很多其他数据类型是没有下标的，但是，只要是**可迭代对象**，无论有无下标，都可以迭代，比如```dict```就可以迭代：

In [13]:
d = {'a': 1, 'b': 2, 'c': 3}
for key in d:
    print(key)

a
b
c


因为dict的存储不是按照list的方式顺序排列，所以，迭代出的结果顺序很可能不一样。

默认情况下，dict迭代的是key。如果要迭代value，可以用```for value in d.values()```，如果要同时迭代key和value，可以用```for k, v in d.items()```。

由于字符串也是可迭代对象，因此，也可以作用于```for```循环：

In [22]:
for ch in 'ABC':
    print(ch)

A
B
C


所以，当我们使用```for```循环时，只要作用于一个可迭代对象，```for```循环就可以正常运行，而我们不太关心该对象究竟是list还是其他数据类型。

那么，如何判断一个对象是可迭代对象呢？方法是通过```collections```模块的```Iterable```类型判断：

In [23]:
from collections import Iterable
print(isinstance('abc', Iterable),      # str是否可迭代
      isinstance([1,2,3], Iterable),    # list是否可迭代
      isinstance(123, Iterable))        # 整数是否可迭代

True True False


最后一个小问题，如果要对list实现类似C那样的下标循环怎么办？

比较容易想到的办法是，利用```len```函数：

In [25]:
L = ['A', 'B', 'C']
for i in range(len(L)):
    print(i, L[i])

0 A
1 B
2 C


可是这样做不pythonic，Python内置的```enumerate```函数可以**把一个list变成索引-元素对**，这样就可以在for循环中同时迭代索引和元素本身：

In [16]:
for i, value in enumerate(L):
    print(i, value)

0 a
1 b
2 c


上面的```for```循环里，同时引用了两个变量，在Python里是很常见的，比如下面的代码：

In [27]:
for x, y in [(1, 1), (2, 4), (3, 9)]:
    print(x, y)

1 1
2 4
3 9


### 生成式
生成式即Comprehensions，是Python内置的非常简单却强大的可以用来创建list,dict和set的工具。

生成式分为三种，分别是：

* 列表生成式
* 字典生成式
* 集合生成式

下面分别看看它们的使用方法。

#### 列表生成式
要生成list [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]，可以用```list(range(1, 11))```：

In [28]:
list(range(1, 11))

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

但如果要生成 $[1^2, 2^2, 3^2, \ldots, 10^2]$ 怎么做？

方法一是循环：

In [29]:
L = []
for x in range(1, 11):
    L.append(x * x)
L

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

但是循环太繁琐，还创建了额外的中间变量，而**列表生成式可以用一行语句代替循环生成上面的list**：

In [30]:
[x * x for x in range(1, 11)]

[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

写列表生成式时，把要生成的元素```x * x```放到前面，后面跟```for```循环，就可以把list创建出来，十分有用，多写几次，很快就可以熟悉这种语法。

for循环后面还可以加上if判断，这样我们就可以筛选出偶数的平方：

In [31]:
[x * x for x in range(1, 11) if x % 2 == 0]

[4, 16, 36, 64, 100]

概括一下，单层列表生成式的语法模板为：

```python
[<val> for <var> in <domain> if <condition>]
```
其中```<var>```为变量，```<val>```为由变量决定的值，```<domain>```为变量的取值范围，```<contidion>```为过滤条件（值为```False```则被过滤）。

还可以使用两层循环，生成全排列：

In [32]:
[m + n for m in 'ABC' for n in 'XYZ']

['AX', 'AY', 'AZ', 'BX', 'BY', 'BZ', 'CX', 'CY', 'CZ']

三层和三层以上的循环就很少用到了。

```for```循环其实可以同时使用两个甚至多个变量，比如dict的```items()```可以同时迭代```key```和```value```：

In [33]:
d = {'x': 'A', 'y': 'B', 'z': 'C' }
for k, v in d.items():
    print(k, '=', v)

x = A
y = B
z = C


因此，列表生成式也可以使用两个变量来生成list：

In [34]:
[k + '=' + v for k, v in d.items()]

['x=A', 'y=B', 'z=C']

最后把一个list中所有的字符串变成小写：

In [35]:
L = ['Hello', 'World', 'IBM', 'Apple']
[s.lower() for s in L]

['hello', 'world', 'ibm', 'apple']

#### 字典生成式
假设有一个表格，其中有一列是学生姓名，另一列是学生年龄。将表格导入Python后，姓名和年龄分别被组装为两个表格。

现在我们想建立一个姓名到年龄的字典，可以用循环来做：

In [36]:
names = ['王一', '孙二', '张三', '李四']
ages = [13, 12, 13, 11]
D = {}
for name, age in zip(names, ages):
    D[name] = age
D

{'孙二': 12, '张三': 13, '李四': 11, '王一': 13}

其中```zip```用来把两个长度相同的list压缩为一个迭代器，看一个例子：

In [40]:
a = [1, 2, 3]
b = ['a', 'b', 'c']
list(zip(a, b))

[(1, 'a'), (2, 'b'), (3, 'c')]

可是这样写过于繁琐，我们可以用一行语句代替循环：

In [42]:
{name: age for name, age in zip(names, ages)}

{'孙二': 12, '张三': 13, '李四': 11, '王一': 13}

下面我们来看一个更现实的例子：

假设我们通过爬虫爬取了豆瓣电影上热门电影的片名和评分，结果用两个list储存。

现在我们想组装一个dict，建立片名和评分之间的映射，同时抛弃所有评分低于7.0的电影（应该不剩下什么国产片了）。

In [20]:
movie_names = ['正义联盟 Justice League', '暴雪将至', '英雄本色', '东方快车谋杀案 Murder on the Orient Express', 
               '恐袭波士顿 Patriots Day', '雷神3：诸神黄昏 Thor: Ragnarok', '七十七天', 
               '精灵宝可梦：波尔凯尼恩与机巧的玛机雅娜 ポケモン・ザ・ムービーXY&Z ボルケニオンと機巧のマギアナ', 
               '狂兽 狂獸', '羞羞的铁拳', '追捕', '相爱相亲', '不成问题的问题', '密战', 
               '我的爸爸是森林之王 The Son Of Bigfoot', '全球风暴 Geostorm', '银翼杀手2049 Blade Runner 2049', 
               '缝纫机乐队', '刺杀盖世太保 HHhH', '王牌特工2：黄金圈 Kingsman: The Golden Circle', '英伦对决 The Foreigner', 
               '兄弟，别闹！', '天才枪手 ฉลาดเกมส์โกง', '烽火芳菲', '嘉年华', '捍卫者', '艺海风光一：电影城', 
               '我只认识你', '怨灵2', '托马斯大电影之了不起的比赛 Thomas & Friends: The Great Race', '追龙 追龍', '暴裂无声']

rates = ['7.3', '7.1', '8.6', '7.1', '8.0', '7.5', '6.6', '6.5', '5.1', '7.2', '6.0', '8.6', '8.0', '4.9', '6.8', '6.2', 
         '8.5', '7.0', '6.5', '7.2', '7.2', '3.7', '8.3', '6.2', '8.1', '8.1', '7.9', '8.4', '4.3', '6.6', '7.5', '7.2']

In [21]:
{name: float(rate) for name, rate in zip(movie_names, rates) if float(rate) >= 7}

{'不成问题的问题': 8.0,
 '东方快车谋杀案 Murder on the Orient Express': 7.1,
 '嘉年华': 8.1,
 '天才枪手 ฉลาดเกมส์โกง': 8.3,
 '恐袭波士顿 Patriots Day': 8.0,
 '我只认识你': 8.4,
 '捍卫者': 8.1,
 '暴裂无声': 7.2,
 '暴雪将至': 7.1,
 '正义联盟 Justice League': 7.3,
 '王牌特工2：黄金圈 Kingsman: The Golden Circle': 7.2,
 '相爱相亲': 8.6,
 '缝纫机乐队': 7.0,
 '羞羞的铁拳': 7.2,
 '艺海风光一：电影城': 7.9,
 '英伦对决 The Foreigner': 7.2,
 '英雄本色': 8.6,
 '追龙 追龍': 7.5,
 '银翼杀手2049 Blade Runner 2049': 8.5,
 '雷神3：诸神黄昏 Thor: Ragnarok': 7.5}

#### 集合生成式
由于不太常用，不详细展开，这里只给出一个例子。

计算之前的学生年龄```ages```中，学生们年龄的范围：

In [49]:
{age for age in ages}   # 同样是大括号，不要把字典生成式和集合生成式混淆！

{11, 12, 13}

### * 函数式思想
函数式编程是一个极为庞大而深刻的话题。

限于时间和我的能力，甚至没有办法给大家做一个鸟瞰式的介绍。为了展示函数式编程的强大，这里简单提一提函数式编程的特征和一些初步的思想。

函数式编程的特征是：

* 没有变量
* 没有循环
* 没有纯粹的**语句**（用来执行某件事，没有返回值。例如命令式编程中修改变量的值），处理问题的每一个步骤都是**函数**，且函数必须有返回值

函数式编程与命令式编程最大的不同之处在于：

**函数式编程关心数据的映射，命令式编程关心解决问题的步骤。**

解决一个复杂问题，科学的做法是把问题分解为一些较为简单（且相互解耦）的部分，依此解决。最后将这些较为简单的部分按一定的顺序组装起来，即解决了原问题。

对于使用命令式编程的程序员来说，化归问题的方式通常是将原问题分解为一些**命令**，再顺序执行它们，得到结果。

而函数式的程序员，会考察从输入到输出中数据的变化，把变化过程的关键部分表达为一个**计算**。最后通过**计算的嵌套**得到结果。

举例来说，我们要把一个整数列表中每一个元素都加1，命令式的风格是这样的：

In [50]:
L = [1, 2, 3, 4, 5]
for i in range(len(L)):
    L[i] += 1
L

[2, 3, 4, 5, 6]

再看看函数式的风格：

In [56]:
L = [1, 2, 3, 4, 5]
def add1_to_each(l):
    return ([l[0]+1] + add1_to_each(l[1:]) 
            if l[1:]:
            else [l[0]+1])
add1_to_each(L)

[2, 3, 4, 5, 6]

这段代码最终达到的目的同样是给整数列表中每个元素加1，但是它得到结果的方式和上面的命令式代码有着本质的差别：

函数式通过描述一个 旧列表->新列表 的映射，而不是描述「从旧列表得到新列表应该怎样做」来达到目的。

接下来看一个例子：从最基本的整数求和出发，逐步抽象，最后得到一个叫做```accumulate```的积累函数。

第一个函数用来计算从a到b的整数之和：

In [57]:
def sum_integer(a, b):
    return 0 if a > b else a + sum_integer(a+1, b)
sum_integer(0, 100)

5050

第二个用来计算给定范围内整数的立方和：

In [60]:
def sum_cubes(a, b):
    return 0 if a > b else a**3 + sum_cubes(a+1, b)
sum_cubes(0, 5)

225

第三个用来计算下面序列之和：
$$ \frac{1}{1\cdot 3} + \frac{1}{5\cdot 7} + \frac{1}{9\cdot 11} + \cdots$$

它将（非常缓慢地）收敛到$\pi/8$：

In [64]:
def pi_sum(a, b):
    return (0 
            if a > b 
            else 1/(a*(a+2)) + pi_sum(a+4, b))

8*pi_sum(1, 2000)

3.140592653839793

可以看出，这三个过程共享着一种公共的基础模式。他们的很大一部分是共同的，只是所用的过程名字上不一样：

用a计算待加项的函数```<term>```，以及提供下一个a值的函数```<next>```。

我们可以通过填充下面模板上的空位，产生出上面的各个过程：

```python
def <name>(a, b):
    return (0
            if a > b
            else <term>(a) + <name>(<next>(a), b))
```
这种公共模式的存在证明，这里实际上有一种很有用的抽象，在那里等着浮现出来。

确实，数学家很早就认识到了序列求和中的抽象模式，并提出了专门的“求和记法”：
$$\sum\limits_{n=a}^b{f(n)}=f(a)+\cdots+f(b)$$
求和记法的威力在于，它使数学家能去处理求和的概念本身，而不是只是某个特定的求和。

与此类似，作为程序模式，我们也希望所用的语言足够强大，能用于写出一个过程，去**表述求和的概念，而不是只能计算特定求和结果**。

In [68]:
def _sum(term, a, _next, b):
    return (0
            if a > b
            else term(a) + _sum(term, _next(a), _next, b))

In [71]:
print(_sum(lambda x: x, 0, lambda x: x+1, 100),   # 计算0到100整数的和
      _sum(lambda x: x**3, 0, lambda x: x+1, 5))  # 计算0到5整数的立方和

5050 225


一旦有了```sum```，我们就能用它为基本构件，去**形式化**其他概念。例如，求出函数 $f(x)$ 在范围 $a$ 和 $b$ 之间的定积分的近似值，可以用下面公式（矩形法）完成：
$$\int\limits_a^b{f(x)dx}=\left[f\left(a+\frac{\Delta x}{2}\right)+f\left(a+\Delta x+\frac{\Delta x}{2}\right)+
f\left(a+2\Delta x+\frac{\Delta x}{2}\right)+\cdots\right]\Delta x$$

其中 $\Delta x$ 是一个很小的值。

我们可以将这个公式直接写成一个函数：

In [78]:
def integral(f, a, b, delta):
    return _sum(f, 
                a + delta/2,
                lambda x: x + delta,
                b) * delta

用它来计算一下$\int_0^1{x^2 dx}$的值：

In [84]:
integral(lambda x: x**2, 0, 1, 0.001)

0.33333325000000047

数学有一种与求和类似的过程，叫做求积：
$$\prod \limits_{n=a}^b{f(n)}=f(a)\cdot \cdots \cdot f(b)$$

我们可以仿照```_sum```，直接写出求积的函数```prod```：

In [85]:
def prod(term, a, _next, b):
    return (1
            if a > b
            else term(a) * prod(term, _next(a), _next, b))

用求积函数计算一下 $6!$：

In [86]:
prod(lambda x: x, 1, lambda x: x+1, 6)

720

可以发现，```_sum```和```proc```的代码仍有许多相同之处——这暗示我们存在一种更为普遍的抽象模式！

这种抽象模式，事实上是计算幺半群在群乘法下的累乘。

我们将它记为```acculmulate```：

In [23]:
def accumulate(combiner, null_value, term, a, _next, b):
    return (null_value
            if a > b
            else combiner(term(a),
                          accumulate(combiner, null_value, term, _next(a), _next, b)))

In [24]:
accumulate(lambda x, y: x*y, 1, lambda x: x, 1, lambda x: x+1, 6)

720