# Python核心技术和实战

# 列表和元组

列表和元组，都是一个可以**放置任意数据类型的有序集合**。

列表（list）是动态的，长度大小不固定，可以随意地增加、删减或者改变元素（mutable）;

而元组（tuple）是静态的，长度大小固定，无法增加删减或者改变（immutable）。

In [3]:
# 列表可以很轻松的更改元素
l = [1, 2, 3, 4]
l[3] = 40
l

[1, 2, 3, 40]

In [5]:
# 改变元组的元素就会报错
t = (1, 2, 3, 4)
t[3] = 40
t

TypeError: 'tuple' object does not support item assignment

- 如果想对元组做任何改变，就只能重新开辟一片内存空间，创建新的元组

In [9]:
t = (1, 2, 3, 4)
new_t = t + (5,)
new_t

(1, 2, 3, 4, 5)

In [11]:
# 但是列表就显得很轻松
l = [1, 2, 3, 4]
l.append(5)
l

[1, 2, 3, 4, 5]

## 列表和元组的基本操作

- 首先，和其他语言不同，Python中的列表和元组都支持负数索引，-1表示最后一个元素，-2表示倒数第二个元素，以此类推。

In [13]:
l = [1, 2, 3, 4]
t = (1, 2, 3, 4)
print("l[-1]:", l[-1])
print("t[-1]:", t[-1])

l[-1]: 4
t[-1]: 4


- 除了基本的初始化，索引外，**列表和元组都支持切片操作**：

In [14]:
l = [1, 2, 3, 4]
t = (1, 2, 3, 4)
print("l[0:2]:", l[0:2])
print("t[0:2]:", t[0:2])

l[0:2]: [1, 2]
t[0:2]: (1, 2)


- 另外，列表和元组都可以随意嵌套：

In [15]:
l = [[1, 2, 3], [4, 5]]  # 列表的每一个元素也是一个列表
tup = ((1, 2, 3), (4, 5, 6))  # 元组的每一个元素也是一元组

- 当然，两者也可以通过 list() 和 tuple() 函数相互转换：

In [18]:
l = list((1, 2, 3))
t = tuple([1, 2, 3])
print("l:", l, "\nt:", t)

l: [1, 2, 3] 
t: (1, 2, 3)


- 最后，我们来看一些列表和元组常用的内置函数：

    count(item) 表示统计列表 / 元组中 item 出现的次数。
    
    index(item) 表示返回列表 / 元组中 item 第一次出现的索引。

    list.reverse() 和 list.sort() 分别表示原地倒转列表和排序（注意，元组没有内置的这两个函数)。

    reversed() 和 sorted() 同样表示对列表 / 元组进行倒转和排序，但是会返回一个倒转后或者排好序的新的列表 / 元组。

In [29]:
l = [3, 2, 3, 7, 8, 1]
print("l.count(3):", l.count(3))
print("l.index(7):", l.index(7))
l.reverse()
print("l.reverse():", l)
l.sort()
print("l.sort():", l)

print("\n", "*" * 10, "\n")

tup = (3, 2, 3, 7, 8, 1)
print("tup.count(3):", tup.count(3))
print("tup.index(7):", tup.index(7))
print("list(reversed(tup)):", list(reversed(tup)))
print("sorted(tup):", sorted(tup))

l.count(3): 2
l.index(7): 3
l.reverse(): [1, 8, 7, 3, 2, 3]
l.sort(): [1, 2, 3, 3, 7, 8]

 ********** 

tup.count(3): 2
tup.index(7): 3
list(reversed(tup)): [1, 8, 7, 3, 2, 3]
sorted(tup): [1, 2, 3, 3, 7, 8]


## 列表和元组存储方式的差异

列表和元组最重要的区别就是，列表是动态的、可变的，而元组是静态的、不可
变的。这样的差异，势必会影响两者存储方式。

In [30]:
l = [1, 2, 3]
print("l.__sizeof__():", l.__sizeof__())
tup = (1, 2, 3)
print("tup.__sizeof__():", tup.__sizeof__())

l.__sizeof__(): 64
tup.__sizeof__(): 48


你可以看到，对列表和元组，我们放置了相同的元素，但是元组的存储空间，却比列表要少16 字节。这是为什么呢？

---

事实上，由于列表是动态的，所以它需要存储指针，来指向对应的元素（上述例子中，对于int 型，8 字节）。另外，由于列表可变，所以需要额外存储已经分配的长度大小（8 字节），这样才可以实时追踪列表空间的使用情况，当空间不足时，及时分配额外空间。

In [None]:
l = []
l.__sizeof__() # 空列表的存储空间为 40 字节
40
l.append(1)
l.__sizeof__()
72 # 加入了元素 1 之后，列表为其分配了可以存储 4 个元素的空间 (72 - 40)/8 = 4
l.append(2)
l.__sizeof__()
72 # 由于之前分配了空间，所以加入元素 2，列表空间不变
l.append(3)
l.__sizeof__()
72 # 同上
l.append(4)
l.__sizeof__()
72 # 同上
l.append(5)
l.__sizeof__()
104 # 加入元素 5 之后，列表的空间不足，所以又额外分配了可以存储 4 个元素的空间

上面的例子，大概描述了列表空间分配的过程。我们可以看到，为了减小每次增加 / 删减操作时空间分配的开销，Python 每次分配空间时都会额外多分配一些，这样的机制（over-allocating）保证了其操作的高效性：增加 / 删除的时间复杂度均为 O(1)。

但是对于元组，情况就不同了。元组长度大小固定，元素不可变，所以存储空间固定。  

看了前面的分析，你也许会觉得，这样的差异可以忽略不计。但是想象一下，如果列表和元组存储元素的个数是一亿，十亿甚至更大数量级时，你还能忽略这样的差异吗？

## 列表和元组的性能
通过学习列表和元组存储方式的差异，我们可以得出结论：元组要比列表更加轻量级一些，所以总体上来说，元组的性能速度要略优于列表。

另外，Python 会在后台，对静态数据做一些`资源缓存（resource caching）`。

通常来说，因为垃圾回收机制的存在，如果一些变量不被使用了，Python 就会回收它们所占用的内存，返还给操作系统，以便其他变量或其他应用使用。

但是对于一些静态变量，比如元组，如果它不被使用并且占用空间不大时，Python 会暂时缓存这部分内存。这样，下次我们再创建同样大小的元组时，Python 就可以不用再向操作系统发出请求，去寻找内存，而是可以直接分配之前缓存的内存空间，这样就能大大加快程序的运行速度。

下面的例子，是计算初始化一个相同元素的列表和元组分别所需的时间。我们可以看到，元组的初始化速度，要比列表快 5 倍。

```py
python3 -m timeit 'x=(1,2,3,4,5,6)'
20000000 loops, best of 5: 9.97 nsec per loop
python3 -m timeit 'x=[1,2,3,4,5,6]'
5000000 loops, best of 5: 50.1 nsec per loop
```
但如果是索引操作的话，两者的速度差别非常小，几乎可以忽略不计。
```py
python3 -m timeit -s 'x=[1,2,3,4,5,6]' 'y=x[3]'
10000000 loops, best of 5: 22.2 nsec per loop
python3 -m timeit -s 'x=(1,2,3,4,5,6)' 'y=x[3]'
10000000 loops, best of 5: 21.9 nsec per loop
```
当然，如果你想要增加、删减或者改变元素，那么列表显然更优。原因你现在肯定知道了，那就是对于元组，你必须得通过新建一个元组来完成。

## 列表和元组的使用场景
根据上面所说的特性，我们具体情况具体分析。
1. 如果存储的数据和数量不变，比如你有一个函数，需要返回的是一个地点的经纬度，然后直接传给前端渲染，那么肯定选用元组更合适。
```py
def get_location():
.....
return (longitude, latitude)
```
2. 如果存储的数据或数量是可变的，比如社交平台上的一个日志功能，是统计一个用户在一周之内看了哪些用户的帖子，那么则用列表更合适。
```py
viewer_owner_id_list = [] # 里面的每个元素记录了这个 viewer 一周内看过的所有 owner 的 id
records = queryDB(viewer_id) # 索引数据库，拿到某个 viewer 一周内的日志
for record in records:
viewer_owner_id_list.append(record.id)
```

## 总结
- 总的来说，列表和元组都是有序的，可以存储任意数据类型的集合，区别主要在于下面这两点。

- 列表是动态的，长度可变，可以随意的增加、删减或改变元素。列表的存储空间略大于元组，性能略逊于元组。

- 元组是静态的，长度大小固定，不可以对元素进行增加、删减或者改变操作。元组相对于列表更加轻量级，性能稍优。

# 字典、集合
## 字典和集合基础
那究竟什么是字典，什么是集合呢？字典是一系列由键（key）和值（value）配对组成的元素的集合，在 Python3.7+，字典被确定为有序（注意：在 3.6 中，字典有序是一个implementation detail，在 3.7 才正式成为语言特性，因此 3.6 中无法 100% 确保其有序性），而 3.6 之前是无序的，其长度大小可变，元素可以任意地删减和改变。

相比于列表和元组，字典的性能更优，特别是对于查找、添加和删除操作，字典都能在常数时间复杂度内完成。

而集合和字典基本相同，唯一的区别，就是集合没有键和值的配对，是一系列无序的、唯一的元素组合。

首先我们来看字典和集合的创建，通常有下面这几种方式：

In [33]:
d1 = {'name': 'jason', 'age': 20, 'gender': 'male'}
d2 = dict({'name': 'jason', 'age': 20, 'gender': 'male'})
d3 = dict([('name', 'jason'), ('age', 20), ('gender', 'male')])
d4 = dict(name='jason', age=20, gender='male')
d1 == d2 == d3 ==d4

True

In [34]:
s1 = {1, 2, 3}
s2 = set([1, 2, 3])
s1 == s2

True

- 元素访问
    
    字典访问可以直接索引键，如果不存在，就会抛出异常：
```python
d = {'name': 'jason', 'age': 20}
d['name']
'jason'
d['location']
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
KeyError: 'location'
```
    也可以使用 get(key, default) 函数来进行索引。如果键不存在，调用 get() 函数可以返回一个默认值。比如下面这个示例，返回了'null'。
```py
d = {'name': 'jason', 'age': 20}
d.get('name')
'jason'
d.get('location', 'null')
'null'
```
    首先我要强调的是，集合并不支持索引操作，因为集合本质上是一个哈希表，和列表不一样。所以，下面这样的操作是错误的，Python 会抛出异常：
```py
s = {1, 2, 3}
s[0]
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: 'set' object does not support indexing
```
    想要判断一个元素在不在字典或集合内，我们可以用 value in dict/set 来判断。
```py
s = {1, 2, 3}
1 in s
True
10 in s
False
d = {'name': 'jason', 'age': 20}
'name' in d
True
'location' in d
False
```

- 增删查改

```py
d = {'name': 'jason', 'age': 20}
d['gender'] = 'male' # 增加元素对'gender': 'male'
d['dob'] = '1999-02-01' # 增加元素对'dob': '1999-02-01'
d
{'name': 'jason', 'age': 20, 'gender': 'male', 'dob': '1999-02-01'}
d['dob'] = '1998-01-01' # 更新键'dob'对应的值
d.pop('dob') # 删除键为'dob'的元素对
'1998-01-01'
d
{'name': 'jason', 'age': 20, 'gender': 'male'}
s = {1, 2, 3}
s.add(4) # 增加元素 4 到集合
s
{1, 2, 3, 4}
s.remove(4) # 从集合中删除元素 4
s
{1, 2, 3}
```
不过要注意，集合的 pop() 操作是删除集合中最后一个元素，可是集合本身是无序的，你
无法知道会删除哪个元素，因此这个操作得谨慎使用。

- 排序
```py
d = {'b': 1, 'a': 2, 'c': 10}
d_sorted_by_key = sorted(d.items(), key=lambda x: x[0]) # 根据字典键的升序排序
d_sorted_by_value = sorted(d.items(), key=lambda x: x[1]) # 根据字典值的升序排序
d_sorted_by_key
[('a', 2), ('b', 1), ('c', 10)]
d_sorted_by_value
[('b', 1), ('a', 2), ('c', 10)]
```
这里返回了一个列表。列表中的每个元素，是由原字典的键和值组成的元组。
而对于集合，其排序和前面讲过的列表、元组很类似，直接调用 sorted(set) 即可，结果会
返回一个排好序的列表。
```py
s = {3, 4, 2, 1}
sorted(s) # 对集合的元素进行升序排序
[1, 2, 3, 4]
```

## 字典和集合性能
文章开头就说到了，字典和集合是进行过性能高度优化的数据结构，特别是对于查找、添加和删除操作。

## 字典和集合的工作原理
不同于其他数据结构，字典和集合的内部结构都是一张哈希表。

- 对于字典而言，这张表存储了哈希值（hash）、键和值这 3 个元素。

- 而对集合来说，区别就是哈希表内没有键和值的配对，只有单一的元素了。

- 具体原理后期再补 # TODO

# 字符串
## 字符串基础
什么是字符串呢？字符串是由独立字符组成的一个序列，通常包含在单引号（''）双引号（""）或者三引号之中（''' '''或""" """，两者一样），比如下面几种写法。
```py
name = 'jason'
city = 'beijing'
text = "welcome to jike shijian"
```
这里定义了 name、city 和 text 三个变量，都是字符串类型。我们知道，Python 中单引号、双引号和三引号的字符串是一模一样的，没有区别，比如下面这个例子中的 s1、s2、s3 完全一样。

In [41]:
s1 = 'hello'
s2 = "hello"
s3 = """hello"""
s1 == s2 == s3

True

Python 同时支持这三种表达方式，很重要的一个原因就是，这样方便你在字符串中，内嵌带引号的字符串。比如：
```py
"I'm a student"
```
Python 的三引号字符串，则主要应用于多行字符串的情境，比如函数的注释等等。
```py
def calculate_similarity(item1, item2):
    """
    Calculate similarity between two items
    Args:
    item1: 1st item
    item2: 2nd item
    Returns:
    similarity score between item1 and item2
    """
```

同时，Python 也支持转义字符。所谓的转义字符，就是用反斜杠开头的字符串，来表示一些特定意义的字符。我把常见的的转义字符，总结成了下面这张表格。

![image-20211020145458829](https://i.loli.net/2021/10/20/YJu1Fs9odDC2yzq.png)


## 字符串的常用操作
你可以把字符串想象成一个由单个字符组成的数组，所以，Python 的字符串同样支持索引，切片和遍历等等操作。
```py
name = 'jason'
name[0]
'j'
name[1:3]
'as'
```
特别要注意，Python 的字符串是不可变的（immutable）。因此，用下面的操作，来改变一个字符串内部的字符是错误的，不允许的。
```py
s = 'hello'
s[0] = 'H'
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: 'str' object does not support item assignment
```
Python 中字符串的改变，通常只能通过创建新的字符串来完成。比如上述例子中，想把'hello'的第一个字符'h'，改为大写的'H'，我们可以采用下面的做法：

In [43]:
s = "hello"
s = 'H' + s[1:]
s = s.replace('h', 'H')
s

'Hello'

你可能了解到，在其他语言中，如 Java，有可变的字符串类型，比如 StringBuilder，每次添加、改变或删除字符（串），无需创建新的字符串，时间复杂度仅为 O(1)。这样就大大提高了程序的运行效率。

但可惜的是，Python 中并没有相关的数据类型，我们还是得老老实实创建新的字符串。因此，每次想要改变字符串，往往需要 O(n) 的时间复杂度，其中，n 为新字符串的长度。

你可能注意到了，上述例子的说明中，我用的是“往往”、“通常”这样的字眼，并没有说“一定”。这是为什么呢？显然，随着版本的更新，Python 也越来越聪明，性能优化得越来越好了。

这里，我着重讲解一下，使用加法操作符'+='的字符串拼接方法。因为它是一个例外，打破了字符串不可变的特性。

操作方法如下所示：
```py
str1 += str2 # 表示 str1 = str1 + str2
```

对于下面这个例子
```py
s = ''
for n in range(0, 100000):
s += str(n)
```
每次循环，似乎都得创建一个新的字符串；而每次创建一个新的字符串，都需要 O(n) 的时间复杂度。因此，总的时间复杂度就为 O(1) + O(2) + … + O(n) = O(n^2)。这样到底对不对呢？

自从 Python2.5 开始，每次处理字符串的拼接操作时（str1 += str2），Python 首先会检测 str1 还有没有其他的引用。如果没有的话，就会尝试原地扩充字符串 buffer 的大小，而不是重新分配一块内存来创建新的字符串并拷贝。这样的话，上述例子中的时间复杂度就仅为 O(n) 了。

因此，以后你在写程序遇到字符串拼接时，如果使用’+='更方便，就放心地去用吧，不用过分担心效率问题了。

另外，对于字符串拼接问题，除了使用加法操作符，我们还可以使用字符串内置的 join 函数。`string.join(iterable)`，表示把每个元素都按照指定的格式连接起来。

```py
l = []
for n in range(0, 100000):
l.append(str(n))
l = ' '.join(l)
```

由于列表的 append 操作是 O(1) 复杂度，字符串同理。因此，这个含有 for 循环例子的时
间复杂度为 n*O(1)=O(n)。

- 字符串的分割函数

    `string.split(separator)`
    
    表示把字符串按照 separator 分割成子字符串，并返回一个分割后子字符串组合的列表。

    它常常应用于对数据的解析处理，比如我们读取了某个文件的路径，想要调用数据库的 API，去读取对应的数据。
    
- 其他常见函数

    `string.strip(str)`，表示去掉首尾的 str 字符串；

    `string.lstrip(str)`，表示只去掉开头的 str 字符串；

    `string.rstrip(str)`，表示只去掉尾部的 str 字符串;
    
    `tring.find(sub, start, end)`，表示从start 到 end 查找字符串中子字符串 sub 的位置

## 字符串的格式化
通常，我们使用一个字符串作为模板，模板中会有格式符。这些格式符为后续真实值预留位置，以呈现出真实值应该呈现的格式。字符串的格式化，通常会用在程序的输出、logging等场景。

举一个常见的例子。比如我们有一个任务，给定一个用户的 userid，要去数据库中查询该用户的一些信息，并返回。而如果数据库中没有此人的信息，我们通常会记录下来，这样有利于往后的日志分析，或者是线上 bug 的调试等等。

```py
print('no data available for person with id: {}, name: {}'.format(id, name))
```

其中的 `string.format()`，就是所谓的格式化函数；而大括号{}就是所谓的格式符，用来为后面的真实值——变量 `name` 预留位置。如果id = '123'、name='jason'，那么输出便是：

```py
'no data available for person with id: 123, name: jason'
```

不过要注意，string.format() 是最新的字符串格式函数与规范。自然，我们还有其他的表示方法，比如在 Python 之前版本中，字符串格式化通常用 % 来表示，那么上述的例子，就可以写成下面这样：

```py
print('no data available for person with id: %s, name: %s' % (id, name))
```

其中 %s 表示字符串型，%d 表示整型等等，这些属于常识，你应该都了解。

- 推荐使用 format 函数，毕竟这是最新规范，也是官方文档推荐的规范。

## 总结
- Python 中字符串使用单引号、双引号或三引号表示，三者意义相同，并没有什么区别。其中，三引号的字符串通常用在多行字符串的场景。

- Python 中字符串是不可变的（前面所讲的新版本 Python 中拼接操作’+='是个例外）。因此，随意改变字符串中字符的值，是不被允许的。

- Python 新版本（2.5+）中，字符串的拼接变得比以前高效了许多，你可以放心使用。

- Python 中字符串的格式化（string.format）常常用在输出、日志的记录等场景。

# 输入和输出
## 输入输出基础
最简单直接的输入来自键盘操作，比如下面这个例子。

In [44]:
# 输入
name = input('your name:')
gender = input('you are a boy?(y/n)')

your name:Jack
you are a boy?(y/n)y


In [45]:
welcome_str = 'Welcome to the matrix {prefix} {name}.'
welcome_dic = {
'prefix': 'Mr.' if gender == 'y' else 'Mrs',
'name': name
}
print('authorizing...')
print(welcome_str.format(**welcome_dic))

authorizing...
Welcome to the matrix Mr. Jack.


input() 函数暂停程序运行，同时等待键盘输入；

直到回车被按下，函数的参数即为提示语，输入的类型永远是字符串型（str）。

注意，初学者在这里很容易犯错。

Python 对 int 类型没有最大限制（相比之下， C++ 的 int 最大为 2147483647，超过这个数字会产生溢出），但是对 float 类型依然有精度限制。这些特点，除了在一些算法竞赛中要注意，在生产环境中也要时刻提防，避免因为对边界条件判断不清而造成 bug 甚至0day（危重安全漏洞）。

## 文件输入输出
命令行的输入输出，只是 Python 交互的最基本方式，适用一些简单小程序的交互。
而生产级别的 Python 代码，大部分 I/O 则来自于文件、网络、其他进程的消息等等。

首先我们需要先了解一下，计算机中文件访问的基础知识。事实上，计算机内核（kernel）对文件的处理相对比较复杂，涉及到内核模式、虚拟文件系统、锁和指针等一系列概念，这些内容我不会深入讲解，我只说一些基础但足够使用的知识。

In [51]:
with open("test.txt","r") as ifs:
    text = ifs.read()
text

'This is a test file.'

我们先要用 open() 函数拿到文件的指针。其中，第一个参数指定文件位置（相对位置或者绝对位置）；第二个参数，如果是 'r'表示读取，如果是'w' 则表示写入，当然也可以用'rw' ，表示读写都要。a 则是一个不太常用（但也很有用）的参数，表示追加（append），这样打开的文件，如果需要写入，会从原始文件的最末尾开始写入。

如果你只需要读取文件，就不要请求写入权限。这样在某种程度上可以降低 bug 对整个系统带来的风险。

代码 text = fin.read() ，即表示把文件所有内容读取到内存中，并赋值给变量 text。这么做自然也是有利有弊：

    优点是方便;
    缺点是如果文件过大，一次性读取可能造成内存崩溃。
    
这时，我们可以给 read 指定参数 size ，用来表示读取的最大长度。还可以通过 readline()函数，每次读取一行，这种做法常用于数据挖掘（Data Mining）中的数据清洗，在写一些小的程序时非常轻便。如果每行之间没有关联，这种做法也可以降低内存的压力。而write() 函数，可以把参数中的字符串输出到文件中，也很容易理解。

这里我需要简单提一下 with 语句（后文会详细讲到）。open() 函数对应于 close() 函数，也就是说，如果你打开了文件，在完成读取任务后，就应该立刻关掉它。而如果你使用了with 语句，就不需要显式调用close()。在 with 的语境下任务执行完毕后，close() 函数会被自动调用，代码也会简洁很多。

最后需要注意的是，所有 I/O 都应该进行错误处理。因为 I/O 操作可能会有各种各样的情况出现，而一个健壮（robust）的程序，需要能应对各种情况的发生，而不应该崩溃（故意设计的情况除外）。

## JSON实战
`# TODO`

# 条件与循环

习惯把“条件与循环”，叫做编程中的基本功。为什么称它为基本功呢？因为它控制着代码的逻辑，可以说是程序的中枢系统。如果把写程序比作盖楼房，那么条件与循环就是楼房的根基，其他所有东西都是在此基础上构建而成。

毫不夸张地说，写一手简洁易读的条件与循环代码，对提高程序整体的质量至关重要。

## 条件语句
首先，我们一起来看一下 Python 的条件语句，用法很简单。比如，我想要表示 y=|x|这个函数，那么相应的代码便是：

In [54]:
def Jx_abs(x):
    if x < 0:
        y = -x
    else:
        y = x
    return y

Jx_abs(-3)

3

和其他语言不一样，我们不能在条件语句中加括号，但需要注意的是，在条件语句的末尾必须加上冒号`:`，这是 Python 特定的语法规范。
由于 Python 不支持 switch 语句，因此，当存在多个条件判断时，我们需要用 else if 来实
现，这在 Python 中的表达是elif。语法如下：
```py
if condition_1:
statement_1
elif condition_2:
statement_2
...
elif condition_i:
statement_i
else:
statement_n
```
整个条件语句是顺序执行的，如果遇到一个条件满足，比如 condition_i 满足时，在执行完statement_i 后，便会退出整个 if、elif、else 条件语句，而不会继续向下执行。

关于省略判断条件的常见用法:

![image-20211020162758606](https://i.loli.net/2021/10/20/SlPedpLN2hcQiBv.png)

不过，切记，在实际写代码时，我们鼓励，除了 `bool` 类型的数据，条件判断最好是显性的。比如，在判断一个整型数是否为 0 时，我们最好写出判断的条件：

```py
if i != 0:
...
```

## 循环语句
所谓循环，顾名思义，本质上就是遍历集合中的元素。和其他语言一样，Python 中的循环一般通过 for 循环和 while 循环实现。

比如，我们有一个列表，需要遍历列表中的所有元素并打印输出，代码如下：

In [63]:
l = [1, 2, 3, 4]
for item in l:
    print(item)

1
2
3
4


其实，Python 中的数据结构只要是可迭代的（iterable），比如列表、集合等等，那么都可以通过下面这种方式遍历：
```py
for item in <iterable>:
...
```
这里需要单独强调一下字典。字典本身只有键是可迭代的，如果我们要遍历它的值或者是键值对，就需要通过其内置的函数 values() 或者 items() 实现。其中，values() 返回字典的值的集合，items() 返回键值对的集合。

```py
d = {'name': 'jason', 'dob': '2000-01-01', 'gender': 'male'}
for k in d: # 遍历字典的键
print(k)
name
dob
gender
for v in d.values(): # 遍历字典的值
print(v)
jason
2000-01-01
male
for k, v in d.items(): # 遍历字典的键值对
print('key: {}, value: {}'.format(k, v))
key: name, value: jason
key: dob, value: 2000-01-01
key: gender, value: male
```

通过索引来遍历：

In [65]:
l = [1, 2, 3, 4, 5, 6, 7]
for index in range(0, len(l)):
    if index < 3:
        print(l[index])

1
2
3


当我们同时需要索引和元素时，还有一种更简洁的方式，那就是通过 Python 内置的函数`enumerate()`。

用它来遍历集合，不仅返回每个元素，并且还返回其对应的索引，这样一来，上面的例子就可以写成:

In [66]:
l = [1, 2, 3, 4, 5, 6, 7]
for index, item in enumerate(l):
    if index < 3:
        print(item)

1
2
3


在循环语句中，我们还常常搭配 `continue` 和 `break` 一起使用。

所谓 `continue`，就是让程序跳过当前这层循环，继续执行下面的循环；

而 `break` 则是指完全跳出所在的整个循环体。

在循环中适当加入 `continue` 和 `break`，往往能使程序更加简洁、易读。

很多时候，for 循环和 while 循环可以互相转换，比如要遍历一个列表，我们用 while 循环同样可以完成：

In [67]:
l = [1, 2, 3, 4]
index = 0
while index < len(l):
    print(l[index])
    index += 1

1
2
3
4


那么，两者的使用场景又有什么区别呢？

通常来说，如果你只是遍历一个已知的集合，找出满足条件的元素，并进行相应的操作，那么使用 for 循环更加简洁。

但如果你需要在满足某个条件前，不停地重复某些操作，并且没有特定的集合需要去遍历，那么一般则会使用 while 循环。

比如，某个交互式问答系统，用户输入文字，系统会根据内容做出相应的回答。

为了实现这个功能，我们一般会使用 while 循环，大致代码如下：

```py
while True:
    try:
        text = input('Please enter your questions, enter "q" to exit')
        if text == 'q':
            print('Exit system')
            break
        ...
        ...
        print(response)
    except as err:
        print('Encountered error: {}'.format(err))
        break
```        

- for 循环和 while 循环的效率问题:
    
    要知道，range() 函数是直接由 C 语言写的，调用它速度非常快。

    而 while 循环中的“i+= 1”这个操作，得通过 Python 的解释器间接调用底层的 C 语言；

    并且这个简单的操作，又涉及到了对象的创建和删除（因为 i 是整型，是 immutable，i += 1 相当于 i = new int(i + 1)）。

    所以，显然，for 循环的效率更胜一筹。

## 条件与循环的复用
在阅读代码的时候，你应该常常会发现，有很多将条件与循环并做一行的操作，例如：

`expression1 if condition else expression2 for item in iterable`

将这个表达式分解开来，其实就等同于下面这样的嵌套结构：

```py
for item in iterable:
    if condition:
        expression1
    else:
        expression2
```

而如果没有 else 语句，则需要写成：

`expression for item in iterable if condition`

举个例子，比如我们要绘制 y = 2*|x| + 5 的函数图像，给定集合 x 的数据点，需要计算出 y 的数据集合，那么只用一行代码，就可以很轻松地解决问题了：

```python
y = [value * 2 + 5 if value > 0 else -value * 2 + 5 for value in x]
```

再比如我们在处理文件中的字符串时，常常遇到的一个场景：
将文件中逐行读取的一个完整语句，按逗号分割单词，去掉首位的空字符，并过滤掉长度小于等于 3 的单词，最后返回由单词组成的列表。这同样可以简洁地表达成一行：

In [1]:
text = "Today,  is, Sunday"
text_list = [s.strip() for s in text.split(',') if len(s.strip()) > 3]
print(text_list)

['Today', 'Sunday']


当然，这样的复用并不仅仅局限于一个循环。比如，给定两个列表 x、y，要求返回 x、y 中所有元素对组成的元祖，相等情况除外。那么，你也可以很容易表示出来：

`[(xx, yy) for xx in x for yy in y if xx != yy]`

熟练之后，你会发现这种写法非常方便。当然，如果遇到逻辑很复杂的复用，你可能会觉得写成一行难以理解、容易出错。那种情况下，用正常的形式表达，也不失为一种好的规范和选择。

## 思考题

给定下面两个列表 attributes 和 values，要求针对 values 中每一组子列表 value，输出其和 attributes 中的键对应后的字典，最后返回字典组成的列表。

你能分别用一行和多行条件循环语句，来实现这个功能吗？

In [2]:
attributes = ['name', 'dob', 'gender']
values = [['jason', '2000-01-01', 'male'],
['mike', '1999-01-01', 'male'],
['nancy', '2001-02-01', 'female']
]
# expected outout:
# [{'name': 'jason', 'dob': '2000-01-01', 'gender': 'male'},
# {'name': 'mike', 'dob': '1999-01-01', 'gender': 'male'},
# {'name': 'nancy', 'dob': '2001-02-01', 'gender': 'female'}]

In [21]:
# 一行
list_dict = [dict(zip(attributes, value)) for value in values]
print(list_dict)

[{'name': 'jason', 'dob': '2000-01-01', 'gender': 'male'}, {'name': 'mike', 'dob': '1999-01-01', 'gender': 'male'}, {'name': 'nancy', 'dob': '2001-02-01', 'gender': 'female'}]


In [23]:
# 多行
list_dict = []
for value in values:
    temp = {}
    for index, v in enumerate(value):
        temp[attributes[index]] = v
    list_dict.append(temp)
print(list_dict)

[{'name': 'jason', 'dob': '2000-01-01', 'gender': 'male'}, {'name': 'mike', 'dob': '1999-01-01', 'gender': 'male'}, {'name': 'nancy', 'dob': '2001-02-01', 'gender': 'female'}]


# 异常处理

和其他语言一样，异常处理是 Python 中一种很常见，并且很重要的机制与代码规范。

## 错误与异常

首先要了解，Python 中的错误和异常是什么？两者之间又有什么联系和区别呢？

通常来说，程序中的错误至少包括两种，一种是语法错误，另一种则是异常。

## 处理异常

如果执行到程序中某处抛出了异常，程序就会被终止并退出。你可能会问，那有没有什么办法可以不终止程序，让其照样运行下去呢？答案当然是肯定的，这也就是我们所说的异常处理，通常使用 try 和 except 来解决，比如：

```python
try:
s = input('please enter two numbers separated by comma: ')
num1 = int(s.split(',')[0].strip())
num2 = int(s.split(',')[1].strip())
...
except ValueError as err:
    print('Value Error: {}'.format(err))
print('continue')
...
```

except block 只接受与它相匹配的异常类型并执行，如果程序抛出的异常并不匹配，那么程序照样会终止并退出。

很显然，这样强调一种类型的写法有很大的局限性。那么，该怎么解决这个问题呢？

一种解决方案，是在 except block 中加入多种异常的类型，比如下面这样的写法：

```python
except (ValueError, IndexError) as err:
```

或者第二种写法：
```python
except ValueError as err:
    print('Value Error: {}'.format(err))
except IndexError as err:
    print('Index Error: {}'.format(err))
```

这样，每次程序执行时，except block 中只要有一个 exception 类型与实际匹配即可。

不过，很多时候，我们很难保证程序覆盖所有的异常类型，所以，更通常的做法，是在最后一个 except block，声明其处理的异常类型是 Exception。Exception 是其他所有非系统异常的基类，能够匹配任意非系统异常。

那么这段代码就可以写成下面这样：

```python
except ValueError as err:
    print('Value Error: {}'.format(err))
except IndexError as err:
    print('Index Error: {}'.format(err))
except Exception as err:
    print('Other error: {}'.format(err))
```

或者，你也可以在 except 后面省略异常类型，这表示与任意异常相匹配（包括系统异常等）：

```python
except ValueError as err:
    print('Value Error: {}'.format(err))
except IndexError as err:
    print('Index Error: {}'.format(err))
except:
    print('Other error')
```

需要注意，当程序中存在多个 except block 时，最多只有一个 except block 会被执行。

换句话说，如果多个 except 声明的异常类型都与实际相匹配，那么只有最前面的 except block 会被执行，其他则被忽略。

异常处理中，还有一个很常见的用法是 finally，经常和 try、except 放在一起来用。

无论发生什么情况，finally block 中的语句都会被执行，哪怕前面的 try 和 excep block 中使用了 return 语句。

一个常见的应用场景，便是文件的读取：

```python
import sys
try:
    f = open('file.txt', 'r')
    # .... # some data processing
except OSError as err:
    print('OS error: {}'.format(err))
except:
    print('Unexpected error:', sys.exc_info()[0])
finally:
    f.close()
```

## 用户自定义异常

前面的例子里充斥了很多 Python 内置的异常类型，你可能会问，我可以创建自己的异常类型吗？

答案是肯定是，Python 当然允许我们这么做。
下面这个例子，我们创建了自定义的异常类型 MyInputError，定义并实现了初始化函数和 str 函数（直接 print 时调用）：

In [24]:
class MyInputError(Exception):
    """Exception raised when there're errors in input"""
    def __init__(self, value): # 自定义异常类型的初始化
        self.value = value
    def __str__(self): # 自定义异常类型的 string 表达形式
        return ("{} is invalid input".format(repr(self.value)))
try:
    raise MyInputError(1) # 抛出 MyInputError 这个异常
except MyInputError as err:
    print('error: {}'.format(err))

error: 1 is invalid input


实际工作中，如果内置的异常类型无法满足我们的需求，或者为了让异常更加详细、可读，想增加一些异常类型的其他功能，我们可以自定义所需异常类型。

不过，大多数情况下，Python 内置的异常类型就足够好了。

## 注意点

- 对于 flow-control（流程控制）的代码逻辑，我们一般不用异常处理。

# 自定义函数

一个规范的值得借鉴的 Python 程序，除非代码量很少（比如 10 行、20 行以下），基本都应该由多个函数组成，这样的代码才更加模块化、规范化。

函数是 Python 程序中不可或缺的一部分。

事实上，在前面的学习中，我们已经用到了很多Python 的内置函数，比如 sorted() 表示对一个集合序列排序，len() 表示返回一个集合序
列的长度大小等等。

## 函数基础

函数就是为了实现某一功能的代码段，只要写好以后，就可以重复利用。

简单例子：

In [25]:
def my_func(message):
    print('Got a message: {}'.format(message))
# 调用函数 my_func()
my_func('Hello World')
# 输出
# Got a message: Hello World

Got a message: Hello World


def 是函数的声明；

my_func 是函数的名称；

括号里面的 message 则是函数的参数；

而 print 那行则是函数的主体部分，可以执行相应的语句；

在函数最后，你可以返回调用结果（return 或 yield），也可以不返回。

```python
def name(param1, param2, ..., paramN):
    statements
    return/yield value # optional
```

和其他需要编译的语言（比如 C 语言）不一样的是，def 是可执行语句，这意味着函数直到被调用前，都是不存在的。当程序调用函数时，def 语句才会创建一个新的函数对象，并赋予其名字。

需要注意，主程序调用函数时，必须保证这个函数此前已经定义过，不然就会报错，比如：

```python
my_func('hello world')
def my_func(message):
    print('Got a message: {}'.format(message))
# 输出
NameError: name 'my_func' is not defined
```

另外，Python 函数的参数可以设定默认值，比如下面这样的写法：

```python
def func(param = 0):
    ...
```

这样，在调用函数 func() 时，如果参数 param 没有传入，则参数默认为 0；而如果传入了参数 param，其就会覆盖默认值。

Python 和其他语言相比的一大特点是，Python 是 dynamically typed 的，可以接受任何数据类型（整型，浮点，字符串等等）。

In [31]:
def my_sum(a, b):
    return a + b

print(my_sum(3, 5))  # 两数相加
print(my_sum([1, 2], [3, 4]))  # 列表拼接
print(my_sum("hello ", "world"))  # 字符串合并

8
[1, 2, 3, 4]
hello world


当然，两个数据类型不同，是无法相加的，此时就会报错。

Python 不用考虑输入的数据类型，而是将其交给具体的代码去判断执行，同样的一个函数（比如这边的相加函数 my_sum()），可以同时应用在整型、列表、字符串等等的操作中。

在编程语言中，我们把这种行为称为多态。这也是 Python 和其他语言，比如 Java、C 等很大的一个不同点。

当然，Python 这种方便的特性，在实际使用中也会带来诸多问题。因此，必要时请你在开头加上数据的类型检查。

Python 函数的另一大特性，是 Python 支持函数的嵌套。所谓的函数嵌套，就是指函数里面又有函数，比如：

```python
def f1():
    print('hello')
    def f2():
        print('world')
    f2()
f1()
# 输出
hello
world
```

- 函数嵌套有什么好处呢？

其实，函数的嵌套，主要有下面两个方面的作用。

第一，函数的嵌套能够保证内部函数的隐私。

内部函数只能被外部函数所调用和访问，不会暴露在全局作用域，因此，如果你的函数内部有一些隐私数据（比如数据库的用户、密码等），不想暴露在外，那你就可以使用函数的的嵌套，将其封装在内部函数中，只通过外部函数来访问。

比如：

```python
def connect_DB():
    def get_DB_configuration():
        ...
        return host, username, password
    conn = connector.connect(get_DB_configuration())
    return conn
```

这里的函数 get_DB_configuration，便是内部函数，它无法在 connect_DB() 函数以外被单独调用。

也就是说，下面这样的外部直接调用是错误的：

```python
get_DB_configuration()
# 输出
NameError: name 'get_DB_configuration' is not defined
```

第二，合理的使用函数嵌套，能够提高程序的运行效率。我们来看下面这个例子：

```python
def factorial(input):
    # validation check
    if not isinstance(input, int):
        raise Exception('input must be an integer.')
    if input < 0:
        raise Exception('input must be greater or equal to 0' )
    ...

    def inner_factorial(input):
        if input <= 1:
            return 1
        return input * inner_factorial(input-1)
    return inner_factorial(input)

print(factorial(5))
```

这里，使用递归的方式计算一个数的阶乘。因为在计算之前，需要检查输入是否合法，所以我写成了函数嵌套的形式，这样一来，输入是否合法就只用检查一次。

而如果不使用函数嵌套，那么每调用一次递归便会检查一次，这是没有必要的，也会降低程序的运行效率。

## 函数变量作用域

Python 函数中变量的作用域和其他语言类似。如果变量是在函数内部定义的，就称为局部变量，只在函数内部有效。

一旦函数执行完毕，局部变量就会被回收，无法访问。

相对应的，全局变量则定义在函数体外部，此时函数内部可以直接调用。

不过，我们不能在函数内部随意改变全局变量的值。

比如，下面的写法就是错误的：

```python
MIN_VALUE = 1
def validation_check(value):
    MIN_VALUE += 1
validation_check(5)

# 报错
# UnboundLocalError: local variable 'MIN_VALUE' referenced before assignment
```

这是因为，Python 的解释器会默认函数内部的变量为局部变量，但是又发现局部变量 MIN_VALUE 并没有声明，因此就无法执行相关操作。

所以，如果我们一定要在函数内部改变全局变量的值，就必须加上 `global` 这个声明：

In [32]:
MIN_VALUE = 1
def validation_check(value):
    global MIN_VALUE
    MIN_VALUE += 1
validation_check(5)

这里的 `global` 关键字，并不表示重新创建了一个全局变量 MIN_VALUE，而是告诉 Python 解释器，函数内部的变量 MIN_VALUE，就是之前定义的全局变量，并不是新的全局变量，也不是局部变量。

这样，程序就可以在函数内部访问全局变量，并修改它的值了。

另外，如果遇到函数内部局部变量和全局变量同名的情况，那么在函数内部，局部变量会覆盖全局变量，比如下面这种：

In [34]:
MIN_VALUE = 1
def validation_check(value):
    MIN_VALUE = 3
    print(MIN_VALUE)
validation_check(5)

3


类似的，对于嵌套函数来说，内部函数可以访问外部函数定义的变量，但是无法修改，若要修改，必须加上 `nonlocal` 这个关键字：

In [39]:
def outer():
    x = "local"
    def inner():
        nonlocal x # nonlocal 关键字表示这里的 x 就是外部函数 outer 定义的变量 x
        x = 'nonlocal'
        print("inner:", x)
    inner()
    print("outer:", x)
    
outer()

inner: nonlocal
outer: nonlocal


如果不加上 `nonlocal` 这个关键字，而内部函数的变量又和外部函数变量同名，那么同样的，内部函数变量会覆盖外部函数的变量。

```python
# 输出
inner: nonlocal
outer: local
```

## 闭包

闭包（closure）其实和刚刚讲的嵌套函数类似，不同的是，这里外部函数返回的是一个函数，而不是一个具体的值。

返回的函数通常赋于一个变量，这个变量可以在后面被继续执行调用。

比如，我们想计算一个数的 n 次幂，用闭包可以写成下面的代码：

In [41]:
def nth_power(exponent):
    def exponent_of(base):
        return base ** exponent
    return exponent_of # 返回值是 exponent_of 函数

square = nth_power(2) # 计算一个数的平方
cube = nth_power(3) # 计算一个数的立方

print(square)
print(cube)

print(square(2))  # 计算2的平方
print(cube(2))  # 计算2的立方

<function nth_power.<locals>.exponent_of at 0x000001DC2FD330D0>
<function nth_power.<locals>.exponent_of at 0x000001DC2FD33280>
4
8


这里外部函数 nth_power() 返回值，是函数 exponent_of()，而不是一个具体的数值。

需要注意的是，在执行完square = nth_power(2)和cube = nth_power(3)后，外部函数 nth_power() 的参数 exponent，仍然会被内部函数 exponent_of() 记住。

这样，之后我们调用 square(2) 或者 cube(2) 时，程序就能顺利地输出结果，而不会报错说参数 exponent 没有定义了。

看到这里，你也许会思考，为什么要闭包呢？上面的程序，我也可以写成下面的形式啊！

```python
def nth_power_rewrite(base, exponent):
    return base ** exponent
```

确实可以，不过，要知道，使用闭包的一个原因，是让程序变得更简洁易读。

设想一下，比如你需要计算很多个数的平方，那么你觉得写成下面哪一种形式更好呢？

```python
# 不适用闭包
res1 = nth_power_rewrite(base1, 2)
res2 = nth_power_rewrite(base2, 2)
res3 = nth_power_rewrite(base3, 2)
...
# 使用闭包
square = nth_power(2)
res1 = square(base1)
res2 = square(base2)
res3 = square(base3)
...
```

显然是第二种，是不是？首先直观来看，第二种形式，让你每次调用函数都可以少输入一个参数，表达更为简洁。

其次，和上面讲到的嵌套函数优点类似，函数开头需要做一些额外工作，而你又需要多次调用这个函数时，将那些额外工作的代码放在外部函数，就可以减少多次调用导致的不必要的开销，提高程序的运行效率。

另外还有一点，后面再讲，闭包常常和装饰器（decorator）一起使用。

##  总结

1. Python 中函数的参数可以接受任意的数据类型，使用起来需要注意，必要时请在函数开头加入数据类型的检查；
2. 和其他语言不同，Python 中函数的参数可以设定默认值；
3. 嵌套函数的使用，能保证数据的隐私性，提高程序运行效率；
4. 合理地使用闭包，则可以简化程序的复杂度，提高可读性。

# 匿名函数

不过，除了常规函数，你应该也会在代码中见到一些“非常规”函数，它们往往很简短，就一行，并且有个很酷炫的名字——`lambda`，没错，这就是匿名函数。

匿名函数在实际工作中同样举足轻重，正确地运用匿名函数，能让我们的代码更简洁、易读。

## 匿名函数基础

`lambda argument1, argument2,... argumentN : expression`

我们可以看到，匿名函数的关键字是 lambda，之后是一系列的参数，然后用冒号隔开，最后则是由这些参数组成的表达式。我们通过几个例子看一下它的用法：

In [42]:
square = lambda x: x**2
square(3)

9

这里的匿名函数只输入一个参数 x，输出则是输入 x 的平方。因此当输入是 3 时，输出便是 9。

如果把这个匿名函数写成常规函数的形式，则是下面这样：

In [43]:
def square(x):
    return x**2
square(3)

9

可以看到，匿名函数 lambda 和常规函数一样，返回的都是一个函数对象（function object），它们的用法也极其相似，不过还是有下面几点区别。

- 第一，lambda 是一个表达式（expression），并不是一个语句（statement）。

    所谓的表达式，就是用一系列“公式”去表达一个东西，比如x + 2、 x**2等等；
    
    而所谓的语句，则一定是完成了某些功能，比如赋值语句x = 1完成了赋值，print 语句 print(x) 完成了打印，条件语句 if x < 0:完成了选择功能等等。
    
    因此，lambda 可以用在一些常规函数 def 不能用的地方，比如，lambda 可以用在列表内部，而常规函数却不能：

In [44]:
[(lambda x: x*x)(x) for x in range(10)]

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

再比如，lambda 可以被用作某些函数的参数，而常规函数 def 也不能：

In [45]:
l = [(1, 20), (3, 0), (9, 10), (2, -1)]
l.sort(key=lambda x: x[1])  # 按列表中元祖的第二个元素排序
print(l)

[(2, -1), (3, 0), (9, 10), (1, 20)]


常规函数 def 必须通过其函数名被调用，因此必须首先被定义。但是作为一个表达式的 lambda ，返回的函数对象就不需要名字了。

- 第二，lambda 的主体是只有一行的简单表达式，并不能扩展成一个多行的代码块。

    这其实是出于设计的考虑。Python 之所以发明 lambda，就是为了让它和常规函数各司其职：lambda 专注于简单的任务，而常规函数则负责更复杂的多行逻辑。
    
    关于这点，Python 之父 Guido van Rossum 曾发了一篇文章解释，有兴趣的话可以自己阅读。

## 为什么要使用匿名函数？

理论上来说，Python 中有匿名函数的地方，都可以被替换成等价的其他表达形式。

一个Python 程序是可以不用任何匿名函数的。

不过，在一些情况下，使用匿名函数 lambda，可以帮助我们大大简化代码的复杂度，提高代码的可读性。

通常，我们用函数的目的无非是这么几点：

1. 减少代码的重复性；

2. 模块化代码。

对于第一点，如果你的程序在不同地方包含了相同的代码，那么我们就会把这部分相同的代码写成一个函数，并为它取一个名字，方便在相对应的不同地方调用。

对于第二点，如果你的一块儿代码是为了实现一个功能，但内容非常多，写在一起降低了代码的可读性，那么通常我们也会把这部分代码单独写成一个函数，然后加以调用。

不过，再试想一下这样的情况。你需要一个函数，但它非常简短，只需要一行就能完成；同时它在程序中只被调用一次而已。

那么请问，你还需要像常规函数一样，给它一个定义和名字吗？

答案当然是否定的。这种情况下，函数就可以是匿名的，你只需要在适当的地方定义并使用，就能让匿名函数发挥作用了。

举个例子，如果你想对一个列表中的所有元素做平方操作，而这个操作在你的程序中只需要进行一次，用 lambda 函数可以表示成下面这样：

In [49]:
# lambda
s = map(lambda x: x**2, [1, 2, 3, 4, 5])
print(*s)

1 4 9 16 25


In [50]:
def square(x):
    return x**2
s = map(square, [1, 2, 3, 4, 5])
print(*s)

1 4 9 16 25


- 简单解释一下:
    
    函数 map(function, iterable) 的第一个参数是函数对象，第二个参数是一个可以遍历的集合，它表示对 iterable 的每一个元素，都运用 function 这个函数。
    
    两者一对比，我们很明显地发现，lambda 函数让代码更加简洁明了。

## Python 函数式编程

最后，我们一起来看一下，Python 的函数式编程特性，这与我们今天所讲的匿名函数lambda，有着密切的联系。

所谓函数式编程，是指代码中每一块都是不可变的（immutable），都由纯函数（pure function）的形式组成。

这里的纯函数，是指函数本身相互独立、互不影响，对于相同的输入，总会有相同的输出，没有任何副作用。

举个很简单的例子，比如对于一个列表，我想让列表中的元素值都变为原来的两倍，我们可以写成下面的形式：

In [51]:
def multiply_2(l):
    for index in range(0, len(l)):
        l[index] *= 2
    return l

这段代码就不是一个纯函数的形式，因为列表中元素的值被改变了，如果我多次调用multiply_2() 这个函数，那么每次得到的结果都不一样。

要想让它成为一个纯函数的形式，就得写成下面这种形式，重新创建一个新的列表并返回。

In [53]:
def multiply_2_pure(l):
    new_list = []
    for item in l:
        new_list.append(item * 2)
    return new_list

函数式编程的优点，主要在于其纯函数和不可变的特性使程序更加健壮，易于调试（debug）和测试；缺点主要在于限制多，难写。

当然，Python 不同于一些语言（比如Scala），它并不是一门函数式编程语言，不过，Python 也提供了一些函数式编程的特性，值得我们了解和学习。

Python 主要提供了这么几个函数：map()、filter() 和 reduce()，通常结合匿名函数 lambda 一起使用。这些都是需要掌握的东西，接下来逐一介绍。

- map(function, iterable)

    首先是 map(function, iterable) 函数，前面的例子提到过，它表示，对 iterable 中的每个元素，都运用 function 这个函数，最后返回一个新的可遍历的集合。
    
    比如刚才列表的例子，要对列表中的每个元素乘以 2，那么用 map 就可以表示为下面这样：

In [56]:
l = [1, 2, 3, 4, 5]
new_list = map(lambda x: x * 2, l)  # [2， 4， 6， 8， 10]
print(*new_list)

2 4 6 8 10


我们可以以 map() 函数为例，看一下 Python 提供的函数式编程接口的性能。还是同样的列表例子，它还可以用 for 循环和 list comprehension（目前没有统一中文叫法，你也可以直译为列表理解等）实现，

我们来比较一下它们的速度：

```python
python3 -mtimeit -s'xs=range(1000000)' 'map(lambda x: x*2, xs)'
2000000 loops, best of 5: 171 nsec per loop
python3 -mtimeit -s'xs=range(1000000)' '[x * 2 for x in xs]'
5 loops, best of 5: 62.9 msec per loop
python3 -mtimeit -s'xs=range(1000000)' 'l = []' 'for i in xs: l.append(i * 2)'
5 loops, best of 5: 92.7 msec per loop
``` 

你可以看到，map() 是最快的。因为 map() 函数直接由 C 语言写的，运行时不需要通过 Python 解释器间接调用，并且内部做了诸多优化，所以运行速度最快。

- filter(function, iterable)

    接下来来看 filter(function, iterable) 函数，它和 map 函数类似，function 同样表示一个函数对象。
    
    filter() 函数表示对 iterable 中的每个元素，都使用 function 判断，并返回True 或者 False，最后将返回 True 的元素组成一个新的可遍历的集合。
    
    举个例子，比如我要返回一个列表中的所有偶数，可以写成下面这样：

In [58]:
l = [1, 2, 3, 4, 5]
new_list = filter(lambda x: x % 2 == 0, l)  # [2, 4
print(*new_list)

2 4


- reduce(function, iterable)

    reduce() 函数在 python2 中是内置函数，在 python3 中放到了 functools 模块下
    
    它通常用来对一个集合做一些累积操作,function 同样是一个函数对象，规定它有两个参数，表示对 iterable 中的每个元素以及上一次调用后的结果，运用 function 进行计算，所以最后返回的是一个单独的数值。
    
    举个例子，我想要计算某个列表元素的乘积，就可以用 reduce() 函数来表示：

In [60]:
from functools import reduce
l = [1, 2, 3, 4, 5]
product = reduce(lambda x, y: x * y, l) # 1*2*3*4*5 = 120
print(product)

120


当然，类似的，filter() 和 reduce() 的功能，也可以用 for 循环或者 list comprehension 来实现。

通常来说，在我们想对集合中的元素进行一些操作时，如果操作非常简单，比如相加、累积这种，那么我们优先考虑 map()、filter()、reduce() 这类或者 list comprehension 的形式。

至于这两种方式的选择：

在数据量非常多的情况下，比如机器学习的应用，那我们一般更倾向于函数式编程的表示，因为效率更高；

在数据量不多的情况下，并且你想要程序更加 Pythonic 的话，那么 list comprehension 也不失为一个好选择。

不过，如果你要对集合中的元素，做一些比较复杂的操作，那么，考虑到代码的可读性，我们通常会使用 for 循环，这样更加清晰明了。

## 思考题

1. 如果让你对一个字典，根据值进行由高到低的排序，该怎么做呢？

In [70]:
d = {'mike': 10, 'lucy': 2, 'ben': 30}
sorted(d.items(), key=lambda x:x[1], reverse=True)

[('ben', 30), ('mike', 10), ('lucy', 2)]

# 面向对象

## 什么是对象

In [2]:
class Document():
    def __init__(self, title, author, context):
        print('init function called')
        self.title = title
        self.author = author
        self.__context = context # __ 开头的属性是私有属性
    def get_context_length(self):
        return len(self.__context)
    def intercept_context(self, length):
        self.__context = self.__context[:length]
        
harry_potter_book = Document('Harry Potter', 'J. K. Rowling', '... Forever Do not believe')

print(harry_potter_book.title)
print(harry_potter_book.author)
print(harry_potter_book.get_context_length())


harry_potter_book.intercept_context(10)
print(harry_potter_book.get_context_length())
# print(harry_potter_book.__context)
# AttributeError: 'Document' object has no attribute '__context'

init function called
Harry Potter
J. K. Rowling
26
10


类：一群有着相似性的事物的集合，这里对应 Python 的 class。

对象：集合中的一个事物，这里对应由 class 生成的某一个 object，比如代码中的harry_potter_book。

属性：对象的某个静态特征，比如上述代码中的 title、author 和 __context。

函数：对象的某个动态能力，比如上述代码中的 intercept_context () 函数。

当然，这样的说法既不严谨，也不充分，但如果你对面向对象编程完全不了解，它们可以让你迅速有一个直观的了解。

- 类，一群有着相同属性和函数的对象的集合。

这里唯一需要强调的一点是，如果一个属性以 __ `（注意，此处有两个 _）` 开头，我们就默认这个属性是私有属性。

私有属性，是指不希望在类的函数之外的地方被访问和修改的属性。

所以，你可以看到，title 和 author 能够很自由地被打印出来，但是`print(harry_potter_book.__context)`就会报错。

## 对象的进阶应用

1. 如何在一个类中定义一些常量，每个对象都可以方便访问这些常量而不用重新构造？

2. 如果一个函数不涉及到访问修改这个类的属性，而放到类外面有点不恰当，怎么做才能更优雅呢？

3. 既然类是一群相似的对象的集合，那么可不可以是一群相似的类的集合呢？

前两个问题很好解决，不过，它们涉及到一些常用的代码规范。

In [8]:
class Document():
    WELCOME_STR = 'Welcome! The context for this book is {}.'
    def __init__(self, title, author, context):
        print('init function called')
        self.title = title
        self.author = author
        self.__context = context
    # 类函数
    @classmethod
    def create_empty_book(cls, title, author):
        return cls(title=title, author=author, context='nothing')
    
    # 成员函数
    def get_context_length(self):
        return len(self.__context)
    
    # 静态函数
    @staticmethod
    def get_welcome(context):
        return Document.WELCOME_STR.format(context)

empty_book = Document.create_empty_book('What Every Man Thinks About Apart from Sex', 'Potter')
print(empty_book.get_context_length())
print(empty_book.get_welcome('indeed nothing'))                                           

init function called
7
Welcome! The context for this book is indeed nothing.


第一个问题，在 Python 的类里，你只需要和函数并列地声明并赋值，就可以实现这一点，例如这段代码中的 WELCOME_STR。

一种很常规的做法，是用全大写来表示常量，因此我们可以在类中使用 self.WELCOME_STR ，或者在类外使用 Entity.WELCOME_STR ，来表达这个字符串。

而针对第二个问题，我们提出了类函数、成员函数和静态函数三个概念。

它们其实很好理解，前两者产生的影响是动态的，能够访问或者修改对象的属性；

而静态函数则与类没有什么关联，最明显的特征便是，静态函数的第一个参数没有任何特殊性。