# 函数式编程

我们一直在强调，Python是面向对象的解释型程序设计语言。提起函数式编程，大家可能不会想到Python。不过Python是支持多范式编程，也支持函数式编程，而且应用非常广泛。

在Python中，万物皆对象，这也导致有些Python程序员不知道Python 的函数式编程。这里必须向大家道歉，要知道，函数式编程可以写出更为精确和高效的代码。

以函数式编程时，实现的函数最好是纯函数式函数。有点绕口，主要意思就是，一个函数接收参数然后输出结果，不会保留任何状态。

## 迭代器



### 可迭代对象（Iterable）

对字符串、列表、元组等对象，可以用`for`循环来遍历它们的的每一个元素，也称之为迭代。能够用来迭代的对象称为可迭代对象（Iterable）。

通过检查是否定义了`__iter__`方法来判断可迭代对象。使用内置函数`hasattr()`可以检查检查字符串、列表、元组、字典、集合等对象是否是可迭代对象

In [135]:
print(hasattr(str, '__iter__'))
print(hasattr(list, '__iter__'))
print(hasattr(tuple, '__iter__'))
print(hasattr(dict, '__iter__'))
print(hasattr(set, '__iter__'))

True
True
True
True
True


显然整数应该不是可迭代对象

In [136]:
print(hasattr(int, '__iter__'))

False


### 迭代器对象（Iterator）

迭代器(Iterator)也是一种可以用`for`循环进行遍历的对象，此外还能使用内置函数`next()`依次返回元素。访问迭代器对象的元素只能从第一个元素，直到访问完所有元素，最后引起`StopIteration`异常。迭代器只能往后遍历不能回溯。

通过检查是否定义`__next__`方法来判断迭代器对象。

In [138]:
print(hasattr(str, '__next__'))
print(hasattr(list, '__next__'))
print(hasattr(tuple, '__next__'))
s = (x*x for x in range(3))
print(hasattr(s, '__next__'))

False
False
False
True


从上可知，字符串、列表、元组是可迭代对象但不是迭代器，“元组推导式”是迭代器。使用`next()`函数来试试返回结果。

In [139]:
print(next(s))
print(next(s))
print(next(s))
print(next(s))

0
1
4


StopIteration: 

使用内置函数`iter()`可以把可迭代对象转化为迭代器。

In [140]:
xs = [i*i for i in range(3)]
ixs = iter(xs)
print(type(xs), type(ixs))

<class 'list'> <class 'list_iterator'>


In [141]:
print(next(ixs))
print(next(ixs))
print(next(ixs))
print(next(ixs))

0
1
4


StopIteration: 

## 生成器（generator）


### 有限的序列

软件是运行在计算机硬件上，超出硬件的限制就会出现错误，比较常见的如内存溢出错误。假如要创建一个大的列表，就需要创建很多个对象，自然会耗费大量的内存。如果超出内存限制就会出现内存溢出异常。

在Linux系统，使用`ulimit`命令把内存限制到256M。
```sh
ulimit -v 262144
```

然后启动Python程序，在提示符下运行如下语句：
```python
>>> alist = list(range(1024*1024))
>>> alist = list(range(1024*1024*1024))
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
MemoryError
```

这证明，限制内存后，是无法创建1024M个对象。

如果在Python或Jupyter Notebook中试图分配超过物理内存大小，进程会被直接杀掉。

In [None]:
# Don't run the statement. The kernal will be killed.
# alist = list(range(1024*1024*1024*8))

### 无限的生成器

在实际工作场景中，有时会需要得到非常众多的对象，然而并不需要一次性全部获得。Python提供了生成器的方法，来依次得到不同对象。生成器（generator）是一个对象，通过调用内置函数`next()`可以依次返回不同值。可以使用定义函数的方法来创建一个生成器，所要做的工作仅仅是使用`yield`语句。

In [2]:
def mygenerator():
    print('generator 1')
    yield 1
    print('generator 2')
    yield 3.1415
    print('generator 3')
    yield 'string'

In [3]:
print(type(mygenerator))
print(mygenerator)

<class 'function'>
<function mygenerator at 0x7fa60829eea0>


`mygenerator`类型仍然是函数。不要着急，使用自省方法来检查一下，调用函数会返回什么对象。

In [4]:
gen = mygenerator()

print(type(gen))
print(gen)

<class 'generator'>
<generator object mygenerator at 0x7fa60828edb0>


当Python检测到函数体中使用了`yield`语句,就将该函数标记为生成器函数。从上可知，函数返回的就是生成器对象。使用`dir`检查生成器对象。

In [5]:
dir(gen)

['__class__',
 '__del__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__lt__',
 '__name__',
 '__ne__',
 '__new__',
 '__next__',
 '__qualname__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'close',
 'gi_code',
 'gi_frame',
 'gi_running',
 'gi_yieldfrom',
 'send',
 'throw']

生成器对象包含了`__iter__`和`__next__`方法，也就意味着可以进行迭代，也可以调用内置函数`next`。每次调用`next`会依次返回不同的值，直到最后引起`StopIteration`异常。 

In [5]:
print(next(gen))
print(next(gen))

generator 1
1
generator 2
3.1415


In [6]:
print(next(gen))

generator 1
1


In [9]:
print(next(gen))

StopIteration: 

从运行结果可知，当函数执行到`yield`语句时，就会像遇到`return`那样返回表达式的结果。但有一个显著不同时，Python解释器会保存当前运行位置，等下一次调用`next`时，继续往下运行。

使用自省库`inspect`来检查生成器函数。

In [10]:
import inspect

print(inspect.isfunction(mygenerator))
print(inspect.isgeneratorfunction(mygenerator))

True
True


### 简单应用

有了生成器，就可以应对和操作大规模数据集。回到刚开始的需求，动态创建一个大规模字符串序列。

In [12]:
def srange(n):
    i = 0
    while i < n:
        yield str(i)
        i += 1

In [13]:
for s in srange(1024*1024*8):
    if s == '8000000':
        print(s)

8000000


生成器通过在运行时生成值而非一次性生成所有值，大大减少了内存了消耗，使得可以处理大规模数据集和循环。从某种程度上讲，使用时间换空间。

### 内置的生成器

在[列表推导式](../chap06/comprehensions.ipynb)章节中，我们提到“元组推导式”实际上是生成器。

In [14]:
xs = (i*i for i in range(3))

In [15]:
print(type(xs), xs)

<class 'generator'> <generator object <genexpr> at 0x7fa608226f10>


In [16]:
next(xs)
next(xs)
next(xs)
next(xs)

StopIteration: 

Python还有一个内置函数`range()`中，与生成器函数功能有些类似，但它并不是生成器，也不是迭代器对象。

`range()`的语法是
```
range(stop) -> range object
range(start, stop[, step]) -> range object
``` 

`range()`返回一个`range`对象。

In [17]:
xs = range(3)
ys = range(1, 300, 100)
print(type(xs), type(ys))
print(xs, ys)

<class 'range'> <class 'range'>
range(0, 3) range(1, 300, 100)


In [18]:
print(hasattr(xs, '__iter__'))
print(hasattr(xs, '__next__'))

True
False


对`range`对象可以使用`for`循环进行迭代，但不能使用`next`调用。

In [19]:
for y in ys:
    print(y)

1
101
201


In [20]:
next(xs)

TypeError: 'range' object is not an iterator

## 函数式函数

Python有一些内置的函数，实现了函数式编程。
- `map()`
- `filter()`
- `enumerate()`
- `sorted()`
- `any()`
- `all()`
- `zip()`

### `map()`

内置函数`map()`的语法是
```
map(func, *iterables)
```

该函数会对可迭代对象的每一个元素应用于传入的函数，返回可迭代的`map`对象。

In [21]:
res = map(lambda x: 'I love {}'.format(x), ['Python', 'C', 'C++'])
print(type(res), res)
for x in res:
    print(x)

<class 'map'> <map object at 0x7fa6081ceac8>
I love Python
I love C
I love C++


### `filter()`

内置函数`filter()`的语法是：
```
filter(function or None, iterable)
```

该函数会对可迭代对象的每一个元素应用`function`，对返回结果进行过滤，最后返回一个可迭代的`filter`对象。

In [22]:
res  = filter(lambda x: x.endswith('.py'), ['helloworld.py', 'filter.py', 'helloworld.cpp'])
print(type(res), res)
for x in res:
    print(x)

<class 'filter'> <filter object at 0x7fa6081d75c0>
helloworld.py
filter.py


### `enumerate()`

内置函数`enumerate()`的语法是：
```
enumerate(iterable[, start])
```

对于传入的可迭代对象，`enumerate()`会返回一个可迭代的`enumerate`对象，每个元素是一个元组，包括整数索引和传入可迭代对象的元素。

In [24]:
alist = ['Python', 'C', 'C++']
res = enumerate(alist, 1)
print(type(res), res)
for i, item in res:
    print(i, item)

<class 'enumerate'> <enumerate object at 0x7fa6081da360>
1 Python
2 C
3 C++


### `sorted`

`sorted`的语法是：
```
sorted(iterable, key=None, reverse=False)
```

该函数对传入的可迭代对象进行排序，返回一个新的列表。参数`key`指定可调用对象，`reverse`指定是否倒序排列。

In [25]:
res = sorted(['python', 'Python3', 'Cplus', 'c'])
print(type(res))
print(res)

<class 'list'>
['Cplus', 'Python3', 'c', 'python']


In [26]:
# 倒序排列
sorted(['python', 'Python3', 'Cplus', 'c'], key=str.upper, reverse=True)

['Python3', 'python', 'Cplus', 'c']

### `all()`


`all()`的语法是：
```
all(iterable)
```

该函数传入一个可迭代对象，全部元素`bool`运算值为`True`则返回`True`，否则返回`False`。

In [27]:
all([True, 1, 'a string'])

True

### `any()`


`any()`的语法是：
```
any(iterable)
```

该函数传入一个可迭代对象，任一元素的`bool`运算值为`True`则返回`True`，否则返回`False`。

In [28]:
any([False, 0, 0.0, 0+0j, '', [], (), {}, set(), None])

False

### `zip()`

`zip()`的语法是：
```
zip(iter1 [,iter2 [...]])
```

该函数传入多个序列，然后组合成元组。返回一个可迭代的`zip``对象。

In [37]:
langs = ['Python', 'C', 'C++']
authors = 'Guido van Rossum', 'Dennis Ritchie', 'Bjarne Stroustrup'
grades = range(3)

In [38]:
res = zip(langs, authors, grades)
print(type(res), res)
for x in res:
    print(x)

<class 'zip'> <zip object at 0x7fa6081dbf88>
('Python', 'Guido van Rossum', 0)
('C', 'Dennis Ritchie', 1)
('C++', 'Bjarne Stroustrup', 2)


Python标准库`itertools`模块提供更多的有用函数。在标准库一章中会继续介绍。