# coroutine(协程)理解

通常所说的协程Coroutine其实是corporate routine的缩写，直接翻译为协同的例程，一般我们都简称为协程。

在linux系统中，线程就是轻量级的进程，而我们通常也把协程称为轻量级的线程即微线程或协程是一种用户态的轻量级线程。

协程拥有自己的寄存器上下文和栈。协程调度切换时，将寄存器上下文和栈保存到其他地方，在切回来的时候，恢复先前保存的寄存器上下文和栈。因此：
协程能保留上一次调用时的状态（即所有局部状态的一个特定组合），每次过程重入时，就相当于进入上一次调用的状态，换种说法：进入上一次离开时所处逻辑流的位置。

协程的好处：

* 无需线程上下文切换的开销
* 无需原子操作锁定及同步的开销
* 方便切换控制流，简化编程模型
* 高并发+高扩展性+低成本：一个CPU支持上万的协程都不是问题。所以很适合用于高并发处理。

缺点：

* 无法利用多核资源：协程的本质是个单线程,它不能同时将 单个CPU 的多个核用上,协程需要和进程配合才能运行在多CPU上.当然我们日常所编写的绝大部分应用都没有这个必要，除非是cpu密集型应用。
* 进行阻塞（Blocking）操作（如IO时）会阻塞掉整个程序

### 进程和协程

下面对比一下进程和协程的相同点和不同点：

相同点：
我们都可以把他们看做是一种执行流，执行流可以挂起，并且后面可以在你挂起的地方恢复执行，这实际上都可以看做是continuation,关于这个我们可以通过在linux上运行一个hello程序来理解：

![](images/2.png)

shell进程和hello进程：

1. 开始，shell进程在运行，等待命令行的输入
2. 执行hello程序，shell通过系统调用来执行我们的请求，这个时候系统调用会将控制权传递给操作系统。操作系统保存shell进程的上下文，创建一个hello进程以及其上下文并将控制权给新的hello进程。
3. hello进程终止后，操作系统恢复shell进程的上下文，并将控制权传回给shell进程
4. shell进程继续等待下个命令的输入

当我们挂起一个执行流的时，我们要保存的东西：

1. 栈， 其实在你切换前你的局部变量，以及要函数的调用都需要保存，否则都无法恢复
2. 寄存器状态,这个其实用于当你的执行流恢复后要做什么

而寄存器和栈的结合就可以理解为上下文，
上下文切换的理解：CPU看上去像是在并发的执行多个进程，这是通过处理器在进程之间切换来实现的，操作系统实现这种交错执行的机制称为上下文切换

操作系统保持跟踪进程运行所需的所有状态信息。这种状态，就是上下文。

在任何一个时刻，操作系统都只能执行一个进程代码，当操作系统决定把控制权从当前进程转移到某个新进程时，就会进行上下文切换，即保存当前进程的上下文，恢复新进程的上下文，然后将控制权传递到新进程，新进程就会从它上次停止的地方开始。

不同点：

1. 执行流的调度者不同，进程是内核调度，而协程是在用户态调度，也就是说进程的上下文是在内核态保存恢复的，而协程是在用户态保存恢复的，很显然用户态的代价更低
2. 进程会被强占，而协程不会，也就是说协程如果不主动让出CPU，那么其他的协程，就没有执行的机会。
3. 对内存的占用不同，实际上协程可以只需要4K的栈就足够了，而进程占用的内存要大的多
4. 从操作系统的角度讲，多协程的程序是单进程，单协程

线程和协程

1. 线程之间需要上下文切换成本相对协程来说是比较高的，尤其在开启线程较多时，但协程的切换成本非常低。
2. 同样的线程的切换是靠操作系统来调度，而协程的执行由我们自己控制

### yield在协程中的用法

* 在协程中yield通常出现在表达式的右边，可以产出值, 例如：`data = yield x`
* 也可以不产出值, 如果yield关键字后面没有表达式，那么生成器产出的值为None,例如: `data = yield`
* 协程可以从调用方接受数据，调用方是通过`send(data)`的方式把数据提供给协程使用，而不是`next(...)`函数，通常调用方会把值推送给协程。
* 协程可以把控制权让给中心调度程序，从而激活其他的协程

所以总体上在协程中把yield看做是**控制流程的方式**。

### 协程运行过程

In [8]:
def simple_coroutine():
    print('---> coroutine started')
    x = yield
    print('---> coroutine received:', x)
    
my_coro = simple_coroutine()
print('定义一个生成器')
print(my_coro)
print('启动激活生成器')
print(next(my_coro))
print('向生成器传递值')
print(my_coro.send(10))

定义一个生成器
<generator object simple_coroutine at 0x000002A80A6D6048>
启动激活生成器
---> coroutine started
None
向生成器传递值
---> coroutine received: 10


StopIteration: 

对上述例子的分析：
* yield 的右边没有表达式，所以这里产出的值是None

* 刚开始先调用了`next(...)`是因为这个时候生成器还没有启动，没有停在yield那里，这个时候也是无法通过send发送数据。所以当我们通过`next(...)`激活协程后，程序就会运行到`x = yield`，这里有个问题我们需要**注意**，`x = yield`这个表达式的计算过程是先计算等号右边的内容，然后在进行赋值，所以当激活生成器后，程序会停在yield这里，**但并没有给x赋值**。

* 当我们调用send方法后yield会收到这个值并赋值给x,而当程序运行到协程定义体的末尾时和用生成器的时候一样会抛出StopIteration异常

如果协程没有通过`next(...)`激活(同样我们可以通过`send(None)`的方式激活)，但是我们直接send，会提示如下错误：

In [10]:
def simple_coroutine():
    print('---> coroutine started')
    x = yield
    print('---> coroutine received:', x)
    
my_coro = simple_coroutine()
print('定义一个生成器')

my_coro.send(12)

定义一个生成器


TypeError: can't send non-None value to a just-started generator

关于调用`next(...)`函数这一步通常称为”预激(prime)“协程，即让协程向前执行到第一个yield表达式，准备好作为活跃的协程使用

### 协程状态

协程在运行过程中有四个状态：

1. GEN_CREATE:等待开始执行
2. GEN_RUNNING:解释器正在执行，这个状态一般看不到
3. GEN_SUSPENDED:在yield表达式处暂停
4. GEN_CLOSED:执行结束

In [24]:
from inspect import getgeneratorstate

def simple_coro(a):
    print('-->started: a=', a)
    b = yield a
    print('-->recevied: b=', b)
    c = yield a+b
    print('-->recevied: c=', c)
    
coro = simple_coro(10)

print(getgeneratorstate(coro))
print(next(coro))
print(getgeneratorstate(coro))
print(coro.send(20))

try:
    coro.send(30)
except StopIteration as e:
    print(e)
    print(e.value)
    
print(getgeneratorstate(coro))

GEN_CREATED
-->started: a= 10
10
GEN_SUSPENDED
-->recevied: b= 20
30
-->recevied: c= 30

None
GEN_CLOSED


想要开始使用协程的时候必须通过`next(...)`方式激活协程，如果不预激，这个协程就无法使用，

如果哪天在代码中遗忘了那么就出问题了，所以有一种预激协程的装饰器，预激装饰器的演示例子::

In [22]:
from functools import wraps

def coroutine(func):
    @wraps(func)
    def primer(*args, **kwargs):
        gen = func(*args, **kwargs)
        next(gen)
        return gen
    return primer

@coroutine
def averager():
    total = 0.0
    count= 0
    average = None
    while True:
        term = yield average
        total += term
        count += 1
        average = total / count
  
coro_avg = averager()
from inspect import getgeneratorstate
print(getgeneratorstate(coro_avg))
print(coro_avg.send(10))
print(coro_avg.send(20))
print(coro_avg.send(30))


GEN_SUSPENDED
10.0
15.0
20.0


关于预激，在使用`yield from`句法调用协程的时候，会自动预激活，这样其实与我们上面定义的coroutine装饰器是不兼容的，在python3.4里面的asyncio.coroutine装饰器不会预激协程，因此兼容yield from

### 中止协程和异常处理

协程中为处理的异常会向上冒泡,传给next函数或send函数的调用方(即触发协程的对象)

如果我们send一个错误的数据就会报错，并且这个时候协程就被终止了,协程状态是GEN_CLOSED.

从python2.5开始客户端代码在生成器对象上调用两个方法: 分别为：throw和close，显示的把异常发送给协程

generator.throw:会让生成器在暂停的yield表达式处抛出指定的异常，
* 如果生成器处理了抛出的异常，代码会向前执行到下一个yield表达式，而产出的值会成为调用generator.throw方法代码的返回值。
* 如果生成器没有处理抛出的异常，异常会向上冒泡，传到调用方的上下文中。

generator.close:会让生成器在暂停的yield表达式处抛出GeneratorExit异常。
* 如果生成器没有处理这个异常，或者抛出了StopIteration异常，调用方不会报错
* 如果收到GeneratorExit异常，生成器一定不能产出值，否则解释器会抛出RuntimeError异常。生成器抛出的异常会向上冒泡，传给调用方。

In [26]:
class DemoException(Exception):
    """定义异常类型"""
    pass

def demo_exc_handling():
    print('--> coroutine started')
    while True:
        try:
            x = yield
        except DemoException:
            print('DemoException handled. continuing...')
        else:
            print('-->coroutiine received:{!r}'.format(x))
    raise RuntimeError('this line should never run.')
 

exc_coro = demo_exc_handling()

next(exc_coro)

exc_coro.send(10)

exc_coro.send(20)

exc_coro.send(30)

exc_coro.throw(TypeError)

from inspect import getgeneratorstate

getgeneratorstate(exc_coro)

--> coroutine started
-->coroutiine received:10
-->coroutiine received:20
-->coroutiine received:30


TypeError: 

当传入我们定义的异常时不会影响协程，协程不会停止，可以继续send,但是如果是没有处理的异常的时候，就会报错，并且协程会被终止

### 让协程返回值

In [27]:
from collections import namedtuple

Result = namedtuple('Result', 'colunt average')

def averager():
    total = 0.0
    count = 0
    average = None
    while True:
        term = yield
        if term is None:
            break
        total += term
        count += 1
        average = total / count
    return Result(count, average)

coro_avg = averager()

next(coro_avg)
coro_avg.send(10)
coro_avg.send(20)
coro_avg.send(30)

try:
    coro_avg.send(None)
except StopIteration as e:
    result = e.value
    print(result)

Result(colunt=3, average=20.0)


其实上面这种方式获取返回值比较麻烦，而`yield from`结构会自动捕获StopIteration异常，这种处理方式与for循环处理StopIteration异常的方式一样，

循环机制使我们更容易理解处理异常，对于`yield from`来说，解释器不仅会捕获StopIteration异常，还会把value属性的值变成`yield from`表达式的值.

### 关于yield from

* 在生成器中使用`yield from subgen()`时，subgen(子生成器)会获得控制权，把产出的值传给gen的调用方，即**调用方可以直接控制subgen,同时，gen会阻塞，等待subgen终止**

* `yield from x`表达式对x对象所做的**第一件事**是，调用`iter(x)`,从中获取迭代器，因此x可以是任何可迭代的对象

In [28]:
def gen():
    for c in 'AB':
        yield c
    for i in range(1, 3):
        yield i
        
print(list(gen()))

def gen2():
    yield from 'AB'
    yield from range(1, 3)
    
print(list(gen2()))

['A', 'B', 1, 2]
['A', 'B', 1, 2]


这两种的方式的结果是一样的，但是这样看来yield from更加简洁，

但是yield from的作用可不仅仅是替代产出值的嵌套for循环。

yield from的主要功能是打开双向通道，把最外层的调用方与最内层的子生成器连接起来，

这样二者可以直接发送和产出值，还可以直接传入异常，而不用再像之前那样在位于中间的协程中添加大量处理异常的代码

通过yield from还可以链接可迭代对象

![](images/1.png)

委派生成器在yield from 表达式处暂停时，调用方可以直接把数据发给子生成器，子生成器再把产出产出值发给调用方，子生成器返回之后，解释器会抛出StopIteration异常，并把返回值附加到异常对象上，此时委派生成器会恢复。

In [30]:
from collections import namedtuple

Result = namedtuple('Result', 'count average')

# 子生成器
def averager():
    total, count, average = 0.0, 0, None
    while True:
        term = yield
        if term is None: break;
        total += term
        count += 1
        average = total/count
    return Result(count, average)

# 委派生成器
def grouper(result, key):
    while True:
        result[key] = yield from averager()
        
    
# 客户端代码,即调用方
def main(data):
    results = {}
    for key, values in data.items():
        # 每次循环创建一个grouper,即委派生成器
        group = grouper(results, key)
        print(id(group))
        next(group)
        for value in values:
            group.send(value)
        group.send(None) # 这里表示要中止了
    
    report(results)
    
# 输出报告
def report(results):
    for key, result in sorted(results.items()):
        group, unit = key.split(';')
        print('{:2} {:5} average {:.2f}{}'.format(result.count, group, result.average, unit))
        
data = {
     'girls;kg':
         [40.9, 38.5, 44.3, 42.2, 45.2, 41.7, 44.5, 38.0, 40.6, 44.5],
     'girls;m':
         [1.6, 1.51, 1.4, 1.3, 1.41, 1.39, 1.33, 1.46, 1.45, 1.43],
     'boys;kg':
         [39.0, 40.8, 43.2, 40.8, 43.1, 38.6, 41.4, 40.6, 36.3],
     'boys;m':
         [1.38, 1.5, 1.32, 1.25, 1.37, 1.48, 1.25, 1.49, 1.46],
}

main(data)

2920752913312
2920752913752
2920752910760
2920752913312
 9 boys  average 40.42kg
 9 boys  average 1.39m
10 girls average 42.04kg
10 girls average 1.43m


关于上述代码着重解释一下关于委派生成器部分，这里的循环每次迭代时会新建一个averager实例，每个实例都是作为协程使用的生成器对象。

grouper发送的每个值都会经由yield from处理，通过管道传给averager实例。

grouper会在`yield from`表达式处暂停，等待averager实例处理客户端发来的值。

averager实例运行完毕后，返回的值会绑定到`results[key]`上，while 循环会不断创建averager实例，处理更多的值.

并且上述代码中的子生成器可以使用return 返回一个值，而返回的值会成为yield from表达式的值。

### 关于yield from的意义

关于yield from 六点重要的说明：

1. 子生成器产出的值都直接传给委派生成器的调用方(即客户端代码)

2. 使用send()方法发送给委派生成器的值都直接传给子生成器。如果发送的值为None,那么会给委派调用子生成器的__next__()方法。如果发送的值不是None,那么会调用子生成器的send方法，如果调用的方法抛出StopIteration异常，那么委派生成器恢复运行，任何其他异常都会向上冒泡，传给委派生成器

3. 生成器退出时，生成器(或子生成器)中的return expr表达式会出发StopIteration(expr)异常抛出

4. yield from表达式的值是**子生成器终止时**传给StopIteration异常的第一个参数。yield from 结构的另外两个特性与异常和终止有关。

5. 传入委派生成器的异常，除了GeneratorExit之外都传给子生成器的throw()方法。如果调用throw()方法时抛出StopIteration异常，委派生成器恢复运行。StopIteration之外的异常会向上冒泡，传给委派生成器

6. 如果把GeneratorExit异常传入委派生成器，或者在委派生成器上调用close()方法，那么在子生成器上调用clsoe()方法，如果它有的话。如果调用close()方法导致异常抛出，那么异常会向上冒泡，传给委派生成器，否则委派生成器抛出GeneratorExit异常

### 用yield实现简单的协程

In [None]:
import time
import queue


def consumer(name):
    print("--->starting eating baozi...")
    while True:
        new_baozi = yield
        print("[{}] is eating baozi {}".format(name, new_baozi))
        time.sleep(1)


def producer():
    r = con1.__next__()
    r = con2.__next__()
    print('[producer] con1 id = {}, con2 id = {}'.format(id(con1), id(con2)))
    n = 0
    while n < 5:
        n += 1
        con1.send(n)
        con2.send(n)
        print("[producer] is making baozi {}".format(n))


if __name__ == '__main__':
    con1 = consumer("c1")
    con2 = consumer("c2")
    print('con1 id = {}, con2 id = {}'.format(id(con1), id(con2)))
    p = producer()

$ python c:/Users/JS-E-PC-10182/Desktop/test04.py
con1 id = 1949340898056, con2 id = 1949340900256
--->starting eating baozi...
--->starting eating baozi...
[producer] con1 id = 1949340898056, con2 id = 1949340900256
[c1] is eating baozi 1
[c2] is eating baozi 1
[producer] is making baozi 1
[c1] is eating baozi 2
[c2] is eating baozi 2
[producer] is making baozi 2
[c1] is eating baozi 3
[c2] is eating baozi 3
[producer] is making baozi 3
[c1] is eating baozi 4
[c2] is eating baozi 4
[producer] is making baozi 4
[c1] is eating baozi 5
[c2] is eating baozi 5
[producer] is making baozi 5

### 使用greenlet

In [None]:
from greenlet import greenlet


def test1():
    print(10)
    gr2.switch()
    print(11)
    gr2.switch()


def test2():
    print(12)
    gr1.switch()
    print(13)


gr1 = greenlet(test1)  # 启动一个协程
gr2 = greenlet(test2)
gr1.switch()

$ python c:/Users/JS-E-PC-10182/Desktop/test04.py
10
12
11
13

这里的gr1.switch()是手动切换