期物（future）的概念：future指一种对象，表示异步执行的操作。

在I/O密集型应用中，并发策略（使用线程或asyncio包），吞吐量都比依次执行的代码高很多。

In [11]:
import os
import time
import sys
import requests

POP20_CC = ('CN IN US ID BR PK NG BD RU JP MX PH VN ET EG DE IR TR CD FR').split()
print(f'len(POP20_CC) = {len(POP20_CC)}')

BASE_URL = 'http://flupy.org/data/flags'
DEST_DIR = './downloads'


def save_flag(img, filename):
    path = os.path.join(DEST_DIR, filename)
    with open(path, 'wb') as fp:
        fp.write(img)
        
def get_flag(cc):
    url = f'{BASE_URL}/{cc.lower()}/{cc.lower()}.gif'
    resp = requests.get(url)
    return resp.content

def show(text):
    print(text, end=' ')
    sys.stdout.flush()
    
def download_many(cc_list):
    for cc in sorted(cc_list):
        image = get_flag(cc)
        show(cc)
        save_flag(image, cc.lower() + '.gif')

def main(download_many):
    t0 = time.time()
    count = download_many(POP20_CC)
    elapsed = time.time() - t0
    print(f'\n{count} flags downloaded in {elapsed:.2f}s')

len(POP20_CC) = 20


In [12]:
main(download_many)

BD BR CD CN DE EG ET FR ID IN IR JP MX NG PH PK RU TR US VN 
None flags downloaded in 43.50s


concurrent.futures模块的主要特色是ThreadPoolExecutor和ProcessPoolExecutor类，这两个类实现的接口能分别在不同的线程或进程中执行可调用对象。

In [17]:
MAX_WORKERS = 20
from concurrent import futures

def download_one(cc):
    image = get_flag(cc)
    show(cc)
    save_flag(image, cc.lower() + '.gif')
    return cc

def download_many(cc_list):
    workers = min(MAX_WORKERS, len(cc_list))
    with futures.ThreadPoolExecutor(workers) as executor:
        res = executor.map(download_one, sorted(cc_list))
    return len(list(res))

ThreadPoolExecutor.map()函数的作用与内置的map函数类似，不过download_one函数会在多个线程中并发调用。ThreadPoolExecutor.map()函数返回一个生成器。

In [19]:
main(download_many)

PH BRMX  VN ET ID JP DE BD CN FR PK CD US RU EG IR IN NG TR 
20 flags downloaded in 26.26s


concurrent.futures.Future类实例表示可能已经完成或者尚未完成的延迟计算。**通常情况下自己不应该创建future，只能由并发框架（concurrent.futures或asyncio）实例化。**

只有把排定的事件交给concurrent.futures.Executor子类处理时，才会创建concurrrent.futures.Future实例。Executor.submit()方法的参数是一个可调用对象，调用这个方法后会为传入的可调用对象排期，并返回一个future。

future实例的几种重要的方法：
+ done()方法：这个方法不阻塞，返回值是布尔值，指明future链接的可调用对象是否已经执行。
+ add_done_call_back()：这个方法只有一个参数，类型是可调用的对象，future运行结束后会调用传入的可调用对象。
+ result():在运行结束后调用该方法，返回可调用对象的结果，或者重新抛出执行可调用对象时抛出的异常。对与concurrent.futures.Future实例来说，调用result()方法会阻塞调用方所在的线程，直到有结果可返回。

concurrent.futures.as_completed函数的参数是一个future实例组成的列表，返回值是一个迭代器，在future运行结束后产出future。

In [23]:
def download_many(cc_list):
    with futures.ThreadPoolExecutor(max_workers=10) as executor:
        to_do = []
        for cc in sorted(cc_list):
            # 创建并排定future实例
            future = executor.submit(download_one, cc)
            to_do.append(future)
            print(f'Scheduled for {cc}: {future}')
            
        results = []
        
        for future in futures.as_completed(to_do):
            # 获取future实例的结果
            res = future.result()
            print(f'{future} result: {res}')
            results.append(res)
            
    return len(results)

In [24]:
main(download_many)

Scheduled for BD: <Future at 0x27fe59c4088 state=running>
Scheduled for BR: <Future at 0x27fe59c49c8 state=running>
Scheduled for CD: <Future at 0x27fe57ab608 state=running>
Scheduled for CN: <Future at 0x27fe5928cc8 state=running>
Scheduled for DE: <Future at 0x27fe59216c8 state=running>
Scheduled for EG: <Future at 0x27fe5926fc8 state=running>
Scheduled for ET: <Future at 0x27fe59a7148 state=running>
Scheduled for FR: <Future at 0x27fe59b8dc8 state=running>
Scheduled for ID: <Future at 0x27fe59bc8c8 state=running>
Scheduled for IN: <Future at 0x27fe582d5c8 state=running>
Scheduled for IR: <Future at 0x27fe59a17c8 state=pending>
Scheduled for JP: <Future at 0x27fe5852708 state=pending>
Scheduled for MX: <Future at 0x27fe5852648 state=pending>
Scheduled for NG: <Future at 0x27fe58523c8 state=pending>
Scheduled for PH: <Future at 0x27fe58529c8 state=pending>
Scheduled for PK: <Future at 0x27fe58528c8 state=pending>
Scheduled for RU: <Future at 0x27fe5852548 state=pending>
Scheduled for 

排定的future按字母表的顺序，future的repr()方法会显示future的状态，前10各future的状态时running，是因为我们设置了10个工作的线程。后10个future的状态是pending，表示在等待有线程可用。

`EG <Future at 0x27fe5926fc8 state=finished returned str> result: EG`中的第一个EG是在一个工作线程中的download_one函数输出的，在此之后的内容是download_many函数输出的。

CPython解释器本身就不是线程安全的，因此有全局解释器锁（Global Interpreter Lock），**一次只允许使用一个线程执行Python字节码**，因此，一个Python进程通常不能同时使用多个CPU核心。然而，标准库中所有执行阻塞型I/O操作的函数，在等待操作系统返回结果时都会释放GIL，这意味着在Python语言这个层次上可以使用多线程。

ProcessPoolExecutor类把工作分配给多个python进程处理，因此，如果需要做CPU密集型处理，使用这个模块能绕开GIL，利用所有可用的CPU核心。使用concurrent.futures能轻松的把基于线程的方案转换为基于进程的方案。

基于进程的最佳进程数等于硬件中可用的所有CPU核心数，而基于线程的线程数取决于做的是什么事，以及可用的内存有多少，因此要通过仔细测试才能找到最佳线程数。

In [42]:
from time import sleep, strftime
from concurrent import futures
table = '\t'

def display(*args):
    print(f'{strftime("[%H:%M:%S]")}', end=' ')
    print(*args)
    
          
def loiter(n):
    display(f"{table*n} loiter({n}): doing nothing for {n}s ...")
    sleep(n)
    display(f"{table*n} loiter({n}) done!")
    return n * 10
          
def main():
    display('Script starting ...')
    executor = futures.ThreadPoolExecutor(max_workers=3)
    results = executor.map(loiter, range(5))
    display('result: ', results)
    display('Waiting for invidual results: ')
    for i, result in enumerate(results):
        display(f'result {i}: {result}')

In [43]:
main()

[17:53:46] Script starting ...
[17:53:46]  loiter(0): doing nothing for 0s ...
[17:53:46]  loiter(0) done!
[17:53:46] 	 loiter(1): doing nothing for 1s ...
[17:53:46] 		 loiter(2): doing nothing for 2s ...
[17:53:46] result:  <generator object Executor.map.<locals>.result_iterator at 0x0000027FE5973448>
[17:53:46] Waiting for invidual results: 
[17:53:46] 			 loiter(3): doing nothing for 3s ...
[17:53:46] result 0: 0
[17:53:47] 	 loiter(1) done!
[17:53:47] 				 loiter(4): doing nothing for 4s ...
[17:53:47] result 1: 10
[17:53:48] 		 loiter(2) done!
[17:53:48] result 2: 20
[17:53:49] 			 loiter(3) done!
[17:53:49] result 3: 30
[17:53:51] 				 loiter(4) done!
[17:53:51] result 4: 40


设置了`max_worker=3`，因此同时最多可以分配3个线程，程序一开始分配三个线程：`loiter(0)`,`ioter(1)`和`lioter(2)`。由于`lioter(0)`sleep了0秒，因此，该线程立马结束，于是空出了一个线程，并立马启动了下一个等待的线程`lioter(3)`【这一点可以从`lioter(0)`,`lioter(1)`,`lioter(2)`和`lioter(3)`的启动时间相同，均为`[17:53:46]`可以看出】

`Executor.map`函数有个特性：返回结果的顺序与调用开始的顺序一致。如果第一个调用从开始到生成结果总共用时10秒，而其它调用只用1秒，那么代码会阻塞10秒，以获取map方法返回的生成器产出的第一个结果，在此时候，获取后续结果时不会阻塞，因为后续的调用已经结束。