# Параллельная разработка с библиотекой `concurrent.futures`

## Основы

Логично предположить, что для параллельной разработки на Python созданы какие-то библиотеки. Первой из них была `concurrent.futures`. Библиотека эта введена в Python начиная с версии 3.2, однако позже она была адаптирована для Python начиная с версии 2.5. Основной подход в работе с этой библиотекой воплощает следующую мысль Микеле Симионато (Michele Simionato):

_Люди, критикующие явную работу с несколькими потоками, обычно являются системными программистами, которые имеют в виду варианты использования, с которыми типичный прикладной программист никогда не столкнется в своей жизни. […] В 99% случаев прикладному программисту достаточно создавать группы независимых потоков и собирать результаты их работы в очереди_.

Далее мы рассмотрим такую сущность, как футуры. Если говорить кратко, то футура - это объект, предоставляющий возможность асинхронного выполнения операции. 

Начнем с простого примера. Допустим, нам надо написать программу, скачивающую с интернета какие-то файлы. Есть 2 подхода: либо мы качаем файлы последовательно, либо параллельно. Рассмотрим оба варианта реализации.

In [1]:
%%writefile flags_seq.py

import time
from pathlib import Path
from typing import Callable

import httpx

POP20_CC = ('CN IN US ID BR PK NG BD RU JP '
            'MX PH VN ET EG DE IR TR CD FR').split()

BASE_URL = 'https://www.fluentpython.com/data/flags'
DEST_DIR = Path('downloaded')                       

def save_flag(img: bytes, filename: str) -> None:   
    (DEST_DIR / filename).write_bytes(img)

def get_flag(cc: str) -> bytes:
    url = f'{BASE_URL}/{cc}/{cc}.gif'.lower()
    resp = httpx.get(url, timeout=6.1,       
                     follow_redirects=True)  
    resp.raise_for_status()
    return resp.content

def download_many(cc_list: list) -> int: 
    for cc in sorted(cc_list):                
        image = get_flag(cc)
        save_flag(image, f'{cc}.gif')
        print(cc, end=' ', flush=True)        
    return len(cc_list)

def main(downloader: Callable) -> None:  
    DEST_DIR.mkdir(exist_ok=True)                          
    t0 = time.perf_counter()                               
    count = downloader(POP20_CC)
    elapsed = time.perf_counter() - t0
    print(f'\n{count} downloads in {elapsed:.2f}s')

if __name__ == '__main__':
    main(download_many)

Overwriting flags_seq.py


In [2]:
%%cmd

python flags_seq.py

Microsoft Windows [Version 10.0.18362.113]
(c) 2019 Microsoft Corporation. All rights reserved.

[m[32m]9;8;"USERNAME"\@]9;8;"COMPUTERNAME"\ [92mc:\Worker\Python\PythonMailRu\5.MultithreadedAndAsync[90m
[90m#[m ]9;12\
[m[32m]9;8;"USERNAME"\@]9;8;"COMPUTERNAME"\ [92mc:\Worker\Python\PythonMailRu\5.MultithreadedAndAsync[90m
[90m#[m ]9;12\python flags_seq.py
BD BR CD CN DE EG ET FR ID IN IR JP MX NG PH PK RU TR US VN 
20 downloads in 5.11s

[m[32m]9;8;"USERNAME"\@]9;8;"COMPUTERNAME"\ [92mc:\Worker\Python\PythonMailRu\5.MultithreadedAndAsync[90m
[90m#[m ]9;12\

Если качать последовательно, то на скачивание 20 маленьких `*.gif`-файлов уходит от 10 до 20 секунд. Посмотрим, сколько займет та же операция при использовании библиотеки `concurrent.futures`. Также, чтобы не переписывать код повторно, мы используем некоторые функции из написанного выше скрипта, выполняющего последовательное скачивание.

In [3]:
%%writefile flags_fut.py

from concurrent import futures

from flags_seq import save_flag, get_flag, main

def download_one(cc: str):
    image = get_flag(cc)
    save_flag(image, f'{cc}.gif')
    print(cc, end=' ', flush=True)
    return cc

def download_many(cc_list: list) -> int:
    with futures.ThreadPoolExecutor() as executor:         
        res = executor.map(download_one, sorted(cc_list))  

    return len(list(res))                                  

if __name__ == '__main__':
    main(download_many)

Overwriting flags_fut.py


In [4]:
%%cmd

python flags_fut.py

Microsoft Windows [Version 10.0.18362.113]
(c) 2019 Microsoft Corporation. All rights reserved.

[m[32m]9;8;"USERNAME"\@]9;8;"COMPUTERNAME"\ [92mc:\Worker\Python\PythonMailRu\5.MultithreadedAndAsync[90m
[90m#[m ]9;12\
[m[32m]9;8;"USERNAME"\@]9;8;"COMPUTERNAME"\ [92mc:\Worker\Python\PythonMailRu\5.MultithreadedAndAsync[90m
[90m#[m ]9;12\python flags_fut.py
BD CD DE EG ET BR CN FR ID IN PH JP PK MX IR NG RU TR US VN 
20 downloads in 0.86s

[m[32m]9;8;"USERNAME"\@]9;8;"COMPUTERNAME"\ [92mc:\Worker\Python\PythonMailRu\5.MultithreadedAndAsync[90m
[90m#[m ]9;12\

В данном случае на скачивание всех флагов уходит не более 3 секунд.

Код выше явным образом футуры не использует, оставляя их под капотом. По факту футуры - это объекты, инкапсулирующие операции, которые могут быть выполнены аснхронно. Есть 2 класса футур - `concurrent.futures.Future` и `asyncio.Future`. Они, естественно, несколько различаются. У них есть следующие интересные методы:

* `.done()` - отвечает на вопрос, отработала ли футура  
* `.add_done_callback()` - назначает функцию, которая будет вызвана по завершении работы футуры  
* `.result()` - выдает результат работы футуры  

Мы можем попытаться более явно использовать футуры, 

In [9]:
%%writefile flags_fut2.py

from concurrent import futures
from flags_seq import main
from flags_fut import download_one

max_workers = 20

def download_flags(country_lst):
    worker_number = min(max_workers, len(country_lst))
    results = []
    with futures.ThreadPoolExecutor(worker_number) as executor:
        to_do = [executor.submit(download_one, country) for country in country_lst]        
        for future in futures.as_completed(to_do):
            result = future.result()
            print(f'{future} result: {result}')
            results.append(result)
    return len(results)
    #    downloaded_flags = executor.map(download_flag, sorted(country_lst))
    #return len(list(downloaded_flags))

if __name__ == '__main__':
    main(download_flags)

Overwriting flags_fut2.py


In [10]:
%%cmd

python flags_fut2.py

Microsoft Windows [Version 10.0.18362.113]
(c) 2019 Microsoft Corporation. All rights reserved.

[m[32m]9;8;"USERNAME"\@]9;8;"COMPUTERNAME"\ [92mc:\Worker\Python\PythonMailRu\5.MultithreadedAndAsync[90m
[90m#[m ]9;12\
[m[32m]9;8;"USERNAME"\@]9;8;"COMPUTERNAME"\ [92mc:\Worker\Python\PythonMailRu\5.MultithreadedAndAsync[90m
[90m#[m ]9;12\python flags_fut2.py
BD <Future at 0x21029b13880 state=finished returned str> result: BD
BR ID <Future at 0x21029b07a00 state=finished returned str> result: BR
<Future at 0x21029b07040 state=finished returned str> result: ID
VN <Future at 0x2102a354c40 state=finished returned str> result: VN
JP <Future at 0x2102a3438e0 state=finished returned str> result: JP
PK <Future at 0x21029b0a400 state=finished returned str> result: PK
IN <Future at 0x21029afffd0 state=finished returned str> result: IN
CN <Future at 0x21029aff8b0 state=finished returned str> result: CN
US <Future at 0x21029aff2e0 state=finished returned str> res

Как известно, в Python есть такой компонент, как Global Interpreter Lock (GIL), который блокирует одновременное использование вычислительных ресурсов несколькими потоками. При этом, как мы видели выше, многопоточный код скачал файлы существенно быстрее, чем однопоточный. Как такое произошло? Очевидно, что пользовательский код Python может как что-то считать сам, так и вызывать функции библиотек. Библиотеки могут тоже, как считать, так и вызывать другие библиотеки. Здесь важно вспомнить, что вызовы библиотек в конечном счете могут превращаться в вызовы API операционной системы, которые GIL не блокирует. Скачивание файла - это пример вызова API операционной системы, который GIL не блокирует. Поэтому и получается сильно быстрее. Если обобщить сказанное, то получается, что все операции ввода-вывода в Python хорошо параллелятся.