## 7. Concurrency and Parallelism

### 64 Consider `concurrent.futures` for True Parallelism

In [1]:
# my_module.py

In [2]:
def gcd(pair):
    a, b = pair
    low = min(a, b)
    for i in range(low, 0, -1):
        if a % i == 0 and b % i == 0:
            return i
    assert False, 'Not reachable'

In [3]:
# run_serial.py

In [4]:
#import my_module
import time

NUMBERS = [
    (1963309, 2265973), (2030677, 3814172),
    (1551645, 2229620), (2039045, 2020802),
    (1823712, 1924928), (2293129, 1020491),
    (1281238, 2273782), (3823812, 4237281),
    (3812741, 4729139), (1292391, 2123811),
]

def main():
    start = time.time()
    #results = list(map(my_module.gcd, NUMBERS))
    results = list(map(gcd, NUMBERS))
    end = time.time()
    delta = end - start
    print(f'Took {delta:.3f} seconds')

main()

Took 1.492 seconds


In [5]:
# run_threads.py

In [6]:
#import my_module
from concurrent.futures import ThreadPoolExecutor
import time

NUMBERS = [
    (1963309, 2265973), (2030677, 3814172),
    (1551645, 2229620), (2039045, 2020802),
    (1823712, 1924928), (2293129, 1020491),
    (1281238, 2273782), (3823812, 4237281),
    (3812741, 4729139), (1292391, 2123811),
]

def main():    
    start = time.time()
    pool = ThreadPoolExecutor(max_workers=2)
    #results = list(pool.map(my_module.gcd, NUMBERS))
    results = list(pool.map(gcd, NUMBERS))
    end = time.time()
    delta = end - start
    print(f'Took {delta:.3f} seconds')

main()

Took 1.834 seconds


In [7]:
# run_parallel.py

In [8]:
#import my_module
from concurrent.futures import ProcessPoolExecutor
import time

NUMBERS = [
    (1963309, 2265973), (2030677, 3814172),
    (1551645, 2229620), (2039045, 2020802),
    (1823712, 1924928), (2293129, 1020491),
    (1281238, 2273782), (3823812, 4237281),
    (3812741, 4729139), (1292391, 2123811),
]

def main():
    start = time.time()
    pool = ProcessPoolExecutor(max_workers=2)  # The one change
    #results = list(pool.map(my_module.gcd, NUMBERS))
    results = list(pool.map(gcd, NUMBERS))
    end = time.time()
    delta = end - start
    print(f'Took {delta:.3f} seconds')

main()

Took 0.833 seconds


```
(venv38) $ cd 64
(venv38) $ python run_serial.py
Took 1.060 seconds
(venv38) $ python run_threads.py
Took 0.983 seconds
(venv38) $ python run_parallel.py
Took 0.549 seconds
```

> - CPU 병목 지점을 C 확장 모듈로 옮기면 파이썬에 투자한 비용을 최대한 유지하면서 프로그램 성능을 개선하는 데 효과적일 수도 있다. 하지만 C 확장 모듈로 옮기려면 많은 비용이 들고 포팅하는 과정에서 버그가 생겨날 수도 있다.
> - `multiprocessing` 모듈을 사용하려면 특정 유형의 파이썬 계산을 최소의 노력으로 병렬화할 수 있다.
> - `concurrent.futures` 내장 모듈이 제공하는 간단한 `ProcessPoolExecutor` 클래스를 활용하면 `multiprocessing`의 능력을 최대한 할용할 수 있다.
> - 사용할 수 있는 모든 방법을 다 써보기 전에는 `multiprocessing`이 제공하는 (복잡한) 고급 기능을 시도하지 말라.

> - C 확장 개발 도구
>   - [SWIG](https://github.com/swig/swig)
>   - [CLIF](https://github.com/google/clif)
> - 파이썬-to-C 변환 도구
>   - [Cython](https://cython.org/]
>   - [Numba](https://numba.pydata.org/)

> - 격리된 레버리지가 큰 함수
>   - 다른 부분과 상태를 공유할 필요 없는 함수
>   - 주고받아야 하는 데이터 크기는 작지만, 연산의 양은 상당히 큰

> - `ThreadPoolExecutor`를 통해 격리된 레버리지가 큰 함수를 스레드에서 실행할 수 있으며, 이후 속도 향상을 위해 `ProcessPoolExecutor`로 옮겨갈 수 있다. 이 방법을 모두 시도해본 다음에 비로소 `multiprocessing` 모듈을 직접 사용해도 될지 검토해보라.