# Choosing Concurrency and Parallelism for Your Python Projects
Keywords: concurrency, parallelism, asynchronous, multithreading, multiprocessing, asyncio, process, thread, task

## Table of Contents
* Introduction (1 mins)
* CPU-bound vs I/O-bound (3 mins)
* Concurrency and parallelism demystified (2 mins)
* Cooperative multitasking vs Pre-emptive multitasking (3 mins)
* Concurrency in (C)Python (3 mins)
* Race condition (3 mins)
* GIL in CPython (1 mins)
* Multithreading and examples (7 mins)
* Asyncio and examples (7 mins)
* Multiprocessing and examples (7 mins)
* Summary
    * Choosing concurrency and parallelism for your Python projects (2 mins)
    * Concurrency and parallelism packages (1 mins)
* References

## Introduction

> _Dealing with concurrency becomes hard when we lack the ‘working knowledge’ and best practices are not followed._ ‒ Ramith Jayasinghe, Experienced Software Engineer.

A brief description about the generic terms of concurrency and parallelism, multitasking styles, and task bounds to first make understand the basic concepts of concurrency and parallelism will be given in this material. The story of Python interpreter implementation for embracing concurrency will also be given. Popular Python built-in packages for concurrent programming (i.e. multithreading, multiprocessing, and asyncio) will be shown, given some minimum working example. At last by this material, choosing what is the best concurrent programming approach for many projects and extending into more wild 3rd party packages for the sake of concurrency will be easier.

The rest of this material (I mean, all) will be given in Bahasa Indonesia.

> _Written by :  
Muhammad Shalahuddin Yahya Sunarko  
AI Technical Lead of <a href="https://www.qlue.co.id/">Qlue Performa Indonesia</a>  
Jakarta, 21 November 2019 for <a href="https://pycon.id/">PyCon Indonesia 2019</a>_  

### Limitations
Python version >=3.5 is required  
Tested on Python 3.6.8

## CPU-bound vs I/O-bound
Program CPU*-bound* adalah program yang memiliki kecenderungan lebih banyak melakukan operasi yang mengutilisasi CPU. _Task_ yang berhubungan dengan utilisasi CPU untuk melakukan operasi, misalnya untuk melakukan operasi komputasi hasil perkalian matriks dua buah _array,_ atau operasi perintah memulai pemindahan data dari RAM ke harddisk. Pada jenis _task_ ini, jika CPU berhenti melakukan eksekusi pada _thread_ tersebut, operasi tidak dapat berjalan.

Program I/O*-bound* adalah program yang memiliki kecenderungan lebih banyak menunggu operasi _input_ dan _output._ _Task_ yang berhubungan dengan membaca atau menulis data dari/ke berkas lokal maupun _socket_ dalam jaringan di mana CPU hanya menunggu _task_ tersebut selesai adalah _task_ yang terkait dengan I/O. _Task_ tersebut dilakukan oleh perangkat-perangkat keras di luar CPU seperti misalnya harddisk dan WiFi, untuk memindahkan data dari/ke RAM. Operasi pemindahan tersebut dikenal sebagai IOwait. Pada saat itu, CPU berhenti melakukan eksekusi pada _thread_ tersebut, menunggu I/O selesai, dan CPU dapat dipekerjakan untuk _task_ lain.

<img src='src/images/1-s2.0-S0045790616302270-gr1.jpg' width='640px'/>
<p style="text-align: center;color:gray">Gambar 1. CPU*-bound* vs I/O*-bound* (Sumber: <a href="https://ars.els-cdn.com/content/image/1-s2.0-S0045790616302270-gr1.jpg">https://ars.els-cdn.com/content/image/1-s2.0-S0045790616302270-gr1.jpg</a>)</i></p>


## Concurrency and Parallelism Demystified
_Concurrency_ adalah _task_ yang dapat dimulai, dikerjakan, dan diselesaikan dalam waktu yang bertumpang-tindih dengan berbagai _task_ lain.  
Pengerjaan _task_ tidak musti terjadi dalam waktu yang benar-benar bersamaan (contoh: _multitasking_ pada sistem _single-core_ CPU).

_Parallelism_ adalah _task_ yang dikerjakan dalam waktu yang benar-benar bersamaan. _Parallelism_ dapat dicapai menggunakan sistem _multi-core_ CPU.

Makin banyak core makin besar parallelism. Makin besar kapasitas pemrosesan CPU makin cepat concurrency? Tunggu dulu.

<img src='src/images/parallel_sequential_concurrent.jpg' width='640px'/>
<p style="text-align: center;color:gray">Gambar 2. Ilustrasi pengerjaan <i>task</i> secara <i>sequential</i>, <i>concurrent</i>, dan <i>parallel</i>.<br /><i>(Sumber: <a href="http://www.dietergalea.com/parallelism-concurrency/">http://www.dietergalea.com/parallelism-concurrency/</a> ; dimodifikasi)</i></p>


## Cooperative Multitasking vs Pre-emptive Multitasking

_Cooperative multitasking (non-preemptive multitasking)_ adalah _multitasking_ dimana setiap _task_ secara _voluntarily_ / kooperatif memberitahu dengan cara _yield_ (menyerahkan) kontrol pada saat tidak ada pekerjaan atau _blocked,_ kapan bisa dilakukan _switch._ Keuntungan _cooperative multitasking_ yaitu diketahui dengan jelas kapan terjadinya _switch task._ _Switch task_ tidak terjadi pada sembarang kode pada _task_ kecuali kode tersebut ditandai.

_Pre-emptive multitasking_ adalah _multitasking_ di mana sistem operasi kapanpun dapat menginterupsi pekerjaan suatu _thread_ untuk mengerjakan _thread_ lain. Sistem operasi menggunakan kriteria tertentu untuk menentukan kapan _switch_ pengerjaan _thread,_ salah satunya yang paling umum digunakan adalah _time sharing / time slicing,_ yaitu berapa lama waktu yang telah berlalu. Proses penyimpanan keadaan _thread_ sehingga nantinya dapat kembali dikerjakan pada keadaan yang sama dinamakan _context switch_. _Pre-emptive multitasking_ mudah karena tidak dibutuhkan apapun pada kode dalam _thread_ untuk melakukan _switch_.

<img src='src/images/Cooperative+vs.+Preemptive+Multitasking.jpg' width='640px'/>
<p style="text-align: center;color:gray">Gambar 3. Ilustrasi <i>pre-emptive multitasking</i> dan <i>cooperative multitasking</i>.<br /><i>(Sumber: <a href="https://slideplayer.com/slide/8851057/">https://slideplayer.com/slide/8851057/</a>)</i></p>

## Concurrency in (C)Python
> _Python is actually a specification for a language that can be implemented in many different ways._ ‒ Kenneth Reitz & Real Python

Terdapat berbagai macam implementasi interpreter Python, beberapa di antaranya yang terkenal CPython (C), PyPy (RPython), Jython (Java), dan IronPython (.NET). Setiap interpreter memiliki implementasi masing-masing untuk menginterpretasikan kode Python; implementasi _concurrency_ juga tergantung dengan implementasi interpreter. Sebagai contoh, pada CPython terdapat _Global Interpreter Lock_ / GIL (nantinya akan dibahas), sedangkan pada Jython tidak terdapat GIL. Pada materi ini dipilih interpreter CPython karena interpreter ini merupakan interpreter yang paling umum dan popular digunakan saat ini.

Beberapa _package_ bawaan _(built-in)_ yang digunakan dalam materi ini untuk mencapai _concurrency_ pada Python antara lain `threading` _(pre-emptive multitasking),_ `asyncio` _(cooperative multitasking),_ dan `multiprocessing` _(the true parallelism)._ Pada CPython, _concurrency_ pada `threading` dan `asyncio` terjadi hanya pada 1 _core_ dari CPU. Sedangkan, _concurrency_ pada `multiprocessing`dapat terjadi pada multi _core_ dari CPU. 

## Race Condition
Race condition terjadi ketika terdapat 2 _thread_ yang melakukan baca dan tulis pada suatu variabel secara bersamaan, sehingga menyebabkan *bug* pada saat eksekusi.  
Misalkan terdapat 2 buah _thread_ yang berjalan bersamaan tanpa proses sinkronisasi atau _lock_ untuk menambahkan nilai suatu variabel sebesar 1 dari nilai sebelumnya, seperti yang dapat dilihat di bawah ini.

| Thread 1      | Thread 2      |         | Nilai integer |
|---------------|---------------|---------|---------------|
|               |               |         | 0             |
| baca nilai    |               | &#8592; | 0             |
|               | baca nilai    | &#8592; | 0             |
| tambahkan 1   |               |         | 0             |
|               | tambahkan 1   |         | 0             |
| tulis kembali |               | &#8594; | 1             |
|               | tulis kembali | &#8594; | 1             |

<p style="text-align: center;color:gray">Tabel 1. Ilustrasi <i>race condition</i>.<br /><i>(Referensi tabel: <a href="https://en.wikipedia.org/wiki/Race_condition">https://en.wikipedia.org/wiki/Race_condition/</a>)</i></p>

Variabel memiliki nilai awal sebesar 0. Ada 2 _thread_ yang berjalan dan masing-masing _thread_ menambahkan senilai 1 dari nilai sebelumnya. Hasil akhir yang diharapkan variabel memiliki nilai sebesar 2, namun karena adanya _race condition,_ hasil akhir yang didapatkan yaitu variabel memiliki nilai sebesar 1.

Masalah ini dapat diatasi dengan salah satu cara sinkronisasi menggunakan *lock*. _Lock_ memiliki 2 _state:_ _locked_ dan *unlocked*. *Lock* bisa didapatkan _(acquire)_ dan dilepaskan _(release)_ oleh suatu _thread_ yang sedang berjalan.  
Misalkan pada contoh _race condition_ di atas diberikan sebuah _lock_ yang dibagikan ke kedua _thread._ _Thread_ 1 _acquire lock_ sebelum membaca nilai variabel, sehingga _state lock_ berubah menjadi _locked._ Sesaat kemudian, _thread_ 2 melakukan *acquire lock*, namun karena _lock_ berada pada _state locked,_ maka _thread_ 2 berhenti dan menunggu hingga _lock_ tersebut berubah _state_ menjadi *unlocked*. _Thread_ 1 melanjutkan eksekusi, yaitu menambahkan nilai 1 dan menuliskan hasilnya ke variabel, kemudian _release_ lock. Karena _lock_ sudah berubah kembali menjadi *unlocked*, maka _thread_ 2 berhasil *acquire lock*, kemudian mekanisme di atas berulang.

| Thread 1      | Thread 2      |         | Nilai integer | Lock state |
|---------------|---------------|---------|---------------|------------|
|               |               |         | 0             | unlocked   |
| acquire lock  |               |         | 0             | unlocked   |
| lock acquired |               |         | 0             | locked     |
|               | acquire lock  |         | 0             | locked     |
| baca nilai    |               | &#8592; | 0             | locked     |
| tambahkan 1   |               |         | 0             | locked     |
| tulis kembali |               | &#8594; | 1             | locked     |
| release lock  |               |         | 1             | locked     |
| lock released |               |         | 1             | unlocked   |
|               | lock acquired |         | 1             | locked     |
|               | baca nilai    | &#8592; | 1             | locked     |
|               | tambahkan 1   |         | 1             | locked     |
|               | tulis kembali | &#8594; | 2             | locked     |
|               | release lock  |         | 2             | locked     |
|               | lock released |         | 2             | unlocked   |

<p style="text-align: center;color:gray">Tabel 2. Ilustrasi mekanisme <i>lock</i>.<br /></p>

## Global Interpreter Lock in CPython

CPython menggunakan _reference counting_ untuk manajemen memori, seluruh objek memiliki _reference count_ dan jika _reference count_ mencapai 0, maka memori yang digunakan oleh objek tersebut akan dibebaskan oleh interpreter.  
Jika _race condition_ seperti pada contoh yang  sebelumnya telah diberikan terjadi pada mekanisme _reference counting_ ini, maka dapat terjadi masalah di antaranya <a href="https://en.wikipedia.org/wiki/Memory_leak"><i>memory leak</i></a> atau memori dibebaskan sedangkan sebenarnya masih digunakan. Oleh karena itu, CPython memberikan solusi sebuah Global Interpreter Lock (GIL) yang digunakan oleh seluruh _thread_ pada suatu _process_ dalam interpreter CPython ketika akan mengeksekusi baris-baris kode perintah.

## Multithreading in CPython
_Package_ `threading` merupakan _built-in package_ dari (C)Python yang dapat digunakan untuk melakukan "*multithreading*". Wajib diketahui, _multithreading_ pada interpreter CPython hanya menggunakan **1 _core_ CPU**, meskipun prosesor yang digunakan memiliki banyak *core*. Hal ini dikarenakan adanya implementasi Global Interpreter Lock pada CPython, seperti pada yang sudah dibahas sebelumnya. Oleh karena itu, *multithreading* pada CPython kurang cocok untuk program yang bersifat CPU*-bound* dan lebih cocok untuk program yang bersifat I/O*-bound*.  
Dokumentasi lengkapnya dapat diakses di https://docs.python.org/3.6/library/threading.html.

Terdapat 2 cara untuk memulai *thread* baru:
1. Menimpa method `run()` dari sub-kelas `threading.Thread` (*inheritance*)
2. Memberikan *callable object* ke *keyword argument* `target` dari konstruktor objek / saat membuat objek dari kelas `threading.Thread`

In [1]:
# install requirements
!pip3 install numpy requests aiohttp flask

You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [2]:
# Versi sekuensial untuk perbandingan
!python3 src/python/hello_world.py

Finished with 8.307k operations, about 8.307k operation per second


In [3]:
%%timeit -r 3 -n 3 -q
!python3 src/python/hello_world.py

Finished with 9.246k operations, about 9.245k operation per second
Finished with 9.625k operations, about 9.624k operation per second
Finished with 9.736k operations, about 9.735k operation per second
Finished with 9.727k operations, about 9.727k operation per second
Finished with 9.852k operations, about 9.851k operation per second
Finished with 9.754k operations, about 9.754k operation per second
Finished with 9.872k operations, about 9.871k operation per second
Finished with 9.812k operations, about 9.812k operation per second
Finished with 9.854k operations, about 9.854k operation per second


In [4]:
# Berikut dapat dilihat contoh untuk cara threading yang pertama:
!python3 src/python/hello_world_mt.py

Thread-1 finished with 0.697k operations, about 0.696k operations per second
Thread-4 finished with 0.713k operations, about 0.712k operations per second
Thread-5 finished with 0.688k operations, about 0.687k operations per second
Thread-6 finished with 0.742k operations, about 0.741k operations per second
Thread-2 finished with 0.656k operations, about 0.655k operations per second
Thread-3 finished with 0.723k operations, about 0.722k operations per second
Finished all jobs, totalling 4.219k operations, about 4.209k operations per second


In [5]:
%%timeit -r 3 -n 3 -q
!python3 src/python/hello_world_mt.py -q

Finished all jobs, totalling 8.922k operations, about 8.912k operations per second
Finished all jobs, totalling 3.915k operations, about 3.907k operations per second
Finished all jobs, totalling 8.31k operations, about 8.303k operations per second
Finished all jobs, totalling 5.057k operations, about 5.049k operations per second
Finished all jobs, totalling 5.635k operations, about 5.628k operations per second
Finished all jobs, totalling 7.394k operations, about 7.386k operations per second
Finished all jobs, totalling 5.949k operations, about 5.939k operations per second
Finished all jobs, totalling 6.801k operations, about 6.789k operations per second
Finished all jobs, totalling 7.044k operations, about 7.037k operations per second


In [6]:
# Berikut dapat dilihat contoh untuk cara threading yang kedua:
!python3 src/python/hello_world_mt_2.py

Finished with 1.17k operations, about 1.169k operations per second
Finished with 1.071k operations, about 1.071k operations per second
Finished with 1.113k operations, about 1.112k operations per second
Finished with 1.128k operations, about 1.127k operations per second
Finished with 1.074k operations, about 1.073k operations per second
Finished with 1.128k operations, about 1.127k operations per second
Finished all jobs, totalling 6.684k operations, about 6.672k operations per second


In [7]:
%%timeit -r 3 -n 3 -q
!python3 src/python/hello_world_mt_2.py -q

Finished all jobs, totalling 8.613k operations, about 8.604k operations per second
Finished all jobs, totalling 8.36k operations, about 8.352k operations per second
Finished all jobs, totalling 7.96k operations, about 7.951k operations per second
Finished all jobs, totalling 8.541k operations, about 8.532k operations per second
Finished all jobs, totalling 7.881k operations, about 7.862k operations per second
Finished all jobs, totalling 8.233k operations, about 8.222k operations per second
Finished all jobs, totalling 5.513k operations, about 5.502k operations per second
Finished all jobs, totalling 8.784k operations, about 8.775k operations per second
Finished all jobs, totalling 3.989k operations, about 3.981k operations per second



Dari kedua contoh di atas, dapat dilihat pertukaran objek pada _multithreading_ cara pertama dapat dengan menggunakan *class attribute* (*state*), sedangkan pada cara kedua dapat menggunakan `queue.Queue`.  
Seluruh objek dalam modul `queue` bersifat *thread-safe*, yaitu objek dapat dengan aman digunakan pada konteks *multithreading* dan terhindar dari *race condition*. Hal ini dicapai karena objek `queue.Queue` mengimplementasikan `threading.lock`. Dokumentasi lengkap dapat diakses di https://docs.python.org/3.6/library/queue.html#module-queue.

Versi *multithreading* lebih lambat jika dibandingkan dengan versi *sequential*. Hal ini benar dikarenakan *task* program ini CPU*-bound*, *multithreading* hanya menggunakan 1 *core* CPU, dan adanya *context switching* saat CPU beralih eksekusi dari satu *thread* ke *thread* yang lain.  
Seperti yang sudah disampaikan sebelumnya, *multithreading* pada CPython lebih cocok difungsikan untuk program I/O*-bound*.

In [8]:
### MANDATORY ###
# Before starting, run from `src/python` run `server.py` using your terminal out of this notebook
# to run Flask app that serve cats image and kitten video for testing

In [9]:
# Versi sekuensial untuk perbandingan
!python3 src/python/hello_world_io.py

Finished all jobs in 605.64 ms


In [10]:
%%timeit -r 3 -n 3 -q
!python3 src/python/hello_world_io.py

Finished all jobs in 588.41 ms
Finished all jobs in 661.91 ms
Finished all jobs in 607.28 ms
Finished all jobs in 602.58 ms
Finished all jobs in 630.80 ms
Finished all jobs in 603.15 ms
Finished all jobs in 611.36 ms
Finished all jobs in 597.21 ms
Finished all jobs in 601.42 ms


In [11]:
# Versi multithreaded
!python3 src/python/hello_world_io_mt.py

Finished all jobs in 975.75 ms


In [12]:
%%timeit -r 3 -n 3 -q
!python3 src/python/hello_world_io_mt.py

Finished all jobs in 912.86 ms
Finished all jobs in 929.12 ms
Finished all jobs in 920.80 ms
Finished all jobs in 968.80 ms
Finished all jobs in 856.66 ms
Finished all jobs in 960.01 ms
Finished all jobs in 924.05 ms
Finished all jobs in 913.96 ms
Finished all jobs in 1008.54 ms


*Weh*, versi *multithreading* lebih lama dibandingkan dengan versi sekuensial untuk mendapatkan konten dari web? *Ono opo iki?*

<img src='src/images/Cost-Of-Context-Switching.png' width='640px'/>
<p style="text-align: center;color:gray">Gambar 4. <i>Cost of context switching</i>.<br /><i>(Sumber: <a href="https://www.codeproject.com/Articles/1083787/Tasks-and-Task-Parallel-Library-TPL-Multi-threadin">https://www.codeproject.com/Articles/1083787/Tasks-and-Task-Parallel-Library-TPL-Multi-threadin</a>)</i></p>

Hal ini benar adanya karena 3 hal:
1. Adanya *context switching*, dimana untuk melakukan *switch* dibutuhkan waktu. Dapat dilihat dari total waktu yang dibutuhkan untuk menyelesaikan seluruh pekerjaan.
2. *Switching* menggunakan *time slice* (*pre-emptive multitasking*). Dapat dilihat dari waktu masing-masing task seluruhnya menjadi lebih lama jika dibandingkan dengan versi sekuensial.
3. Proses `request` berhenti saat *thread* di mana `request` tersebut berada berhenti melakukan eksekusi (berhenti mengunduh konten web) akibat *pre-emptive multitasking*. Dapat dilihat dari waktu masing-masing task seluruhnya menjadi lebih lama jika dibandingkan dengan versi sekuensial.

Dari hal-hal tersebut diketahui startegi *multithreading* dibandingkan dengan *sequential* kurang diminati karena dibutuhkan waktu yang lebih banyak untuk menyelesaikan seluruh pekerjaan.

## Asyncio in CPython
_Package_ `asyncio` merupakan *built-in package* yang dapat digunakan untuk membuat program *single threaded concurrent*. *Package* ini memang utamanya dibuat untuk *asynchronous I/O programming*. Beberapa konsep penting yang dibawakan oleh *package* ini dan wajib dipahami sebelum membuat program *single threaded concurrent* diantaranya *event loop*, *coroutine*, dan *future*.

*Event loop* merupakan perangkat eksekusi utama yang disediakan oleh `asyncio`, tempat di mana seluruh *task* berjalan. *Method* `asyncio.get_event_loop()` dapat digunakan untuk mendapatkan *event loop* yang telah dibuat dan diatur menjadi *event loop* yang digunakan untuk eksekusi. Jika belum ada *event loop* yang dibuat dan diatur sebelumnya, maka secara standar bawaan *package*, *mehod* tersebut akan membuat *event loop* baru dan menjadikannya sebagai *event loop* yang digunakan untuk eksekusi.

```python
import asyncio

async def async_main():
    ...

if __name__ == "__main__":
    loop = asyncio.get_event_loop()
    loop.run_until_complete(async_main())
    loop.close()
```

*Coroutine* merupakan *function* dalam Python yang didefinisikan menggunakan *keyword* `async def` yang dapat menghentikan eksekusi kodenya secara kooperatif sebelum mencapai `return`. *Keyword* `await` digunakan pada *coroutine function* dalam *coroutine* untuk memberikan tanda bahwa eksekusi *coroutine* tersebut dapat dihentikan hingga didapatkan hasil dari *coroutine function* yang dipanggil dan pada saat itu juga dapat mengeksekusi *coroutine* yang lain.

```python
async def f():
    ...
    return result


async def g():
    ...
    fut = f()
    r = await fut # berhenti di sini, eksekusi yang lain, dan kembali ke g() saat didapatkan hasil dari f()
    ...
    return r

async def h():
    ...
    return result
```

*Future* merupakan objek yang didapatkan saat memanggil *coroutine function*. Saat *function* `f()` dipanggil, belum terjadi apa-apa, `f()` belum dieksekusi, dan yang didapatkan adalah objek *future*. Diperlukan `await` untuk mendapatkan hasil dari *future* tersebut.

In [13]:
### MANDATORY ###
# Before starting, run from `src/python` run `server.py` using your terminal out of this notebook
# to run Flask app that serve cats image and kitten video for testing
# Ignore if it is already running

In [14]:
# Versi asyncio
!python3 src/python/hello_world_io_asyncio.py

Finished all jobs in 680.63 ms


In [15]:
%%timeit -r 3 -n 3 -q
!python3 src/python/hello_world_io_asyncio.py

Finished all jobs in 759.39 ms
Finished all jobs in 611.15 ms
Finished all jobs in 578.92 ms
Finished all jobs in 602.97 ms
Finished all jobs in 629.15 ms
Finished all jobs in 613.71 ms
Finished all jobs in 618.92 ms
Finished all jobs in 610.74 ms
Finished all jobs in 625.15 ms


Dari contoh di atas dapat dilihat pendekatan `asyncio` rata-rata lebih cepat jika dibandingkan dengan pendekatan versi sekuensial.

## Multiprocessing in CPython
*Package* `multiprocessing` merupakan *built-in package* yang dapat digunakan untuk mencapai *parallelism*. Kita dapat memanfaatkan banyak CPU *core* dengan menggunakan `multiprocessing.Process` dan `multiprocessing.Pool`, terutama untuk program CPU*-bound*. *Multiprocessing* bekerja dengan cara setiap masing-masing *process* diberikan *interpreter* sendiri-sendiri, sehingga antar proses dapat berjalan secara paralel. Antar proses tidak lagi terbatasi oleh GIL seperti pada pendekatan menggunakan `threading`, namun masih tetap ada GIL yang terpisah dalam setiap proses.

Perlu diketahui, terdapat perbedaan cara *default* untuk memulai *process* / *start method* antara platform Windows dan Unix. Secara garis besar, pada Windows digunakan *spawn*, sedangkan pada Unix digunakan *fork*. Dokumentasi lengkapnya dapat diakses di https://docs.python.org/3.6/library/multiprocessing.html#contexts-and-start-methods .

Masing-masing *process* berjalan menggunakan interpreter sendiri-sendiri yang berarti masing-masing interpreter memiliki ruang memori yang terpisah. Proses pertukaran obyek dan sinkronisasi *state* pada `multiprocessing` tidak semudah pada `threading` ataupun `asyncio`.

Terdapat 2 cara untuk mengkomunikasikan antar *process* yang disediakan oleh *package* `multiprocessing`:
1. `multiprocessing.Queue`  
   Mirip seperti `Queue` yang ada pada *package* `threading`. Pada dasarnya `multiprocessing.Queue` diimplementasikan menggunakan `Pipe` dan beberapa *lock/semaphore*. `multiprocessing.Queue` *thread-safe* dan *process-safe*. Dokumentasi lengkap dapat dilihat di https://docs.python.org/3.6/library/multiprocessing.html#multiprocessing.Queue .
   
<img src='src/images/multiprocessing-python-4.png' width='320px'/>
<p style="text-align: center;color:gray">Gambar 5. multiprocessing.Queue.<br /><i>(Sumber: <a href="https://www.geeksforgeeks.org/multiprocessing-python-set-2/">https://www.geeksforgeeks.org/multiprocessing-python-set-2/</a>)</i></p>

2. `multiprocessing.Pipe`  
    Pada dasarnya berbentuk koneksi yang terdiri dari 2 ujung untuk menghubungkan 2 `process`. `multiprocessing.Pipe` aman digunakan untuk `multiprocessing` selama kedua `process` mengakses ujung yang berbeda. Dokumentasi lengkap dapat dilihat di https://docs.python.org/3.6/library/multiprocessing.html#multiprocessing.Pipe .

<img src='src/images/multiprocessing-python-5.png' width='640px'/>
<p style="text-align: center;color:gray">Gambar 6. multiprocessing.Pipe.<br /><i>(Sumber: <a href="https://www.geeksforgeeks.org/multiprocessing-python-set-2/">https://www.geeksforgeeks.org/multiprocessing-python-set-2/</a>)</i></p>

Terdapat 2 cara untuk mensinkronisasikan *state* yang disediakan oleh *package* `multiprocessing`:
1. *Shared memory*  
    Data dapat disimpan dalam *shared memory* bentuk `multiprocessing.Value` atau `multiprocessing.Array`. *Shared memory* lebih cepat untuk diakses daripada *server process*, namun tipe data yang didukung hanya terbatas pada <a href="https://docs.python.org/3.6/library/ctypes.html#module-ctypes">ctypes</a>.

<img src='src/images/multiprocessing-python-2.png' width='320px'/>
<p style="text-align: center;color:gray">Gambar 7. <i>Shared memory</i>.<br /><i>(Sumber: <a href="https://www.geeksforgeeks.org/multiprocessing-python-set-2/">https://www.geeksforgeeks.org/multiprocessing-python-set-2/</a>)</i></p>

2. *Server process*  
    Bisa didapatkan dengan menggunakan `multiprocessing.Manager`, dimana dapat menampung tipe objek Python yang lebih banyak, di antaranya list, dict, Namespace, Lock, RLock, Semaphore, BoundedSemaphore, Condition, Event, Barrier, Queue, Value and Array. *Server process* lebih lambat daripada *shared memory* karena objek diakses menggunakan *proxy*. *Server process* ini juga dapat diakses oleh proses lain pada mesin yang berbeda melalui jaringan.

<img src='src/images/multiprocessing-python-3.png' width='480px'/>
<p style="text-align: center;color:gray">Gambar 8. <i>Server process</i>.<br /><i>(Sumber: <a href="https://www.geeksforgeeks.org/multiprocessing-python-set-2/">https://www.geeksforgeeks.org/multiprocessing-python-set-2/</a>)</i></p>

Pemrograman menggunakan `multiprocessing` sangat dianjurkan untuk mengikuti *programming guidelines* yang dapat diakses di https://docs.python.org/3.6/library/multiprocessing.html#programming-guidelines .

Terdapat 2 cara untuk memulai *process*:
1. Menimpa method `run()` dari sub-kelas `multiprocessing.Process` (*class inheritance*)
2. Menggunakan `multiprocessing.Pool` untuk membuat *pool of workers*, kemudian menggunakan *method* `Pool().apply_async` atau `Pool().map`.

In [16]:
# Berikut dapat dilihat cara multiprocessing yang pertama
!python3 src/python/hello_world_mp.py

HelloWorldMP-1 finished with 6.129k operations, about 6.128k operations per second
HelloWorldMP-2 finished with 6.15k operations, about 6.149k operations per second
HelloWorldMP-3 finished with 6.15k operations, about 6.149k operations per second
HelloWorldMP-4 finished with 6.135k operations, about 6.134k operations per second
HelloWorldMP-5 finished with 5.996k operations, about 5.995k operations per second
HelloWorldMP-6 finished with 5.912k operations, about 5.911k operations per second
Finished all jobs, totalling 36.472k operations, about 36.084k operations per second


In [17]:
%%timeit -r 3 -n 3 -q
!python3 src/python/hello_world_mp.py -q

Finished all jobs, totalling 36.554k operations, about 36.233k operations per second
Finished all jobs, totalling 37.114k operations, about 36.810k operations per second
Finished all jobs, totalling 35.273k operations, about 34.966k operations per second
Finished all jobs, totalling 33.788k operations, about 33.470k operations per second
Finished all jobs, totalling 36.636k operations, about 36.265k operations per second
Finished all jobs, totalling 36.517k operations, about 36.201k operations per second
Finished all jobs, totalling 35.333k operations, about 35.034k operations per second
Finished all jobs, totalling 36.808k operations, about 36.480k operations per second
Finished all jobs, totalling 36.765k operations, about 36.457k operations per second


In [18]:
# Berikut dapat dilihat cara multiprocessing yang kedua
!python3 src/python/hello_world_mp_pool.py

Worker 0: Finished with 6.223k operations, about 6.222k operations per second
Worker 1: Finished with 6.191k operations, about 6.190k operations per second
Worker 2: Finished with 6.18k operations, about 6.179k operations per second
Worker 3: Finished with 6.118k operations, about 6.118k operations per second
Worker 4: Finished with 6.213k operations, about 6.213k operations per second
Worker 5: Finished with 6.235k operations, about 6.234k operations per second
Finished all jobs, totalling 37.16k operations, about 36.863k operations per second


In [19]:
%%timeit -r 3 -n 3 -q
!python3 src/python/hello_world_mp_pool.py -q

Finished all jobs, totalling 35.694k operations, about 35.393k operations per second
Finished all jobs, totalling 34.986k operations, about 34.705k operations per second
Finished all jobs, totalling 36.762k operations, about 36.458k operations per second
Finished all jobs, totalling 36.68k operations, about 36.381k operations per second
Finished all jobs, totalling 36.697k operations, about 36.407k operations per second
Finished all jobs, totalling 36.26k operations, about 35.964k operations per second
Finished all jobs, totalling 37.077k operations, about 36.786k operations per second
Finished all jobs, totalling 37.067k operations, about 36.766k operations per second
Finished all jobs, totalling 36.506k operations, about 36.212k operations per second


Dari kedua contoh di atas, diketahui versi *multiprocessing* jauh lebih cepat jika dibandingkan dengan versi sekuensial. Hal ini benar dikarenakan *task* program ini CPU*-bound*, *multiprocessing* menggunakan *core* CPU sejumlah `num_jobs` / *worker* yang diminta. Jumlah *worker* ini bervariasi, tergantung jumlah *core* dari CPU. *Rule-of-thumb* yang dapat digunakan adalah jumlah *worker* sama dengan jumlah *physical cores*.  

In [20]:
# Multiprocessing untuk I/O
!python3 src/python/hello_world_io_mp_pool.py

Finished all jobs in 982.33 ms


In [21]:
%%timeit -r 3 -n 3 -q
!python3 src/python/hello_world_io_mp_pool.py

Finished all jobs in 999.02 ms
Finished all jobs in 1037.46 ms
Finished all jobs in 1019.11 ms
Finished all jobs in 1008.75 ms
Finished all jobs in 1029.29 ms
Finished all jobs in 986.97 ms
Finished all jobs in 981.95 ms
Finished all jobs in 1030.14 ms
Finished all jobs in 955.55 ms


Hasil *multiprocessing* pada contoh program I/O*-bound* di atas, waktu eksekusi lebih lambat dibandingkan dengan versi sekuensial dikarenakan adanya *overhead* saat membuat *process* baru. Selain itu, modul `requests` sebenarnya tidak dapat dibagikan dan digunakan secara bersama-sama, namun masing-masing proses membuat salinan objek baru sendiri-sendiri di dalam proses.

## Summary

Berdasarkan hasil eksekusi beberapa contoh program di atas, dapat dilihat bahwa `asyncio` (*cooperative multitasking*) untuk I/O*-bound* lebih baik daripada versi *sequential*. *Package* `threading` (*pre-emptive multitasking*) baik untuk CPU*-bound* maupun I/O*-bound* tidak lebih cepat daripada versi *sequential*, namun tetap bisa digunakan jika tetap diinginkan *concurrent* I/O dan tidak tersedia *packages* versi `asyncio`. `multiprocessing` (*the true parallelism*) untuk CPU*-bound* lebih cepat daripada versi *sequential*, namun tidak untuk I/O*-bound*.

Ringkasan cara memilih *concurrency* dan *parallelism* menggunakan *built-in packages* yang telah dibahas dalam materi ini dapat dilihat pada gambar berikut.

<img src='src/images/summary.png' width='1280px'/>
<p style="text-align: center;color:gray">Gambar 9. <i>Choosing concurrency and parallelism for your Python projects.</i></p>

### Concurrency and parallelism packages
Banyak sekali *packages* yang dikembangkan oleh pihak ketiga dengan menggunakan berbagai macam teknologi agar dicapai *concurrency* dan *parallelism*. Beberapa diantaranya yang dapat saya sebutkan:  
- Twisted
- Dask
- Celery
- Ray
- Tornado IOLoop
- Gevent
- dan masih banyak lagi.

### References
https://hackernoon.com/why-concurrency-is-hard-a45295e96114  
https://stackoverflow.com/questions/1050222/what-is-the-difference-between-concurrency-and-parallelism  
https://realpython.com/python-concurrency/  
https://docs.python-guide.org/starting/which-python/  
https://www.jython.org/jythonbook/en/1.0/Concurrency.html  
https://hackernoon.com/concurrent-programming-in-python-is-not-what-you-think-it-is-b6439c3f3e6a  
https://whatis.techtarget.com/definition/preemptive-multitasking  
https://www.pcmag.com/encyclopedia/term/48051/non-preemptive-multitasking  
https://stackoverflow.com/questions/3042717/what-is-the-difference-between-a-thread-process-task  
https://www.hellsoft.se/understanding-cpu-and-i-o-bound-for-asynchronous-operations/  
https://realpython.com/python-gil/  
https://docs.python.org/3.6/library/threading.html  
https://docs.python.org/3.6/library/multiprocessing.html  
https://docs.python.org/3.6/library/asyncio.html  
https://docs.python.org/3.6/library/queue.html  