# 进程、线程和协程

## 进程

### Process和Pool中使用队列

遇到个很有意思的问题，先看代码：
```python
from multiprocessing import Queue, Process
import multiprocessing


def func(q):
    r = q.get()
    print(f"I am {multiprocessing.current_process().name}, result is {r}")


if __name__ == "__main__":
    q = Queue()
    q.put(42)
    p = Process(target=func, args=(q,))
    p.start()
```
执行很顺利，打印如下：
```
I am Process-1, result is 42
```
但是稍稍修改代码，改为使用pool，则抛出错误：
```python
from multiprocessing import Queue, Process, Pool
import multiprocessing


def func(q):
    r = q.get()
    print(f"I am {multiprocessing.current_process().name}, result is {r}")


if __name__ == "__main__":
    q = Queue()
    q.put(42)
    pool = Pool()
    pool.apply(func, args=(q,))
```
抛出错误：
```
RuntimeError: Queue objects should only be shared between processes through inheritance
```
提示Queue对象应该使用继承来共享。

进程之间传参，实际上参数是通过pipe管道从主进程传给子进程，参数需要能`picklability`，可以被`pickle`序列化。而`multiprocessing.Queue`对象是不能被序列化的，因为子进程相当于一个不同的应用程序，传递的参数就像复制了一份，而不是原来的那个，考虑如下代码：
```python
def func(a):
    a.append(4)
    print(f"I am {multiprocessing.current_process().name}, a is {a}")


if __name__ == "__main__":
    a = [1, 2, 3]
    p = Process(target=func, args=(a,))
    p.start()
    p.join()
    print(f"I am {multiprocessing.current_process().name}, a is {a}")
```
输出为：
```
I am Process-1, a is [1, 2, 3, 4]
I am MainProcess, a is [1, 2, 3]
```
说明a在主进程和子进程中是不同的对象，修改了子进程的a，对主进程的a无影响，这和普通的函数调用不同，普通的函数传参传递的总是参数的引用，函数内外引用的是同一个对象。

这就是为什么`pool.apply`会报错的原因，因为不管是`multiprocessing.Queue`还是`queue.Queue`，都被设置为不能序列化，因为不同进程中的队列肯定需要是同一个队列，否则没有意义。

`multiprocessing.Queue`是针对`multiprocess.Process`的，在内部并不是直接将队列进行序列化然后通过管道发送，肯定经过了额外的处理。目的是为了和`threading.Thread`的API保持一致。

`pool`的机制是，当调用`pool=Pool(n)`时，则启动了n个（如果不指定，则默认为当前cpu核数）个子进程。同时在内部有一个队列，当调用map,apply或者apply_async时，会将要执行的任务塞进队列，另外内部还启动了一个线程，用来将参数序列化传递给子进程。内部的这个线程只是简单的将参数进行序列化，因此当传入`queue`对象时，由于`queue`不能被序列化，会抛出错误。

有几种方法可以将队列传递给`pool`进程池，一个是使用`manager`管理器，代码如下：
```python
from multiprocessing import Pool, Manager
import multiprocessing


def func(q):
    r = q.get()
    print(f"I am {multiprocessing.current_process().name}, result is {r}")


if __name__ == "__main__":
    m = Manager()
    q = m.Queue()
    q.put(42)
    pool = Pool()
    pool.apply(func, args=(q,))
```
输出为：
```
I am SpawnPoolWorker-2, result is 42
```
为什么使用`m.Queue()`创建的`q`队列可以传递呢，因为这个q是一个代理对象，本质上它是一个地址，指向由管理器管理的共享队列，它是可以被序列化的，它保证序列化传递到子进程以后仍然表现得像同一个对象（这里用像是因为传递到子进程的队列和主进程的队列不是内存中的同一个对象，通过打印id可以看出来）。`manager`创造的队列，对于Pool和Process都适用。

还有一种变通的方法，如下：
```python
from multiprocessing import Pool, Queue
import multiprocessing

queue = Queue()  # 子进程中会重新运行一遍，在子进程中创建一个新的queue队列


def initialize_shared(q):  # 在子进程创建初始会运行这个函数，从主进程中传递q。这个q是主进程的queue队列
    global queue  # 申明queue是全局变量，否则只会创建一个initializer_shared函数内部的局部queue变量
    queue = q # 将主进程传递进来的队列q赋值给子进程内部的全局变量queue


def func():
    r = queue.get()
    print(f"I am {multiprocessing.current_process().name}, result is {r}")


if __name__ == "__main__":
    queue.put(42)
    pool = Pool(initializer=initialize_shared, initargs=(queue,))
    pool.apply(func)
```
initializer会在每个进程创建的时候运行，initargs是传递给initializer的参数，原理见注释代码。这里仍然疑惑，不知道主进程的queue对象是如何在子进程初始化的时候传递过去的。

参考：
- [Python multiprocessing.Queue vs multiprocessing.manager().Queue()](https://stackoverflow.com/questions/43439194/python-multiprocessing-queue-vs-multiprocessing-manager-queue)
- [Why is “pickle” and “multiprocessing picklability” so different in Python?](https://stackoverflow.com/questions/56912846/why-is-pickle-and-multiprocessing-picklability-so-different-in-python)

### 获取返回值

#### 使用multiprocessing.Queue

#### 使用multiprocessing.Pool

#### 使用concurrent.futures.ProcessPoolExecutor

## 线程

### 获取返回值

## 使用技巧

### 在线程中使用辅助进程

先看代码：
```python
print(f"in {multiprocessing.current_process().name}")

class C:
    def __init__(self):
        self.pool = Pool()
        self.q = Queue()

    @staticmethod
    def func(r):
        print(f"I am in {multiprocessing.current_process().name}, result is {r}")
        time.sleep(3)
        print(f"end {multiprocessing.current_process().name}")


    def pfunc(self):
        print(f"I am producer, self is {self}")
        for i in [42, 33, 24, None, None, None]:
            self.q.put(i)


    def cfunc(self):
        print(f"I am consumer, self is {self}")
        while True:
            r = self.q.get()
            if r is None:
                break
            self.pool.apply(self.func, args=(r,))

    def run(self):
        t = threading.Thread(target=self.pfunc)
        t.start()
        with ThreadPoolExecutor() as executor:
            [executor.submit(self.cfunc) for _ in range(3)]


if __name__ == "__main__":
    c = C()
    c.run()
```
输出结果为：
```
in MainProcess
I am producer, self is <__main__.C object at 0x000002C12D314408>
I am consumer, self is <__main__.C object at 0x000002C12D314408>
I am consumer, self is <__main__.C object at 0x000002C12D314408>
I am consumer, self is <__main__.C object at 0x000002C12D314408>
in SpawnPoolWorker-2
I am in SpawnPoolWorker-2, result is 42
in SpawnPoolWorker-8
in SpawnPoolWorker-1
I am in SpawnPoolWorker-8, result is 33
I am in SpawnPoolWorker-1, result is 24
in SpawnPoolWorker-5
in SpawnPoolWorker-6
in SpawnPoolWorker-11
in SpawnPoolWorker-7
in SpawnPoolWorker-10
in SpawnPoolWorker-3
in SpawnPoolWorker-4
in SpawnPoolWorker-9
in SpawnPoolWorker-12
end SpawnPoolWorker-2
end SpawnPoolWorker-8
end SpawnPoolWorker-1
```
这里有几点需要理解：
1. `pool = Pool()`必须放在`__name__ == "__main__"`中，因为当执行`pool = Pool()`的时候，在后台已经创建进程了。
2. 虽然启动了3个消费者线程，但是线程的上下文都是同一个，因此都是同一个pool进程池，在不同的线程中调用`pool.apply`，都是使用同一个进程池来启动子进程。
3. 以下都只是根据输出结果进行推测，不一定正确：调用`pool.apply`会创建多个进程，在此例中，会folk(windows下为spawn)和CPU核数相同的进程数，此例中为12个，统一由pool进程池管理。当`apply`一个函数，进程池会选派一个进程执行这个函数。
4. 当while一次循环结束，如下：
```python
while True:
    r = self.q.get()
    if r is None:
        break
    self.pool.apply(self.func, args=(r,))
```
即一个函数执行完毕，此时进程池并不会关闭，当下一次轮询，会从进程池里又选派一个进程来执行函数。
5. pool的工作进程都是dameon守护进程，即如果主进程关闭，则所有子进程也会结束，但是如果使用Ctrl+C来结束进程，有可能结束的只是某一个子进程。据说3.4已经修复，但是不确定。可以参考以下两篇文章：
 - [How to kill all Pool workers in multiprocess?](https://stackoverflow.com/questions/26068819/how-to-kill-all-pool-workers-in-multiprocess)
 - [Kill Python Multiprocessing Pool](https://stackoverflow.com/questions/25415104/kill-python-multiprocessing-pool)

## 相关文章 

- [Pool Limited Queue Processing in Python](https://towardsdatascience.com/pool-limited-queue-processing-in-python-2d02555b57dc)