# 多线程

- 多任务可以由多进程完成，也可以由一个进程内的多线程完成
- python的线程是真正的Posix Thread， 而不是模拟出来的线程
- python的标准库提供了两个模块：_thread和threading, _thread是低级模块，threading是高级模块，对_thread进行了封装，绝大多数情况下，我们只需要使用threading这个高级模块。

## 创建一个Thread实例并执行

In [1]:
import time, threading

In [8]:
def loop():
    print('thread {} is running...'.format(threading.current_thread().name))
    n = 0
    while n < 5:
        n = n + 1
        print('thread {} >>> {}'.format(threading.current_thread().name, n))
        time.sleep(1)
    print('thread {} ended.'.format(threading.current_thread().name))

In [9]:
print('thread {} is running...'.format(threading.current_thread().name))
t = threading.Thread(target=loop, name='LoopThread')
t.start()
t.join()
print('thread {} ended.'.format(threading.current_thread().name))

thread MainThread is running...
thread LoopThread is running...
thread LoopThread >>> 1
thread LoopThread >>> 2
thread LoopThread >>> 3
thread LoopThread >>> 4
thread LoopThread >>> 5
thread LoopThread ended.
thread MainThread ended.


- 由于任何进程默认就会启动一个线程，我们把该线程称为主线程，主线程又可以启动新的线程。
- Python的threading模块有个current_thread()函数，它永远返回当前线程的实例。
- 主线程实例的名字叫MainThread，子线程的名字在创建时指定，我们用LoopThread命名子线程，名字仅在打印时用来显示，完全没有其他意义，如果不起名字，python就自动给线程命名为Thread-1,Thread-2......

## Lock(解决线程间的同步和互斥问题)

- 多进程和多线程的最大不同在于，多进程中，同一个变量，各自有一份拷贝存在于每个进程中，互不影响，而多线程中，所有变量都由线程共享，所以任何一个变量都可以被任何一个线程修改，因此，线程之间共享数据的最大危险在于**多个线程同时改变一个变量，把内容改乱了**。

### 多线程同时操作一个变量，将内容改乱

In [31]:
import time, threading

假定这是银行存款：

In [32]:
balance = 0

In [38]:
def change_it(n):
    # 先存或取，结果应该是0
    global balance
    balance = balance + n
    balance = balance - n

def run_thread(n):
    for _ in range(1000000):
        change_it(n)

t1 = threading.Thread(target=run_thread, args=(5,))
t2 = threading.Thread(target=run_thread, args=(8,))
t1.start()
t2.start()
t1.join()
t2.join()
print(balance)

34


- 可以看到结果并不是预期的0
- 线程的调度是由操作系统决定的，当t1、t2交替执行时，只要循环次数足够多，balance的结果就不一定是0了。

- 原因是因为高级语言的一条语句在CPU执行时是若干条语句
- 即使是一个简单的计算： balance = balance + n
- 也分成了两步：
- x = balance + n
- balance = x

- 所以多线程并并行时，可能同时将自己的临时变量x赋值给balance，这样其中一个的值就被覆盖了。

### 使用threading.Lock()来解决以上问题

- 要确保balance计算正确，就要给change_it()上一把锁，当某个线程开始执行change_it()时，该线程获得了锁，因此其他线程不能同时执行change_it()，只能等待，直到锁被释放后，获得该锁以后才能改，由于锁只有一个，无论多少线程，同一时刻，最多只能有一个线程持有该锁，所以不会造成修改的冲突

In [42]:
balance = 0
lock = threading.Lock()

def run_thread(n):
    for i in range(1000000):
        # 先要获取锁
        lock.acquire()
        try:
            change_it(n)
        finally:
            lock.release()

t1 = threading.Thread(target=run_thread, args=(5,))
t2 = threading.Thread(target=run_thread, args=(8,))
t1.start()
t2.start()
t1.join()
t2.join()
print(balance)

0


- 当多个线程同时执行lock.acquire()时，只有一个线程能成功地获取锁，然后继续执行代码，其他线程就继续等待直到获得锁为止。
- 使用try...finally来确保一定会释放锁
- 锁的好处：
    - 确保某段关键代码只能由一个线程从头到尾完整地执行
- 锁的坏处：
    - 阻止了多线程的并发执行，包含锁的某段代码实际上只能以单线程模式运行，效率就大大降低了
    - 可能会造成死锁，只能由操作系统强制终止

## 多核CPU，Python GIL全局解释器锁的限制

- 如果有多核CPU，直觉告诉我们多核应该可以同时执行多个线程
- 一个死循环线程会100%占用一个CPU
- 如果有两个死循环线程，在多核CPU中，可以监控到会占用200%的CPU，也就是占用两个CPU核心。

### 用Python写个死循环的

In [43]:
import threading,multiprocessing

In [45]:
def loop():
    x = 0
    while True:
        x = x ^ 1

for i in range(multiprocessing.cpu_count()):
    t = threading.Thread(target=loop)
    t.start()

- 在4核CPU上可以监控到CPU占用率仅有102%，也就是只使用了一核
- 但是使用C、C++、或java来改写相同的死循环，直接可以把全部核心跑满，4核就跑到400%

### 为什么python多线程就无法利用多核

- 因为Python的线程虽然是真正的线程，但解释器执行代码时，有一个GIL锁：Global Interpreter Lock,任何Python线程执行前，必须先获得GIL锁，然后每执行100条字节码，解释器就自动释放GIL锁，让别的线程也有机会执行，这个GIL全局锁实际上把所有的线程的执行代码都给上了锁，所以多线程在python中只能交替执行，即使100个线程跑在100核CPU上，也只能用到一个核

- GIL是python解释器设计的历史遗留问题，通常我们用的解释器是官方实现的CPython，要真正利用多核，那只能通过C语言扩展来实现，不过这样就失去了Python简单易用的特点。

- **不过也不用过于担心，Python虽然不能利用多线程实现多核任务，但可以通过多进程实现多核任务。多个Python进程有各自独立的GIL锁，互不影响**

## 小结

- 多线程编程，模型复杂，容易发生冲突，必须用锁加以隔离，同时又要小心死锁的发生
- Python解释器由于设计时有GIL全局锁，导致了多线程无法利用多核。多线程的并行在Python中就是一个美丽的梦