In [5]:
# import os
# print('Process (%s) starting.....' % os.getpid())

# pid = os.fork()
# if pid == 0:
#     print('i am child process(%s) and my parent is %s' % (os.getpid(), os.getppid()))
# else:
#     print('i (%s) created a child process (%s)' % (os.getpid(), pid))
    

In [6]:
# import time
# import os

# #创建子进程前声明的变量
# number = 7
# try:
#     pid = os.fork()

#     if pid == 0:
#         print("this is child process")
#         number = number - 1
#         time.sleep(5)
#         print(number)
#     else:
#         print("this is parent process")
#         print(number)
# except OSError as e:
#     pass

### 常见的Apache服务器就是由父进程监听端口，每当有新的http请求时，就fork出子进程来处理新的http请求。

- fork -----linux, macos
- multiprocessing------linux, macos,windows


In [1]:
from multiprocessing import Process
import os

def run_proc(name):
    print('Run child process %s (%s)' % (name, os.getpid()))
    
print('Parent process %s' % os.getpid())
p = Process(target=run_proc, args=('test',))
print('Child process will start')
p.start()
p.join()
print('Child process end')


Parent process 11316
Child process will start
Run child process test (11450)
Child process end


- 创建子进程时，只需要传入一个执行函数和函数的参数，创建一个Process实例，用start()方法启动，这样创建进程比fork()还要简单。
- join()方法可以等待子进程结束后再继续往下运行，通常用于进程间的同步。

In [2]:
from multiprocessing import Pool
import os, time, random

def long_time_task(name):
    print('Run task %s (%s)' %(name, os.getpid()))
    start = time.time()
    time.sleep(random.random()*3)
    end = time.time()
    print('Task %s runs %0.2f sencods' %(name, (end-start)))

print('Parent process %s' % os.getpid())
p = Pool(4)
for i in range(5):
    p.apply_async(long_time_task, args=(i,))
print('Waiting all subprocess done...')
p.close()
p.join()
print('All subprocess done')

Parent process 11316
Run task 0 (11687)
Run task 3 (11690)
Run task 1 (11688)
Run task 2 (11689)
Waiting all subprocess done...
Task 1 runs 0.38 sencods
Run task 4 (11688)
Task 0 runs 1.23 sencods
Task 2 runs 1.45 sencods
Task 3 runs 1.96 sencods
Task 4 runs 2.82 sencods
All subprocess done


### 注意上面代码，对Pool对象调用join()方法会等待所有子进程执行完毕，
### 调用join()之前必须先调用close()，调用close()之后就不能继续添加新的Process了。

In [3]:
import subprocess
print('$ nslookup www.python.org')
r = subprocess.call(['nslookup', 'www.python.org'])
print('Exit code:', r)


$ nslookup www.python.org
Exit code: 0


- Process之间肯定是需要通信的，操作系统提供了很多机制来实现进程间的通信。
- Python的multiprocessing模块包装了底层的机制，提供了Queue、Pipes等多种方式来交换数据。
- 我们以Queue为例，在父进程中创建两个子进程，一个往Queue里写数据，一个从Queue里读数据：




In [5]:
from multiprocessing import Process, Queue
import os, time, random

# 写数据进程执行的代码:
def write(q):
    print('Process to write %s' %os.getpid())
    for value in ['a', 'b', 'c']:
        print('put %s to queue' %value)
        q.put(value)
        time.sleep(random.random())
        
# 读数据进程执行的代码:
def read(q):
    print('Process to read %s' % os.getpid())
    while True:
        value = q.get(True)
        print('get %s from queue' % value)
        
# 父进程创建Queue，并传给各个子进程：
q = Queue()
pw = Process(target=write, args=(q,))
pr = Process(target=read, args=(q,))

pw.start()
pr.start()
pw.join()
pr.terminate()

Process to write 12154
put a to queue
Process to read 12155
get a from queue
put b to queue
get b from queue
put c to queue
get c from queue


- 在Unix/Linux下，multiprocessing模块封装了fork()调用，使我们不需要关注fork()的细节。
- 由于Windows没有fork调用，因此，multiprocessing需要“模拟”出fork的效果，父进程所有Python对象都必须通过pickle序列化再传到子进程去，
- 所以，如果multiprocessing在Windows下调用失败了，要先考虑是不是pickle失败了。



In [6]:
import time, threading

def loop():
    print('thread %s is runing' % threading.current_thread().name)
    n = 0
    while n<5:
        n = n+1
        print('thread %s ---- %d' %(threading.current_thread().name, n))
        time.sleep(1)
    print('thread %s ended' % threading.current_thread().name)
    
print('thread %s is running' % threading.current_thread().name)
t = threading.Thread(target=loop, name='LoopThread')
t.start()
t.join()
print('thread %s ended' % threading.current_thread().name)


thread MainThread is running
thread LoopThread is runing
thread LoopThread ---- 1
thread LoopThread ---- 2
thread LoopThread ---- 3
thread LoopThread ---- 4
thread LoopThread ---- 5
thread LoopThread ended
thread MainThread ended


In [8]:
import multiprocessing
print(multiprocessing.cpu_count())

8


### Python解释器由于设计时有GIL全局锁，导致了多线程无法利用多核。多线程的并发在Python中就是一个美丽的梦。

In [10]:
import threading
# 创建全局ThreadLocal对象:
local_school = threading.local()

def process_student():
    # 获取当前线程关联的student:
    std = local_school.student
    print('hello %s in (%s)' %(std, threading.current_thread().name))
    
def process_thread(name):
    # 绑定ThreadLocal的student:
    local_school.student = name
    process_student()
    
t1 = threading.Thread(target=process_thread, args=('Alice',), name='Thread-a')
t2 = threading.Thread(target=process_thread, args=('Bobs',), name='Thread-b')

t1.start()
t2.start()
t1.join()
t2.join()    

hello Alice in (Thread-a)
hello Bobs in (Thread-b)


In [12]:
'a b c  '.split(' ')

['a', 'b', 'c', '', '']

In [13]:
import re
re.split(r'\s+', 'a b   c')


['a', 'b', 'c']

In [16]:
re.split(r'[\s\,]+', 'a,b, c  d,,,f')


['a', 'b', 'c', 'd', 'f']

## 记得用正则表达式来把不规范的输入转化成正确的数组。

In [17]:
m = re.match(r'^(\d{3})-(\d{3,8})$', '010-1234567')
m

<_sre.SRE_Match object; span=(0, 11), match='010-1234567'>

In [22]:
m.groups()

('010', '1234567')

In [18]:
m.group(0)

'010-1234567'

In [19]:
m.group(1)

'010'

In [20]:
m.group(2)

'1234567'

### 如果正则表达式中定义了组，就可以在Match对象上用group()方法提取出子串来。
- 注意到group(0)永远是原始字符串


In [25]:
m2 = re.match(r'^(\d+)(0*)$', '102300')
m2.groups()

('102300', '')

In [26]:
m2.group(0)

'102300'

In [27]:
m2.group(1)

'102300'

In [28]:
m2.group(2)

''

In [30]:
m3 = re.match(r'^(\d+?)(0*)$', '1002300')
m3.groups()

('10023', '00')

In [32]:
# datetime模块还包含一个datetime类
from datetime import datetime
time = datetime.now()
print(time)
print(type(time))

2019-05-07 18:36:03.991081
<class 'datetime.datetime'>


In [34]:
from datetime import datetime
dt = datetime(2015, 4, 19, 12, 20) # 用指定日期时间创建datetime
print(dt)
print(dt.timestamp())

2015-04-19 12:20:00
1429417200.0


#### 时间戳和时区没什么关系，1429417200.0这么多秒就是在任何地方，任何时区都是代表距离1970年1月1日 00:00:00的秒数
#### 但是1429417200.0这么多秒在北京时区和其他时区对应的此刻时间是不一样的

In [36]:
print(datetime.fromtimestamp(1429417200.0))
print(datetime.utcfromtimestamp(1429417200.0))

2015-04-19 12:20:00
2015-04-19 04:20:00


In [43]:
# str转换为datetime
ctime = datetime.strptime('2019-2-22 9:10:30', '%Y-%m-%d %H:%M:%S')
print(ctime)

2019-02-22 09:10:30


In [44]:
t = datetime.now()
print(t.strftime('%a, %b %d %H:%M'))

Tue, May 07 18:54


In [45]:
now = datetime.now()
now

datetime.datetime(2019, 5, 7, 18, 59, 4, 812567)

### 假如你想看一下现在时间加上10个小时，或者减去几十个小时后，具体的日期是多少，
### 那么用date.time模块里的timedelta就可以了。

In [47]:

from datetime import datetime, timedelta
now + timedelta(hours=10)


datetime.datetime(2019, 5, 8, 4, 59, 4, 812567)

In [49]:
now - timedelta(days=1)

datetime.datetime(2019, 5, 6, 18, 59, 4, 812567)

In [50]:
now + timedelta(days=1, hours=10)

datetime.datetime(2019, 5, 9, 4, 59, 4, 812567)

### collections是Python内建的一个集合模块，提供了许多有用的集合类。

In [54]:
from collections import namedtuple
Point = namedtuple('Point', ['x', 'y'])
p = Point(1, 2)
p.y

2

In [55]:
isinstance(p, Point)

True

In [56]:
isinstance(p, tuple)

True

### 使用list存储数据时，按索引访问元素很快，但是插入和删除元素就很慢了，
### 因为list是线性存储，数据量大的时候，插入和删除效率很低。
### deque是为了高效实现插入和删除操作的双向列表，适合用于队列和栈：
### deque除了实现list的append()和pop()外，还支持appendleft()和popleft()，
### 这样就可以非常高效地往头部添加或删除元素。

In [58]:
from collections import deque
q = deque(['a', 'b', 'c'])
q.append('x')
q.appendleft('y')
print(q)

deque(['y', 'a', 'b', 'c', 'x'])


### defaultdict
### 使用dict时，如果引用的Key不存在，就会抛出KeyError。如果希望key不存在时，返回一个默认值，就可以用defaultdict：


In [59]:
from collections import defaultdict
dd = defaultdict(lambda: 'not in')
dd['key1'] = 'a'
dd['key1']

'a'

In [60]:
dd['kre'] # 需找一个不存在的键时，返回了一个设定的默认值

'not in'

### OrderedDict
### 使用dict时，Key是无序的。在对dict做迭代时，我们无法确定Key的顺序。

In [65]:
from collections import OrderedDict
d1 = dict([('f',1), ('a', 2), ('c', 3), ('d', 4)])
d1

{'f': 1, 'a': 2, 'c': 3, 'd': 4}

In [64]:
d2 = OrderedDict([('a',1), ('b', 2), ('c', 3), ('d', 4)])
d2

OrderedDict([('a', 1), ('b', 2), ('c', 3), ('d', 4)])

### Counter
- Counter是一个简单的计数器，例如，统计字符出现的个数：

In [66]:
from collections import Counter
c = Counter()
for x in 'progaming':
    c[x] = c[x] + 1
c

Counter({'p': 1, 'r': 1, 'o': 1, 'g': 2, 'a': 1, 'm': 1, 'i': 1, 'n': 1})

In [74]:
# 二进制数11101 转换成十进制数为多少
# 1*R的4次方(这里R=2)+1*R的3次方+1*R的2次方+0*R的1次方+1*R的0次方=16+8+4+0+1=29
print(pow(1*2, 4) + pow(1*2, 3) + pow(1*2, 2) + pow(0*2, 1) + pow(1*2, 0))

29


In [79]:
print(int('0b11101',2)) 

29


In [80]:
import hashlib
md5 = hashlib.md5()
md5.update('how to use md5 in python hashlib?'.encode('utf-8'))
print(md5.hexdigest())

d26a53750bc40b38b65a520292f69306
