Python 中的黑暗角落（一）：理解 yield 关键字 https://liam.page/2017/06/30/understanding-yield-in-python/

Python 中的黑暗角落（二）：生成器协程的调度问题 https://liam.page/2017/06/30/generator-coroutine-in-python-basic-topics/

Python 中的黑暗角落（三）：模块与包 https://liam.page/2017/07/23/modules-and-packages-of-python/

**0. playground**

In [6]:
for i in enumerate([7,8,9]): print(i)

(0, 7)
(1, 8)
(2, 9)


In [3]:
for i in enumerate(range(3)): print(i)

(0, 0)
(1, 1)
(2, 2)


In [12]:
[i for i in enumerate(range(3))]

[(0, 0), (1, 1), (2, 2)]

In [13]:
[i for i in [1,2,3]]

[1, 2, 3]

In [14]:
[i for i in range(4)]

[0, 1, 2, 3]

In [15]:
[i for i in (1,2,3)]

[1, 2, 3]

In [16]:
[i for i in 'ai cs']

['a', 'i', ' ', 'c', 's']

In [17]:
[i for i in {'ai':2,'sf':56,584:36.5}]

['ai', 'sf', 584]

In [28]:
print({'ai':2,'sf':56,584:36.5}.keys())
print({'ai':2,'sf':56,584:36.5}.values())
[i for i in {'ai':2,'sf':56,584:36.5}]

dict_keys(['ai', 'sf', 584])
dict_values([2, 56, 36.5])


['ai', 'sf', 584]

In [34]:
with open('mm.py','rw') as f:
    for i in f:
        print(i)

ValueError: must have exactly one of create/read/write/append mode

In [40]:
a = [1,2,3]
b = (3,4,5,6,7)
c = 'hello'
for i,j,k in zip(a,b,c):
    print(i,j,k)

1 3 h
2 4 e
3 5 l


python 的 list，tuple，string，dict，set，file都是可迭代的。
对于用户自己实现的类型，如果提供了 __iter__() 或者 __getitem__() 方法，那么该类的对象也是可迭代的。

**1.1 迭代(iteration)是一种操作，可迭代(iterable)是对象的一种特性，迭代器(iterator)是一种对象，迭代器协议(iterator protocol)指的是容器类需要包含一个特殊方法。** 如果一个容器类提供了 __iter__() 方法，并且该方法能返回一个能够逐个访问容器内所有元素的迭代器，则我们说该容器类实现了迭代器协议。

for x in something: print(x)

Python 处理 for 循环时，首先会调用内建函数 iter(something)，它实际上会调用 something.__iter__()，返回 something 对应的迭代器。而后，for 循环会调用内建函数 next()，作用在迭代器上，获取迭代器的下一个元素，并赋值给 x。此后，Python 才开始执行循环体。

In [11]:
a = [1,2,3]
for i in a: print(i)

b = a.__iter__()
print(next(b))
print(next(b))
print(next(b))

1
2
3
1
2
3


**1.2 生成器函数(generator function)是一种特殊的函数；生成器(generator)则是特殊的迭代器。**

In [182]:
def func():
    yield 1
    yield 2
print(type(func))
print(type(func()))

a = func()
print( iter(iter(iter(a))) == a )
print(next(a))
print(next(a))
print(next(a))

<class 'function'>
<class 'generator'>
True
1
2


StopIteration: 

与普通函数不同，生成器函数被调用后，其函数体内的代码并不会立即执行，而是返回一个生成器（generator-iterator）。
当返回的生成器调用成员方法时，相应的生成器函数中的代码才会执行。
若没有遇到 yield 表达式，生成器函数就已经退出，那么该方法会抛出 StopIterator 异常。

In [185]:
def square():
    for x in range(4):
        yield x ** 2
square_gen = square()
for x in square_gen:
    print(x)

0
1
4
9


In [186]:
square_gen = square()
print(next(square_gen))
print(next(square_gen))
print(next(square_gen))
print(next(square_gen))

0
1
4
9


每次执行到 print(next(square_gen)) 时，square 函数会从上一次暂停的位置开始，一直执行到下一个 yield 表达式，将 yield 关键字后的表达式列表返回给调用者，并再次暂停。注意，**每次从暂停恢复时，生成器函数的内部变量、指令指针、内部求值栈等内容和暂停时完全一致。(python没有指针，如何理解？)**

**1.3 生成器的方法**

generator.send(value)：和 generator.next() 类似，差别仅在与它会将当前 yield 表达式的值设置为 value。

generator.throw(type[, value[, traceback]])：向生成器函数抛出一个类型为 type 值为 value 调用栈为 traceback 的异常，而后让生成器函数继续执行到下一个 yield 表达式。其余行为与 generator.next() 类似。

next(generator)

generator.close()

In [191]:
square_gen = square()
square_gen.close()
next(square_gen)

StopIteration: 

In [199]:
square_gen = square()
print(next(square_gen))
print(square_gen.send(555))
print(next(square_gen))
print(next(square_gen))

0
1
4
9


In [230]:
def func_send():
    x = 1
    while True:
        y = yield x
        x = x + y

In [231]:
geniter = func_send()
print(next(geniter))
print(geniter.send(3))
print(geniter.send(10))

1
4
14


生成器函数 func_send 用 yield 表达式，将处理好的 x 发送给生成器的调用者；与此同时，生成器的调用者通过 send 函数，将外部信息作为生成器函数内部的 yield 表达式的值，保存在 y 当中，并参与后续的处理。**这一特性是使用 yield 在 Python 中使用协程的基础**。

In [41]:
# 生成无限序列
def get_prime(n):
    while True:
        if is_prime(n):
            yield n
            n +=1

**2. 协程** https://liam.page/2017/06/30/generator-coroutine-in-python-basic-topics/

使用 yield 表达式，在 Python 中实现一个最基本的协程调度示例，避免 I/O 操作占用大量 CPU 计算时间。

In [561]:
from collections import deque

class Dispatcher(object):                   # 2.
    def __init__(self, tasks):
        self.tasks = deque(tasks)           # 3.
    def next(self):
        return self.tasks.pop()             # 4.
    def run(self):
        while len(self.tasks):              # 5.
            task = self.next()
            try:
                next(task)                  # 6.
            except StopIteration:
                pass                        # 7.
            else:
                self.tasks.appendleft(task) # 8.

def greeting(name, times):                  # 9.
    for i in range(times):
        yield                               # 10.
        print("Hello, %s.%d!" % (name, i))


In [563]:
dispatcher = Dispatcher([greeting('Liam', 5), greeting('Sophia', 4),
                                            greeting('Cancan', 6)])

In [466]:
dispatcher.run()

Hello, Cancan.0!
Hello, Sophia.0!
Hello, Liam.0!
Hello, Cancan.1!
Hello, Sophia.1!
Hello, Liam.1!
Hello, Cancan.2!
Hello, Sophia.2!
Hello, Liam.2!
Hello, Cancan.3!
Hello, Sophia.3!
Hello, Liam.3!
Hello, Cancan.4!
Hello, Liam.4!
Hello, Cancan.5!


In [570]:
dispatcher.tasks

deque([<generator object greeting at 0x000001D3F07AECA8>,
       <generator object greeting at 0x000001D3F07AE518>,
       <generator object greeting at 0x000001D3F07AEB48>])

In [513]:
from time import time as current_time
from random import random as rd
import time

events_list = list()

class Event(object):
    def __init__(self, *args, **kwargs):
        events_list.append(self)
        self._callback = lambda:None
    def is_ready(self):
        ready = self._is_ready()
        if ready:
            self._callback()
        return ready
    def set_callback(self, callback):
        self._callback = callback

class SleepEvent(Event):
    def __init__(self, duration):
        super(SleepEvent, self).__init__(duration)
        self._duration = 1 * 1 * duration
        self._start_time = current_time()
    def _is_ready(self):
        return (current_time() - self._start_time >= self._duration)
        # 为什么这里不直接用 sleep 直接实现呢？

def coroutine_sleep(duration):
    return SleepEvent(duration)

def greeting(name, times, duration = 1):
    for i in range(times):
        yield coroutine_sleep(duration)
        print("Hello, %s.%d!" % (name, i))

class Dispatcher(object):
    def __init__(self, tasks):
        self.tasks = tasks
        self._start()
    def _next(self, gen_task):
        try:
            yielded_event = next(gen_task)
            yielded_event.set_callback(lambda: self._next(gen_task))
        except StopIteration:
            pass
    def _start(self):
        for task in self.tasks:
            self._next(task)
    def polling(self):
        while len(events_list):
            for event in events_list:
                if event.is_ready():
                    events_list.remove(event)
                    break


In [550]:
start = time.clock()
dispatcher = Dispatcher([greeting('Liam', 4), greeting('Sophia', 4), greeting('Cancan', 4)])
dispatcher.polling()
end = time.clock()
end - start

Hello, Sophia.0!
Hello, Liam.0!
Hello, Cancan.0!
Hello, Liam.1!
Hello, Sophia.1!
Hello, Cancan.1!
Hello, Cancan.2!
Hello, Liam.2!
Hello, Sophia.2!
Hello, Sophia.3!
Hello, Cancan.3!
Hello, Liam.3!


4.0003818118962045

In [551]:
def no_yield_greeting(name, times, duration = 1):
    for i in range(times):
        sleep(1 * 1 * duration)
        print("Hello, %s.%d!" % (name, i))
class no_yield_dispatcher(object):
    def __init__(self,task):
        pass
    def polling(self):
        print(self)

In [552]:
start = time.clock()
no_yield_greeting('Liam', 4)
no_yield_greeting('Sophia', 4)
no_yield_greeting('Cancan', 4)
end = time.clock()
end - start

Hello, Liam.0!
Hello, Liam.1!
Hello, Liam.2!
Hello, Liam.3!
Hello, Sophia.0!
Hello, Sophia.1!
Hello, Sophia.2!
Hello, Sophia.3!
Hello, Cancan.0!
Hello, Cancan.1!
Hello, Cancan.2!
Hello, Cancan.3!


12.006480956083124

**3. 模块/包**

In [17]:
import mm

In [18]:
mm.fib(5)

1
1
2
3


In [19]:
print(dir(mm))
print(mm.__cached__)
print(mm.__name__)
print(mm.__doc__)

['__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__spec__', 'fib', 'fib_yield', 'foo', 'show']
d:\sync-cs\bluoveGitHub\note-on-cs\python\__pycache__\mm.cpython-36.pyc
mm

这是一个模块




值得一提的是，模块的初始化操作（这里指 foo = 0 这条语句），仅只在 Python 解释器第一次处理该模块的时候执行。也就是说，如果同一个模块被多次 import，它只会执行一次初始化。而且在 jupyter notebook 里面需要重启 kernel 才能正确读取倍修改过的 module

值得一提的是，模块的初始化操作（这里指 foo = 0 这条语句），仅只在 Python 解释器第一次处理该模块的时候执行。也就是说，如果同一个模块被多次 import，它只会执行一次初始化。而且在 jupyter notebook 里面需要重启 kernel 才能正确读取倍修改过的 module

In [20]:
foo = 555
print(foo)
print(mm.foo)
mm.show()

555
0
0


In [21]:
del mm

In [1]:
# 这样被导入的符号，如果引用了模块内部的变量
# 那么在导入之后也依然会使用模块内的变量，而不是当前环境中的同名变量。
from mm import show
foo = 555
show()
# from mm import *
# 导入模块内的所有公开符号（没有前缀 _ 的那些）

0


Python 搜寻模块文件，也遵循了类似的思路。比如，用户在 Python 中尝试导入 import foobar，那么

首先，Python 会在内建模块中搜寻 foobar；

若未找到，则 Python 会在当前工作路径（当前脚本所在路径，或者执行 Python 解释器的路径）中搜寻 foobar；

若仍未找到，则 Python 会在环境变量 PYTHONPATH 中指示的路径中搜寻 foobar；

若依旧未能找到，则 Python 会在安装时指定的路径中搜寻 foobar；

若仍旧失败，则 Python 会报错，提示找不到 foobar 这个模块。

In [3]:
import foobar

ModuleNotFoundError: No module named 'foobar'

**包** 包就是文件夹

**4. python的内存管理**

In [130]:
a = 'abc'
b = a
print(a,id(a))
print(b,id(b))
# 相当于
# string a, b
# a = new string('abc')
# b = a

print('after:')
a = 'xyz'
print(a,id(a))
print(b,id(b))
# a = new string('xyz')

abc 2009735183696
abc 2009735183696
after:
xyz 2009783295088
abc 2009735183696


In [156]:
string_1 = 'hahaha'
string_2 = 'hahaha'
print(id(string_1))
print(id(string_2))
# 相同的字符串其实同一块内存，池子。
# 这也是python推荐用join不推荐用+来连接字符串的原因：
# 拼接10000个字符串，用+需要创建10000个对象。但是用join只要创建一个。

# The operator a is b returns True if a and b are bound to the same object, otherwise False.可以看作比较内存地址的意思
string_1 is string_2

2009783362088
2009783362088


True

In [157]:
help(id)

Help on built-in function id in module builtins:

id(obj, /)
    Return the identity of an object.
    
    This is guaranteed to be unique among simultaneously existing objects.
    (CPython uses the object's memory address.)



In [158]:
int_1 = 25
int_2 = 25
print(int_1 is int_2)
# 但是数字的池子有些奇怪
int_1 = 300
int_2 = 300
print(int_1 is int_2)
# 对于某个范围内的整数，python启动时就建好了，永不销毁。

True
False
