In [1]:
# -*- coding: utf-8 -*-

'''
@Author   :   Corley Tang
@contact  :   cutercorleytd@gmail.com
@Github   :   https://github.com/corleytd
@Time     :   2023-11-21 21:48
@Project  :   Hands-on Crawler with Python-iterator_generator
迭代器与生成器
'''

# 导入所需的库
import time

# 1.可迭代对象与迭代器
迭代器是一个可以记住遍历的位置的对象，它能用来访问集合元素，当我们需要按照顺序访问一个可迭代对象（如列表、元组、字典等）的所有元素时，可以使用迭代器。迭代器实现了迭代器协议，即定义了`__iter__()`和`__next__()`方法。

In [2]:
# 定义可迭代对象
class Sentence:
    def __init__(self, text):
        self.words = text.split(' ')

    def __getitem__(self, index):
        return self.words[index]

    def __len__(self):
        return len(self.words)


# 实例化，得到可迭代对象
sent_iteratable = Sentence('Hope for the best, but prepare for the worst.')
sent_iteratable

<__main__.Sentence at 0x1c4d8a839d0>

In [3]:
# 迭代器
sent_iterator = iter(sent_iteratable)
sent_iterator

<iterator at 0x1c4d8a83910>

In [4]:
# 调用next()函数，得到下一个元素
next(sent_iterator)

'Hope'

In [5]:
next(sent_iterator)

'for'

In [6]:
next(sent_iterator)
next(sent_iterator)
next(sent_iterator)
next(sent_iterator)
next(sent_iterator)
next(sent_iterator)
next(sent_iterator)

'worst.'

In [7]:
next(sent_iterator)  # 迭代器结束后再继续调用，会抛出StopIteration异常

StopIteration: 

In [8]:
list(sent_iterator)  # 迭代器只能使用1次，如果需要再次迭代，需要重新构建迭代器

[]

In [9]:
# 可迭代对象类：实现__iter__或__getitem__方法
class Sentence:
    def __init__(self, text):
        self.words = text.split(' ')

    def __iter__(self):  # 使得类可迭代：实例化并返回一个迭代器
        return SentenceIterator(self.words)


# 迭代器类：实现__iter__和__next__方法
class SentenceIterator:
    def __init__(self, words):
        self.words = words
        self.index = 0

    def __next__(self):  # 按顺序返回下一个元素
        try:
            word = self.words[self.index]
        except IndexError:
            raise StopIteration()
        self.index += 1
        return word

    def __iter__(self):  # 返回迭代器自身
        return self


# 实例化
sent_iteratable = Sentence('Hope for the best, but prepare for the worst.')
for word in sent_iteratable:
    print(word)

Hope
for
the
best,
but
prepare
for
the
worst.


# 2.生成器与生成器对象
生成器是一种特殊的迭代器，它的特点是可以使用yield关键字来返回值，每次调用生成器的`__next__()`方法时，生成器会从上次yield的位置继续执行，直到遇到下一个yield关键字或者执行完毕。相比于普通的函数和迭代器，生成器更加节省内存，因为它是惰性计算的：它们并不会立即执行或占用大量内存，而是在需要时生成数据。

迭代器和生成器都是实现顺序访问集合元素的工具，但迭代器是一次性返回所有结果，而生成器则是每次返回一个结果，并在下次请求时从上次暂停的地方继续。因此，生成器特别适合处理大量数据或者需要延迟计算的场景。

yield和return都可以在函数中使用，以返回一个值。区别在于：当函数包含yield关键字时，该函数变为生成器函数，生成器函数不是返回一次性的数据结果，而是返回一个生成器对象。每次调用生成器的`__next__()`方法时，生成器会从上次yield的位置继续执行，直到遇到下一个yield关键字或者执行完毕。而return则是返回一个具体的结果值，并且结束当前函数的执行。

In [10]:
# 使用生成器简化可迭代对象类
class Sentence:
    def __init__(self, text):
        self.words = text.split(' ')

    def __iter__(self):  # 生成器函数，调用时会自动创建生成器对象
        for word in self.words:
            yield word


# 实例化
sent_generator = Sentence('Hope for the best, but prepare for the worst.')
for word in sent_generator:
    print(word)

Hope
for
the
best,
but
prepare
for
the
worst.


In [11]:
# 生成器函数：即生成器工厂，用于产生生成器对象
def generator_func():
    yield 1
    yield 2
    yield 3


generator_func  # 函数对象

<function __main__.generator_func()>

In [12]:
generator_func()  # 生成器对象

<generator object generator_func at 0x000001C4DA68AE40>

In [13]:
# 生成器是迭代器
for i in generator_func():
    print(i)

1
2
3


In [14]:
# 生成器对象赋值给g
g = generator_func()
g

<generator object generator_func at 0x000001C4DA68ACF0>

In [15]:
# g是迭代器，所以可以用next函数获取yield生成的下一个元素
next(g)

1

In [16]:
next(g)
next(g)
next(g)  # 生成器函数定义体执行完毕后，生成器对象也会抛出StopIteration异常

StopIteration: 

In [17]:
# 生成器函数定义体的执行过程
def generator_func():
    print('start')
    yield 1
    print('yield 1')
    yield 2
    print('yield 2')
    yield 3
    print('end')


for i in generator_func():  # 调用生成器函数得到生成器对象
    print(f'get {i}')
    time.sleep(5)

start
get 1
yield 1
get 2
yield 2
get 3
end


# 3.生成器表达式

In [18]:
# 列表推导式
[word for word in Sentence('Hope for the best, but prepare for the worst.')]

['Hope', 'for', 'the', 'best,', 'but', 'prepare', 'for', 'the', 'worst.']

In [19]:
# 生成器表达式
generator = (word for word in Sentence('Hope for the best, but prepare for the worst.'))
generator  # 生成器对象，使用for循环或next函数时，才会返回元素

<generator object <genexpr> at 0x000001C4DA6B4890>

In [20]:
next(generator)

'Hope'

# 4.yield from

In [21]:
# 生成器函数
def gen_nums(n):
    for i in range(n):
        yield i


# 生成器函数，参数是生成器对象
def chain(*gens):
    for gen in gens:
        for i in gen:
            yield i


# 实例化生成器对象
g1 = gen_nums(5)
g1

<generator object gen_nums at 0x000001C4DA6B4900>

In [22]:
# 实例化生成器对象
g2 = gen_nums(10)
g2

<generator object gen_nums at 0x000001C4DA6B4A50>

In [23]:
g3 = chain(g1, g2)  # 传入生成器
g3

<generator object chain at 0x000001C4DA6B4DD0>

In [24]:
list(g3)

[0, 1, 2, 3, 4, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [25]:
# 使用yield from简化代码
def chain(*gens):
    for gen in gens:
        yield from gen  # 并不单是语法糖，还会创建通道、将内层生成器与外层生成器联系起来


g4 = chain(gen_nums(5), gen_nums(10))
g4

<generator object chain at 0x000001C4DA6FD040>

In [26]:
list(g4)

[0, 1, 2, 3, 4, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [27]:
def add(a, b):
    return a + b


def map():
    yield from range(5)


n = 1
g = (add(i, n) for i in map())  # 生成器，未进行计算

n = 10
g = (add(i, n) for i in g)  # 生成器，未进行计算
list(g)  # 进行计算，此时n为10，因此加了2次10，即0~4均加了20，为20~24

[20, 21, 22, 23, 24]