Python中的generator（生成器）是一种用于生成迭代序列的特殊函数。与常规函数不同，生成器在执行过程中可以暂停，并通过yield返回值，而不是return。这种机制使生成器在处理大量数据时特别高效，因为它不会一次性将整个数据加载到内存中，而是按需生成数据

1. 使用生成器代替列表/字典推导式
当数据量很大时，生成器表达式可以替代列表或字典推导式来节省内存。例如，在处理大规模数据时，生成器会按需生成元素，而不是一次性将所有元素存储在内存中：

In [31]:
square = [x * x for x in range(1000000)] # 列表推导式（会生成完整列表，占用内存）
square_gen = (x * x for x in range(100000)) # 生成器表达式（按需生成元素，内存占用小）

In [29]:
square_gen.__next__()

25

2. 使用生成器函数通过yield关键字逐步返回数据，而不是一次性返回所有数据。当你不需要一次性处理所有数据时，这种方式非常有用。

In [88]:
def square_gen(max_num):
    start = 0
    while start < max_num:
        yield start * start
        start += 1
square_gen1 = square_gen(3)

In [89]:
square_gen1.__next__()

0

In [58]:
file_path = r'../source_file/master.csv'
def read_large_file(path):
    with open(path, 'r') as file:
        for line in file:
            yield line
data = read_large_file(file_path)

# # 使用生成器按行读取文件
# for line in read_large_file(file_path):
#     print(line.split(','))  # 逐行处理，避免一次加载整个文件

data.__next__()
data.__next__()

'Albania,1987,male,15-24 years,21,312900,6.71,Albania1987,,"2,156,624,900",796,Generation X\n'

3. Python的itertools模块提供了许多工具来操作生成器或其他迭代器。结合这些工具可以进一步增强生成器的能力。例如，itertools.islice()允许你切片生成器，而不用像列表那样全部加载。

In [59]:
import itertools

gen = (x * x for x in range(1000))
first_ten = itertools.islice(gen, 10)

print(list(first_ten))  # 输出前10个平方值


[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]


4. 生成器可能由于异常中断而提前结束。  
1)可以通过捕获生成器内部的异常来处理这种情况  
2)生成器也可以显式关闭，释放其资源

In [100]:
def controlled_generator(n):
    try:
        for i in range(n):
            yield i
    except GeneratorExit:
        print("Generator has been closed")

try:
    gen = controlled_generator(1)
    print(gen.__next__())
    print(gen.__next__())
except StopIteration as e:
    pass    


0


In [101]:
gen = controlled_generator(6)
for item in gen:
    if item == 5:
        gen.close()  # 手动关闭生成器

Generator has been closed
