# Python生成器(Generator)和迭代器(Iterator)通俗介绍

## 什么是迭代器(Iterator)？

### 生活中的例子
想象你在看一本书，你有一个书签。每次你读完一页，就把书签移到下一页。这个书签就像是一个"迭代器"——它记住了你当前在哪一页，并且知道如何移动到下一页。

### 编程中的迭代器
在Python中，迭代器是一个可以逐个返回数据的对象。它有两个重要特点：
1. **记住当前位置**：知道现在处理到哪里了
2. **知道下一步**：知道如何获取下一个元素

In [4]:
# 最简单的迭代器例子
numbers = [1, 2, 3, 4, 5]

# 创建一个迭代器
iterator = iter(numbers)

# 逐个获取元素
print(next(iterator))  # 输出: 1
print(next(iterator))  # 输出: 2
print(next(iterator))  # 输出: 3

1
2
3


### 迭代器的好处
1. **节省内存**：不需要一次性加载所有数据到内存
2. **延迟计算**：只有在需要的时候才计算下一个值
3. **处理大数据**：可以处理无限长的数据序列

In [5]:
# 自定义一个简单的迭代器类
class CountDown:
    def __init__(self, start):
        self.start = start
    
    def __iter__(self):
        return self
    
    def __next__(self):
        if self.start <= 0:
            raise StopIteration  # 告诉Python没有更多元素了
        self.start -= 1
        return self.start + 1

# 使用我们的迭代器
countdown = CountDown(5)
for num in countdown:
    print(f"倒计时: {num}")

倒计时: 5
倒计时: 4
倒计时: 3
倒计时: 2
倒计时: 1


## 什么是生成器(Generator)？

### 生活中的例子
想象你是一个面包师。客人来买面包时，你不会一次烤出一整天的面包（占地方，可能变质），而是根据需要一个一个地烤。生成器就像这样——按需"生产"数据。

### 编程中的生成器
生成器是创建迭代器的一种简单方法。它使用`yield`关键字，就像一个"暂停按钮"。

In [None]:
# 最简单的生成器例子
def simple_generator():
    print("开始生成数据")
    yield 1
    print("生成了第一个数据，暂停了...")
    yield 2
    print("生成了第二个数据，暂停了...")
    yield 3
    print("生成完毕")

# 使用生成器
gen = simple_generator()
print("创建了生成器，但还没开始执行")

print("\n第一次调用:")
print(next(gen))

print("\n第二次调用:")
print(next(gen))

print("\n第三次调用:")
print(next(gen))

### 生成器的神奇之处
1. **函数会"记住"上次执行到哪里**
2. **每次调用`next()`时，从上次暂停的地方继续执行**
3. **遇到`yield`就暂停，返回值**

In [None]:
# 更实用的例子：无限数列生成器
def fibonacci():
    """斐波那契数列生成器"""
    a, b = 0, 1
    while True:  # 无限循环！
        yield a
        a, b = b, a + b

# 获取前10个斐波那契数
fib = fibonacci()
for i in range(10):
    print(f"第{i+1}个斐波那契数: {next(fib)}")

## 生成器表达式：更简洁的写法

就像列表推导式一样，Python提供了生成器表达式的简洁写法：

In [None]:
# 列表推导式 vs 生成器表达式

# 列表推导式 - 立即创建所有元素
squares_list = [x**2 for x in range(10)]
print("列表推导式结果:", squares_list)
print("占用内存:", squares_list.__sizeof__(), "字节")

# 生成器表达式 - 按需生成元素
squares_gen = (x**2 for x in range(10))  # 注意：用的是圆括号！
print("生成器对象:", squares_gen)
print("占用内存:", squares_gen.__sizeof__(), "字节")

# 使用生成器
print("生成器的值:")
for square in squares_gen:
    print(square, end=" ")

## 实际应用场景

### 1. 处理大文件

In [None]:
def read_large_file(file_path):
    """逐行读取大文件的生成器"""
    try:
        with open(file_path, 'r', encoding='utf-8') as file:
            for line in file:
                yield line.strip()  # 去掉换行符
    except FileNotFoundError:
        print(f"文件 {file_path} 不存在")
        return

# 创建一个示例文件
with open('example.txt', 'w', encoding='utf-8') as f:
    for i in range(5):
        f.write(f"这是第{i+1}行内容\n")

# 使用生成器读取文件
print("逐行读取文件:")
for line in read_large_file('example.txt'):
    print(f"读取到: {line}")

### 2. 数据流处理

In [None]:
def process_numbers(numbers):
    """处理数字流：过滤偶数，然后平方"""
    for num in numbers:
        if num % 2 == 0:  # 只处理偶数
            yield num ** 2

# 原始数据
data = range(1, 11)  # 1到10
print("原始数据:", list(data))

# 使用生成器处理
processed = process_numbers(range(1, 11))
print("处理后的数据:", list(processed))

### 3. 管道式处理

In [None]:
def numbers():
    """生成数字"""
    for i in range(1, 11):
        yield i

def filter_even(nums):
    """过滤偶数"""
    for num in nums:
        if num % 2 == 0:
            yield num

def square(nums):
    """平方"""
    for num in nums:
        yield num ** 2

# 管道式处理：数字 -> 过滤偶数 -> 平方
result = square(filter_even(numbers()))
print("管道处理结果:", list(result))

## 迭代器 vs 生成器：有什么区别？

| 特点 | 迭代器 | 生成器 |
|------|--------|--------|
| **定义方式** | 实现`__iter__`和`__next__`方法的类 | 使用`yield`的函数 |
| **代码复杂度** | 相对复杂，需要手动管理状态 | 简单，Python自动管理状态 |
| **内存使用** | 节省内存 | 节省内存 |
| **使用场景** | 需要复杂逻辑控制时 | 大多数情况下的首选 |
| **性能** | 稍快 | 稍慢（但差别很小） |

In [None]:
# 同样功能的迭代器 vs 生成器对比

# 迭代器版本（复杂）
class SquareIterator:
    def __init__(self, max_num):
        self.max_num = max_num
        self.current = 0
    
    def __iter__(self):
        return self
    
    def __next__(self):
        if self.current >= self.max_num:
            raise StopIteration
        result = self.current ** 2
        self.current += 1
        return result

# 生成器版本（简单）
def square_generator(max_num):
    for i in range(max_num):
        yield i ** 2

# 使用对比
print("迭代器结果:", list(SquareIterator(5)))
print("生成器结果:", list(square_generator(5)))

## 常见陷阱和注意事项

### 1. 生成器只能使用一次

In [None]:
# 生成器的"一次性"特点
def my_generator():
    yield 1
    yield 2
    yield 3

gen = my_generator()
print("第一次遍历:", list(gen))
print("第二次遍历:", list(gen))  # 空的！因为生成器已经耗尽了

# 解决方法：重新创建生成器
gen = my_generator()
print("重新创建后:", list(gen))

### 2. 生成器的延迟执行

In [None]:
def lazy_generator():
    print("开始执行生成器")
    for i in range(3):
        print(f"准备生成 {i}")
        yield i
        print(f"已经生成 {i}")

print("创建生成器...")
gen = lazy_generator()  # 这里不会有任何输出！

print("开始使用生成器...")
for value in gen:
    print(f"获得值: {value}")
    print("---")

## 总结

### 什么时候使用迭代器和生成器？

**使用生成器的场景：**
- 处理大量数据时（节省内存）
- 需要按需计算时（提高效率）
- 创建数据流管道时
- 处理可能无限的序列时

**使用迭代器的场景：**
- 需要复杂的状态管理时
- 需要实现特殊的迭代逻辑时
- 创建可重用的迭代器类时

### 记住这些要点：
1. **生成器是创建迭代器的简单方法**
2. **`yield`是暂停键，`next()`是播放键**
3. **生成器节省内存，延迟计算**
4. **生成器只能使用一次**
5. **大多数情况下，优先选择生成器**

现在你已经掌握了Python中迭代器和生成器的基本概念！它们是Python中非常强大的工具，能帮你写出更高效、更优雅的代码。